框架匹配導向下的網絡文本分析過濾算法研究

發(fā)布時間：2014-09-26 09:31

【摘要】隨著互聯網的飛速發(fā)展,信息過濾已成為信息系統科學領域的技術焦點。從過濾技術角度來看,傳統文本過濾技術絕大多數是基于關鍵字的過濾技術和基于詞頻統計方法的過濾技術。這兩種過濾方法比較簡單實用,但僅僅停留在文本結構層次上而無法體現文本語義,故過濾效果很難實現智能化。為解決上述問題,本文提出一種基于語義框架匹配的文本過濾算法。該算法的核心內容包括：對目標文本進行分詞、詞性標注、特征提取、語義框架提取和語義框架問的相似度計算。在提取關鍵文本階段,根據網頁元素對正文主題支撐程度的不同,本文將網頁分為兩層,其中標題作為第一層,正文作為第二層,層次較高的元素權重也相對較大。在進行文本處理階段,首先對語句進行分詞及詞性標注。然后,借助語法規(guī)則庫與分詞結果中存儲的詞性和詞在句子中的位置信息,區(qū)分出關鍵詞(主謂賓)并填充語義框架,最后將待過濾文本的語義框架同樣本的語義框架進行相似度計算。其中,在進行相似度計算時,該算法對權重計算策略進行了改進和優(yōu)化,主要綜合考慮三種因素,即框架元素與行為動詞之間的語義距離、框架元素的相關度與層級結構。試驗結果表明,與傳統算法相比較,該算法在對文本進行有效的降維處理基礎之上,使文本的查全率和查準率得到有效的提高�；谏鲜鑫谋具^濾算法,本文設計實現了基于語義框架匹配的短文本過濾系統。試驗表明,本系統的性能和過濾效果得到有效的提高。

【關鍵詞】文本過濾；語義框架；層次結構；相似度計算；

1緒論

1.1研究背景和意義
在我們受益于信息化給我們帶來的種種好處之時，由于全社會對于信息化技術的過度依賴，導致信息安全問題層出不窮。一方面，面對龐大的信息世界與雜亂無序的超級鏈接，用戶在搜索查找目標信息時感到非常困難并花費大量時間；另一方面，用戶通過各種渠道獲取或分享網絡資源的同時也不可避免地使大量的網絡“垃圾”如不良信息、病毒郵件等侵入他們的生活，造成極其嚴重的后果。據有關機構調查，青少年訪問過不良網站，其中少部分頻繁瀏覽該類網頁，嚴重影響青少年的健康發(fā)展。所以，目前的關鍵工作就是要對互聯網進行合理管理，去其糟粕取其精華，將信息資源中的無用或不良信息過濾掉，給用戶一個綠色的網絡空間。為了實現這一目標，信息過濾技術應運而生。

1.2研究現狀
文本過濾技術源自在面向圖書館的用戶需求管理工作時提出的“商業(yè)智能機器”設想，該設想為文本過濾的發(fā)展奠定了一定基礎�；诖�，首次以電子郵件系統為例對信息過濾進行描述，通過“內容過濾器”實現過濾機制；等人設計出該系統，并建立信息選擇模式；而后的階段，信息過濾得到該領域的普遍關注，第一屆會議就提出在信息選擇過程中采用信息抽取技術，積極發(fā)揮自然語言處理技術在文本過濾領域中的強大作用。提出一種語義傾向性方法，使用一個詞和強烈表示正面傾向信息，減去它和強烈表示負面信息，計算這個詞的語義傾向。如果一篇評論中所有詞的語義傾向值之和為正，那么判斷評論為正面的，否則判斷為反面的。等人提出了一個情感分析器主要對句子進行語法分析，然后利用情感詞匯表和情感模式庫分析句子的語義關系，主要是針對結構簡單的文檔進行過濾。
...............

2信息過濾技術

2.1信息過濾理論基礎
信息過濾是信息檢索的一個重要分支學科。美國計算機科學家認為信息過濾是建立在檢索的基礎之上，以滿足用戶信息需求為目的，在動態(tài)文本流中主動副除其他不良信息，搜索有效信息的過程等學者認為信息過濾用于管理大批信息流，旨在為用戶提供需求信息。經過研究分析，信息過濾的實質是將用戶需求模板與動態(tài)信息流進行匹配計算，并抽取有用信息傳送給用戶。信息過濾可描述為一個二值分類問題。即設待過濾文本內容為存在兩個文檔類：不良信息類與其他信息類，信息過濾的實質是將待過濾文本集合歸劃到類或者類中，然后將劃到不良信息類的文檔過濾掉。

2．2信息過濾技術
關鍵字匹配過濾技術是一種基礎的文本過濾技術，因其方便、快捷的特點，國內普遍采用關鍵詞技術過濾網絡不良信息〗。其主要思想是對待分析過濾文本內容進行預處理，同用戶詞庫進行比對并統計結果，如果結果超過設定的閾值，那么說明文本內容屬于不良內容信息，則要被過濾，反之則放行。該技術的基礎是創(chuàng)建一個龐大的關鍵詞列表，并保證不斷更新。關鍵詞匹配算法中常用布爾模型和向量空間模型。布爾模型的主要思想是抓取特征詞匯對其進行邏輯運算，最后進行相應的文本處理。其中，一般要找最能體現該文本的關鍵詞或特征項來作為特征詞匯。向量空間模型將文本和用戶需求轉換為向量形式后判斷待過濾文本與用戶需求模板之間的相似度同設定的閾值的大小，按照結果執(zhí)行過濾或放行指令。這種模型體系簡單且較好實現用戶需求，但沒有添加權重計算，不能加入人工調節(jié)，所以導致過濾效果不容易在控制范圍內。

3基于框架匹配的文本分析....................10
3.1中文分詞.......................10
3.2幾種常用的分詞方法.................11
4網絡文本過濾系統系統........................22
4.1設計方案.......22
4.2系統的功能設計....22
5總結與展望............45
5.1工作總結.......................45
5.2工作展望.....................45

4網絡文本過濾系統系統

4.1設計方案
在代理服務器轉發(fā)網絡數據包時，可從語義的角度出發(fā)，對目標文本進行過濾�；谶@種思想建立的相關系統首先從自然語言學的角度出發(fā)，對樣本文本與待過濾文本分別進行分詞、詞性標注以及特征提取。其次，依據格語法知識構建樣本文本與待過濾文本的語義框架，使之充分體現原始文本的語義關系。再次，按照漢語的語法知識，采用語義距離函數及框架相似度計算公式。最后，基于給定的樣本訓練與人為的調整，找到合適的參數和閾值，從而判斷文本是否被過濾，達到高查準率、高查全率。

4.2系統的功能設計
如上圖所示，本系統主要分為兩大部分：網絡監(jiān)控和文本過濾。這兩大部分都由系統控制模塊控制、協調并對整個運行進行管理。系統控制模塊主要對系統進行初始化設置，并為各模塊分配系統需求的資源。其工作流程為：首先，連接數據庫，然后讀取網絡訪問記錄日志表中過濾規(guī)則表的歷史記錄。最后，創(chuàng)建內存映射文件，以便在系統的各個模塊間共享數據。其中，網絡監(jiān)控部分主要針對網絡訪問權限及內容進行有效的管理控制。代理模塊的主要功能是轉發(fā)建立客戶機與目標服務器之間頁請求和應答信息，并提供內部子網和的實際網絡通訊。網絡數據包過濾模塊的主要功能是過濾禁用的地址與網絡數據包。內容重現模塊的主要功能是存儲和重現己訪問的網頁內容。
............

5總結與展望

5.1工作總結
在基于框架匹配實現網絡文本過濾系統的過程中，本文基于代理服務器實現一個頁文本語義過濾系統，系統能夠實現網絡監(jiān)測與文本過濾。其中，網絡監(jiān)測過程中，主要采用應用代理技術實現網頁訪問代理，使用技術從網絡層抓取數據包，根據用戶的設置并依托于網絡層，分別從地址、協議與端口號的角度出發(fā)，對數據包進行過濾。在這一過程中，文本過濾系統通過代理服務器對客戶機頁面的訪問請求進行攔截，并對放行后存儲訪問過的頁面進行判斷，最終可以實現內容重現；在文本過濾過程中，文中釆用多級過濾機制，依托于網絡層對數據包進行過濾，并且對于截獲后的數據包基于地址、端口等途徑進行控制訪問。與此同時，依托于應用層，文中采用代理技術對目標服務器頁中關鍵字進行過濾，并基于語義的文本過濾對只包含關鍵字的文本進行過濾。實驗結果表明文本過濾過程中的查準率和查全率得到了提高。

5.2工作展望
所創(chuàng)建的相關算法和系統中，對于精確分詞具有一定的局限性，對于未登錄詞以及停用詞都有一定的障礙，未來可以在行為主體、中心動詞以及行為客體的基礎之上，進一步提取行為情境、行為時間等框架角色，創(chuàng)建精確度高及多元化的語義框架提取方法；本文所采用的相關實例是針對一部分領域（包括政治、經濟等）中的相對簡單的短文本進行取樣驗證，而網絡信息所覆蓋的領域廣泛，為了使得文章所提出的相關方法和理論能夠適用于更多的對象，未來需對復雜文本進行算法分析。

.................

參考文獻:

[1] 王景中,郭兆亮. 基于分層的中文Web文本內容過濾研究[J]. 網絡安全技術與應用. 2012(11)
[2] 桑書娟,王敏. 一種結合文檔頻率和互信息的特征項提取方法[J]. 電腦知識與技術. 2012(11)
[3] 彭昱忠,元昌安,王艷,覃曉. 基于內容理解的不良信息過濾技術研究[J]. 計算機應用研究. 2009(02)
[4] 陶明忠,馬玉蕾. 框架網絡與漢語信息處理[J]. 語言文字應用. 2007(04)
[5] 唐堅剛,熊國萍. 基于語義的關鍵詞過濾權重算法[J]. 微計算機信息. 2007(27)
[6] 彭作民. 一個基于語義分析的文本過濾方法[J]. 計算機與信息技術. 2007(09)
[7] 馮志偉. 從格語法到框架網絡[J]. 解放軍外國語學院學報. 2006(03)
[8] 周彬,伍忠東,喻建平. 基于語義鏈的色情網頁過濾系統[J]. 蘭州交通大學學報. 2006(01)
[9] 沈麗虹,周昌樂. 基于語義空間的支持向量機的文本過濾[J]. 計算機應用. 2005(03)
[10] 江寶林,劉永丹,金峰,葛家翔,胡運發(fā). 一個基于語義分析的傾向性文檔過濾系統[J]. 計算機應用與軟件. 2005(01)

本文編號：9231

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/shoufeilunwen/shuoshibiyelunwen/9231.html

上一篇：既有鐵路電氣化改造施工工程監(jiān)理項目管理研究
下一篇：澳大利亞維州中小學漢語教學中ICT技術方法的應用研究

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

框架匹配導向下的網絡文本分析過濾算法研究