框架匹配導(dǎo)向下的網(wǎng)絡(luò)文本分析過濾算法研究
【摘要】 隨著互聯(lián)網(wǎng)的飛速發(fā)展,信息過濾已成為信息系統(tǒng)科學(xué)領(lǐng)域的技術(shù)焦點。從過濾技術(shù)角度來看,傳統(tǒng)文本過濾技術(shù)絕大多數(shù)是基于關(guān)鍵字的過濾技術(shù)和基于詞頻統(tǒng)計方法的過濾技術(shù)。這兩種過濾方法比較簡單實用,但僅僅停留在文本結(jié)構(gòu)層次上而無法體現(xiàn)文本語義,故過濾效果很難實現(xiàn)智能化。為解決上述問題,本文提出一種基于語義框架匹配的文本過濾算法。該算法的核心內(nèi)容包括:對目標(biāo)文本進(jìn)行分詞、詞性標(biāo)注、特征提取、語義框架提取和語義框架問的相似度計算。在提取關(guān)鍵文本階段,根據(jù)網(wǎng)頁元素對正文主題支撐程度的不同,本文將網(wǎng)頁分為兩層,其中標(biāo)題作為第一層,正文作為第二層,層次較高的元素權(quán)重也相對較大。在進(jìn)行文本處理階段,首先對語句進(jìn)行分詞及詞性標(biāo)注。然后,借助語法規(guī)則庫與分詞結(jié)果中存儲的詞性和詞在句子中的位置信息,區(qū)分出關(guān)鍵詞(主謂賓)并填充語義框架,最后將待過濾文本的語義框架同樣本的語義框架進(jìn)行相似度計算。其中,在進(jìn)行相似度計算時,該算法對權(quán)重計算策略進(jìn)行了改進(jìn)和優(yōu)化,主要綜合考慮三種因素,即框架元素與行為動詞之間的語義距離、框架元素的相關(guān)度與層級結(jié)構(gòu)。試驗結(jié)果表明,與傳統(tǒng)算法相比較,該算法在對文本進(jìn)行有效的降維處理基礎(chǔ)之上,使文本的查全率和查準(zhǔn)率得到有效的提高。基于上述文本過濾算法,本文設(shè)計實現(xiàn)了基于語義框架匹配的短文本過濾系統(tǒng)。試驗表明,本系統(tǒng)的性能和過濾效果得到有效的提高。
1緒論
1.1研究背景和意義
在我們受益于信息化給我們帶來的種種好處之時,由于全社會對于信息化技術(shù)的過度依賴,導(dǎo)致信息安全問題層出不窮。一方面,面對龐大的信息世界與雜亂無序的超級鏈接,用戶在搜索查找目標(biāo)信息時感到非常困難并花費大量時間;另一方面,用戶通過各種渠道獲取或分享網(wǎng)絡(luò)資源的同時也不可避免地使大量的網(wǎng)絡(luò)“垃圾”如不良信息、病毒郵件等侵入他們的生活,造成極其嚴(yán)重的后果。據(jù)有關(guān)機(jī)構(gòu)調(diào)查,青少年訪問過不良網(wǎng)站,其中少部分頻繁瀏覽該類網(wǎng)頁,嚴(yán)重影響青少年的健康發(fā)展。所以,目前的關(guān)鍵工作就是要對互聯(lián)網(wǎng)進(jìn)行合理管理,去其糟粕取其精華,將信息資源中的無用或不良信息過濾掉,給用戶一個綠色的網(wǎng)絡(luò)空間。為了實現(xiàn)這一目標(biāo),信息過濾技術(shù)應(yīng)運而生。
1.2研究現(xiàn)狀
文本過濾技術(shù)源自在面向圖書館的用戶需求管理工作時提出的“商業(yè)智能機(jī)器”設(shè)想,該設(shè)想為文本過濾的發(fā)展奠定了一定基礎(chǔ);诖,首次以電子郵件系統(tǒng)為例對信息過濾進(jìn)行描述,通過“內(nèi)容過濾器”實現(xiàn)過濾機(jī)制;等人設(shè)計出該系統(tǒng),并建立信息選擇模式;而后的階段,信息過濾得到該領(lǐng)域的普遍關(guān)注,第一屆會議就提出在信息選擇過程中采用信息抽取技術(shù),積極發(fā)揮自然語言處理技術(shù)在文本過濾領(lǐng)域中的強(qiáng)大作用。提出一種語義傾向性方法,使用一個詞和強(qiáng)烈表示正面傾向信息,減去它和強(qiáng)烈表示負(fù)面信息,計算這個詞的語義傾向。如果一篇評論中所有詞的語義傾向值之和為正,那么判斷評論為正面的,否則判斷為反面的。等人提出了一個情感分析器主要對句子進(jìn)行語法分析,然后利用情感詞匯表和情感模式庫分析句子的語義關(guān)系,主要是針對結(jié)構(gòu)簡單的文檔進(jìn)行過濾。
...............
2信息過濾技術(shù)
2.1信息過濾理論基礎(chǔ)
信息過濾是信息檢索的一個重要分支學(xué)科。美國計算機(jī)科學(xué)家認(rèn)為信息過濾是建立在檢索的基礎(chǔ)之上,以滿足用戶信息需求為目的,在動態(tài)文本流中主動副除其他不良信息,搜索有效信息的過程等學(xué)者認(rèn)為信息過濾用于管理大批信息流,旨在為用戶提供需求信息。經(jīng)過研究分析,信息過濾的實質(zhì)是將用戶需求模板與動態(tài)信息流進(jìn)行匹配計算,并抽取有用信息傳送給用戶。信息過濾可描述為一個二值分類問題。即設(shè)待過濾文本內(nèi)容為存在兩個文檔類:不良信息類與其他信息類,信息過濾的實質(zhì)是將待過濾文本集合歸劃到類或者類中,然后將劃到不良信息類的文檔過濾掉。
2.2信息過濾技術(shù)
關(guān)鍵字匹配過濾技術(shù)是一種基礎(chǔ)的文本過濾技術(shù),因其方便、快捷的特點,國內(nèi)普遍采用關(guān)鍵詞技術(shù)過濾網(wǎng)絡(luò)不良信息〗。其主要思想是對待分析過濾文本內(nèi)容進(jìn)行預(yù)處理,同用戶詞庫進(jìn)行比對并統(tǒng)計結(jié)果,如果結(jié)果超過設(shè)定的閾值,那么說明文本內(nèi)容屬于不良內(nèi)容信息,則要被過濾,反之則放行。該技術(shù)的基礎(chǔ)是創(chuàng)建一個龐大的關(guān)鍵詞列表,并保證不斷更新。關(guān)鍵詞匹配算法中常用布爾模型和向量空間模型。布爾模型的主要思想是抓取特征詞匯對其進(jìn)行邏輯運算,最后進(jìn)行相應(yīng)的文本處理。其中,一般要找最能體現(xiàn)該文本的關(guān)鍵詞或特征項來作為特征詞匯。向量空間模型將文本和用戶需求轉(zhuǎn)換為向量形式后判斷待過濾文本與用戶需求模板之間的相似度同設(shè)定的閾值的大小,按照結(jié)果執(zhí)行過濾或放行指令。這種模型體系簡單且較好實現(xiàn)用戶需求,但沒有添加權(quán)重計算,不能加入人工調(diào)節(jié),所以導(dǎo)致過濾效果不容易在控制范圍內(nèi)。

3基于框架匹配的文本分析....................10
3.1中文分詞.......................10
3.2幾種常用的分詞方法.................11
4網(wǎng)絡(luò)文本過濾系統(tǒng)系統(tǒng)........................22
4.1設(shè)計方案.......22
4.2系統(tǒng)的功能設(shè)計....22
5總結(jié)與展望............45
5.1工作總結(jié).......................45
5.2工作展望.....................45
4網(wǎng)絡(luò)文本過濾系統(tǒng)系統(tǒng)
4.1設(shè)計方案
在代理服務(wù)器轉(zhuǎn)發(fā)網(wǎng)絡(luò)數(shù)據(jù)包時,可從語義的角度出發(fā),對目標(biāo)文本進(jìn)行過濾。基于這種思想建立的相關(guān)系統(tǒng)首先從自然語言學(xué)的角度出發(fā),對樣本文本與待過濾文本分別進(jìn)行分詞、詞性標(biāo)注以及特征提取。其次,依據(jù)格語法知識構(gòu)建樣本文本與待過濾文本的語義框架,使之充分體現(xiàn)原始文本的語義關(guān)系。再次,按照漢語的語法知識,采用語義距離函數(shù)及框架相似度計算公式。最后,基于給定的樣本訓(xùn)練與人為的調(diào)整,找到合適的參數(shù)和閾值,從而判斷文本是否被過濾,達(dá)到高查準(zhǔn)率、高查全率。
4.2系統(tǒng)的功能設(shè)計
如上圖所示,本系統(tǒng)主要分為兩大部分:網(wǎng)絡(luò)監(jiān)控和文本過濾。這兩大部分都由系統(tǒng)控制模塊控制、協(xié)調(diào)并對整個運行進(jìn)行管理。系統(tǒng)控制模塊主要對系統(tǒng)進(jìn)行初始化設(shè)置,并為各模塊分配系統(tǒng)需求的資源。其工作流程為:首先,連接數(shù)據(jù)庫,然后讀取網(wǎng)絡(luò)訪問記錄日志表中過濾規(guī)則表的歷史記錄。最后,創(chuàng)建內(nèi)存映射文件,以便在系統(tǒng)的各個模塊間共享數(shù)據(jù)。其中,網(wǎng)絡(luò)監(jiān)控部分主要針對網(wǎng)絡(luò)訪問權(quán)限及內(nèi)容進(jìn)行有效的管理控制。代理模塊的主要功能是轉(zhuǎn)發(fā)建立客戶機(jī)與目標(biāo)服務(wù)器之間頁請求和應(yīng)答信息,并提供內(nèi)部子網(wǎng)和的實際網(wǎng)絡(luò)通訊。網(wǎng)絡(luò)數(shù)據(jù)包過濾模塊的主要功能是過濾禁用的地址與網(wǎng)絡(luò)數(shù)據(jù)包。內(nèi)容重現(xiàn)模塊的主要功能是存儲和重現(xiàn)己訪問的網(wǎng)頁內(nèi)容。
............
5總結(jié)與展望
5.1工作總結(jié)
在基于框架匹配實現(xiàn)網(wǎng)絡(luò)文本過濾系統(tǒng)的過程中,本文基于代理服務(wù)器實現(xiàn)一個頁文本語義過濾系統(tǒng),系統(tǒng)能夠?qū)崿F(xiàn)網(wǎng)絡(luò)監(jiān)測與文本過濾。其中,網(wǎng)絡(luò)監(jiān)測過程中,主要采用應(yīng)用代理技術(shù)實現(xiàn)網(wǎng)頁訪問代理,使用技術(shù)從網(wǎng)絡(luò)層抓取數(shù)據(jù)包,根據(jù)用戶的設(shè)置并依托于網(wǎng)絡(luò)層,分別從地址、協(xié)議與端口號的角度出發(fā),對數(shù)據(jù)包進(jìn)行過濾。在這一過程中,文本過濾系統(tǒng)通過代理服務(wù)器對客戶機(jī)頁面的訪問請求進(jìn)行攔截,并對放行后存儲訪問過的頁面進(jìn)行判斷,最終可以實現(xiàn)內(nèi)容重現(xiàn);在文本過濾過程中,文中釆用多級過濾機(jī)制,依托于網(wǎng)絡(luò)層對數(shù)據(jù)包進(jìn)行過濾,并且對于截獲后的數(shù)據(jù)包基于地址、端口等途徑進(jìn)行控制訪問。與此同時,依托于應(yīng)用層,文中采用代理技術(shù)對目標(biāo)服務(wù)器頁中關(guān)鍵字進(jìn)行過濾,并基于語義的文本過濾對只包含關(guān)鍵字的文本進(jìn)行過濾。實驗結(jié)果表明文本過濾過程中的查準(zhǔn)率和查全率得到了提高。
5.2工作展望
所創(chuàng)建的相關(guān)算法和系統(tǒng)中,對于精確分詞具有一定的局限性,對于未登錄詞以及停用詞都有一定的障礙,未來可以在行為主體、中心動詞以及行為客體的基礎(chǔ)之上,進(jìn)一步提取行為情境、行為時間等框架角色,創(chuàng)建精確度高及多元化的語義框架提取方法;本文所采用的相關(guān)實例是針對一部分領(lǐng)域(包括政治、經(jīng)濟(jì)等)中的相對簡單的短文本進(jìn)行取樣驗證,而網(wǎng)絡(luò)信息所覆蓋的領(lǐng)域廣泛,為了使得文章所提出的相關(guān)方法和理論能夠適用于更多的對象,未來需對復(fù)雜文本進(jìn)行算法分析。
.................
參考文獻(xiàn):
- [1] 王景中,郭兆亮. 基于分層的中文Web文本內(nèi)容過濾研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2012(11)
- [2] 桑書娟,王敏. 一種結(jié)合文檔頻率和互信息的特征項提取方法[J]. 電腦知識與技術(shù). 2012(11)
- [3] 彭昱忠,元昌安,王艷,覃曉. 基于內(nèi)容理解的不良信息過濾技術(shù)研究[J]. 計算機(jī)應(yīng)用研究. 2009(02)
- [4] 陶明忠,馬玉蕾. 框架網(wǎng)絡(luò)與漢語信息處理[J]. 語言文字應(yīng)用. 2007(04)
- [5] 唐堅剛,熊國萍. 基于語義的關(guān)鍵詞過濾權(quán)重算法[J]. 微計算機(jī)信息. 2007(27)
- [6] 彭作民. 一個基于語義分析的文本過濾方法[J]. 計算機(jī)與信息技術(shù). 2007(09)
- [7] 馮志偉. 從格語法到框架網(wǎng)絡(luò)[J]. 解放軍外國語學(xué)院學(xué)報. 2006(03)
- [8] 周彬,伍忠東,喻建平. 基于語義鏈的色情網(wǎng)頁過濾系統(tǒng)[J]. 蘭州交通大學(xué)學(xué)報. 2006(01)
- [9] 沈麗虹,周昌樂. 基于語義空間的支持向量機(jī)的文本過濾[J]. 計算機(jī)應(yīng)用. 2005(03)
- [10] 江寶林,劉永丹,金峰,葛家翔,胡運發(fā). 一個基于語義分析的傾向性文檔過濾系統(tǒng)[J]. 計算機(jī)應(yīng)用與軟件. 2005(01)
本文編號:9231
本文鏈接:http://www.lk138.cn/shoufeilunwen/shuoshibiyelunwen/9231.html