中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁 > 碩博論文 > 社科碩士論文 >

框架匹配導(dǎo)向下的網(wǎng)絡(luò)文本分析過濾算法研究

發(fā)布時(shí)間:2014-09-26 09:31

【摘要】 隨著互聯(lián)網(wǎng)的飛速發(fā)展,信息過濾已成為信息系統(tǒng)科學(xué)領(lǐng)域的技術(shù)焦點(diǎn)。從過濾技術(shù)角度來看,傳統(tǒng)文本過濾技術(shù)絕大多數(shù)是基于關(guān)鍵字的過濾技術(shù)和基于詞頻統(tǒng)計(jì)方法的過濾技術(shù)。這兩種過濾方法比較簡單實(shí)用,但僅僅停留在文本結(jié)構(gòu)層次上而無法體現(xiàn)文本語義,故過濾效果很難實(shí)現(xiàn)智能化。為解決上述問題,本文提出一種基于語義框架匹配的文本過濾算法。該算法的核心內(nèi)容包括:對(duì)目標(biāo)文本進(jìn)行分詞、詞性標(biāo)注、特征提取、語義框架提取和語義框架問的相似度計(jì)算。在提取關(guān)鍵文本階段,根據(jù)網(wǎng)頁元素對(duì)正文主題支撐程度的不同,本文將網(wǎng)頁分為兩層,其中標(biāo)題作為第一層,正文作為第二層,層次較高的元素權(quán)重也相對(duì)較大。在進(jìn)行文本處理階段,首先對(duì)語句進(jìn)行分詞及詞性標(biāo)注。然后,借助語法規(guī)則庫與分詞結(jié)果中存儲(chǔ)的詞性和詞在句子中的位置信息,區(qū)分出關(guān)鍵詞(主謂賓)并填充語義框架,最后將待過濾文本的語義框架同樣本的語義框架進(jìn)行相似度計(jì)算。其中,在進(jìn)行相似度計(jì)算時(shí),該算法對(duì)權(quán)重計(jì)算策略進(jìn)行了改進(jìn)和優(yōu)化,主要綜合考慮三種因素,即框架元素與行為動(dòng)詞之間的語義距離、框架元素的相關(guān)度與層級(jí)結(jié)構(gòu)。試驗(yàn)結(jié)果表明,與傳統(tǒng)算法相比較,該算法在對(duì)文本進(jìn)行有效的降維處理基礎(chǔ)之上,使文本的查全率和查準(zhǔn)率得到有效的提高;谏鲜鑫谋具^濾算法,本文設(shè)計(jì)實(shí)現(xiàn)了基于語義框架匹配的短文本過濾系統(tǒng)。試驗(yàn)表明,本系統(tǒng)的性能和過濾效果得到有效的提高。 

【關(guān)鍵詞】 文本過濾; 語義框架; 層次結(jié)構(gòu); 相似度計(jì)算; 

1緒論

1.1研究背景和意義
在我們受益于信息化給我們帶來的種種好處之時(shí),由于全社會(huì)對(duì)于信息化技術(shù)的過度依賴,導(dǎo)致信息安全問題層出不窮。一方面,面對(duì)龐大的信息世界與雜亂無序的超級(jí)鏈接,用戶在搜索查找目標(biāo)信息時(shí)感到非常困難并花費(fèi)大量時(shí)間;另一方面,用戶通過各種渠道獲取或分享網(wǎng)絡(luò)資源的同時(shí)也不可避免地使大量的網(wǎng)絡(luò)“垃圾”如不良信息、病毒郵件等侵入他們的生活,造成極其嚴(yán)重的后果。據(jù)有關(guān)機(jī)構(gòu)調(diào)查,青少年訪問過不良網(wǎng)站,其中少部分頻繁瀏覽該類網(wǎng)頁,嚴(yán)重影響青少年的健康發(fā)展。所以,目前的關(guān)鍵工作就是要對(duì)互聯(lián)網(wǎng)進(jìn)行合理管理,去其糟粕取其精華,將信息資源中的無用或不良信息過濾掉,給用戶一個(gè)綠色的網(wǎng)絡(luò)空間。為了實(shí)現(xiàn)這一目標(biāo),信息過濾技術(shù)應(yīng)運(yùn)而生。

1.2研究現(xiàn)狀
文本過濾技術(shù)源自在面向圖書館的用戶需求管理工作時(shí)提出的“商業(yè)智能機(jī)器”設(shè)想,該設(shè)想為文本過濾的發(fā)展奠定了一定基礎(chǔ);诖,首次以電子郵件系統(tǒng)為例對(duì)信息過濾進(jìn)行描述,通過“內(nèi)容過濾器”實(shí)現(xiàn)過濾機(jī)制;等人設(shè)計(jì)出該系統(tǒng),并建立信息選擇模式;而后的階段,信息過濾得到該領(lǐng)域的普遍關(guān)注,第一屆會(huì)議就提出在信息選擇過程中采用信息抽取技術(shù),積極發(fā)揮自然語言處理技術(shù)在文本過濾領(lǐng)域中的強(qiáng)大作用。提出一種語義傾向性方法,使用一個(gè)詞和強(qiáng)烈表示正面傾向信息,減去它和強(qiáng)烈表示負(fù)面信息,計(jì)算這個(gè)詞的語義傾向。如果一篇評(píng)論中所有詞的語義傾向值之和為正,那么判斷評(píng)論為正面的,否則判斷為反面的。等人提出了一個(gè)情感分析器主要對(duì)句子進(jìn)行語法分析,然后利用情感詞匯表和情感模式庫分析句子的語義關(guān)系,主要是針對(duì)結(jié)構(gòu)簡單的文檔進(jìn)行過濾。
...............

2信息過濾技術(shù)

2.1信息過濾理論基礎(chǔ)
信息過濾是信息檢索的一個(gè)重要分支學(xué)科。美國計(jì)算機(jī)科學(xué)家認(rèn)為信息過濾是建立在檢索的基礎(chǔ)之上,以滿足用戶信息需求為目的,在動(dòng)態(tài)文本流中主動(dòng)副除其他不良信息,搜索有效信息的過程等學(xué)者認(rèn)為信息過濾用于管理大批信息流,旨在為用戶提供需求信息。經(jīng)過研究分析,信息過濾的實(shí)質(zhì)是將用戶需求模板與動(dòng)態(tài)信息流進(jìn)行匹配計(jì)算,并抽取有用信息傳送給用戶。信息過濾可描述為一個(gè)二值分類問題。即設(shè)待過濾文本內(nèi)容為存在兩個(gè)文檔類:不良信息類與其他信息類,信息過濾的實(shí)質(zhì)是將待過濾文本集合歸劃到類或者類中,然后將劃到不良信息類的文檔過濾掉。

2.2信息過濾技術(shù)
關(guān)鍵字匹配過濾技術(shù)是一種基礎(chǔ)的文本過濾技術(shù),因其方便、快捷的特點(diǎn),國內(nèi)普遍采用關(guān)鍵詞技術(shù)過濾網(wǎng)絡(luò)不良信息〗。其主要思想是對(duì)待分析過濾文本內(nèi)容進(jìn)行預(yù)處理,同用戶詞庫進(jìn)行比對(duì)并統(tǒng)計(jì)結(jié)果,如果結(jié)果超過設(shè)定的閾值,那么說明文本內(nèi)容屬于不良內(nèi)容信息,則要被過濾,反之則放行。該技術(shù)的基礎(chǔ)是創(chuàng)建一個(gè)龐大的關(guān)鍵詞列表,并保證不斷更新。關(guān)鍵詞匹配算法中常用布爾模型和向量空間模型。布爾模型的主要思想是抓取特征詞匯對(duì)其進(jìn)行邏輯運(yùn)算,最后進(jìn)行相應(yīng)的文本處理。其中,一般要找最能體現(xiàn)該文本的關(guān)鍵詞或特征項(xiàng)來作為特征詞匯。向量空間模型將文本和用戶需求轉(zhuǎn)換為向量形式后判斷待過濾文本與用戶需求模板之間的相似度同設(shè)定的閾值的大小,按照結(jié)果執(zhí)行過濾或放行指令。這種模型體系簡單且較好實(shí)現(xiàn)用戶需求,但沒有添加權(quán)重計(jì)算,不能加入人工調(diào)節(jié),所以導(dǎo)致過濾效果不容易在控制范圍內(nèi)。

3基于框架匹配的文本分析....................10
3.1中文分詞.......................10
3.2幾種常用的分詞方法.................11
4網(wǎng)絡(luò)文本過濾系統(tǒng)系統(tǒng)........................22
4.1設(shè)計(jì)方案.......22
4.2系統(tǒng)的功能設(shè)計(jì)....22
5總結(jié)與展望............45
5.1工作總結(jié).......................45
5.2工作展望.....................45

4網(wǎng)絡(luò)文本過濾系統(tǒng)系統(tǒng)

4.1設(shè)計(jì)方案
在代理服務(wù)器轉(zhuǎn)發(fā)網(wǎng)絡(luò)數(shù)據(jù)包時(shí),可從語義的角度出發(fā),對(duì)目標(biāo)文本進(jìn)行過濾;谶@種思想建立的相關(guān)系統(tǒng)首先從自然語言學(xué)的角度出發(fā),對(duì)樣本文本與待過濾文本分別進(jìn)行分詞、詞性標(biāo)注以及特征提取。其次,依據(jù)格語法知識(shí)構(gòu)建樣本文本與待過濾文本的語義框架,使之充分體現(xiàn)原始文本的語義關(guān)系。再次,按照漢語的語法知識(shí),采用語義距離函數(shù)及框架相似度計(jì)算公式。最后,基于給定的樣本訓(xùn)練與人為的調(diào)整,找到合適的參數(shù)和閾值,從而判斷文本是否被過濾,達(dá)到高查準(zhǔn)率、高查全率。

4.2系統(tǒng)的功能設(shè)計(jì)
如上圖所示,本系統(tǒng)主要分為兩大部分:網(wǎng)絡(luò)監(jiān)控和文本過濾。這兩大部分都由系統(tǒng)控制模塊控制、協(xié)調(diào)并對(duì)整個(gè)運(yùn)行進(jìn)行管理。系統(tǒng)控制模塊主要對(duì)系統(tǒng)進(jìn)行初始化設(shè)置,并為各模塊分配系統(tǒng)需求的資源。其工作流程為:首先,連接數(shù)據(jù)庫,然后讀取網(wǎng)絡(luò)訪問記錄日志表中過濾規(guī)則表的歷史記錄。最后,創(chuàng)建內(nèi)存映射文件,以便在系統(tǒng)的各個(gè)模塊間共享數(shù)據(jù)。其中,網(wǎng)絡(luò)監(jiān)控部分主要針對(duì)網(wǎng)絡(luò)訪問權(quán)限及內(nèi)容進(jìn)行有效的管理控制。代理模塊的主要功能是轉(zhuǎn)發(fā)建立客戶機(jī)與目標(biāo)服務(wù)器之間頁請(qǐng)求和應(yīng)答信息,并提供內(nèi)部子網(wǎng)和的實(shí)際網(wǎng)絡(luò)通訊。網(wǎng)絡(luò)數(shù)據(jù)包過濾模塊的主要功能是過濾禁用的地址與網(wǎng)絡(luò)數(shù)據(jù)包。內(nèi)容重現(xiàn)模塊的主要功能是存儲(chǔ)和重現(xiàn)己訪問的網(wǎng)頁內(nèi)容。
............

5總結(jié)與展望

5.1工作總結(jié)
在基于框架匹配實(shí)現(xiàn)網(wǎng)絡(luò)文本過濾系統(tǒng)的過程中,本文基于代理服務(wù)器實(shí)現(xiàn)一個(gè)頁文本語義過濾系統(tǒng),系統(tǒng)能夠?qū)崿F(xiàn)網(wǎng)絡(luò)監(jiān)測與文本過濾。其中,網(wǎng)絡(luò)監(jiān)測過程中,主要采用應(yīng)用代理技術(shù)實(shí)現(xiàn)網(wǎng)頁訪問代理,使用技術(shù)從網(wǎng)絡(luò)層抓取數(shù)據(jù)包,根據(jù)用戶的設(shè)置并依托于網(wǎng)絡(luò)層,分別從地址、協(xié)議與端口號(hào)的角度出發(fā),對(duì)數(shù)據(jù)包進(jìn)行過濾。在這一過程中,文本過濾系統(tǒng)通過代理服務(wù)器對(duì)客戶機(jī)頁面的訪問請(qǐng)求進(jìn)行攔截,并對(duì)放行后存儲(chǔ)訪問過的頁面進(jìn)行判斷,最終可以實(shí)現(xiàn)內(nèi)容重現(xiàn);在文本過濾過程中,文中釆用多級(jí)過濾機(jī)制,依托于網(wǎng)絡(luò)層對(duì)數(shù)據(jù)包進(jìn)行過濾,并且對(duì)于截獲后的數(shù)據(jù)包基于地址、端口等途徑進(jìn)行控制訪問。與此同時(shí),依托于應(yīng)用層,文中采用代理技術(shù)對(duì)目標(biāo)服務(wù)器頁中關(guān)鍵字進(jìn)行過濾,并基于語義的文本過濾對(duì)只包含關(guān)鍵字的文本進(jìn)行過濾。實(shí)驗(yàn)結(jié)果表明文本過濾過程中的查準(zhǔn)率和查全率得到了提高。

5.2工作展望
所創(chuàng)建的相關(guān)算法和系統(tǒng)中,對(duì)于精確分詞具有一定的局限性,對(duì)于未登錄詞以及停用詞都有一定的障礙,未來可以在行為主體、中心動(dòng)詞以及行為客體的基礎(chǔ)之上,進(jìn)一步提取行為情境、行為時(shí)間等框架角色,創(chuàng)建精確度高及多元化的語義框架提取方法;本文所采用的相關(guān)實(shí)例是針對(duì)一部分領(lǐng)域(包括政治、經(jīng)濟(jì)等)中的相對(duì)簡單的短文本進(jìn)行取樣驗(yàn)證,而網(wǎng)絡(luò)信息所覆蓋的領(lǐng)域廣泛,為了使得文章所提出的相關(guān)方法和理論能夠適用于更多的對(duì)象,未來需對(duì)復(fù)雜文本進(jìn)行算法分析。

................. 

參考文獻(xiàn):



本文編號(hào):9231

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/shoufeilunwen/shuoshibiyelunwen/9231.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f597c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com