中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于IQABC改進的DBSCAN網(wǎng)頁正文提取算法研究

發(fā)布時間:2020-05-23 15:38
【摘要】:隨著信息技術的發(fā)展,每天會都產(chǎn)生數(shù)以萬計的網(wǎng)頁信息。這些網(wǎng)頁除了提供有價值的正文內容信息外,還會附帶廣告或鏈接等無用信息。一方面,這些垃圾信息會干擾用戶獲取有效信息的效率,影響閱讀體驗;另一方面,垃圾信息中包含的無用文字可能會被搜索引擎作為索引關鍵字,導致搜索引擎得出錯誤結論,給用戶錯誤反饋;贒OM樹解析-模板方式是當下流行的網(wǎng)頁正文提取算法,能夠很好完成分類任務。由于網(wǎng)站的網(wǎng)頁結構經(jīng)常性改變,其需要不斷監(jiān)測網(wǎng)頁結構,后期的維護帶來了很大困難。本文通過研究網(wǎng)頁結構,提出了基于IQABC(improved quickly artificial bee colony)改進的DBSCAN網(wǎng)頁正文提取算法。本文主要工作與成果如下:(1)本文提出了一種全新的ABC算法,稱為改進的快速ABC算法(IQABC),通過改進輪盤賭選擇機制,在保持種群多樣性的同時避免陷入局部最優(yōu),并且通過自適應步長改變了雇傭蜂消耗最佳食物來源,平衡了全局與局部的搜索能力,加快了后期的收斂速度。通過改進后的IQABC算法尋找的全局最優(yōu)參數(shù),作為DBSCAN算法的輸入得到了優(yōu)化后的IQABC-DBSCAN算法。(2)通過研究現(xiàn)有的主流網(wǎng)頁正文提取算法的思想,指出了現(xiàn)有的主流算法通用性不足的缺點,提出了基于iqABC-DBSCAN網(wǎng)頁正文提取算法。通過實驗驗證了iqABC算法相對于ABC和qABC算法有更快的收斂速度以及更好的收斂精度。并驗證了使用基于iqABC-DBSCAN對網(wǎng)頁進行正文內容提取的算法可以更加準確的提取出網(wǎng)頁的正文內容,并且通過虛詞過濾器可以解決單個網(wǎng)頁多個正文的特殊情況,從而取得很好的提取效果。
【圖文】:

收斂性,函數(shù),武漢郵電科學研究院,碩士學位論文


武漢郵電科學研究院碩士學位論文算法產(chǎn)生的平均最佳目標函數(shù)值,,特別是對于前 2,000 次評估。如果優(yōu)化的問題需要快速的結果,IQABC 算法的求解能力變得更加明顯。

收斂性,函數(shù),目標函數(shù)


算法產(chǎn)生的平均最佳目標函數(shù)值,特別是對于前 2,000 次評估。如果優(yōu)化的問題需要快速的結果,IQABC 算法的求解能力變得更加明顯。圖 3-1 Ackley 函數(shù)收斂性
【學位授予單位】:武漢郵電科學研究院
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.1;TP18

【相似文獻】

相關期刊論文 前10條

1 宋董飛;徐華;;DBSCAN算法研究及并行化實現(xiàn)[J];計算機工程與應用;2018年24期

2 寧建飛;;基于spark框架的DBSCAN文本聚類算法[J];汕頭大學學報(自然科學版);2018年02期

3 李贊;王朝霞;隋昊;;基于DBSCAN算法的機場體系劃分方法研究[J];兵器裝備工程學報;2018年10期

4 張曉;;基于并查集的DBSCAN算法設計[J];伊犁師范學院學報(自然科學版);2014年04期

5 許芳芳;;一種結合蟻群聚類算法的DBSCAN算法[J];池州學院學報;2014年06期

6 金棟;文志信;吳天昊;;DBSCAN算法在通信電臺關聯(lián)上的應用[J];艦船電子工程;2011年06期

7 金棟;文志信;吳天昊;;DBSCAN算法在通信電臺關聯(lián)上的應用[J];國防科技;2011年03期

8 岳士弘,李平,郭繼東,周水庚;Using Greedy algorithm: DBSCAN revisited II[J];Journal of Zhejiang University Science;2004年11期

9 魯飛;王任;翁維波;陳明;涂志龍;;DBSCAN算法在無線網(wǎng)絡優(yōu)化中的應用[J];移動通信;2018年12期

10 熊回香;葉佳鑫;蔣武軒;;改進的DBSCAN聚類算法在社會化標注中的應用[J];數(shù)據(jù)分析與知識發(fā)現(xiàn);2018年12期

相關會議論文 前10條

1 朵春紅;王翠茹;;基于取樣的DBSCAN聚類算法及其遺傳優(yōu)化[A];第一屆中國高校通信類院系學術研討會論文集[C];2007年

2 王李_g;孫斌;;基于改進的DBSCAN聚類算法的云任務調度策略研究[A];2016年全國通信軟件學術會議程序冊與交流文集[C];2016年

3 王紀凱;Chen Zong-hai;;A Novel Line Segments Extraction Algorithm Based on DBSCAN Method[A];第19屆中國系統(tǒng)仿真技術及其應用學術年會論文集(19th CCSSTA 2018)[C];2018年

4 馬帥;宋國杰;唐世渭;楊冬青;王騰蛟;;基于單元劃分的DBSCAN聚類算法[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年

5 宮蕊;舒紅平;郭遠遠;;基于DBSCAN的密度聚類算法的研究[A];2008'中國信息技術與應用學術論壇論文集(二)[C];2008年

6 龐洋;李海林;郭義喜;;基于DBSCAN算法的日志信息聚類研究[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用(CACIS)學術會議論文集[C];2007年

7 Yi-Chun Xu;Man Zhu;Zunhai Ke;Yong Liu;Suifa Sun;;Isolating Ships from Shape Curve with DBSCAN[A];第25屆中國控制與決策會議論文集[C];2013年

8 張健沛;許慧;楊靜;崔洪晶;;基于數(shù)據(jù)分區(qū)、QR~*-樹的并行DBSCAN算法[A];2006北京地區(qū)高校研究生學術交流會——通信與信息技術會議論文集(下)[C];2006年

9 ZhenYao Zhang;JianYing Zheng;Xiang Wang;XueLiang Fan;;Background Filtering and Vehicle Detection with Roadside Lidar Based on Point Association[A];第37屆中國控制會議論文集(E)[C];2018年

10 范曄;周水庚;曹晶;周傲英;;通過數(shù)據(jù)取樣擴展基于密度的聚類算法[A];第十六屆全國數(shù)據(jù)庫學術會議論文集[C];1999年

相關博士學位論文 前5條

1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年

2 孫志偉;空間數(shù)據(jù)聚類的研究[D];天津大學;2007年

3 張樹凱;基于數(shù)據(jù)驅動的無人船艇航線自動生成[D];大連海事大學;2016年

4 任亞洲;高維數(shù)據(jù)上的聚類方法研究[D];華南理工大學;2014年

5 鄭曉峰;道路運輸信息系統(tǒng)的數(shù)據(jù)挖掘方法研究與應用[D];華南理工大學;2014年

相關碩士學位論文 前10條

1 洪鴻輝;基于IQABC改進的DBSCAN網(wǎng)頁正文提取算法研究[D];武漢郵電科學研究院;2019年

2 普蓉;基于網(wǎng)格和密度比的DBSCAN算法研究[D];遼寧大學;2018年

3 秦佳睿;DBSCAN聚類算法的改進及在數(shù)據(jù)分析系統(tǒng)中的應用[D];長沙理工大學;2017年

4 譚天;基于DBSCAN聚類的證據(jù)融合方法研究[D];湖南大學;2018年

5 朱子龍;基于Spark的聚類算法實現(xiàn)與應用[D];南京郵電大學;2018年

6 高玉強;DBSCAN算法研究及其在專利文本推薦系統(tǒng)中的應用[D];河北工業(yè)大學;2016年

7 陳碧麗;基于DBSCAN聚類算法的廈門島內餐飲集群識別與集群空間特征研究[D];廈門大學;2017年

8 董一強;基于DBSCAN改進算法的時空軌跡聚類分析與研究[D];天津大學;2018年

9 劉勇;基于DBSCAN的空間聚類算法研究與實現(xiàn)[D];云南大學;2017年

10 吳俊;基于DBSCAN和LOF的網(wǎng)絡入侵異常檢測算法優(yōu)化研究[D];福州大學;2017年



本文編號:2677570

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/2677570.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶04c7b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com