中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于WEB信息采集的分布式網(wǎng)絡爬蟲搜索引擎的研究

發(fā)布時間:2016-07-30 10:15

  本文關鍵詞:基于WEB信息采集的分布式網(wǎng)絡爬蟲搜索引擎的研究,由筆耕文化傳播整理發(fā)布。


《吉林大學》 2009年

基于WEB信息采集的分布式網(wǎng)絡爬蟲搜索引擎的研究

李春生  

【摘要】: 隨著網(wǎng)絡技術的發(fā)展,Web上的信息海量增加,人們對信息的需求也不斷加大,使得專門負責Web信息采集的網(wǎng)絡爬蟲技術面臨著巨大的挑戰(zhàn)。單機的網(wǎng)絡爬蟲在很多情況下已經(jīng)難當重任,分布式網(wǎng)絡爬蟲以其單機網(wǎng)絡爬蟲無法比擬的信息采集速度和規(guī)模,滿足了人們日益增長的對Web信息面向用戶的需求。 分布式系統(tǒng)研究中最重要的是設計構架和關鍵技術的解決。在吸取了他人技術和經(jīng)驗的基礎上,本文設計并描述了一個分布式網(wǎng)絡爬蟲的結構,其中包括硬件的構架和軟件的模塊劃分。硬件部分由一臺PC機做控制節(jié)點,N臺PC機作爬行節(jié)點,在局域網(wǎng)中連接。軟件部分又分為控制節(jié)點軟件設計和爬行節(jié)點軟件設計。 然后本文描述了分布式系統(tǒng)的關鍵技術的解決方法。系統(tǒng)采用了二級哈希映射算法使分布式系統(tǒng)能高效的進行任務分割,使用消息通信使節(jié)點協(xié)同工作,用非阻塞套接字在節(jié)點間傳遞URL。最終實現(xiàn)了一個具備健壯性、可擴展性、可配置性的分布式網(wǎng)絡爬蟲系統(tǒng),并就該分布式網(wǎng)絡爬蟲系統(tǒng)進行了仔細的剖析。

【關鍵詞】:
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2009
【分類號】:TP391.3
【目錄】:

  • 提要4-7
  • 第1章 緒 論7-9
  • 1.1 課題背景及意義7
  • 1.2 本文主要工作內容7-8
  • 1.3 論文組織結構8-9
  • 第2章 分布式網(wǎng)絡爬蟲相關知識9-15
  • 2.1 搜索引擎相關知識9-13
  • 2.1.1 搜索引擎基本工作原理9-10
  • 2.1.2 集中式爬蟲工作方式10-11
  • 2.1.3 分布式爬蟲的工作方式11-12
  • 2.1.4 分布式系統(tǒng)的優(yōu)缺點12-13
  • 2.2 分布式網(wǎng)絡爬蟲研究現(xiàn)狀13-14
  • 2.3 本章小結14-15
  • 第3章 系統(tǒng)功能分析與結構設計15-23
  • 3.1 分布式網(wǎng)絡爬蟲的設計要求15-16
  • 3.2 分布式網(wǎng)絡爬蟲的幾種拓撲結構16-19
  • 3.2.1 中心化拓撲結構16-17
  • 3.2.2 全分布式非結構化拓撲結構17
  • 3.2.3 半分布式拓撲結構17-18
  • 3.2.4 全分布式結構化拓撲結構18-19
  • 3.3 系統(tǒng)的基本結構設計19-22
  • 3.3.1 總體結構設計19-20
  • 3.3.2 爬行節(jié)點結構設計20-22
  • 3.4 控制節(jié)點結構設計22
  • 3.5 本章小結22-23
  • 第4章 系統(tǒng)的任務分配模塊的設計與實現(xiàn)23-31
  • 4.1 分配策略分類23-24
  • 4.2 動態(tài)任務分配策略具體算法24-27
  • 4.2.1 動態(tài)哈希函數(shù)應滿足的條件24-25
  • 4.2.2 實現(xiàn)動態(tài)分配的兩種算法25-26
  • 4.2.3 進一步分析二級哈希映射算法26-27
  • 4.3 任務分配粒度的選擇27-30
  • 4.3.1 任務分配粒度的種類27-28
  • 4.3.2 站點中心詞提取策略28-30
  • 4.4 本章小結30-31
  • 第5章 系統(tǒng)的通信模塊的設計與實現(xiàn)31-42
  • 5.1 節(jié)點間消息通信模塊設計31-38
  • 5.1.1 消息協(xié)議的設計目標31
  • 5.1.2 消息種類與格式31-32
  • 5.1.3 消息所對應的系統(tǒng)動作32-38
  • 5.2 節(jié)點間 URL 傳輸模塊設計38-41
  • 5.2.1 URL 傳輸方法的選擇38-39
  • 5.2.2 阻塞套接字與非阻塞套接字39-41
  • 5.3 本章小結41-42
  • 第6章 論文總結與展望42-43
  • 6.1 工作總結42
  • 6.2 進一步的工作42-43
  • 參考文獻43-44
  • 致謝44-45
  • 摘要45-47
  • ABSTRACT47-49
  • 下載全文 更多同類文獻

    CAJ全文下載

    (如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【引證文獻】

    中國碩士學位論文全文數(shù)據(jù)庫 前7條

    1 高峰;基于興趣分類的用戶行為分析系統(tǒng)的研究[D];山東大學;2010年

    2 徐東麗;基于Crawler的Web服務搜索研究[D];大連海事大學;2011年

    3 鐘啟瑩;分布式網(wǎng)絡信息采集系統(tǒng)的設計與實現(xiàn)[D];華南理工大學;2011年

    4 李海波;基于MapReduce框架的分布式網(wǎng)絡爬行器研究[D];哈爾濱工程大學;2011年

    5 周岳;基于興趣分類的用戶行為分析系統(tǒng)的研究與設計[D];北京郵電大學;2010年

    6 史鵬龍;軍網(wǎng)輿情監(jiān)測與信息處理平臺的開發(fā)研究[D];蘭州大學;2012年

    7 高龍;搜索引擎中通用爬蟲系統(tǒng)的研究與設計[D];吉林大學;2013年

    【參考文獻】

    中國期刊全文數(shù)據(jù)庫 前3條

    1 曹忠;趙文靜;;一種優(yōu)化的網(wǎng)絡爬蟲的設計與實現(xiàn)[J];電腦知識與技術;2008年35期

    2 張嶺,葉允明,宋暉,于水,馬范援;一種高性能分布式Web Crawler的設計與實現(xiàn)[J];上海交通大學學報;2004年01期

    3 王舜燕;李蕾;吳兵華;;基于ID3分類算法的深度網(wǎng)絡爬蟲設計[J];現(xiàn)代圖書情報技術;2008年06期

    【共引文獻】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 于成龍;于洪波;;網(wǎng)絡爬蟲技術研究[J];東莞理工學院學報;2011年03期

    2 唐勇;;網(wǎng)絡論壇爬蟲的設計[J];電腦知識與技術;2012年03期

    3 馬曉娟;;網(wǎng)絡爬蟲在搜索引擎應用中的問題及對策[J];赤峰學院學報(自然科學版);2013年20期

    4 孟祥乾;葉允明;鄧斌;;基于流水線負載平衡模型的并行爬蟲研究[J];計算機工程;2009年02期

    5 付東來;李元;;Web多媒體數(shù)據(jù)實時索引的設計與實現(xiàn)[J];計算機與數(shù)字工程;2006年03期

    6 趙新慧;搜索引擎中基于Bayes分類的網(wǎng)頁更新研究[J];交通與計算機;2005年05期

    7 孫玲芳;黎維良;;基于定題爬蟲的網(wǎng)頁分類的多級判定算法[J];科學技術與工程;2009年18期

    8 王沐心;;門戶網(wǎng)站保密檢查系統(tǒng)[J];計算機與現(xiàn)代化;2013年10期

    9 程艷艷;;基于網(wǎng)絡數(shù)據(jù)包捕獲及分析的公共安全預警技術研究[J];信息通信;2014年02期

    10 郝孟濤;黃川;劉金剛;;檢索調研環(huán)境自適應抓取算法的研究與實現(xiàn)[J];科學技術與工程;2014年01期

    中國博士學位論文全文數(shù)據(jù)庫 前2條

    1 吳永輝;面向專業(yè)領域的網(wǎng)絡信息采集及主題檢測技術研究與應用[D];哈爾濱工業(yè)大學;2010年

    2 蔣敬田;基于用戶瀏覽行為的深度網(wǎng)絡挖掘[D];中國科學技術大學;2012年

    中國碩士學位論文全文數(shù)據(jù)庫 前10條

    1 靳凱;Web安全檢測平臺關鍵技術研究與應用[D];北京郵電大學;2011年

    2 張立;文本搜索引擎的探究與設計[D];華南理工大學;2011年

    3 趙艷;基于網(wǎng)絡爬蟲的跨站腳本漏洞動態(tài)檢測技術研究[D];西南交通大學;2011年

    4 李明銘;基于網(wǎng)絡信息提取和網(wǎng)絡空間服務的二手房產(chǎn)價格指數(shù)編制研究[D];南京師范大學;2011年

    5 宋婷;基于SVM的網(wǎng)絡爬蟲檢測研究與實現(xiàn)[D];天津大學;2010年

    6 孫守興;基于可擴展哈希算法的并行爬蟲動態(tài)負載均衡實現(xiàn)[D];哈爾濱工業(yè)大學;2010年

    7 楊頌;面向電子商務網(wǎng)站的增量爬蟲設計與實現(xiàn)[D];湖南大學;2010年

    8 趙欽;并行爬行器的架構與優(yōu)化策略[D];北京工業(yè)大學;2006年

    9 張娜;基于機器學習的主題Web挖掘技術[D];山東師范大學;2007年

    10 蔡建超;基于DRIS理論的新型網(wǎng)絡搜索引擎設計[D];華中科技大學;2006年

    【同被引文獻】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 嚴華云;關佶紅;;Bloom Filter研究進展[J];電信科學;2010年02期

    2 岳清;淺析搜索引擎的原理及發(fā)展前景[J];大眾科技;2005年05期

    3 魏應彬,王娟;用JDOM處理XML文檔[J];福建電腦;2004年10期

    4 李金秀;我國網(wǎng)絡信息用戶基本情況調查[J];廣東行政學院學報;2005年04期

    5 魏曉玲;;MD5加密算法的研究及應用[J];信息技術;2010年07期

    6 黃喜民;分布式結構與多層應用[J];河南科技;2002年21期

    7 白牧川;;軍網(wǎng)的輿情監(jiān)測和輿論引導[J];軍隊政工理論研究;2006年06期

    8 韓家煒,孟小峰,王靜,李盛恩;Web挖掘研究[J];計算機研究與發(fā)展;2001年04期

    9 孫國忠;袁清波;陳明宇;樊建平;;用于二級緩存的一種改進的自適應緩存管理算法[J];計算機研究與發(fā)展;2007年08期

    10 李蕾,王楠,張劍,鐘義信,郭祥昊,賈自燕;中文搜索引擎概念檢索初探[J];計算機工程與應用;2000年06期

    中國博士學位論文全文數(shù)據(jù)庫 前4條

    1 吳麗輝;個性化的Web信息采集技術研究[D];中國科學院研究生院(計算技術研究所);2005年

    2 易高翔;粗糙集在Web挖掘中的應用研究[D];華中科技大學;2006年

    3 秦玉平;基于支持向量機的文本分類算法研究[D];大連理工大學;2008年

    4 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年

    中國碩士學位論文全文數(shù)據(jù)庫 前10條

    1 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學;2010年

    2 王曉地;Web信息采集技術研究與實現(xiàn)[D];華南理工大學;2010年

    3 張媚;Ajax友好的網(wǎng)絡爬蟲設計與實現(xiàn)[D];暨南大學;2011年

    4 殷風景;面向網(wǎng)絡輿情監(jiān)控的熱點話題發(fā)現(xiàn)技術研究[D];國防科學技術大學;2010年

    5 梁萍;搜索引擎中網(wǎng)絡爬蟲及結果聚類的研究與實現(xiàn)[D];中國科學技術大學;2011年

    6 李志軍;分布式結構與組件技術的應用研究[D];南京理工大學;2004年

    7 劉強;WEB服務及XML安全[D];四川大學;2005年

    8 劉壁松;策略可擴展的搜索引擎研究和實現(xiàn)[D];清華大學;2005年

    9 蘇旋;分布式網(wǎng)絡爬蟲技術的研究與實現(xiàn)[D];哈爾濱工業(yè)大學;2006年

    10 耿瑞峰;Web服務在搜索引擎中的應用研究[D];江南大學;2006年

    【二級引證文獻】

    中國期刊全文數(shù)據(jù)庫 前2條

    1 夏華林;張仰森;;基于規(guī)則與統(tǒng)計的Web突發(fā)事件新聞多層次分類[J];計算機應用;2012年02期

    2 郭小清;任守綱;謝忠紅;;驅動級本地用戶行為監(jiān)控系統(tǒng)的研究與實現(xiàn)[J];現(xiàn)代圖書情報技術;2012年10期

    中國碩士學位論文全文數(shù)據(jù)庫 前4條

    1 徐娟秀;基于HTTP協(xié)議的大容量數(shù)據(jù)高速采集與分析系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2012年

    2 杜杰;基于校園網(wǎng)海量訪問日志的用戶行為分析[D];大連海事大學;2012年

    3 唐勇;互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2013年

    4 徐雄威;基于本體的上下文感知“科技論文在線”用戶行為推理研究[D];武漢理工大學;2013年

    【二級參考文獻】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 馬瑜;王有剛;;ID3算法應用研究[J];信息技術;2006年12期

    2 劉林,汪濤,樊孝忠;主題爬蟲的解決方案[J];華南理工大學學報(自然科學版);2004年S1期

    3 曲開社,成文麗,王俊紅;ID3算法的一種改進算法[J];計算機工程與應用;2003年25期

    4 劉暢,張輝;一種應用于搜索引擎的索引結構研究[J];計算機與數(shù)字工程;2005年09期

    5 王軍;彭建;;網(wǎng)絡爬蟲的結構設計研究[J];科技信息(學術研究);2007年27期

    6 蔣宗禮;趙欽;肖華;王蕊;;高性能并行爬行器[J];計算機工程與設計;2006年24期

    7 婁卓男,吳志強;近幾年國外隱蔽網(wǎng)絡研究概述[J];圖書情報工作;2004年01期

    8 譚思亮;;一種新的主題爬行算法[J];微計算機信息;2007年06期

    9 徐遠超;劉江華;劉麗珍;關永;;基于Web的網(wǎng)絡爬蟲的設計與實現(xiàn)[J];微計算機信息;2007年21期

    10 謝建國;;一個小型搜索引擎的系統(tǒng)設計[J];漳州職業(yè)技術學院學報;2007年04期

    【相似文獻】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 李亮;張安;吳天俁;;分布式網(wǎng)絡環(huán)境下雷達網(wǎng)的網(wǎng)絡性能分析[J];火力與指揮控制;2010年01期

    2 ;API加強訪問策略[J];每周電腦報;1999年11期

    3 ;遠程保衛(wèi)分布式網(wǎng)絡[J];每周電腦報;2003年29期

    4 陳東;嵌入式系統(tǒng)中MCS-51復雜通訊模式研究[J];武漢職業(yè)技術學院學報;2005年05期

    5 溫曉軍;劉云;;分布式量子通信網(wǎng)絡中的身份認證方案[J];鐵道學報;2005年06期

    6 蔡思文;祁耀斌;崔漢民;;大型鋼廠能源調度信息系統(tǒng)的研究[J];武漢理工大學學報(信息與管理工程版);2007年02期

    7 盧峰;劉蓉;;基于委任的分布式網(wǎng)絡管理研究與實現(xiàn)[J];電子科技;2007年07期

    8 朱曉姝;;語義分布式網(wǎng)絡技術初探[J];玉林師范學院學報(自然科學版);2007年03期

    9 邵鵬飛;C.Bruce-Boye;梁豐;;基于軟總線LabMap的松耦合分布式控制系統(tǒng)研究[J];計算機測量與控制;2007年11期

    10 李偉;羅長遠;初曉;;分布式網(wǎng)絡中基于IDPKC的私鑰更新方案[J];計算機應用;2009年07期

    中國重要會議論文全文數(shù)據(jù)庫 前10條

    1 葉新銘;王斌;;基于Web的分布式網(wǎng)絡設備監(jiān)視系統(tǒng)的設計與實現(xiàn)[A];第二十二屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2005年

    2 孫耀杰;劉木清;周小麗;韓磊;;基于網(wǎng)絡的數(shù)字化道路照明控制技術[A];中國長三角照明科技論壇論文集[C];2006年

    3 王海濱;阮秋琦;;立體顯示與視覺跟蹤方法的集成在虛擬現(xiàn)實系統(tǒng)中的應用研究[A];1999年中國智能自動化學術會議論文集(下冊)[C];1999年

    4 吳國鳳;曾標;;Web Services在環(huán)保監(jiān)控系統(tǒng)中的應用[A];IT服務促進企業(yè)信息化——第十一屆中國Java技術及應用交流大會文集[C];2008年

    5 王海濱;阮秋琦;;PC機虛擬現(xiàn)實系統(tǒng)應用研究[A];第九屆全國信號處理學術年會(CCSP-99)論文集[C];1999年

    6 陳志強;張麗;高文煥;康克軍;;應用于集裝箱檢查系統(tǒng)的互逆式客戶/服務器處理技術[A];第十屆全國核電子學與核探測技術學術年會論文集[C];2000年

    7 張堅平;曹敏;陳仲華;沈成彬;;從世博官網(wǎng)IPv6接入看CP/SP的IPv6遷移[A];下一代互聯(lián)網(wǎng)與應用研討會論文集[C];2011年

    8 李廣峰;;基于LXI總線的分布式網(wǎng)絡自動測試系統(tǒng)設計[A];2009安捷倫科技節(jié)論文集[C];2009年

    9 吳冬平;劉冰;陳鼎智;;工業(yè)通信網(wǎng)絡的技術應用[A];全面建設小康社會:中國科技工作者的歷史責任——中國科協(xié)2003年學術年會論文集(上)[C];2003年

    10 ;現(xiàn)代網(wǎng)絡測量系統(tǒng)[A];2001年電子測量新技術報告會論文集[C];2001年

    中國重要報紙全文數(shù)據(jù)庫 前10條

    1 沈建苗 譯;[N];網(wǎng)絡世界;2002年

    2 ;[N];中國計算機報;2003年

    3 ;[N];中國計算機報;2002年

    4 ;[N];網(wǎng)絡世界;2002年

    5 劉菁瑾;[N];中國計算機報;2002年

    6 王雅慧;[N];中國計算機報;2002年

    7 ;[N];中國計算機報;2007年

    8 ;[N];計算機世界;2004年

    9 張默;[N];中國高新技術產(chǎn)業(yè)導報;2006年

    10 ;[N];網(wǎng)絡世界;2003年

    中國博士學位論文全文數(shù)據(jù)庫 前10條

    1 何明星;面向群的分布式網(wǎng)絡密鑰管理[D];西南交通大學;2003年

    2 弭偉;基于DHT的分布式網(wǎng)絡中負載均衡機制及其安全性的研究[D];北京郵電大學;2012年

    3 黃晶;基于多Agent分布式約束優(yōu)化問題求解方法研究[D];吉林大學;2008年

    4 路峰;信任評估模型及其方法研究[D];南京理工大學;2009年

    5 郭楠;分布式網(wǎng)絡自管理模型及相關問題研究[D];東北大學;2005年

    6 鄧子健;WiiSE網(wǎng)絡應用安全技術研究[D];西南交通大學;2009年

    7 任遠揚;智能化建筑及相關軟件技術研究——移動分布式網(wǎng)絡中的中間件研究[D];西北工業(yè)大學;2003年

    8 王宇翔;分布式網(wǎng)絡地理信息系統(tǒng)研究[D];中國科學院研究生院(遙感應用研究所);2002年

    9 林輝;多用戶分布式網(wǎng)絡MIMO技術的研究[D];北京郵電大學;2011年

    10 李曉帆;認知無線電與協(xié)同網(wǎng)絡的資源優(yōu)化策略[D];北京郵電大學;2012年

    中國碩士學位論文全文數(shù)據(jù)庫 前10條

    1 陸瓊;分布式網(wǎng)絡專用地理信息系統(tǒng)的設計與實現(xiàn)[D];長安大學;2005年

    2 彭法鑾;基于JXTA的P2P應用研究[D];武漢理工大學;2006年

    3 文自勇;分布式網(wǎng)絡監(jiān)聽系統(tǒng)研究與實現(xiàn)[D];西南交通大學;2005年

    4 劉艷;分布式網(wǎng)絡并行系統(tǒng)在艦載指控系統(tǒng)中的應用研究[D];哈爾濱工程大學;2003年

    5 金玉珍;基于分布式網(wǎng)絡的液壓系統(tǒng)仿真軟件研究[D];浙江大學;2005年

    6 郭慧;分布式網(wǎng)絡環(huán)境中訪問控制模型的設計與實現(xiàn)[D];燕山大學;2006年

    7 張娜;分布式網(wǎng)絡安全審計系統(tǒng)[D];華東師范大學;2009年

    8 侯哲威;基于J2EE的分布式網(wǎng)絡地理信息服務探索[D];中國人民解放軍信息工程大學;2005年

    9 魯夢;分布式網(wǎng)絡安全審計系統(tǒng)研究與實現(xiàn)[D];貴州大學;2006年

    10 王尋;分布式網(wǎng)絡中壓縮感知的應用研究[D];北京郵電大學;2011年


      本文關鍵詞:基于WEB信息采集的分布式網(wǎng)絡爬蟲搜索引擎的研究,由筆耕文化傳播整理發(fā)布。



    本文編號:79051

    資料下載
    論文發(fā)表

    本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/79051.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權申明:資料由用戶d104c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com