基于WEB信息采集的分布式網(wǎng)絡爬蟲搜索引擎的研究
本文關鍵詞:基于WEB信息采集的分布式網(wǎng)絡爬蟲搜索引擎的研究,由筆耕文化傳播整理發(fā)布。
《吉林大學》 2009年
基于WEB信息采集的分布式網(wǎng)絡爬蟲搜索引擎的研究
李春生
【摘要】: 隨著網(wǎng)絡技術的發(fā)展,Web上的信息海量增加,人們對信息的需求也不斷加大,使得專門負責Web信息采集的網(wǎng)絡爬蟲技術面臨著巨大的挑戰(zhàn)。單機的網(wǎng)絡爬蟲在很多情況下已經(jīng)難當重任,分布式網(wǎng)絡爬蟲以其單機網(wǎng)絡爬蟲無法比擬的信息采集速度和規(guī)模,滿足了人們日益增長的對Web信息面向用戶的需求。 分布式系統(tǒng)研究中最重要的是設計構架和關鍵技術的解決。在吸取了他人技術和經(jīng)驗的基礎上,本文設計并描述了一個分布式網(wǎng)絡爬蟲的結構,其中包括硬件的構架和軟件的模塊劃分。硬件部分由一臺PC機做控制節(jié)點,N臺PC機作爬行節(jié)點,在局域網(wǎng)中連接。軟件部分又分為控制節(jié)點軟件設計和爬行節(jié)點軟件設計。 然后本文描述了分布式系統(tǒng)的關鍵技術的解決方法。系統(tǒng)采用了二級哈希映射算法使分布式系統(tǒng)能高效的進行任務分割,使用消息通信使節(jié)點協(xié)同工作,用非阻塞套接字在節(jié)點間傳遞URL。最終實現(xiàn)了一個具備健壯性、可擴展性、可配置性的分布式網(wǎng)絡爬蟲系統(tǒng),并就該分布式網(wǎng)絡爬蟲系統(tǒng)進行了仔細的剖析。
【關鍵詞】:
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2009
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【引證文獻】
中國碩士學位論文全文數(shù)據(jù)庫 前7條
1 高峰;基于興趣分類的用戶行為分析系統(tǒng)的研究[D];山東大學;2010年
2 徐東麗;基于Crawler的Web服務搜索研究[D];大連海事大學;2011年
3 鐘啟瑩;分布式網(wǎng)絡信息采集系統(tǒng)的設計與實現(xiàn)[D];華南理工大學;2011年
4 李海波;基于MapReduce框架的分布式網(wǎng)絡爬行器研究[D];哈爾濱工程大學;2011年
5 周岳;基于興趣分類的用戶行為分析系統(tǒng)的研究與設計[D];北京郵電大學;2010年
6 史鵬龍;軍網(wǎng)輿情監(jiān)測與信息處理平臺的開發(fā)研究[D];蘭州大學;2012年
7 高龍;搜索引擎中通用爬蟲系統(tǒng)的研究與設計[D];吉林大學;2013年
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 曹忠;趙文靜;;一種優(yōu)化的網(wǎng)絡爬蟲的設計與實現(xiàn)[J];電腦知識與技術;2008年35期
2 張嶺,葉允明,宋暉,于水,馬范援;一種高性能分布式Web Crawler的設計與實現(xiàn)[J];上海交通大學學報;2004年01期
3 王舜燕;李蕾;吳兵華;;基于ID3分類算法的深度網(wǎng)絡爬蟲設計[J];現(xiàn)代圖書情報技術;2008年06期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 于成龍;于洪波;;網(wǎng)絡爬蟲技術研究[J];東莞理工學院學報;2011年03期
2 唐勇;;網(wǎng)絡論壇爬蟲的設計[J];電腦知識與技術;2012年03期
3 馬曉娟;;網(wǎng)絡爬蟲在搜索引擎應用中的問題及對策[J];赤峰學院學報(自然科學版);2013年20期
4 孟祥乾;葉允明;鄧斌;;基于流水線負載平衡模型的并行爬蟲研究[J];計算機工程;2009年02期
5 付東來;李元;;Web多媒體數(shù)據(jù)實時索引的設計與實現(xiàn)[J];計算機與數(shù)字工程;2006年03期
6 趙新慧;搜索引擎中基于Bayes分類的網(wǎng)頁更新研究[J];交通與計算機;2005年05期
7 孫玲芳;黎維良;;基于定題爬蟲的網(wǎng)頁分類的多級判定算法[J];科學技術與工程;2009年18期
8 王沐心;;門戶網(wǎng)站保密檢查系統(tǒng)[J];計算機與現(xiàn)代化;2013年10期
9 程艷艷;;基于網(wǎng)絡數(shù)據(jù)包捕獲及分析的公共安全預警技術研究[J];信息通信;2014年02期
10 郝孟濤;黃川;劉金剛;;檢索調研環(huán)境自適應抓取算法的研究與實現(xiàn)[J];科學技術與工程;2014年01期
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 吳永輝;面向專業(yè)領域的網(wǎng)絡信息采集及主題檢測技術研究與應用[D];哈爾濱工業(yè)大學;2010年
2 蔣敬田;基于用戶瀏覽行為的深度網(wǎng)絡挖掘[D];中國科學技術大學;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 靳凱;Web安全檢測平臺關鍵技術研究與應用[D];北京郵電大學;2011年
2 張立;文本搜索引擎的探究與設計[D];華南理工大學;2011年
3 趙艷;基于網(wǎng)絡爬蟲的跨站腳本漏洞動態(tài)檢測技術研究[D];西南交通大學;2011年
4 李明銘;基于網(wǎng)絡信息提取和網(wǎng)絡空間服務的二手房產(chǎn)價格指數(shù)編制研究[D];南京師范大學;2011年
5 宋婷;基于SVM的網(wǎng)絡爬蟲檢測研究與實現(xiàn)[D];天津大學;2010年
6 孫守興;基于可擴展哈希算法的并行爬蟲動態(tài)負載均衡實現(xiàn)[D];哈爾濱工業(yè)大學;2010年
7 楊頌;面向電子商務網(wǎng)站的增量爬蟲設計與實現(xiàn)[D];湖南大學;2010年
8 趙欽;并行爬行器的架構與優(yōu)化策略[D];北京工業(yè)大學;2006年
9 張娜;基于機器學習的主題Web挖掘技術[D];山東師范大學;2007年
10 蔡建超;基于DRIS理論的新型網(wǎng)絡搜索引擎設計[D];華中科技大學;2006年
【同被引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 嚴華云;關佶紅;;Bloom Filter研究進展[J];電信科學;2010年02期
2 岳清;淺析搜索引擎的原理及發(fā)展前景[J];大眾科技;2005年05期
3 魏應彬,王娟;用JDOM處理XML文檔[J];福建電腦;2004年10期
4 李金秀;我國網(wǎng)絡信息用戶基本情況調查[J];廣東行政學院學報;2005年04期
5 魏曉玲;;MD5加密算法的研究及應用[J];信息技術;2010年07期
6 黃喜民;分布式結構與多層應用[J];河南科技;2002年21期
7 白牧川;;軍網(wǎng)的輿情監(jiān)測和輿論引導[J];軍隊政工理論研究;2006年06期
8 韓家煒,孟小峰,王靜,李盛恩;Web挖掘研究[J];計算機研究與發(fā)展;2001年04期
9 孫國忠;袁清波;陳明宇;樊建平;;用于二級緩存的一種改進的自適應緩存管理算法[J];計算機研究與發(fā)展;2007年08期
10 李蕾,王楠,張劍,鐘義信,郭祥昊,賈自燕;中文搜索引擎概念檢索初探[J];計算機工程與應用;2000年06期
中國博士學位論文全文數(shù)據(jù)庫 前4條
1 吳麗輝;個性化的Web信息采集技術研究[D];中國科學院研究生院(計算技術研究所);2005年
2 易高翔;粗糙集在Web挖掘中的應用研究[D];華中科技大學;2006年
3 秦玉平;基于支持向量機的文本分類算法研究[D];大連理工大學;2008年
4 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學;2010年
2 王曉地;Web信息采集技術研究與實現(xiàn)[D];華南理工大學;2010年
3 張媚;Ajax友好的網(wǎng)絡爬蟲設計與實現(xiàn)[D];暨南大學;2011年
4 殷風景;面向網(wǎng)絡輿情監(jiān)控的熱點話題發(fā)現(xiàn)技術研究[D];國防科學技術大學;2010年
5 梁萍;搜索引擎中網(wǎng)絡爬蟲及結果聚類的研究與實現(xiàn)[D];中國科學技術大學;2011年
6 李志軍;分布式結構與組件技術的應用研究[D];南京理工大學;2004年
7 劉強;WEB服務及XML安全[D];四川大學;2005年
8 劉壁松;策略可擴展的搜索引擎研究和實現(xiàn)[D];清華大學;2005年
9 蘇旋;分布式網(wǎng)絡爬蟲技術的研究與實現(xiàn)[D];哈爾濱工業(yè)大學;2006年
10 耿瑞峰;Web服務在搜索引擎中的應用研究[D];江南大學;2006年
【二級引證文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 夏華林;張仰森;;基于規(guī)則與統(tǒng)計的Web突發(fā)事件新聞多層次分類[J];計算機應用;2012年02期
2 郭小清;任守綱;謝忠紅;;驅動級本地用戶行為監(jiān)控系統(tǒng)的研究與實現(xiàn)[J];現(xiàn)代圖書情報技術;2012年10期
中國碩士學位論文全文數(shù)據(jù)庫 前4條
1 徐娟秀;基于HTTP協(xié)議的大容量數(shù)據(jù)高速采集與分析系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2012年
2 杜杰;基于校園網(wǎng)海量訪問日志的用戶行為分析[D];大連海事大學;2012年
3 唐勇;互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2013年
4 徐雄威;基于本體的上下文感知“科技論文在線”用戶行為推理研究[D];武漢理工大學;2013年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 馬瑜;王有剛;;ID3算法應用研究[J];信息技術;2006年12期
2 劉林,汪濤,樊孝忠;主題爬蟲的解決方案[J];華南理工大學學報(自然科學版);2004年S1期
3 曲開社,成文麗,王俊紅;ID3算法的一種改進算法[J];計算機工程與應用;2003年25期
4 劉暢,張輝;一種應用于搜索引擎的索引結構研究[J];計算機與數(shù)字工程;2005年09期
5 王軍;彭建;;網(wǎng)絡爬蟲的結構設計研究[J];科技信息(學術研究);2007年27期
6 蔣宗禮;趙欽;肖華;王蕊;;高性能并行爬行器[J];計算機工程與設計;2006年24期
7 婁卓男,吳志強;近幾年國外隱蔽網(wǎng)絡研究概述[J];圖書情報工作;2004年01期
8 譚思亮;;一種新的主題爬行算法[J];微計算機信息;2007年06期
9 徐遠超;劉江華;劉麗珍;關永;;基于Web的網(wǎng)絡爬蟲的設計與實現(xiàn)[J];微計算機信息;2007年21期
10 謝建國;;一個小型搜索引擎的系統(tǒng)設計[J];漳州職業(yè)技術學院學報;2007年04期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李亮;張安;吳天俁;;分布式網(wǎng)絡環(huán)境下雷達網(wǎng)的網(wǎng)絡性能分析[J];火力與指揮控制;2010年01期
2 ;API加強訪問策略[J];每周電腦報;1999年11期
3 ;遠程保衛(wèi)分布式網(wǎng)絡[J];每周電腦報;2003年29期
4 陳東;嵌入式系統(tǒng)中MCS-51復雜通訊模式研究[J];武漢職業(yè)技術學院學報;2005年05期
5 溫曉軍;劉云;;分布式量子通信網(wǎng)絡中的身份認證方案[J];鐵道學報;2005年06期
6 蔡思文;祁耀斌;崔漢民;;大型鋼廠能源調度信息系統(tǒng)的研究[J];武漢理工大學學報(信息與管理工程版);2007年02期
7 盧峰;劉蓉;;基于委任的分布式網(wǎng)絡管理研究與實現(xiàn)[J];電子科技;2007年07期
8 朱曉姝;;語義分布式網(wǎng)絡技術初探[J];玉林師范學院學報(自然科學版);2007年03期
9 邵鵬飛;C.Bruce-Boye;梁豐;;基于軟總線LabMap的松耦合分布式控制系統(tǒng)研究[J];計算機測量與控制;2007年11期
10 李偉;羅長遠;初曉;;分布式網(wǎng)絡中基于IDPKC的私鑰更新方案[J];計算機應用;2009年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 葉新銘;王斌;;基于Web的分布式網(wǎng)絡設備監(jiān)視系統(tǒng)的設計與實現(xiàn)[A];第二十二屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2005年
2 孫耀杰;劉木清;周小麗;韓磊;;基于網(wǎng)絡的數(shù)字化道路照明控制技術[A];中國長三角照明科技論壇論文集[C];2006年
3 王海濱;阮秋琦;;立體顯示與視覺跟蹤方法的集成在虛擬現(xiàn)實系統(tǒng)中的應用研究[A];1999年中國智能自動化學術會議論文集(下冊)[C];1999年
4 吳國鳳;曾標;;Web Services在環(huán)保監(jiān)控系統(tǒng)中的應用[A];IT服務促進企業(yè)信息化——第十一屆中國Java技術及應用交流大會文集[C];2008年
5 王海濱;阮秋琦;;PC機虛擬現(xiàn)實系統(tǒng)應用研究[A];第九屆全國信號處理學術年會(CCSP-99)論文集[C];1999年
6 陳志強;張麗;高文煥;康克軍;;應用于集裝箱檢查系統(tǒng)的互逆式客戶/服務器處理技術[A];第十屆全國核電子學與核探測技術學術年會論文集[C];2000年
7 張堅平;曹敏;陳仲華;沈成彬;;從世博官網(wǎng)IPv6接入看CP/SP的IPv6遷移[A];下一代互聯(lián)網(wǎng)與應用研討會論文集[C];2011年
8 李廣峰;;基于LXI總線的分布式網(wǎng)絡自動測試系統(tǒng)設計[A];2009安捷倫科技節(jié)論文集[C];2009年
9 吳冬平;劉冰;陳鼎智;;工業(yè)通信網(wǎng)絡的技術應用[A];全面建設小康社會:中國科技工作者的歷史責任——中國科協(xié)2003年學術年會論文集(上)[C];2003年
10 ;現(xiàn)代網(wǎng)絡測量系統(tǒng)[A];2001年電子測量新技術報告會論文集[C];2001年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 沈建苗 譯;[N];網(wǎng)絡世界;2002年
2 ;[N];中國計算機報;2003年
3 ;[N];中國計算機報;2002年
4 ;[N];網(wǎng)絡世界;2002年
5 劉菁瑾;[N];中國計算機報;2002年
6 王雅慧;[N];中國計算機報;2002年
7 ;[N];中國計算機報;2007年
8 ;[N];計算機世界;2004年
9 張默;[N];中國高新技術產(chǎn)業(yè)導報;2006年
10 ;[N];網(wǎng)絡世界;2003年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 何明星;面向群的分布式網(wǎng)絡密鑰管理[D];西南交通大學;2003年
2 弭偉;基于DHT的分布式網(wǎng)絡中負載均衡機制及其安全性的研究[D];北京郵電大學;2012年
3 黃晶;基于多Agent分布式約束優(yōu)化問題求解方法研究[D];吉林大學;2008年
4 路峰;信任評估模型及其方法研究[D];南京理工大學;2009年
5 郭楠;分布式網(wǎng)絡自管理模型及相關問題研究[D];東北大學;2005年
6 鄧子健;WiiSE網(wǎng)絡應用安全技術研究[D];西南交通大學;2009年
7 任遠揚;智能化建筑及相關軟件技術研究——移動分布式網(wǎng)絡中的中間件研究[D];西北工業(yè)大學;2003年
8 王宇翔;分布式網(wǎng)絡地理信息系統(tǒng)研究[D];中國科學院研究生院(遙感應用研究所);2002年
9 林輝;多用戶分布式網(wǎng)絡MIMO技術的研究[D];北京郵電大學;2011年
10 李曉帆;認知無線電與協(xié)同網(wǎng)絡的資源優(yōu)化策略[D];北京郵電大學;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 陸瓊;分布式網(wǎng)絡專用地理信息系統(tǒng)的設計與實現(xiàn)[D];長安大學;2005年
2 彭法鑾;基于JXTA的P2P應用研究[D];武漢理工大學;2006年
3 文自勇;分布式網(wǎng)絡監(jiān)聽系統(tǒng)研究與實現(xiàn)[D];西南交通大學;2005年
4 劉艷;分布式網(wǎng)絡并行系統(tǒng)在艦載指控系統(tǒng)中的應用研究[D];哈爾濱工程大學;2003年
5 金玉珍;基于分布式網(wǎng)絡的液壓系統(tǒng)仿真軟件研究[D];浙江大學;2005年
6 郭慧;分布式網(wǎng)絡環(huán)境中訪問控制模型的設計與實現(xiàn)[D];燕山大學;2006年
7 張娜;分布式網(wǎng)絡安全審計系統(tǒng)[D];華東師范大學;2009年
8 侯哲威;基于J2EE的分布式網(wǎng)絡地理信息服務探索[D];中國人民解放軍信息工程大學;2005年
9 魯夢;分布式網(wǎng)絡安全審計系統(tǒng)研究與實現(xiàn)[D];貴州大學;2006年
10 王尋;分布式網(wǎng)絡中壓縮感知的應用研究[D];北京郵電大學;2011年
本文關鍵詞:基于WEB信息采集的分布式網(wǎng)絡爬蟲搜索引擎的研究,由筆耕文化傳播整理發(fā)布。
,本文編號:79051
本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/79051.html