基于MapReduce的分布式聚類搜索引擎設計與實現(xiàn)分析探究.pdf
本文關鍵詞:基于MapReduce的分布式聚類搜索引擎設計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
網友wz_198621近日為您收集整理了關于基于MapReduce的分布式聚類搜索引擎設計與實現(xiàn)分析探究的文檔,希望對您的工作和學習有所幫助。以下是文檔介紹:電子科技大學UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA碩士學位論文MASTERTHESIS論文題目基于MapReduce的分布式聚類搜索引擎設計與實現(xiàn)學科專業(yè)計算機軟件與理論學號201121060321作者姓名玉兆輝指導教師陳波副教授分類號密級UDC注1學位論文基于MapReduce的分布式聚類搜索引擎設計與實現(xiàn)(題名和副題名)玉兆輝(作者姓名)指導教師陳波副教授電子科技大學成都(姓名、職稱、單位名稱)申請學位級別碩士學科專業(yè)計算機軟件與理論提交論文日期2014.3論文答辯日期2014.5.12學位授予單位和日期電子科技大學2014年06月29日答辯委員會主席評閱人注1:注明《國際十進分類法UDC》的類號。puterSoftwareandTheoryAuthor:YuZhaohuiAdvisor:ChenBoSchool:puterScience&Engineering獨創(chuàng)性聲明本人聲明所呈交的學位論文是本人在導師指導下進行的研究工作及取得的研究成果。據我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經發(fā)表或撰寫過(來源:[])的研究成果,也不包含為獲得電子科技大學或其它教育機構的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示謝意。作者簽名:日期:年月日論文使用授權本學位論文作者完全了解電子科技大學有關保留、使用學位論文的規(guī)定,有權保留并向國家有關部門或機構送交論文的復印件和磁盤,允許論文被查閱和借閱。本人授權電子科技大學可以將學位論文的全部或部分內容編入有關數據庫進行檢索,可以采用影印、縮印或掃描等復制手段保存、匯編學位論文。(保密的學位論文在解密后應遵守此規(guī)定)作者簽名:導師簽名:日期:年月日摘要I摘要近幾年來,互聯(lián)網技術飛速發(fā)展,社交格局發(fā)生新變化,人們更多的依賴網絡來表達自己的觀點看法。這使得網絡中的信息數量海量的增長,人們也越來越多的依賴網絡來獲取資料,而當前的集中式搜索引擎集在處理海量數據時效率低下,并且由于網絡數據量的不斷增大,搜索結果數量眾多又呈線狀羅列,有很多與用戶無關的信息充斥在其中,加上現(xiàn)有搜索引擎有在獲取不動態(tài)網頁信息時的不足,使得用戶不能(來源:[])在很短時間內定位到所要查詢的信息。因此,能夠使用戶快速、準確、全面地獲取到所要檢索的信息對用戶來說已是十分迫切的需求。為了解決用戶在一般搜索引擎上無法迅速定位所需的信息,以及集中式的搜索引擎在處理大數據集時效率低的問題。本文綜合研究了搜索引擎,數據挖掘以及Hadoop分布式集群的相關內容,主要完成以下工作:1.設計并實現(xiàn)了一種基于分布式集群基礎上的聚類搜索引擎,包括信息采集、信息預處理,對信息聚類處理和相應用戶的檢索需求展示檢索結果。2.針對無法爬取全面信息的問題,本文基于元搜索引擎Nutch和腳本解釋引擎Rhino,提出并設計了一種動靜結合的網絡爬取策略,可以在信息采集階段全面的獲取網絡動態(tài)和靜態(tài)網頁信息。3.本文在聚類模塊中對于Canopy-Kmeans聚類算法以及Canopy-Kmeans基于最大最小原則的改進算法由串行運行實現(xiàn)了MapReduce的并行運行的模式,進而對檢索結果進行聚類,同時也實現(xiàn)了Dirichlet和LDA等經典的聚類算法,對不同類型的信息庫可選用不同的算法聚類,以(來源:[])達到相對較好的效果。4.在聚類標簽生成的過程中,本文設計并實現(xiàn)的是自動產生和自定義結合的方式,使得聚類標簽具有很好的可讀性和合理性。5.在用戶檢索顯示模塊,本文用層次化的目錄結構來顯示搜索結果與聚類之間的關系,使得用戶能夠更高效更準確的對檢索結果進行瀏覽。關鍵詞:搜索引擎,聚類,分布式,Hadoop,集群ABSTRACTIIABSTRACTInrecentyears,technology,socialstructurechanged,workismoredependedontoexpresstheirviewsandideas.workinformationincreasedmassively.Meantime,workismoredependedontoobtaininformation.However,thecurrentsetofcentralizedsearchenginesisinefficientwhendealingwithhugeamountsofdata.What’swor(來源:[])se,workdataisincreasing,largenumberofsearchresultsarelistandlinearly,withvastamountofirrelevantinformationtotheuserinwhichflooding,workinformation.Inaveryshortperiodoftime,theusercannotnavigatetotheinformationyouwanttoquery.Thus,enablinguserstoquickly,esstotheinformationtoberetrievedforuserswillbeveryurgentneeds.Inordertosolvetheusercannotquicklylocatethedesiredinformationonthegeneralsearchengines,aswellastheinefficientcentralizedsearchengineswhend(來源:[])ealingwithhugeamountsofdata.Inthisthesis,acomprehensivestudyoftherelevantcontentsearchengine,datamininganddistributedHadoopclusters,pletethefollowingtasks:1.Adistributedcluster-basedclusteringbasedonsearchenginedesignedandimplemented,includinginformationgathering,informationpreprocessing,andthedemandforinformationretrievalclusteringprocessanddisplaytheuser'ssearchresults.2.prehensiv
12>
播放器加載中,請稍候...
系統(tǒng)無法檢測到您的Adobe Flash Player版本
建議您在線安裝最新版本的Flash Player 在線安裝
本文關鍵詞:基于MapReduce的分布式聚類搜索引擎設計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:79474
本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/79474.html