基于Lucene和Heritrix的主題搜索引擎的設計與實現
本文關鍵詞:基于Lucene和Heritrix的主題搜索引擎的設計與實現,由筆耕文化傳播整理發(fā)布。
《北京郵電大學》 2012年
基于Lucene和Heritrix的主題搜索引擎的設計與實現
劉顯一
【摘要】:隨著網絡時代發(fā)展,用戶對搜索引擎的要求也發(fā)生了變化。從最初的設法找到更多的信息到設法找到更準確、更有價值的信息。網絡用戶對網絡檢索數據的各方面要求提高直接促使了搜索引擎的大幅進步,在這種形式下主題搜索引擎應運而生并不斷發(fā)展壯大。 主題搜索引擎又稱為專業(yè)搜索引擎、專用搜索引擎、實時搜索引擎等。目前主題搜索引擎在搜索引擎發(fā)展過程當中具有重要意義。主題搜索引擎主要著力于某一特定領域,并對這一領域內的信息的完全收錄并及時更新,避免通用搜索引擎搜索出來的信息包羅萬象,容易被各種無用信息的干擾。從而保證了搜索出的關鍵信息的準確度和時效性。 本文分析了遼寧大學門戶網站對遼寧大學相關工作的重要性,指出遼寧大學門戶網站是集遼大新聞介紹、校務公告、各職能部門門戶入口等功能于一體的門戶網站。由此可見遼大網的信息量是相當龐大的、功能設計也是相當豐富的。因此對于一個陌生的使用者來說,需要一個好的搜索引擎來為其進行信息導航以更方便的找到相關信息,以便了解遼大或者與遼大取得聯系是十分必要的。 引擎確立了實現包括對網站新增信息的自動添加索引、網站信息的自動分類、索引的維護、自動網站信息與標簽的提取、關鍵詞檢索、對后臺數據庫中自定義分類的維護等功能的搜索引擎設計目標。 最終基于lucene和heritrix這兩個核心技術,設計出一個服務于遼寧大學相關用戶群的針對遼寧大學門戶網站的主題搜索引擎的原型系統(tǒng),該系統(tǒng)提供了在線的查詢接口和友好的用戶界面?梢詽M足遼大在校專任教師、遼大行政管理人員和其他工作人員、遼大在校學生以及關心遼大的社會人士對遼寧大學門戶網站內各自感興趣的信息進行快速搜索和準確定位。本系統(tǒng)目前是初次開發(fā)版本,整體來說系統(tǒng)的成熟度不高。但其查詢查準查全率高、中文解析分詞準確、用戶界面友好且響應迅速。
【關鍵詞】:
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數據庫 前5條
1 郎小偉;王申康;;基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J];計算機工程;2006年04期
2 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應用[J];計算機應用與軟件;2009年01期
3 胡蓉,周經野;搜索引擎的發(fā)展與個性化技術研究[J];寧波職業(yè)技術學院學報;2005年02期
4 何曉陽,吳強,吳治蓉;HITS算法與PageRank算法比較分析[J];情報雜志;2004年02期
5 羅立宏;陳志;;基于語義分析的垂直搜索網絡蜘蛛[J];計算機工程與設計;2008年18期
中國碩士學位論文全文數據庫 前5條
1 王曉偉;垂直搜索引擎若干關鍵技術的研究[D];浙江大學;2007年
2 謝冬松;基于Web的主題搜索應用技術研究[D];黑龍江大學;2007年
3 吳建強;垂直搜索引擎爬蟲系統(tǒng)的研究與實現[D];貴州大學;2008年
4 尤波;垂直搜索中XML索引及頁面排序技術研究[D];哈爾濱工程大學;2009年
5 陳哲;面向垂直搜索引擎的網頁抓取器的設計和實現[D];中國海洋大學;2009年
【共引文獻】
中國期刊全文數據庫 前10條
1 蘭富軍;李春霆;高海忠;;農業(yè)主題垂直搜索引擎過濾技術研究[J];安徽農業(yè)科學;2010年09期
2 陶鎮(zhèn)威;周雨程;;基于Compass框架的高級搜索系統(tǒng)的設計與實現[J];重慶理工大學學報(自然科學);2011年08期
3 蔡兵;胡敏;;基于Lucene2.0的書目搜索引擎設計[J];重慶圖情研究;2009年01期
4 張淑華;;圖書館參考咨詢系統(tǒng)新技術探析[J];黑龍江檔案;2011年05期
5 周楊;;基于Lucene的小型搜索引擎系統(tǒng)的架構與實現[J];電腦編程技巧與維護;2010年11期
6 謝峰;劉洪星;;基于Lucene的Web站內搜索引擎的研究[J];電腦知識與技術;2008年04期
7 葉琳莉;林嵩凱;;基于Web結構挖掘算法的網站構建[J];電腦知識與技術;2008年34期
8 林晶;;全文檢索模型的檢索性能研究[J];電腦知識與技術;2010年04期
9 宋永生;;基于Android的商品比價系統(tǒng)的設計與實現[J];電腦知識與技術;2011年18期
10 陶榮;陳燕;;基于Lucene小型搜索引擎的研究與實現[J];大眾科技;2010年02期
中國博士學位論文全文數據庫 前2條
1 寇月;Deep Web實體搜索的關鍵技術研究[D];東北大學;2009年
2 米楊;基于頂級本體整合的醫(yī)學領域語義標注研究[D];吉林大學;2012年
中國碩士學位論文全文數據庫 前10條
1 汪永偉;搜索引擎中網頁排序算法的研究與實現[D];哈爾濱工程大學;2010年
2 馮效棟;垂直搜索引擎技術在網絡輿情巡控中的研究與應用[D];中國海洋大學;2010年
3 李永春;主題搜索引擎的研究與實現[D];哈爾濱理工大學;2010年
4 費洪剛;個性化網站的研究與應用[D];長春工業(yè)大學;2010年
5 樊春雷;基于語義分析的糖尿病健康教育系統(tǒng)研究與實現[D];華東理工大學;2011年
6 趙彥勝;基于web的無線電監(jiān)測站遠程故障診斷系統(tǒng)分析與設計[D];西安電子科技大學;2009年
7 馬靜;基于web的數字化資源全文檢索系統(tǒng)的設計與實現[D];西安電子科技大學;2010年
8 劉照然;遠程教育中智能答疑系統(tǒng)的研究與實現[D];西安電子科技大學;2010年
9 席敏;基于單漢字索引的全文檢索系統(tǒng)的研究與實現[D];西安電子科技大學;2010年
10 吳代文;基于Lucene的二次全文檢索系統(tǒng)設計與實現[D];西安電子科技大學;2009年
【二級參考文獻】
中國期刊全文數據庫 前10條
1 潘以鋒;;基于Lucene的網站全文檢索系統(tǒng)的開發(fā)[J];廣西教育學院學報;2006年05期
2 黃建蓮;中國搜索引擎服務市場的現狀及發(fā)展[J];華北科技學院學報;2005年03期
3 宋暉,張嶺,葉允明,馬范援;基于標記樹對象抽取技術的Hidden Web獲取研究[J];計算機工程與應用;2002年23期
4 譚漢松,李紅;基于信息過濾后的Web內容挖掘[J];計算機工程與應用;2003年30期
5 李學勇,歐陽柳波,李國徽,鐘敏娟;網絡蜘蛛搜索策略比較研究[J];計算機工程與應用;2004年04期
6 鄒娟;周經野;鄧成;;一種基于語義分析的中文特征值提取方法[J];計算機工程與應用;2005年36期
7 梁毅,周建國,晏蒲柳;基于有色Petri網和移動Agent的網絡入侵檢測系統(tǒng)[J];計算機工程;2003年16期
8 王劍波,高潔,王明哲;基于CPN的城市智能交通信號控制系統(tǒng)建模[J];計算機工程;2004年08期
9 王培龍,劉文遠;基于Colored Petri 網的工作流建模及應用[J];計算機工程;2004年18期
10 楊建武,陳曉鷗;基于倒排索引的文本相似搜索[J];計算機工程;2005年05期
中國碩士學位論文全文數據庫 前1條
1 孫猛;基于分類語義的搜索引擎中若干關鍵技術的研究與實現[D];東北大學;2005年
【相似文獻】
中國期刊全文數據庫 前10條
1 陶榮;陳燕;;基于Lucene小型搜索引擎的研究與實現[J];大眾科技;2010年02期
2 任惠靜;;基于Lucene的面向主題搜索引擎的索引技術的研究[J];電腦知識與技術;2010年04期
3 朱海豐;秦杰;;基于Lucene與JSF的搜索引擎[J];福建電腦;2008年10期
4 鄭如濱;撒力;謝婷;;基于Heritrix與Lucene的垂直搜索引擎研究[J];電腦知識與技術;2008年29期
5 劉敏娜;葛萌;陳娟;;基于Lucene的全文搜索引擎設計與實現[J];福建電腦;2009年05期
6 侯云;;構建基于Lucene的網站站內搜索[J];信息與電腦(理論版);2010年02期
7 溫艷鴻;;基于lucene的文件搜索引擎的設計與擴展[J];福建電腦;2007年08期
8 劉建湘;楊文濤;;基于Lucene的搜索引擎在Struts中的應用[J];軟件導刊;2007年03期
9 陳滄;沈潔;高鶯;;基于Lucene的校園網Web搜索服務研究與實現[J];中國教育信息化;2008年15期
10 任曉娜;;基于Lucene的全文搜索引擎的研究與實現[J];湖北廣播電視大學學報;2010年05期
中國重要會議論文全文數據庫 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學會第五屆學術年會論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學術交流會議論文匯編[C];2003年
3 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數據庫學術會議論文集(研究報告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網頁爬行器的設計與實現[A];少數民族青年自然語言處理技術研究與進展——第三屆全國少數民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯合學術研討會論文集[C];2010年
5 湯薇;曾艷;;構建校園網搜索引擎必要性分析[A];廣西計算機學會2008年年會論文集[C];2008年
6 姚樹宇;趙少東;;一種使用分布式技術的搜索引擎[A];2005年全國開放式分布與并行計算學術會議論文集[C];2005年
7 倪俊峰;;基于黃頁搜索引擎的關鍵字排名廣告系統(tǒng)的設計與實現[A];2005年中國索引學會年會暨學術研討會論文集[C];2005年
8 張怡;查貴庭;;SEO在信息服務中的應用研究[A];2010年中國索引學會年會暨學術研討會論文集[C];2010年
9 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術[A];第二屆和諧人機環(huán)境聯合學術會議(HHME2006)——第2屆中國普適計算學術會議(PCC'06)論文集[C];2006年
10 楊萌;李春麗;朱明;;網絡搜索技術下的編輯工作[A];學報編輯論叢(第十一集)[C];2003年
中國重要報紙全文數據庫 前10條
1 李一鑫;[N];財經時報;2007年
2 周文林;[N];經濟參考報;2007年
3 惠正一;[N];第一財經日報;2005年
4 賽迪顧問股份有限公司互聯網與電子商務咨詢中心 常燕杰;[N];中國計算機報;2005年
5 陳珊;[N];人民郵電;2005年
6 趙法忠;[N];中國經營報;2005年
7 金朝力;[N];北京商報;2006年
8 本報記者 趙曉輝 孟昭麗;[N];中國證券報;2006年
9 孫琎;[N];第一財經日報;2006年
10 姜蕊;[N];中國高新技術產業(yè)導報;2006年
中國博士學位論文全文數據庫 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
3 蘇君華;面向搜索引擎的技術接受模型研究[D];南京大學;2011年
4 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學;2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實現研究[D];武漢大學;2011年
6 郭眈;中文互聯網視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學;2012年
7 王镠璞;基于用戶體驗的互聯網搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年
8 李莎莎;面向搜索引擎的自然語言處理關鍵技術研究[D];國防科學技術大學;2011年
9 白玉琪;空間信息搜索引擎研究[D];中國科學院研究生院(遙感應用研究所);2003年
10 費巍;搜索引擎檢索功能的性能評價研究[D];武漢大學;2010年
中國碩士學位論文全文數據庫 前10條
1 聞崢;基于Lucene的搜索引擎優(yōu)化[D];北京交通大學;2011年
2 張彬;基于lucene的搜索引擎[D];上海師范大學;2010年
3 徐財應;基于Lucene的搜索引擎技術的研究與改進[D];長春理工大學;2010年
4 楊曉丹;基于Lucene的主題搜索引擎模板的設計與實現[D];浙江工商大學;2011年
5 李建林;基于Lucene的Web搜索引擎的研究[D];蘭州理工大學;2010年
6 劉運佳;基于Lucene和Heririx構建搜索引擎的研究和示例實現[D];電子科技大學;2008年
7 尉建興;基于Lucene搜索引擎的研究與應用[D];太原理工大學;2011年
8 潘亭瀝;基于Lucene的面向商業(yè)應用的搜索引擎研究與實現[D];電子科技大學;2007年
9 何世林;基于Java技術的搜索引擎研究與實現[D];西南交通大學;2006年
10 劉平冰;基于Lucene的Web站內信息搜索系統(tǒng)[D];電子科技大學;2005年
本文關鍵詞:基于Lucene和Heritrix的主題搜索引擎的設計與實現,由筆耕文化傳播整理發(fā)布。
,本文編號:78523
本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/78523.html