中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)

發(fā)布時間:2016-08-04 17:05

  本文關(guān)鍵詞:面向領(lǐng)域的垂直搜索引擎的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。


《大連海事大學》 2011年

面向領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)

邱偉林  

【摘要】:伴隨著Web2.0的瘋狂普及,網(wǎng)絡(luò)信息資源的膨脹速度也呈指數(shù)增長,海量的數(shù)據(jù)資源已經(jīng)遠遠超出搜索引擎所能覆蓋的范圍,要想使用傳統(tǒng)的搜索引擎技術(shù)快速、準確地查找所需信息變得越來越困難。數(shù)據(jù)量驚人的遞增速度使得通用搜索引擎難以及時地更新索引數(shù)據(jù)庫;龐大的網(wǎng)頁資源也使得通用搜索引擎深入地抓取信息變得更加困難。針對這些缺點,新一代搜索技術(shù)——垂直搜索引擎應(yīng)運而生。 垂直搜索引擎是通用搜索引擎的細分和延伸,它只針對某一個行業(yè)或主題,為特定人群提供有價值的信息和相關(guān)服務(wù)。主題爬行和檢索服務(wù)作為兩個重要環(huán)節(jié)在很大程度上影響著垂直搜索引擎查詢的準確率和檢索效率。如何快速高效地判斷并預(yù)測主題相關(guān)網(wǎng)頁,以及如何帶給用戶清晰、準確的檢索反饋成為制約垂直搜索引擎發(fā)展的兩大難題。因此,如何改善這兩個環(huán)節(jié)成為本文工作的出發(fā)點。 本文提出了基于分類法的目錄式主題描述法,并以此實現(xiàn)了新的主題爬行策略。使得主題爬蟲不再盲目的預(yù)測主題相關(guān)網(wǎng)頁的方向,而是通過賦予在ODP中不同層次位置的主題結(jié)點不同的權(quán)重值,更加準確地指導主題爬蟲的爬行。在搜索結(jié)果呈現(xiàn)方面,本文采用聚類搜索引擎的優(yōu)點,通過基于主題短語的方法,對文檔特征項進行更加準確的提取,并以此指導聚類工作,用聚類呈現(xiàn)的方式給予用戶更加方便的查詢體驗。最后本文通過設(shè)計對比試驗來驗證二者的有效性。

【關(guān)鍵詞】:
【學位授予單位】:大連海事大學
【學位級別】:碩士
【學位授予年份】:2011
【分類號】:TP391.3
【目錄】:

  • 摘要5-6
  • ABSTRACT6-9
  • 第1章 引言9-14
  • 1.1 課題研究背景與意義9-10
  • 1.2 國內(nèi)外研究現(xiàn)狀(相關(guān)研究)10-11
  • 1.3 本文研究的主要內(nèi)容11-12
  • 1.4 論文的組織結(jié)構(gòu)12-14
  • 第2章 垂直搜索引擎的核心技術(shù)14-28
  • 2.1 搜索引擎的組成及工作原理14-15
  • 2.2 垂直搜索引擎的特征15-16
  • 2.3 主題爬行技術(shù)16-23
  • 2.3.1 通用爬蟲與主題爬蟲16-17
  • 2.3.2 主題爬行的理論基礎(chǔ)17
  • 2.3.3 主題爬行策略研究17-23
  • 2.4 文本聚類技術(shù)23-27
  • 2.4.1 文本聚類的過程24-25
  • 2.4.2 傳統(tǒng)的聚類算法25-27
  • 2.5 本章小結(jié)27-28
  • 第3章 主題爬蟲搜索算法的改進28-41
  • 3.1 主題描述方法及存在問題28-30
  • 3.1.1 主題描述方法28-30
  • 3.1.2 存在的問題30
  • 3.2 基于分類法的目錄式主題描述法30-35
  • 3.2.1 目錄式主題描述法30-33
  • 3.2.2 主題向量表示33-35
  • 3.3 待爬行鏈接優(yōu)先級計算35-37
  • 3.3.1 主題鏈接優(yōu)先級的規(guī)范化描述36
  • 3.3.2 基于錨文本的鏈接優(yōu)先級計算36-37
  • 3.4 自適應(yīng)主題爬行算法37-40
  • 3.4.1 不同粒度優(yōu)先級計算策略順序37-38
  • 3.4.2 路徑探測深度38
  • 3.4.3 自適應(yīng)主題爬行算法38-40
  • 3.5 本章小結(jié)40-41
  • 第4章 搜索結(jié)果聚類研究41-53
  • 4.1 網(wǎng)頁文本預(yù)處理——中文分詞41-45
  • 4.1.1 中文分詞分類42-43
  • 4.1.2 基用于垂直搜索引擎中的不足43-44
  • 4.1.3 適用于垂直搜索引擎的分詞方法44-45
  • 4.2 基于主題短語的搜索結(jié)果聚類45-52
  • 4.2.1 文檔的特征項提取45-46
  • 4.2.2 主題短語的提取46-48
  • 4.2.3 改進的k-means聚類算法48-52
  • 4.3 本章小結(jié)52-53
  • 第5章 實驗與結(jié)果分析53-65
  • 5.1 系統(tǒng)設(shè)計53-55
  • 5.1.1 基本功能需求分析53
  • 5.1.2 功能模塊分析53-54
  • 5.1.3 開發(fā)環(huán)境設(shè)置54-55
  • 5.2 系統(tǒng)實現(xiàn)55-62
  • 5.2.1 爬蟲模塊實現(xiàn)55-58
  • 5.2.2 信息抽取模塊實現(xiàn)58-60
  • 5.2.3 信息索引模塊實現(xiàn)60-62
  • 5.2.4 用戶接口模塊實現(xiàn)62
  • 5.3 結(jié)果對比和評價62-65
  • 第6章 總結(jié)與展望65-67
  • 6.1 總結(jié)65
  • 6.2 展望65-67
  • 參考文獻67-71
  • 致謝71
  • 下載全文 更多同類文獻

    CAJ全文下載

    (如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 邊凱;;你會搜索嗎?[J];中國計算機用戶;2007年23期

    2 莊芯;;風投押寶垂直搜索 各方巨頭介入又添疑點[J];IT時代周刊;2008年01期

    3 顧鵬堯;;讓搜索引擎更好地服務(wù)于教育教學[J];科學24小時;2003年Z1期

    4 陳新顏;垂直搜索引擎辨析[J];現(xiàn)代情報;2004年09期

    5 胡文勝;;垂直搜索助號碼百事通與商務(wù)領(lǐng)航[J];每周電腦報;2006年32期

    6 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學垂直搜索引擎的實踐[J];信息系統(tǒng)工程;2009年05期

    7 一林;;垂直搜索:前進路上的喜與憂[J];互聯(lián)網(wǎng)天地;2010年02期

    8 田野;垂直搜索火熱為哪般[J];中國計算機用戶;2005年37期

    9 陳利國;劉忠民;;搜索引擎的工作原理和發(fā)展趨勢[J];電腦知識與技術(shù)(學術(shù)交流);2007年23期

    10 張敏;;基于本體的垂直搜索引擎的研究[J];軟件導刊;2010年02期

    中國重要會議論文全文數(shù)據(jù)庫 前10條

    1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2009年

    2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年

    3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國電子學會第十七屆信息論學術(shù)年會論文集[C];2010年

    4 孫靜;郭奇;張志強;馮建華;;一種基于面向領(lǐng)域檢索系統(tǒng)的用戶興趣獲取方法[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2004年

    5 華山;李紅燕;;面向領(lǐng)域的工作流模型的設(shè)計[A];第二十屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2003年

    6 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2002年

    7 郭奇;周立柱;郭杭;;模式驅(qū)動的面向領(lǐng)域智能Web數(shù)據(jù)采集引擎[A];第二十二屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2005年

    8 林道莊;郭奇;張志強;馮建華;周立柱;孫靜;;基于Metasearch的面向領(lǐng)域的數(shù)據(jù)源發(fā)現(xiàn)和評價方案[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2002年

    9 王曉峰;劉惟一;;從用戶需求到網(wǎng)頁集團的模糊變換[A];第二十屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2003年

    10 吳倩;楊逍;張兆心;;基于視覺特征的網(wǎng)頁信息提取[A];第六屆全國信息檢索學術(shù)會議論文集[C];2010年

    中國重要報紙全文數(shù)據(jù)庫 前10條

    1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學技術(shù)情報研究所 周峻松;[N];計算機世界;2010年

    2 王艷;[N];中國旅游報;2000年

    3 賽迪網(wǎng) 方剛;[N];中國計算機報;2000年

    4 王靖;[N];人民日報海外版;2000年

    5 記者 王滸;[N];中國旅游報;2009年

    6 本報記者 王宏;[N];中國計算機報;2001年

    7 徐瑾 張玉;[N];人民郵電;2009年

    8 本報記者 王曉雁;[N];法制日報;2009年

    9 記者 吳德群;[N];深圳特區(qū)報;2009年

    10 本報記者 胡鈺;[N];華夏時報;2009年

    中國博士學位論文全文數(shù)據(jù)庫 前10條

    1 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學;2011年

    2 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年

    3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學技術(shù)大學;2012年

    4 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學技術(shù)大學;2012年

    5 焦斌星;用于搜索的網(wǎng)頁可視化摘要技術(shù)研究[D];中國科學技術(shù)大學;2012年

    6 荊濤;面向領(lǐng)域網(wǎng)頁的語義標注若干問題研究[D];吉林大學;2011年

    7 劉剛;面向領(lǐng)域的軟件需求一致性驗證方法研究[D];哈爾濱工程大學;2008年

    8 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學;2009年

    9 張長利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學;2011年

    10 劉家茂;Web services動態(tài)合成及UDDI注冊/查詢技術(shù)的研究[D];復旦大學;2005年

    中國碩士學位論文全文數(shù)據(jù)庫 前10條

    1 邱偉林;面向領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)[D];大連海事大學;2011年

    2 王鵬;垂直搜索引擎的研究[D];武漢理工大學;2010年

    3 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質(zhì)大學(北京);2010年

    4 許厚金;垂直搜索引擎及其關(guān)鍵方法研究[D];燕山大學;2010年

    5 陳向東;寵物用品垂直搜索引擎研究與設(shè)計[D];西北農(nóng)林科技大學;2010年

    6 薛萍;基于教育領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)[D];天津師范大學;2011年

    7 劉大伸;垂直搜索引擎技術(shù)的研究及實現(xiàn)[D];東北大學;2008年

    8 關(guān)小敏;垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2012年

    9 張倩;教育信息垂直搜索引擎的研究[D];吉林大學;2012年

    10 東興;垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江理工大學;2012年


      本文關(guān)鍵詞:面向領(lǐng)域的垂直搜索引擎的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。



    本文編號:84859

    資料下載
    論文發(fā)表

    本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/84859.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶73d4a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com