LUCENE實(shí)現(xiàn)的基于RSS的博客搜索引擎
本文關(guān)鍵詞:LUCENE實(shí)現(xiàn)的基于RSS的博客搜索引擎,由筆耕文化傳播整理發(fā)布。
哈爾濱下程火學(xué)碩十學(xué)位論文
摘要
XML是一種可擴(kuò)展的標(biāo)記語(yǔ)言,為跨平臺(tái)、跨領(lǐng)域的應(yīng)用提供了一種通信手段。隨著XML在WEB應(yīng)用上的R益廣泛,,RSS已經(jīng)成為目前最廣泛的XML應(yīng)用,被廣泛的應(yīng)用于信息服務(wù)站點(diǎn),如新聞網(wǎng)站、博客站點(diǎn)等。
隨著互聯(lián)網(wǎng)的迅速發(fā)展,搜索引擎成為了人們獲取信息的一個(gè)重要途徑。人們?cè)谙M阉饕婺軌蛱峁┤娴男畔①Y源的同時(shí),也對(duì)搜索引擎的服務(wù)提出了更高的要求。與傳統(tǒng)的搜索引擎相比,博客搜索引擎在檢索內(nèi)容、工作原理、檢索方式等方面有著很大的區(qū)別,因此,若用傳統(tǒng)的搜索引擎檢索一些以RSS格式發(fā)布的博客內(nèi)容,就會(huì)存在著檢索效率低、更新速度慢等缺點(diǎn),而RSS博客搜索引擎克服了這些缺點(diǎn)。
本文研究了博客搜索引擎的工作原理,主要研究了博客搜索引擎中的博客網(wǎng)絡(luò)爬蟲(chóng)與用戶(hù)興趣模型。網(wǎng)絡(luò)爬蟲(chóng)是搜索引擎中的一個(gè)重要部分,其爬取質(zhì)量直接影響到搜索引擎的搜索結(jié)果。由于RSS網(wǎng)頁(yè)與普通網(wǎng)頁(yè)的不同,RSS博客網(wǎng)絡(luò)爬蟲(chóng)爬取各個(gè)博客文章的RSS鏈接,本文對(duì)RSS種子的收集、解析、建立索引進(jìn)行了研究,設(shè)計(jì)并實(shí)現(xiàn)了集RSS種子獲取、解析并建立索引為一體的RSS博客網(wǎng)絡(luò)爬蟲(chóng)。傳統(tǒng)的搜索引擎面向的是廣大的用戶(hù),不能根據(jù)用戶(hù)的喜好返回最相關(guān)的結(jié)果,而用戶(hù)往往希望搜索引擎能夠根據(jù)自己的實(shí)際情況來(lái)返回最相關(guān)的結(jié)果,基于此,本文介紹了用戶(hù)興趣模型的概念與應(yīng)用,設(shè)計(jì)并實(shí)現(xiàn)了基于博客文章標(biāo)簽與分類(lèi)的用戶(hù)興趣模型,包括用戶(hù)興趣模型的初始化、更新及與搜索結(jié)果的匹配等。
在介紹網(wǎng)絡(luò)爬蟲(chóng)與用戶(hù)興趣模型的基礎(chǔ)上,本文設(shè)計(jì)并實(shí)現(xiàn)了基于RSS的博客搜索引擎,并用Ajax等技術(shù)改善了用戶(hù)的搜索體驗(yàn)。關(guān)鍵詞:RSS;搜索引擎;網(wǎng)絡(luò)爬蟲(chóng);Ajax:用戶(hù)興趣模7型
Word文檔免費(fèi)下載:LUCENE實(shí)現(xiàn)的基于RSS的博客搜索引擎 (下載1-69頁(yè),共69頁(yè))
本文關(guān)鍵詞:LUCENE實(shí)現(xiàn)的基于RSS的博客搜索引擎,由筆耕文化傳播整理發(fā)布。
本文編號(hào):82522
本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/82522.html