基于網(wǎng)頁(yè)結(jié)構(gòu)特征的垂直搜索引擎研究與實(shí)現(xiàn).pdf 全文
本文關(guān)鍵詞:基于網(wǎng)頁(yè)結(jié)構(gòu)特征的垂直搜索引擎研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
上海交通大學(xué)
碩士學(xué)位論文
基于網(wǎng)頁(yè)結(jié)構(gòu)特征的垂直搜索引擎研究與實(shí)現(xiàn)
姓名:任軍
申請(qǐng)學(xué)位級(jí)別:碩士
專業(yè):軟件工程
指導(dǎo)教師:王東;楊懋
20081201
上海交通大學(xué)工程碩士學(xué)位論文
摘要
基于網(wǎng)頁(yè)結(jié)構(gòu)特征的垂直搜索引擎研究與實(shí)現(xiàn)
摘 要
隨著 Internet 的飛速發(fā)展,人們?cè)絹?lái)越依靠網(wǎng)絡(luò)來(lái)查找他們所需要的信息。
Internet 的信息資源具有多樣性、分布性、開(kāi)放性、時(shí)效性和異構(gòu)性的特點(diǎn),同一
主題的信息通常分散存放在不同網(wǎng)站上,表現(xiàn)的形式也各不相同。垂直搜索引擎可以
將這些信息按主題進(jìn)行抽取,以結(jié)構(gòu)化形式存儲(chǔ)。
本文提出了一種基于網(wǎng)頁(yè)結(jié)構(gòu)特征的垂直搜索引擎模型。根據(jù)專業(yè)和行業(yè)網(wǎng)站的
領(lǐng)域特點(diǎn),提出相應(yīng)主題的元數(shù)據(jù)統(tǒng)一表示標(biāo)準(zhǔn)。通過(guò)對(duì)對(duì)應(yīng)網(wǎng)站的網(wǎng)頁(yè)分析,依據(jù)
元數(shù)據(jù)表示標(biāo)準(zhǔn)和網(wǎng)頁(yè)結(jié)構(gòu)特征,提煉出具體網(wǎng)站網(wǎng)頁(yè)的信息抽取模板。垂直搜索引
擎根據(jù)該信息抽取模板對(duì)目標(biāo)網(wǎng)站進(jìn)行網(wǎng)頁(yè)爬行、頁(yè)面轉(zhuǎn)換、抽取數(shù)據(jù)和分離數(shù)據(jù)及
保存數(shù)據(jù)。網(wǎng)站的信息抽取模板采用XML 進(jìn)行描述,對(duì)應(yīng)網(wǎng)頁(yè)結(jié)構(gòu)特征。由于采用標(biāo)
準(zhǔn)的XML 并以文件形式存放,可以方便地在關(guān)心該網(wǎng)站信息的用戶之間共享。
根據(jù)本文提出的基于網(wǎng)頁(yè)結(jié)構(gòu)特征的垂直搜索引擎模型,我們開(kāi)發(fā)了一個(gè)基于網(wǎng)
頁(yè)結(jié)構(gòu)特征的垂直搜索引擎系統(tǒng)。整個(gè)系統(tǒng)以元數(shù)據(jù)模型為基礎(chǔ),對(duì)網(wǎng)站網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)
行結(jié)構(gòu)化處理,獲得網(wǎng)頁(yè)的結(jié)構(gòu)化信息。
本文關(guān)鍵詞:基于網(wǎng)頁(yè)結(jié)構(gòu)特征的垂直搜索引擎研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號(hào):84929
本文鏈接:http://www.lk138.cn/kejilunwen/sousuoyinqinglunwen/84929.html