基于區(qū)域塊密度的網(wǎng)頁(yè)信息抽取技術(shù)在移動(dòng)網(wǎng)站開發(fā)中的研究與實(shí)現(xiàn)
【學(xué)位單位】:中國(guó)海洋大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2014
【中圖分類】:TP393.092
【文章目錄】:
摘要
Abstract
緒論
1.1 課題研究背景和意義
1.2 國(guó)內(nèi)外發(fā)展現(xiàn)狀
1.3 研究思路及內(nèi)容
1.4 論文組織結(jié)構(gòu)
2. 網(wǎng)頁(yè)信息抽取概念及相關(guān)技術(shù)介紹
2.1 網(wǎng)頁(yè)信息抽取概念
2.2 網(wǎng)頁(yè)信息抽取技術(shù)關(guān)鍵步驟
2.3 網(wǎng)頁(yè)信息抽取相關(guān)技術(shù)介紹
2.3.1 基于網(wǎng)頁(yè)視覺特征的網(wǎng)頁(yè)信息抽取技術(shù)
2.3.2 基于 DOM 樹的網(wǎng)頁(yè)信息抽取技術(shù)
2.3.3 基于包裝器的網(wǎng)頁(yè)信息抽取技術(shù)
2.3.4 基于 XSLT 模板的網(wǎng)頁(yè)信息抽取技術(shù)
2.4 網(wǎng)頁(yè)信息抽取評(píng)價(jià)標(biāo)準(zhǔn)
2.5 本章小結(jié)
3. 網(wǎng)頁(yè)信息抽取流程建模
3.1 網(wǎng)頁(yè)類型分類
3.2 URL 相似度匹配
3.3 網(wǎng)頁(yè)類型判斷
3.4 網(wǎng)頁(yè)抽取流程
3.5 本章小結(jié)
4. 基于區(qū)域塊密度的網(wǎng)頁(yè)正文抽取算法
4.1 算法的原理及流程
4.1.1 網(wǎng)頁(yè)預(yù)處理
4.1.2 區(qū)域塊密度函數(shù)
4.2 閾值學(xué)習(xí)
4.3 實(shí)驗(yàn)結(jié)果及分析
4.3.1 實(shí)驗(yàn)方法
4.3.2 結(jié)果分析
4.4 本章小結(jié)
5. 移動(dòng)網(wǎng)站開發(fā)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
5.1 平臺(tái)簡(jiǎn)介
5.2 平臺(tái)目標(biāo)
5.3 平臺(tái)系統(tǒng)架構(gòu)
5.4 平臺(tái)關(guān)鍵模塊
5.4.1 網(wǎng)頁(yè)源碼獲取與預(yù)處理模塊
5.4.2 網(wǎng)頁(yè)類型判別模塊
5.4.3 網(wǎng)頁(yè)抽取模塊
5.4.4 網(wǎng)頁(yè)緩存模塊
5.4.5 網(wǎng)頁(yè)渲染模塊
5.5 運(yùn)行測(cè)試
5.6 運(yùn)行效果演示
5.7 本章小結(jié)
6. 總結(jié)與展望
6.1 論文工作總結(jié)
6.2 未來研究展望
參考文獻(xiàn)
致謝
個(gè)人簡(jiǎn)歷
研究成果
【參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 王茹,宋瀚濤,陸玉昌;Research of Extracting Data from HTML Web Pages Automatically[J];Journal of Beijing Institute of Technology(English Edition);2003年S1期
2 何章鴻;董守斌;;基于XPath的廣告數(shù)據(jù)提取研究[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期
3 何友全;徐澄;徐小樂;唐華姣;;一種基于統(tǒng)計(jì)學(xué)特征和DOM樹的網(wǎng)頁(yè)去噪技術(shù)[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期
4 ;A Method of Eliminating Noises in Web Pages by Style Tree Model and Its Applications[J];Wuhan University Journal of Natural Sciences;2004年05期
5 ;A Survey of Web Information Systems and Applications[J];Wuhan University Journal of Natural Sciences;2006年05期
6 高嶺;趙朋朋;崔志明;;Deep Web查詢接口的自動(dòng)判定[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年05期
7 李宏偉;史培中;張素智;;一種高效Web數(shù)據(jù)抽取包裝器的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年02期
本文編號(hào):2887517
本文鏈接:http://www.lk138.cn/guanlilunwen/ydhl/2887517.html