中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

基于區(qū)域塊密度的網(wǎng)頁(yè)信息抽取技術(shù)在移動(dòng)網(wǎng)站開發(fā)中的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-11-17 12:50
   隨著移動(dòng)通信技術(shù)的高速發(fā)展,移動(dòng)智能設(shè)備的普及率越來越高,使用移動(dòng)設(shè)備訪問網(wǎng)站的比例也逐步提高,人們迫切的需要使用移動(dòng)設(shè)備隨時(shí)隨地的獲取互聯(lián)網(wǎng)資源。不過移動(dòng)設(shè)備的屏幕尺寸、硬件性能等與普通電腦存在很大差異,并且移動(dòng)設(shè)備用戶的使用場(chǎng)景與傳統(tǒng)互聯(lián)網(wǎng)用戶間的差別也很大,傳統(tǒng)意義上的網(wǎng)站設(shè)計(jì)并不能很好的滿足移動(dòng)場(chǎng)景下用戶的使用需求。同時(shí)移動(dòng)設(shè)備碎片化的特點(diǎn)非常明顯,這對(duì)移動(dòng)網(wǎng)站的設(shè)計(jì)和開發(fā)都帶來了很大的挑戰(zhàn)。 針對(duì)以上問題,本文對(duì)基于內(nèi)容轉(zhuǎn)換策略的移動(dòng)網(wǎng)站開發(fā)方法進(jìn)行了研究,提出了一種基于區(qū)域塊密度的網(wǎng)頁(yè)信息抽取技術(shù),并以此為基礎(chǔ),實(shí)現(xiàn)了基于代理服務(wù)器策略的移動(dòng)網(wǎng)站開發(fā)平臺(tái)。該平臺(tái)能夠在較少人工干預(yù)的情況下根據(jù)網(wǎng)頁(yè)類型的不同,選擇對(duì)應(yīng)規(guī)則實(shí)現(xiàn)網(wǎng)頁(yè)信息的抽取,能夠最大程度發(fā)揮移動(dòng)端隨時(shí)隨地的特性,將原有業(yè)務(wù)系統(tǒng)與移動(dòng)終端對(duì)接與融合,從而實(shí)現(xiàn)將PC端網(wǎng)站穩(wěn)定快速的向移動(dòng)終端擴(kuò)展。本文具體的研究?jī)?nèi)容如下: 1)論文從研究移動(dòng)網(wǎng)站開發(fā)的現(xiàn)狀開始,通過對(duì)現(xiàn)有網(wǎng)頁(yè)信息抽取技術(shù)的綜合比較,建立了網(wǎng)頁(yè)信息抽取過程的流程模型。 2)通過對(duì)正文抽取技術(shù)的相關(guān)研究,提出了基于區(qū)域塊密度的網(wǎng)頁(yè)信息抽取算法。該算法不受HTML標(biāo)簽的限制,通過分析網(wǎng)頁(yè)正文密度函數(shù)來確定網(wǎng)頁(yè)正文區(qū)域,進(jìn)而進(jìn)行網(wǎng)頁(yè)內(nèi)容的抽取。 3)設(shè)計(jì)并實(shí)現(xiàn)了基于轉(zhuǎn)換服務(wù)器策略的移動(dòng)網(wǎng)站開發(fā)平臺(tái)。該平臺(tái)能在較少人工干預(yù)的情況下實(shí)現(xiàn)Web網(wǎng)站從PC端向移動(dòng)端的遷移。 本文最后通過一個(gè)移動(dòng)網(wǎng)站設(shè)計(jì)與開發(fā)實(shí)例來驗(yàn)證本文提出的移動(dòng)網(wǎng)站開發(fā)平臺(tái)的設(shè)計(jì)方法以及設(shè)計(jì)原則的可行性。實(shí)例是青島某管理學(xué)院官方網(wǎng)站移動(dòng)版本,該移動(dòng)網(wǎng)站的適配設(shè)備包括Android以及iOS的智能終端,能夠較好的提高不同設(shè)備訪問移動(dòng)網(wǎng)站的用戶體驗(yàn),實(shí)現(xiàn)了較好的跨平臺(tái)能力,有效降低了開發(fā)和維護(hù)成本。 論文的創(chuàng)新點(diǎn)如下: a)通過對(duì)現(xiàn)有網(wǎng)頁(yè)信息抽取技術(shù)的研究分析,并根據(jù)移動(dòng)網(wǎng)站開發(fā)平臺(tái)的特點(diǎn),建立了對(duì)應(yīng)的網(wǎng)頁(yè)信息抽取流程模型。 b)提出了基于區(qū)域塊密度的網(wǎng)頁(yè)信息抽取算法,能夠在不受HTML標(biāo)簽限制的情況下完成網(wǎng)頁(yè)正文的抽取,實(shí)驗(yàn)測(cè)試表明抽取準(zhǔn)確率、召回率均高于90%。 最后經(jīng)過實(shí)驗(yàn)測(cè)試表明,本文提出的移動(dòng)網(wǎng)站開發(fā)平臺(tái)能夠在較少人工干預(yù)下完成Web網(wǎng)站從PC端到移動(dòng)端的遷移,具有較高的實(shí)用價(jià)值。
【學(xué)位單位】:中國(guó)海洋大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2014
【中圖分類】:TP393.092
【文章目錄】:
摘要
Abstract
緒論
    1.1 課題研究背景和意義
    1.2 國(guó)內(nèi)外發(fā)展現(xiàn)狀
    1.3 研究思路及內(nèi)容
    1.4 論文組織結(jié)構(gòu)
2. 網(wǎng)頁(yè)信息抽取概念及相關(guān)技術(shù)介紹
    2.1 網(wǎng)頁(yè)信息抽取概念
    2.2 網(wǎng)頁(yè)信息抽取技術(shù)關(guān)鍵步驟
    2.3 網(wǎng)頁(yè)信息抽取相關(guān)技術(shù)介紹
        2.3.1 基于網(wǎng)頁(yè)視覺特征的網(wǎng)頁(yè)信息抽取技術(shù)
        2.3.2 基于 DOM 樹的網(wǎng)頁(yè)信息抽取技術(shù)
        2.3.3 基于包裝器的網(wǎng)頁(yè)信息抽取技術(shù)
        2.3.4 基于 XSLT 模板的網(wǎng)頁(yè)信息抽取技術(shù)
    2.4 網(wǎng)頁(yè)信息抽取評(píng)價(jià)標(biāo)準(zhǔn)
    2.5 本章小結(jié)
3. 網(wǎng)頁(yè)信息抽取流程建模
    3.1 網(wǎng)頁(yè)類型分類
    3.2 URL 相似度匹配
    3.3 網(wǎng)頁(yè)類型判斷
    3.4 網(wǎng)頁(yè)抽取流程
    3.5 本章小結(jié)
4. 基于區(qū)域塊密度的網(wǎng)頁(yè)正文抽取算法
    4.1 算法的原理及流程
        4.1.1 網(wǎng)頁(yè)預(yù)處理
        4.1.2 區(qū)域塊密度函數(shù)
    4.2 閾值學(xué)習(xí)
    4.3 實(shí)驗(yàn)結(jié)果及分析
        4.3.1 實(shí)驗(yàn)方法
        4.3.2 結(jié)果分析
    4.4 本章小結(jié)
5. 移動(dòng)網(wǎng)站開發(fā)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
    5.1 平臺(tái)簡(jiǎn)介
    5.2 平臺(tái)目標(biāo)
    5.3 平臺(tái)系統(tǒng)架構(gòu)
    5.4 平臺(tái)關(guān)鍵模塊
        5.4.1 網(wǎng)頁(yè)源碼獲取與預(yù)處理模塊
        5.4.2 網(wǎng)頁(yè)類型判別模塊
        5.4.3 網(wǎng)頁(yè)抽取模塊
        5.4.4 網(wǎng)頁(yè)緩存模塊
        5.4.5 網(wǎng)頁(yè)渲染模塊
    5.5 運(yùn)行測(cè)試
    5.6 運(yùn)行效果演示
    5.7 本章小結(jié)
6. 總結(jié)與展望
    6.1 論文工作總結(jié)
    6.2 未來研究展望
參考文獻(xiàn)
致謝
個(gè)人簡(jiǎn)歷
研究成果

【參考文獻(xiàn)】

相關(guān)期刊論文 前7條

1 王茹,宋瀚濤,陸玉昌;Research of Extracting Data from HTML Web Pages Automatically[J];Journal of Beijing Institute of Technology(English Edition);2003年S1期

2 何章鴻;董守斌;;基于XPath的廣告數(shù)據(jù)提取研究[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期

3 何友全;徐澄;徐小樂;唐華姣;;一種基于統(tǒng)計(jì)學(xué)特征和DOM樹的網(wǎng)頁(yè)去噪技術(shù)[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期

4 ;A Method of Eliminating Noises in Web Pages by Style Tree Model and Its Applications[J];Wuhan University Journal of Natural Sciences;2004年05期

5 ;A Survey of Web Information Systems and Applications[J];Wuhan University Journal of Natural Sciences;2006年05期

6 高嶺;趙朋朋;崔志明;;Deep Web查詢接口的自動(dòng)判定[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年05期

7 李宏偉;史培中;張素智;;一種高效Web數(shù)據(jù)抽取包裝器的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年02期



本文編號(hào):2887517

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/guanlilunwen/ydhl/2887517.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a46b7***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com