国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

支持動(dòng)態(tài)頁(yè)面的快速URL提取方法研究

發(fā)布時(shí)間:2024-11-02 02:42
  Web2.0技術(shù)在互聯(lián)網(wǎng)上的出現(xiàn)以及社交平臺(tái)的興起,極大的促進(jìn)了動(dòng)態(tài)網(wǎng)頁(yè)的使用和普及。動(dòng)態(tài)網(wǎng)頁(yè)中的Ajax技術(shù),實(shí)現(xiàn)了客戶端和服務(wù)端之間數(shù)據(jù)的異步操作,不僅滿足了新時(shí)代的技術(shù)需要,同時(shí)也提高了用戶體驗(yàn),更是促進(jìn)了互聯(lián)網(wǎng)的發(fā)展。但是,傳統(tǒng)網(wǎng)絡(luò)爬蟲(chóng)并不能應(yīng)對(duì)動(dòng)態(tài)網(wǎng)頁(yè)帶來(lái)的新特征,所以支持動(dòng)態(tài)頁(yè)面的網(wǎng)絡(luò)爬蟲(chóng)的研究就具有了一定實(shí)踐意義。對(duì)于主題網(wǎng)絡(luò)爬蟲(chóng)而言,噪聲鏈接不僅沒(méi)有價(jià)值,而且還會(huì)占用大量的資源,尤其是網(wǎng)絡(luò)爬蟲(chóng)對(duì)噪聲鏈接對(duì)應(yīng)網(wǎng)頁(yè)的采集和分析,極大地降低了網(wǎng)絡(luò)爬蟲(chóng)爬取的效率。 針對(duì)上述問(wèn)題,本文的主要研究?jī)?nèi)容如下: 首先,針對(duì)動(dòng)態(tài)網(wǎng)頁(yè)中關(guān)鍵技術(shù)Ajax異步操作的原理,解決了如何令網(wǎng)絡(luò)爬蟲(chóng)支持動(dòng)態(tài)網(wǎng)頁(yè)爬取的問(wèn)題。本文通過(guò)HTTP請(qǐng)求獲取到網(wǎng)頁(yè),然后將網(wǎng)頁(yè)在本地進(jìn)行DOM樹(shù)的構(gòu)建,進(jìn)行對(duì)腳本的解析和URL的提取,并通過(guò)對(duì)HtmlUnit的源碼修改來(lái)解析需要進(jìn)行點(diǎn)擊觸發(fā)的腳本,從而解決傳統(tǒng)網(wǎng)絡(luò)爬蟲(chóng)對(duì)動(dòng)態(tài)網(wǎng)頁(yè)中動(dòng)態(tài)生成的URL難以獲取的問(wèn)題; 其次,由于噪聲鏈接極大地降低了網(wǎng)絡(luò)爬蟲(chóng)的效率,所以本文對(duì)網(wǎng)頁(yè)噪聲的去除算法進(jìn)行了研究。傳統(tǒng)的網(wǎng)頁(yè)去噪算法針對(duì)網(wǎng)頁(yè)整體結(jié)構(gòu)進(jìn)行處理,去噪效率低下。本...

【文章頁(yè)數(shù)】:62 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 課題研究的背景和意義
    1.2 國(guó)內(nèi)外研究發(fā)展以及現(xiàn)狀
        1.2.1 動(dòng)態(tài)頁(yè)面解析的研究現(xiàn)狀
        1.2.2 網(wǎng)頁(yè)去噪技術(shù)的研究現(xiàn)狀
    1.3 本文研究的主要內(nèi)容
    1.4 論文結(jié)構(gòu)安排
第2章 相關(guān)概念介紹
    2.1 Web2.0 技術(shù)簡(jiǎn)介
    2.2 網(wǎng)頁(yè)頁(yè)面相關(guān)概念
        2.2.1 靜態(tài)頁(yè)面簡(jiǎn)介
        2.2.2 動(dòng)態(tài)頁(yè)面簡(jiǎn)介
    2.3 動(dòng)態(tài)網(wǎng)頁(yè)頁(yè)面涉及的關(guān)鍵技術(shù)介紹
        2.3.1 Ajax 技術(shù)基本原理
        2.3.2 Ajax 技術(shù)引發(fā)的問(wèn)題
    2.4 性能評(píng)價(jià)指標(biāo)
    2.5 本章小結(jié)
第3章 支持動(dòng)態(tài)頁(yè)面的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)設(shè)計(jì)
    3.1 網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)介
        3.1.1 網(wǎng)絡(luò)爬蟲(chóng)體系結(jié)構(gòu)
        3.1.2 網(wǎng)絡(luò)爬蟲(chóng)工作原理
        3.1.3 網(wǎng)絡(luò)爬蟲(chóng)搜索策略
    3.2 支持動(dòng)態(tài)頁(yè)面網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)設(shè)計(jì)
        3.2.1 系統(tǒng)架構(gòu)設(shè)計(jì)
        3.2.2 系統(tǒng)技術(shù)難點(diǎn)
    3.3 支持動(dòng)態(tài)頁(yè)面涉及的關(guān)鍵技術(shù)
        3.3.1 腳本的解析
        3.3.2 瀏覽器對(duì)象
    3.4 本章小結(jié)
第4章 頁(yè)面超鏈接快速提取算法
    4.1 噪聲鏈接分析
        4.1.1 噪聲鏈接簡(jiǎn)介
        4.1.2 URL 提取效率分析
    4.2 直接去噪聲鏈接算法
        4.2.1 頁(yè)面 DOM 樹(shù)結(jié)構(gòu)特征
        4.2.2 基于 DOM 樹(shù)的方法
    4.3 基于聚類(lèi)的噪聲鏈接去除方法
        4.3.1 噪聲鏈接簇的識(shí)別
        4.3.2 K-means 聚類(lèi)算法
        4.3.3 Single-Pass 算法
        4.3.4 基于改進(jìn) Single-Pass 算法的噪聲鏈接去除算法
    4.4 實(shí)驗(yàn)結(jié)果與分析
    4.5 本章小結(jié)
第5章 支持動(dòng)態(tài)頁(yè)面快速 URL 提取系統(tǒng)的實(shí)現(xiàn)
    5.1 頁(yè)面采集模塊
        5.1.1 HTTP 協(xié)議簡(jiǎn)介
        5.1.2 頁(yè)面的采集
    5.2 頁(yè)面解析模塊
        5.2.1 腳本嵌入的方式
        5.2.2 URL 的提取
    5.3 頁(yè)面 DOM 支持模塊
        5.3.1 Jsoup 簡(jiǎn)介
        5.3.2 DOM 樹(shù)構(gòu)建與操作
    5.4 事件觸發(fā)模擬模塊
        5.4.1 HtmlUnit 簡(jiǎn)介
        5.4.2 腳本事件觸發(fā)的處理
    5.5 頁(yè)面生成模塊
    5.6 實(shí)驗(yàn)結(jié)果分析
    5.7 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝



本文編號(hào):4008895

資料下載
論文發(fā)表

本文鏈接:http://lk138.cn/guanlilunwen/ydhl/4008895.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c2241***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
日韩精品国产中文| 美国大屌AV片在线观看| www亚洲最大AV.com| 大香蕉免费在线观看久久| 精国产九九九屁股视频| 啪啪啪综合| 香蕉97碰碰碰| 国产91不卡| 香蕉美女一级片| 色哟哟一区二区久久网| 久热大香蕉在线观看| 国产农村日逼视频| 日日干日日操日日| 91麻豆强迫视频| 欧美日韩另类无码专区免费| 日韩乱码欧美| 懂色Av区二区三区AV| 国精一区二区不卡久久| 91人妻人人澡人人爽| 南通市| 色呦呦网站免费入口| 中文字幕第一页欧美日韩一区| 国日韩无码一区二区三区| 【国产馆】东北| 日本人天天日日夜夜操一二三区道 | 国产欧美日本韩国70页| 麻豆AV播放| 国自产久久无玛| 人人操,人人操麻豆| 亚洲男性在线| 好叼妞国产精品视频| 亚洲激情国产综合婷婷| 汤姆av在线| 中西区| 大胆日韩丰满少妇人体诱惑| 欧美亚洲日韩二区另类图| 亚洲最新久久| 好吊了一区二区三区| av 第一黄| 人人操人人操穴网| 中文字幕久久爽aⅴ一区|