中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

面向移動(dòng)應(yīng)用商店的分布式爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2019-12-02 17:17
【摘要】:近年來(lái),隨著移動(dòng)互聯(lián)網(wǎng)的不斷發(fā)展和市場(chǎng)需求的不斷拉動(dòng),移動(dòng)應(yīng)用軟件的數(shù)量以爆炸性的速度增長(zhǎng),移動(dòng)應(yīng)用商店也成為推廣應(yīng)用軟件的最主要平臺(tái)之一。由于缺乏有效的監(jiān)管,移動(dòng)應(yīng)用商店中的應(yīng)用軟件良莠不齊,存在嚴(yán)重安全隱患,針對(duì)移動(dòng)應(yīng)用軟件進(jìn)行安全檢測(cè)的需求與日俱增。基于此,本文設(shè)計(jì)并實(shí)現(xiàn)了面向移動(dòng)應(yīng)用商店的分布式爬蟲系統(tǒng),用以采集移動(dòng)應(yīng)用商店中的應(yīng)用軟件信息與樣本,為移動(dòng)應(yīng)用軟件的安全檢測(cè)提供數(shù)據(jù)支持。本文首先介紹了系統(tǒng)的研究背景,概述了前人在網(wǎng)絡(luò)爬蟲方面的研究成果,并對(duì)本系統(tǒng)所用到的關(guān)鍵技術(shù)進(jìn)行了深入研究,包括移動(dòng)應(yīng)用商店網(wǎng)站結(jié)構(gòu)的分析、網(wǎng)絡(luò)爬蟲設(shè)計(jì)原理和爬行策略的研究、Scrapy框架的介紹以及分布式網(wǎng)絡(luò)爬蟲架構(gòu)的研究;谙嚓P(guān)關(guān)鍵技術(shù)的研究,本文提出了一種基于URL分類的抓取策略,并且對(duì)爬蟲系統(tǒng)的整體架構(gòu)和各功能模塊作出了詳細(xì)設(shè)計(jì),包括控制管理服務(wù)器、爬蟲服務(wù)器等關(guān)鍵模塊設(shè)計(jì)的詳細(xì)闡述。最后,本文論述了面向移動(dòng)應(yīng)用商店的分布式爬蟲系統(tǒng)的具體實(shí)現(xiàn),并設(shè)計(jì)了幾組與傳統(tǒng)爬蟲系統(tǒng)的對(duì)照實(shí)驗(yàn),通過(guò)實(shí)驗(yàn)數(shù)據(jù)證明了本文所提出的抓取策略的可行性與有效性,以及本文所使用的分布式爬蟲系統(tǒng)的高效性。本文主要完成了以下工作:1.為了提高系統(tǒng)的采集效率,同時(shí)使系統(tǒng)具有良好的可擴(kuò)展性,本文設(shè)計(jì)并實(shí)現(xiàn)了混合模式的分布式爬蟲系統(tǒng)架構(gòu),克服了主從模式下由于爬行數(shù)量增加而導(dǎo)致系統(tǒng)性能下降的困難,能夠方便的進(jìn)行爬行節(jié)點(diǎn)的添加與刪除,并制定了適用于移動(dòng)應(yīng)用商店網(wǎng)絡(luò)爬蟲系統(tǒng)的分布式任務(wù)下發(fā)策略。2.圍繞如何提高爬蟲系統(tǒng)的采集效率展開(kāi)深入研究,結(jié)合移動(dòng)應(yīng)用商店網(wǎng)站結(jié)構(gòu)的特點(diǎn),在傳統(tǒng)的廣度優(yōu)先抓取策略基礎(chǔ)上提出了一種基于URL分類的抓取策略,詳細(xì)介紹了該策略的算法,并做了設(shè)計(jì)與實(shí)現(xiàn)。3.為了提高軟件信息采集的可靠性,對(duì)動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)的采集做了詳細(xì)研究,使用了 selenium+phantomjs組合模擬瀏覽器、網(wǎng)絡(luò)抓包分析URL規(guī)律等方法來(lái)實(shí)現(xiàn)動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)的抓取。4.為了提高數(shù)據(jù)樣本的覆蓋率,本系統(tǒng)實(shí)現(xiàn)了對(duì)目前市場(chǎng)上主流的50多家第三方移動(dòng)應(yīng)用商店的應(yīng)用軟件信息采集。
【圖文】:

百度,商店


圖2-1百度應(yīng)用商店應(yīng)用導(dǎo)航頁(yè)逡逑下面以百度應(yīng)用商店為例,具體分析其網(wǎng)頁(yè)結(jié)構(gòu)特征。進(jìn)入百度應(yīng)用商店首逡逑頁(yè)后,就能看到如圖2-1所示的應(yīng)用分類導(dǎo)航信息,此版塊將應(yīng)用商店中的所有逡逑應(yīng)用按功能作用進(jìn)行了分類,如社交通訊類、系統(tǒng)工具類等。以這些分類導(dǎo)航鏈逡逑接為入口,點(diǎn)擊進(jìn)入以后,會(huì)看到應(yīng)用按一定的方式排列呈現(xiàn)在頁(yè)面中,并以翻逡逑頁(yè)的形式列出了該類別中的所有應(yīng)用,如圖2-2所示。從應(yīng)用列表頁(yè)中能夠提取逡逑到應(yīng)用詳細(xì)頁(yè)面的URL,進(jìn)而訪問(wèn)應(yīng)用詳細(xì)頁(yè),應(yīng)用詳細(xì)頁(yè)中包含了應(yīng)用的具逡逑7逡逑

百度,商店,工程碩士學(xué)位,鏈接地址


百度應(yīng)用商店應(yīng)用列表頁(yè)百度李抓姍浮貓負(fù),,按釋》苦眺工皿,帕汽萬(wàn)瀚鑰勝
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1;TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 南磊;;基于Hadoop的圖書推薦系統(tǒng)研究與設(shè)計(jì)[J];計(jì)算機(jī)與數(shù)字工程;2016年06期

2 鄒科文;李達(dá);鄧婷敏;李嘉振;陳義明;;網(wǎng)絡(luò)爬蟲針對(duì)“反爬”網(wǎng)站的爬取策略研究[J];電腦知識(shí)與技術(shù);2016年07期

3 馬志強(qiáng);張澤廣;李昊u&;劉利民;;基于分布式架構(gòu)的主題信息采集系統(tǒng)[J];計(jì)算機(jī)工程與設(shè)計(jì);2015年04期

4 高榮;;基于Scrapy和casperjs的電子商務(wù)網(wǎng)站信息采集系統(tǒng)研究[J];數(shù)字技術(shù)與應(yīng)用;2015年03期

5 楊永光;;代碼簽名在手機(jī)應(yīng)用商店的應(yīng)用[J];信息安全與通信保密;2014年10期

6 陳薈慧;舒云星;林麗;;Web語(yǔ)料抓取中基于相似度的URL過(guò)濾規(guī)則生成算法[J];模式識(shí)別與人工智能;2014年07期

7 史寶明;賀元香;吳崇正;;主題搜索引擎中爬蟲搜索策略的研究[J];計(jì)算機(jī)工程與應(yīng)用;2014年02期

8 方明科;王煜霞;;一種動(dòng)態(tài)Web信息提取方法的設(shè)計(jì)與實(shí)現(xiàn)[J];管理工程師;2011年03期

9 孫立偉;何國(guó)輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期

10 陳俊彬;;Web信息抽取策略及其實(shí)現(xiàn)方法研究[J];科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì);2008年23期

相關(guān)博士學(xué)位論文 前1條

1 何川;分布式信息檢索中的若干重要問(wèn)題研究[D];北京郵電大學(xué);2012年

相關(guān)碩士學(xué)位論文 前7條

1 孔維健;基于圖聚類的招投標(biāo)數(shù)據(jù)挖掘研究與應(yīng)用[D];中山大學(xué);2015年

2 李婷;分布式爬蟲任務(wù)調(diào)度與AJAX頁(yè)面抓取研究[D];電子科技大學(xué);2015年

3 姚鑫;分布式手機(jī)軟件應(yīng)用搜索爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年

4 姚富貴;基于分布式的商品信息網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2014年

5 趙鵬程;分布式書籍網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2014年

6 蘇小魯;基于DOM的HTML網(wǎng)頁(yè)正文信息抽取模塊的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年

7 王星;新聞網(wǎng)頁(yè)抽取技術(shù)的研究與實(shí)現(xiàn)[D];河北工業(yè)大學(xué);2011年



本文編號(hào):2568839

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/guanlilunwen/ydhl/2568839.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a5172***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com