中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于LSTM和遷移學(xué)習(xí)的網(wǎng)頁(yè)主題分類方法研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-04-05 05:44
【摘要】:文本分類的研究相對(duì)較早,而且擁有比較成熟的技術(shù),因此網(wǎng)頁(yè)分類研究主要以文本分類為基礎(chǔ)。當(dāng)前大多數(shù)網(wǎng)頁(yè)分類方法屬于淺層學(xué)習(xí)方法,由于語(yǔ)言的語(yǔ)法特殊、語(yǔ)義多元、隱寓性表達(dá)等特點(diǎn),淺層的學(xué)習(xí)方法存在文本表征能力有限、依賴人工抽取特征等不足,難以獲得較高的網(wǎng)頁(yè)分類準(zhǔn)確率。因此,本文基于深度學(xué)習(xí)方法開(kāi)展網(wǎng)頁(yè)主題分類研究。在自然語(yǔ)言處理領(lǐng)域,深度學(xué)習(xí)模型具有很強(qiáng)的針對(duì)性,及必須針特定任務(wù)訓(xùn)練特定的模型。眾所周知,深度學(xué)習(xí)模型的訓(xùn)練及效果依賴于訓(xùn)練數(shù)據(jù)的規(guī)模。但對(duì)訓(xùn)練數(shù)據(jù)較少的一些任務(wù),這將是一個(gè)刺手的問(wèn)題,因此而限制了深度學(xué)習(xí)模型在小樣本文本信息處理領(lǐng)域的應(yīng)用。另外,由于深度學(xué)習(xí)模型結(jié)構(gòu)復(fù)雜,即使擁有足夠的訓(xùn)練數(shù)據(jù),針對(duì)特定任務(wù)重新訓(xùn)練模型的成本較高。針對(duì)上述問(wèn)題,本文以網(wǎng)頁(yè)文本主題分類為研究目標(biāo),深入研究了網(wǎng)頁(yè)文本主題分類技術(shù),并結(jié)合深度學(xué)習(xí)和遷移學(xué)習(xí),提出了一種可用于中文和維吾爾文分類問(wèn)題的語(yǔ)言模型的微調(diào)方法。實(shí)驗(yàn)證明,基于語(yǔ)言模型的微調(diào)方法可有效解決中文和維吾爾文網(wǎng)頁(yè)文本主題分類任務(wù)。本文的研究工作主要有一下三點(diǎn):(1)構(gòu)建了語(yǔ)言建模和網(wǎng)頁(yè)主題分類數(shù)據(jù)集。利用網(wǎng)絡(luò)爬蟲技術(shù)從人民網(wǎng)、天山網(wǎng)等新聞網(wǎng)站中收集了中文和維吾爾文網(wǎng)頁(yè)文本。構(gòu)建了語(yǔ)言建模數(shù)據(jù)集和網(wǎng)頁(yè)文本主題數(shù)據(jù)集。(2)利用有差異的參數(shù)優(yōu)化方法。在深度神經(jīng)網(wǎng)絡(luò)中,不同層所表示的信息時(shí)有差異的,因此不同層設(shè)置不同的學(xué)習(xí)率,能夠防止災(zāi)難性的遺忘,并加快模型的收斂速度。(3)提出了基于深度學(xué)習(xí)和遷移學(xué)習(xí)的網(wǎng)頁(yè)主題分類方法,該方法能夠解決高質(zhì)量數(shù)據(jù)少、深度學(xué)習(xí)模型訓(xùn)練時(shí)間長(zhǎng)等問(wèn)題。相較于僅用目標(biāo)任務(wù)數(shù)據(jù)訓(xùn)練,該方法在中文和維吾爾文網(wǎng)頁(yè)主題分類的分類準(zhǔn)確率分別提高了5.62%和5.87%,具有良好的分類效果。
【圖文】:

架構(gòu)圖,架構(gòu),下載,引擎


新疆大學(xué)碩士學(xué)位論文crapy Engine)、調(diào)度器(Scheduler)、下載器(Downloader)、爬蟲(m Pipeline)、下載中間件(Downloader Middlewares)、Spide架的核心,它負(fù)責(zé)爬蟲、管道、下載器、調(diào)度器之間的通訊、負(fù)責(zé)接收引擎發(fā)過(guò)來(lái)的請(qǐng)求,,并按照一定的方式進(jìn)行整理排列要時(shí)交還給引擎。下載器負(fù)責(zé)下載引擎發(fā)送的所有請(qǐng)求,并將se 交換給引擎,由引擎交給爬蟲來(lái)處理。爬蟲負(fù)責(zé)處理所有 R提取數(shù)據(jù),獲取 Item 字段需要的數(shù)據(jù),并將需要跟進(jìn)的 URL入調(diào)度器。管道負(fù)責(zé)處理爬蟲中獲取到的 Item,并進(jìn)行后期的過(guò)濾、存儲(chǔ)等)。下載中間件是一個(gè)可以自定義擴(kuò)展下載功能件是一個(gè)可以自定義擴(kuò)展和操作引擎與爬蟲之間通信的功能
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.1;TP393.092;TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉景云;;追尋網(wǎng)頁(yè)上“閃動(dòng)”的音樂(lè)[J];電腦知識(shí)與技術(shù)(經(jīng)驗(yàn)技巧);2017年12期

2 老萬(wàn);;加快網(wǎng)頁(yè)文件的加載速度[J];電腦愛(ài)好者;2015年12期

3 吳陽(yáng)陽(yáng);封化民;胡雪;楊發(fā)智;;網(wǎng)頁(yè)文件信息隱藏技術(shù)安全性研究[J];北京電子科技學(xué)院學(xué)報(bào);2014年04期

4 啟動(dòng);;淺談網(wǎng)頁(yè)文件引用[J];網(wǎng)絡(luò)與信息;2006年05期

5 張啟宇;朱玲;車忠志;;網(wǎng)頁(yè)文件元數(shù)據(jù)的自動(dòng)提取[J];電腦與電信;2008年04期

6 柳林;輕松保存網(wǎng)頁(yè)文件五法[J];電腦愛(ài)好者;2003年17期

7 陸莉;;隱蔽網(wǎng)頁(yè)資源的挖掘利用探究[J];福建圖書館理論與實(shí)踐;2008年03期

8 ;Script精簡(jiǎn)專家——ScriptCleaner[J];網(wǎng)絡(luò)與信息;2003年03期

9 黃小花;;淺析網(wǎng)頁(yè)的頭部?jī)?nèi)容[J];電腦與電信;2019年05期

10 孫小英;;試論網(wǎng)頁(yè)設(shè)計(jì)的基本規(guī)范和常用技巧[J];數(shù)碼世界;2017年11期

相關(guān)會(huì)議論文 前4條

1 莊昭程;;高職《網(wǎng)頁(yè)美工》課程教學(xué)的幾點(diǎn)建議[A];中國(guó)職協(xié)2017年度優(yōu)秀科研成果獲獎(jiǎng)?wù)撐募ㄒ欢泉?jiǎng))[C];2018年

2 張曉明;奈一雄;齊炯明;安媛媛;張建楠;王靜嫻;;基于信息隱藏的網(wǎng)頁(yè)入侵檢測(cè)技術(shù)與實(shí)現(xiàn)[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2009年

3 劉世杰;唐世渭;楊冬青;王騰蛟;姚小波;;自動(dòng)的WEB信息提取和集成[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

4 劉世杰;唐世渭;楊冬青;王騰蛟;李立宇;;基于XML技術(shù)的Web信息提取和集成[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年

相關(guān)重要報(bào)紙文章 前10條

1 ;網(wǎng)頁(yè)防篡改的回顧與展望[N];中國(guó)計(jì)算機(jī)報(bào);2019年

2 馬坤;用VB判斷網(wǎng)頁(yè)文件是否在IE緩存中[N];電腦報(bào);2004年

3 何詠明 尹有仁;用VFP管理網(wǎng)頁(yè)文件[N];中國(guó)計(jì)算機(jī)報(bào);2001年

4 福建省工商行政管理局 王粟洋;網(wǎng)頁(yè)證據(jù)的“三維取證法”[N];中國(guó)醫(yī)藥報(bào);2018年

5 湖北 馮曉玲;快速調(diào)用記事本編輯網(wǎng)頁(yè)文件[N];電腦報(bào);2003年

6 王兆和;到秘密花園里“摘”煙花[N];中國(guó)電腦教育報(bào);2004年

7 江蘇 韶亞軍;WPS 2000妙用五則[N];電腦報(bào);2001年

8 ;網(wǎng)上購(gòu)物安全手冊(cè)[N];人民政協(xié)報(bào);2000年

9 山東 劉紅軍;自己的事自己處理[N];中國(guó)電腦教育報(bào);2002年

10 浙江 楓葉子;多彩鏈接靚起來(lái)[N];電腦報(bào);2003年

相關(guān)博士學(xué)位論文 前1條

1 胡燕;基于Web信息抽取的專業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 庫(kù)爾班·麥麥提;基于LSTM和遷移學(xué)習(xí)的網(wǎng)頁(yè)主題分類方法研究與實(shí)現(xiàn)[D];新疆大學(xué);2019年

2 周文文;基于文本語(yǔ)義圖的網(wǎng)頁(yè)分類算法研究[D];江蘇科技大學(xué);2019年

3 鞠亮;基于關(guān)鍵詞自學(xué)習(xí)的中文網(wǎng)頁(yè)分類技術(shù)研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2017年

4 姜康;基于響應(yīng)式的移動(dòng)端網(wǎng)頁(yè)界面設(shè)計(jì)與實(shí)現(xiàn)[D];中南民族大學(xué);2016年

5 程元X;基于URL+文本的網(wǎng)頁(yè)主題分類模型研究[D];武漢郵電科學(xué)研究院;2018年

6 曹亞男;WEB代理系統(tǒng)網(wǎng)頁(yè)噪音信息識(shí)別與過(guò)濾技術(shù)研究[D];哈爾濱工程大學(xué);2015年

7 李維旺;基于網(wǎng)頁(yè)重構(gòu)的網(wǎng)絡(luò)用戶體驗(yàn)優(yōu)化研究與實(shí)現(xiàn)[D];電子科技大學(xué);2018年

8 章俊;深網(wǎng)數(shù)據(jù)爬取關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2018年

9 劉江;網(wǎng)頁(yè)篡改監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2018年

10 李宗峰;網(wǎng)頁(yè)隱秘通信及其檢測(cè)與防護(hù)干擾方法[D];中國(guó)科學(xué)技術(shù)大學(xué);2017年



本文編號(hào):2614627

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2614627.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4ed06***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com