中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的中文自動(dòng)摘要生成

發(fā)布時(shí)間:2020-03-30 18:21
【摘要】:互聯(lián)網(wǎng)中日益增長的文本數(shù)據(jù)導(dǎo)致人們需要花費(fèi)更多時(shí)間用于篩選和甄別文本中的關(guān)鍵信息。自動(dòng)摘要技術(shù)作為一種從長文本中獲取關(guān)鍵信息的方法,能夠降低信息爆炸時(shí)代人們信息獲取的時(shí)間成本,引起越來越多研究者的關(guān)注。自動(dòng)文摘技術(shù)按照生成方式可以分為抽取式摘要和生成式摘要,抽取式摘要技術(shù)只能依賴原有文本內(nèi)容,具有局限性。生成式摘要技術(shù)具有較高的靈活性,但在中文摘要生成時(shí)仍然有文本初始化難以保持足夠信息,高質(zhì)量數(shù)據(jù)難以獲取等困難。本文通過一系列自然語言處理技術(shù),能夠生成更加簡(jiǎn)明、準(zhǔn)確的中文摘要。首先,為了給編碼器提供更好的文本向量作為輸入,保證文本向量包含足夠的語義信息,本文受到Fasttext模型在英文中能夠捕獲單詞前綴和后綴信息的啟發(fā),針對(duì)中文的結(jié)構(gòu)特點(diǎn)提出基于筆畫的文本向量編碼。我們使用這種編碼方法,構(gòu)造筆畫字典,通過Skip-Gram模型,構(gòu)成文本向量,完成對(duì)漢字部件信息更細(xì)致的表示任務(wù)。其次,在對(duì)在文本生成上主要使用Seq2Seq模型加以優(yōu)化,主要包括在編碼器中使用Bi-LSTM,在一定程度上解決了長序列文本信息丟失以及從后往前信息的補(bǔ)充問題,使用Attention機(jī)制捕獲輸入與輸出詞之間的關(guān)聯(lián)強(qiáng)弱性,并在測(cè)試階段的解碼器中使用Beam Search優(yōu)化序列的生成效果。本文基于LCSTS數(shù)據(jù)集訓(xùn)練模型,通過Rouge評(píng)分和人工判斷兩個(gè)方面證實(shí)我們的編碼方法和模型在文本摘要可讀性上有所提升。
【圖文】:

折線圖,字典,解碼器,常用詞


(c) Rouge-L 評(píng)分圖 5.1 解碼器字典大小對(duì)于 Rouge 評(píng)分的影響字典的大小從 2K 上升到 11K 的過程中,Rouge-N 的評(píng)分中包含的詞越全面,模型的效果越好。結(jié)合折線圖來看 2k 到 8k 的過程中,出現(xiàn)最多有一倍的效果提升,主要原夠多的常用詞語,漢語常用詞的詞匯量在 5k 到 8k 之間式提升。大小是影響測(cè)試階段模型輸出效果的重要因素,字典過字典過大則影響生成摘要的速度,影響模型效率。圖 5碼時(shí)間的關(guān)系。

折線圖,單句,郵箱,解碼器


(c) Rouge-L 評(píng)分圖 5.1 解碼器字典大小對(duì)于 Rouge 評(píng)分的影響字典的大小從 2K 上升到 11K 的過程中,Rouge-N 的評(píng)分都有中包含的詞越全面,模型的效果越好。結(jié)合折線圖來看,,三 2k 到 8k 的過程中,出現(xiàn)最多有一倍的效果提升,主要原因是夠多的常用詞語,漢語常用詞的詞匯量在 5k 到 8k 之間。因式提升。大小是影響測(cè)試階段模型輸出效果的重要因素,字典過小會(huì)字典過大則影響生成摘要的速度,影響模型效率。圖 5.2 展碼時(shí)間的關(guān)系。
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.1;TP18

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳爾聃;;文本自動(dòng)摘要的遷移學(xué)習(xí)技術(shù)[J];數(shù)碼世界;2018年12期

2 劉茂福;余博;胡慧君;;基于維基百科的多文檔自動(dòng)摘要系統(tǒng)研究[J];微型機(jī)與應(yīng)用;2011年16期

3 仇麗青;李偉明;;上下文敏感的多文檔自動(dòng)摘要生成方法[J];計(jì)算機(jī)工程;2010年21期

4 洪田玉;陳志剛;;一種跨語言的自動(dòng)摘要技術(shù)[J];電腦與信息技術(shù);2009年04期

5 郭琳虹;張小松;;文本自動(dòng)摘要的方法研究[J];福建電腦;2008年06期

6 ;中英文自動(dòng)摘要系統(tǒng)軟件問世[J];情報(bào)理論與實(shí)踐;2001年01期

7 王永成;劉功申;劉傳漢;胡佩華;孫展;;論文本的自動(dòng)摘要[J];中國索引;2003年02期

8 唐建權(quán);何洪波;王閏強(qiáng);;一種基于聚類的文章自動(dòng)摘要方法及實(shí)現(xiàn)[J];科研信息化技術(shù)與應(yīng)用;2019年01期

9 彭敏;高斌龍;黃濟(jì)民;劉紀(jì)平;;基于高質(zhì)量信息提取的微博自動(dòng)摘要[J];計(jì)算機(jī)工程;2015年07期

10 劉思佳;;內(nèi)容自動(dòng)摘要系統(tǒng)的研究[J];數(shù)碼世界;2019年04期

相關(guān)會(huì)議論文 前10條

1 劉娜;肖智博;路瑩;唐曉君;肖鵬;;自適應(yīng)主題融合的多文檔自動(dòng)摘要算法[A];2013年中國智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第五分冊(cè))[C];2013年

2 吳中勤;黃萱菁;吳立德;;基于有監(jiān)督分類技術(shù)的文本自動(dòng)摘要研究[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

3 張奇;黃萱菁;吳立德;;一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

4 李芳;何婷婷;;面向查詢的多模式自動(dòng)摘要研究[A];第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年

5 王荀;李素建;宋濤;姜伯平;;服務(wù)于內(nèi)容側(cè)面發(fā)現(xiàn)的框架識(shí)別[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

6 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;基于主題模型LDA的多文檔自動(dòng)摘要[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

7 章彥星;張銘;鄧志鴻;;基于特征的用戶評(píng)論自動(dòng)摘要[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

8 王嬋;李靜;王棟;程杰;來風(fēng)剛;;互聯(lián)網(wǎng)輿論收集與分析系統(tǒng)[A];2015電力行業(yè)信息化年會(huì)論文集[C];2015年

9 王暉;馬軍;;面向Web論壇的多文檔摘要方法[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

10 桂卓民;何婷婷;陳勁光;李芳;;一種面向查詢的多文檔自動(dòng)文摘系統(tǒng)實(shí)現(xiàn)方法[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

相關(guān)重要報(bào)紙文章 前4條

1 橫舟;你愛機(jī)器,但它不會(huì)愛你[N];檢察日?qǐng)?bào);2017年

2 記者 周蓉蓉 薛海濱 龔杰;IBM軟件強(qiáng)勢(shì)出擊[N];計(jì)算機(jī)世界;2003年

3 本報(bào)記者 胡珉琦;一本AI寫作的科研綜述 你讀嗎[N];中國科學(xué)報(bào);2019年

4 本報(bào)記者 張彤;讓計(jì)算機(jī)說中國話[N];網(wǎng)絡(luò)世界;2004年

相關(guān)博士學(xué)位論文 前9條

1 王勇臻;基于深度學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)自動(dòng)摘要方法研究[D];大連海事大學(xué);2018年

2 張世博;面向網(wǎng)絡(luò)評(píng)論信息的自動(dòng)摘要技術(shù)研究與應(yīng)用[D];北京郵電大學(xué);2019年

3 耿煥同;范例推理與互聯(lián)網(wǎng)文本信息處理研究[D];中國科學(xué)技術(shù)大學(xué);2006年

4 鄭義;多媒體信息自動(dòng)摘要及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2003年

5 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年

6 趙燁;大規(guī)模圖像集自動(dòng)摘要技術(shù)研究[D];合肥工業(yè)大學(xué);2014年

7 生龍;二型模糊系統(tǒng)理論及應(yīng)用[D];電子科技大學(xué);2012年

8 溫源;互聯(lián)網(wǎng)文本信息挖掘與個(gè)性化推薦的研究[D];北京交通大學(xué);2014年

9 李梅;文本挖掘中若干關(guān)鍵技術(shù)研究[D];西北農(nóng)林科技大學(xué);2016年

相關(guān)碩士學(xué)位論文 前10條

1 柳斌;基于深度學(xué)習(xí)的中文自動(dòng)摘要生成[D];南京郵電大學(xué);2019年

2 趙君;基于TextRank算法的中文文獻(xiàn)自動(dòng)摘要提取研究[D];華中科技大學(xué);2019年

3 肖樹一;基于指針生成網(wǎng)絡(luò)模型的自動(dòng)摘要研究[D];山東科技大學(xué);2018年

4 楊成榮;基于門控卷積神經(jīng)網(wǎng)絡(luò)的代碼自動(dòng)摘要算法[D];云南大學(xué);2019年

5 易志偉;基于深度學(xué)習(xí)的多語種自動(dòng)摘要系統(tǒng)的研究與實(shí)現(xiàn)[D];延邊大學(xué);2019年

6 賈星宇;基于深度學(xué)習(xí)的短文自動(dòng)摘要生成算法研究[D];西安科技大學(xué);2019年

7 李偉男;基于深度學(xué)習(xí)的新聞自動(dòng)摘要技術(shù)[D];西安電子科技大學(xué);2019年

8 王帥;面向長文本的兩階段自動(dòng)摘要算法關(guān)鍵技術(shù)研究[D];國防科技大學(xué);2017年

9 陳達(dá);基于TextRank和Word2Vec的短文本自動(dòng)摘要算法研究[D];武漢理工大學(xué);2018年

10 董晨西;基于深度學(xué)習(xí)的短文本自動(dòng)摘要方法研究[D];北京郵電大學(xué);2019年



本文編號(hào):2607883

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2607883.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶11227***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com