国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于深度學(xué)習(xí)的中文自動摘要生成

發(fā)布時(shí)間:2020-03-30 18:21
【摘要】:互聯(lián)網(wǎng)中日益增長的文本數(shù)據(jù)導(dǎo)致人們需要花費(fèi)更多時(shí)間用于篩選和甄別文本中的關(guān)鍵信息。自動摘要技術(shù)作為一種從長文本中獲取關(guān)鍵信息的方法,能夠降低信息爆炸時(shí)代人們信息獲取的時(shí)間成本,引起越來越多研究者的關(guān)注。自動文摘技術(shù)按照生成方式可以分為抽取式摘要和生成式摘要,抽取式摘要技術(shù)只能依賴原有文本內(nèi)容,具有局限性。生成式摘要技術(shù)具有較高的靈活性,但在中文摘要生成時(shí)仍然有文本初始化難以保持足夠信息,高質(zhì)量數(shù)據(jù)難以獲取等困難。本文通過一系列自然語言處理技術(shù),能夠生成更加簡明、準(zhǔn)確的中文摘要。首先,為了給編碼器提供更好的文本向量作為輸入,保證文本向量包含足夠的語義信息,本文受到Fasttext模型在英文中能夠捕獲單詞前綴和后綴信息的啟發(fā),針對中文的結(jié)構(gòu)特點(diǎn)提出基于筆畫的文本向量編碼。我們使用這種編碼方法,構(gòu)造筆畫字典,通過Skip-Gram模型,構(gòu)成文本向量,完成對漢字部件信息更細(xì)致的表示任務(wù)。其次,在對在文本生成上主要使用Seq2Seq模型加以優(yōu)化,主要包括在編碼器中使用Bi-LSTM,在一定程度上解決了長序列文本信息丟失以及從后往前信息的補(bǔ)充問題,使用Attention機(jī)制捕獲輸入與輸出詞之間的關(guān)聯(lián)強(qiáng)弱性,并在測試階段的解碼器中使用Beam Search優(yōu)化序列的生成效果。本文基于LCSTS數(shù)據(jù)集訓(xùn)練模型,通過Rouge評分和人工判斷兩個(gè)方面證實(shí)我們的編碼方法和模型在文本摘要可讀性上有所提升。
【圖文】:

折線圖,字典,解碼器,常用詞


(c) Rouge-L 評分圖 5.1 解碼器字典大小對于 Rouge 評分的影響字典的大小從 2K 上升到 11K 的過程中,Rouge-N 的評分中包含的詞越全面,模型的效果越好。結(jié)合折線圖來看 2k 到 8k 的過程中,出現(xiàn)最多有一倍的效果提升,主要原夠多的常用詞語,漢語常用詞的詞匯量在 5k 到 8k 之間式提升。大小是影響測試階段模型輸出效果的重要因素,字典過字典過大則影響生成摘要的速度,影響模型效率。圖 5碼時(shí)間的關(guān)系。

折線圖,單句,郵箱,解碼器


(c) Rouge-L 評分圖 5.1 解碼器字典大小對于 Rouge 評分的影響字典的大小從 2K 上升到 11K 的過程中,Rouge-N 的評分都有中包含的詞越全面,模型的效果越好。結(jié)合折線圖來看,,三 2k 到 8k 的過程中,出現(xiàn)最多有一倍的效果提升,主要原因是夠多的常用詞語,漢語常用詞的詞匯量在 5k 到 8k 之間。因式提升。大小是影響測試階段模型輸出效果的重要因素,字典過小會字典過大則影響生成摘要的速度,影響模型效率。圖 5.2 展碼時(shí)間的關(guān)系。
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP18

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳爾聃;;文本自動摘要的遷移學(xué)習(xí)技術(shù)[J];數(shù)碼世界;2018年12期

2 劉茂福;余博;胡慧君;;基于維基百科的多文檔自動摘要系統(tǒng)研究[J];微型機(jī)與應(yīng)用;2011年16期

3 仇麗青;李偉明;;上下文敏感的多文檔自動摘要生成方法[J];計(jì)算機(jī)工程;2010年21期

4 洪田玉;陳志剛;;一種跨語言的自動摘要技術(shù)[J];電腦與信息技術(shù);2009年04期

5 郭琳虹;張小松;;文本自動摘要的方法研究[J];福建電腦;2008年06期

6 ;中英文自動摘要系統(tǒng)軟件問世[J];情報(bào)理論與實(shí)踐;2001年01期

7 王永成;劉功申;劉傳漢;胡佩華;孫展;;論文本的自動摘要[J];中國索引;2003年02期

8 唐建權(quán);何洪波;王閏強(qiáng);;一種基于聚類的文章自動摘要方法及實(shí)現(xiàn)[J];科研信息化技術(shù)與應(yīng)用;2019年01期

9 彭敏;高斌龍;黃濟(jì)民;劉紀(jì)平;;基于高質(zhì)量信息提取的微博自動摘要[J];計(jì)算機(jī)工程;2015年07期

10 劉思佳;;內(nèi)容自動摘要系統(tǒng)的研究[J];數(shù)碼世界;2019年04期

相關(guān)會議論文 前10條

1 劉娜;肖智博;路瑩;唐曉君;肖鵬;;自適應(yīng)主題融合的多文檔自動摘要算法[A];2013年中國智能自動化學(xué)術(shù)會議論文集(第五分冊)[C];2013年

2 吳中勤;黃萱菁;吳立德;;基于有監(jiān)督分類技術(shù)的文本自動摘要研究[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年

3 張奇;黃萱菁;吳立德;;一種新的句子相似度度量及其在文本自動摘要中的應(yīng)用[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

4 李芳;何婷婷;;面向查詢的多模式自動摘要研究[A];第五屆全國青年計(jì)算語言學(xué)研討會論文集[C];2010年

5 王荀;李素建;宋濤;姜伯平;;服務(wù)于內(nèi)容側(cè)面發(fā)現(xiàn)的框架識別[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

6 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;基于主題模型LDA的多文檔自動摘要[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

7 章彥星;張銘;鄧志鴻;;基于特征的用戶評論自動摘要[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年

8 王嬋;李靜;王棟;程杰;來風(fēng)剛;;互聯(lián)網(wǎng)輿論收集與分析系統(tǒng)[A];2015電力行業(yè)信息化年會論文集[C];2015年

9 王暉;馬軍;;面向Web論壇的多文檔摘要方法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

10 桂卓民;何婷婷;陳勁光;李芳;;一種面向查詢的多文檔自動文摘系統(tǒng)實(shí)現(xiàn)方法[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

相關(guān)重要報(bào)紙文章 前4條

1 橫舟;你愛機(jī)器,但它不會愛你[N];檢察日報(bào);2017年

2 記者 周蓉蓉 薛海濱 龔杰;IBM軟件強(qiáng)勢出擊[N];計(jì)算機(jī)世界;2003年

3 本報(bào)記者 胡珉琦;一本AI寫作的科研綜述 你讀嗎[N];中國科學(xué)報(bào);2019年

4 本報(bào)記者 張彤;讓計(jì)算機(jī)說中國話[N];網(wǎng)絡(luò)世界;2004年

相關(guān)博士學(xué)位論文 前9條

1 王勇臻;基于深度學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)自動摘要方法研究[D];大連海事大學(xué);2018年

2 張世博;面向網(wǎng)絡(luò)評論信息的自動摘要技術(shù)研究與應(yīng)用[D];北京郵電大學(xué);2019年

3 耿煥同;范例推理與互聯(lián)網(wǎng)文本信息處理研究[D];中國科學(xué)技術(shù)大學(xué);2006年

4 鄭義;多媒體信息自動摘要及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2003年

5 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年

6 趙燁;大規(guī)模圖像集自動摘要技術(shù)研究[D];合肥工業(yè)大學(xué);2014年

7 生龍;二型模糊系統(tǒng)理論及應(yīng)用[D];電子科技大學(xué);2012年

8 溫源;互聯(lián)網(wǎng)文本信息挖掘與個(gè)性化推薦的研究[D];北京交通大學(xué);2014年

9 李梅;文本挖掘中若干關(guān)鍵技術(shù)研究[D];西北農(nóng)林科技大學(xué);2016年

相關(guān)碩士學(xué)位論文 前10條

1 柳斌;基于深度學(xué)習(xí)的中文自動摘要生成[D];南京郵電大學(xué);2019年

2 趙君;基于TextRank算法的中文文獻(xiàn)自動摘要提取研究[D];華中科技大學(xué);2019年

3 肖樹一;基于指針生成網(wǎng)絡(luò)模型的自動摘要研究[D];山東科技大學(xué);2018年

4 楊成榮;基于門控卷積神經(jīng)網(wǎng)絡(luò)的代碼自動摘要算法[D];云南大學(xué);2019年

5 易志偉;基于深度學(xué)習(xí)的多語種自動摘要系統(tǒng)的研究與實(shí)現(xiàn)[D];延邊大學(xué);2019年

6 賈星宇;基于深度學(xué)習(xí)的短文自動摘要生成算法研究[D];西安科技大學(xué);2019年

7 李偉男;基于深度學(xué)習(xí)的新聞自動摘要技術(shù)[D];西安電子科技大學(xué);2019年

8 王帥;面向長文本的兩階段自動摘要算法關(guān)鍵技術(shù)研究[D];國防科技大學(xué);2017年

9 陳達(dá);基于TextRank和Word2Vec的短文本自動摘要算法研究[D];武漢理工大學(xué);2018年

10 董晨西;基于深度學(xué)習(xí)的短文本自動摘要方法研究[D];北京郵電大學(xué);2019年



本文編號:2607883

資料下載
論文發(fā)表

本文鏈接:http://lk138.cn/kejilunwen/zidonghuakongzhilunwen/2607883.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶11227***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
啊啊啊嗯嗯嗯嗯嗯嗯嗯嗯日逼视频| 中文字幕怡春院av| 99热只有精品三级| 日韩欧美在线超碰| 日韩欧美中文91| 日韩久久黄页抽插无码| 中文字幕av专区| 亚洲欧洲精品污网站在线观看| 人人妻人人澡人人爽软件| 天天拍天天躁天天爽| 黄色片网站久久| 欧美91 涩| 精品久久久久久久一区二区夜夜嗨| AV偷做系列| 亚洲长久久| 欧美日韩一区porn| 久久色中文字幕| 粉粉嫩嫩的后入久久不能| 粉嫩女人精品视频在线播放| 人人妻人人把| 亚洲久久视频| 中文字幕 一区二区 精品 | 日韩和的一区二区区日大毛B播放| 国产 乱伦小电影| 最新精品探花在线网站| 亚洲欧美成人综合网| 日韩激情三级| 大香蕉伊一人一网| 九一九色网站一区二区| 欧美三级片久久久| 啊啊啊……啊嗯嗯……嗯视频| 国产亚洲欧美天天色| 开心色婷婷色五月天| 日b视频欧美日本| 欧美xo一区二区| 婷婷爱丁香i| 麻豆久久精品网站| 久久香蕉美女| 99久久精品福利视频| 婷婷综合一区字幕| 日本免费不卡一区二区三区|