中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

基于Attention機(jī)制的文本摘要研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-01-20 03:43
  隨著大數(shù)據(jù)的來(lái)臨,信息數(shù)據(jù)出現(xiàn)爆炸式增長(zhǎng),網(wǎng)絡(luò)時(shí)代每天產(chǎn)生數(shù)以億計(jì)的數(shù)據(jù)和信息,因此人類不可避免的面臨信息過(guò)載這一問(wèn)題.其中歸因于自媒體等傳播途徑的普及,使得文本信息越來(lái)越多.如何從雜亂綿長(zhǎng)的文本中摘要出簡(jiǎn)短的主旨,即自動(dòng)文本摘要的研究,對(duì)于人們能夠快速、準(zhǔn)確地從海量文本數(shù)據(jù)中獲取到有效信息有著重大的意義.是通過(guò)生成一段簡(jiǎn)練的文字來(lái)高度概括原文信息的技術(shù).要將長(zhǎng)文本轉(zhuǎn)換為短的摘要內(nèi)容,需要通過(guò)seq2seq框架將原始輸入編碼成一個(gè)語(yǔ)義向量,并對(duì)該語(yǔ)義向量解碼生成輸出.本文對(duì)于編碼部分使用雙向LSTM神經(jīng)網(wǎng)絡(luò),解碼部分使用單向LSTM神經(jīng)網(wǎng)絡(luò).但是長(zhǎng)文本序列僅依靠一個(gè)語(yǔ)義編碼是不足以表示全部文本信息的,因此引入attention機(jī)制,并在此基礎(chǔ)上對(duì)模型進(jìn)行改進(jìn).具體改進(jìn)為使用TextRank算法結(jié)合句子的位置特征和新穎性計(jì)算出每個(gè)句子的重要性得分,選出得分最高的TOP-K個(gè)句子作為輸入序列.并放棄了傳統(tǒng)的通過(guò)attention回顧全部文本的做法,讓attention僅關(guān)注局部信息,從而將注意力集中在對(duì)齊位置周圍.通過(guò)這種方式減少噪聲和計(jì)算時(shí)間,提高摘要的準(zhǔn)確度.最后設(shè)計(jì)實(shí)驗(yàn)并進(jìn)行結(jié)果分析... 

【文章來(lái)源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:50 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于Attention機(jī)制的文本摘要研究與實(shí)現(xiàn)


中國(guó)網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率

網(wǎng)民,互聯(lián)網(wǎng),手機(jī),自動(dòng)摘要


華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文基礎(chǔ)且應(yīng)用最廣泛的一類數(shù)據(jù),它的信息量在所有信息中占有較大比例.因此, 究文本自動(dòng)摘要技術(shù)可以很好的減輕人類面臨的信息過(guò)載問(wèn)題,是當(dāng)前社會(huì)發(fā)展迫切需要.與此同時(shí),通過(guò)手機(jī)媒介上網(wǎng)的網(wǎng)民規(guī)模逐年遞增.如圖 1-2 所示:截至 20年 6 月,我國(guó)手機(jī)網(wǎng)民的規(guī)模達(dá) 7.88 億,超過(guò)全國(guó)人口的半數(shù),且在全國(guó)網(wǎng)民中占比高達(dá) 98.3%.并且手機(jī)網(wǎng)民的比例逐年穩(wěn)步上升,有繼續(xù)攀升的趨勢(shì).

示意圖,循環(huán)神經(jīng)網(wǎng)絡(luò),示意圖


向量理論上包含了原始文本的所有信息,但是因?yàn)樾畔⒈粔嚎s,所以會(huì)有基礎(chǔ)上,結(jié)合了 attention 機(jī)制,在解碼時(shí)往回查看原來(lái)的文本,配合決定輸出.STM環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)會(huì)對(duì)前面行記憶并應(yīng)用于當(dāng)前的輸出計(jì)算中.文本數(shù)據(jù)是一列序列,其中每個(gè)數(shù)據(jù)所具有重要的意義.因此,相較于卷積神經(jīng)網(wǎng)絡(luò)(CNN),使用循環(huán)神經(jīng)網(wǎng)絡(luò)文本數(shù)據(jù)是合適的.但是由于RNN不可避免的存在梯度消失和梯度爆炸的TM 在此基礎(chǔ)上應(yīng)運(yùn)而生.循環(huán)神經(jīng)網(wǎng)絡(luò) RNNN[29]包含三個(gè)層,它們分別是:輸入層(Input Layer),隱藏層(Hidden La層(Output Layer),具體如圖 3-1 所示:


本文編號(hào):2988299

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/guanlilunwen/tongjijuecelunwen/2988299.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2ad12***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com