當(dāng)前位置：主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)自動(dòng)摘要方法研究

發(fā)布時(shí)間：2020-03-31 01:53

【摘要】：隨著大數(shù)據(jù)時(shí)代的到來(lái),網(wǎng)絡(luò)學(xué)術(shù)資源開始呈現(xiàn)出爆炸式的增長(zhǎng),這使得科研工作者被淹沒(méi)在越來(lái)越浩瀚的文獻(xiàn)海洋當(dāng)中。因此,如何自動(dòng)地概括一個(gè)學(xué)科領(lǐng)域的文獻(xiàn)集合以生成一份簡(jiǎn)潔、全面的綜述報(bào)告,已經(jīng)成為了目前知識(shí)管理研究與實(shí)踐的熱點(diǎn)問(wèn)題之一。自動(dòng)摘要作為自然語(yǔ)言處理中的一項(xiàng)重要技術(shù),其通過(guò)對(duì)文檔信息進(jìn)行匯總和壓縮,從而以一種濃縮且貼近用戶需求的方式將最為關(guān)鍵的信息予以呈現(xiàn),旨在幫助科研人員達(dá)到“站在巨人肩膀上”的目的。本文圍繞如何提高面向?qū)W術(shù)文獻(xiàn)的自動(dòng)摘要方法展開了深入研究,結(jié)合了有關(guān)深度學(xué)習(xí)的一系列理論與方法,例如基于神經(jīng)網(wǎng)絡(luò)的文本表示方法、基于Seq2Seq模型的自動(dòng)摘要方法,以及關(guān)于文本挖掘的經(jīng)典算法,例如統(tǒng)計(jì)主題模型LDA 與 Labeled-LDA、鏈路分析方法 PageRank 與 PageRank with Priors,進(jìn)而構(gòu)建了一個(gè)“基于深度學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)自動(dòng)摘要方法研究”體系,并且選用了美國(guó)計(jì)算機(jī)協(xié)會(huì)數(shù)字圖書館中的一部分(與計(jì)算機(jī)科學(xué)相關(guān))文獻(xiàn)進(jìn)行數(shù)值實(shí)驗(yàn)驗(yàn)證。本文的主要研究?jī)?nèi)容包括:1.將“文獻(xiàn)綜述生成”任務(wù)定義為一個(gè)序列文本生成問(wèn)題,進(jìn)而提出了一種基于層次神經(jīng)網(wǎng)絡(luò)的Seq2Seq模型。具體地,該模型的核心組件包括一個(gè)層次文檔編碼器和一個(gè)基于注意力的解碼器,其中層次編碼器分別通過(guò)CNN層和RNN層實(shí)現(xiàn)句子級(jí)與文檔級(jí)的語(yǔ)義表示,不僅能夠正確地反映文檔結(jié)構(gòu)的層次性,還可以避免過(guò)長(zhǎng)的單詞序列所引發(fā)的梯度彌散和信息損失;而在解碼過(guò)程中,注意力機(jī)制將各個(gè)候選句的顯著性和新穎性同時(shí)納入考慮,以保證所生成文摘在最大化代表性的時(shí)候盡量最小化其冗余性。2.基于“文獻(xiàn)綜述”是上下文感知的這一特點(diǎn),提出了一種融合上下文信息的Seq2Seq模型。具體地,該模型首先利用Labeled-LDA算法推斷每個(gè)候選句的主題分布,然后在文檔編碼過(guò)程中結(jié)合句子的主題信息,最后將源文本同時(shí)進(jìn)行編碼以添加到解碼過(guò)程中,從而能夠計(jì)算各個(gè)候選句與目標(biāo)文獻(xiàn)之間的上下文相關(guān)性。3.根據(jù)靜態(tài)地分析上下文相關(guān)性無(wú)法滿足文本語(yǔ)料是動(dòng)態(tài)變化的這一事實(shí),從信息網(wǎng)絡(luò)的角度探索了圖形上下文對(duì)于“文獻(xiàn)綜述生成”任務(wù)的重要程度,進(jìn)而提出了一種聯(lián)合上下文驅(qū)動(dòng)的Seq2Seq模型。具體地,該模型首先利用Node2Vec算法矢量化異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn),然后計(jì)算任意兩篇論文在圖形上下文中的連通距離,最后在解碼過(guò)程中同時(shí)引入來(lái)自純文本以及異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)中的兩種不同上下文相關(guān)性。
【圖文】：

數(shù)量統(tǒng)計(jì),文獻(xiàn),學(xué)術(shù)文獻(xiàn)

第１章緒論逡逑１．１研究背景逡逑互聯(lián)網(wǎng)的發(fā)展促進(jìn)了科學(xué)的交流，人們獲取學(xué)術(shù)文獻(xiàn)（Ａｃａｄｅｍｉｃ邋Ｌｉｔｅｒａｔｕｒｅ）逡逑的途徑己經(jīng)從傳統(tǒng)紙質(zhì)印刷品轉(zhuǎn)變成了電子媒介，從而極大地縮短了科技成果自逡逑發(fā)表至被其他工作者所引用的周期。雖然學(xué)術(shù)文獻(xiàn)的網(wǎng)絡(luò)化使得科研人員能夠在逡逑更短的時(shí)間內(nèi)獲得更多的參考和學(xué)習(xí)資料，但是完全地了解其中的內(nèi)容則是一件逡逑令人望而生畏的工作。特別是隨著大數(shù)據(jù)（ＢｉｇＤａｔａ）時(shí)代的到來(lái)，網(wǎng)絡(luò)學(xué)術(shù)資源逡逑逐漸呈現(xiàn)出一種井噴的態(tài)勢(shì)，每天都有數(shù)以萬(wàn)計(jì)的科技出版物得到公開發(fā)表（圖逡逑１．１展示了一份《Ａｔｏｗｅ》雜志于２０１２年發(fā)布的關(guān)于全球?qū)W術(shù)文獻(xiàn)發(fā)表數(shù)量的統(tǒng)計(jì)逡逑報(bào)告），這給科研工作者快速而準(zhǔn)確地從海量文獻(xiàn)中挖掘所需信息帶來(lái)了重大挑逡逑戰(zhàn)⑴。逡逑

架構(gòu)圖,機(jī)器翻譯,架構(gòu)

（Ｓｐｅｅｃｈ邋Ｒｅｃｏｇｎｉｔｉｏｎ）邋［１１］等。通常，一個(gè)基礎(chǔ)版本的Ｓｅｑ２Ｓｅｑ模型包含了三大組逡逑成部分邐即編碼器（Ｅｎｃｏｄｅｒ）、解碼器（Ｄｅｃｏｄｅｒ）以及連接兩者的上下文向量逡逑（Ｃｏｎｔｅｘｔ邋Ｖｅｃｔｏｒ）。圖１．３展示了一個(gè)基于Ｓｅｑ２Ｓｅｑ模型的機(jī)器翻譯架構(gòu)，其中編逡逑碼器首先使用一個(gè)神經(jīng)網(wǎng)絡(luò)讀取一條英文輸入序列“Ｉ邋ｌｏｖｅ邋ｄｅｅｐ邋ｌｅａｒｎｉｎｇ．”，將其逡逑轉(zhuǎn)換為一個(gè)固定大小的上下文向量，繼而解碼器從該向量中獲取上下文信息，然逡逑后利用另一個(gè)神經(jīng)網(wǎng)絡(luò)產(chǎn)生一條中文輸出序列“我愛(ài)深度學(xué)習(xí)�！�。需要說(shuō)明的逡逑是，該模型通過(guò)隨機(jī)梯度下降法（Ｓｔｏｃｈａｓｔｉｃ邋Ｇｒａｄｉｅｎｔ邋Ｄｅｓｃｅｎｔ，邋ＳＧＤ）邋［１２］以學(xué)習(xí)神逡逑經(jīng)網(wǎng)絡(luò)中的各個(gè)參數(shù)，，從而實(shí)現(xiàn)模型的訓(xùn)練與優(yōu)化。從理論上講，只要給出足夠逡逑多的輸入輸出對(duì)，就能夠訓(xùn)練出一個(gè)性能足夠好的Ｓｅｑ２Ｓｅｑ模型。逡逑１邋ｈｔｔｐｓ：／／ｓｍｅｒｉｔｙ．ｃｏｍ／ａｒｔｉｃｌｅｓ／２０１６／ｇｏｏｇｌｅ＿ｎｍｔ＿ａｒｃｈ．ｈｔｍｌ逡逑４逡逑
【學(xué)位授予單位】：大連海事大學(xué)
【學(xué)位級(jí)別】：博士
【學(xué)位授予年份】：2018
【分類號(hào)】：TP183;TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文前7條

1 馬鳳;;基于PageRank算法的期刊影響力研究[J];情報(bào)雜志;2014年12期

2 王連喜;;自動(dòng)摘要研究中的若干問(wèn)題[J];圖書情報(bào)工作;2014年20期

3 曹洋;成穎;裴雷;;基于機(jī)器學(xué)習(xí)的自動(dòng)文摘研究綜述[J];圖書情報(bào)工作;2014年18期

4 胡振;傅昆;張長(zhǎng)水;;基于深度學(xué)習(xí)的作曲家分類問(wèn)題[J];計(jì)算機(jī)研究與發(fā)展;2014年09期

5 梁淑芬;劉銀華;李立琛;;基于LBP和深度學(xué)習(xí)的非限制條件下人臉識(shí)別算法[J];通信學(xué)報(bào);2014年06期

6 余凱;賈磊;陳雨強(qiáng);徐偉;;深度學(xué)習(xí)的昨天、今天和明天[J];計(jì)算機(jī)研究與發(fā)展;2013年09期

7 譚種;陳躍新;;自動(dòng)摘要方法綜述[J];情報(bào)學(xué)報(bào);2008年01期

本文編號(hào)：2608384

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://lk138.cn/kejilunwen/zidonghuakongzhilunwen/2608384.html

上一篇：基于人工智能對(duì)未來(lái)戲劇語(yǔ)言藝術(shù)的理想范本
下一篇：基于交流電同步通信方式的教室燈光控制系統(tǒng)研究設(shè)計(jì)

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

基于深度學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)自動(dòng)摘要方法研究