基于深度學習的學術(shù)文獻自動摘要方法研究
發(fā)布時間:2020-03-31 01:53
【摘要】:隨著大數(shù)據(jù)時代的到來,網(wǎng)絡(luò)學術(shù)資源開始呈現(xiàn)出爆炸式的增長,這使得科研工作者被淹沒在越來越浩瀚的文獻海洋當中。因此,如何自動地概括一個學科領(lǐng)域的文獻集合以生成一份簡潔、全面的綜述報告,已經(jīng)成為了目前知識管理研究與實踐的熱點問題之一。自動摘要作為自然語言處理中的一項重要技術(shù),其通過對文檔信息進行匯總和壓縮,從而以一種濃縮且貼近用戶需求的方式將最為關(guān)鍵的信息予以呈現(xiàn),旨在幫助科研人員達到“站在巨人肩膀上”的目的。本文圍繞如何提高面向?qū)W術(shù)文獻的自動摘要方法展開了深入研究,結(jié)合了有關(guān)深度學習的一系列理論與方法,例如基于神經(jīng)網(wǎng)絡(luò)的文本表示方法、基于Seq2Seq模型的自動摘要方法,以及關(guān)于文本挖掘的經(jīng)典算法,例如統(tǒng)計主題模型LDA 與 Labeled-LDA、鏈路分析方法 PageRank 與 PageRank with Priors,進而構(gòu)建了一個“基于深度學習的學術(shù)文獻自動摘要方法研究”體系,并且選用了美國計算機協(xié)會數(shù)字圖書館中的一部分(與計算機科學相關(guān))文獻進行數(shù)值實驗驗證。本文的主要研究內(nèi)容包括:1.將“文獻綜述生成”任務(wù)定義為一個序列文本生成問題,進而提出了一種基于層次神經(jīng)網(wǎng)絡(luò)的Seq2Seq模型。具體地,該模型的核心組件包括一個層次文檔編碼器和一個基于注意力的解碼器,其中層次編碼器分別通過CNN層和RNN層實現(xiàn)句子級與文檔級的語義表示,不僅能夠正確地反映文檔結(jié)構(gòu)的層次性,還可以避免過長的單詞序列所引發(fā)的梯度彌散和信息損失;而在解碼過程中,注意力機制將各個候選句的顯著性和新穎性同時納入考慮,以保證所生成文摘在最大化代表性的時候盡量最小化其冗余性。2.基于“文獻綜述”是上下文感知的這一特點,提出了一種融合上下文信息的Seq2Seq模型。具體地,該模型首先利用Labeled-LDA算法推斷每個候選句的主題分布,然后在文檔編碼過程中結(jié)合句子的主題信息,最后將源文本同時進行編碼以添加到解碼過程中,從而能夠計算各個候選句與目標文獻之間的上下文相關(guān)性。3.根據(jù)靜態(tài)地分析上下文相關(guān)性無法滿足文本語料是動態(tài)變化的這一事實,從信息網(wǎng)絡(luò)的角度探索了圖形上下文對于“文獻綜述生成”任務(wù)的重要程度,進而提出了一種聯(lián)合上下文驅(qū)動的Seq2Seq模型。具體地,該模型首先利用Node2Vec算法矢量化異構(gòu)學術(shù)網(wǎng)絡(luò)中的每個節(jié)點,然后計算任意兩篇論文在圖形上下文中的連通距離,最后在解碼過程中同時引入來自純文本以及異構(gòu)學術(shù)網(wǎng)絡(luò)中的兩種不同上下文相關(guān)性。
【圖文】:
第1章緒論逡逑1.1研究背景逡逑互聯(lián)網(wǎng)的發(fā)展促進了科學的交流,人們獲取學術(shù)文獻(Academic邋Literature)逡逑的途徑己經(jīng)從傳統(tǒng)紙質(zhì)印刷品轉(zhuǎn)變成了電子媒介,從而極大地縮短了科技成果自逡逑發(fā)表至被其他工作者所引用的周期。雖然學術(shù)文獻的網(wǎng)絡(luò)化使得科研人員能夠在逡逑更短的時間內(nèi)獲得更多的參考和學習資料,但是完全地了解其中的內(nèi)容則是一件逡逑令人望而生畏的工作。特別是隨著大數(shù)據(jù)(BigData)時代的到來,網(wǎng)絡(luò)學術(shù)資源逡逑逐漸呈現(xiàn)出一種井噴的態(tài)勢,每天都有數(shù)以萬計的科技出版物得到公開發(fā)表(圖逡逑1.1展示了一份《Atowe》雜志于2012年發(fā)布的關(guān)于全球?qū)W術(shù)文獻發(fā)表數(shù)量的統(tǒng)計逡逑報告),這給科研工作者快速而準確地從海量文獻中挖掘所需信息帶來了重大挑逡逑戰(zhàn)⑴。逡逑
(Speech邋Recognition)邋[11]等。通常,一個基礎(chǔ)版本的Seq2Seq模型包含了三大組逡逑成部分邐即編碼器(Encoder)、解碼器(Decoder)以及連接兩者的上下文向量逡逑(Context邋Vector)。圖1.3展示了一個基于Seq2Seq模型的機器翻譯架構(gòu),其中編逡逑碼器首先使用一個神經(jīng)網(wǎng)絡(luò)讀取一條英文輸入序列“I邋love邋deep邋learning.”,將其逡逑轉(zhuǎn)換為一個固定大小的上下文向量,繼而解碼器從該向量中獲取上下文信息,然逡逑后利用另一個神經(jīng)網(wǎng)絡(luò)產(chǎn)生一條中文輸出序列“我愛深度學習!。需要說明的逡逑是,該模型通過隨機梯度下降法(Stochastic邋Gradient邋Descent,邋SGD)邋[12]以學習神逡逑經(jīng)網(wǎng)絡(luò)中的各個參數(shù),,從而實現(xiàn)模型的訓練與優(yōu)化。從理論上講,只要給出足夠逡逑多的輸入輸出對,就能夠訓練出一個性能足夠好的Seq2Seq模型。逡逑1邋https://smerity.com/articles/2016/google_nmt_arch.html逡逑4逡逑
【學位授予單位】:大連海事大學
【學位級別】:博士
【學位授予年份】:2018
【分類號】:TP183;TP391.1
本文編號:2608384
【圖文】:
第1章緒論逡逑1.1研究背景逡逑互聯(lián)網(wǎng)的發(fā)展促進了科學的交流,人們獲取學術(shù)文獻(Academic邋Literature)逡逑的途徑己經(jīng)從傳統(tǒng)紙質(zhì)印刷品轉(zhuǎn)變成了電子媒介,從而極大地縮短了科技成果自逡逑發(fā)表至被其他工作者所引用的周期。雖然學術(shù)文獻的網(wǎng)絡(luò)化使得科研人員能夠在逡逑更短的時間內(nèi)獲得更多的參考和學習資料,但是完全地了解其中的內(nèi)容則是一件逡逑令人望而生畏的工作。特別是隨著大數(shù)據(jù)(BigData)時代的到來,網(wǎng)絡(luò)學術(shù)資源逡逑逐漸呈現(xiàn)出一種井噴的態(tài)勢,每天都有數(shù)以萬計的科技出版物得到公開發(fā)表(圖逡逑1.1展示了一份《Atowe》雜志于2012年發(fā)布的關(guān)于全球?qū)W術(shù)文獻發(fā)表數(shù)量的統(tǒng)計逡逑報告),這給科研工作者快速而準確地從海量文獻中挖掘所需信息帶來了重大挑逡逑戰(zhàn)⑴。逡逑
(Speech邋Recognition)邋[11]等。通常,一個基礎(chǔ)版本的Seq2Seq模型包含了三大組逡逑成部分邐即編碼器(Encoder)、解碼器(Decoder)以及連接兩者的上下文向量逡逑(Context邋Vector)。圖1.3展示了一個基于Seq2Seq模型的機器翻譯架構(gòu),其中編逡逑碼器首先使用一個神經(jīng)網(wǎng)絡(luò)讀取一條英文輸入序列“I邋love邋deep邋learning.”,將其逡逑轉(zhuǎn)換為一個固定大小的上下文向量,繼而解碼器從該向量中獲取上下文信息,然逡逑后利用另一個神經(jīng)網(wǎng)絡(luò)產(chǎn)生一條中文輸出序列“我愛深度學習!。需要說明的逡逑是,該模型通過隨機梯度下降法(Stochastic邋Gradient邋Descent,邋SGD)邋[12]以學習神逡逑經(jīng)網(wǎng)絡(luò)中的各個參數(shù),,從而實現(xiàn)模型的訓練與優(yōu)化。從理論上講,只要給出足夠逡逑多的輸入輸出對,就能夠訓練出一個性能足夠好的Seq2Seq模型。逡逑1邋https://smerity.com/articles/2016/google_nmt_arch.html逡逑4逡逑
【學位授予單位】:大連海事大學
【學位級別】:博士
【學位授予年份】:2018
【分類號】:TP183;TP391.1
【參考文獻】
相關(guān)期刊論文 前7條
1 馬鳳;;基于PageRank算法的期刊影響力研究[J];情報雜志;2014年12期
2 王連喜;;自動摘要研究中的若干問題[J];圖書情報工作;2014年20期
3 曹洋;成穎;裴雷;;基于機器學習的自動文摘研究綜述[J];圖書情報工作;2014年18期
4 胡振;傅昆;張長水;;基于深度學習的作曲家分類問題[J];計算機研究與發(fā)展;2014年09期
5 梁淑芬;劉銀華;李立琛;;基于LBP和深度學習的非限制條件下人臉識別算法[J];通信學報;2014年06期
6 余凱;賈磊;陳雨強;徐偉;;深度學習的昨天、今天和明天[J];計算機研究與發(fā)展;2013年09期
7 譚種;陳躍新;;自動摘要方法綜述[J];情報學報;2008年01期
本文編號:2608384
本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2608384.html
最近更新
教材專著