中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)自動(dòng)摘要方法研究

發(fā)布時(shí)間:2020-03-31 01:53
【摘要】:隨著大數(shù)據(jù)時(shí)代的到來,網(wǎng)絡(luò)學(xué)術(shù)資源開始呈現(xiàn)出爆炸式的增長(zhǎng),這使得科研工作者被淹沒在越來越浩瀚的文獻(xiàn)海洋當(dāng)中。因此,如何自動(dòng)地概括一個(gè)學(xué)科領(lǐng)域的文獻(xiàn)集合以生成一份簡(jiǎn)潔、全面的綜述報(bào)告,已經(jīng)成為了目前知識(shí)管理研究與實(shí)踐的熱點(diǎn)問題之一。自動(dòng)摘要作為自然語(yǔ)言處理中的一項(xiàng)重要技術(shù),其通過對(duì)文檔信息進(jìn)行匯總和壓縮,從而以一種濃縮且貼近用戶需求的方式將最為關(guān)鍵的信息予以呈現(xiàn),旨在幫助科研人員達(dá)到“站在巨人肩膀上”的目的。本文圍繞如何提高面向?qū)W術(shù)文獻(xiàn)的自動(dòng)摘要方法展開了深入研究,結(jié)合了有關(guān)深度學(xué)習(xí)的一系列理論與方法,例如基于神經(jīng)網(wǎng)絡(luò)的文本表示方法、基于Seq2Seq模型的自動(dòng)摘要方法,以及關(guān)于文本挖掘的經(jīng)典算法,例如統(tǒng)計(jì)主題模型LDA 與 Labeled-LDA、鏈路分析方法 PageRank 與 PageRank with Priors,進(jìn)而構(gòu)建了一個(gè)“基于深度學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)自動(dòng)摘要方法研究”體系,并且選用了美國(guó)計(jì)算機(jī)協(xié)會(huì)數(shù)字圖書館中的一部分(與計(jì)算機(jī)科學(xué)相關(guān))文獻(xiàn)進(jìn)行數(shù)值實(shí)驗(yàn)驗(yàn)證。本文的主要研究?jī)?nèi)容包括:1.將“文獻(xiàn)綜述生成”任務(wù)定義為一個(gè)序列文本生成問題,進(jìn)而提出了一種基于層次神經(jīng)網(wǎng)絡(luò)的Seq2Seq模型。具體地,該模型的核心組件包括一個(gè)層次文檔編碼器和一個(gè)基于注意力的解碼器,其中層次編碼器分別通過CNN層和RNN層實(shí)現(xiàn)句子級(jí)與文檔級(jí)的語(yǔ)義表示,不僅能夠正確地反映文檔結(jié)構(gòu)的層次性,還可以避免過長(zhǎng)的單詞序列所引發(fā)的梯度彌散和信息損失;而在解碼過程中,注意力機(jī)制將各個(gè)候選句的顯著性和新穎性同時(shí)納入考慮,以保證所生成文摘在最大化代表性的時(shí)候盡量最小化其冗余性。2.基于“文獻(xiàn)綜述”是上下文感知的這一特點(diǎn),提出了一種融合上下文信息的Seq2Seq模型。具體地,該模型首先利用Labeled-LDA算法推斷每個(gè)候選句的主題分布,然后在文檔編碼過程中結(jié)合句子的主題信息,最后將源文本同時(shí)進(jìn)行編碼以添加到解碼過程中,從而能夠計(jì)算各個(gè)候選句與目標(biāo)文獻(xiàn)之間的上下文相關(guān)性。3.根據(jù)靜態(tài)地分析上下文相關(guān)性無法滿足文本語(yǔ)料是動(dòng)態(tài)變化的這一事實(shí),從信息網(wǎng)絡(luò)的角度探索了圖形上下文對(duì)于“文獻(xiàn)綜述生成”任務(wù)的重要程度,進(jìn)而提出了一種聯(lián)合上下文驅(qū)動(dòng)的Seq2Seq模型。具體地,該模型首先利用Node2Vec算法矢量化異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn),然后計(jì)算任意兩篇論文在圖形上下文中的連通距離,最后在解碼過程中同時(shí)引入來自純文本以及異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)中的兩種不同上下文相關(guān)性。
【圖文】:

數(shù)量統(tǒng)計(jì),文獻(xiàn),學(xué)術(shù)文獻(xiàn)


第1章緒論逡逑1.1研究背景逡逑互聯(lián)網(wǎng)的發(fā)展促進(jìn)了科學(xué)的交流,人們獲取學(xué)術(shù)文獻(xiàn)(Academic邋Literature)逡逑的途徑己經(jīng)從傳統(tǒng)紙質(zhì)印刷品轉(zhuǎn)變成了電子媒介,從而極大地縮短了科技成果自逡逑發(fā)表至被其他工作者所引用的周期。雖然學(xué)術(shù)文獻(xiàn)的網(wǎng)絡(luò)化使得科研人員能夠在逡逑更短的時(shí)間內(nèi)獲得更多的參考和學(xué)習(xí)資料,但是完全地了解其中的內(nèi)容則是一件逡逑令人望而生畏的工作。特別是隨著大數(shù)據(jù)(BigData)時(shí)代的到來,網(wǎng)絡(luò)學(xué)術(shù)資源逡逑逐漸呈現(xiàn)出一種井噴的態(tài)勢(shì),每天都有數(shù)以萬計(jì)的科技出版物得到公開發(fā)表(圖逡逑1.1展示了一份《Atowe》雜志于2012年發(fā)布的關(guān)于全球?qū)W術(shù)文獻(xiàn)發(fā)表數(shù)量的統(tǒng)計(jì)逡逑報(bào)告),這給科研工作者快速而準(zhǔn)確地從海量文獻(xiàn)中挖掘所需信息帶來了重大挑逡逑戰(zhàn)⑴。逡逑

架構(gòu)圖,機(jī)器翻譯,架構(gòu)


(Speech邋Recognition)邋[11]等。通常,一個(gè)基礎(chǔ)版本的Seq2Seq模型包含了三大組逡逑成部分邐即編碼器(Encoder)、解碼器(Decoder)以及連接兩者的上下文向量逡逑(Context邋Vector)。圖1.3展示了一個(gè)基于Seq2Seq模型的機(jī)器翻譯架構(gòu),其中編逡逑碼器首先使用一個(gè)神經(jīng)網(wǎng)絡(luò)讀取一條英文輸入序列“I邋love邋deep邋learning.”,將其逡逑轉(zhuǎn)換為一個(gè)固定大小的上下文向量,繼而解碼器從該向量中獲取上下文信息,然逡逑后利用另一個(gè)神經(jīng)網(wǎng)絡(luò)產(chǎn)生一條中文輸出序列“我愛深度學(xué)習(xí)!。需要說明的逡逑是,該模型通過隨機(jī)梯度下降法(Stochastic邋Gradient邋Descent,邋SGD)邋[12]以學(xué)習(xí)神逡逑經(jīng)網(wǎng)絡(luò)中的各個(gè)參數(shù),,從而實(shí)現(xiàn)模型的訓(xùn)練與優(yōu)化。從理論上講,只要給出足夠逡逑多的輸入輸出對(duì),就能夠訓(xùn)練出一個(gè)性能足夠好的Seq2Seq模型。逡逑1邋https://smerity.com/articles/2016/google_nmt_arch.html逡逑4逡逑
【學(xué)位授予單位】:大連海事大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP183;TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前7條

1 馬鳳;;基于PageRank算法的期刊影響力研究[J];情報(bào)雜志;2014年12期

2 王連喜;;自動(dòng)摘要研究中的若干問題[J];圖書情報(bào)工作;2014年20期

3 曹洋;成穎;裴雷;;基于機(jī)器學(xué)習(xí)的自動(dòng)文摘研究綜述[J];圖書情報(bào)工作;2014年18期

4 胡振;傅昆;張長(zhǎng)水;;基于深度學(xué)習(xí)的作曲家分類問題[J];計(jì)算機(jī)研究與發(fā)展;2014年09期

5 梁淑芬;劉銀華;李立琛;;基于LBP和深度學(xué)習(xí)的非限制條件下人臉識(shí)別算法[J];通信學(xué)報(bào);2014年06期

6 余凱;賈磊;陳雨強(qiáng);徐偉;;深度學(xué)習(xí)的昨天、今天和明天[J];計(jì)算機(jī)研究與發(fā)展;2013年09期

7 譚種;陳躍新;;自動(dòng)摘要方法綜述[J];情報(bào)學(xué)報(bào);2008年01期



本文編號(hào):2608384

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2608384.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶71344***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com