基于深度學(xué)習(xí)的漢語依存分析方法研究
發(fā)布時(shí)間:2020-04-13 05:51
【摘要】:依存句法分析是自然語言處理的一項(xiàng)關(guān)鍵基礎(chǔ)技術(shù),其目標(biāo)是根據(jù)依存語法理論識(shí)別出詞語之間的語義修飾關(guān)系并建立相應(yīng)的依存句法樹。依存句法樹具有表現(xiàn)形式簡潔高效等優(yōu)點(diǎn),成為計(jì)算機(jī)理解自然語言的重要表達(dá)形式,被廣泛應(yīng)用于機(jī)器翻譯等自然語言處理任務(wù)中。與英語和日語的依存句法分析水平相比,目前漢語依存分析的精度尚且不高,其主要原因有兩方面。一方面,漢語的詞語之間沒有分詞標(biāo)記且漢字構(gòu)詞能力較強(qiáng),容易分詞錯(cuò)誤;另一方面,詞形變化、格助詞和從句連詞等表層信息的缺失,使得詞性標(biāo)注和依存句法分析的歧義性更大,增大了任務(wù)的分析難度。在實(shí)際應(yīng)用時(shí),漢語依存句法分析需要分詞和詞性標(biāo)注的結(jié)果,這兩項(xiàng)任務(wù)的準(zhǔn)確度直接影響依存句法分析的精度。對(duì)此,研究人員提出漢語分詞、詞性標(biāo)注、依存句法分析的聯(lián)合模型,通過三項(xiàng)任務(wù)的并行處理以及中間結(jié)果的相互利用來解決任務(wù)間的錯(cuò)誤傳播問題。因此,如何利用三項(xiàng)任務(wù)的中間結(jié)果作為特征,相互提攜同步提升精度成為本領(lǐng)域的探索熱點(diǎn)。本文旨在研究基于深度學(xué)習(xí)的三項(xiàng)任務(wù)聯(lián)合處理的漢語依存分析方法。我們利用深度學(xué)習(xí)自動(dòng)學(xué)習(xí)特征和獲取全局信息的優(yōu)勢,實(shí)現(xiàn)基于轉(zhuǎn)移的依存分析聯(lián)合模型。本文的主要工作和貢獻(xiàn)總結(jié)如下:(1)提出依存子樹編碼方法。依存分析聯(lián)合模型在分析過程中生成的依存子樹結(jié)構(gòu)復(fù)雜多樣且數(shù)量不固定,使得依存子樹特征的利用變得復(fù)雜困難。目前基于特征工程的方法和基于神經(jīng)網(wǎng)絡(luò)的方法僅能提取分析棧棧頂?shù)牟糠忠来婀?jié)點(diǎn)信息用于決策,而無法利用分析棧內(nèi)的所有信息。針對(duì)這一問題,本文將分析棧的結(jié)構(gòu)與神經(jīng)網(wǎng)絡(luò)結(jié)合,提出Stack-Tree LSTM依存子樹編碼方法,以獲得完整的依存句法樹特征,同時(shí)避免繁瑣的特征工程。評(píng)測實(shí)驗(yàn)結(jié)果表明,本文所提方法可以提升長句和長距離的依存分析精度,在分詞、詞性標(biāo)注、依存分析上的精度均超過已有的基于神經(jīng)網(wǎng)絡(luò)的依存分析聯(lián)合模型,F1值分別達(dá)到97.78%、93.51%和79.66%。(2)設(shè)計(jì)實(shí)現(xiàn)基于位置的漢字語義表示學(xué)習(xí)方法。漢字作為漢語的語義單元,其語義依賴于所出現(xiàn)的語境,而傳統(tǒng)的漢字語義表示方法使用唯一固定的、與語境無關(guān)的向量表示,顯然不合理。本文利用漢字在詞語中的位置區(qū)分漢字的語義,采用經(jīng)典的位置標(biāo)注方法(B/M/E/S)為漢字設(shè)計(jì)四種基本語義向量;然后引入注意力機(jī)制,根據(jù)漢字所在句子的上下文信息對(duì)基本向量加權(quán)求和以獲得最符合當(dāng)前句子語境的漢字語義表示。評(píng)測實(shí)驗(yàn)結(jié)果表明,該方法可以有效提升漢語分詞的性能(+0.3%),并使得依存分析性能提升(+0.59%)。(3)提出基于Encoder-Decoder的漢語依存分析方法。已有的依存分析聯(lián)合模型在決策時(shí)僅考慮當(dāng)前狀態(tài)信息,并未利用歷史狀態(tài)信息,也未考慮轉(zhuǎn)移動(dòng)作之間的依賴關(guān)系。本文針對(duì)這一問題,提出基于Encoder-Decoder的漢語依存分析方法。在Encoder部分,本文結(jié)合基于位置的漢字語義表示學(xué)習(xí)方法和雙向LSTM,準(zhǔn)確表示漢字的語義信息和句子的全局信息;在Decoder部分,本文設(shè)計(jì)一個(gè)特征提取器用于獲取解碼過程中每個(gè)時(shí)刻的n-gram特征、詞性特征和依存子樹特征,然后利用LSTM記錄歷史狀態(tài)信息和先前所有的解碼結(jié)果,為每個(gè)時(shí)刻的決策提供更加豐富的特征。評(píng)測實(shí)驗(yàn)結(jié)果表明,該方法在三項(xiàng)任務(wù)上的F1值分別達(dá)到97.88%、93.82%和80.47%。與已有的基于神經(jīng)網(wǎng)絡(luò)的依存分析聯(lián)合模型相比,分別提升 0.16%、0.70%和 1.44%。綜上所述,本文提出了基于深度學(xué)習(xí)的三項(xiàng)任務(wù)聯(lián)合處理的漢語依存分析方法。通過在國際公開數(shù)據(jù)集Penn Chinese TreeBank上搭建模型和開展評(píng)測,驗(yàn)證了所提方法中各個(gè)部分的有效性,并與已有代表性方法進(jìn)行對(duì)比評(píng)測,充分驗(yàn)證了本文方法的有效性。與基于神經(jīng)網(wǎng)絡(luò)的依存分析聯(lián)合模型相比,本文所提方法在三項(xiàng)任務(wù)上的精度均有所提升,在依存分析上的精度提升最為顯著。
【圖文】:
可以形式化的表示為4邋=邋{(i,7W):邋1邋S邐S邋nj邋e邋L),其中i代表依存節(jié)點(diǎn)在句子中逡逑的位置,7代表頭節(jié)點(diǎn)在句子中的位置,/代表具體的依存關(guān)系類型,L代表依存關(guān)逡逑系類型的集合。圖2-1給出了賓州漢語樹庫CTB5中一個(gè)依存句法樹示例。逡逑SUB邐邐0B逡逑^P^D^0D::Nn^SU&^/^邋JnMODs^逡逑中國邋建筑業(yè)邋對(duì)邋外邋開放邋呈現(xiàn)邋新邋格局逡逑NR邋NN邐PNNWWJJNN逡逑圖2-]依存句法樹示例逡逑Figure邋2-1邋Example邋of邋dependency邋tree逡逑圖2-1中的有向邊代表著依存關(guān)系,箭頭所指詞語是依存節(jié)點(diǎn),箭尾所指詞語逡逑是頭節(jié)點(diǎn),有向邊上的標(biāo)簽代表詞語之間的依存關(guān)系類型。除了句子的核心詞語逡逑“呈現(xiàn)”之外,其余詞語均從屬于某一詞語。例如,圖中的“中國”作為依存節(jié)點(diǎn)逡逑支從屬于頭節(jié)點(diǎn)“建筑業(yè)”。按照上述形式化表示方法,“中國”與“建筑業(yè)”之間逡逑的依存關(guān)系可以被表示為(1,2,邋NMOD)。一個(gè)待分析的句子可以有多棵符合約逡逑束規(guī)則的句法結(jié)構(gòu)樹,即存在多個(gè)候選集合其中僅有一個(gè)集合能夠完全正確表逡逑示詞語間依存關(guān)系。因此依存分析的目標(biāo)就是從多個(gè)候選集合中搜索到一個(gè)最優(yōu)逡逑集合,正確識(shí)別出句子中所有詞語的依存關(guān)系。逡逑2.1.2依存句法分析的評(píng)價(jià)方法逡逑在評(píng)測依存分析模型的精度時(shí)
基于轉(zhuǎn)移的分析算法在從左至右遍歷句子的過程中,決策出一系列的轉(zhuǎn)移動(dòng)逡逑作,同時(shí)逐步指導(dǎo)著依存句法樹的構(gòu)建[38,39]。采用轉(zhuǎn)移算法的依存句法分析器由待逡逑處理隊(duì)列、分析棧和決策層三部分構(gòu)成,如圖2-2所示。逡逑決策層逡逑分析棧邐免1邋W4邐w5邋w?邋...邋w?邐待處理隊(duì)列逡逑邐邐邋邐逡逑/邋\邋-逡逑W,邋W3逡逑圖2-2基于轉(zhuǎn)移的依存句法分析器逡逑Figure邋2-2邋Transition-based邋dependency邋parser逡逑待處理隊(duì)列存放句子的詞語序列,分析棧用于存放分析過程中生成的依存子逡逑樹,決策層根據(jù)待處理隊(duì)列和分析棧的特征狀態(tài)決策當(dāng)前時(shí)刻的最優(yōu)轉(zhuǎn)移動(dòng)作。初逡逑始狀態(tài)下,待處理隊(duì)列存放句子內(nèi)所有的詞語,分析棧為空或者只包含一個(gè)“ROOT”逡逑標(biāo)記的節(jié)點(diǎn)。隨著分析的逐步進(jìn)行,待處理隊(duì)列里的詞語被逐一移入分析h_;分析逡逑棧頂?shù)膬蓚(gè)詞語被判定是否可以建立依存關(guān)系,若可以建立依存關(guān)系,,那么作為依逡逑存節(jié)點(diǎn)的詞語出棧,分析棧保留頭節(jié)點(diǎn)對(duì)應(yīng)的詞語。當(dāng)待處理隊(duì)列為空且分析棧只逡逑有一個(gè)詞語(依存樹的根節(jié)點(diǎn))時(shí)
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.1;TP18
本文編號(hào):2625667
【圖文】:
可以形式化的表示為4邋=邋{(i,7W):邋1邋S邐S邋nj邋e邋L),其中i代表依存節(jié)點(diǎn)在句子中逡逑的位置,7代表頭節(jié)點(diǎn)在句子中的位置,/代表具體的依存關(guān)系類型,L代表依存關(guān)逡逑系類型的集合。圖2-1給出了賓州漢語樹庫CTB5中一個(gè)依存句法樹示例。逡逑SUB邐邐0B逡逑^P^D^0D::Nn^SU&^/^邋JnMODs^逡逑中國邋建筑業(yè)邋對(duì)邋外邋開放邋呈現(xiàn)邋新邋格局逡逑NR邋NN邐PNNWWJJNN逡逑圖2-]依存句法樹示例逡逑Figure邋2-1邋Example邋of邋dependency邋tree逡逑圖2-1中的有向邊代表著依存關(guān)系,箭頭所指詞語是依存節(jié)點(diǎn),箭尾所指詞語逡逑是頭節(jié)點(diǎn),有向邊上的標(biāo)簽代表詞語之間的依存關(guān)系類型。除了句子的核心詞語逡逑“呈現(xiàn)”之外,其余詞語均從屬于某一詞語。例如,圖中的“中國”作為依存節(jié)點(diǎn)逡逑支從屬于頭節(jié)點(diǎn)“建筑業(yè)”。按照上述形式化表示方法,“中國”與“建筑業(yè)”之間逡逑的依存關(guān)系可以被表示為(1,2,邋NMOD)。一個(gè)待分析的句子可以有多棵符合約逡逑束規(guī)則的句法結(jié)構(gòu)樹,即存在多個(gè)候選集合其中僅有一個(gè)集合能夠完全正確表逡逑示詞語間依存關(guān)系。因此依存分析的目標(biāo)就是從多個(gè)候選集合中搜索到一個(gè)最優(yōu)逡逑集合,正確識(shí)別出句子中所有詞語的依存關(guān)系。逡逑2.1.2依存句法分析的評(píng)價(jià)方法逡逑在評(píng)測依存分析模型的精度時(shí)
基于轉(zhuǎn)移的分析算法在從左至右遍歷句子的過程中,決策出一系列的轉(zhuǎn)移動(dòng)逡逑作,同時(shí)逐步指導(dǎo)著依存句法樹的構(gòu)建[38,39]。采用轉(zhuǎn)移算法的依存句法分析器由待逡逑處理隊(duì)列、分析棧和決策層三部分構(gòu)成,如圖2-2所示。逡逑決策層逡逑分析棧邐免1邋W4邐w5邋w?邋...邋w?邐待處理隊(duì)列逡逑邐邐邋邐逡逑/邋\邋-逡逑W,邋W3逡逑圖2-2基于轉(zhuǎn)移的依存句法分析器逡逑Figure邋2-2邋Transition-based邋dependency邋parser逡逑待處理隊(duì)列存放句子的詞語序列,分析棧用于存放分析過程中生成的依存子逡逑樹,決策層根據(jù)待處理隊(duì)列和分析棧的特征狀態(tài)決策當(dāng)前時(shí)刻的最優(yōu)轉(zhuǎn)移動(dòng)作。初逡逑始狀態(tài)下,待處理隊(duì)列存放句子內(nèi)所有的詞語,分析棧為空或者只包含一個(gè)“ROOT”逡逑標(biāo)記的節(jié)點(diǎn)。隨著分析的逐步進(jìn)行,待處理隊(duì)列里的詞語被逐一移入分析h_;分析逡逑棧頂?shù)膬蓚(gè)詞語被判定是否可以建立依存關(guān)系,若可以建立依存關(guān)系,,那么作為依逡逑存節(jié)點(diǎn)的詞語出棧,分析棧保留頭節(jié)點(diǎn)對(duì)應(yīng)的詞語。當(dāng)待處理隊(duì)列為空且分析棧只逡逑有一個(gè)詞語(依存樹的根節(jié)點(diǎn))時(shí)
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.1;TP18
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 郭振;張玉潔;蘇晨;徐金安;;基于字符的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型[J];中文信息學(xué)報(bào);2014年06期
本文編號(hào):2625667
本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2625667.html
最近更新
教材專著