基于閱讀理解技術的問答系統(tǒng)設計與實現(xiàn)
發(fā)布時間:2020-05-31 07:48
【摘要】:面對互聯(lián)網上海量的信息,人們越來越依靠搜索引擎獲取信息。傳統(tǒng)的搜索引擎檢索返回與用戶查詢相關的網頁,用戶需要花費大量時間和精力從中獲取所需信息。區(qū)別于傳統(tǒng)的搜索引擎,檢索式問答系統(tǒng)通過信息檢索技術獲取相關文檔,利用問答算法從相關文檔中抽取答案,其能夠為用戶提供簡短和準確的結果。傳統(tǒng)的檢索式問答系統(tǒng)采用基于流水線方式的問答算法,該類問答算法只能捕捉輸入信息中的淺層語義關聯(lián),且存在著優(yōu)化成本高和優(yōu)化難度大等問題?紤]到目前端到端的閱讀理解模型訓練簡便、優(yōu)化效果直觀且能夠捕捉輸入信息的深層語義關聯(lián)等優(yōu)點,本文設計并實現(xiàn)了一個基于閱讀理解技術的問答系統(tǒng)。對于本文設計并實現(xiàn)的問答系統(tǒng),其包含Web服務模塊、信息檢索模塊、中文預處理模塊、答案預測模塊和日志與存儲模塊五個模塊。其中,答案預測模塊的問答算法基于閱讀理解模型實現(xiàn)。特別地,針對目前閱讀理解模型難以滿足檢索式問答系統(tǒng)對問答算法計算效率的要求,且不能處理相關文檔中答案數量不固定的情況,本文設計了一個面向檢索式問答系統(tǒng)的閱讀理解模型(Reading Comprehension model for Retrieval-based Question Answering System,RQA-RC)。RQA-RC模型由問題編碼結構、文檔編碼結構、注意力機制和預測結構組成?紤]到檢索式問答系統(tǒng)注重問答算法的計算效率和該問答場景中問答數據的特點,本文設計并結合了基于雙向長短期記憶網絡的問題編碼結構和基于卷積神經網絡的文檔編碼結構,使得模型在保持良好文本編碼效果的前提下顯著提升了計算效率。考慮到該問答場景中相關文檔的答案數量不固定,本文設計了一個基于序列標注的預測結構并提出了一種參考Focal Loss思想的損失函數,使得模型能夠有效地處理相關文檔中任意數量的答案。實驗結果表明,在面向檢索式問答系統(tǒng)的問答任務中,RQA-RC模型相比現(xiàn)有的閱讀理解模型,其在計算效率和F1值上具有明顯的提升。通過系統(tǒng)測試,本文自主設計和實現(xiàn)的問答系統(tǒng)各功能模塊均符合預期,系統(tǒng)非功能指標符合應用要求。
【圖文】:
同時,隨著詞庫中詞數量的增長,詞向量將變得非常稀疏和巨大。不妨假逡逑設詞庫中一共存在N個詞,那么?{汽車,轎車,,蘋果,河流,太陽丨五個詞此時的逡逑one-hot向量如圖2-1所示。逡逑位置0邋兔1邋i2邋i3邋i4邋i5邋N逡逑詞語邋廠邐邐邐邐邐J逡逑|邐轎車邐I邐:逡逑:蘋果邐¥邐丨邐CL.CL.0...1...0...0...0邐i邋r逡逑!河流【邐丨邐…i逡逑?大陽邐:邐0邐0邋“邋?邋04邋*?邋0邋**?邋0邐“邋0邐_逡逑;v邐數據邐」逡逑圖2-】one-hot向量示意圖逡逑為解決該問題,從上個世紀90年代開始,隱含語義分析(Latent邋Semantic逡逑Analysis,邋LSA)[9]和主題模型(Latent邋Dirichlet邋Allocation,LDA)[U]相繼被提出。這些逡逑模型通過生成稠密的實數向量作為詞向量,這些低維稠密的詞向量解決了邋one-逡逑hot邋詞向量中邋“詞匯鴻溝”邋和維度爆炸等問題。邋2003邋年,邋Bengio邋利用神經網絡訓逡逑練詞向量,并首次將神經網絡的網絡參數和詞向量一起訓練[121。2013年,Mikolov逡逑7逡逑
北京郵電大學工學碩士學位論文出了一種詞向量的計算方式word2vec。其中,word2vec較的效果使得詞向量逐漸進入實用化階段,以下將詳細地介紹word2veC被廣泛地應用于自然語言處理任務中,例如智能問答、要(Automatic邋Summarization)等領域。word2vec訓練時依據邋CBOW(Continuous邋Bag-of-Words,邋C.BOW)和邋Skip-gi_am(Continkip-gram)兩種模型。給定訓練語料[WpW^w;^...,wN],對于c需要指定上下文窗口的大。祝椋睿洌铮鳎撸螅椋。假設Window_size窗口內的詞分別有wt_2、Wty、wt+1和wt+2;谌缟闲畔,Cm的模型結構示意圖如圖2-2和圖2-3所示。逡逑
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.1
【圖文】:
同時,隨著詞庫中詞數量的增長,詞向量將變得非常稀疏和巨大。不妨假逡逑設詞庫中一共存在N個詞,那么?{汽車,轎車,,蘋果,河流,太陽丨五個詞此時的逡逑one-hot向量如圖2-1所示。逡逑位置0邋兔1邋i2邋i3邋i4邋i5邋N逡逑詞語邋廠邐邐邐邐邐J逡逑|邐轎車邐I邐:逡逑:蘋果邐¥邐丨邐CL.CL.0...1...0...0...0邐i邋r逡逑!河流【邐丨邐…i逡逑?大陽邐:邐0邐0邋“邋?邋04邋*?邋0邋**?邋0邐“邋0邐_逡逑;v邐數據邐」逡逑圖2-】one-hot向量示意圖逡逑為解決該問題,從上個世紀90年代開始,隱含語義分析(Latent邋Semantic逡逑Analysis,邋LSA)[9]和主題模型(Latent邋Dirichlet邋Allocation,LDA)[U]相繼被提出。這些逡逑模型通過生成稠密的實數向量作為詞向量,這些低維稠密的詞向量解決了邋one-逡逑hot邋詞向量中邋“詞匯鴻溝”邋和維度爆炸等問題。邋2003邋年,邋Bengio邋利用神經網絡訓逡逑練詞向量,并首次將神經網絡的網絡參數和詞向量一起訓練[121。2013年,Mikolov逡逑7逡逑
北京郵電大學工學碩士學位論文出了一種詞向量的計算方式word2vec。其中,word2vec較的效果使得詞向量逐漸進入實用化階段,以下將詳細地介紹word2veC被廣泛地應用于自然語言處理任務中,例如智能問答、要(Automatic邋Summarization)等領域。word2vec訓練時依據邋CBOW(Continuous邋Bag-of-Words,邋C.BOW)和邋Skip-gi_am(Continkip-gram)兩種模型。給定訓練語料[WpW^w;^...,wN],對于c需要指定上下文窗口的大。祝椋睿洌铮鳎撸螅椋。假設Window_size窗口內的詞分別有wt_2、Wty、wt+1和wt+2;谌缟闲畔,Cm的模型結構示意圖如圖2-2和圖2-3所示。逡逑
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 任夢婷;王娟;阮佩姍;劉振盼;;影響高質量網絡問答系統(tǒng)建設的因素[J];物流科技;2016年12期
2 武振國;李艷翠;;植物病蟲害智能問答系統(tǒng)設計與實現(xiàn)[J];農業(yè)網絡信息;2017年01期
3 費建軍;;智能問答系統(tǒng)中命名實體識別問題研究[J];數字技術與應用;2017年07期
4 何秀;;智能問答系統(tǒng)的研究與設計[J];南方農機;2017年20期
5 張中峰;李秋丹;;社區(qū)問答系統(tǒng)研究綜述[J];計算機科學;2010年11期
6 劉文華;康海燕;;領域問答系統(tǒng)生成器的研究[J];北京信息科技大學學報(自然科學版);2009年03期
7 張積賓;徐志明;王恒;潘啟樹;;面向大規(guī)模網絡數據的社會化問答系統(tǒng)[J];哈爾濱工業(yè)大學學報;2008年12期
8 胡婕;陶宏才;;基于深度學習的領域問答系統(tǒng)的設計與實現(xiàn)[J];成都信息工程大學學報;2019年03期
9 徐雄;;基于深度學習的問答系統(tǒng)研究[J];湖北師范大學學報(自然科學版);2019年01期
10 吳靈慧;;問答系統(tǒng)研究綜述[J];科技傳播;2019年05期
相關會議論文 前10條
1 何靖;陳
本文編號:2689532
本文鏈接:http://lk138.cn/kejilunwen/sousuoyinqinglunwen/2689532.html