基于弱監(jiān)督深度學習的中醫(yī)文本關(guān)系抽取研究
發(fā)布時間:2024-06-11 23:13
中醫(yī)學領(lǐng)域積累了海量的古籍文獻,包含大量中醫(yī)知識。為了從海量的中醫(yī)文獻中自動獲取需要的知識信息,首先需要對中醫(yī)文本進行信息抽取,關(guān)系抽取是信息抽取的基本任務(wù)之一。有監(jiān)督關(guān)系抽取方法需要大量已知標簽的數(shù)據(jù)集,弱監(jiān)督關(guān)系抽取方法可以在給定實體關(guān)系三元組和未標注中醫(yī)文本的條件下利用弱監(jiān)督學習方法自動生成語料,能夠有效緩解人工標注的高額成本。但是弱監(jiān)督學習條件下的中醫(yī)文本標注數(shù)據(jù)集存在錯誤標注,產(chǎn)生了噪聲句子,影響了關(guān)系抽取的效果。針對這些問題主要做了以下研究工作。針對中醫(yī)弱監(jiān)督標注數(shù)據(jù)中存在錯誤標注,影響以包為級別的關(guān)系抽取效果的問題,提出了一種基于雙注意力機制的弱監(jiān)督深度學習模型。該模型基于多示例學習思想,在以包為級別的基礎(chǔ)上進行關(guān)系分類。利用雙向長短時記憶網(wǎng)絡(luò)對中醫(yī)文本的嵌入向量進行雙向編碼,捕捉每個句子的語義特征。同時通過字級注意力層和弱監(jiān)督注意力層分別降低了無關(guān)中醫(yī)詞匯和噪聲語句的權(quán)重,減輕噪聲對關(guān)系抽取效果的影響。此模型可以減弱噪聲影響,更好地為每個包預測關(guān)系。將本模型與平均注意力層作對比實驗,實驗表明本模型可以在弱監(jiān)督層面更好的抽取包的關(guān)系信息,獲得更好的關(guān)系抽取效果。針對弱監(jiān)督...
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3992857
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
圖11弱監(jiān)督數(shù)據(jù)集Fig.11Weakly-superviseddatasets
第3章中醫(yī)文本獲取與預處理-25-是一個中醫(yī)實體對,它們之間的關(guān)系為“藥性”,將實體對和文本匹配后得到“何首烏,味苦澀微溫無毒”這句話,然后將這段中醫(yī)文本標注為“藥性”關(guān)系標簽。在實驗過程中將得到的結(jié)果整理為“實體1、空格、實體2、空格、關(guān)系、空格、句子”這樣的形式,方便輸入模型....
圖15字向量文件
第4章基于雙注意力機制的弱監(jiān)督深度學習模型-31-示,自動提取語義信息,使用Gensim處理文本高效且方便。Gensim通過學習文本內(nèi)部的統(tǒng)計信息自動發(fā)現(xiàn)上下文的語義信息,實現(xiàn)了很多常用算法,比如Word2vec、FastText、隱含迪利克雷分布等,這些算法都是無監(jiān)督的,只需要....
圖29句子選擇結(jié)果
華北理工大學碩士學位論文-52-表8關(guān)系抽取器結(jié)果對比Table8Comparisonofrelationextractorresults關(guān)系抽取器模型PrecisionRecallF值直接訓練模型91.992.5092.00聯(lián)合訓練模型92.592.7592.54對于句子選擇器....
本文編號:3992857
本文鏈接:http://www.lk138.cn/kejilunwen/shengwushengchang/3992857.html
最近更新
教材專著