基于中文電子病歷的冠心病危險因素抽取方法研究
發(fā)布時間:2020-12-12 05:15
冠心病是危害人類健康的重要疾病,患者的電子病歷中蘊含著大量如高血壓、糖尿病等危險因素的描述信息,準(zhǔn)確抽取這些描述信息對臨床研究和輔助臨床診斷具有重要意義。目前,基于英文電子病歷的冠心病危險因素抽取已經(jīng)開展了大量工作,而基于中文電子病歷的抽取研究則相對較少,因而研究中文電子病歷的冠心病危險因素抽取十分必要。本文綜合運用自然語言處理的多種技術(shù),在構(gòu)建語料庫的基礎(chǔ)上,研究冠心病危險因素的抽取方法,為臨床實驗提供參考。本文的主要貢獻(xiàn)有:(1)制定了適用于中文電子病歷的冠心病危險因素語料庫的標(biāo)注指南,完成了語料庫的構(gòu)建。在對新疆某三甲醫(yī)院提供的500名冠心病患者的出院小結(jié)預(yù)處理的基礎(chǔ)上,參照2014年美國臨床信息學(xué)研究中心I2B2發(fā)布的冠心病危險因素標(biāo)注語料庫,制定了標(biāo)注指南并開發(fā)了危險因素語料庫標(biāo)注工具;由兩名臨床醫(yī)生完成了預(yù)標(biāo)注和正式標(biāo)注工作。經(jīng)過三輪預(yù)標(biāo)注和一輪正式標(biāo)注后,標(biāo)注一致性IAA達(dá)到了0.95,結(jié)果表明標(biāo)注具備可靠性。(2)提出了一種混合式冠心病危險因素抽取方法。針對所構(gòu)建語料庫中危險因素標(biāo)識數(shù)據(jù)存在不平衡問題,分別采用基于規(guī)則和機器學(xué)習(xí)的方法實現(xiàn)抽取。對標(biāo)識數(shù)據(jù)分布較多的危險因...
【文章來源】:新疆大學(xué)新疆維吾爾自治區(qū) 211工程院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
電子病歷的主要來源
當(dāng)前位置標(biāo)簽的預(yù)測結(jié)果不僅與當(dāng)前的輸入特征有關(guān),還與當(dāng)前位置之標(biāo)簽的預(yù)測結(jié)果有關(guān),標(biāo)簽的預(yù)測結(jié)果之間是有強相互依賴關(guān)系的。例如 BIO 標(biāo)簽進(jìn)行醫(yī)學(xué)疾病名抽取時,O 表示非疾病名部分,正確的標(biāo)簽序列簽 O 只會出現(xiàn)在標(biāo)簽 B 的前面和后面或標(biāo)簽 I 的后面,而不會出現(xiàn)標(biāo)簽 I 的接標(biāo)簽 O 的情況。常見的機器學(xué)習(xí)模型有 HMM、ME、CRF 等。在信息抽取中,條件隨機場一直被認(rèn)為是最好的模型。條件隨機場的基礎(chǔ)來自馬爾科夫模型。馬爾科夫模型的本質(zhì)是隨機過程,模型的假設(shè)是當(dāng)前狀和前 n 個狀態(tài)有關(guān)。條件隨機場另一重要的部分是特征模板,特征模板一般過歸納文本中的一些語言學(xué)現(xiàn)象定義的二值特征函數(shù)。對于句子中的給定位說,提取特征的位置是一個窗口,即上下文位置。CRF 的抽取原理是對一置進(jìn)行預(yù)測時,可以利用此前已經(jīng)標(biāo)注的標(biāo)簽信息,最后通過動態(tài)規(guī)劃得到序列。在特征提取時,滿足條件的特征取值標(biāo)記為 1,不滿足條件的特征取記為 0;最后通過訓(xùn)練得到標(biāo)注模型。條件隨機場的圖形結(jié)構(gòu)如圖 2-2 所示
理論基礎(chǔ)、適用于多項自然語言處理任務(wù)。缺點是模型的拓?fù)浣Y(jié)構(gòu),且模型訓(xùn)練需要大量的訓(xùn)練數(shù)據(jù)作為支持。深度學(xué)習(xí)算機計算力的大幅提升,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型環(huán)神經(jīng)網(wǎng)絡(luò)[35](Recurrent Neural Network, RNN)在文本循環(huán)神經(jīng)網(wǎng)絡(luò)通過反向傳播和記憶的機制,能夠處理任意循環(huán)神經(jīng)網(wǎng)絡(luò)的另一個優(yōu)點是克服了傳統(tǒng)機器學(xué)習(xí)方法需,能夠自主抽取文本中句子的句法、語義等特征。經(jīng)網(wǎng)絡(luò)是一種時間遞歸神經(jīng)網(wǎng)絡(luò),由 Hochreiter 和 Sc提出。假設(shè)每次輸入為ix ,輸出為iy ,ih 為隱藏狀態(tài),則上一個隱藏狀態(tài)i-1h 和本次的輸入ix 有關(guān),模型主要應(yīng)用自然語言任務(wù)。循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖 2-3 所示。
【參考文獻(xiàn)】:
期刊論文
[1]基于最大匹配算法的似然導(dǎo)向中文分詞方法[J]. 楊貴軍,徐雪,鳳麗洲,徐玉慧. 統(tǒng)計與信息論壇. 2019(03)
[2]融合手工特征與雙向LSTM結(jié)構(gòu)的中文分詞方法研究[J]. 徐偉,車萬翔,劉挺. 智能計算機與應(yīng)用. 2019(01)
[3]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)電子病歷命名實體的識別模型[J]. 楊紅梅,李琳,楊日東,周毅. 中國組織工程研究. 2018(20)
[4]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦穎,曾穎菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[5]基于兩位一體的中文電子病歷命名實體識別[J]. 郁小玲,張鐵山,吳彤,方明哲,黃建一,胡長軍. 中國衛(wèi)生信息管理雜志. 2017(04)
[6]《中國心血管病報告2016》概要[J]. 陳偉偉,高潤霖,劉力生,朱曼璐,王文,王擁軍,吳兆蘇,李惠君,顧東風(fēng),楊躍進(jìn),鄭哲,蔣立新,胡盛壽. 中國循環(huán)雜志. 2017(06)
[7]基于條件隨機域的臨床文本去識別研究[J]. 都麗婷,夏晨曦,趙冬,宋陽,羅維,馮德軍,洪旭,馬敬東. 中國衛(wèi)生信息管理雜志. 2017(02)
[8]冠心病危險因素研究進(jìn)展[J]. 孫文棟,孔令閣. 中西醫(yī)結(jié)合心血管病電子雜志. 2017(10)
[9]隱馬爾可夫模型在中文文本分詞中應(yīng)用研究[J]. 王慶福. 無線互聯(lián)科技. 2016(13)
[10]基于多標(biāo)簽CRF的疾病名稱抽取[J]. 王鵬遠(yuǎn),姬東鴻. 計算機應(yīng)用研究. 2017(01)
本文編號:2911918
【文章來源】:新疆大學(xué)新疆維吾爾自治區(qū) 211工程院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
電子病歷的主要來源
當(dāng)前位置標(biāo)簽的預(yù)測結(jié)果不僅與當(dāng)前的輸入特征有關(guān),還與當(dāng)前位置之標(biāo)簽的預(yù)測結(jié)果有關(guān),標(biāo)簽的預(yù)測結(jié)果之間是有強相互依賴關(guān)系的。例如 BIO 標(biāo)簽進(jìn)行醫(yī)學(xué)疾病名抽取時,O 表示非疾病名部分,正確的標(biāo)簽序列簽 O 只會出現(xiàn)在標(biāo)簽 B 的前面和后面或標(biāo)簽 I 的后面,而不會出現(xiàn)標(biāo)簽 I 的接標(biāo)簽 O 的情況。常見的機器學(xué)習(xí)模型有 HMM、ME、CRF 等。在信息抽取中,條件隨機場一直被認(rèn)為是最好的模型。條件隨機場的基礎(chǔ)來自馬爾科夫模型。馬爾科夫模型的本質(zhì)是隨機過程,模型的假設(shè)是當(dāng)前狀和前 n 個狀態(tài)有關(guān)。條件隨機場另一重要的部分是特征模板,特征模板一般過歸納文本中的一些語言學(xué)現(xiàn)象定義的二值特征函數(shù)。對于句子中的給定位說,提取特征的位置是一個窗口,即上下文位置。CRF 的抽取原理是對一置進(jìn)行預(yù)測時,可以利用此前已經(jīng)標(biāo)注的標(biāo)簽信息,最后通過動態(tài)規(guī)劃得到序列。在特征提取時,滿足條件的特征取值標(biāo)記為 1,不滿足條件的特征取記為 0;最后通過訓(xùn)練得到標(biāo)注模型。條件隨機場的圖形結(jié)構(gòu)如圖 2-2 所示
理論基礎(chǔ)、適用于多項自然語言處理任務(wù)。缺點是模型的拓?fù)浣Y(jié)構(gòu),且模型訓(xùn)練需要大量的訓(xùn)練數(shù)據(jù)作為支持。深度學(xué)習(xí)算機計算力的大幅提升,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型環(huán)神經(jīng)網(wǎng)絡(luò)[35](Recurrent Neural Network, RNN)在文本循環(huán)神經(jīng)網(wǎng)絡(luò)通過反向傳播和記憶的機制,能夠處理任意循環(huán)神經(jīng)網(wǎng)絡(luò)的另一個優(yōu)點是克服了傳統(tǒng)機器學(xué)習(xí)方法需,能夠自主抽取文本中句子的句法、語義等特征。經(jīng)網(wǎng)絡(luò)是一種時間遞歸神經(jīng)網(wǎng)絡(luò),由 Hochreiter 和 Sc提出。假設(shè)每次輸入為ix ,輸出為iy ,ih 為隱藏狀態(tài),則上一個隱藏狀態(tài)i-1h 和本次的輸入ix 有關(guān),模型主要應(yīng)用自然語言任務(wù)。循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖 2-3 所示。
【參考文獻(xiàn)】:
期刊論文
[1]基于最大匹配算法的似然導(dǎo)向中文分詞方法[J]. 楊貴軍,徐雪,鳳麗洲,徐玉慧. 統(tǒng)計與信息論壇. 2019(03)
[2]融合手工特征與雙向LSTM結(jié)構(gòu)的中文分詞方法研究[J]. 徐偉,車萬翔,劉挺. 智能計算機與應(yīng)用. 2019(01)
[3]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)電子病歷命名實體的識別模型[J]. 楊紅梅,李琳,楊日東,周毅. 中國組織工程研究. 2018(20)
[4]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦穎,曾穎菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[5]基于兩位一體的中文電子病歷命名實體識別[J]. 郁小玲,張鐵山,吳彤,方明哲,黃建一,胡長軍. 中國衛(wèi)生信息管理雜志. 2017(04)
[6]《中國心血管病報告2016》概要[J]. 陳偉偉,高潤霖,劉力生,朱曼璐,王文,王擁軍,吳兆蘇,李惠君,顧東風(fēng),楊躍進(jìn),鄭哲,蔣立新,胡盛壽. 中國循環(huán)雜志. 2017(06)
[7]基于條件隨機域的臨床文本去識別研究[J]. 都麗婷,夏晨曦,趙冬,宋陽,羅維,馮德軍,洪旭,馬敬東. 中國衛(wèi)生信息管理雜志. 2017(02)
[8]冠心病危險因素研究進(jìn)展[J]. 孫文棟,孔令閣. 中西醫(yī)結(jié)合心血管病電子雜志. 2017(10)
[9]隱馬爾可夫模型在中文文本分詞中應(yīng)用研究[J]. 王慶福. 無線互聯(lián)科技. 2016(13)
[10]基于多標(biāo)簽CRF的疾病名稱抽取[J]. 王鵬遠(yuǎn),姬東鴻. 計算機應(yīng)用研究. 2017(01)
本文編號:2911918
本文鏈接:http://www.lk138.cn/yixuelunwen/xxg/2911918.html
最近更新
教材專著