基于中文電子病歷的冠心病危險(xiǎn)因素抽取方法研究
發(fā)布時(shí)間:2020-12-12 05:15
冠心病是危害人類(lèi)健康的重要疾病,患者的電子病歷中蘊(yùn)含著大量如高血壓、糖尿病等危險(xiǎn)因素的描述信息,準(zhǔn)確抽取這些描述信息對(duì)臨床研究和輔助臨床診斷具有重要意義。目前,基于英文電子病歷的冠心病危險(xiǎn)因素抽取已經(jīng)開(kāi)展了大量工作,而基于中文電子病歷的抽取研究則相對(duì)較少,因而研究中文電子病歷的冠心病危險(xiǎn)因素抽取十分必要。本文綜合運(yùn)用自然語(yǔ)言處理的多種技術(shù),在構(gòu)建語(yǔ)料庫(kù)的基礎(chǔ)上,研究冠心病危險(xiǎn)因素的抽取方法,為臨床實(shí)驗(yàn)提供參考。本文的主要貢獻(xiàn)有:(1)制定了適用于中文電子病歷的冠心病危險(xiǎn)因素語(yǔ)料庫(kù)的標(biāo)注指南,完成了語(yǔ)料庫(kù)的構(gòu)建。在對(duì)新疆某三甲醫(yī)院提供的500名冠心病患者的出院小結(jié)預(yù)處理的基礎(chǔ)上,參照2014年美國(guó)臨床信息學(xué)研究中心I2B2發(fā)布的冠心病危險(xiǎn)因素標(biāo)注語(yǔ)料庫(kù),制定了標(biāo)注指南并開(kāi)發(fā)了危險(xiǎn)因素語(yǔ)料庫(kù)標(biāo)注工具;由兩名臨床醫(yī)生完成了預(yù)標(biāo)注和正式標(biāo)注工作。經(jīng)過(guò)三輪預(yù)標(biāo)注和一輪正式標(biāo)注后,標(biāo)注一致性IAA達(dá)到了0.95,結(jié)果表明標(biāo)注具備可靠性。(2)提出了一種混合式冠心病危險(xiǎn)因素抽取方法。針對(duì)所構(gòu)建語(yǔ)料庫(kù)中危險(xiǎn)因素標(biāo)識(shí)數(shù)據(jù)存在不平衡問(wèn)題,分別采用基于規(guī)則和機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)抽取。對(duì)標(biāo)識(shí)數(shù)據(jù)分布較多的危險(xiǎn)因...
【文章來(lái)源】:新疆大學(xué)新疆維吾爾自治區(qū) 211工程院校
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
電子病歷的主要來(lái)源
當(dāng)前位置標(biāo)簽的預(yù)測(cè)結(jié)果不僅與當(dāng)前的輸入特征有關(guān),還與當(dāng)前位置之標(biāo)簽的預(yù)測(cè)結(jié)果有關(guān),標(biāo)簽的預(yù)測(cè)結(jié)果之間是有強(qiáng)相互依賴(lài)關(guān)系的。例如 BIO 標(biāo)簽進(jìn)行醫(yī)學(xué)疾病名抽取時(shí),O 表示非疾病名部分,正確的標(biāo)簽序列簽 O 只會(huì)出現(xiàn)在標(biāo)簽 B 的前面和后面或標(biāo)簽 I 的后面,而不會(huì)出現(xiàn)標(biāo)簽 I 的接標(biāo)簽 O 的情況。常見(jiàn)的機(jī)器學(xué)習(xí)模型有 HMM、ME、CRF 等。在信息抽取中,條件隨機(jī)場(chǎng)一直被認(rèn)為是最好的模型。條件隨機(jī)場(chǎng)的基礎(chǔ)來(lái)自馬爾科夫模型。馬爾科夫模型的本質(zhì)是隨機(jī)過(guò)程,模型的假設(shè)是當(dāng)前狀和前 n 個(gè)狀態(tài)有關(guān)。條件隨機(jī)場(chǎng)另一重要的部分是特征模板,特征模板一般過(guò)歸納文本中的一些語(yǔ)言學(xué)現(xiàn)象定義的二值特征函數(shù)。對(duì)于句子中的給定位說(shuō),提取特征的位置是一個(gè)窗口,即上下文位置。CRF 的抽取原理是對(duì)一置進(jìn)行預(yù)測(cè)時(shí),可以利用此前已經(jīng)標(biāo)注的標(biāo)簽信息,最后通過(guò)動(dòng)態(tài)規(guī)劃得到序列。在特征提取時(shí),滿(mǎn)足條件的特征取值標(biāo)記為 1,不滿(mǎn)足條件的特征取記為 0;最后通過(guò)訓(xùn)練得到標(biāo)注模型。條件隨機(jī)場(chǎng)的圖形結(jié)構(gòu)如圖 2-2 所示
理論基礎(chǔ)、適用于多項(xiàng)自然語(yǔ)言處理任務(wù)。缺點(diǎn)是模型的拓?fù)浣Y(jié)構(gòu),且模型訓(xùn)練需要大量的訓(xùn)練數(shù)據(jù)作為支持。深度學(xué)習(xí)算機(jī)計(jì)算力的大幅提升,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型環(huán)神經(jīng)網(wǎng)絡(luò)[35](Recurrent Neural Network, RNN)在文本循環(huán)神經(jīng)網(wǎng)絡(luò)通過(guò)反向傳播和記憶的機(jī)制,能夠處理任意循環(huán)神經(jīng)網(wǎng)絡(luò)的另一個(gè)優(yōu)點(diǎn)是克服了傳統(tǒng)機(jī)器學(xué)習(xí)方法需,能夠自主抽取文本中句子的句法、語(yǔ)義等特征。經(jīng)網(wǎng)絡(luò)是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),由 Hochreiter 和 Sc提出。假設(shè)每次輸入為ix ,輸出為iy ,ih 為隱藏狀態(tài),則上一個(gè)隱藏狀態(tài)i-1h 和本次的輸入ix 有關(guān),模型主要應(yīng)用自然語(yǔ)言任務(wù)。循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖 2-3 所示。
【參考文獻(xiàn)】:
期刊論文
[1]基于最大匹配算法的似然導(dǎo)向中文分詞方法[J]. 楊貴軍,徐雪,鳳麗洲,徐玉慧. 統(tǒng)計(jì)與信息論壇. 2019(03)
[2]融合手工特征與雙向LSTM結(jié)構(gòu)的中文分詞方法研究[J]. 徐偉,車(chē)萬(wàn)翔,劉挺. 智能計(jì)算機(jī)與應(yīng)用. 2019(01)
[3]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)電子病歷命名實(shí)體的識(shí)別模型[J]. 楊紅梅,李琳,楊日東,周毅. 中國(guó)組織工程研究. 2018(20)
[4]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦穎,曾穎菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[5]基于兩位一體的中文電子病歷命名實(shí)體識(shí)別[J]. 郁小玲,張鐵山,吳彤,方明哲,黃建一,胡長(zhǎng)軍. 中國(guó)衛(wèi)生信息管理雜志. 2017(04)
[6]《中國(guó)心血管病報(bào)告2016》概要[J]. 陳偉偉,高潤(rùn)霖,劉力生,朱曼璐,王文,王擁軍,吳兆蘇,李惠君,顧東風(fēng),楊躍進(jìn),鄭哲,蔣立新,胡盛壽. 中國(guó)循環(huán)雜志. 2017(06)
[7]基于條件隨機(jī)域的臨床文本去識(shí)別研究[J]. 都麗婷,夏晨曦,趙冬,宋陽(yáng),羅維,馮德軍,洪旭,馬敬東. 中國(guó)衛(wèi)生信息管理雜志. 2017(02)
[8]冠心病危險(xiǎn)因素研究進(jìn)展[J]. 孫文棟,孔令閣. 中西醫(yī)結(jié)合心血管病電子雜志. 2017(10)
[9]隱馬爾可夫模型在中文文本分詞中應(yīng)用研究[J]. 王慶福. 無(wú)線互聯(lián)科技. 2016(13)
[10]基于多標(biāo)簽CRF的疾病名稱(chēng)抽取[J]. 王鵬遠(yuǎn),姬東鴻. 計(jì)算機(jī)應(yīng)用研究. 2017(01)
本文編號(hào):2911918
【文章來(lái)源】:新疆大學(xué)新疆維吾爾自治區(qū) 211工程院校
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
電子病歷的主要來(lái)源
當(dāng)前位置標(biāo)簽的預(yù)測(cè)結(jié)果不僅與當(dāng)前的輸入特征有關(guān),還與當(dāng)前位置之標(biāo)簽的預(yù)測(cè)結(jié)果有關(guān),標(biāo)簽的預(yù)測(cè)結(jié)果之間是有強(qiáng)相互依賴(lài)關(guān)系的。例如 BIO 標(biāo)簽進(jìn)行醫(yī)學(xué)疾病名抽取時(shí),O 表示非疾病名部分,正確的標(biāo)簽序列簽 O 只會(huì)出現(xiàn)在標(biāo)簽 B 的前面和后面或標(biāo)簽 I 的后面,而不會(huì)出現(xiàn)標(biāo)簽 I 的接標(biāo)簽 O 的情況。常見(jiàn)的機(jī)器學(xué)習(xí)模型有 HMM、ME、CRF 等。在信息抽取中,條件隨機(jī)場(chǎng)一直被認(rèn)為是最好的模型。條件隨機(jī)場(chǎng)的基礎(chǔ)來(lái)自馬爾科夫模型。馬爾科夫模型的本質(zhì)是隨機(jī)過(guò)程,模型的假設(shè)是當(dāng)前狀和前 n 個(gè)狀態(tài)有關(guān)。條件隨機(jī)場(chǎng)另一重要的部分是特征模板,特征模板一般過(guò)歸納文本中的一些語(yǔ)言學(xué)現(xiàn)象定義的二值特征函數(shù)。對(duì)于句子中的給定位說(shuō),提取特征的位置是一個(gè)窗口,即上下文位置。CRF 的抽取原理是對(duì)一置進(jìn)行預(yù)測(cè)時(shí),可以利用此前已經(jīng)標(biāo)注的標(biāo)簽信息,最后通過(guò)動(dòng)態(tài)規(guī)劃得到序列。在特征提取時(shí),滿(mǎn)足條件的特征取值標(biāo)記為 1,不滿(mǎn)足條件的特征取記為 0;最后通過(guò)訓(xùn)練得到標(biāo)注模型。條件隨機(jī)場(chǎng)的圖形結(jié)構(gòu)如圖 2-2 所示
理論基礎(chǔ)、適用于多項(xiàng)自然語(yǔ)言處理任務(wù)。缺點(diǎn)是模型的拓?fù)浣Y(jié)構(gòu),且模型訓(xùn)練需要大量的訓(xùn)練數(shù)據(jù)作為支持。深度學(xué)習(xí)算機(jī)計(jì)算力的大幅提升,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型環(huán)神經(jīng)網(wǎng)絡(luò)[35](Recurrent Neural Network, RNN)在文本循環(huán)神經(jīng)網(wǎng)絡(luò)通過(guò)反向傳播和記憶的機(jī)制,能夠處理任意循環(huán)神經(jīng)網(wǎng)絡(luò)的另一個(gè)優(yōu)點(diǎn)是克服了傳統(tǒng)機(jī)器學(xué)習(xí)方法需,能夠自主抽取文本中句子的句法、語(yǔ)義等特征。經(jīng)網(wǎng)絡(luò)是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),由 Hochreiter 和 Sc提出。假設(shè)每次輸入為ix ,輸出為iy ,ih 為隱藏狀態(tài),則上一個(gè)隱藏狀態(tài)i-1h 和本次的輸入ix 有關(guān),模型主要應(yīng)用自然語(yǔ)言任務(wù)。循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖 2-3 所示。
【參考文獻(xiàn)】:
期刊論文
[1]基于最大匹配算法的似然導(dǎo)向中文分詞方法[J]. 楊貴軍,徐雪,鳳麗洲,徐玉慧. 統(tǒng)計(jì)與信息論壇. 2019(03)
[2]融合手工特征與雙向LSTM結(jié)構(gòu)的中文分詞方法研究[J]. 徐偉,車(chē)萬(wàn)翔,劉挺. 智能計(jì)算機(jī)與應(yīng)用. 2019(01)
[3]基于雙向LSTM神經(jīng)網(wǎng)絡(luò)電子病歷命名實(shí)體的識(shí)別模型[J]. 楊紅梅,李琳,楊日東,周毅. 中國(guó)組織工程研究. 2018(20)
[4]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦穎,曾穎菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[5]基于兩位一體的中文電子病歷命名實(shí)體識(shí)別[J]. 郁小玲,張鐵山,吳彤,方明哲,黃建一,胡長(zhǎng)軍. 中國(guó)衛(wèi)生信息管理雜志. 2017(04)
[6]《中國(guó)心血管病報(bào)告2016》概要[J]. 陳偉偉,高潤(rùn)霖,劉力生,朱曼璐,王文,王擁軍,吳兆蘇,李惠君,顧東風(fēng),楊躍進(jìn),鄭哲,蔣立新,胡盛壽. 中國(guó)循環(huán)雜志. 2017(06)
[7]基于條件隨機(jī)域的臨床文本去識(shí)別研究[J]. 都麗婷,夏晨曦,趙冬,宋陽(yáng),羅維,馮德軍,洪旭,馬敬東. 中國(guó)衛(wèi)生信息管理雜志. 2017(02)
[8]冠心病危險(xiǎn)因素研究進(jìn)展[J]. 孫文棟,孔令閣. 中西醫(yī)結(jié)合心血管病電子雜志. 2017(10)
[9]隱馬爾可夫模型在中文文本分詞中應(yīng)用研究[J]. 王慶福. 無(wú)線互聯(lián)科技. 2016(13)
[10]基于多標(biāo)簽CRF的疾病名稱(chēng)抽取[J]. 王鵬遠(yuǎn),姬東鴻. 計(jì)算機(jī)應(yīng)用研究. 2017(01)
本文編號(hào):2911918
本文鏈接:http://www.lk138.cn/yixuelunwen/xxg/2911918.html
最近更新
教材專(zhuān)著