中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

基于主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法的醫(yī)療實(shí)體及其修飾識(shí)別研究

發(fā)布時(shí)間:2020-12-02 12:39
  隨著醫(yī)療信息化進(jìn)程的推進(jìn),中文電子病歷數(shù)據(jù)的數(shù)量迅速增加。對(duì)中文電子病歷中醫(yī)療命名實(shí)體及其修飾的識(shí)別研究,可以為醫(yī)療產(chǎn)業(yè)的人工智能研究奠定基礎(chǔ)。但是中文電子病歷領(lǐng)域缺乏傳統(tǒng)監(jiān)督學(xué)習(xí)方法所需要大規(guī)模標(biāo)注數(shù)據(jù),而開(kāi)展大規(guī)模標(biāo)注工作的成本又相對(duì)較高,因此本課題基于主動(dòng)學(xué)習(xí)方法與半監(jiān)督學(xué)習(xí)方法,研究對(duì)中文電子病歷實(shí)體及修飾的識(shí)別。本文的研究主要圍繞三個(gè)方面:(1)基于傳統(tǒng)監(jiān)督學(xué)習(xí)方法的中文電子病歷實(shí)體及其修飾識(shí)別。基于已標(biāo)注的小規(guī)模數(shù)據(jù),提取文本特征,訓(xùn)練出基于條件隨機(jī)場(chǎng)算法的實(shí)體識(shí)別模型和基于支持向量機(jī)算法的實(shí)體修飾分類模型。(2)基于主動(dòng)學(xué)習(xí)方法的中文電子病歷實(shí)體與實(shí)體修飾識(shí)別。在每次迭代訓(xùn)練前,主動(dòng)學(xué)習(xí)方法會(huì)選擇現(xiàn)有模型中未充分訓(xùn)練的數(shù)據(jù)擴(kuò)充訓(xùn)練集,從而達(dá)到利用少量標(biāo)注數(shù)據(jù)、訓(xùn)練出較高性能模型的目的。傳統(tǒng)的主動(dòng)學(xué)習(xí)方法只關(guān)注數(shù)據(jù)本身信息量(不確定性),而忽略了該數(shù)據(jù)是否為樣本中的孤立點(diǎn),針對(duì)該問(wèn)題,本文從電子病歷的數(shù)據(jù)特點(diǎn)出發(fā),提出基于分布度對(duì)不確定性加權(quán)的主動(dòng)學(xué)習(xí)選擇優(yōu)化策略,從而降低樣本中孤立點(diǎn)被選出的概率。對(duì)比實(shí)驗(yàn)證明,該策略相較于原有的基于不確定性的主動(dòng)學(xué)習(xí)方法,效果有所提升。(... 

【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁(yè)數(shù)】:52 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法的醫(yī)療實(shí)體及其修飾識(shí)別研究


基于字/詞的中文電子病歷主動(dòng)學(xué)習(xí)模型F值對(duì)照?qǐng)D2-1中模型訓(xùn)練結(jié)果顯示,以794份病歷作為訓(xùn)練數(shù)據(jù),以字為token

示意圖,主動(dòng)學(xué)習(xí),流程,示意圖


哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文 主動(dòng)學(xué)習(xí)在醫(yī)療實(shí)體及其修飾識(shí)別中 992 份電子病歷標(biāo)注語(yǔ)料已經(jīng)具備相當(dāng)規(guī)模,但是由于數(shù)因此對(duì)其他來(lái)源的數(shù)據(jù)識(shí)別效果不佳。對(duì)于特定來(lái)源的醫(yī)學(xué)習(xí)訓(xùn)練實(shí)體及修飾識(shí)別模型,仍然需要相當(dāng)數(shù)量的標(biāo)注本的專業(yè)性較強(qiáng),需要醫(yī)學(xué)專業(yè)人士參與標(biāo)注,而進(jìn)行專間成本較高,標(biāo)注工作開(kāi)展困難,進(jìn)而導(dǎo)致實(shí)體識(shí)別監(jiān)督到制約,進(jìn)而妨礙了電子病歷中關(guān)系抽取、邏輯推理等高與隨機(jī)選擇樣本并利用傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練的被動(dòng)通過(guò)選取出信息量較大的訓(xùn)練數(shù)據(jù),在訓(xùn)練集較小的情況訓(xùn)練效果。

電子病歷,評(píng)價(jià)曲線,中文,實(shí)體


哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文始數(shù)據(jù),訓(xùn)練出初始模型0。隨后將新生成的模型應(yīng)用到未標(biāo)注數(shù) U,利用模型對(duì) U 的標(biāo)注結(jié)果,計(jì)算出文檔的 rank 值,抽取出 rank 值的 3 份文檔加入標(biāo)注集 L 中進(jìn)行訓(xùn)練,訓(xùn)練出模型 。重復(fù)以上應(yīng)型、選擇數(shù)據(jù)、訓(xùn)練模型三個(gè)步驟,直至已標(biāo)注文檔的數(shù)目大于等于于 th。對(duì)照實(shí)驗(yàn)分別利用隨機(jī)選擇、基于熵、基于分布度對(duì)熵加權(quán)(權(quán)重μ =選擇策略選取訓(xùn)練數(shù)據(jù),實(shí)驗(yàn)結(jié)果如圖 3-2 所示:

【參考文獻(xiàn)】:
期刊論文
[1]基于多特征融合的中文電子病歷命名實(shí)體識(shí)別[J]. 張祥偉,李智.  軟件導(dǎo)刊. 2017(02)
[2]中文電子病歷命名實(shí)體和實(shí)體關(guān)系語(yǔ)料庫(kù)構(gòu)建[J]. 楊錦鋒,關(guān)毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰.  軟件學(xué)報(bào). 2016(11)
[3]中文電子病歷命名實(shí)體標(biāo)注語(yǔ)料庫(kù)構(gòu)建[J]. 曲春燕,關(guān)毅,楊錦鋒,趙永杰,劉雅欣.  高技術(shù)通訊. 2015 (02)
[4]電子病歷命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究綜述[J]. 楊錦鋒,于秋濱,關(guān)毅,蔣志鵬.  自動(dòng)化學(xué)報(bào). 2014(08)
[5]面向中文電子病歷的詞法語(yǔ)料標(biāo)注研究[J]. 蔣志鵬,趙芳芳,關(guān)毅,楊錦鋒.  高技術(shù)通訊. 2014 (06)
[6]基于堆積策略的電子病歷實(shí)體識(shí)別[J]. 鄧本洋,呂新波,關(guān)毅.  智能計(jì)算機(jī)與應(yīng)用. 2014(01)
[7]基于層疊條件隨機(jī)場(chǎng)的中文病歷命名實(shí)體識(shí)別[J]. 燕楊,文敦偉,王云吉,王珂.  吉林大學(xué)學(xué)報(bào)(工學(xué)版). 2014(06)

碩士論文
[1]中文電子病歷命名實(shí)體識(shí)別研究[D]. 曲春燕.哈爾濱工業(yè)大學(xué) 2015
[2]基于半監(jiān)督學(xué)習(xí)的中文電子病歷分詞和名實(shí)體挖掘[D]. 張立邦.哈爾濱工業(yè)大學(xué) 2014



本文編號(hào):2895323

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/yixuelunwen/yiyuanguanlilunwen/2895323.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3f198***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com