中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

基于遠(yuǎn)監(jiān)督的蛋白質(zhì)交互關(guān)系抽取

發(fā)布時(shí)間:2020-11-12 20:09
   蛋白質(zhì)交互關(guān)系(Protein-Protein Interaction,PPI)是生物醫(yī)學(xué)領(lǐng)域研究的重要內(nèi)容之一,對(duì)疾病的診斷和治療以及新藥的研制具有重要的意義,目前經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證得到的PPI相關(guān)知識(shí)主要以非結(jié)構(gòu)化文本的形式存儲(chǔ)于生物醫(yī)學(xué)文獻(xiàn)中。隨著生物醫(yī)學(xué)文獻(xiàn)數(shù)量的飛速增長(zhǎng),依靠人工挖掘蛋白質(zhì)交互信息的方式難以滿足實(shí)際的應(yīng)用需求。因此,從生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)抽取蛋白質(zhì)交互關(guān)系成為生物信息領(lǐng)域重要的研究課題。目前蛋白質(zhì)交互關(guān)系抽取主要基于遠(yuǎn)監(jiān)督的方法,通過(guò)將知識(shí)庫(kù)與非結(jié)構(gòu)化文本對(duì)齊來(lái)自動(dòng)獲取大規(guī)模訓(xùn)練數(shù)據(jù),在一定程度上減輕了對(duì)人工標(biāo)注語(yǔ)料的依賴。但是這種方法存在明顯的缺陷,即在構(gòu)建訓(xùn)練數(shù)據(jù)的過(guò)程中引入了大量的噪音數(shù)據(jù),這些噪音會(huì)對(duì)模型的抽取性能造成很大的影響。針對(duì)這個(gè)問(wèn)題,本文首先建立了基于遠(yuǎn)監(jiān)督的蛋白質(zhì)交互關(guān)系抽取基本模型,利用遠(yuǎn)監(jiān)督產(chǎn)生的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練分類模型,并在人工標(biāo)注語(yǔ)料上進(jìn)行測(cè)試,通過(guò)實(shí)驗(yàn)結(jié)果進(jìn)一步分析了訓(xùn)練數(shù)據(jù)中存在的噪音問(wèn)題。接下來(lái)本文建立了基于主題集合的蛋白質(zhì)交互關(guān)系抽取模型,在交叉預(yù)測(cè)的基礎(chǔ)上利用關(guān)鍵詞和句子相似性抽取蛋白質(zhì)對(duì)簽名檔對(duì)應(yīng)的主題集合,并將主題集合之外的句子視為噪音進(jìn)行清除,利用去噪后的數(shù)據(jù)訓(xùn)練分類模型并在人工標(biāo)注語(yǔ)料上進(jìn)行測(cè)試。實(shí)驗(yàn)通過(guò)對(duì)多個(gè)不同參數(shù)組合進(jìn)行測(cè)試,得到的最好結(jié)果與遠(yuǎn)監(jiān)督基本模型相比,有交互蛋白質(zhì)對(duì)和無(wú)交互蛋白質(zhì)對(duì)的F1度量分別提高了1.49%和9.18%,去噪效果明顯。為了充分利用訓(xùn)練數(shù)據(jù)中句子類別間的相互關(guān)系,本文引入了多示例多標(biāo)記學(xué)習(xí)模型用于蛋白質(zhì)交互關(guān)系抽取中,將蛋白質(zhì)對(duì)簽名檔中的句子及其類別構(gòu)造為多示例多標(biāo)記模型,利用最大期望算法來(lái)確定句子的類別,進(jìn)而清除訓(xùn)練數(shù)據(jù)中的噪音。實(shí)驗(yàn)結(jié)果表明,基于多示例多標(biāo)記的迭代算法對(duì)于訓(xùn)練數(shù)據(jù)中的噪音識(shí)別更加準(zhǔn)確,相比于遠(yuǎn)監(jiān)督的基本模型,在有交互蛋白質(zhì)的F1度量略有提升的基礎(chǔ)上,無(wú)交互蛋白質(zhì)對(duì)的F1度量提高了14.84%,模型性能提高明顯,且抽取結(jié)果更加平衡。
【學(xué)位單位】:南京航空航天大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:Q811.4;TP391.1
【部分圖文】:

生物醫(yī)學(xué),搜索引擎,首頁(yè),數(shù)據(jù)庫(kù)


圖 3.2 HPRD 數(shù)據(jù)庫(kù)首頁(yè)Med 是一個(gè)由美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館建立的免費(fèi)的搜索引擎,提供生物醫(yī)學(xué)方面的摘要下載。PubMed 是目前應(yīng)用最廣泛的免費(fèi)的生物醫(yī)學(xué)搜索引擎,它的數(shù)據(jù)庫(kù)LINE,MEDLINE 收錄的包括醫(yī)學(xué)、護(hù)理、獸醫(yī)、衛(wèi)生保健及臨床前學(xué)科方面的書(shū)600 多萬(wàn)條,這些數(shù)據(jù)來(lái)自全球 70 多個(gè)國(guó)家和地區(qū)的 4800 多家生物醫(yī)學(xué)期刊,其英文文獻(xiàn),70%到 80%的文獻(xiàn)包含作者的英文摘要[49]。MEDLINE 的核心主題是醫(yī)其它同醫(yī)學(xué)相關(guān)的領(lǐng)域,如護(hù)理或其它健康科學(xué)。PubMed 引擎免費(fèi)提供文獻(xiàn)摘

函數(shù)圖形,函數(shù)圖形


邏輯回歸(Logistic Regression)作為機(jī)器學(xué)習(xí)中經(jīng)典的一種分類模型,是二分類問(wèn)題中用的解決方法之一[53]。邏輯回歸算法訓(xùn)練速度快,預(yù)測(cè)較為準(zhǔn)確,模型求解出的參數(shù)容易和解釋,適用于基于文本的蛋白質(zhì)交互關(guān)系抽取二分類問(wèn)題。線性回歸利用樣本數(shù)據(jù)擬合出一條直線,通過(guò)擬合出的直線對(duì)未知數(shù)據(jù)進(jìn)行判斷。線歸的公式如下:0 1 1 2 2 3 3Tn nz x x x x x(3對(duì)于邏輯回歸來(lái)說(shuō),在線性回歸(邏輯回歸屬于廣義線性回歸模型)的基礎(chǔ)上,通過(guò) sig函數(shù)對(duì)線性回歸的結(jié)果進(jìn)行映射。其公式如下: 1 11 1Tzxh xe e (3其中,11xye (3被稱作 sigmoid 函數(shù),sigmoid 的函數(shù)圖形如圖 3.5 所示:

趨勢(shì)圖,去噪,閾值,噪音


表 4.5(續(xù))0.90.2 690/60.5 555/51.8 563/57.6 677/48.6 631/58.1 3116/55.00.3 757/66.3 640/59.7 634/64.8 727/52.2 712/65.6 3470/61.20.4 783/68.6 676/63.1 671/686. 755/54.2 745/68.6 3630/64.00.5 805/70.6 711/66.3 683/69.8 783/56.2 766/70.5 3748/66.1從表 4.4 和表 4.5 中可以看出,在不同子集中識(shí)別出的噪音數(shù)量大致相等,說(shuō)明本章提出的去噪方法能夠很好地應(yīng)用于整個(gè)語(yǔ)料;在不同的閾值組合下,對(duì)噪音的識(shí)別比例范圍從 42%擴(kuò)大到 66%,相比于交叉預(yù)測(cè)識(shí)別出的 34%的噪音,基于主題集合的去噪方法能夠有效地識(shí)別出訓(xùn)練數(shù)據(jù)中的噪音,同時(shí)在不同閾值下,識(shí)別出的噪音數(shù)量變化明顯,有助于挑選最佳的閾值組合;通過(guò)表 4.4 和表 4.5 對(duì)比來(lái)看,關(guān)鍵詞次數(shù)限制C 對(duì)于噪音識(shí)別的影響明顯, C 2時(shí)識(shí)別出的噪音數(shù)量整體多于 C 1時(shí)識(shí)別出的噪音數(shù)量,相對(duì)于 來(lái)說(shuō), 對(duì)于關(guān)鍵詞在簽名檔中的出現(xiàn)次數(shù)要求更高,導(dǎo)致關(guān)鍵詞集合中的關(guān)鍵詞減少,相應(yīng)地包含關(guān)鍵詞的句子減少,因而識(shí)別出的噪音數(shù)量也就更多。為了進(jìn)一步觀察閾值變化對(duì)噪音識(shí)別的影響,我們分別畫(huà)出了 和 時(shí)的去噪趨勢(shì)變化,如圖 4.6 和圖 4.7 所示,圖中的點(diǎn)表示整體訓(xùn)練數(shù)據(jù)中噪音的比例。
【參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 李麗雙;劉洋;黃德根;;基于組合核的蛋白質(zhì)交互關(guān)系抽取[J];中文信息學(xué)報(bào);2013年01期

2 蔡自興,李枚毅;多示例學(xué)習(xí)及其研究現(xiàn)狀[J];控制與決策;2004年06期


相關(guān)碩士學(xué)位論文 前5條

1 郭瑞;基于遷移學(xué)習(xí)和詞表示的蛋白質(zhì)交互關(guān)系抽取[D];大連理工大學(xué);2015年

2 封二英;基于大規(guī)模文本的蛋白質(zhì)交互關(guān)系自動(dòng)提取研究[D];南京航空航天大學(xué);2012年

3 平金玉;基于組合核與主動(dòng)學(xué)習(xí)的蛋白質(zhì)交互關(guān)系抽取[D];大連理工大學(xué);2010年

4 陳平;基于SVM的中文文本分類相關(guān)算法的研究與實(shí)現(xiàn)[D];西北大學(xué);2008年

5 胡楊;生物文獻(xiàn)中蛋白質(zhì)相互作用關(guān)系抽取[D];哈爾濱工業(yè)大學(xué);2007年



本文編號(hào):2881189

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/yixuelunwen/swyx/2881189.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶414c6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com