基于深度學(xué)習(xí)的基因型填充方法研究
發(fā)布時(shí)間:2020-12-05 14:17
全基因組關(guān)聯(lián)分析(GWAS,Genome-wide association study)是指在人類全基因組范圍內(nèi)找出存在的序列變異,即單核苷酸多態(tài)性(SNP,Single Nucleotide Polymorphism),從中篩選出與疾病相關(guān)的SNPs。GWAS通常專注于單核苷酸多態(tài)性(SNP)與人類疾病之類的性狀之間的關(guān)聯(lián),但同樣可以應(yīng)用于任何其他遺傳變異和任何其他生物的基因與遺傳性狀的分析。全基因組測序?yàn)镚WAS分析提供基因數(shù)據(jù)支撐,是基因分析必不可少的源頭,F(xiàn)代基因組測序過程中,由于基因檢測技術(shù)能力的限制導(dǎo)致很多SNPs位點(diǎn)無法準(zhǔn)確檢測,使得GWAS結(jié)果具有一定的假陽性,尤其會(huì)給小樣本的GWAS的分析造成較多的假陽性結(jié)果。因此,開發(fā)一個(gè)能有效填補(bǔ)出那些無法準(zhǔn)確檢測的SNP的工具是非常重要的,能彌補(bǔ)基因型缺失帶來的全基因組關(guān)聯(lián)分析的不足,F(xiàn)在通常的做法是通過計(jì)算機(jī)軟件的方法對(duì)未觀測的基因型數(shù)據(jù)進(jìn)行填充,根據(jù)遺傳的動(dòng)態(tài)連鎖不平衡特性盡最大可能還原真實(shí)基因測序過程中無法檢測的SNPs位點(diǎn)數(shù)據(jù)。比如,Impute v2方法是用于對(duì)觀察到的基因型進(jìn)行分型并估算缺失基因型的計(jì)算機(jī)軟件;Min...
【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進(jìn)技術(shù)研究院)廣東省
【文章頁數(shù)】:77 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
LiandStephens模型填充示意圖
緒論5盡管大多數(shù)現(xiàn)代插補(bǔ)工具都采用HMM框架,但是它們?cè)诙x狀態(tài)空間和HMM參數(shù)方面的方式有所不同。盡管fastPHASE,MaCH(Li,etal.2010)和IMPUTE非常相似,但第一個(gè)Beagle插補(bǔ)算法卻有所不同,因?yàn)樗鼪]有采用通常的轉(zhuǎn)移和發(fā)射函數(shù),并且單倍型模型是由參考樣品和待填充樣品構(gòu)建的,而不是僅參考樣品(Marchini,etal.2006)。但是,第二個(gè)Beagle插補(bǔ)算法(在版本4.1中引入)使用LiandStephens模型,并且與其他工具類似。Imputev2算法基于HMM算法,通過提高分型SNP的精度來提高未分型SNP的插補(bǔ)精度。大多數(shù)基于HMM的估算方法在估算參考樣本的基因型時(shí),會(huì)同時(shí)估算缺失的基因型,并對(duì)待填充中的未分型SNP進(jìn)行分析整合。相比之下,在假設(shè)參考樣本是正確分型的情況下,我們建議交替估計(jì)參考樣本和待填充樣本的共享基因中SNP的單倍型和待填充樣本中獨(dú)享的SNP的等位基因。同時(shí),我們通過在馬爾可夫鏈蒙特卡洛(MCMC)框架中重復(fù)這些步驟來解決數(shù)據(jù)中分型不確定性的問題。將分型和插補(bǔ)步驟分開可以使我們將更多的計(jì)算能力集中于分型并使用更多可用信息。此方法中使用的額外計(jì)算在很大程度上由后續(xù)步驟中的快速單倍體插補(bǔ)來平衡。這種方法可以提高傳統(tǒng)的基于HMM的方法的插補(bǔ)精度,然而下一代參考樣本將為插補(bǔ)提出新的挑戰(zhàn),包括更大的樣本量,不分型和不完整的基因型,以及包含不同SNP位點(diǎn)的多個(gè)參考樣本。我們的方法旨在利用以上概述的原理來應(yīng)對(duì)這些挑戰(zhàn),并提高下一代研究中的估算準(zhǔn)確性。圖1.2Imputev2填充示意圖
基于深度學(xué)習(xí)的基因型填充方法研究6Minimac3也是基于以上HMM算法做出了一些改進(jìn)。為了使許多研究人員能夠使用更大的參考面板,可以從大型的參考樣本中收益,同時(shí)可以為極少變異等位基因的攜帶者提高檢測效率并進(jìn)行有針對(duì)性的分析,Minimac3方法提出了一種新的,更快的插補(bǔ)算法。該算法基于共享單體型的HMM的“狀態(tài)空間縮減”;該方法利用微小基因組片段中單倍型之間的相似性來減少HMM迭代的有效狀態(tài)數(shù)。我們的模型將基因組分為連續(xù)的區(qū)塊,并僅在每個(gè)基因組區(qū)塊的唯一單倍型上進(jìn)行迭代。然后,該方法使用可逆的映射函數(shù),該函數(shù)可以精確地重構(gòu)Minimac3和Imputev2使用的狀態(tài)空間。該算法的兩個(gè)重要特征是,其產(chǎn)生的結(jié)果與原始狀態(tài)空間中較繁瑣的分析完全相同,并且在缺少數(shù)據(jù)的情況下仍保持計(jì)算效率。圖1.3Minimac3填充流程方法1.2.2基因型的預(yù)分型由于概率框架和高丟失率,基因型填充是一個(gè)高度計(jì)算密集的過程。降低LiandStephens框架中的計(jì)算負(fù)擔(dān)的主要里程碑之一是引入預(yù)分型。這個(gè)想法涉及兩步插補(bǔ)過程:GWAS基因型的預(yù)先分型(即單倍型估計(jì))和待填充單倍型的推算(Howieetal.2012),如圖1.3所表述的過程。單獨(dú)對(duì)待填充樣本進(jìn)行分型可
【參考文獻(xiàn)】:
期刊論文
[1]SNP芯片基因型填充至測序數(shù)據(jù)的策略[J]. 李樂義,邵東東,丁向東,張勤. 中國科技論文. 2016(12)
[2]基因型填充方法介紹及比較[J]. 何桑,丁向東,張勤. 中國畜牧雜志. 2013(23)
本文編號(hào):2899585
【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進(jìn)技術(shù)研究院)廣東省
【文章頁數(shù)】:77 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
LiandStephens模型填充示意圖
緒論5盡管大多數(shù)現(xiàn)代插補(bǔ)工具都采用HMM框架,但是它們?cè)诙x狀態(tài)空間和HMM參數(shù)方面的方式有所不同。盡管fastPHASE,MaCH(Li,etal.2010)和IMPUTE非常相似,但第一個(gè)Beagle插補(bǔ)算法卻有所不同,因?yàn)樗鼪]有采用通常的轉(zhuǎn)移和發(fā)射函數(shù),并且單倍型模型是由參考樣品和待填充樣品構(gòu)建的,而不是僅參考樣品(Marchini,etal.2006)。但是,第二個(gè)Beagle插補(bǔ)算法(在版本4.1中引入)使用LiandStephens模型,并且與其他工具類似。Imputev2算法基于HMM算法,通過提高分型SNP的精度來提高未分型SNP的插補(bǔ)精度。大多數(shù)基于HMM的估算方法在估算參考樣本的基因型時(shí),會(huì)同時(shí)估算缺失的基因型,并對(duì)待填充中的未分型SNP進(jìn)行分析整合。相比之下,在假設(shè)參考樣本是正確分型的情況下,我們建議交替估計(jì)參考樣本和待填充樣本的共享基因中SNP的單倍型和待填充樣本中獨(dú)享的SNP的等位基因。同時(shí),我們通過在馬爾可夫鏈蒙特卡洛(MCMC)框架中重復(fù)這些步驟來解決數(shù)據(jù)中分型不確定性的問題。將分型和插補(bǔ)步驟分開可以使我們將更多的計(jì)算能力集中于分型并使用更多可用信息。此方法中使用的額外計(jì)算在很大程度上由后續(xù)步驟中的快速單倍體插補(bǔ)來平衡。這種方法可以提高傳統(tǒng)的基于HMM的方法的插補(bǔ)精度,然而下一代參考樣本將為插補(bǔ)提出新的挑戰(zhàn),包括更大的樣本量,不分型和不完整的基因型,以及包含不同SNP位點(diǎn)的多個(gè)參考樣本。我們的方法旨在利用以上概述的原理來應(yīng)對(duì)這些挑戰(zhàn),并提高下一代研究中的估算準(zhǔn)確性。圖1.2Imputev2填充示意圖
基于深度學(xué)習(xí)的基因型填充方法研究6Minimac3也是基于以上HMM算法做出了一些改進(jìn)。為了使許多研究人員能夠使用更大的參考面板,可以從大型的參考樣本中收益,同時(shí)可以為極少變異等位基因的攜帶者提高檢測效率并進(jìn)行有針對(duì)性的分析,Minimac3方法提出了一種新的,更快的插補(bǔ)算法。該算法基于共享單體型的HMM的“狀態(tài)空間縮減”;該方法利用微小基因組片段中單倍型之間的相似性來減少HMM迭代的有效狀態(tài)數(shù)。我們的模型將基因組分為連續(xù)的區(qū)塊,并僅在每個(gè)基因組區(qū)塊的唯一單倍型上進(jìn)行迭代。然后,該方法使用可逆的映射函數(shù),該函數(shù)可以精確地重構(gòu)Minimac3和Imputev2使用的狀態(tài)空間。該算法的兩個(gè)重要特征是,其產(chǎn)生的結(jié)果與原始狀態(tài)空間中較繁瑣的分析完全相同,并且在缺少數(shù)據(jù)的情況下仍保持計(jì)算效率。圖1.3Minimac3填充流程方法1.2.2基因型的預(yù)分型由于概率框架和高丟失率,基因型填充是一個(gè)高度計(jì)算密集的過程。降低LiandStephens框架中的計(jì)算負(fù)擔(dān)的主要里程碑之一是引入預(yù)分型。這個(gè)想法涉及兩步插補(bǔ)過程:GWAS基因型的預(yù)先分型(即單倍型估計(jì))和待填充單倍型的推算(Howieetal.2012),如圖1.3所表述的過程。單獨(dú)對(duì)待填充樣本進(jìn)行分型可
【參考文獻(xiàn)】:
期刊論文
[1]SNP芯片基因型填充至測序數(shù)據(jù)的策略[J]. 李樂義,邵東東,丁向東,張勤. 中國科技論文. 2016(12)
[2]基因型填充方法介紹及比較[J]. 何桑,丁向東,張勤. 中國畜牧雜志. 2013(23)
本文編號(hào):2899585
本文鏈接:http://www.lk138.cn/shoufeilunwen/benkebiyelunwen/2899585.html
最近更新
教材專著