基于深度學(xué)習(xí)的宏基因組序列分類方法研究
發(fā)布時間:2020-04-08 23:32
【摘要】:基因測序技術(shù)的高速發(fā)展使得測序的成本指數(shù)下降,下一代測序技術(shù)被廣泛應(yīng)用。同一時間能對復(fù)雜環(huán)境中不同微生物的基因組進行測序,從而獲得大量的微生物基因數(shù)據(jù)。宏基因組學(xué)通過16S rRNA擴增技術(shù)直接獲得微生物的全部DNA序列,通過這些序列信息分析出整個微生物群落物種的豐度,再根據(jù)豐度信息得到群落的特征和功能。16S rRNA測序產(chǎn)生的片段同時具有同源性和特異性,同源性可以用來追蹤物種的起源,特異性可以鑒別出不同的物種。已有研究表明人體腸道菌群與疾病和代謝息息相關(guān),宏基因組分析已成為研究微生物群落的重要的一種輔助方法。宏基因組研究的重要一步是鑒定物種的類別,已有許多的方法被提出用來解決此問題,但是這些方法的分類正確率仍有很大的改進空間。針對宏基因組分類問題,本文提出了混合深度卷積神經(jīng)網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò)的分類模型。該模型在卷積神經(jīng)網(wǎng)絡(luò)階段實現(xiàn)數(shù)據(jù)特征降維,在后一個全連接階段學(xué)習(xí)各種特征之間的非線性關(guān)系。用RDP和Greengenes數(shù)據(jù)庫中的三組數(shù)據(jù)集分別訓(xùn)練和測試模型,數(shù)據(jù)集中包含細菌和古菌的16S序列以及真菌ITS序列。訓(xùn)練好的模型能夠根據(jù)給定的基因序列預(yù)測已存在數(shù)據(jù)庫的分類標(biāo)簽,在無參考數(shù)據(jù)庫的情況下使用GPU實現(xiàn)多條查詢序列并行分配。本文對以下幾方面內(nèi)容展開了研究:(1)宏基因組數(shù)據(jù)分類特征提取。使用兩種不同的特征提取方式,一種是基于k-mer,以k個堿基劃分整條序列,組成特征空間。另一種是基于對齊的,這種方式先把不等長的序列通過全局比對的方式處理成長度一樣的序列。基因序列是字符串信息,在訓(xùn)練之前進行編碼,編碼過程中考慮了序列實際的生物學(xué)意義。(2)針對宏基因組序列分類預(yù)測問題,設(shè)計了基于深度學(xué)習(xí)的混合深度神經(jīng)網(wǎng)絡(luò)模型。深度神經(jīng)網(wǎng)絡(luò)模型逐層學(xué)習(xí)基因數(shù)據(jù)中的非線性特征,進而利用這些層次化的特征數(shù)據(jù)來對宏基因組序列進行分類預(yù)測。并對訓(xùn)練好的模型進行了保存和可視化。(3)把兩個數(shù)據(jù)庫中的三個數(shù)據(jù)集處理成一致的表達格式。在每個數(shù)據(jù)集用了三種不同的方法進行訓(xùn)練測試,其中RDP分類器分類使用的是默認(rèn)參數(shù)。對于本文設(shè)計的模型,通過多組實驗,確定模型的參數(shù)。用精確率、召回率、F1-score等分類評估指標(biāo)評估了三種不同方法的分類性能。
【圖文】:
有些數(shù)據(jù)庫的數(shù)據(jù)已用工具做了對齊,相應(yīng)的也會提供對齊序列。RTS16 和Warcup2 數(shù)據(jù)集不提供對齊的序列,所以這兩個數(shù)據(jù)庫的數(shù)據(jù)先用 ESPRIT-TREE 做對齊。序列對齊后的數(shù)據(jù)如圖3.2 所示,從圖中可以看出,做對齊后序列被很多“-”填充了。圖3.2 對齊后的數(shù)據(jù)示例
Greengenesv13.8數(shù)據(jù)庫中原始數(shù)據(jù)
【學(xué)位授予單位】:江西理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:Q811.4;TP18
本文編號:2619965
【圖文】:
有些數(shù)據(jù)庫的數(shù)據(jù)已用工具做了對齊,相應(yīng)的也會提供對齊序列。RTS16 和Warcup2 數(shù)據(jù)集不提供對齊的序列,所以這兩個數(shù)據(jù)庫的數(shù)據(jù)先用 ESPRIT-TREE 做對齊。序列對齊后的數(shù)據(jù)如圖3.2 所示,從圖中可以看出,做對齊后序列被很多“-”填充了。圖3.2 對齊后的數(shù)據(jù)示例
Greengenesv13.8數(shù)據(jù)庫中原始數(shù)據(jù)
【學(xué)位授予單位】:江西理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:Q811.4;TP18
【參考文獻】
相關(guān)期刊論文 前1條
1 滕國棟;陳敏亮;;全基因組測序技術(shù)的發(fā)展和應(yīng)用[J];中國美容醫(yī)學(xué);2013年04期
,本文編號:2619965
本文鏈接:http://www.lk138.cn/kejilunwen/zidonghuakongzhilunwen/2619965.html
最近更新
教材專著