k-tuple頻度統(tǒng)計(jì)方法在微生物群落測(cè)序數(shù)據(jù)分析中的應(yīng)用
第一章緒論
1.1研究背景和研究意義
在地球歷史的大部分時(shí)間里,地球上的生命完全由微觀的生命形式構(gòu)成,微生物是地球上生物多樣性最為豐富的資源,在很多方面仍然占據(jù)著統(tǒng)治地位。就種類數(shù)量而言,微生物就遠(yuǎn)遠(yuǎn)超過(guò)了動(dòng)植物種類的總和,它們生存環(huán)境的多樣性更是其他生物所不能比的。微生物雖不能為肉眼所見(jiàn),卻切切實(shí)實(shí)分布在地球的每個(gè)角落。人體的每一個(gè)組織、鹽水和淡水、極地冰川和沸騰的溫泉中、表層土壤和深層基巖中、酸性礦井廢水和堿性湖中,都富集大量的微生物[1]。細(xì)菌和古生菌不但生活于各種存在其它生命的環(huán)境中,并且在很多情況下它們是極端環(huán)境里(如溫度達(dá)到340度的深海煙函、地表以下6千米的巖石中)唯一存活的生物[2]。微生物不僅無(wú)處不在,更是地球上所有生命中必不可少的一部分,它們?cè)诃h(huán)境氣候形成、地球化學(xué)循環(huán)、地質(zhì)演化和生物進(jìn)化中扮演著重要的角色[3]。自然界中,微生物廣泛參與生物圈內(nèi)的物質(zhì)循環(huán)轉(zhuǎn)化并維持著生態(tài)平衡,尤其是與人類日;顒(dòng)緊密相關(guān)的碳、氮、氧、磷、硫等重要元素的循環(huán)轉(zhuǎn)化都離不開(kāi)微生物的活動(dòng)。據(jù)估計(jì),地球上3XIO3。個(gè)原核生物細(xì)胞分解產(chǎn)生了 350-550拍克(1拍克=10i5克)的碳、85-130拍克的氮和9-14拍克的憐,成為了這些地球養(yǎng)分的主要來(lái)源[4]。與其它動(dòng)植物相同,人類的生存環(huán)境和健康問(wèn)題也與微生物息息相關(guān)。微生物在人體的食物消化、毒素降解及機(jī)體免疫反應(yīng)、環(huán)境污染物降解等方面發(fā)揮著重要作用[5],同時(shí)還很大程度地影響藥物醫(yī);學(xué)、現(xiàn)代農(nóng)業(yè)和發(fā)酵工業(yè)的發(fā)展。微生物同樣會(huì)對(duì)人類造成巨大的危害,病原微生物引發(fā)的病變(如艾滋病、禽流感等)在人類的歷史上曾帶來(lái)了重大的災(zāi)難。微生物從發(fā)現(xiàn)到現(xiàn)在的短短300年間,已經(jīng)在人類生活和生產(chǎn)實(shí)踐中得到廣泛應(yīng)用,成為了繼動(dòng)、植物兩大生物產(chǎn)業(yè)的第三大產(chǎn)業(yè)。曾有定論認(rèn)為了解人類生存條件的關(guān)鍵在于了解人類的基因組[6,7]。
………….
1.2微生物群落的比較分析方法
早期的微生物基因組學(xué)研究主要通過(guò)固體培養(yǎng)基分離純化技術(shù)對(duì)單個(gè)物種進(jìn)行克隆培養(yǎng),進(jìn)而再測(cè)取基因組序列。但是由于缺乏對(duì)微生物生存環(huán)境的認(rèn)識(shí),以及微生物之間存在復(fù)雜的共生關(guān)系,能夠單獨(dú)培養(yǎng)的微生物只占到很小一部分比例(約1%) [15],使得克隆培養(yǎng)的方法受到很大的限制。測(cè)序技術(shù)的發(fā)展跨越了這一研究初期的瓶頸,使得我們能夠直接從自然界的微生物群落中獲取遺傳信息。其中,直接從環(huán)境中提取出來(lái)的測(cè)序數(shù)據(jù)被稱為宏基因組,這一概念最早是在1988年由Handelsman[i6]等人提出。宏基因組概念被提出之后,許多大規(guī)模的宏基因組和宏轉(zhuǎn)錄組研究項(xiàng)目開(kāi)始涌現(xiàn)。這些項(xiàng)目從不同的環(huán)境中采集了上百個(gè)微生物樣本,獲得了大量微生物測(cè)序數(shù)據(jù)。用于比較微生物群落的免培養(yǎng)的度量方法被相繼提出,其中基于16S核糖體RNA的方法是最主要的方法,而基于全宏基因組和宏轉(zhuǎn)錄組的方法還在探索中。16S核糖體RNA是原核生物的核糖體中30S亞基的組成部分,由于不同的細(xì)菌與古生菌間的16S核糖體RNA所屬的基因是高度保守的常被用來(lái)標(biāo)識(shí)微生物類別或物種。不少研究學(xué)者從微生物樣本中,通過(guò)傳統(tǒng)的桑格測(cè)序技術(shù)(Sanger Sequencing)或新一代測(cè)序技術(shù)(Next Generation Sequencing, NGS[i8]),對(duì)小亞基核糖體RNA,尤其是16S核糖體RNA進(jìn)行測(cè)序,從而提出了在微生物多樣性方面的具有意義的結(jié)論。在基于16S核糖體RNA的研究調(diào)查中,一些分析過(guò)程是用不同的Beta多樣性度量方法對(duì)多個(gè)微生物樣本進(jìn)行比對(duì),度量方法中一般有兩類:基于系統(tǒng)發(fā)育樹(shù)的和基于分類單元的。
………………
第二章基于k-tuple頻度統(tǒng)計(jì)的微生物群落比較分析方法
2.1基于k-tuple頻度統(tǒng)計(jì)的序列特征方法
先前有研究對(duì)基因組序列數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)短序列片段的頻率分布在全基因組范圍內(nèi)呈現(xiàn)出穩(wěn)定的趨勢(shì)[45],而不同物種間短序列片段的穩(wěn)定分布曲線又存在差異[39]。k-tuple頻度特征的保守性在后續(xù)的研究中也得到了廣泛的數(shù)據(jù)驗(yàn)證和統(tǒng)計(jì)結(jié)果的支持。所以研究者認(rèn)為,;k-tuple序列特征用序列的區(qū)域特征可以代表整體特性。k-tuple頻率分布的穩(wěn)定特性目前在生物學(xué)上還沒(méi)有得到合理的解釋,但在統(tǒng)計(jì)學(xué)上可以通過(guò)概率模型來(lái)描述,研究發(fā)現(xiàn)原核生物的k-tuple頻度統(tǒng)計(jì)值符合馬爾科夫過(guò)程。由于k-tuple頻率分布在基因組范圍內(nèi)存在穩(wěn)定趨勢(shì)和保守特性,使得不同基因組序列的序列特征存在相異性,因而宏基因組或宏轉(zhuǎn)錄組數(shù)據(jù)的序列特征上的差異可以反映出微生物群落樣本在組成成分上的差異。所以在測(cè)序深度足夠覆蓋微生物群落的主要成分的情況下,我們認(rèn)為可以通過(guò)統(tǒng)計(jì)整個(gè)宏基因組或宏轉(zhuǎn)錄組中k-tuple的出現(xiàn)頻度,也就是通過(guò)統(tǒng)計(jì)k-tuple頻度特征的方式對(duì)微生物群落進(jìn)行特征描述,從而利用k-tuple頻度特征向量度量微生物群落之間的相異度。此外,這種比較方式不需要將短讀段配準(zhǔn)到參考序列上,避免了微生物參考序列的不完整和難以測(cè)取兩方面問(wèn)題。因此,我們將該方法應(yīng)用在宏轉(zhuǎn)錄組數(shù)據(jù)的比較分析中,設(shè)計(jì)了一系列的微生物群落的比較實(shí)驗(yàn),詳細(xì)內(nèi)容可參見(jiàn)本文的第三章。
………….
2.2基于相異度矩陣的分析方法和評(píng)估標(biāo)準(zhǔn)
斯皮爾曼等級(jí)相關(guān)系數(shù)評(píng)估的是兩個(gè)變量的單調(diào)相關(guān)性,即如果用單調(diào)函數(shù)來(lái)描述兩個(gè)變量之間的關(guān)系,擬合程度能達(dá)到多少。如果數(shù)據(jù)中沒(méi)有重復(fù)值,并且當(dāng)兩個(gè)變量完全單調(diào)相關(guān)時(shí),完美的斯皮爾曼相關(guān)系數(shù)則為+1或-1。本文的研究工作中,斯皮爾曼等級(jí)相關(guān)系數(shù)用于評(píng)估不同度量方法下梯度變量與主分量中間的關(guān)系。本文中,斯皮爾曼等級(jí)相關(guān)系數(shù)通過(guò)R語(yǔ)言的軟件包“stats”提供的“cor”函數(shù)來(lái)計(jì)算。我們用真實(shí)數(shù)據(jù)對(duì)d2Tools進(jìn)行了測(cè)試,測(cè)試數(shù)據(jù)包括4個(gè)樣本,每個(gè)樣本的測(cè)序文件為fasta格式,大小約為200MB9整個(gè)測(cè)試數(shù)據(jù)共有2,830,286條讀段,讀段長(zhǎng)度為164±102bp。軟件包在1.45GB內(nèi)存上,花了約4個(gè)小時(shí),串行地完成了整個(gè)分析流程,生成了 k從2到10的所有相異度度量下的相異度矩陣。不同k值的分析過(guò)程可以通過(guò)操作系統(tǒng)的命令實(shí)現(xiàn)并行,這樣則加快了程序運(yùn)行時(shí)間,但要求更大的內(nèi)存。htuple頻度向量的計(jì)算時(shí)間與輸入文件的大小和選擇的k值有關(guān),程序運(yùn)行的內(nèi)存只與k的取值有關(guān)
…………
第三章基于k-tuple頻度統(tǒng)計(jì)的宏轉(zhuǎn)錄組數(shù)據(jù)........ 16
3.1宏轉(zhuǎn)錄組數(shù)據(jù)和宏基因組數(shù)據(jù)的總體描述........ 16
3.2實(shí)驗(yàn)1:來(lái)自全球海洋的宏轉(zhuǎn)錄組數(shù)據(jù)樣本........ 18
3.2.1實(shí)驗(yàn)數(shù)據(jù) ........18
3.2.2實(shí)驗(yàn)結(jié)果與分析........ 19
3.3實(shí)驗(yàn)2:宏轉(zhuǎn)錄組數(shù)據(jù)樣本間的環(huán)境梯度........25
3.4實(shí)驗(yàn)3:宏轉(zhuǎn)錄組數(shù)據(jù)和宏基因組數(shù)據(jù)........ 30
3.5實(shí)驗(yàn)4k-tuple測(cè)序數(shù)據(jù)的聚類分析........ 34
3.5.1實(shí)驗(yàn)數(shù)據(jù) ........34
3.5.2實(shí)驗(yàn)結(jié)果與分析........ 35
3.6實(shí)驗(yàn)5:測(cè)序誤差對(duì)相異度度量方法的性能........ 38
3.7本章小結(jié)........ 40
第四章關(guān)于k-tuple頻度序列特征方法........ 41
4.1微生物群落仿真數(shù)據(jù)的聚類分析........ 41
4.1.1實(shí)驗(yàn)設(shè)計(jì)........ 41
4.1.2結(jié)果分析........ 43
4.2相似物種的聚類分析........ 44
4.2.1靈長(zhǎng)類物種的聚類分析........ 44
4.2.2人種的聚類分析 ........48
4.3測(cè)試不同測(cè)序平臺(tái)對(duì)聚類結(jié)果的影響........ 52
4.3.1實(shí)驗(yàn)設(shè)計(jì)........ 53
4.3.2結(jié)果分析........ 54
4.4基于k-tuple的序列特征........ 56
4.5本章小結(jié) ........60
第五章總結(jié)與展望........ 62
第四章關(guān)于k-tuple頻度序列特征方法的延伸性探討
在第三章中,我們通過(guò)五組不同的實(shí)驗(yàn),驗(yàn)證了基于k-tuple頻度的序列特征方法的有效性,并且當(dāng)選擇適合的相異度度量時(shí),該方法能夠有效地對(duì)樣本進(jìn)行劃分組別。那么當(dāng)微生物群落樣本間的差異很小時(shí),基于k-tuple頻度的序列特征方法是否能夠進(jìn)行正確的分組?對(duì)于相似物種,序列特征方法是否有效?針對(duì)這以上問(wèn)題,本文設(shè)計(jì)了兩組實(shí)驗(yàn),一組針對(duì)微生物群落樣本的仿真實(shí)驗(yàn),一組是基于真實(shí)的測(cè)序數(shù)據(jù)研究相似物種聚類的使用。此外,在先前的研究中,我們發(fā)現(xiàn)測(cè)序平臺(tái)對(duì)序列特征方法有很大的影響。本文第三章中,454平臺(tái)和k-tuple平臺(tái)的測(cè)序數(shù)據(jù)是分開(kāi)進(jìn)行實(shí)驗(yàn)分析的,實(shí)驗(yàn)5也只是針對(duì)454平臺(tái)產(chǎn)生的測(cè)序誤差進(jìn)行了關(guān)于性能影響的分析,并未考慮不同測(cè)序平臺(tái)所帶來(lái)的影響。所以我們?cè)诒菊轮性O(shè)計(jì)了第三組實(shí)驗(yàn),來(lái)探討不同測(cè)序平臺(tái)對(duì)聚類結(jié)果所產(chǎn)生的影響。
……….
結(jié)論
隨著宏基因組學(xué)的提出,關(guān)于微生物的研究往前邁了一大步。微生物群落的比較是宏基因組學(xué)中一個(gè)重要部分,是生態(tài)學(xué)研究的重點(diǎn)問(wèn)題。基于k-tuple頻度的序列特征方法在宏基因組樣本的比較中的有效性在先前的研究中得到了驗(yàn)證,而本文用真實(shí)的宏轉(zhuǎn)錄組測(cè)序數(shù)據(jù)首次驗(yàn)證了序列特征方法在比較宏轉(zhuǎn)錄組樣本上的有效性,并對(duì)不同的相異度度量方法進(jìn)行了性能評(píng)估,還開(kāi)發(fā)了相應(yīng)的軟件包來(lái)實(shí)現(xiàn)主要的分析流程。本文對(duì)序列特征方法進(jìn)行了延伸性的探討,分別研究了序列特征方法對(duì)相似的微生物群落樣本、相似物種和不同測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)所表現(xiàn)出來(lái)的聚類特性。從實(shí)驗(yàn)結(jié)果中,我們發(fā)現(xiàn)在相似物種的聚類分析中,RNA數(shù)據(jù)樣本要比DNA數(shù)據(jù)樣本更容易劃分,這也從側(cè)面表明了宏轉(zhuǎn)錄組的測(cè)序數(shù)據(jù)對(duì)于微生物群落比較分析具有重要意義。另一方面,實(shí)驗(yàn)的結(jié)果也反映出序列特征方法和各相異度度量方法的一些不足,如測(cè)序平臺(tái)的敏感性高、對(duì)于復(fù)雜微生物群落的聚類效果差,這些方面的不足也為改進(jìn)序列特征方法提供了指導(dǎo)方向。
…………
參考文獻(xiàn)(略)
本文編號(hào):8353
本文鏈接:http://www.lk138.cn/qitalunwen/8353.html