中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當前位置:主頁 > 雜文精選 >

k-tuple頻度統(tǒng)計方法在微生物群落測序數(shù)據(jù)分析中的應用

發(fā)布時間:2014-08-15 20:09

第一章緒論


1.1研究背景和研究意義
在地球歷史的大部分時間里,地球上的生命完全由微觀的生命形式構成,微生物是地球上生物多樣性最為豐富的資源,在很多方面仍然占據(jù)著統(tǒng)治地位。就種類數(shù)量而言,微生物就遠遠超過了動植物種類的總和,它們生存環(huán)境的多樣性更是其他生物所不能比的。微生物雖不能為肉眼所見,卻切切實實分布在地球的每個角落。人體的每一個組織、鹽水和淡水、極地冰川和沸騰的溫泉中、表層土壤和深層基巖中、酸性礦井廢水和堿性湖中,都富集大量的微生物[1]。細菌和古生菌不但生活于各種存在其它生命的環(huán)境中,并且在很多情況下它們是極端環(huán)境里(如溫度達到340度的深海煙函、地表以下6千米的巖石中)唯一存活的生物[2]。微生物不僅無處不在,更是地球上所有生命中必不可少的一部分,它們在環(huán)境氣候形成、地球化學循環(huán)、地質(zhì)演化和生物進化中扮演著重要的角色[3]。自然界中,微生物廣泛參與生物圈內(nèi)的物質(zhì)循環(huán)轉(zhuǎn)化并維持著生態(tài)平衡,尤其是與人類日常活動緊密相關的碳、氮、氧、磷、硫等重要元素的循環(huán)轉(zhuǎn)化都離不開微生物的活動。據(jù)估計,地球上3XIO3。個原核生物細胞分解產(chǎn)生了 350-550拍克(1拍克=10i5克)的碳、85-130拍克的氮和9-14拍克的憐,成為了這些地球養(yǎng)分的主要來源[4]。與其它動植物相同,人類的生存環(huán)境和健康問題也與微生物息息相關。微生物在人體的食物消化、毒素降解及機體免疫反應、環(huán)境污染物降解等方面發(fā)揮著重要作用[5],同時還很大程度地影響藥物醫(yī);學、現(xiàn)代農(nóng)業(yè)和發(fā)酵工業(yè)的發(fā)展。微生物同樣會對人類造成巨大的危害,病原微生物引發(fā)的病變(如艾滋病、禽流感等)在人類的歷史上曾帶來了重大的災難。微生物從發(fā)現(xiàn)到現(xiàn)在的短短300年間,已經(jīng)在人類生活和生產(chǎn)實踐中得到廣泛應用,成為了繼動、植物兩大生物產(chǎn)業(yè)的第三大產(chǎn)業(yè)。曾有定論認為了解人類生存條件的關鍵在于了解人類的基因組[6,7]。
………….


1.2微生物群落的比較分析方法
早期的微生物基因組學研究主要通過固體培養(yǎng)基分離純化技術對單個物種進行克隆培養(yǎng),進而再測取基因組序列。但是由于缺乏對微生物生存環(huán)境的認識,以及微生物之間存在復雜的共生關系,能夠單獨培養(yǎng)的微生物只占到很小一部分比例(約1%) [15],使得克隆培養(yǎng)的方法受到很大的限制。測序技術的發(fā)展跨越了這一研究初期的瓶頸,使得我們能夠直接從自然界的微生物群落中獲取遺傳信息。其中,直接從環(huán)境中提取出來的測序數(shù)據(jù)被稱為宏基因組,這一概念最早是在1988年由Handelsman[i6]等人提出。宏基因組概念被提出之后,許多大規(guī)模的宏基因組和宏轉(zhuǎn)錄組研究項目開始涌現(xiàn)。這些項目從不同的環(huán)境中采集了上百個微生物樣本,獲得了大量微生物測序數(shù)據(jù)。用于比較微生物群落的免培養(yǎng)的度量方法被相繼提出,其中基于16S核糖體RNA的方法是最主要的方法,而基于全宏基因組和宏轉(zhuǎn)錄組的方法還在探索中。16S核糖體RNA是原核生物的核糖體中30S亞基的組成部分,由于不同的細菌與古生菌間的16S核糖體RNA所屬的基因是高度保守的常被用來標識微生物類別或物種。不少研究學者從微生物樣本中,通過傳統(tǒng)的桑格測序技術(Sanger Sequencing)或新一代測序技術(Next Generation Sequencing, NGS[i8]),對小亞基核糖體RNA,尤其是16S核糖體RNA進行測序,從而提出了在微生物多樣性方面的具有意義的結論。在基于16S核糖體RNA的研究調(diào)查中,一些分析過程是用不同的Beta多樣性度量方法對多個微生物樣本進行比對,度量方法中一般有兩類:基于系統(tǒng)發(fā)育樹的和基于分類單元的。
………………


第二章基于k-tuple頻度統(tǒng)計的微生物群落比較分析方法


2.1基于k-tuple頻度統(tǒng)計的序列特征方法
先前有研究對基因組序列數(shù)據(jù)進行了統(tǒng)計分析,發(fā)現(xiàn)短序列片段的頻率分布在全基因組范圍內(nèi)呈現(xiàn)出穩(wěn)定的趨勢[45],而不同物種間短序列片段的穩(wěn)定分布曲線又存在差異[39]。k-tuple頻度特征的保守性在后續(xù)的研究中也得到了廣泛的數(shù)據(jù)驗證和統(tǒng)計結果的支持。所以研究者認為,;k-tuple序列特征用序列的區(qū)域特征可以代表整體特性。k-tuple頻率分布的穩(wěn)定特性目前在生物學上還沒有得到合理的解釋,但在統(tǒng)計學上可以通過概率模型來描述,研究發(fā)現(xiàn)原核生物的k-tuple頻度統(tǒng)計值符合馬爾科夫過程。由于k-tuple頻率分布在基因組范圍內(nèi)存在穩(wěn)定趨勢和保守特性,使得不同基因組序列的序列特征存在相異性,因而宏基因組或宏轉(zhuǎn)錄組數(shù)據(jù)的序列特征上的差異可以反映出微生物群落樣本在組成成分上的差異。所以在測序深度足夠覆蓋微生物群落的主要成分的情況下,我們認為可以通過統(tǒng)計整個宏基因組或宏轉(zhuǎn)錄組中k-tuple的出現(xiàn)頻度,也就是通過統(tǒng)計k-tuple頻度特征的方式對微生物群落進行特征描述,從而利用k-tuple頻度特征向量度量微生物群落之間的相異度。此外,這種比較方式不需要將短讀段配準到參考序列上,避免了微生物參考序列的不完整和難以測取兩方面問題。因此,我們將該方法應用在宏轉(zhuǎn)錄組數(shù)據(jù)的比較分析中,設計了一系列的微生物群落的比較實驗,詳細內(nèi)容可參見本文的第三章。
………….


2.2基于相異度矩陣的分析方法和評估標準
斯皮爾曼等級相關系數(shù)評估的是兩個變量的單調(diào)相關性,即如果用單調(diào)函數(shù)來描述兩個變量之間的關系,擬合程度能達到多少。如果數(shù)據(jù)中沒有重復值,并且當兩個變量完全單調(diào)相關時,完美的斯皮爾曼相關系數(shù)則為+1或-1。本文的研究工作中,斯皮爾曼等級相關系數(shù)用于評估不同度量方法下梯度變量與主分量中間的關系。本文中,斯皮爾曼等級相關系數(shù)通過R語言的軟件包“stats”提供的“cor”函數(shù)來計算。我們用真實數(shù)據(jù)對d2Tools進行了測試,測試數(shù)據(jù)包括4個樣本,每個樣本的測序文件為fasta格式,大小約為200MB9整個測試數(shù)據(jù)共有2,830,286條讀段,讀段長度為164±102bp。軟件包在1.45GB內(nèi)存上,花了約4個小時,串行地完成了整個分析流程,生成了 k從2到10的所有相異度度量下的相異度矩陣。不同k值的分析過程可以通過操作系統(tǒng)的命令實現(xiàn)并行,這樣則加快了程序運行時間,但要求更大的內(nèi)存。htuple頻度向量的計算時間與輸入文件的大小和選擇的k值有關,程序運行的內(nèi)存只與k的取值有關
…………


第三章基于k-tuple頻度統(tǒng)計的宏轉(zhuǎn)錄組數(shù)據(jù)........ 16
3.1宏轉(zhuǎn)錄組數(shù)據(jù)和宏基因組數(shù)據(jù)的總體描述........ 16
3.2實驗1:來自全球海洋的宏轉(zhuǎn)錄組數(shù)據(jù)樣本........ 18
3.2.1實驗數(shù)據(jù) ........18
3.2.2實驗結果與分析........ 19
3.3實驗2:宏轉(zhuǎn)錄組數(shù)據(jù)樣本間的環(huán)境梯度........25

3.4實驗3:宏轉(zhuǎn)錄組數(shù)據(jù)和宏基因組數(shù)據(jù)........ 30
3.5實驗4k-tuple測序數(shù)據(jù)的聚類分析........  34
3.5.1實驗數(shù)據(jù) ........34
3.5.2實驗結果與分析........ 35
3.6實驗5:測序誤差對相異度度量方法的性能........ 38
3.7本章小結........ 40
第四章關于k-tuple頻度序列特征方法........ 41
4.1微生物群落仿真數(shù)據(jù)的聚類分析........ 41
4.1.1實驗設計........ 41
4.1.2結果分析........ 43
4.2相似物種的聚類分析........ 44
4.2.1靈長類物種的聚類分析........ 44
4.2.2人種的聚類分析 ........48
4.3測試不同測序平臺對聚類結果的影響........ 52
4.3.1實驗設計........ 53
4.3.2結果分析........ 54
4.4基于k-tuple的序列特征........ 56
4.5本章小結 ........60
第五章總結與展望........ 62


第四章關于k-tuple頻度序列特征方法的延伸性探討


在第三章中,我們通過五組不同的實驗,驗證了基于k-tuple頻度的序列特征方法的有效性,并且當選擇適合的相異度度量時,該方法能夠有效地對樣本進行劃分組別。那么當微生物群落樣本間的差異很小時,基于k-tuple頻度的序列特征方法是否能夠進行正確的分組?對于相似物種,序列特征方法是否有效?針對這以上問題,本文設計了兩組實驗,一組針對微生物群落樣本的仿真實驗,一組是基于真實的測序數(shù)據(jù)研究相似物種聚類的使用。此外,在先前的研究中,我們發(fā)現(xiàn)測序平臺對序列特征方法有很大的影響。本文第三章中,454平臺和k-tuple平臺的測序數(shù)據(jù)是分開進行實驗分析的,實驗5也只是針對454平臺產(chǎn)生的測序誤差進行了關于性能影響的分析,并未考慮不同測序平臺所帶來的影響。所以我們在本章中設計了第三組實驗,來探討不同測序平臺對聚類結果所產(chǎn)生的影響。


……….


結論


隨著宏基因組學的提出,關于微生物的研究往前邁了一大步。微生物群落的比較是宏基因組學中一個重要部分,是生態(tài)學研究的重點問題;趉-tuple頻度的序列特征方法在宏基因組樣本的比較中的有效性在先前的研究中得到了驗證,而本文用真實的宏轉(zhuǎn)錄組測序數(shù)據(jù)首次驗證了序列特征方法在比較宏轉(zhuǎn)錄組樣本上的有效性,并對不同的相異度度量方法進行了性能評估,還開發(fā)了相應的軟件包來實現(xiàn)主要的分析流程。本文對序列特征方法進行了延伸性的探討,分別研究了序列特征方法對相似的微生物群落樣本、相似物種和不同測序平臺的測序數(shù)據(jù)所表現(xiàn)出來的聚類特性。從實驗結果中,我們發(fā)現(xiàn)在相似物種的聚類分析中,RNA數(shù)據(jù)樣本要比DNA數(shù)據(jù)樣本更容易劃分,這也從側面表明了宏轉(zhuǎn)錄組的測序數(shù)據(jù)對于微生物群落比較分析具有重要意義。另一方面,實驗的結果也反映出序列特征方法和各相異度度量方法的一些不足,如測序平臺的敏感性高、對于復雜微生物群落的聚類效果差,這些方面的不足也為改進序列特征方法提供了指導方向。
…………
參考文獻(略)



本文編號:8353

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/qitalunwen/8353.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶cd75c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com