蛋白質組質譜大數(shù)據(jù)的并行處理技術研究
發(fā)布時間:2024-07-07 06:48
近年來,串聯(lián)質譜技術以其高靈敏度和高精度等優(yōu)勢成為了研究蛋白質組的關鍵技術之一。串聯(lián)質譜數(shù)據(jù)承載著蛋白質及肽段的信息,對其處理分析不僅是計算蛋白質組研究中尤為關鍵的一步,也是后續(xù)生物蛋白質結構功能等分析的基本保障。然而,質譜數(shù)據(jù)分析在計算時間與計算規(guī)模上遭受了新的挑戰(zhàn),其主要有以下三個原因:一是隨著質譜技術的高速發(fā)展,質譜數(shù)據(jù)集的規(guī)模呈爆炸式的指數(shù)增長,匹配海量的質譜數(shù)據(jù)成為了蛋白質組學的一個難題;二是蛋白質肽段測序條件變得更加苛刻,如半無限或酶無約束搜索、多個翻譯后修飾等的加入考慮;三是蛋白質中央數(shù)據(jù)庫存儲與更新質譜數(shù)據(jù)時通常需要對大量的質譜數(shù)據(jù)進行二次分析。如何高效、準確地從海量質譜數(shù)據(jù)中解析出肽段序列信息,是當前計算蛋白質組學所面臨的最大挑戰(zhàn)。本文致力于研究大規(guī)模質譜數(shù)據(jù)在多種高性能計算平臺上的并行處理算法。本文的主要工作和創(chuàng)新點概括如下:(1)提出了一個基于分布式計算框架Hadoop上的從頭測序并行算法,F(xiàn)有的從頭測序方法均為串行執(zhí)行算法,無法在合理的時間內處理大規(guī)模的質譜數(shù)據(jù)。而Hadoop是開源的分布式計算框架,已廣泛應用于學術界和工業(yè)界,其文件系統(tǒng)HDFS在負載均衡方面具...
【文章頁數(shù)】:103 頁
【學位級別】:博士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究現(xiàn)狀與挑戰(zhàn)
1.2 論文的研究內容和創(chuàng)新點
1.2.1 研究目標
1.2.2 研究內容
1.3 本文組織結構
第2章 相關理論
2.1 基于串聯(lián)質譜的蛋白質組學研究
2.1.1 串聯(lián)質譜技術
2.1.2 串聯(lián)質譜數(shù)據(jù)分析簡介
2.1.3 基于串聯(lián)質譜技術的蛋白質組學研究
2.2 高性能計算平臺與技術
2.2.1 Hadoop
2.2.2 GPU
2.2.3 Intel MIC(Many Integrated Core)
2.2.4 SW26010
2.3 并行編程技術
2.4 本章小結
第3章 基于Hadoop分布式計算框架的從頭測序并行算法研究
3.1 引言
3.2 UniNovo算法簡介
3.3 基于Hadoop分布式框架的并行大規(guī)模肽段從頭測序方法
3.3.1 基于Hadoop的從頭測序并行化設計
3.3.2 基于Hadoop的從頭測序并行化實現(xiàn)
3.4 實驗結果與性能分析
3.4.1 實驗環(huán)境
3.4.2 實驗設計與結果分析
3.5 本章小結
第4章 基于SW26010的大規(guī)模肽段從頭測序算法研究
4.1 引言
4.2 PepNovo+算法簡介
4.3 基于SW26010架構的多層并行從頭測序算法
4.3.1 基于MPE之間的任務級并行計算
4.3.2 基于CPE之間的線程級并行計算
4.4 并行優(yōu)化措施
4.5 實驗結果與性能分析
4.5.1 實驗環(huán)境與數(shù)據(jù)集
4.5.2 單節(jié)點性能測試
4.5.3 多節(jié)點性能測試
4.5.4 大數(shù)據(jù)集性能測試
4.6 本章小結
第5章 基于MIC的大規(guī)模蛋白質數(shù)據(jù)庫并行搜索算法研究
5.1 引言
5.2 問題概述
5.2.1 Intel MIC架構
5.2.2 SDP質譜匹配評分算法
5.3 基于MIC架構的兩層并行數(shù)據(jù)庫搜索方法
5.3.1 并行計算設計
5.3.2 并行優(yōu)化設計
5.4 實驗結果與性能分析
5.4.1 實驗環(huán)境與數(shù)據(jù)集
5.4.2 CPU+1MIC性能測試
5.4.3 MIC集群性能測試
5.4.4 大規(guī)模數(shù)據(jù)集性能測試
5.4.5 實驗結果準確性分析
5.5 本章小節(jié)
第6章 基于SW26010大規(guī)模蛋白質數(shù)據(jù)庫搜索算法研究
6.1 引言
6.2 背景知識
6.2.1 SW26010
6.2.2 質譜點積乘算法
6.3 基于SW26010的數(shù)據(jù)庫并行搜索算法
6.3.1 基于MPE之間的任務級并行計算
6.3.2 基于CPE之間的線程級并行計算
6.4 面向架構的性能優(yōu)化方法
6.4.1 內存訪問優(yōu)化
6.4.2 雙緩沖技術
6.4.3 向量化
6.4.4 優(yōu)化總結
6.5 實驗結果與性能分析
6.5.1 實驗環(huán)境與數(shù)據(jù)集
6.5.2 SW-Tandem性能分析
6.5.3 實驗結果準確性分析
6.6 本章小節(jié)
總結與展望
參考文獻
附錄A 攻讀學位期間所發(fā)表的學術論文
附錄B 攻讀學位期間所參加的科研項目及申請的專利
致謝
本文編號:4003316
【文章頁數(shù)】:103 頁
【學位級別】:博士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究現(xiàn)狀與挑戰(zhàn)
1.2 論文的研究內容和創(chuàng)新點
1.2.1 研究目標
1.2.2 研究內容
1.3 本文組織結構
第2章 相關理論
2.1 基于串聯(lián)質譜的蛋白質組學研究
2.1.1 串聯(lián)質譜技術
2.1.2 串聯(lián)質譜數(shù)據(jù)分析簡介
2.1.3 基于串聯(lián)質譜技術的蛋白質組學研究
2.2 高性能計算平臺與技術
2.2.1 Hadoop
2.2.2 GPU
2.2.3 Intel MIC(Many Integrated Core)
2.2.4 SW26010
2.3 并行編程技術
2.4 本章小結
第3章 基于Hadoop分布式計算框架的從頭測序并行算法研究
3.1 引言
3.2 UniNovo算法簡介
3.3 基于Hadoop分布式框架的并行大規(guī)模肽段從頭測序方法
3.3.1 基于Hadoop的從頭測序并行化設計
3.3.2 基于Hadoop的從頭測序并行化實現(xiàn)
3.4 實驗結果與性能分析
3.4.1 實驗環(huán)境
3.4.2 實驗設計與結果分析
3.5 本章小結
第4章 基于SW26010的大規(guī)模肽段從頭測序算法研究
4.1 引言
4.2 PepNovo+算法簡介
4.3 基于SW26010架構的多層并行從頭測序算法
4.3.1 基于MPE之間的任務級并行計算
4.3.2 基于CPE之間的線程級并行計算
4.4 并行優(yōu)化措施
4.5 實驗結果與性能分析
4.5.1 實驗環(huán)境與數(shù)據(jù)集
4.5.2 單節(jié)點性能測試
4.5.3 多節(jié)點性能測試
4.5.4 大數(shù)據(jù)集性能測試
4.6 本章小結
第5章 基于MIC的大規(guī)模蛋白質數(shù)據(jù)庫并行搜索算法研究
5.1 引言
5.2 問題概述
5.2.1 Intel MIC架構
5.2.2 SDP質譜匹配評分算法
5.3 基于MIC架構的兩層并行數(shù)據(jù)庫搜索方法
5.3.1 并行計算設計
5.3.2 并行優(yōu)化設計
5.4 實驗結果與性能分析
5.4.1 實驗環(huán)境與數(shù)據(jù)集
5.4.2 CPU+1MIC性能測試
5.4.3 MIC集群性能測試
5.4.4 大規(guī)模數(shù)據(jù)集性能測試
5.4.5 實驗結果準確性分析
5.5 本章小節(jié)
第6章 基于SW26010大規(guī)模蛋白質數(shù)據(jù)庫搜索算法研究
6.1 引言
6.2 背景知識
6.2.1 SW26010
6.2.2 質譜點積乘算法
6.3 基于SW26010的數(shù)據(jù)庫并行搜索算法
6.3.1 基于MPE之間的任務級并行計算
6.3.2 基于CPE之間的線程級并行計算
6.4 面向架構的性能優(yōu)化方法
6.4.1 內存訪問優(yōu)化
6.4.2 雙緩沖技術
6.4.3 向量化
6.4.4 優(yōu)化總結
6.5 實驗結果與性能分析
6.5.1 實驗環(huán)境與數(shù)據(jù)集
6.5.2 SW-Tandem性能分析
6.5.3 實驗結果準確性分析
6.6 本章小節(jié)
總結與展望
參考文獻
附錄A 攻讀學位期間所發(fā)表的學術論文
附錄B 攻讀學位期間所參加的科研項目及申請的專利
致謝
本文編號:4003316
本文鏈接:http://www.lk138.cn/kejilunwen/ruanjiangongchenglunwen/4003316.html
最近更新
教材專著