基于混合特征的蛋白質(zhì)分類問題研究
發(fā)布時間:2024-12-22 01:41
蛋白質(zhì)在生物體活動中扮演著重要角色。各種各樣的蛋白質(zhì)憑借其獨特的結構和功能在生物體內(nèi)各司其職,發(fā)揮著不可替代的作用。蛋白質(zhì)識別是探究蛋白質(zhì)生物學功能的第一步,做好蛋白質(zhì)識別工作可為后續(xù)研究奠定堅實基礎。自人類基因組計劃實施以來,未知結構與功能的蛋白質(zhì)序列數(shù)量迅猛發(fā)展,傳統(tǒng)的生物實驗來分類識別蛋白質(zhì)序列已經(jīng)無法滿足當今時代對速度的需求,所以眾多研究者們將機器學習算法應用在了蛋白質(zhì)分類研究中。目前在蛋白質(zhì)分類識別中,仍然存在一些問題:數(shù)據(jù)集類別不平衡;未很好地用數(shù)字形式將蛋白質(zhì)序列信息表示出來;特征集中存在無效特征或特征之間存在冗余性;分類算法選用不恰當?shù)取1疚耐ㄟ^總結現(xiàn)有模型存在的這些問題,分別對噬菌體蛋白質(zhì)、電子傳遞蛋白的分類進行了探究。在噬菌體蛋白質(zhì)分類識別中,本文通過綜合多個角度的信息提取蛋白質(zhì)的信息,并通過特征組合的形式實現(xiàn)各個類型特征集之間的信息互補。然后,本文通過特征選擇算法將特征與類別之間具備強相關性、特征與特征之間存在低冗余性的特征挑選出來,并對特征集中的特征進行排序。在隨機森林算法下,通過計算每一維特征添加進特征集后的性能指標,得到每種類型特征集的最優(yōu)特征子集。最后通過對...
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究意義及背景
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.3.1 噬菌體蛋白的識別
1.3.2 電子傳遞蛋白的識別
1.4 論文結構安排
1.5 本章小結
第2章 相關理論基礎
2.1 數(shù)據(jù)集獲取及優(yōu)化
2.1.1 數(shù)據(jù)集的獲取
2.1.2 序列組成及文件格式
2.1.3 序列的去冗余處理
2.1.4 類別不平衡問題
2.1.5 交叉驗證
2.2 基本的特征提取方式
2.2.1 氨基酸組成
2.2.2 氨基酸的理化性質(zhì)
2.2.3 n-gram
2.2.4 位置特異性得分矩陣
2.3 特征選擇算法
2.3.1 過濾式類型
2.3.2 包裹式類型
2.3.3 MRMD算法
2.4 分類算法
2.4.1 樸素貝葉斯
2.4.2 支持向量機
2.4.3 決策樹
2.4.4 集成思想
2.4.5 隨機森林
2.5 性能評價準則
2.5.1 基本性能評價指標
2.5.2 更具鑒別力的性能評價指標
2.6 本章小結
第3章 噬菌體蛋白的識別研究
3.1 噬菌體蛋白的特征提取
3.2 特征組合
3.3 實驗結果與分析
3.3.1 不同分類器的分類效果
3.3.2 不同類型特征提取方式的性能
3.3.3 特征選擇的重要性
3.3.4 與最近方法對比
3.3.5 八種理化性質(zhì)的影響分析
3.4 本章小結
第4章 電子傳遞蛋白的識別研究
4.1 不平衡數(shù)據(jù)集的處理
4.2 電子傳遞蛋白的特征提取
4.2.1 DT算法
4.2.2 ACC-PSSM算法
4.3 實驗結果與分析
4.3.1 獲取共同特征
4.3.2 最優(yōu)特征提取方式
4.3.3 不同分類算法的性能
4.3.4 特征組合的有效性
4.3.5 模型的泛化能力
4.3.6 有效特征的正反例數(shù)據(jù)分布
4.3.7 本模型的優(yōu)點
4.4 本章小結
結論
參考文獻
致謝
作者簡介
攻讀碩士學位期間發(fā)表的論文和科研成果
本文編號:4019241
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究意義及背景
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.3.1 噬菌體蛋白的識別
1.3.2 電子傳遞蛋白的識別
1.4 論文結構安排
1.5 本章小結
第2章 相關理論基礎
2.1 數(shù)據(jù)集獲取及優(yōu)化
2.1.1 數(shù)據(jù)集的獲取
2.1.2 序列組成及文件格式
2.1.3 序列的去冗余處理
2.1.4 類別不平衡問題
2.1.5 交叉驗證
2.2 基本的特征提取方式
2.2.1 氨基酸組成
2.2.2 氨基酸的理化性質(zhì)
2.2.3 n-gram
2.2.4 位置特異性得分矩陣
2.3 特征選擇算法
2.3.1 過濾式類型
2.3.2 包裹式類型
2.3.3 MRMD算法
2.4 分類算法
2.4.1 樸素貝葉斯
2.4.2 支持向量機
2.4.3 決策樹
2.4.4 集成思想
2.4.5 隨機森林
2.5 性能評價準則
2.5.1 基本性能評價指標
2.5.2 更具鑒別力的性能評價指標
2.6 本章小結
第3章 噬菌體蛋白的識別研究
3.1 噬菌體蛋白的特征提取
3.2 特征組合
3.3 實驗結果與分析
3.3.1 不同分類器的分類效果
3.3.2 不同類型特征提取方式的性能
3.3.3 特征選擇的重要性
3.3.4 與最近方法對比
3.3.5 八種理化性質(zhì)的影響分析
3.4 本章小結
第4章 電子傳遞蛋白的識別研究
4.1 不平衡數(shù)據(jù)集的處理
4.2 電子傳遞蛋白的特征提取
4.2.1 DT算法
4.2.2 ACC-PSSM算法
4.3 實驗結果與分析
4.3.1 獲取共同特征
4.3.2 最優(yōu)特征提取方式
4.3.3 不同分類算法的性能
4.3.4 特征組合的有效性
4.3.5 模型的泛化能力
4.3.6 有效特征的正反例數(shù)據(jù)分布
4.3.7 本模型的優(yōu)點
4.4 本章小結
結論
參考文獻
致謝
作者簡介
攻讀碩士學位期間發(fā)表的論文和科研成果
本文編號:4019241
本文鏈接:http://www.lk138.cn/guanlilunwen/lindaojc/4019241.html
教材專著