基于嵌入式稀疏特征選擇策略的降維算法研究
發(fā)布時(shí)間:2020-06-29 17:03
【摘要】:高通量生物技術(shù)的發(fā)展產(chǎn)生了大量的高維小樣本生物大數(shù)據(jù)。在生物醫(yī)學(xué)“大數(shù)據(jù)”領(lǐng)域中,特征選擇算法是解決維數(shù)災(zāi)難的有效方法之一,已被廣泛應(yīng)用于基因篩選、遺傳位點(diǎn)分析等具體問(wèn)題。本文首先概述性地介紹了特征選擇算法及四種常用的分類器模型,然后圍繞嵌入式稀疏特征選擇策略的降維算法從以下兩個(gè)方面展開(kāi)論述:一是聯(lián)合重抽樣技術(shù)與嵌入式特征選擇算法,構(gòu)造了一種基于統(tǒng)計(jì)顯著性水平的特征選擇與排序算法,可以對(duì)遺傳位點(diǎn)問(wèn)題按等位基因可加效應(yīng)和雜合效應(yīng)模型編碼的數(shù)據(jù)進(jìn)行關(guān)鍵致病位點(diǎn)選擇分析;二是結(jié)合特征排序算法和可固定用戶自定義特征子集的算法構(gòu)造了一種新的特征選擇算法。針對(duì)生物遺傳學(xué)中的遺傳位點(diǎn)分析問(wèn)題,本文給出了基于Lasso懲罰估計(jì)的Logistic回歸模型以及基于重抽樣技術(shù)的Lasso懲罰回歸算法流程。在某疾病遺傳位點(diǎn)編碼數(shù)據(jù)上的實(shí)驗(yàn)分析中,列出了挑選的特征集以及在5-折交叉驗(yàn)證方式下四種分類器間分類性能的比較,同時(shí)我們還對(duì)排名前30的位點(diǎn)利用四種常用分類器進(jìn)行了逐步增加特征個(gè)數(shù)的5-折交叉驗(yàn)證,發(fā)現(xiàn)可以在最少利用27個(gè)位點(diǎn)的條件下對(duì)疾病分類準(zhǔn)確性達(dá)到最高68.13%。最后,我們還按等位基因可加效應(yīng)和雜合效應(yīng)兩種編碼方式下的數(shù)據(jù)進(jìn)行了關(guān)鍵致病位點(diǎn)選擇分析,并在GWAS研究數(shù)據(jù)庫(kù)GWAS Central中對(duì)挑選出的特征進(jìn)行了生物學(xué)意義分析,發(fā)現(xiàn)其被報(bào)道與腫瘤,高血壓,肥胖等多種遺傳復(fù)雜疾病有密切聯(lián)系,從而進(jìn)一步驗(yàn)證了結(jié)果的可信度。針對(duì)特征排序算法在基因表達(dá)譜數(shù)據(jù)中選取的特征子集容易產(chǎn)生冗余特征的問(wèn)題,論文結(jié)合t檢驗(yàn)排序法與SubLasso算法提出了一種特征選擇算法。在與取排名靠前且特征個(gè)數(shù)相同的3個(gè)常見(jiàn)單特征排序算法比較時(shí),新方法在15個(gè)常見(jiàn)基因表達(dá)譜數(shù)據(jù)集上分類表現(xiàn)占優(yōu);同時(shí)選出了具有非常好的分類性能的特征子集,在不同的分類器上取得了穩(wěn)健的分類效果。新算法固定t檢驗(yàn)排序法挑選出的特征作為預(yù)定義特征,可以將某些在特征排序算法中排名較低,但與響應(yīng)變量統(tǒng)計(jì)顯著相關(guān)的特征選擇出來(lái)。
【學(xué)位授予單位】:湖北工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:C81;F224
【圖文】:
均值結(jié)果如表 3.2 所示。4.2 分類準(zhǔn)確性為了驗(yàn)證我們所選特征分類能力的穩(wěn)健性,我們選用了 4 種常用分類器,貝葉斯(NBayes),支持向量機(jī)(SVM),K-近鄰(KNN)和決策樹(shù)(DTree)些分類器原理和方法各自有所不同,可以從不同的方面來(lái)檢驗(yàn)我們所選特征別能力。表 3.3 給出了 14 個(gè)特征在 4 個(gè)分類器和 5-折交叉驗(yàn)證方式下的分類率。表 3.3 Bootstrap Lasso 挑選特征在 5-折交叉驗(yàn)證方式下的分類性能驗(yàn)證方式 分類器 Se Sp Acc Avc5FCVSVM 68.53% 66.27% 67.40% 67.40%NBayes 68.20% 67.93% 68.07% 68.07%DTree 58.67% 53.93% 56.30% 56.30%KNN 56.53% 57.53% 57.03% 57.03%
本文編號(hào):2734109
【學(xué)位授予單位】:湖北工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:C81;F224
【圖文】:
均值結(jié)果如表 3.2 所示。4.2 分類準(zhǔn)確性為了驗(yàn)證我們所選特征分類能力的穩(wěn)健性,我們選用了 4 種常用分類器,貝葉斯(NBayes),支持向量機(jī)(SVM),K-近鄰(KNN)和決策樹(shù)(DTree)些分類器原理和方法各自有所不同,可以從不同的方面來(lái)檢驗(yàn)我們所選特征別能力。表 3.3 給出了 14 個(gè)特征在 4 個(gè)分類器和 5-折交叉驗(yàn)證方式下的分類率。表 3.3 Bootstrap Lasso 挑選特征在 5-折交叉驗(yàn)證方式下的分類性能驗(yàn)證方式 分類器 Se Sp Acc Avc5FCVSVM 68.53% 66.27% 67.40% 67.40%NBayes 68.20% 67.93% 68.07% 68.07%DTree 58.67% 53.93% 56.30% 56.30%KNN 56.53% 57.53% 57.03% 57.03%
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 李中秋;張汝飛;魯亞軍;;基于Group Bridge組變量選擇方法的血壓影響因素實(shí)證分析[J];數(shù)學(xué)的實(shí)踐與認(rèn)識(shí);2015年22期
2 胡小寧;何曉群;馬學(xué)俊;;基于Group MCP Logistic模型的個(gè)人信用評(píng)價(jià)分析[J];現(xiàn)代管理科學(xué);2015年08期
3 王小燕;方匡南;謝邦昌;;Logistic回歸的雙層變量選擇研究[J];統(tǒng)計(jì)研究;2014年09期
相關(guān)博士學(xué)位論文 前1條
1 黃東山;特征選擇及半監(jiān)督分類方法研究[D];華中科技大學(xué);2011年
相關(guān)碩士學(xué)位論文 前2條
1 溫學(xué)平;基于特征選擇的數(shù)據(jù)降維[D];華中科技大學(xué);2015年
2 周龍;基于樸素貝葉斯的分類方法研究[D];安徽大學(xué);2006年
本文編號(hào):2734109
本文鏈接:http://www.lk138.cn/jingjilunwen/jingjiguanlilunwen/2734109.html
最近更新
教材專著