中国韩国日本在线观看免费,A级尤物一区,日韩精品一二三区无码,欧美日韩少妇色

當(dāng)前位置:主頁(yè) > 科技論文 > 基因論文 >

魯棒矩陣分解的方法研究及在基因表達(dá)數(shù)據(jù)中的應(yīng)用

發(fā)布時(shí)間:2020-11-18 21:55
   癌癥(惡性腫瘤)已經(jīng)成為危害人類健康的頭等問(wèn)題。由基因芯片技術(shù)及二代測(cè)序技術(shù)所獲取的癌癥基因表達(dá)數(shù)據(jù)(Gene Expression Data,GED))已成為諸多研究者的挖掘熱點(diǎn)。此類數(shù)據(jù)維度高,但樣本數(shù)遠(yuǎn)遠(yuǎn)小于維數(shù),并且只有少數(shù)基因也稱特征基因參與癌癥病變。矩陣分解技術(shù)是從高維數(shù)據(jù)中提取特征基因的有效方法,然而隨著研究的不斷深入,傳統(tǒng)技術(shù)無(wú)法滿足日益增長(zhǎng)的需求。例如:(a)無(wú)監(jiān)督矩陣分解方法存在訓(xùn)練樣本歧義性高的缺點(diǎn);(b)目標(biāo)函數(shù)采用平方項(xiàng)計(jì)算時(shí),往往增大了對(duì)噪聲和異常值的敏感度;(c)主成分分析(Principal Component Analysis,PCA)中主成分(Principal Components,PCs)的稠密性,使所挑選特征基因的生物學(xué)意義模糊不明確;(d)非線性數(shù)據(jù)內(nèi)部的圖譜結(jié)構(gòu)無(wú)法通過(guò)傳統(tǒng)的線性降維方法構(gòu)建。因此,通過(guò)它們進(jìn)行特征學(xué)習(xí)時(shí),很難做出合理的生物學(xué)解釋。本文通過(guò)對(duì)前人的研究進(jìn)行補(bǔ)充完善,提高原有算法的魯棒性、稀疏性等,為下一步更深入的挖掘癌基因、預(yù)防、診斷和治療癌癥做鋪墊。(1)提出了同時(shí)具有稀疏特性和判別能力的PCA算法(SDSPCA)。由于傳統(tǒng)PCA屬于無(wú)監(jiān)督學(xué)習(xí)方法,致使訓(xùn)練樣本的歧義性較高。因此考慮在PCA上引入類別標(biāo)簽和稀疏約束,在提高PCA稀疏性的同時(shí)對(duì)具有類別標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí)。新方法易于求解且收斂速度快,可以挑選到更多的公共特征基因,以及分類效果更精確。(2)提出了具有魯棒特性的圖正則PCA算法(L1/2gLPCA)。首先,引入流形學(xué)習(xí)(Manifold Learning,ML)去構(gòu)建數(shù)據(jù)內(nèi)部的幾何結(jié)構(gòu);然后通過(guò)在誤差函數(shù)上引入L1/2范數(shù),降低噪聲和異常值的影響,使算法更健壯魯棒;最后通過(guò)新算法L1/2gLPCA對(duì)GED進(jìn)行特征提取,發(fā)掘其中的特征基因,實(shí)驗(yàn)結(jié)果顯示新方法挖掘的特征基因的富集程度更高。(3)提出了基于Lp范數(shù)約束的圖正則PCA算法(PgLPCA)。在目標(biāo)函數(shù)上引入Lp范數(shù)約束,由于約束p可在0~1范圍內(nèi)任意取值,保證了算法的靈活性和魯棒性。圖正則約束保證了數(shù)據(jù)點(diǎn)的幾何關(guān)系不丟失,使樣本點(diǎn)間的聚類更清晰。實(shí)驗(yàn)結(jié)果顯示這些新發(fā)現(xiàn)的特征基因與相關(guān)癌癥具有很大的關(guān)聯(lián)性,并且PgLPCA在聚類方面優(yōu)于其它同類方法。(4)針對(duì)GED的高維特點(diǎn),提出具有去稠密和去冗余效果的稀疏PCA算法(gLSPCA)。傳統(tǒng)PCA作為線性分解技術(shù),由原始數(shù)據(jù)重新組合構(gòu)成PCs,其權(quán)重(也叫基)常稠密較多,然而每個(gè)變量都對(duì)應(yīng)一個(gè)特定的基因。如果每個(gè)PCs包含更少的非零基,PCA的效果將大大被提升。因此,引入稀疏約束過(guò)濾掉一部分冗余信息,保留那些對(duì)于研究癌癥發(fā)展有深遠(yuǎn)意義的特征基因。(5)提出一種新的雙圖PCA算法(DGPCA)。首先,在PCA模型的PCs和基上同時(shí)引入ML,同時(shí)構(gòu)建矩陣行向和列向的幾何結(jié)構(gòu);然后通過(guò)新方法在GED中進(jìn)行雙聚類,構(gòu)建數(shù)據(jù)中存在的“棋盤結(jié)構(gòu)”。該模型簡(jiǎn)單易求解,閉合形式的解保證了算法速度。最后,實(shí)驗(yàn)結(jié)果顯示該方法能有效挖掘數(shù)據(jù)中的棋盤結(jié)構(gòu)和其中存在的癌基因。
【學(xué)位單位】:曲阜師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:O151.21;R318
【部分圖文】:

分類精度,權(quán)重參數(shù),指數(shù),坐標(biāo)


多視圖數(shù)據(jù)的四個(gè)類別,每個(gè)數(shù)據(jù)集由相同特征(基因)表示的不同樣本組成。??2.?3.?2算法性能探究??SDSPCA的兩個(gè)參數(shù)a、/?和計(jì)算復(fù)雜度是其性能探宄的主要部分。圖2.1中記錄了參??數(shù)在{l(TM,...,102°}范圍內(nèi)與分類精度的關(guān)系。從圖中可以看出在和??范圍內(nèi)SDSPCA可以達(dá)到最好的實(shí)驗(yàn)效果。參數(shù)#值過(guò)高時(shí),會(huì)因?yàn)閺?qiáng)??烈的稀疏性造成信息丟失而使得分類效果較差。??此處,我們分析了每個(gè)方法的計(jì)算復(fù)雜度。由于Evalue分解是最耗吋的步驟,其復(fù)雜??度為0(D3),?D是數(shù)據(jù)維度。本章中,我們的實(shí)驗(yàn)數(shù)據(jù)是維度遠(yuǎn)遠(yuǎn)高于樣本數(shù)的GED。??因此,SDSPCA的復(fù)雜度為腳其屮z是迭代次數(shù)。不難看出,SDSPCA的復(fù)雜??10??

維數(shù),通路圖,公共特征,復(fù)雜度


?-20?-20?beta??圖2.1權(quán)重參數(shù)值與分類精度的關(guān)系,三個(gè)坐標(biāo)分別表示參數(shù)《和的指數(shù)以及分類精度??表2.2每個(gè)方法的運(yùn)行時(shí)間比較??Methods?Times?(s.)??PCA?0.1863士?0.l843e-05??LDA?0.2357土0.5622e-05??EMSPCA?0.3593±0.2641e-05??N-2-DPCA?208.7232土?17.7250??Z-SPCA?2.3938士?0.%26e-05??PathSPCA?0.1535±0.7010e-06??SPCArt?1.8408士0.9266e-05??SDSPCA?0.5264土?0.0101?e-05??所對(duì)丨、V:的GED。這些數(shù)據(jù)可從TCGA數(shù)椐庫(kù)上下載,由從有相卜彳的特征(基因)不同的??樣本(組群)的數(shù)據(jù)整合而成。將多視圖數(shù)據(jù)中的樣本隨機(jī)分為訓(xùn)練集和測(cè)試集,由于每??個(gè)疾病數(shù)據(jù)的正常樣本來(lái)自不同的組織,我們將正常和疾病數(shù)據(jù)分為四類。表2.1列出了??多視圖數(shù)據(jù)的四個(gè)類別,每個(gè)數(shù)據(jù)集由相同特征(基因)表示的不同樣本組成。??2.?3.?2算法性能探究??SDSPCA的兩個(gè)參數(shù)a、/?和計(jì)算復(fù)雜度是其性能探宄的主要部分。圖2.1中記錄了參??數(shù)在{l(TM,...,102°}范圍內(nèi)與分類精度的關(guān)系。從圖中可以看出在和??范圍內(nèi)SDSPCA可以達(dá)到最好的實(shí)驗(yàn)效果。參數(shù)#值過(guò)高時(shí),會(huì)因?yàn)閺?qiáng)??烈的稀疏性造成信息丟失而使得分類效果較差。??此處,我們分析了每個(gè)方法的計(jì)算復(fù)雜度。由于Evalue分解是最耗吋的步驟,其復(fù)雜??度為0(D3)

公共特征,精度比較,維度,基因


為了探索實(shí)驗(yàn)挖掘的公共特征基因在多種疾病間的連接機(jī)制,我們迎過(guò)公共N站??KEGG進(jìn)行通路分析。首先,我們將挖掘到的公共特征基因輸入到KHGG屮;然后將P-value??最高的通路結(jié)構(gòu)展示在圖2.2中,包括疾病基因、靶向藥物基因和人類基因。該圖主耍體??現(xiàn)了人體蛋白、酶的變化過(guò)程,這個(gè)過(guò)程正是體現(xiàn)了癌癥發(fā)生和發(fā)展過(guò)程屮的生物反應(yīng)。??12??
【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 王文俊;;基于類別保留投影的基因表達(dá)數(shù)據(jù)特征提取新方法[J];電子學(xué)報(bào);2012年02期



本文編號(hào):2889249

資料下載
論文發(fā)表

本文鏈接:http://www.lk138.cn/kejilunwen/jiyingongcheng/2889249.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5daaa***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com