基于GoogLeNet模型的帶假結(jié)的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)方法
發(fā)布時(shí)間:2020-12-04 02:57
RNA參與著生物體遺傳信息的表達(dá)、蛋白質(zhì)的翻譯及基因調(diào)控等多個(gè)生物過程,在生物體內(nèi)扮演著十分重要的角色。RNA的結(jié)構(gòu)與其功能緊密相關(guān),只有確定RNA的結(jié)構(gòu)才可深入研究RNA的功能。因此,研究RNA的二級(jí)結(jié)構(gòu)具有極其重要的意義。傳統(tǒng)的RNA結(jié)構(gòu)獲取主要有生物實(shí)驗(yàn)及計(jì)算機(jī)預(yù)測(cè)兩種方法。傳統(tǒng)的生物實(shí)驗(yàn)手段存在成本花費(fèi)高,時(shí)間消耗多等問題。因此,計(jì)算機(jī)方法成為目前主要的研究手段。現(xiàn)有的預(yù)測(cè)RNA二級(jí)結(jié)構(gòu)的主要方法有:比較序列分析法、動(dòng)態(tài)規(guī)劃方法及啟發(fā)式算法等。某種程度上來(lái)說(shuō),這些方法均取得較好的效果,但也存在著一定的不足。尤其是含假結(jié)的RNA結(jié)構(gòu)復(fù)雜,使得預(yù)測(cè)難度加大,往往導(dǎo)致預(yù)測(cè)效果不理想。假結(jié)是一種特殊的RNA結(jié)構(gòu)單元,也影響著RNA的功能。因此,假結(jié)的預(yù)測(cè)一直是RNA二級(jí)結(jié)構(gòu)研究中的難點(diǎn)問題。傳統(tǒng)的深度學(xué)習(xí)方法在預(yù)測(cè)RNA二級(jí)結(jié)構(gòu)時(shí),雖然取得較好的效果,但隨著網(wǎng)絡(luò)層數(shù)的增加,會(huì)出現(xiàn)參數(shù)量增多、過擬合等問題。Goog Le Net模型從網(wǎng)絡(luò)的深度和寬度角度出發(fā),在卷積神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行改進(jìn),在提取出更多特征信息的同時(shí),有效提高計(jì)算效率。因此,本文使用Goog Le Net模型并借助動(dòng)...
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中心法則中RNA的作用由此可見,RNA分子具有攜帶遺傳信息、傳遞遺傳信息、參與蛋白質(zhì)的合成
第5章基于GoogLeNet模型的帶假結(jié)的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)方法29為1059個(gè)、486個(gè)及378個(gè)。原始數(shù)據(jù)集是使用CT文件格式表示RNA的二級(jí)結(jié)構(gòu),CT文件不僅包含著數(shù)據(jù)集中RNA的序列信息及結(jié)構(gòu)信息,而且包含與本實(shí)驗(yàn)無(wú)關(guān)的信息。其中,使用堿基“A”、“U”、“G”、“C”組合形成的序列表示RNA的序列信息,使用“.”、“(”、“)”、“[”、“]”、“{”、“}”點(diǎn)括號(hào)表示法表示RNA的結(jié)構(gòu)信息。因此,本文需要將可用的RNA序列信息和結(jié)構(gòu)信息抽取出來(lái)。CT文件表示的RNA二級(jí)結(jié)構(gòu)如圖5.1所示,在CT文件的第一行包含RNA序列的長(zhǎng)度及名稱等描述信息,數(shù)字M表示某條RNA序列的長(zhǎng)度,數(shù)字M后面的字符串表示該RNA的名稱。除去首行,CT文件對(duì)的每一行都包括6列數(shù)據(jù):第1列和第6列表示該條RNA序列堿基的位置;第2列表示該條RNA序列從起始至結(jié)束位置各個(gè)堿基的排列順序;第3列表示該RNA序列中與某一位置堿基相鄰的前一個(gè)堿基所在位置;第4列表示該RNA序列中與某一位置堿基相鄰的后一個(gè)堿基所在位置;第5列表示該RNA序列中與該位置堿基是否發(fā)生堿基互補(bǔ)配對(duì)的堿基,其中數(shù)字非“0”表示該位置堿基與第1列或第6列相應(yīng)位置的堿基發(fā)生了堿基互補(bǔ)配對(duì),數(shù)字“0”表示該位置堿基與第1列或第6列相應(yīng)位置的堿基未形成堿基對(duì)。圖5.1CT文件RNA的序列信息在CT文件的第2列,可直接抽取出來(lái)。本文使用七個(gè)標(biāo)
第5章基于GoogLeNet模型的帶假結(jié)的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)方法32圖5.2RNA序列的表示方法設(shè)計(jì)通過上述RNA序列表示方法將某條RNA序列轉(zhuǎn)換為一個(gè)RNA序列的二維矩陣,由于GoogLeNet模型需要預(yù)測(cè)每一個(gè)堿基的配對(duì)狀況,因此需要拆分RNA序列的二維矩陣。若將某條RNA序列的長(zhǎng)度定義為m,經(jīng)過RNA序列表示方法將其轉(zhuǎn)化為一個(gè)mm的二維矩陣。針對(duì)以上情況,借助滑動(dòng)窗口的思想將矩陣拆分為m個(gè)小矩陣,使用a表示滑動(dòng)窗口的大小,這樣每個(gè)小矩陣的尺寸則為am。因此,一個(gè)大小為am的矩陣代表著該RNA序列的一個(gè)堿基。其中,滑動(dòng)窗口的尺寸會(huì)影響實(shí)驗(yàn)?zāi)P偷木_度。若設(shè)置的滑動(dòng)窗口過大,會(huì)提取矩陣
本文編號(hào):2896911
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中心法則中RNA的作用由此可見,RNA分子具有攜帶遺傳信息、傳遞遺傳信息、參與蛋白質(zhì)的合成
第5章基于GoogLeNet模型的帶假結(jié)的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)方法29為1059個(gè)、486個(gè)及378個(gè)。原始數(shù)據(jù)集是使用CT文件格式表示RNA的二級(jí)結(jié)構(gòu),CT文件不僅包含著數(shù)據(jù)集中RNA的序列信息及結(jié)構(gòu)信息,而且包含與本實(shí)驗(yàn)無(wú)關(guān)的信息。其中,使用堿基“A”、“U”、“G”、“C”組合形成的序列表示RNA的序列信息,使用“.”、“(”、“)”、“[”、“]”、“{”、“}”點(diǎn)括號(hào)表示法表示RNA的結(jié)構(gòu)信息。因此,本文需要將可用的RNA序列信息和結(jié)構(gòu)信息抽取出來(lái)。CT文件表示的RNA二級(jí)結(jié)構(gòu)如圖5.1所示,在CT文件的第一行包含RNA序列的長(zhǎng)度及名稱等描述信息,數(shù)字M表示某條RNA序列的長(zhǎng)度,數(shù)字M后面的字符串表示該RNA的名稱。除去首行,CT文件對(duì)的每一行都包括6列數(shù)據(jù):第1列和第6列表示該條RNA序列堿基的位置;第2列表示該條RNA序列從起始至結(jié)束位置各個(gè)堿基的排列順序;第3列表示該RNA序列中與某一位置堿基相鄰的前一個(gè)堿基所在位置;第4列表示該RNA序列中與某一位置堿基相鄰的后一個(gè)堿基所在位置;第5列表示該RNA序列中與該位置堿基是否發(fā)生堿基互補(bǔ)配對(duì)的堿基,其中數(shù)字非“0”表示該位置堿基與第1列或第6列相應(yīng)位置的堿基發(fā)生了堿基互補(bǔ)配對(duì),數(shù)字“0”表示該位置堿基與第1列或第6列相應(yīng)位置的堿基未形成堿基對(duì)。圖5.1CT文件RNA的序列信息在CT文件的第2列,可直接抽取出來(lái)。本文使用七個(gè)標(biāo)
第5章基于GoogLeNet模型的帶假結(jié)的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)方法32圖5.2RNA序列的表示方法設(shè)計(jì)通過上述RNA序列表示方法將某條RNA序列轉(zhuǎn)換為一個(gè)RNA序列的二維矩陣,由于GoogLeNet模型需要預(yù)測(cè)每一個(gè)堿基的配對(duì)狀況,因此需要拆分RNA序列的二維矩陣。若將某條RNA序列的長(zhǎng)度定義為m,經(jīng)過RNA序列表示方法將其轉(zhuǎn)化為一個(gè)mm的二維矩陣。針對(duì)以上情況,借助滑動(dòng)窗口的思想將矩陣拆分為m個(gè)小矩陣,使用a表示滑動(dòng)窗口的大小,這樣每個(gè)小矩陣的尺寸則為am。因此,一個(gè)大小為am的矩陣代表著該RNA序列的一個(gè)堿基。其中,滑動(dòng)窗口的尺寸會(huì)影響實(shí)驗(yàn)?zāi)P偷木_度。若設(shè)置的滑動(dòng)窗口過大,會(huì)提取矩陣
本文編號(hào):2896911
本文鏈接:http://www.lk138.cn/shoufeilunwen/benkebiyelunwen/2896911.html
最近更新
教材專著