系統(tǒng)流行病學網(wǎng)絡差異比較的統(tǒng)計方法及其應用研究

發(fā)布時間：2021-04-22 21:37

對人類疾病遺傳與環(huán)境的病因?qū)W研究一直是流行病學的重要任務。然而,傳統(tǒng)"黑盒子"流行病學往往側(cè)重于識別單一危險因素,并未聚焦網(wǎng)絡對疾病的影響,因而難以深層次地探討致病機制。研究者渴望打開"黑盒子",闡明致病因素如何通過"黑盒子"中的病因鏈環(huán)節(jié)而導致疾病發(fā)生、發(fā)展與轉(zhuǎn)歸結(jié)局。高通量組學技術(shù)的成熟發(fā)展與檢測成本的大幅度減低,使得流行病學家有機會將系統(tǒng)生物學理論方法與傳統(tǒng)流行病學有機結(jié)合,借助于豐富多彩的組學標記在大樣本人群中闡明"暴露"到"疾病結(jié)局"的作用機制,從而催生了一個嶄新的流行病學分支學科——系統(tǒng)流行病學。本課題組將系統(tǒng)流行病學的學科內(nèi)涵概括為:將高通量組學技術(shù)與傳統(tǒng)流行病學研究相互融合,利用基因組(Genome)、表觀組(Epigenome)、轉(zhuǎn)錄組(Transcriptome)、蛋白組(Preteome)、代謝組(Metabolome)、表型組(Phenome)等生物組學標記,結(jié)合生物信息學網(wǎng)絡數(shù)據(jù)庫的通路信息,采用系統(tǒng)生物學方法構(gòu)建"暴露因子-組學生物標記-疾病終點"間的交互網(wǎng)絡,并檢測不同狀態(tài)下(例如疾病組與健康組)網(wǎng)絡間的差異,以推斷危險因子導致疾病發(fā)生、發(fā)展與轉(zhuǎn)歸的致病網(wǎng)絡或特定致病通路及其效應大小;從而,為進一步闡明危險因子致病通路及流行病學作用機制、實驗室功能驗證、藥物靶點設計、預防或診療措施制定與評估提供科學依據(jù)。系統(tǒng)流行病學為在人群水平上闡明疾病發(fā)生、發(fā)展與轉(zhuǎn)歸機制描繪了宏偉藍圖,它將實現(xiàn)從獨立病因研究向病因網(wǎng)絡研究的跨越性轉(zhuǎn)變。在這一轉(zhuǎn)變進程中,病因網(wǎng)絡構(gòu)建與致病通路識別將是打開"黑盒子"的重要策略,而網(wǎng)絡差異的比較正是獲取致病網(wǎng)絡及致病通路統(tǒng)計學證據(jù)的重要方法。因此,系統(tǒng)流行病學的核心是在人群水平上通過"暴露因子-組學生物標記-疾病終點"網(wǎng)絡/通路的組間差異統(tǒng)計學比較,推斷危險因子導致疾病發(fā)生、發(fā)展、轉(zhuǎn)歸的網(wǎng)絡/通路及其效應大小。任何破壞網(wǎng)絡/通路交互結(jié)構(gòu)的統(tǒng)計學比較方法勢必會丟失信息,失去其系統(tǒng)流行病學意義。然而,目前在流行病學研究中,仍以卡方檢驗、t檢驗或回歸分析等傳統(tǒng)方法作為生物標記組間差異比較的主流方法。這些方法武斷地將原本是相互作用(或調(diào)控)的網(wǎng)絡節(jié)點假定為近似相互獨立狀態(tài),忽略了它們間的交互網(wǎng)絡結(jié)構(gòu);所以,除了得到生物標記組間差異的基本信息外,既不能得到組間網(wǎng)絡差異信息,更不能推斷出特定危險因素的致病通路及其效應大小。最近,盡管在一些高質(zhì)量的人群組學研究中,已經(jīng)注重通過后續(xù)功能實驗驗證和生物信息學方法推斷出調(diào)控網(wǎng)絡拓撲結(jié)構(gòu),但因缺乏組間網(wǎng)絡差異比較的有效統(tǒng)計學方法,也只能定性地分析網(wǎng)絡拓撲結(jié)構(gòu)特征,仍難以在人群水平上定量推斷危險因子的致病網(wǎng)絡/通路及其效應大小。因此,發(fā)展網(wǎng)絡差異比較的統(tǒng)計分析方法,在人群水平上,比較不同組間的網(wǎng)絡差異,進而推斷危險因子的致病通路及其效應大小,就成為系統(tǒng)流行病學統(tǒng)計分析的重要任務。必須澄清的是,盡管系統(tǒng)流行病學強調(diào)用高通量組學分析技術(shù)在人群水平上獲得組學標記大數(shù)據(jù),但在實際工作中,因研究假設、目的或條件的不同,常常需要在2種不同研究策略下推斷網(wǎng)絡差異:1)基于分子流行病學方法的假設驅(qū)動(Hypothesis-Driven)研究策略:研究者在深入理解所研究疾病的生理、生化及病理機制基礎上,綜合以往細胞(動物)實驗或組學分析結(jié)果,借助生物信息學網(wǎng)絡數(shù)據(jù)庫通路信息,事先勾畫出一個假定合理的致病網(wǎng)絡/通路。進而,用分子流行病學方法檢測網(wǎng)絡/通路節(jié)點上的生物標記,并在人群水平上檢驗組間網(wǎng)絡/通路差異及其效應。以期在人群中驗證所假設致病網(wǎng)絡/通路的真實性及實用性(設計藥物靶點、預測疾病發(fā)生預后、制定及評估預防或診療策略等)。2)基于高通量組學技術(shù)的數(shù)據(jù)驅(qū)動(Data-Driven)研究策略:研究者在不受任何假設限制的情況下,利用各種高通量組學技術(shù),在人群水平上獲得研究樣本的組學標記數(shù)據(jù)。進而,借助系統(tǒng)生物學方法構(gòu)建"暴露因子-組學生物標記-疾病終點"網(wǎng)絡模型,并在人群水平上檢驗"對比組"間網(wǎng)絡/通路差異及其效應。為進一步實驗驗證、藥物靶點確定、制定預防或診療措施提供依據(jù)。無論是假設驅(qū)動還是數(shù)據(jù)驅(qū)動的研究策略,均存在無向網(wǎng)絡比較和有向網(wǎng)絡比較兩種情形。前者側(cè)重點是比較"對比組"間網(wǎng)絡節(jié)點及其相互作用(相關(guān)關(guān)系)的統(tǒng)計學差異,而后者側(cè)重點則是比較網(wǎng)絡節(jié)點及其調(diào)控關(guān)系的統(tǒng)計學差異。因此,系統(tǒng)流行病學研究中網(wǎng)絡差異比較的檢驗方法,應包括無向網(wǎng)絡比較和有向網(wǎng)絡比較2種情形。在系統(tǒng)流行病學研究中,生物網(wǎng)絡不僅具備復雜網(wǎng)絡的一般性質(zhì)(自組織、自相似、吸引子、小世界、無標度等),更重要的是,對于多數(shù)復雜疾病的致病網(wǎng)絡而言,其"節(jié)點"和"邊"的連續(xù)定量變化譜蘊含著網(wǎng)絡差異的全部信息;即,節(jié)點和邊多不是"全有或全無(1或0)"式的"開或關(guān)"模式,而是多表現(xiàn)為由0 →1的定量漸變式的模式。即使有些基因(如某些致癌基因)在健康狀態(tài)下幾乎不表達而呈現(xiàn)"全有或全無"模式,其實質(zhì)也可看作是連續(xù)表達譜上的一個極端特殊情形。因此,系統(tǒng)流行病學網(wǎng)絡的差異囊括了"節(jié)點"和"邊"的雙重差異,單純"節(jié)點"或單純"邊"的差異遠不能代表其全部信息的差異。對于有向網(wǎng)絡,網(wǎng)絡差異絕非僅僅是其"節(jié)點"和"邊"兩部分差異的簡單合并,還應充分體現(xiàn)網(wǎng)絡拓撲結(jié)構(gòu)所蘊含的方向信息,即調(diào)控網(wǎng)絡內(nèi)"邊"的箭頭指向及"上游節(jié)點"對"下游節(jié)點"的調(diào)控權(quán)重。然而,目前在系統(tǒng)生物學或人群組學研究中,現(xiàn)有的網(wǎng)絡比較算法((或統(tǒng)計量)多數(shù)未能涵蓋統(tǒng)計量構(gòu)建中所必需的上述全部信息。因而,不適合推廣到系統(tǒng)流行病學研究中網(wǎng)絡差異比較上。存在的問題可概括為如下4個方面:1)最極端的情況是上述討論過的傳統(tǒng)方法(卡方檢驗、t檢驗等),它們完全忽略了網(wǎng)絡的"邊差異信息"。2)系統(tǒng)生物學中的網(wǎng)絡比較算法和軟件,多是針對網(wǎng)絡拓撲結(jié)構(gòu)特征指標,對"邊"進行操作而不注重"節(jié)點"信息。主要采取網(wǎng)絡對齊、網(wǎng)絡相似性比較或聚類、網(wǎng)絡路徑搜索等方法比較網(wǎng)絡拓撲結(jié)構(gòu)差異。3)生物信息學中的生物網(wǎng)絡比較方法,多數(shù)是對"點"進行標準化使其均值為0方差為1后(無疑損失了點的變異信息),再針對"邊"的差異著重檢測"點"之間的連通性,包括通過節(jié)點中心性比較以尋找關(guān)鍵節(jié)點或通路、基于網(wǎng)絡模體頻率比較網(wǎng)絡拓撲差異、基于網(wǎng)絡間不相似性度量構(gòu)建網(wǎng)絡差異比較統(tǒng)計量、基因芯片差異表達連通分析等。4)尚缺乏考慮有向網(wǎng)絡內(nèi)"邊"的箭頭指向及"上游節(jié)點"對"下游節(jié)點"調(diào)控權(quán)重的有向網(wǎng)絡比較方法。為解決以上問題,本研究在系統(tǒng)流行病學框架下,從統(tǒng)計學和系統(tǒng)生物學的雙重視角,審視生物網(wǎng)絡"節(jié)點"與"邊"共變特征,采取"結(jié)構(gòu)拆分→數(shù)理整合"的研究策略,構(gòu)建融合網(wǎng)絡"節(jié)點"、"邊"和"方向"差異信息的"系統(tǒng)流行病學網(wǎng)絡差異比較的統(tǒng)計分析方法體系"。圖1是本論文的研究框架。如圖1(1)所示,盡管"對比組"間網(wǎng)絡差異類型有5種,若將情形b)、c)、d)、e)中節(jié)點或邊的去除或增加均看作是情形a)中的"虛擬"點或邊,則所有情形均可歸屬于情形a);此時去掉的點或邊的取值為0,而增加的點或邊的取值為其相應的節(jié)點測量值及相關(guān)程度。如圖1(2)所示,假設兩"對比組A、B"的樣本量分別為nA、nB,nA+nB=N 根據(jù)上述"虛擬"點或邊的思想,A、B兩"對比組"對應的網(wǎng)絡均可視為具有M個節(jié)點K條邊。用GA(VA,EA)表示A組對應的網(wǎng)絡,其中VA =(x1A,x2A,…,xMA)為其節(jié)點集合。EA=(IijAσijA)M×M為其邊集合(更詳細的矩陣表達形式見圖1),其中,IijA=(?)為示性函數(shù),表示節(jié)點 xiA 與xjA之間的連接狀態(tài),即IA=(IijA)M×M在無向網(wǎng)絡中僅表示節(jié)點xiA與xjA是否連接,此時IijA= IjiA,而在有向網(wǎng)絡中,當節(jié)點 xiA 與xjA的連接狀態(tài)為xiA→xjA(i≠j,xiA,xjA∈ VA)時,IijA=1,IjiA=0,反之亦然;σijA表示節(jié)點xiA 與 xjA之間的連接強度(可用相關(guān)系數(shù)等度量)。相應地,GB(VB,EB)表示B組對應的網(wǎng)絡,其中VB=(x1B,x2B,…,xMB)為其節(jié)點集合,EB=(IijBσijB)M×M為其邊的集合,而IB=(IijBM)M×M 為連接狀態(tài)集合。本研究構(gòu)建"對比組"間網(wǎng)絡差異檢驗統(tǒng)計量的基本策略為"結(jié)構(gòu)拆分→數(shù)理整合"。其基本思想是:1)結(jié)構(gòu)拆分:先將對比組A與B的網(wǎng)絡GA(VA,EA)與GB(VB,EB)的拓撲結(jié)構(gòu)分別拆分為節(jié)點信息(VA,VB)、邊信息(EA,EB)和方向信息(IA,IB),再求兩對比組間相應的節(jié)點信息、邊信息和方向信息的差值(即效應)DV =(VA-VB)、DE =(EA-EB)和DI=(IA-IB)。2)數(shù)理整合:通過數(shù)理統(tǒng)計手段,將節(jié)點信息、邊信息和方向信息的差值(效應)DV、DE和DI整合為兩"對比組"間網(wǎng)絡差異(效應)的統(tǒng)計量Diff =(DV ∪ DE ∪DI);該統(tǒng)計量將網(wǎng)絡的"節(jié)點"、"邊"和"方向"差異信息融為一體。在上述研究策略框架內(nèi)(圖1),本論文針對致病網(wǎng)絡差異囊括"節(jié)點"、"邊"和"方向"的共變特征,重點研究了以下幾個關(guān)鍵問題:1)提出網(wǎng)絡差異比較的"結(jié)構(gòu)拆分→數(shù)理整合"的研究策略。2)整合網(wǎng)絡"節(jié)點"和"邊"的雙重連續(xù)漸變差異信息,發(fā)展了致病通路識別及其效應估計的統(tǒng)計推斷模型(第二章)和無向網(wǎng)絡組間差異比較的得分檢驗方法(第三章)。3)整合網(wǎng)絡"節(jié)點"與"邊"雙重差異信息、以及上下游節(jié)點調(diào)控加權(quán)信息,發(fā)展了"有向網(wǎng)絡"組間差異比較的檢驗方法(第四章)。4)基于聯(lián)合密度估計的非參數(shù)方法,建立了致病交互網(wǎng)絡篩選模型并對其預測效果進行了系統(tǒng)評價(第五章)。具體分述如下:一、致病通路識別及其效應估計的統(tǒng)計推斷模型研究(第二章)在傳統(tǒng)"黑盒子"流行病學研究中,通常采用病例對照設計或隊列研究分析暴露危險因素與疾病的關(guān)聯(lián)性。其策略是通過比較病例組與對照組之間某危險因子的暴露比例而計算OR(比如吸煙與肺癌之間的OR=6.5等)或比較暴露組與非暴露組之間的疾病發(fā)病率而計算RR(比如吸煙與肺癌之間的RR=5.5等),以闡明暴露與疾病的關(guān)聯(lián)強度。這種基于變量獨立假設的統(tǒng)計推斷方法(logistic回歸、Cox回歸等)只能提供危險因素與疾病之間的關(guān)聯(lián)性及其強度大小,并不能闡明危險因素通過"黑盒子"導致疾病結(jié)局的病因鏈及其致病通路。然而,在不明確暴露因素導致疾病發(fā)生、發(fā)展與轉(zhuǎn)歸的致病通路或網(wǎng)絡的情況下,往往很難有效地預測和評估干預暴露因素的效果,且難以得出令人信服或可重復驗證的結(jié)論。鑒于此,流行病學家一直期望能夠打開"黑盒子",并挖掘特定危險因子致病網(wǎng)絡或通路。盡管病因網(wǎng)絡的概念早已被提出,但由于缺乏有效的致病通路識別及其效應估計的統(tǒng)計推斷方法,流行病學家一直未能實現(xiàn)上述夙愿。為此,本研究在上述系統(tǒng)流行病學研究框架(圖1)下,遵循路徑分析的基本原理,構(gòu)建了識別致病通路并對其進行統(tǒng)計學假設檢驗的推斷方法。以病例對照研究為例,其基本理念是:設病例組中的特定通路為(?),若該通路路徑系數(shù)乘積∏k=1KβkD≠0,則表明暴露(或生物標記)X1D可以通過該病因鏈將其效應傳遞到生物標記Xk+1D,其效應量為βD=∏k=1KβkD;同理,對照組中該通路(?)的效應量為βC=∏k=1βkC;該通路對疾病的貢獻可用統(tǒng)計量D=βD-βC=∏k=1KβkD-∏k=1KβkC來測量。當H0:D=βD-βC=0成立時,表明上述通路對疾病無效應。本研究將統(tǒng)計模擬與實例分析有機結(jié)合,對上述統(tǒng)計量進行了系統(tǒng)科學的評價。主要結(jié)果:(1)致病通路識別的檢驗統(tǒng)計量采取如下統(tǒng)計量構(gòu)建和檢驗策略來識別致病通路:1)非參數(shù)bootstrap置信區(qū)間檢驗方法,其統(tǒng)計量PEM-D定義為:(?)其中K為通路長度,表示該通路中有K+1個節(jié)點(變量)和K條邊,βkD和βkC分別表示病例組與對照組通路中第k個節(jié)點和第k+1個節(jié)點之間的標準化回歸系數(shù)(即路徑系數(shù))。采用百分位數(shù)bootstrap置信區(qū)間(percentile bootstrap confidence interval)以及偏差校正后的 bootstrap 置信區(qū)間(bias-corrected bootstrap confidence interval)進行非參數(shù)檢驗,以檢驗H0:D=βD-βC =0是否成立。2)漸進正態(tài)分布統(tǒng)計量(PEM-UD):統(tǒng)計模擬表明,以下統(tǒng)計量(?)近似服從正態(tài)分布,其中var(βD)和var(βC)分別表示βD和βC的方差,分別采用精確估計(the exact estimator)方法var(β)exl =∏k=1K(sβk2 +βk2)-∏k=1Kβk2、無偏估計(unbiased estimator)方法 var(β)unbiased=∏k=1Kβk2=∏k=1K(βk2-sβk2)、多元 delta 估計(multivariate delta estimator)方法 var(β)mtult-delta=Δcov(β1,β2,…,βK)ΔT(其中Δ =[(?)β/(?)β1,…,(?)β/(?)βK])和bootstrap方法進行估計。(2)統(tǒng)計模擬針對上述統(tǒng)計量,在H0:D=βD-βC=0成立的前提下遍歷不同樣本量(n),評估其犯第一類錯誤的概率是否穩(wěn)定在給定的檢驗水準α附近。在H1:D=βD-βC≠0成立的條件下,設定不同樣本量(n),通路長度(K),效應大小(δ= βD-βC)以及路徑系數(shù)相關(guān)模式(即路徑系數(shù)向量的取值模式),評估統(tǒng)計量的檢驗效能。模擬結(jié)果顯示:1)統(tǒng)計量PEM-D采用兩種bootstrap置信區(qū)間檢驗,統(tǒng)計量PEM-UD采用四種方法計算方差,在H0成立的前提下,當樣本量達至200時,其犯第一類錯誤的概率均穩(wěn)定在給定的檢驗水準(α=0.05)附近(表2.2),表明所構(gòu)建的統(tǒng)計量具有良好的穩(wěn)定性。2)對于上述六種情況,在H0不成立時,其模擬結(jié)果(見圖2.2-圖2.4)顯示:隨著樣本量和效應δ的增加,統(tǒng)計量的檢驗效能均呈單調(diào)遞增趨勢;固定樣本量及效應δ時,隨著通路長度K的增加,統(tǒng)計量仍然具有足夠高的檢驗效能,表明統(tǒng)計量檢驗效能不受通路長度的影響;固定樣本量及效應δ時,隨著路徑系數(shù)增大,統(tǒng)計量檢驗效能有所降低,表明在路徑系數(shù)較大時需要更大的樣本量才能達到足夠高的檢驗效能�？傮w而言,在上述六種情形中百分位bootstrap方法、偏差校正的bootstrap方法、bootstrap估計方差法的穩(wěn)定性和檢驗效能均較好,尤其是偏差校正bootstrap置信區(qū)間的檢驗效能最高。(3)實例分析采用上述統(tǒng)計量PEM-D和PEM-UD,分析基于病例對照設計的急性髓性白血病(AML)分子流行病學數(shù)據(jù)(包含98例患者和35例對照個體的骨髓中T17細胞,Treg細胞和細胞轉(zhuǎn)化生長因子TGF-β的檢測數(shù)據(jù))。結(jié)果表明:除精確估計法外,其余五種方法均發(fā)現(xiàn)通路Treg→TGF-β→Th17與AML具有關(guān)聯(lián)性(表2.3)。實驗性研究也早已證實,Treg、TGF-β和Th17均與AML有關(guān)聯(lián),且Th17細胞和Treg細胞在功能上具有相互抑制作用。我們的研究結(jié)果進一步表明通路Treg-→TGF-β→Th17對AML的發(fā)生具有重要意義。結(jié)論:統(tǒng)計量PEM-D和PEM-UD均具有良好的統(tǒng)計學性能,可用于識別和檢驗致病通路,其中bootstrap非參數(shù)檢驗方法更加高效。主要創(chuàng)新點:構(gòu)建了基于路徑系數(shù)連乘積之差的致病通路識別檢驗統(tǒng)計量,為系統(tǒng)流行病學中致病通路識別提供了新方法。二、無向網(wǎng)絡組間差異比較的假設檢驗方法研究(第三章)比較和檢驗對比組間(病例組VS對照組、暴露組VS非暴露組、干預組VS非干預組)網(wǎng)絡的統(tǒng)計學差異,是系統(tǒng)流行病學研究中識別致病通路、闡明暴露因子或干預措施對疾病發(fā)生、發(fā)展與轉(zhuǎn)歸機制影響的核心任務。然而,目前尚缺乏網(wǎng)絡比較的統(tǒng)計學檢驗方法。對于多數(shù)復雜疾病的致病網(wǎng)絡而言,其"節(jié)點"和"邊"的連續(xù)定量變化譜蘊含著網(wǎng)絡差異的全部信息;因此,系統(tǒng)流行病學網(wǎng)絡的差異囊括了"節(jié)點"和"邊"的雙重差異,單純"節(jié)點"或單純"邊"的差異遠不能代表其全部信息的差異。在構(gòu)建"對比組"間網(wǎng)絡差異比較的統(tǒng)計量時,必須同時包含"節(jié)點"和"邊"的差異;即,在統(tǒng)計量中,用對比組間網(wǎng)絡"節(jié)點平均量"的差來刻畫節(jié)點平均水平的組間差異,而用網(wǎng)絡節(jié)點間"邊變化"的差來刻畫節(jié)點相互作用(邊)的差異。當不明確或不考慮網(wǎng)絡中節(jié)點間的方向時,可根據(jù)圖1中無向網(wǎng)絡比較的統(tǒng)計量構(gòu)建方法,融合經(jīng)典統(tǒng)計量構(gòu)建策略(例如得分檢驗統(tǒng)計量,似然比檢驗統(tǒng)計量,wald檢驗統(tǒng)計量),綜合考慮節(jié)點和邊的信息,構(gòu)建相應的無向網(wǎng)絡比較統(tǒng)計量。本章將借助得分檢驗統(tǒng)計量的理論構(gòu)建無向網(wǎng)絡比較的統(tǒng)計檢驗方法。其基本思想是,在上述"結(jié)構(gòu)拆分→數(shù)理整合"策略(圖1)中可不考慮方向差異。則兩"對比組"間網(wǎng)絡差異檢驗統(tǒng)計量的一般形式可簡化為Diff =(DV∪DE)。主要結(jié)果:(1)無向網(wǎng)絡組間差異比較的統(tǒng)計量令GD與GC分別表示兩對比組的網(wǎng)絡,并假定GD與GC具有相同的拓撲結(jié)構(gòu)(M個節(jié)點、K條邊);理論上,對比組間(病例組VS對照組、暴露組VS非暴露組、干預組VS非干預組)網(wǎng)絡節(jié)點取值和邊的強度之間的差異,可以表征致病效應或干預效果。以病例對照研究為例,給定病例組與對照組的樣本量分別為nD和nC,當原假設H0:GD=Gc成立時,兩組間的對應網(wǎng)絡節(jié)點總體均值相等,即μ1D =μiC(i=1,…,M);同時兩組間各對應邊的強度相等βkD=βkC(k =1,…,K)。根據(jù)得分檢驗(score test)思想,在H0:GD=GC成立的前提下兩組樣本可合并為N=nD+nC;則對于個體l(l = 1,2,…,N),定義其第i個點的取值為xli。則節(jié)點xi對兩"對比組"間網(wǎng)絡差異貢獻(即效應大小)的得分為從而,得到"節(jié)點差異效應"得分向量類似的,第k條邊·(xi)—·(xj)對兩"對比組"間網(wǎng)絡差異貢獻(即效應大小)的得分為而,得到"邊差異效應"得分向量為DE=(D1E,D2E,,DKE)T。將"節(jié)點差異效應"與"邊差異效應"合并為"網(wǎng)絡差異效應"得分向量D=(?),該向量的協(xié)方差陣為∑ = cov(D)=(σpq)(M+K)×(M+K),p,q=1,2,…,(M + K),(M + K)為網(wǎng)絡中所有"節(jié)點數(shù)"與"邊數(shù)"之和。從而,將"節(jié)點信息"和"邊信息"整合到統(tǒng)計量NetDifM中NetDifM = DT∑-1D其中,協(xié)方差矩陣∑可表示為分塊矩陣(?),其計算方法如下:1)對于∑V,p,q=1,2,…,M,σpq=l=1N(Yl-Y)2cov(Xp,Xq),Xp=(x1p,x2p,…,xNp);2)對于∑E,p,q = M + 1,M + 2,…,M + K,σpq =(Yl-Y)2 cov(Zp,Zq),Zp=(Xi-Xi)×(Xj-Xj);3)對于∑VE,p = 1,2,…,M,q = M + 1,M + 2,…,M + Kσpq=∑l=1N(Yl-Y)2cov(Xp,Zq)。由得分檢驗理論推知,在大樣本情況下,在H0:GD=GC成立時,NetDifM服從自由度為M+K的卡方分布,即NetDifM～χ2(K+ M)。樣本量較小時也可采用permutation方法進行假設檢驗。(2)統(tǒng)計模擬針對上述統(tǒng)計量,在H0:GD=GC成立的前提下遍歷不同樣本量(n)以及網(wǎng)絡規(guī)模大小(M=10,20,40;K=21,45,54),評估其犯第一類錯誤的概率是否穩(wěn)定在給定的檢驗水準α附近。在H0不成立的條件下,設定節(jié)點X =(X1,X2,…,XM)數(shù)據(jù)服從多元正態(tài)分布,模擬如下3種情形,以系統(tǒng)評估統(tǒng)計量的檢驗效能。情形1:兩網(wǎng)絡之間只有節(jié)點水平的差異;情形2:網(wǎng)絡間只有邊(關(guān)聯(lián)強度)存在差異;情形3:網(wǎng)絡間同時存在節(jié)點水平與邊(關(guān)聯(lián)強度)的差異。特別地,為進一步評價統(tǒng)計量NetDifM對節(jié)點變量分布的穩(wěn)健性,令節(jié)點X=(X1,X2,…,XM)數(shù)據(jù)為非正態(tài)分布,在部分節(jié)點非正態(tài)(隨機選擇部分節(jié)點,令其為指數(shù)分布)和全部節(jié)點非正態(tài)(令全部節(jié)點為指數(shù)分布)兩種情況下,分別就上述3種情形進行了系統(tǒng)的模擬研究。模擬結(jié)果:1)在H0:GD=GC成立的前提下,針對組間網(wǎng)絡對應節(jié)點及邊差異之和所構(gòu)建的非參數(shù)permutation統(tǒng)計量VEWDM、只考慮兩組間邊差異的非參數(shù)permutation統(tǒng)計量Yates'D,和本章所構(gòu)建的卡方分布統(tǒng)計量NetDifM三種方法,模擬結(jié)果表明,在樣本量達到一定程度時三種方法的犯第一類錯誤的概率均穩(wěn)定在給定的檢驗水準(α=0.05)附近(表3.1-表3.2),而卡方分布統(tǒng)計量NetDifM在樣本量相對較小時(n200)即表現(xiàn)出良好的穩(wěn)定性。2)在H0不成立的條件下,給定單純節(jié)點差異(如μ3D-μ3C=0.2等)、單純邊差異(如β3D-β35C=-0.2等)和節(jié)點與邊均存在差異(如μ8D-μ8C= 0.2,β5D-β57C=0.2等)時,模擬結(jié)果(圖3.4-圖3.8)顯示,本章所構(gòu)建的統(tǒng)計量NetDifM與統(tǒng)計量VEWDM及Yates'D相比,始終具有最高的檢驗效能。3)特別地,在只存在節(jié)點差異時,正如所期望的那樣,統(tǒng)計量Yates'D失去檢驗效能,而統(tǒng)計量NetDifM仍然具有很高的檢驗效能。4)在節(jié)點數(shù)據(jù)偏離正態(tài)分布時,本章所構(gòu)建的統(tǒng)計量NetDifM仍然具有最高的檢驗效能,表明NetDifM具有良好的穩(wěn)健性。(3)實例分析將所構(gòu)建的無向網(wǎng)絡差異檢驗的統(tǒng)計量NetDiM應用于麻風病致病網(wǎng)絡比較(706例麻風病病例與514例健康對照),結(jié)果顯示該統(tǒng)計量具有合理性和實用性,分析結(jié)果符合生物學機制。同時,將統(tǒng)計量進一步用于卵巢癌致病通路PI3K-SKT與Notch(C1亞型卵巢癌病人83例,C2-C6亞型168例)的組間比較,也發(fā)現(xiàn)了符合生物學機制的組間差異。結(jié)論:統(tǒng)計量NetDifM不僅具有良好的穩(wěn)定性、檢驗效能和穩(wěn)健性,而且具有較高的實用性,為系統(tǒng)流行病學研究中無向網(wǎng)絡比較提供了良好的統(tǒng)計學檢驗方法。主要創(chuàng)新點:針對無向網(wǎng)絡的特征,采用"節(jié)點信息與邊信息整合得分"的融合策略,構(gòu)建了網(wǎng)絡組間差異比較的統(tǒng)計量NetDifM,為系統(tǒng)流行病學無向網(wǎng)絡比較提供了新方法。三、有向網(wǎng)絡組間差異比較的假設檢驗方法研究(第四章)上述第三章所構(gòu)建的無向網(wǎng)絡比較的統(tǒng)計量NetDifM只注重了節(jié)點差異和邊差異信息,尚未考慮方向信息。然而在系統(tǒng)流行病學網(wǎng)絡比較中,網(wǎng)絡中的方向信息會提供更有價值的致病路徑及暴露(或干預)的作用機制。從而為探討疾病發(fā)生、發(fā)展和轉(zhuǎn)歸機制,評價干預措施,尋找精準藥物靶點等提供重要依據(jù)。因此,本章將進一步構(gòu)建有向網(wǎng)絡差異比較的假設檢驗方法。其基本思想是:對于有向網(wǎng)絡,網(wǎng)絡差異絕非僅僅是其節(jié)點和邊兩部分差異的簡單合并,還應充分體現(xiàn)網(wǎng)絡拓撲結(jié)構(gòu)所蘊含的方向信息,即調(diào)控網(wǎng)絡內(nèi)"邊"的箭頭指向及"上游節(jié)點"對"下游節(jié)點"的調(diào)控權(quán)重。為此,在構(gòu)建有向網(wǎng)絡比較的統(tǒng)計量時,需將網(wǎng)絡"節(jié)點"、"邊"和"方向"差異信息融為一體,將節(jié)點信息、邊信息和方向信息的差值(效應)DV、DE和DI整合為兩"對比組"間網(wǎng)絡差異(效應)的統(tǒng)計量 Diff =(DV∪DE∪DI)。主要結(jié)果:(1)有向網(wǎng)絡組間差異比較的統(tǒng)計量令GD與GC分別表示兩對比組的網(wǎng)絡,V(GD)與E(GD)分別表示GD中的節(jié)點集合與有向邊集合。當原假設H0:GD=GC成立時,兩組間的對應網(wǎng)絡節(jié)點總體均值相等,即μjD =μjC(i=1,…,M);同時兩組間各對應邊的強度及方向相同βkD=βkC(k= 1,…,K)。用XiDXjD表示節(jié)點XiD與XjD之間的有向邊其中βijD表示XiD對XD的調(diào)控強度。令ViD表示節(jié)點XiD的子代節(jié)點數(shù)目,將XiD的權(quán)重定義為,其含義為XD的子代節(jié)點數(shù)占全部節(jié)點子代節(jié)點總數(shù)的比例。令V = V(GD)UV(GC),E=E(GC)∪E(GC)則,本章構(gòu)建如下有向網(wǎng)絡組間差異比較的檢驗統(tǒng)計量其中,wkD,XkD,βijD分別表示網(wǎng)絡GD中 XiD 相應的權(quán)重、樣本均值以及βijD的估計值;wkC,X C,βijC分別為網(wǎng)絡GC中相應的變量。需注意的是K與M分別為節(jié)點集V與邊集E的數(shù)目,如果節(jié)點X(或邊XiXj)在GD中存在,但在GC中不存在,則將XkC與其方差(或βijC與其方差)視為0,反之亦然。統(tǒng)計量中采用的加權(quán)形式為a +(wkD + wkC)/2,也可以替換為logb(+(kkD+wkC)/2),其中a與6越小,表示網(wǎng)絡拓撲結(jié)構(gòu)信息(上、下游節(jié)點間的調(diào)控關(guān)系)在統(tǒng)計量中占的比重越大。采用permutation方法進行假設檢驗。(P)統(tǒng)計模擬針對上述統(tǒng)計量WNES在H0:G =GC成立的前提下,遍歷不同樣本量(n)、網(wǎng)絡規(guī)模大小(M=12,35,K =15,79)以及網(wǎng)絡結(jié)構(gòu)(箭頭多少及方向),評估統(tǒng)計量犯第一類錯誤的概率是否穩(wěn)定在給定的檢驗水準α附近。在H0不成立的條件下,給定三種網(wǎng)絡方向加權(quán)方式(無方向加權(quán)、1 +(wiD + wkC)/2,log2(2+(wkD +(wkC)/2)),模擬如下5種情形,以系統(tǒng)評估統(tǒng)計量的檢驗效能。情形1:只有節(jié)點水平的改變;情形2:只有邊強度值的改變;情形3:同時有節(jié)點水平與邊強度值的改變,變化的點為上游節(jié)點;情形4:節(jié)點與邊數(shù)值的改變與情形3相同,變化的點為下游節(jié)點;情形5:網(wǎng)絡中僅有邊方向改變。模擬結(jié)果顯示:1)在H0:GD = GC成立時,本章所構(gòu)建的統(tǒng)計量WNES在不同網(wǎng)絡結(jié)構(gòu)以及網(wǎng)絡規(guī)模大小的情況下,犯第一類錯誤的概率均穩(wěn)定在給定的檢驗水準(α=0.05)附近(表4.1),表明該統(tǒng)計量具有良好的穩(wěn)定性。2)在H0不成立的前提下,統(tǒng)計量WNES的檢驗效能模擬結(jié)果(圖4.3-圖4.6)顯示:當只存在網(wǎng)絡節(jié)點差異時(情形1),只包含節(jié)點差異信息的統(tǒng)計量NS與同時包含"節(jié)點信息、邊信息和方向信息"的統(tǒng)計量WNES具有相同的檢驗效能,表明此情形下所構(gòu)建的統(tǒng)計量WNES穩(wěn)健性良好;當只存在網(wǎng)絡邊強度值改變時(情形2),WNES與只包含邊信息的統(tǒng)計量ES相比,其檢驗效能略低,表明此情形下,統(tǒng)計量WNES會受到無效冗余點信息的影響;當同時存在節(jié)點水平與邊強度改變時(情形3與4),WNES的檢驗效能明顯高于NS與ES的檢驗效能;以上結(jié)果表明WNES可以同時檢驗節(jié)點與邊的差異并且檢驗效能足夠高。在情形WNES具有足夠高的檢驗效能,表明WNES能夠檢驗網(wǎng)絡中邊方向的改變。模擬結(jié)果還顯示,WNES采用a+(wk + wk+)/2與logb(6 +(wkD+wkC)/2)兩種加權(quán)方式時,檢驗效能都高于無加權(quán)的統(tǒng)計量檢驗效能,表明這兩種加權(quán)方式都能將網(wǎng)絡中上、下游節(jié)點間的位置信息融入到統(tǒng)計量中,提高檢驗效能,進一步說明了對節(jié)點進行加權(quán)是必要且合理的。(3)實例分析將所構(gòu)建的有向網(wǎng)絡差異檢驗的統(tǒng)計量WNES應用于基于病例對照設計的肺癌致病網(wǎng)絡、麻風病致病網(wǎng)絡以及急性髓性白血病致病網(wǎng)絡比較,結(jié)果顯示,1)WNESES可以檢驗出麻風病相關(guān)基因網(wǎng)絡的差異;2)WNES識別出免疫相關(guān)的Foxp3、IL-10、Th17與TGF-β在患白血病與正常情況兩種狀態(tài)下調(diào)控網(wǎng)絡的差異;3)WNE 發(fā)現(xiàn)Wnt經(jīng)典信號通路中35個基因構(gòu)成的網(wǎng)絡的改變與肺癌的發(fā)生相關(guān)(表4.2)。結(jié)論:統(tǒng)計量WNES能夠同時檢驗網(wǎng)絡中節(jié)點與邊強度及其方向的差異,不僅具有良好的穩(wěn)定性、檢驗效能,而且具有較高的實用性,為系統(tǒng)流行病學研究中有向網(wǎng)絡比較提供了高效的新方法。主要創(chuàng)新點:針對有向網(wǎng)絡的"邊的方向性差異",借助于"生物群體家系譜圖中,后代子孫越多的個體對生物群體的繁衍貢獻越大"的生物學現(xiàn)象,巧妙地定義了網(wǎng)絡內(nèi)上游節(jié)點對下游節(jié)點的調(diào)控權(quán)重,構(gòu)建了"節(jié)點"、"邊"和"方向"差異融為一體的有向網(wǎng)絡比較的統(tǒng)計量WNES,提供了有向網(wǎng)絡比較的新方法。四、致病交互網(wǎng)絡篩選策略方法研究及其預測效果評價(第五章)對復雜疾病而言,研究不同對比組(病例組VS對照組、暴露組VS非暴露組、干預組VS非干預組)間各生物標記之間相互關(guān)系的差異將有利于揭示潛在致病機制、預測藥物脫靶效應、發(fā)展多靶點抗癌藥物以及評價干預措施作用機制。上述對比分析的實質(zhì)是從復雜致病網(wǎng)絡中篩選出對結(jié)局或干預效果有貢獻的生物標記之間的致病交互子網(wǎng)絡。然而,在復雜疾病致病網(wǎng)絡中,暴露(或干預)以及病因通路上的生物標記之間的作用往往是錯綜復雜的,不僅存在線性效應,還廣泛存在著形式復雜、分布不清的非線性效應。因此,從復雜致病網(wǎng)絡中篩選出對疾病發(fā)生、發(fā)展與轉(zhuǎn)歸結(jié)局有效應的生物標記線性或非線性交互效應,是闡明復雜疾病致病機制的核心。目前,在生物網(wǎng)絡組間比較中,往往是比較生物標記之間的線性相關(guān)差異性,而忽略了廣泛存在的非線性相關(guān)差異。此外,多數(shù)方法無法調(diào)整協(xié)變量的混雜效應。為此,本章提出了一種基于聯(lián)合密度估計的高維網(wǎng)絡差異分析方法并將其進一步應用于構(gòu)建疾病的判別預測模型(JDINAC)。其基本思想是:以病例對照設計為例,令Y表示結(jié)局變量,Y=1表示病例組,Y=0表示對照組,fij與gij分別表示兩個生物標記xi與j在病例組與對照組的聯(lián)合密度,即,((xi,xj)| Y = 1)～fij,((xi,xj)～gij。則,可用ln(fij(x= 0)/gij(xi,xj))可用來表征兩個標記(xi,xj)的交互關(guān)聯(lián)性在病例組與對照組之間的差異。JDINAC方法不需要假設生物標記數(shù)據(jù)服從某種已知參數(shù)分布,也不需要假定他們呈線性關(guān)系。既可提高網(wǎng)絡差異比較的準確性,又可提高疾病判別預測的準確性。主要結(jié)果:(1)統(tǒng)計模型以病例對照設計為例,假定每個個體均有p個生物標記測量值(例如基因表達水平、甲基化程度等),對于個體l(l = 1,2,…,n),定義Yl=(?),其第i個標記的測量值為xlt。構(gòu)建JDINAC模型如下:(?)其中,Zs(s = 1,…,S)表示協(xié)變量(如年齡、性別等),fij與fij分別表示生物標記xi與xj在病例組與對照組的聯(lián)合密度,即,((xi,xj)|Y =1～),((xi,xj)|Y=0)～gij。若βij≠0,表示兩個標記(xi,xj)的關(guān)聯(lián)性在病例組與對照組之間存在差異。在高維情況下,生物標記對(xi,xj)的數(shù)目遠大于樣本量,此時利用L1范數(shù)懲罰方法估計β:其中,λ為懲罰參數(shù),,vec(·)為矩陣拉直算子。JDINAC模型具體算法如下:Step1.將樣本D = {(Yl,Xl),l = 1,…,n}隨機分成兩部分:D =(D1,D2)。Step2.利用第一部分樣本D1,估計聯(lián)合密度函數(shù)fij與gij(xi,xj),i,j = 1,…,p,ji。Step 3.利用第二部分樣本D2,擬合基于L1懲罰的logistic回歸模型,通過交叉驗證選擇最佳懲罰參數(shù)。Step 4.將Step 1～Step 3重復T次,從而得到βij,與結(jié)局概率P1,t = 1,2,…,T。Step 5.計算作為最終結(jié)局概率;計算生物標記對(xi,xj)的權(quán)重;其中I(·)為示性函數(shù)。(2)統(tǒng)計模擬本章分以下4種情形進行了模擬,情形1與情形2中生物標記之間的關(guān)聯(lián)性均為線性相關(guān),情形1設置效應值較大,情形2效應值較小。情形3:生物標記對(xi,xj)在兩組網(wǎng)絡中Pearson相關(guān)系數(shù)相同,但其聯(lián)合密度不同。情形4:生物標記之間存在非線性關(guān)系。針對以上4種情形,采用真陽性率(TPR)、真陰性率(TNR)以及正確發(fā)現(xiàn)率(TDR),來評價JDINAC與其他3種方法(DiffCorr,DEDN,cPLR)在網(wǎng)絡差異分析方面的優(yōu)劣。采用ROC曲線與分類錯誤率來比較JDINAC與隨機森林、樸素貝葉斯、oPLR與cPLR的判別分類準確性。模擬結(jié)果顯示:1)在網(wǎng)絡差異分析方面,JDINAC可靠性高,幾乎在所有情形下都具有最高的TPR,TNR與TDR。在4種模擬情形下JDINAC的TDR分別為93.7%,95.6%,88.3%,99.9%,尤其在情形3與情形4明顯高于其它3種方法DiffCorr(81.3%,85%,7.5%,3.8%),DEDN(33.5%,16.5%,2.1%,5%),cPLR(19.8%,25.6%,53.6%,0.7%),(Table 5.1)。這表明JDINAC確實可以檢測出網(wǎng)絡中非線性關(guān)系的變化。2)在分類方面,ROC曲線與分類錯判率皆表明JDINAC明顯比其他4種方法(RF,NB,cPLR,oPLR)判別分類更準確(圖5.4,表5.2)。(3)實例分析實例數(shù)據(jù)來自TCGA數(shù)據(jù)庫中114例乳腺癌病人的癌組織以及匹配的正常組織的基因表達數(shù)據(jù)。本研究選取KEGG數(shù)據(jù)庫中癌癥通路列出的373個基因,分析癌組織與正常組織兩組基因網(wǎng)絡的差異。每組隨機選取50個樣本作為預測集,來評價判別分類準確性。結(jié)果顯示:JDINAC檢測出的排序靠前的網(wǎng)絡差異基因?qū)?與已有實驗結(jié)果相一致,并且選出的大部分關(guān)鍵基因節(jié)點也與乳腺癌細胞的發(fā)生、生長或轉(zhuǎn)移密切相關(guān)。在判別分類準確性方面,JAINAC與oPLR方法的錯判率為1%,而RF、NB與cPLR的錯判率分別為19%,2%,17%(表5.6),表明JDINAC具有良好的實用性。結(jié)論:本章建立了基于聯(lián)合密度估計的致病交互網(wǎng)絡篩選策略方法,該方法不僅能篩選出網(wǎng)絡中生物標記之間的線性交互效應,而且能篩選出其非線性交互效應�；谒崛〉慕换バ鴺�(gòu)建的疾病判別預測模型優(yōu)于傳統(tǒng)的機器學習方法。主要創(chuàng)新點:1)基于非參數(shù)聯(lián)合密度估計,實現(xiàn)了從網(wǎng)絡中篩選出對疾病或結(jié)局有貢獻的非線性交互效應。2)基于非線性交互效應所構(gòu)建的疾病判別預測模型優(yōu)于現(xiàn)有統(tǒng)計模式識別方法。
【學位授予單位】：山東大學
【學位級別】：博士
【學位授予年份】：2017
【分類號】：R181

文章目錄

CHINESE ABSTRACT

ABSTRACT

DENOTATION

CHAPTER 1 INTRODUCTION

1.1 SYSTEMS EPIDEMIOLOGY: THE TWO WORLDS OF TRADITIONAL EPIDEMIOLOGYAND OMICS PLATFORM MEETING AND STAYING TOGETHER

1.2 DESIGNS IN SYSTEMS EPIDEMIOLOGY: KEEPING SYSTEMS THINKING IN MIND

1.3 STATISTICAL STRATEGY IN SYSTEMS EPIDEMIOLOGY: PUTING THINGS AT THE NETWORK LEVEL

1.4 OUTLINE OF THE DISSERTATION

CHAPTER 2 STATISTICAL INFERENCE FOR IDENTIFICATION AND EFFECT ESTIMATION OF DISEASE-RELATED PATHWAY

2.1 BACKGROUND

2.2 METHODS

2.2.1 Pathway effect and PEM-statistics

2.2.2 Non-parametric bootstrap test

2.2.3 Asymptotic normal distribution statistic

2.2.4 Simulation

2.2.5 Application

2.3 RESULTS

2.3.1 Simulation results

2.3.2 Application results

2.4 DISCUSSION

CHAPTER 3 HYPOTHESIS TEST FOR GROUP DIFFERENCES BETWEEN UNDIRECTED NETWORKS

3.1 BACKGROUND

3.2 METHODS

3.2.1 Statistical model

3.2.2 Simulation studies

3.2.3 Application

3.3 RESULTS

3.3.1 Simulation results

3.3.2 Application results

3.4 DISCUSSION

CHAPTER 4 HYPOTHESIS TEST FOR GROUP DIFFERENCES BETWEEN DIRECTED NETWORKS

4.1 BACKGROUND

4.2 METHODS

4.2.1 Statistical model

4.2.2 Simulation studies

4.2.3 Application

4.3 RESULTS

4.3.1 Simulation results

4.3.2 Application results

4.4 DISCUSSION

CHAPTER 5 SCREENING STRATEGY FOR DISEASE-RELATED INTERACTION NETWORK AND ASSESSMENT FOR ITS PREDICTIVE PERFORMANCE

5.1 BACKGROUND

5.2 METHODS

5.2.1 Statistical model

5.2.2 Simulation studies

5.2.3 Application

5.3 RESULTS

5.3.1 Simulation results

5.3.2 Application results

5.4 DISCUSSION

CHAPTER 6 CONCLUSIONS

6.1 INNOVATIONS

6.2 LIMITATIONS

REFERENCES

ACKNOWLEDGEMENT

攻讀學位期間發(fā)表的學術(shù)論文

附表

附件

參考文獻

期刊論文

[1]An Integrated Workflow for Proteome-Wide Off-Target Identification and Polypharmacology Drug Design[J]. Thomas Evangelidis,Lei Xie. Tsinghua Science and Technology. 2014(03)

本文編號：1406834

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://lk138.cn/shoufeilunwen/yxlbs/1406834.html

上一篇：維生素D與原發(fā)性開角型青光眼發(fā)病的相關(guān)性研究
下一篇：補腎活血法治療腎虛血瘀型月經(jīng)過少臨床研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

国产伦乱,一曲二曲欧美日韩,AV在线不卡免费在线不卡免费,搞91AV视频

系統(tǒng)流行病學網(wǎng)絡差異比較的統(tǒng)計方法及其應用研究