張燕
[摘 要] 貝葉斯網(wǎng)絡有著很好的理論知識和清楚的知識表達形式,是統(tǒng)計學中不確定性研究的一種重要方法,在數(shù)據(jù)挖掘中有著重要作用。將其引入基因數(shù)據(jù)的分析中,能較好地構建網(wǎng)絡模型,分析各基因間的相互作用與影響,可廣泛應用于生物學和腫瘤學的研究,觀察疾病所引起的基因表達變化,并找出重要作用的變量基因。
[關 鍵 詞] 基因數(shù)據(jù);統(tǒng)計學;結構學習
[中圖分類號] G648 [文獻標志碼] A [文章編號] 2096-0603(2018)16-0137-01
隨著人類基因組序列草圖的完成,有關功能基因組的研究在生命科學領域中占據(jù)越來越重要的地位。闡明基因選擇性表達所依賴的調控信息及其相互作用的分子機制,成為揭示生命現(xiàn)象本質的核心問題,是功能組研究的重要內(nèi)容。隨著基因組學研究的深入展開,基因的表達調控研究已經(jīng)從單個基因、線性的調控拓展到立體層面上多基因、基因簇乃至整個基因組的調控網(wǎng)絡。如何有效地利用已有的基因組學數(shù)據(jù),充分整合多學科的思路,建立新的試驗系統(tǒng)和技術體系,闡明基因組表達的調控網(wǎng)絡,分析基因之間的相互制約關系,已經(jīng)成為功能基因組學領域內(nèi)國際競爭的焦點。
貝葉斯網(wǎng)絡方法將概率理論知識與圖論結合,其有圖形化表示、因果關系清晰以及不確定性推理等優(yōu)點,本文將貝葉斯網(wǎng)絡引入基因數(shù)據(jù)中并進行分析,從概率角度描述了各基因間的依賴關系,從而闡明了整個基因組之間的調控網(wǎng)絡。
一、對基因數(shù)據(jù)的預處理
貝葉斯網(wǎng)絡的結構學習是一個NP-Hard問題,而構建網(wǎng)絡結構最常見的方法是在結點變量的順序已經(jīng)確定的情況下,采用局部搜索算法。在基因表達譜數(shù)據(jù)中,由于沒有任何先驗知識,本實驗中對網(wǎng)絡的構建使用的是K2算法,而K2算法需要預先知道網(wǎng)絡變量的先后順序,本文將重點介紹決策樹算法,將ID3算法用于確定各結點的順序。
二、結構學習
在建模之前需要完成的最后一步工作是需要把樣本數(shù)據(jù)分成訓練集和檢驗集,分別用于訓練檢驗和模型檢驗。數(shù)據(jù)經(jīng)過離散化之后,除去預留幾個樣本的各基因表達情況用作模型驗證,其余的樣本作為訓練集導入實驗軟件matlab中。
在網(wǎng)絡拓撲結構的構建過程中,最大父結點個數(shù)的設置問題直接影響了所得網(wǎng)絡的規(guī)模與結構。隨著父結點個數(shù)越多,所得的網(wǎng)絡結構就越復雜,雖然能更多地揭示各結點之間的相互關系,但是計算復雜性越高,學習時間也將大大增加,同時基因之間的相關性也被擴大,可能會有不必要的有向弧也出現(xiàn)在網(wǎng)絡中的情況,從而可能會引入不必要的關聯(lián)。在實驗中我們逐漸增加父結點的個數(shù),會出現(xiàn)由于網(wǎng)絡過于復雜而程序運行時內(nèi)存不足的情況,此時程序無法運行下去。
由于貝葉斯網(wǎng)絡拓撲結構常常存在貝葉斯等價類,而在沒有先驗知識的情況下,貝葉斯等價類所代表的網(wǎng)絡拓撲結構可以看成是表示了相同的聯(lián)合分布,所以本文還可以通過學習得到與上圖互為等價的網(wǎng)絡拓撲結構,繼而得到相應的連接矩陣,通過比較分析得到部分變量之間的有向弧的方向可以反轉。因此在沒有任何先驗知識的情況下,可以根據(jù)K2得到的網(wǎng)絡結構進一步進行參數(shù)學習;如果通過其他方法獲得了一定的先驗知識,比如實驗,則可以根據(jù)等價的拓撲結構,改變相應的變量間的有向弧的方向,得到最新的網(wǎng)絡拓撲結構。因此我們可以找到等價的網(wǎng)絡拓撲結構。本文利用貝葉斯網(wǎng)絡的等價類知識,并利用BNT,可以構造出Cpdag鄰接矩陣,并從矩陣中找到可以反轉的部分有向弧。Cpdag鄰接矩陣中如果(i,j)=1,(j,i)=1,則變量i與變量j的連接弧是可反向的,從而可以得到所有可以反向的弧。
三、參數(shù)學習
1.完整數(shù)據(jù)的參數(shù)學習。本研究是通過研究網(wǎng)絡拓撲結構中各結點的父結點、子結點的數(shù)目以及各結點間的有向弧尋找在網(wǎng)絡中起到關鍵性作用的變量結點,這對網(wǎng)絡的認識理解有關鍵性的幫助作用。
2.已知網(wǎng)絡結構時缺失數(shù)據(jù)下的參數(shù)學習。對于含有缺失值的情況,由于此時不能用MLE直接估計,所以采用EM算法進行MLE參數(shù)估計。由于EM算法本身需要設置迭代的次數(shù)以及迭代的閾值,也就是兩次迭代的對數(shù)似然比log-likelihood的相差值。分別隨機設置幾個不同的缺失值,并設置含缺失值的迭代次數(shù),即可最終所得的log-likelihood值。EM算法對含有缺失值的數(shù)據(jù)有較好的處理能力,只是當缺失值比較多時,需要迭代的次數(shù)較多,但依舊不影響其收斂性。
通過對完整數(shù)據(jù)集和不完整數(shù)據(jù)集求參數(shù)估計,完整數(shù)據(jù)集與不完整數(shù)據(jù)集都能判斷出父結點對子結點的調控作用,同時兩種方法的學習結果是相同的:獨立地判斷了父結點對子結點的促進或抑制作用,且對子結點起促進作用的結點多,起抑制作用的結點少。
3.未知網(wǎng)絡結構時缺失數(shù)據(jù)下的參數(shù)學習。同結構已知,含有缺失值的數(shù)據(jù)的情況類似,我們將完整的基因數(shù)據(jù)隨機設置一定的缺失值,并使用SEM算法同時進行網(wǎng)絡拓撲結構和參數(shù)結構的學習。
四、模型驗證
1.考慮在完整數(shù)據(jù)集時。
2.考慮在已知網(wǎng)絡結構、存在缺失數(shù)據(jù)時。
3.考慮在網(wǎng)絡結構未知、存在缺失數(shù)據(jù)時。
在貝葉斯網(wǎng)絡模型的構建中,我們已經(jīng)留出幾個樣本進行模型驗證,考慮關鍵結點的預測表達情況。
本文完整地研究了在完整數(shù)據(jù)集和含缺失數(shù)據(jù)集的情況下的貝葉斯網(wǎng)絡的結構學習和參數(shù)學習的過程,最終得到了基因間依賴關系的網(wǎng)絡,并表達了基因間的調控作用。最后通過模型驗證證明了整個學習過程的合理性。
參考文獻:
[1]黃解軍.貝葉斯網(wǎng)絡結構學習及其在數(shù)據(jù)挖掘中的應用研究[D].武漢大學,2005:1-80.
[2]鄧勇施,文康,陳良州.基于模型診斷的貝葉斯解釋及應用[J].上海交通大學學報,2003,37(1):5-8.