荊志偉,王忠
基因芯片數(shù)據(jù)分析方法及其在醫(yī)學(xué)中的應(yīng)用
荊志偉,王忠
基因芯片技術(shù)帶來了大規(guī)模、高通量的信息,同時(shí)也對(duì)數(shù)據(jù)的探索性分析及信息提取提出新的挑戰(zhàn)。伴隨出現(xiàn)的諸多方法,如基因芯片數(shù)據(jù)的標(biāo)準(zhǔn)化,樣本(或基因)間距離的度量,以及樣本(或基因)的監(jiān)督和非監(jiān)督分類等分析方法,力圖將無機(jī)的信息數(shù)據(jù)和有機(jī)的生命活動(dòng)結(jié)合起來,闡釋生命特征及基因功能,已成為生物信息學(xué)的研究課題[1]。探索基因功能的新技術(shù)和新方法[2]亦成為研究的重點(diǎn),新的分析工具不斷產(chǎn)生[3]。本文就近 5 年來醫(yī)學(xué)研究領(lǐng)域中基因芯片數(shù)據(jù)以分類分析方法為主作一綜述。
1.1 系統(tǒng)聚類(hierarchical clustering)
系統(tǒng)聚類根據(jù)聚類的方式分為凝聚法(agglomerative approach)和分裂法(divisive approach)。凝聚法按照從下到上的方式對(duì)個(gè)體進(jìn)行聚類:初始每個(gè)個(gè)體為一類,按照一定的規(guī)則進(jìn)行逐步合并,直到所有個(gè)體都?xì)w為一類或達(dá)到預(yù)定的終止條件。因類間相似性的度量方法的不同而又有所差異。分裂法按照從上到下的方式對(duì)個(gè)體進(jìn)行聚類:初始所有個(gè)體為一類,然后按照一定規(guī)則逐漸分裂,直到每個(gè)個(gè)體形成一類或滿足某個(gè)特定的結(jié)束條件,如達(dá)到預(yù)定的類數(shù)或兩個(gè)最鄰近的類之間的距離超過某預(yù)定值。
系統(tǒng)聚類方法簡(jiǎn)單,但有時(shí)在選擇分裂或合并點(diǎn)時(shí)存在困難,因?yàn)橐坏⒁唤M個(gè)體分裂或合并,后續(xù)的類將在新類的基礎(chǔ)上產(chǎn)生,而不能取消己經(jīng)完成的分裂或合并,也不能在類間對(duì)個(gè)體進(jìn)行調(diào)整。系統(tǒng)聚類分析適合正向同源類基因組數(shù)據(jù)的分析并具有相對(duì)好的穩(wěn)定性[4]。
1.2 分割聚類(partitioning methods)
最常用的分割算法為 k-means 法和 k-medoids 法。k-means 法是把 n 個(gè)觀察個(gè)體分成 k 個(gè)類,使類內(nèi)的相似性高,而類間的相似性低。類的相似性用類內(nèi)觀察個(gè)體的均值來度量,此均值被視為類的重心。通過計(jì)算新形成的k 類的類均數(shù),達(dá)到目標(biāo)函數(shù)收斂。該法的局限性在于:①此方法在較大數(shù)據(jù)量時(shí)的擴(kuò)展性和效率都較理想,但可能陷入局部最優(yōu);②只能用于類均數(shù)確定的情況下,若包含分類變量時(shí)就不適用;③必須提前確定類數(shù);④受噪聲和異常值的影響較大。目前常先使用凝聚算法確定類數(shù)和初始的類,再利用迭代重定位技術(shù)提高聚類的效果;k-modes 算法中用模式代替類均數(shù),使用新的非相似性指標(biāo)處理分類資料,用以頻數(shù)為基礎(chǔ)的方法對(duì)類的模式進(jìn)行更替,而 k-prototypes算法(k-means 和 k-modes 的結(jié)合)可以處理數(shù)值變量和分類變量的混合資料;EM(expectation maximization)算法是 k-means 算法的另一種擴(kuò)展,把每一個(gè)體不是劃為具體的某種類別,而是賦予其屬于各類的概率。如 Srinivasan等[5]運(yùn)用 k-means 算法比較頸椎病變的轉(zhuǎn)歸。
1.3 自組織圖(self-organizing maps,SOM)
SOM 是一種基于神經(jīng)網(wǎng)絡(luò)的聚類算法,由若干簡(jiǎn)單的拓?fù)浣Y(jié)構(gòu)的節(jié)點(diǎn)構(gòu)成,且節(jié)點(diǎn)中包含了其距離函數(shù),自組織圖的形成就是這些節(jié)點(diǎn)以迭代的形式分布到 k維的基因表達(dá)空間的過程[6]。其適合于復(fù)雜的多維數(shù)據(jù)的模式識(shí)別和特征分類等探索性的分析,它允許對(duì)聚類的部分結(jié)構(gòu)施加干預(yù)(相比于系統(tǒng)聚類中嚴(yán)格的結(jié)構(gòu)、貝葉斯聚類中對(duì)先驗(yàn)假設(shè)的要求及 k-means 聚類的無結(jié)構(gòu),SOM 則更靈活),首先被 Tamayo 等[7]用于基因表達(dá)數(shù)據(jù)的分析。與多維標(biāo)度法(multi-dimensional scaling,MDS)及主成分分析(principal component analysis,PCA)類似,SOM 可以對(duì)數(shù)據(jù)集中的不同表達(dá)模式實(shí)現(xiàn)可視化,從而判斷某種模式是否為另外一種模式的變異。如鄭培烝等[8]通過建立基因芯片平臺(tái),用全反式維甲酸誘導(dǎo)急性早幼粒細(xì)胞白血病來源的 NB4 細(xì)胞分化作為模型,并應(yīng)用自主開發(fā)的自組織圖結(jié)合成分平面展示動(dòng)態(tài)地觀察了藥物作用過程。
1.4 模糊聚類(fuzzy clustering)
在實(shí)際情況中,基因各功能類間的邊界經(jīng)常是不能截然分開的,模糊聚類適合于解決此類問題。該方法首先由Bezdek 提出,后被 Guthke 用于基因芯片數(shù)據(jù)中基因的分類。它給出向量(代表觀察個(gè)體或基因)屬于各類的隸屬度,即該向量屬于各類的概率。非監(jiān)督模糊聚類的應(yīng)用包括模糊 c-means 法、概率 SOM 法和 Gustafson-plaid 法。GenShaving 聚類和 plaid 聚類也是兩種應(yīng)用模糊聚類基本概念的方法,plaid 法是一種非監(jiān)督算法,GenShaving 可以是監(jiān)督或非監(jiān)督算法,只是監(jiān)督算法中應(yīng)用了向量的先驗(yàn)知識(shí)。兩種方法在模糊聚類的基礎(chǔ)上還允許根據(jù)部分樣本(觀察個(gè)體或基因)來確定基因(或樣本)的類。
1.5 主成分分析(PCA)
在大規(guī)?;虮磉_(dá)數(shù)據(jù)的分析中,由于組織樣本例數(shù)遠(yuǎn)遠(yuǎn)小于所觀察基因個(gè)數(shù),如果直接采用前述聚類分析可能產(chǎn)生較大誤差,故需要對(duì)聚類算法進(jìn)行改進(jìn),其中較為流行的是應(yīng)用 PCA 方法[9]。PCA 的目的是要對(duì)多變量數(shù)據(jù)矩陣進(jìn)行最佳綜合簡(jiǎn)化[10],通過尋找這些變量的線性組合(主成分),使第一主成分最能反映數(shù)據(jù)間的差異。如 Crescenzi和 Giuliani[11]應(yīng)用 PCA 對(duì) 60 個(gè)腫瘤細(xì)胞株的基因表達(dá)譜數(shù)據(jù)進(jìn)行分析,結(jié)果發(fā)現(xiàn)腫瘤分型相關(guān)的基因有1375 個(gè),PCA 得到細(xì)胞運(yùn)動(dòng)等 5 個(gè)獨(dú)立的成分。本課題組[12]在聚類分析的基礎(chǔ)上應(yīng)用 PCA,比較清開靈主要組分黃芩苷、梔子苷及其配伍干預(yù)腦缺血損傷的基因表達(dá)模式,發(fā)現(xiàn)配伍后對(duì)黏附相關(guān)功能基因的影響大于單一組分組,其基因表達(dá)模式和其中的黃芩苷相近。
PCA 利用降維的思想,尋找多變量線性組合的綜合因子,這些主成分之間又是彼此獨(dú)立的,故其缺陷是一部分有用信息的丟失。為此,Yeung 和 Ruzzo[13]采用兩個(gè)真實(shí)數(shù)據(jù)集和三個(gè)模擬數(shù)據(jù)集作為實(shí)驗(yàn)材料,對(duì)采用 PCA 方法所得出的聚類結(jié)果作了評(píng)估。他們發(fā)現(xiàn),進(jìn)行主成分處理后的聚類質(zhì)量沒有明顯提高,甚至有所降低?;谝陨涎芯拷Y(jié)果,他們不主張使用 PCA 進(jìn)行聚類分析。
上述非監(jiān)督聚類方法盡管在對(duì)疾病或生物特性方面已經(jīng)取得了許多有意義的結(jié)果,卻存在著下述三點(diǎn)不足:①不同樣本實(shí)驗(yàn)獲得的基因表達(dá)譜存在著噪聲干擾,目前的解決辦法是對(duì)每個(gè)樣本的基因表達(dá)譜進(jìn)行歸一化處理;②不管對(duì)基因還是對(duì)樣本,所考慮向量的維數(shù)相當(dāng)高,而樣本個(gè)數(shù)相對(duì)較少,某些情況下結(jié)果不穩(wěn)定,分類的性能難以評(píng)價(jià);③難以明確隱含的類別數(shù),非線性 PCA 有助于理解這種復(fù)雜表達(dá)[14]。這三點(diǎn)是目前非監(jiān)督聚類方法難于克服的問題。
2.1 線性判別分析(linear discriminant analysis,LDA)
線性判別分析首先根據(jù)基因樣本數(shù)據(jù)的先驗(yàn)知識(shí)建立線性判別函數(shù),然后把未知類的樣本代入判別函數(shù),從而判斷新樣本(基因或個(gè)體)的類別歸屬,較為適合用于基因芯片數(shù)據(jù)[15]。線性判別分析的特點(diǎn)是計(jì)算簡(jiǎn)單,易于應(yīng)用,一般具有較低的誤差率,但不能處理基因(或個(gè)體)間的交互作用。因此,當(dāng)基因(或個(gè)體)間存在復(fù)雜的交互作用時(shí),線性判別分析不易發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律性。常見的有Diagonal 線性判別分析,F(xiàn)isher 線性判別分析。另外,與LDA 接近的還包括二次方判別分析等。Cho等[16]應(yīng)用fisher 判別方法分析腫瘤患者的基因表達(dá)譜資料以判別腫瘤的分型;Dangond等[17]將 fisher 判別方法應(yīng)用于計(jì)算肌萎縮側(cè)索硬化病的基因表達(dá)譜研究。
2.2 k 最臨近分類法(k-nearest neighbor classifiers)
k 最臨近分類法建立在通過類比進(jìn)行學(xué)習(xí)的基礎(chǔ)上,訓(xùn)練樣本由 n 維計(jì)量變量描述,而每個(gè)觀察個(gè)體由 n 維空間中的一個(gè)點(diǎn)來描述。當(dāng)給定一個(gè)未知樣本,k 最臨近分類法將在模式空間中搜尋與此樣本最臨近的 k 個(gè)觀察個(gè)體,這 k 個(gè)個(gè)體就是該未知觀察個(gè)體的 k 個(gè)最臨近點(diǎn)。一般采用歐氏距離來衡量臨近程度。未知樣本將被賦予 k 個(gè)最臨近的個(gè)體中類數(shù)最多的類。k 最臨近算法又被稱為“instance-based”或“l(fā)azy learners”,因?yàn)樗阉械挠?xùn)練樣本儲(chǔ)存起來,并且在對(duì)一個(gè)未知個(gè)體分類以前不建立任何分類模型。lazy learners 方法在訓(xùn)練階段要比 eager methods快,而在分類階段比 eager methods 慢。與復(fù)雜的分類算法相比具有簡(jiǎn)單、直觀、誤差率較低等特點(diǎn),能夠以“黑箱”的方式處理基因間的交互作用,但不能洞悉數(shù)據(jù)的結(jié)構(gòu)。
2.3 分類樹算法(classification tree algorithm)
分類樹(又稱判定樹,decision tree)是一種自上而下遞歸地對(duì)數(shù)據(jù)進(jìn)行分割的算法,如何確定變量選擇的方法是分類樹算法的核心。信息增益是一種變量選擇的方法:具有最大信息增益(嫡的減小最大)的變量作為當(dāng)前對(duì)樣本進(jìn)行分類的檢驗(yàn)變量(此檢驗(yàn)變量稱為一個(gè)節(jié)點(diǎn)),根據(jù)此變量的不同取值對(duì)樣本進(jìn)行分類,此變量將使對(duì)樣本分類所需的信息量以及對(duì)樣本分類的隨和性和不純性達(dá)到最小。最初的分類樹算法較簡(jiǎn)單,功能也受到一定的限制,如只能實(shí)現(xiàn)對(duì)分類資料的處理以及解決模型的過度擬合問題,隨著算法的改進(jìn),已能實(shí)現(xiàn)計(jì)量變量截?cái)鄶?shù)和截?cái)帱c(diǎn)的自動(dòng)判斷,以及通過修剪算法(包括前剪枝和后剪枝算法)防止模型的過度擬合。分類樹算法能夠探索和揭示基因間的交互作用,對(duì)變量在模型中的重要性進(jìn)行排充,并且結(jié)果易于解釋,能獲得預(yù)測(cè)變量和反應(yīng)變量間的關(guān)系,但分類樹方法在穩(wěn)定性和精確性方面較差,通過使用改進(jìn)算法“bagging”和“hosting”可提高其精確性[18]。
2.4 人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANNs)
人工神經(jīng)網(wǎng)絡(luò)最初是心理學(xué)家和神經(jīng)生物學(xué)家在研究神經(jīng)元的計(jì)算類似物時(shí)提出的。神經(jīng)網(wǎng)絡(luò)是一套相互連接的輸入和輸出單元的集合,每個(gè)連接具有一個(gè)權(quán)重。在學(xué)習(xí)階段,神經(jīng)網(wǎng)絡(luò)調(diào)節(jié)權(quán)重,使其能對(duì)輸入樣本進(jìn)行明確的分類。通常需要根據(jù)經(jīng)驗(yàn)對(duì)其參數(shù)進(jìn)行最佳設(shè)定,如網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)很難對(duì)其權(quán)重的象征意義給予解釋,這一特點(diǎn)限制了神經(jīng)網(wǎng)絡(luò)的應(yīng)用。神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)包括對(duì)噪聲數(shù)據(jù)的高度容錯(cuò)性及對(duì)未訓(xùn)練過的樣本的模式識(shí)別能力。理論上已經(jīng)證明,以任何一種 S 形函數(shù)作為神經(jīng)元的轉(zhuǎn)換函數(shù),都含有一個(gè)隱含層的神經(jīng)網(wǎng)絡(luò),只要隱含層的神經(jīng)元足夠多,該網(wǎng)絡(luò)就可以擬合數(shù)據(jù)中任何復(fù)雜形式的非線性關(guān)系。另外,一些算法已經(jīng)可以提取訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)中的規(guī)則。這些因素都有利于神經(jīng)網(wǎng)絡(luò)在基因數(shù)據(jù)分類中的應(yīng)用。常用的神經(jīng)網(wǎng)絡(luò)有 BP 神經(jīng)網(wǎng)絡(luò)、徑向基網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)及 Hopfield 網(wǎng)絡(luò)等,其中以 BP 算法最為常用[19]。如Lancashire 等[20]運(yùn)用了 ANNs 分析癌癥亞型分類的基因芯片數(shù)據(jù)。
2.5 貝葉斯分類(bayesian classification)和貝葉斯網(wǎng)絡(luò)
貝葉斯分類建立在貝葉斯理論的基礎(chǔ)之上,樸素貝葉斯分類的前提假設(shè)是類條件的獨(dú)立性,即一個(gè)變量對(duì)分類的作用獨(dú)立于其他變量[21]。理論上講,貝葉斯分類與其他分類方法相比具有最小的誤差率,但由于各種原因,實(shí)際情況并非如此,如類條件獨(dú)立性的條件不滿足,概率資料無法得到等。對(duì)于不同分類方法的比較發(fā)現(xiàn):簡(jiǎn)單的貝葉斯分類方法在性能上可以和決策樹、人工神經(jīng)網(wǎng)絡(luò)相比擬,貝葉斯分類在大型數(shù)據(jù)庫中也表現(xiàn)出了較高的精確性和速度。
貝葉斯分類的前提假設(shè)是類條件獨(dú)立,此假設(shè)簡(jiǎn)化了計(jì)算,并且當(dāng)假設(shè)成立時(shí),樸素貝葉斯分類與其他分類方法相比具有最高的精確性。實(shí)際情況是基因之間通常存在依存關(guān)系,貝葉斯網(wǎng)絡(luò)定義了聯(lián)合條件概率分布,它允許類條件獨(dú)立性只在部分變量之間存在,提供了一個(gè)因果關(guān)系的圖形模型,預(yù)期在基因網(wǎng)絡(luò)推斷(gene network inference)中發(fā)揮重要作用[22]。如 Imoto等[23]結(jié)合貝葉斯網(wǎng)絡(luò)和生物學(xué)知識(shí)進(jìn)行基因表達(dá)譜數(shù)據(jù)的基因網(wǎng)絡(luò)分析,并以釀酒酵母的基因表達(dá)譜數(shù)據(jù)為例進(jìn)行了論證。Kim 等[24]將貝葉斯網(wǎng)絡(luò)法應(yīng)用于時(shí)間系列的基因表達(dá)譜數(shù)據(jù)的基因網(wǎng)絡(luò)分析等。
對(duì)通過基因芯片數(shù)據(jù)建立的聚類或判別模型,常進(jìn)行多個(gè)方面的性能評(píng)價(jià)。
3.1 精確性
留取法(holdout method)和交叉驗(yàn)證(cross validation)方法是評(píng)價(jià)分類方法精確性的兩種常用技術(shù),它們都建立在對(duì)給定數(shù)據(jù)集的隨機(jī)抽樣所得到樣本的基礎(chǔ)之上[25]。留取法是把給定數(shù)據(jù)隨機(jī)分割成獨(dú)立的兩部分:訓(xùn)練集和檢驗(yàn)集。訓(xùn)練集用于建立模型;檢驗(yàn)集用于對(duì)建立的模型的精確性進(jìn)行估計(jì)。隨機(jī)子抽樣(random subsampling)是對(duì)留取方法的改進(jìn),其基本思想是重復(fù)留取方法 k 次,避免了一次留取可能造成的偏性;k-fold 交叉驗(yàn)證(k-fold cross-validation)是把初始數(shù)據(jù)隨機(jī)分割成 k 個(gè)互不包含的子集,S1,S2,… SK,一般例數(shù)近似相等。訓(xùn)練過程和檢驗(yàn)過程分別進(jìn)行 k 次。精確性的估計(jì)等于 k 次迭代的檢驗(yàn)樣本總的分類正確數(shù)除以初始數(shù)據(jù)的總例數(shù)。分層交叉驗(yàn)證是交叉驗(yàn)證的另一種方法,它對(duì)初始樣本的分割是分層抽樣,使得產(chǎn)生的子數(shù)據(jù)集中類的分布與初始數(shù)據(jù)中類的分布接近。
3.2 穩(wěn)健性
擾動(dòng)法是常用的檢驗(yàn)?zāi)P头€(wěn)健性的方法,其通過對(duì)基因表達(dá)數(shù)據(jù)施加隨機(jī)噪聲,比較原始基因表達(dá)數(shù)據(jù)和含噪聲的數(shù)據(jù)的分類結(jié)果,從而評(píng)價(jià)模型的穩(wěn)健性[26]。另外還要從模型的計(jì)算速度、數(shù)據(jù)量增大時(shí)的可擴(kuò)展性及結(jié)果的可解釋性等方面對(duì)基因的分類算法進(jìn)行評(píng)價(jià)。Dumur 等[27]建立質(zhì)控標(biāo)準(zhǔn),對(duì)細(xì)胞系、冷凍處理的腫瘤細(xì)胞的總 RNA 和商業(yè)RNA 對(duì)照品的數(shù)據(jù)分析加以評(píng)估,發(fā)現(xiàn)高質(zhì)量的樣本在電泳圖和 cDNA 和 cRNA 合成產(chǎn)物表現(xiàn)為超過 30% 的2.0 ~ 3.0 kb 的 rRNA,認(rèn)為制定更為精細(xì)化的質(zhì)控標(biāo)準(zhǔn),對(duì)區(qū)分基因表達(dá)的分析和生物學(xué)變異尤為必要。Norris 和Kahn[28]運(yùn)用均衡概率分析解決了噪聲基因的假陰性率的問題。
數(shù)據(jù)挖掘也稱為數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(knowledge discovery in database,KDD),是從數(shù)據(jù)庫中識(shí)別出有效的、新穎的、潛在有用的、并且最終可理解的模式的非常規(guī)過程[29]。這是一個(gè)反復(fù)的、不斷求精的過程,可以用于基因芯片數(shù)據(jù)差異表達(dá)基因的不同聚類分析和聚類分析有效算法,可以提高數(shù)據(jù)分析的質(zhì)量[30]。但迄今為止還沒有一套完整、統(tǒng)一的數(shù)據(jù)挖掘理論體系來指導(dǎo)有用信息的獲取。
目前已有很多數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)系統(tǒng)和工具用于生物信息處理。一般的數(shù)據(jù)挖掘分析系統(tǒng)有:SAS 挖掘器、IBM智能挖掘器和 SGI MinSet 等。其中 GCG(genetics computer group)主要用于核酸序列分析和蛋白質(zhì)序列分析。Staden 是 DNA 和蛋白質(zhì)序列分析的軟件包[31]。此外還有用于大規(guī)模測(cè)序的 Sequencher,用于快速克隆的 Vector NTI 等。GeneMine 是由 molecular application group 開發(fā)的生物信息學(xué)數(shù)據(jù)挖掘系統(tǒng),該系統(tǒng)可以用于生物信息數(shù)據(jù)的過濾、計(jì)算和聚類操作,并支持進(jìn)一步的綜合分析和可視化。目前世界數(shù)據(jù)庫巨頭 ORACLE、IBM 紛紛將生物信息挖掘工具分別嵌入至 ORACLE 9i、DB2 中,大大提高了生物數(shù)據(jù)的安全性和分析的準(zhǔn)確性。
支持向量機(jī)(suppport vector machines,SVMs)是數(shù)據(jù)挖掘中的一個(gè)新方法,它通過訓(xùn)練一種“分類器”來辨識(shí)與已知的共調(diào)控基因表達(dá)類型相似的新基因。SVMs 可以通過定義一個(gè)核心函數(shù)(kernel function)來確定特征空間中的超平面,此核心函數(shù)就代表了特征空間中的點(diǎn)積。該法較好地解決了計(jì)算和學(xué)習(xí)理論問題[32]。當(dāng)數(shù)據(jù)量增大時(shí),SVMs 算法可能無法在特征空間中找到一個(gè)超平面實(shí)現(xiàn)完全的分割,原因可能是該核心函數(shù)并不適合于此資料的分類,或訓(xùn)練樣本本身含有誤分類的基因。使用柔性邊際(soft margin)可以解決后者,它允許基因分到超平面錯(cuò)誤的一側(cè)[33]。如Williams 等[34]為了鑒定出腎母細(xì)胞瘤復(fù)發(fā)的基因表達(dá)譜模型,研究了 27 例腎母細(xì)胞瘤患者的腫瘤組織,其中 13 例2 年內(nèi)復(fù)發(fā),對(duì)復(fù)發(fā)和未復(fù)發(fā)的腫瘤組織進(jìn)行基因芯片實(shí)驗(yàn),并應(yīng)用支持向量機(jī)對(duì)基因表達(dá)譜數(shù)據(jù)進(jìn)行分析,結(jié)果發(fā)現(xiàn)了一小類可能用于腫瘤預(yù)診的基因。
數(shù)據(jù)處理的進(jìn)展必然伴隨著數(shù)據(jù)平臺(tái)軟件的誕生,基于網(wǎng)絡(luò)數(shù)據(jù)庫架構(gòu)的生物信息學(xué)軟件業(yè)已在醫(yī)學(xué)研究中應(yīng)用,其研究路徑已經(jīng)拓展到信號(hào)通路模擬方面。利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將復(fù)雜數(shù)據(jù)圖形化,成為近年來基因芯片數(shù)據(jù)分析軟件的特征。Pathway Studio 可分析基因表達(dá)實(shí)驗(yàn)中差異表達(dá)基因的分子生物學(xué)通路、基因調(diào)節(jié)網(wǎng)絡(luò)及蛋白質(zhì)之間的交互作用,已經(jīng)用于癡呆疾病的機(jī)制研究[35]。IPA系統(tǒng)(ingenuity pathway analysis)是建立在網(wǎng)絡(luò)基礎(chǔ)上的用來分析基因表達(dá)、蛋白組學(xué)和 SNP 微陣列數(shù)據(jù)的工具,已經(jīng)應(yīng)用于多種疾病的分子機(jī)制研究[36]。
基因芯片技術(shù)及其數(shù)據(jù)分析已成功應(yīng)用于醫(yī)學(xué)研究許多領(lǐng)域,如臨床診斷、藥物篩選、基因突變研究、基因組分型及測(cè)序、中醫(yī)藥研究等[37]?;驍?shù)據(jù)的分析方法研究仍處于探索階段,目前的相似性檢測(cè)方法多適用于特定的情況下。在實(shí)際應(yīng)用中可以從以下幾個(gè)方面對(duì)算法進(jìn)行改進(jìn):①強(qiáng)化對(duì)來自不同平臺(tái)數(shù)據(jù)的提取和解釋;②噪音數(shù)據(jù)的消除,改進(jìn)遴選假陽性樣本的算法;③特征基因的選取,在最少量特征(基因)選取的基礎(chǔ)上得到較高的分類準(zhǔn)確率;④嘗試針對(duì)某種數(shù)據(jù)分布,采用粗糙集或模糊集與分類樹以及基于神經(jīng)網(wǎng)絡(luò)與遺傳算法分類法的融合,以提高分類的準(zhǔn)確性、穩(wěn)健性等重要性能。發(fā)現(xiàn)數(shù)據(jù)中所隱藏的信息,快速合理地處理,并且結(jié)合醫(yī)學(xué)研究的目的選擇具有較好精確性和穩(wěn)健性的方法。即使運(yùn)用的是現(xiàn)成的工具軟件,亦應(yīng)明確其數(shù)理方法,實(shí)現(xiàn)與統(tǒng)計(jì)學(xué)、信息科學(xué)等學(xué)科的合理交叉,為基因芯片數(shù)據(jù)信息的提取提供最佳路徑。
參考文獻(xiàn)
[1] Reimers M. Statistical analysis of microarray data. Addict Biol, 2005, 10(1):23-35.
[2] Handl J, Knowles J, Kell DB. Computational cluster validation in post-genomic data analysis. Bioinformatics, 2005, 21(15):3201-3212.
[3] Khatri P, Dr?ghici S. Ontological analysis of gene expression data: current tools, limitions, and open problems. Bioinformatics, 2005, 21(18):3587-3595.
[4] Uchiyama I. Hierarchical clustering algorithm for comprehensive orthologous-domain classification in multiple genomes. Nucleic Acids Res, 2006, 34(2):647-658.
[5] Srinivasan A, Galbán CJ, Johnson TD, et al. Utility of the k-means clustering algorithm in differentiating apparent diffusion coefficient values of benign and malignant neck pathologies. AJNR Am J Neuroradiol, 2009, 31(4):736-740.
[6] Dougherty ER, Barrera J, Brun M, et al. Inference from clustering with application to gene-expression microarrays. J Comput Biol, 2002, 9(1):418-429.
[7] Tamayo P, Slonim D, Mesirov J, et al. Interpreting pattems of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. Proc Natl Acad Sci U S A, 1999, 96(6):2907-2912.
[8] Zheng PC, Zhao CJ, Du YZ, et al. Establishment of CPP-SOM integrated cDNA microarray technology. Chin J Med Genet, 2004, 21(5):422-425. (in Chinese)鄭培烝, 趙春軍, 杜艷芝, 等. CPP-SOM整合cDNA基因芯片平臺(tái)的建立. 中華醫(yī)學(xué)遺傳學(xué)雜志, 2004, 21(5):422-425.
[9] Wang A, Gehan EA. Gene selection for microarray data analysis using principal component analysis. Stat Med, 2005, 24(13):2069-2087.
[10] Diamantaras KI, Kung SY. Principal Component Neural Networks. New York: Wiley-Interscience, 1996:26.
[11] Crescenzi M, Giuliani A. The main biological determinants of tumor line taxonomy elucidated by a principal component analysis of microarray data. FEBS Lett, 2001, 507:114-118.
[12] Jing ZW, Zhou CX, Wang Z, et al. Principal component analysis of gene expression of baicalin, jasminoidin and their combination in experimental stroke. J Traditional Chin Med, 2010, 51(2):164-167. (in Chinese)荊志偉, 周才秀, 王忠, 等. 用主成分分析探索不同中藥組分配伍干預(yù)腦缺血的基因表達(dá)模式. 中醫(yī)雜志,2010, 51(2):164-167.
[13] Yeung KY, Ruzzo WL. Principal component analysis for clustering gene expression data. Bioinformatics, 2001, 17(9):763-774.
[14] Scholz M, Kaplan F, Guy CL, et al. Non-linear PCA: a missing data approach. Bioinformatics, 2005, 21(20):3887-3895.
[15] Lee JW, Lee Jb, Park M, et al. An extensive comparison of recent classification tools applied to microarray data. Comput Stat Data Anal, 2005, 48(4):869-885.
[16] Cho JH, Lee D, Park JH, et al. Gene selection and classification from microarray data using kernel machine. FEBS Lett, 2004, 571(1/3): 93-98.
[17] Dangond F, Hwang D, Camelo S, et al. Molecular signature of late-stage human ALS revealed by expression profiling of postmortem spinal cord gray matter. Physiol Genomics, 2004, 16(2):229-239.
[18] Breiman L. Arcing classifier (with discussion and a rejoinder by the author). Ann Statist, 1998, 26(3):801-849.
[19] Islam MM, Sattar MA, Amin MF, et al. A new adaptive merging and growing algorithm for designing artificial neural networks. IEEE Trans Syst Man Cybern B Cybern, 2009, 39(3):705-722.
[20] Lancashire LJ, Lemetre C, Ball GR. An introduction to artificial neural networks in bioinformatics--application to complex microarray and mass spectrometry datasets in cancer studies. Briefings in Bioinformatics, 2009, 10(3):315-329.
[21] Efemn B, Tibshirani R, Storey JD, et al. Empirical bayes analysis of a microarray experiment. J Am Stats Assoc, 2001, 96(456):1151-1160.
[22] Friedman N, Linial M, Nachman I, et al. Using Bayesian networks to analyze expression data. J Comput Boil, 2000, 7(3/4):601-620.
[23] Imoto S, Higuchi T, Goto T, et al. Combining microarrays and biological knowledge for estimating gene networks via bayesian networks. J Bioinform Comput Biol, 2004, 2(1):77-98.
[24] Kim SY, Imoto S, Miyano S. Inferring gene networks from time series microarray data using dynamic Bayesian networks. Brief Bioinform, 2003, 4(3):228-235.
[25] Azuaje F. A cluster validity framework for genome expression data. Bioinformatics, 2002, 18:319-320.
[26] McShane LM, Radmacher MD, Freidlin B, et al. Methods for assessing reproducibility of clustering patterns observed in analyses of microarray data. Informatics, 2002, 18(11):1462-1469.
[27] Dumur CI, Nasim S, Best AM, et al. Evaluation of quality-control criteria for microarray gene expression analysis. Clin Chem, 2004, 50(11):1994-2002.
[28] Norris AW, Kahn CR. Analysis of gene expression in pathophysiological states: balancing false discovery and false negative rates. Proc Natl Acad Sci U S A, 2006, 103(3):649-653.
[29] Fayyad U, Piatetsky-Shapiro G, Smyth P, et al. Knowledge discovery and data mining: toward a unifying framework. KDD-96, 1996:82-88 [2010-01-20]. http://www.aaai.org/Papers/KDD/1996/KDD96-014.pdf
[30] Bolshakova N, Azuaje F, Cunningham P. An integrated tool for microarray data clustering and cluster validity assessment. Bioinformatics, 2005, 21(4):451-455.
[31] Gershenzon NI, Stormo GD, Ioshikhes IP. Computational technique for improvement of the position-weight matrices for the DNA/protein binding sites. Nucleic Acids Res, 2005, 33(7):2290-2301.
[32] Brown MP, Grundy WN, Lin D, et al. Knowledge-based analysis of microarray gene expression data by using support vector machines.Proc Natl Acad Sci U S A, 2000, 97(1):262-267.
[33] Furey TS, Cristianini N, Duffy N, et al. Supporting vector machines classification and validation of cancer tissue samples using microarray expression data.Bioinformatics, 2000, 16(10):906-914.
[34] Williams RD, Hing SN, Greer BT, et al. Prognostic classification of relapsing favorable histology Wilms tumor using cDNA microarray expression profiling and support vector machines. Genes Chromosomes Cancer, 2004, 41(1):65-79.
[35] Durrenberger PF, Filiou MD, Moran LB, et al. DnaJB6 is present in the core of Lewy bodies and is highly up-regulated in parkinsonian astrocytes. J Neurosci Res, 2008, 87(1):238-245.
[36] Ghosh M, Aguila HL, Michaud J, et al. Essential role of the RNA-binding protein HuR in progenitor cell survival in mice. J Clin Invest, 2009, 119(12):3530-3543.
[37] Licino J, Wong ML, Wong L. Pharmacogenomics. Berlin: WILEY-VCH Verlag GmbH & Co. KGaA, 2002:79-109.
基金項(xiàng)目:國家“十一五”科技支撐計(jì)劃(2006BAI08B04-06)
作者單位:100700 北京,中國中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所
通訊作者:王忠,Email:zhonw@vip.sina.com
收稿日期:2010-01-27
DOI:10.3969/cmba.j.issn.1673-713X.2010.06.010