雙聚類(lèi)算法研究

2016-10-28 06:27:46李美航黃英仁

廣東科技 2016年2期

關(guān)鍵詞：常量聚類(lèi)數(shù)值

李美航，黃英仁

（廣東省華南師范大學(xué)，廣東廣州510006）

雙聚類(lèi)算法研究

李美航，黃英仁

（廣東省華南師范大學(xué)，廣東廣州510006）

雙聚類(lèi)算法的出現(xiàn)促進(jìn)了生物基因分析領(lǐng)域的發(fā)展，簡(jiǎn)單介紹雙聚類(lèi)算法的起源、概念、目的及主要模型，對(duì)現(xiàn)有主要模型的優(yōu)勢(shì)與不足進(jìn)行分析，并對(duì)常用雙聚類(lèi)算法的實(shí)驗(yàn)方法進(jìn)行概括。

雙聚類(lèi)；基因表達(dá)數(shù)據(jù)；CC算法；OPSM

0　引言

基因芯片與DNA微陣列技術(shù)的發(fā)展給生物領(lǐng)域帶來(lái)了大量的基因表達(dá)數(shù)據(jù)，如何從這些數(shù)據(jù)中找出有用的信息成為眾多研究人員研究的熱點(diǎn)。這些數(shù)據(jù)通常都以矩陣的形式存儲(chǔ)，在基因表達(dá)數(shù)據(jù)矩陣中，行代表基因，列代表實(shí)驗(yàn)條件，每個(gè)元素代表某個(gè)基因在給定實(shí)驗(yàn)條件下的表達(dá)水平。

為了有效的分析這些數(shù)據(jù)，聚類(lèi)分析最早被應(yīng)用于其中。但傳統(tǒng)聚類(lèi)分析有一個(gè)明顯的缺陷，就是只能對(duì)一個(gè)維度上的數(shù)據(jù)進(jìn)行全局聚類(lèi)。大量的生物實(shí)驗(yàn)已經(jīng)證明，參與細(xì)胞功能運(yùn)作的可能只是部分基因。不同于傳統(tǒng)聚類(lèi)，雙聚類(lèi)可以對(duì)數(shù)據(jù)矩陣的行和列同時(shí)聚類(lèi)，它可以找到數(shù)據(jù)矩陣中的局部模式，這些局部模式可以很好的體現(xiàn)出部分基因在部分實(shí)驗(yàn)條件下的異同。

1　雙聚類(lèi)模型

雖然傳統(tǒng)的聚類(lèi)算法在分析基因表達(dá)數(shù)據(jù)時(shí)展現(xiàn)出一定的效果，但是面對(duì)加速膨脹的數(shù)據(jù)規(guī)模，其在解決高維度，高噪聲數(shù)據(jù)時(shí)暴露出的疲軟及不適合尋找矩陣中的局部模式缺陷，雙聚類(lèi)算法慢慢得到青睞。在學(xué)術(shù)上，雙聚類(lèi)算法主要分為四種模型：①常數(shù)型雙聚類(lèi)；②行常量或列常量雙聚類(lèi)；③數(shù)值一致表達(dá)型雙聚類(lèi)；④一致演化型雙聚類(lèi)。

1.1常數(shù)型雙聚類(lèi)

Hartigan［1］為了找到常數(shù)型的雙聚類(lèi)，采用了一種直接劃分的塊聚類(lèi)方法。這種塊聚類(lèi)算法把原始的數(shù)據(jù)分成一系列小矩陣，然后用方差評(píng)估每一個(gè)小矩陣。雖然Hartigan的目的是為了尋找常數(shù)型雙聚類(lèi)，同時(shí)他也提出了尋找行常量和列常量雙聚類(lèi)的可能性，他提到只要我們選擇合適的評(píng)價(jià)函數(shù)去評(píng)價(jià)分塊后的小矩陣，那么我們將有可能找到行列常量甚至數(shù)值一致表達(dá)型雙聚類(lèi)。

1.2行常量或列常量雙聚類(lèi)

在尋找行列常量雙聚類(lèi)時(shí)，除了上述提到的選擇合適的評(píng)價(jià)函數(shù)的方法。另外一個(gè)簡(jiǎn)單的思想是把矩陣中的數(shù)值依照行或列進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理，這樣便可以把尋找行列常量的雙聚類(lèi)轉(zhuǎn)化為尋找常數(shù)型的雙聚類(lèi)。Getz等［2］便是用這種思想提出了CTWC算法。

1.3數(shù)值一致表達(dá)型雙聚類(lèi)

相對(duì)于以上簡(jiǎn)單的常量型雙聚類(lèi)，大多數(shù)算法對(duì)于更為復(fù)雜的數(shù)值一致表達(dá)型雙聚類(lèi)稍顯無(wú)措。Cheng and Church［3］在CC算法中提出了雙聚類(lèi)這個(gè)概念，創(chuàng)造性地用均方殘基去衡量子矩陣中表達(dá)水平的一致性，它可以有效的找出數(shù)值一致表達(dá)型雙聚類(lèi)，并給出了相應(yīng)的函數(shù)。函數(shù)定義如下：

其中dij是當(dāng)前元素值，dij表示第i行的行均值，dij表示第j列的列均值，dIJ=表示該子矩陣的總均值。

1.4一致演化型雙聚類(lèi)

隨著雙聚類(lèi)算法研究的深入，越來(lái)越多算法聚焦于數(shù)據(jù)中的模式而非具體的數(shù)據(jù)元素值也就是一致演化型雙聚類(lèi)，它實(shí)際上是對(duì)數(shù)值一致表達(dá)型雙聚類(lèi)的一種放寬條件。最早由Bendor等［4］提出保序子矩陣模型（OPSM），它只關(guān)注元素值的相對(duì)大小而不理會(huì)實(shí)際值。OPSM雙聚類(lèi)模型本質(zhì)上是一個(gè)基于模式的子矩陣，它的行在某種列置換情況下可以展示出嚴(yán)格的遞增模式。一旦找到這樣一種模式的雙聚類(lèi)，在生物基因?qū)W上可能揭示出某些共調(diào)控的基因在某些實(shí)驗(yàn)條件下有升降一致的體現(xiàn)，這對(duì)于研究基因在功能上的表現(xiàn)有很大的幫助。Bendor等人證明了尋找OPSM是NP-hard問(wèn)題，并提出了一種貪心啟發(fā)式算法用于挖掘具有統(tǒng)計(jì)學(xué)意義的OPSM。該算法從一些小的OPSMs出發(fā)，通過(guò)不斷迭代去擴(kuò)展這些OPSMs直到不能擴(kuò)展為止。該算法能挖掘具有較大支持度閾值的OPSMs，但是它不能保證找到所有的OPSMs，并且需要較多的計(jì)算資源。

2　實(shí)驗(yàn)分析方法

雙聚類(lèi)算法已經(jīng)廣泛應(yīng)用于基因表達(dá)數(shù)據(jù)，但如何去評(píng)估這些算法的優(yōu)劣是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。目前主要從三個(gè)方面對(duì)算法性能進(jìn)行綜合評(píng)估：①雙聚類(lèi)結(jié)果的優(yōu)劣；②算法對(duì)噪聲數(shù)據(jù)的魯棒性以及能否找到重疊的雙聚類(lèi)；③算法的可擴(kuò)展性。目前所用的實(shí)驗(yàn)數(shù)據(jù)集主要來(lái)源于兩方面，即真實(shí)數(shù)據(jù)集與人工合成數(shù)據(jù)集。

2.1真實(shí)數(shù)據(jù)集

在對(duì)雙聚類(lèi)結(jié)果的優(yōu)劣進(jìn)行評(píng)估時(shí)，我們會(huì)使用真實(shí)的數(shù)據(jù)集，目前雙聚類(lèi)實(shí)驗(yàn)中公認(rèn)的幾個(gè)真實(shí)數(shù)據(jù)集有：①酵母菌數(shù)據(jù)集［3］，包含2884個(gè)基因和17個(gè)條件；②人類(lèi)B細(xì)胞表達(dá)數(shù)據(jù)［5］，包含4026個(gè)基因和96個(gè)條件；③乳腺腫瘤數(shù)據(jù)集［6］，包含3226個(gè)基因和22個(gè)實(shí)驗(yàn)條件。算法在這些基因數(shù)據(jù)集上找到雙聚類(lèi)結(jié)果后，將對(duì)結(jié)果進(jìn)行g(shù)ene ontology(GO)(http://go. princeton.edu/cgi-bin/GOTermFinder)分析。GO分析被用來(lái)檢驗(yàn)算法找到的雙聚類(lèi)的生物學(xué)意義，對(duì)產(chǎn)生的雙聚類(lèi)結(jié)果作真實(shí)性的驗(yàn)證。當(dāng)某個(gè)結(jié)果在GO分析中有較小的P-value值，則說(shuō)明該簇基因在某些細(xì)胞功能中有特別的生物意義。

2.2人工合成數(shù)據(jù)集

人工合成數(shù)據(jù)集由實(shí)驗(yàn)人員隨機(jī)生成一個(gè)數(shù)據(jù)矩陣，再往該數(shù)據(jù)矩陣中嵌入不同的雙聚類(lèi)模型，不同噪聲等級(jí)的雙聚類(lèi)，不同數(shù)量的雙聚類(lèi)或不同重疊度的雙聚類(lèi)。當(dāng)用該合成數(shù)據(jù)運(yùn)行算法得出結(jié)果后，可以對(duì)雙聚類(lèi)結(jié)果進(jìn)行匹配分?jǐn)?shù)計(jì)算［7］，該匹配分?jǐn)?shù)用來(lái)計(jì)算算法找到的雙聚類(lèi)結(jié)果與人工嵌入雙聚類(lèi)的匹配度，以此來(lái)衡量算法的性能。一般而言，算法的擴(kuò)展性能評(píng)估由合成數(shù)據(jù)集測(cè)試，Gao等［8］在不斷增加合成數(shù)據(jù)行、列和閾值數(shù)量的情況下，記錄算法的運(yùn)行時(shí)間，由此來(lái)評(píng)估該算法效率。

3　總結(jié)

雙聚類(lèi)是一個(gè)較為年輕的學(xué)術(shù)領(lǐng)域，在如今各種數(shù)據(jù)規(guī)模呈指數(shù)級(jí)別增長(zhǎng)的年代，對(duì)它的研究有著重要的意義。本文主要介紹了雙聚類(lèi)在生物基因分析領(lǐng)域中的發(fā)展歷程，許多其它新興的領(lǐng)域（如數(shù)據(jù)挖掘，文本挖掘，推薦系統(tǒng)，電子商務(wù)等）都需要我們?nèi)ヌ剿髋c研究。

［1］Hartigan J A.Direct clustering of a data matrix.[J].Journal of the American Statistical Association,1972,67:123-129.

［2］Getz G,Levine E,Domany E.Coupled two-way clustering analysis of gene microarray data.[J].Proceedings of the national academy of sciences of the united states of america,2000:12079-12084.

［3］Cheng Y,Church G M.Biclustering of expression data.[J].In proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology,2000:75-85.

［4］Ben-Dor A,Chor B,Karp R et al.Discovering local structure in gene expression data:the order-preserving submatrix problem.[J].In proceedings of the 6th international conference on computacional biology, 2002:49-57.

［5］Alizadeh A A,Eisen M B,Davis R E et al.Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling.[J].Nature,2000,403:503-511.

［6］Hedenfalk I,Duggan D,Chen Y et al.Gene-expression profiles in hereditary breast cancer.[J].New England Journal of Medicine, 2001,344(8):539-548.

［7］Preli?A,Bleuler S,Zimmermann P et al.A systematic comparison and evaluation of biclustering methods for gene expression data.[J].Bioinformatics,2006,22(9):1122-1129.

［8］Byron J G,Griffith O L,Ester M et al.On the deep Order-Preserving submatrix problem:a best effort approach.[J].Journal of IEEE Transactions on Knowledge and Data,2012,24(2):309-325.

李美航（1990-），男，碩士，研究方向?yàn)閿?shù)據(jù)挖掘、雙聚類(lèi)分析；黃英仁（1992-），男，本科，研究方向?yàn)閿?shù)據(jù)挖掘。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

雙聚類(lèi)算法研究

0 引言

1 雙聚類(lèi)模型

2 實(shí)驗(yàn)分析方法

3 總結(jié)

0　引言

1　雙聚類(lèi)模型

2　實(shí)驗(yàn)分析方法

3　總結(jié)