国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

雙聚類(lèi)算法研究

2016-10-28 06:27:46李美航黃英仁
廣東科技 2016年2期
關(guān)鍵詞:常量聚類(lèi)數(shù)值

李美航,黃英仁

(廣東省華南師范大學(xué),廣東廣州510006)

雙聚類(lèi)算法研究

李美航,黃英仁

(廣東省華南師范大學(xué),廣東廣州510006)

雙聚類(lèi)算法的出現(xiàn)促進(jìn)了生物基因分析領(lǐng)域的發(fā)展,簡(jiǎn)單介紹雙聚類(lèi)算法的起源、概念、目的及主要模型,對(duì)現(xiàn)有主要模型的優(yōu)勢(shì)與不足進(jìn)行分析,并對(duì)常用雙聚類(lèi)算法的實(shí)驗(yàn)方法進(jìn)行概括。

雙聚類(lèi);基因表達(dá)數(shù)據(jù);CC算法;OPSM

0 引言

基因芯片與DNA微陣列技術(shù)的發(fā)展給生物領(lǐng)域帶來(lái)了大量的基因表達(dá)數(shù)據(jù),如何從這些數(shù)據(jù)中找出有用的信息成為眾多研究人員研究的熱點(diǎn)。這些數(shù)據(jù)通常都以矩陣的形式存儲(chǔ),在基因表達(dá)數(shù)據(jù)矩陣中,行代表基因,列代表實(shí)驗(yàn)條件,每個(gè)元素代表某個(gè)基因在給定實(shí)驗(yàn)條件下的表達(dá)水平。

為了有效的分析這些數(shù)據(jù),聚類(lèi)分析最早被應(yīng)用于其中。但傳統(tǒng)聚類(lèi)分析有一個(gè)明顯的缺陷,就是只能對(duì)一個(gè)維度上的數(shù)據(jù)進(jìn)行全局聚類(lèi)。大量的生物實(shí)驗(yàn)已經(jīng)證明,參與細(xì)胞功能運(yùn)作的可能只是部分基因。不同于傳統(tǒng)聚類(lèi),雙聚類(lèi)可以對(duì)數(shù)據(jù)矩陣的行和列同時(shí)聚類(lèi),它可以找到數(shù)據(jù)矩陣中的局部模式,這些局部模式可以很好的體現(xiàn)出部分基因在部分實(shí)驗(yàn)條件下的異同。

1 雙聚類(lèi)模型

雖然傳統(tǒng)的聚類(lèi)算法在分析基因表達(dá)數(shù)據(jù)時(shí)展現(xiàn)出一定的效果,但是面對(duì)加速膨脹的數(shù)據(jù)規(guī)模,其在解決高維度,高噪聲數(shù)據(jù)時(shí)暴露出的疲軟及不適合尋找矩陣中的局部模式缺陷,雙聚類(lèi)算法慢慢得到青睞。在學(xué)術(shù)上,雙聚類(lèi)算法主要分為四種模型:①常數(shù)型雙聚類(lèi);②行常量或列常量雙聚類(lèi);③數(shù)值一致表達(dá)型雙聚類(lèi);④一致演化型雙聚類(lèi)。

1.1常數(shù)型雙聚類(lèi)

Hartigan[1]為了找到常數(shù)型的雙聚類(lèi),采用了一種直接劃分的塊聚類(lèi)方法。這種塊聚類(lèi)算法把原始的數(shù)據(jù)分成一系列小矩陣,然后用方差評(píng)估每一個(gè)小矩陣。雖然Hartigan的目的是為了尋找常數(shù)型雙聚類(lèi),同時(shí)他也提出了尋找行常量和列常量雙聚類(lèi)的可能性,他提到只要我們選擇合適的評(píng)價(jià)函數(shù)去評(píng)價(jià)分塊后的小矩陣,那么我們將有可能找到行列常量甚至數(shù)值一致表達(dá)型雙聚類(lèi)。

1.2行常量或列常量雙聚類(lèi)

在尋找行列常量雙聚類(lèi)時(shí),除了上述提到的選擇合適的評(píng)價(jià)函數(shù)的方法。另外一個(gè)簡(jiǎn)單的思想是把矩陣中的數(shù)值依照行或列進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理,這樣便可以把尋找行列常量的雙聚類(lèi)轉(zhuǎn)化為尋找常數(shù)型的雙聚類(lèi)。Getz等[2]便是用這種思想提出了CTWC算法。

1.3數(shù)值一致表達(dá)型雙聚類(lèi)

相對(duì)于以上簡(jiǎn)單的常量型雙聚類(lèi),大多數(shù)算法對(duì)于更為復(fù)雜的數(shù)值一致表達(dá)型雙聚類(lèi)稍顯無(wú)措。Cheng and Church[3]在CC算法中提出了雙聚類(lèi)這個(gè)概念,創(chuàng)造性地用均方殘基去衡量子矩陣中表達(dá)水平的一致性,它可以有效的找出數(shù)值一致表達(dá)型雙聚類(lèi),并給出了相應(yīng)的函數(shù)。函數(shù)定義如下:

其中dij是當(dāng)前元素值,dij表示第i行的行均值,dij表示第j列的列均值,dIJ=表示該子矩陣的總均值。

1.4一致演化型雙聚類(lèi)

隨著雙聚類(lèi)算法研究的深入,越來(lái)越多算法聚焦于數(shù)據(jù)中的模式而非具體的數(shù)據(jù)元素值也就是一致演化型雙聚類(lèi),它實(shí)際上是對(duì)數(shù)值一致表達(dá)型雙聚類(lèi)的一種放寬條件。最早由Bendor等[4]提出保序子矩陣模型(OPSM),它只關(guān)注元素值的相對(duì)大小而不理會(huì)實(shí)際值。OPSM雙聚類(lèi)模型本質(zhì)上是一個(gè)基于模式的子矩陣,它的行在某種列置換情況下可以展示出嚴(yán)格的遞增模式。一旦找到這樣一種模式的雙聚類(lèi),在生物基因?qū)W上可能揭示出某些共調(diào)控的基因在某些實(shí)驗(yàn)條件下有升降一致的體現(xiàn),這對(duì)于研究基因在功能上的表現(xiàn)有很大的幫助。Bendor等人證明了尋找OPSM是NP-hard問(wèn)題,并提出了一種貪心啟發(fā)式算法用于挖掘具有統(tǒng)計(jì)學(xué)意義的OPSM。該算法從一些小的OPSMs出發(fā),通過(guò)不斷迭代去擴(kuò)展這些OPSMs直到不能擴(kuò)展為止。該算法能挖掘具有較大支持度閾值的OPSMs,但是它不能保證找到所有的OPSMs,并且需要較多的計(jì)算資源。

2 實(shí)驗(yàn)分析方法

雙聚類(lèi)算法已經(jīng)廣泛應(yīng)用于基因表達(dá)數(shù)據(jù),但如何去評(píng)估這些算法的優(yōu)劣是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。目前主要從三個(gè)方面對(duì)算法性能進(jìn)行綜合評(píng)估:①雙聚類(lèi)結(jié)果的優(yōu)劣;②算法對(duì)噪聲數(shù)據(jù)的魯棒性以及能否找到重疊的雙聚類(lèi);③算法的可擴(kuò)展性。目前所用的實(shí)驗(yàn)數(shù)據(jù)集主要來(lái)源于兩方面,即真實(shí)數(shù)據(jù)集與人工合成數(shù)據(jù)集。

2.1真實(shí)數(shù)據(jù)集

在對(duì)雙聚類(lèi)結(jié)果的優(yōu)劣進(jìn)行評(píng)估時(shí),我們會(huì)使用真實(shí)的數(shù)據(jù)集,目前雙聚類(lèi)實(shí)驗(yàn)中公認(rèn)的幾個(gè)真實(shí)數(shù)據(jù)集有:①酵母菌數(shù)據(jù)集[3],包含2884個(gè)基因和17個(gè)條件;②人類(lèi)B細(xì)胞表達(dá)數(shù)據(jù)[5],包含4026個(gè)基因和96個(gè)條件;③乳腺腫瘤數(shù)據(jù)集[6],包含3226個(gè)基因和22個(gè)實(shí)驗(yàn)條件。算法在這些基因數(shù)據(jù)集上找到雙聚類(lèi)結(jié)果后,將對(duì)結(jié)果進(jìn)行g(shù)ene ontology(GO)(http://go. princeton.edu/cgi-bin/GOTermFinder)分析。GO分析被用來(lái)檢驗(yàn)算法找到的雙聚類(lèi)的生物學(xué)意義,對(duì)產(chǎn)生的雙聚類(lèi)結(jié)果作真實(shí)性的驗(yàn)證。當(dāng)某個(gè)結(jié)果在GO分析中有較小的P-value值,則說(shuō)明該簇基因在某些細(xì)胞功能中有特別的生物意義。

2.2人工合成數(shù)據(jù)集

人工合成數(shù)據(jù)集由實(shí)驗(yàn)人員隨機(jī)生成一個(gè)數(shù)據(jù)矩陣,再往該數(shù)據(jù)矩陣中嵌入不同的雙聚類(lèi)模型,不同噪聲等級(jí)的雙聚類(lèi),不同數(shù)量的雙聚類(lèi)或不同重疊度的雙聚類(lèi)。當(dāng)用該合成數(shù)據(jù)運(yùn)行算法得出結(jié)果后,可以對(duì)雙聚類(lèi)結(jié)果進(jìn)行匹配分?jǐn)?shù)計(jì)算[7],該匹配分?jǐn)?shù)用來(lái)計(jì)算算法找到的雙聚類(lèi)結(jié)果與人工嵌入雙聚類(lèi)的匹配度,以此來(lái)衡量算法的性能。一般而言,算法的擴(kuò)展性能評(píng)估由合成數(shù)據(jù)集測(cè)試,Gao等[8]在不斷增加合成數(shù)據(jù)行、列和閾值數(shù)量的情況下,記錄算法的運(yùn)行時(shí)間,由此來(lái)評(píng)估該算法效率。

3 總結(jié)

雙聚類(lèi)是一個(gè)較為年輕的學(xué)術(shù)領(lǐng)域,在如今各種數(shù)據(jù)規(guī)模呈指數(shù)級(jí)別增長(zhǎng)的年代,對(duì)它的研究有著重要的意義。本文主要介紹了雙聚類(lèi)在生物基因分析領(lǐng)域中的發(fā)展歷程,許多其它新興的領(lǐng)域(如數(shù)據(jù)挖掘,文本挖掘,推薦系統(tǒng),電子商務(wù)等)都需要我們?nèi)ヌ剿髋c研究。

[1]Hartigan J A.Direct clustering of a data matrix.[J].Journal of the American Statistical Association,1972,67:123-129.

[2]Getz G,Levine E,Domany E.Coupled two-way clustering analysis of gene microarray data.[J].Proceedings of the national academy of sciences of the united states of america,2000:12079-12084.

[3]Cheng Y,Church G M.Biclustering of expression data.[J].In proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology,2000:75-85.

[4]Ben-Dor A,Chor B,Karp R et al.Discovering local structure in gene expression data:the order-preserving submatrix problem.[J].In proceedings of the 6th international conference on computacional biology, 2002:49-57.

[5]Alizadeh A A,Eisen M B,Davis R E et al.Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling.[J].Nature,2000,403:503-511.

[6]Hedenfalk I,Duggan D,Chen Y et al.Gene-expression profiles in hereditary breast cancer.[J].New England Journal of Medicine, 2001,344(8):539-548.

[7]Preli?A,Bleuler S,Zimmermann P et al.A systematic comparison and evaluation of biclustering methods for gene expression data.[J].Bioinformatics,2006,22(9):1122-1129.

[8]Byron J G,Griffith O L,Ester M et al.On the deep Order-Preserving submatrix problem:a best effort approach.[J].Journal of IEEE Transactions on Knowledge and Data,2012,24(2):309-325.

李美航(1990-),男,碩士,研究方向?yàn)閿?shù)據(jù)挖掘、雙聚類(lèi)分析;黃英仁(1992-),男,本科,研究方向?yàn)閿?shù)據(jù)挖掘。

猜你喜歡
常量聚類(lèi)數(shù)值
用固定數(shù)值計(jì)算
科學(xué)照亮世界
——卡文迪什測(cè)定萬(wàn)有引力常量
數(shù)值大小比較“招招鮮”
基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
基于Fluent的GTAW數(shù)值模擬
焊接(2016年2期)2016-02-27 13:01:02
基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
低氧低分壓環(huán)境下泡塑吸附火焰原子吸收光譜法測(cè)定常量金
西藏科技(2015年1期)2015-09-26 12:09:20
一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
自適應(yīng)確定K-means算法的聚類(lèi)數(shù):以遙感圖像聚類(lèi)為例
論常量函數(shù)的充分必要條件
尚志市| 玛多县| 辉南县| 土默特左旗| 涟水县| 湟源县| 通许县| 疏附县| 荆州市| 石渠县| 安国市| 琼海市| 普兰县| 贡山| 将乐县| 济阳县| 洛隆县| 台北市| 台湾省| 攀枝花市| 从江县| 长寿区| 东至县| 交城县| 保德县| 福海县| 渑池县| 友谊县| 乌拉特前旗| 天镇县| 通州区| 同心县| 哈尔滨市| 松潘县| 西贡区| 连云港市| 玉门市| 鸡东县| 漳浦县| 池州市| 榆社县|