国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

平滑l0范數(shù)約束的β-NMF及其在聚類中的應(yīng)用

2018-03-19 07:14:30游春芝
關(guān)鍵詞:散度范數(shù)聚類

崔 建, 游春芝

(山西醫(yī)科大學(xué)汾陽學(xué)院 基礎(chǔ)醫(yī)學(xué)部, 山西 呂梁 032200)

0 引 言

近年來隨著基因技術(shù)的快速發(fā)展,通過腫瘤基因表達(dá)數(shù)據(jù)來發(fā)掘基因路徑、基因聚類和基因功能預(yù)測(cè)已經(jīng)成為生物學(xué)家研究的熱門領(lǐng)域。而就目前來說,人們對(duì)腫瘤基因表達(dá)數(shù)據(jù)的研究大致可以分為3個(gè)階段:第一階段,采用統(tǒng)計(jì)的相關(guān)方法對(duì)單個(gè)基因進(jìn)行差異性判斷;第二階段主要集中于根據(jù)基因之間的相似或者內(nèi)在的相互作用來實(shí)現(xiàn)對(duì)基因的分組;第三階段一般采用反向工程預(yù)測(cè)潛在的腫瘤基因表達(dá)控制網(wǎng)絡(luò)。現(xiàn)在生物學(xué)家得到的數(shù)據(jù)很大一部分是基于無監(jiān)督的,因此對(duì)腫瘤基因表達(dá)數(shù)據(jù)的研究主要集中在第二階段,也就是通過聚類的方法來挖掘腫瘤基因表達(dá)數(shù)據(jù)中具有相似功能的基因。

目前,常用的聚類方法大致有基于K-means聚類[1、2]、主成分(PCA)[3]聚類法、獨(dú)立成分分析[4](ICA)聚類等。但是這些算法的聚類效果與實(shí)驗(yàn)時(shí)所用的數(shù)據(jù)以及聚類時(shí)所用的相似度函數(shù)有很大的相關(guān)性。雖然主成分分析和獨(dú)立成分分析都能進(jìn)行數(shù)據(jù)的特征提取以及聚類,但是他們只能是提取到整體的特征,而且對(duì)數(shù)據(jù)進(jìn)行描述時(shí)允許數(shù)據(jù)中存在負(fù)數(shù)。而非負(fù)矩陣分解(NMF)[5]不但能夠提取數(shù)據(jù)的整體特征而且也可以提取部分特征并對(duì)原數(shù)據(jù)進(jìn)行純加性的線性組合來描述。NMF被認(rèn)為是一種對(duì)數(shù)據(jù)分析很有用的技術(shù),它被廣泛地應(yīng)用到語音信號(hào)處理[6]、數(shù)據(jù)聚類[7]、圖像分析[8]等研究領(lǐng)域。對(duì)于基因表達(dá)數(shù)據(jù)這種高維、高噪聲、高冗余性等特點(diǎn),應(yīng)用傳統(tǒng)的非負(fù)矩陣分解聚類效果都不是很理想,隨著矩陣分解理論的完善,為了適應(yīng)這個(gè)領(lǐng)域的需求,很多改進(jìn)的算法相繼被提出,如在文獻(xiàn)[9]中改進(jìn)的基于限制性非負(fù)矩陣分解(CNMF)、文獻(xiàn)[10]提出了一種非平滑的非負(fù)矩陣分解(SNNMF)。目前提出的相關(guān)非負(fù)矩陣分解目標(biāo)函數(shù)主要集中在歐式距離、KL散度、α散度、最大熵準(zhǔn)則[11]等。本文針對(duì)基因聚類提出了一種平滑l0范數(shù)約束的β散度[12]矩陣分解結(jié)合K均值的聚類算法。

1 非負(fù)矩陣分解

非負(fù)矩陣分解(NMF)的原理是把一個(gè)m×n矩陣V分解為一個(gè)m×k非負(fù)矩陣W和一個(gè)k×n的非負(fù)矩陣H的乘積,即

V≈WH

(1)

其中k需滿足(m+n)k

而對(duì)于NMF來說對(duì)應(yīng)的目標(biāo)函數(shù)主要有兩種形式:一種是基于歐氏距離(ED)分解的;而另一種目標(biāo)函數(shù)則是基于廣義KL散度的。

基于歐氏距離的分解:

(2)

當(dāng)且僅當(dāng)V=WH時(shí)達(dá)到最小值0。

基于KL散度的非負(fù)矩陣分解:

(3)

基于KL散度的目標(biāo)函數(shù)實(shí)際表示的是V和WH的相對(duì)熵,因?yàn)樗欠菍?duì)稱的,所以并不表示一個(gè)距離。式(3)是在約束條件W>0,H>0下對(duì)目標(biāo)函數(shù)D(V‖WH)最小化。對(duì)于式(2)、式(3)兩個(gè)目標(biāo)函數(shù)只能取W或者H中一個(gè)為凸,而不是同時(shí)取到,所以式(3)只能取到局部的最優(yōu)解。

對(duì)于式(2)Lee和Seung提供了一種基于梯度下降迭代算法。其規(guī)則迭代為

(4)

(5)

對(duì)于式(3)的迭代規(guī)則為

(6)

(7)

其中i=1…m,j=1…n,?表示對(duì)應(yīng)的元素乘積。

2 基于平滑l0范數(shù)約束的β-NMF

2.1 β散度的非負(fù)矩陣分解(β-NMF)

β散度的非負(fù)矩陣分解準(zhǔn)則函數(shù)為

(8)

在W>0,H>0的限制條件下,要使得準(zhǔn)則函數(shù)也就是目標(biāo)函數(shù)達(dá)到最小,通過梯度下降法得出如下乘積迭代規(guī)則:

(9)

(10)

2.2 基于平滑l0范數(shù)約束的β-NMF

對(duì)矩陣W定義如下函數(shù):

(11)

當(dāng)σ→0時(shí),有JW→‖W‖0,其中‖W‖0表示l0范數(shù),其對(duì)應(yīng)的值為W中非零元素的個(gè)數(shù),用于表示它的稀疏性。當(dāng)σ越小,相似程度越高。

將式(11)代入式(8),就得到了一種基于平滑l0范數(shù)的β散度的非負(fù)矩陣分解,其目標(biāo)函數(shù)歸結(jié)為以下的優(yōu)化問題:

(12)

(13)

(14)

(15)

用標(biāo)準(zhǔn)的梯度下降法有:

(16)

(17)

取步長(zhǎng)ηW和ηH為

(18)

(19)

分別代入得到如下更新規(guī)則:

(20)

(21)

如上基于平滑l0范數(shù)約束的β-NMF算法實(shí)現(xiàn)可歸納為

(1) 初始化。首先輸入V,k待定,初始矩陣W1和H1,參數(shù)β,σ,aW;

(2) 迭代更新。將初始矩陣W1和H1帶入式(20)和式(21)求解W和H;

(3) 終止條件。當(dāng)?shù)螖?shù)或者目標(biāo)函數(shù)值小于閾值則算法終止;否則返回(2)。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)

對(duì)于腫瘤基因選擇5種公開的常用數(shù)據(jù);數(shù)據(jù)1(Brain_Tumors)腦部腫瘤表達(dá)數(shù)據(jù),共5個(gè)種類,80個(gè)樣本;數(shù)據(jù)2(Leukemial)是3類白血病基因表達(dá)數(shù)據(jù)共72個(gè)樣本組成;數(shù)據(jù)3(9_Tumors)的9種腫瘤基因組成;數(shù)據(jù)4(SRBCT)兒童校園藍(lán)細(xì)胞腫瘤;數(shù)據(jù)5(DLBCL)彌漫性大B細(xì)胞淋巴瘤。實(shí)驗(yàn)數(shù)據(jù)如表1所示:

表1 腫瘤基因表達(dá)數(shù)據(jù)

3.2 基因表達(dá)數(shù)據(jù)聚類效果評(píng)價(jià)方法

目前,對(duì)數(shù)據(jù)聚類效果進(jìn)行評(píng)價(jià)的方法有很多種:聚類準(zhǔn)確率(Accuracy)、歸一化互信息[8]以及聚類穩(wěn)定性等。而本文中取聚類準(zhǔn)確率作為實(shí)驗(yàn)的結(jié)果。聚類準(zhǔn)確率的計(jì)算是通過對(duì)比獲得的樣本標(biāo)簽與已知數(shù)據(jù)集的標(biāo)簽一致性來實(shí)現(xiàn)。對(duì)于給定的包含m個(gè)樣本的屬于c類的微陣列數(shù)據(jù)集,假設(shè)c是給定的,對(duì)于給定樣本V,cn是通過各種聚類算法得到的樣本標(biāo)簽,rn是數(shù)據(jù)集中附帶的類別標(biāo)簽。聚類的準(zhǔn)確率如下:

(22)

其中,I(X,Y)表示一個(gè)符號(hào)函數(shù),當(dāng)X=Y時(shí),I(X,Y)=1,否則I(X,Y)=0,map(cn)是一個(gè)從聚類實(shí)驗(yàn)所得標(biāo)簽到已知標(biāo)簽之間的一個(gè)映射。

3.3 實(shí)驗(yàn)數(shù)值設(shè)置及結(jié)果分析

實(shí)驗(yàn)中所得到的矩陣為W和H,W作為特征矩陣,其大小為n×k,其中n為樣本個(gè)數(shù),k為提取的特征維數(shù),取值為10。實(shí)驗(yàn)中用K-means對(duì)所提取的特征矩陣進(jìn)行聚類??紤]初始值對(duì)實(shí)驗(yàn)的影響,在每個(gè)數(shù)據(jù)上隨機(jī)取不同的初始值,重復(fù)進(jìn)行20次實(shí)驗(yàn)。其中aW的選擇是根據(jù)指數(shù)原則[13]選取,aW=γWexp(ιW*L),其中L表示迭代次數(shù),根據(jù)文獻(xiàn)[13],實(shí)驗(yàn)中取參數(shù)γW、ιW、β、σ分別為100、0.01、0.2、0.05。

實(shí)驗(yàn)中取標(biāo)準(zhǔn)的NMF(ED)、KL散度的NMF、β-NMF、S(β-NMF)4種方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表2顯示。從表2中不難發(fā)現(xiàn)基于平滑l0范數(shù)的β散度的非負(fù)矩陣分解新方法(S(β-NMF))平均聚類精度達(dá)到70%,比β-NMF高出3%,比傳統(tǒng)的NMF(ED)高出11%,相比較本文提出的算法聚類效果顯著。

表2 聚類精度

4 結(jié) 論

近年來NMF算法被廣泛用于圖像識(shí)別、分類、基因聚類等方面。本文在平滑l0范數(shù)約束的β散度非負(fù)矩陣分解算法對(duì)腫瘤基因表達(dá)數(shù)據(jù)進(jìn)行特征提取,并進(jìn)行聚類。通過最后的實(shí)驗(yàn)效果可看出該算法的有效性和可行性。盡管該算法在實(shí)際應(yīng)用中取得一定的成功,但是由于初始矩陣的隨機(jī)選擇,導(dǎo)致得到的分解矩陣結(jié)果不穩(wěn)定,所以如何提高分解的穩(wěn)定性還有待研究。

[1] DHILLON I S, MODHA D S. Concept Decomposition for Large Sparse Text Data Using Clustering[J].Machine Learning, 2001, 42(1-2): 143-175

[2] 但漢輝 ,張玉芳 ,張世勇.一種改進(jìn)的K-均值聚類算法[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,26(2):144-147

DAN H H,ZHANG Y F,ZHANG S Y.An Improved K-Means Clustering Algorithm[J].Journal of Chongqing Technology and Business University(Naturnal Science Edition),2009,26(2);144-147

[3] JOLLIFFE I T. Principal Component Analysis[M].New York: Springer-Verlag,1989: 151-156

[4] SHENG J H, DENG H W, CALHOUN V D,et al.Integrated Analysis of Gene Expression and Copy Number Data on Gene Shaving Using Independent Component Analysis [J]. Computation Biology and Bioinformatics, IEEE/ACM-Transactions,2011,8(6):1568-1579

[5] LEE D D,SEUNG H S.Learning the Parts of Objects by Non-negative Matrix Factorization[J].Nature,1999, 40(1):788-791

[6] SHAHNAZ F B,MICHAEL W, PAUCA V P, et al.Document Clustering Using Non-negative Matrix Factorization[J]. Information Processing and Management,2006,42 (2) : 373-386

[7] LIU W X,YE D T,YUAN K H.On Alpha Divergence Based Non-negative Matrix Factorization for Clustering Cancer Gene Expression Data[J].Artificial Intelligence in Medicine,2008,44 (1):1-5

[8] LIU C, ZHOU J L, LANG F G, et al. Generalized Discriminant Orthogonal Non-negative Matrix Factorization and Its Applications[J].Systems Engineering and Electronics,2011, 33(10):2327-2330

[9] LIU H F.Constrained Non-negative Matrix Factorization for Image Representation[J]. IEEE Transactions Pattern Analysis and Machine Intelligence,2012,34(7):1299-1311

[10] CARMONA-SAEZ P, PASCUAL-MARQUI R,TIRADO F,et al. Clustering of Gene Expression Data by Non-smooth Non-negative Matrix Factorization[J].Transactions Pattern Analysis and Machine Intelligence:2006,28(3):403-415

[11] 唐曉芬,陳莉.最大相關(guān)熵非負(fù)矩陣分解在基因表達(dá)數(shù)據(jù)中的應(yīng)用[J].計(jì)算機(jī)與應(yīng)用化學(xué):2013 ,30(11):1375-1378

TANG X F,CHEN L.Clustering of Gene Expression Data Based on Non-negative Matrix Factor-ization by Maximizing Entropy[J].Computers and Applied Chemistry,2013,30(11): 1375 -1378

[12] JOHN W,SONS L.Non-negative Matrix and Tensor factorization[M]. Singapore:Fabulous,2009:154-155

[13] ZDUNEK R,CICHOCKIA A. Non-negative Matrix Factorization with Constrained Second Order Opti-mization[J].Signal Processing,2007,87(8);1904-1916

猜你喜歡
散度范數(shù)聚類
帶勢(shì)加權(quán)散度形式的Grushin型退化橢圓算子的Dirichlet特征值的上下界
具有部分BMO系數(shù)的非散度型拋物方程的Lorentz估計(jì)
H型群上一類散度形算子的特征值估計(jì)
基于DBSACN聚類算法的XML文檔聚類
基于加權(quán)核范數(shù)與范數(shù)的魯棒主成分分析
矩陣酉不變范數(shù)H?lder不等式及其應(yīng)用
H?rmander 向量場(chǎng)上散度型拋物方程弱解的Orlicz估計(jì)
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
一類具有準(zhǔn)齊次核的Hilbert型奇異重積分算子的范數(shù)及應(yīng)用
无棣县| 兴仁县| 绥江县| 泾川县| 修文县| 长垣县| 全椒县| 栾城县| 灵川县| 探索| 福州市| 永宁县| 南澳县| 临沧市| 新疆| 北安市| 潼南县| 灵台县| 大兴区| 黄浦区| 通州区| 镇安县| 海原县| 太保市| 绥阳县| 辉县市| 平阳县| 万全县| 乐业县| 铁力市| 河北区| 海丰县| 鹤岗市| 名山县| 尚义县| 宁德市| 桐梓县| 普兰县| 辰溪县| 海安县| 海门市|