王年,葛芳,王俊生,唐俊
(安徽大學(xué) 計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥,230039)
DNA 微陣列技術(shù)為腫瘤學(xué)提供了一種全新的研究手段,1 次基因芯片實(shí)驗(yàn)可以獲得成千上萬(wàn)個(gè)基因的信息。隨著DNA 微陣列技術(shù)的進(jìn)步和儀器設(shè)備的更新,基因表達(dá)譜數(shù)據(jù)將不斷積累,這類(lèi)數(shù)據(jù)的主要特點(diǎn)是樣本少、維數(shù)高、冗余基因和噪聲多,因此,如何對(duì)這類(lèi)“新型”數(shù)據(jù)進(jìn)行分析,挖掘其中包含的有效信息,已成為生物信息學(xué)研究的重點(diǎn)問(wèn)題之一[1-3]。傳統(tǒng)的基因表達(dá)譜分析方法主要是對(duì)基因數(shù)據(jù)進(jìn)行信息基因選取或特征屬性提取后,再用相應(yīng)的分類(lèi)或聚類(lèi)方法對(duì)樣本進(jìn)行識(shí)別[4-6],其中聚類(lèi)是一種無(wú)監(jiān)督學(xué)習(xí)方法。傳統(tǒng)的聚類(lèi)方法,如模糊C 均值[7]和自組織映射[8]等,均要求數(shù)據(jù)呈球狀分布,且這類(lèi)算法易陷入局部最優(yōu)。近年來(lái),半監(jiān)督聚類(lèi)方法成為機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。Zhu 等[9]用高斯隨機(jī)場(chǎng)的方法處理半監(jiān)督學(xué)習(xí)問(wèn)題,提出了標(biāo)記傳播算法,并根據(jù)隨機(jī)游走對(duì)標(biāo)記傳播算法進(jìn)行了概率解釋。Wang等[10-11]基于任意數(shù)據(jù)點(diǎn)的類(lèi)標(biāo)號(hào)可以由其近鄰點(diǎn)的類(lèi)標(biāo)號(hào)進(jìn)行線性重構(gòu)的假設(shè),提出了基于線性近鄰的標(biāo)記傳播算法;Bai 等[12]將標(biāo)記傳播進(jìn)行了擴(kuò)展,提出了基于上下文分析的圖傳導(dǎo)算法,并將其應(yīng)用于圖像分割、形狀檢索和匹配等領(lǐng)域。標(biāo)記傳播是一種基于圖的半監(jiān)督聚類(lèi)方法,該方法利用少量已標(biāo)記類(lèi)別的樣本,通過(guò)傳播標(biāo)記的方式來(lái)識(shí)別未知類(lèi)別的樣本,能在任意形狀的樣本空間中進(jìn)行聚類(lèi),克服了傳統(tǒng)聚類(lèi)方法易陷入局部最優(yōu)的缺點(diǎn)。然而,原始標(biāo)記傳播算法迭代次數(shù)過(guò)大,每次迭代前都要重新標(biāo)記已知類(lèi)別的樣本,且最終的劃分準(zhǔn)則也并不明確。針對(duì)上述問(wèn)題,結(jié)合Gauss-Seidel 迭代[13]算法的思想,本文提出一種改進(jìn)的標(biāo)記傳播算法,并將其應(yīng)用于基因表達(dá)譜數(shù)據(jù)分析。通過(guò)對(duì)白血病和結(jié)腸癌數(shù)據(jù)集的實(shí)驗(yàn),證明本文方法的有效性。
設(shè){ g1, g2, …, gm}表示一個(gè)樣本中所有基因構(gòu)成的集合,其中 gj(1≤ j ≤ m)表示1 個(gè)基因,m 表示基因個(gè)數(shù);設(shè){ x1, x2, …, xn}表示由所有實(shí)驗(yàn)樣本構(gòu)成的集合,其中 xi(1≤ i ≤ n)表示在同一條件下所有基因的表達(dá)值,n 表示樣本個(gè)數(shù)。由所有樣本構(gòu)成的基因表達(dá)譜矩陣M 可表示為
其中:aij為基因gj在樣本xi中的表達(dá)值。
根據(jù)譜圖理論,以樣本為節(jié)點(diǎn)構(gòu)造賦權(quán)圖G(V,E)(其中:V 為待聚類(lèi)的樣本集;E=V×V 表示邊集)。設(shè)節(jié)點(diǎn)xi和xj之間的邊權(quán)值為Wij,本文所選擇的相似性度量為
其中: i ,j=1,2, … ,n;dij表示節(jié)點(diǎn)xi和xj之間的歐氏距離;σ 為權(quán)重參數(shù),通常,σ 可以根據(jù)節(jié)點(diǎn)xi和xj的K 個(gè)近鄰的平均距離來(lái)自適應(yīng)調(diào)整[14],K 是一個(gè)經(jīng)驗(yàn)值。顯然,對(duì)于任意的xi,xj和σ ,有0≤Wij≤1,反映了節(jié)點(diǎn)xi和xj之間的親近程度,Wij越大,則節(jié)點(diǎn)xi和xj越有可能屬于同一類(lèi)。另外,定義如下Laplace 矩陣:
其中:D 為度對(duì)角矩陣,且有 Dii=∑kWik。
標(biāo)記傳播算法將某些樣本標(biāo)記為已知,并將樣本集劃分為已標(biāo)記樣本{ x1, x2, …, xl}和未標(biāo)記樣本{xl+1,xl+2, …,xl+u},其中,l + u=n,且滿足l<< u。令YL=(y1, y2, …, yl)表示已知樣本的標(biāo)記,同時(shí)定義一個(gè)標(biāo)記序列f=[fLfU]T表示最終的標(biāo)記結(jié)果,其中, fL=YL。標(biāo)記傳播的步驟如下。
Step 1: 傳播標(biāo)記,f←D-1Wf ;
Step 2: 強(qiáng)化標(biāo)記數(shù)據(jù), fL=YL;
Step 3: 返回Step 1,直到f 收斂。
通過(guò)step 1,將已標(biāo)記樣本節(jié)點(diǎn)的標(biāo)記傳播至相鄰的節(jié)點(diǎn);同時(shí),在標(biāo)記傳播的過(guò)程中,已知樣本的標(biāo)記是保持不變的,以保證標(biāo)記數(shù)據(jù)的強(qiáng)度,指導(dǎo)標(biāo)記傳播過(guò)程的正確性;算法迭代終止后,標(biāo)記序列f包含了樣本的類(lèi)別信息。Zhu[9]給出了標(biāo)記傳播算法的收斂解:
其中:PUU和PUL是迭代矩陣P=D-1W 的子矩陣塊,即
因此,標(biāo)記傳播算法的解將收斂于1 個(gè)固定解。需要指出的是,根據(jù)式(5)可以直接求出未知樣本的標(biāo)記。
通過(guò)上述方法任意數(shù)據(jù)點(diǎn)xi都可以映射為相應(yīng)的實(shí)數(shù)值fi,但該算法在每次迭代前都要重新標(biāo)記已知樣本,且由于標(biāo)記傳播過(guò)程和標(biāo)記強(qiáng)化過(guò)程分離,造成算法迭代次數(shù)過(guò)大;同時(shí),該算法采用0-1 標(biāo)記,需要選取適合的閾值對(duì)樣本進(jìn)行分類(lèi)。Zhu 等[9]使用的0.5 閾值缺乏穩(wěn)定性,應(yīng)用于復(fù)雜數(shù)據(jù)時(shí)并不能取得很好的效果。
設(shè)線性方程組Ax=b,矩陣A 為實(shí)對(duì)稱(chēng)矩陣,且滿足A=D - W1-W2。其中:D 為對(duì)角矩陣;W1為下三角矩陣;W2為上三角矩陣。若迭代矩陣J=(D -W1)-1W2的譜半徑 ρ(J)<1,則可以利用Gauss-Seidel迭代求解該方程組,如在第t+1次迭代后,該方程組的近似解為
令 x=f ,b=f0,其中: f0=(y1, …, yl,0, … ,0),同時(shí)令A(yù)=IL+μL,μ∈(0,1)為可調(diào)參數(shù),IL為對(duì)角矩陣,且滿足
根據(jù)Gauss-Seidel 迭代算法,經(jīng)過(guò)t+1 次迭代后,數(shù)據(jù)點(diǎn)xi的標(biāo)記為
由 于Aij=ILij+μ(Dij-Wij)=-μWij, 同 時(shí) 有Aii=ILii+μ(Dii-Wii)=ILii+μ Dii,因此,
由式(9)可知:在每次迭代過(guò)程中,數(shù)據(jù)點(diǎn)從初始標(biāo)記節(jié)點(diǎn)中獲取一部分標(biāo)記信息;同時(shí),由于相似節(jié)點(diǎn)間的權(quán)重較大,使得數(shù)據(jù)點(diǎn)可以從其近鄰點(diǎn)中獲取一部分標(biāo)記信息,當(dāng)傳播終止后,相似節(jié)點(diǎn)的分布情況也趨于一致?;?jiǎn)式(9)可得
式(10)可以改寫(xiě)為
利用式(11)更新每個(gè)數(shù)據(jù)點(diǎn)的標(biāo)記,直到收斂。這里,對(duì)初始標(biāo)記點(diǎn)使用正負(fù)標(biāo)記的方式,如對(duì)于兩類(lèi)問(wèn)題,將其中一類(lèi)的若干個(gè)樣本標(biāo)記為1,而另一類(lèi)的若干個(gè)樣本標(biāo)記為-1。對(duì)于最終的收斂結(jié)果,能以零為分割點(diǎn)對(duì)未知類(lèi)別的樣本進(jìn)行劃分。
本節(jié)將證明標(biāo)記序列f 的收斂性,展開(kāi)式(11)可得
令Q=(IL+μD -μW1)-1μW2,顯然Qij≥ 0且∑jQij<1。根據(jù)Perron-Frobenius 定理[13],Q 的譜半徑小于1;同時(shí),由于0<μ<1,且0<Wij<1,因此,
其中:E 為單位矩陣。因此, ft將最終收斂于
化簡(jiǎn)式(15),可得
因此,本文算法的解是收斂的。同樣,可以通過(guò)式(16)直接求出所有樣本的最終標(biāo)記值。
選用 2 組公開(kāi)的癌癥數(shù)據(jù)集:白血病數(shù)據(jù)(leukemia),共52 個(gè)樣本,其中24 個(gè)樣本為急性淋巴白血病(ALL),28 個(gè)樣本為急性粒細(xì)胞白血病(AML),每個(gè)樣本含有12 564 個(gè)基因表達(dá)數(shù)據(jù)(數(shù)據(jù)源于http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi) ;結(jié)腸癌數(shù)據(jù)(colon cancer),共62 個(gè)樣本,其中22 個(gè)樣本被確定為正常樣本,40 個(gè)被確定為腫瘤樣本,每個(gè)樣本含有 2 000 個(gè)基因表達(dá)數(shù)據(jù)(數(shù)據(jù)源于http://linus.nci.nih.gov/~brb/DataArchive_New.html)。本文實(shí)驗(yàn)是在酷睿雙核主頻2.60 GHz,內(nèi)存為2 G 的計(jì)算機(jī)上運(yùn)行的。
癌癥基因表達(dá)譜數(shù)據(jù)的獲取過(guò)程十分復(fù)雜,所得到的數(shù)據(jù)含有大量的噪聲,同時(shí)每個(gè)樣本都記錄了組織細(xì)胞中所有可測(cè)基因的表達(dá)水平,但只有較少數(shù)基因包含與類(lèi)別相關(guān)的信息,因此,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理是必要的,定義下式對(duì)基因表達(dá)譜數(shù)據(jù)進(jìn)行篩選:
其中:max(i)表示為第i 個(gè)基因在所有樣本中表達(dá)水平的最大值;min(i)表示為第i 個(gè)基因在所有樣本中表達(dá)水平的最小值;mean(i)表示為第i 個(gè)基因在所有樣本中表達(dá)水平的平均值;T 為給定的閾值。若某個(gè)基因的表達(dá)情況符合式(17),則將該基因剔除。
將白血病數(shù)據(jù)的第1 號(hào)樣本(ALL)標(biāo)記為1,第25 和52 號(hào)樣本(AML)標(biāo)記為-1,分別進(jìn)行t=5,10,50,100 次迭代,更新每個(gè)樣本點(diǎn)的標(biāo)記,觀察標(biāo)記序列各分量的變化,結(jié)果如圖1 所示。
圖1 中,標(biāo)記序列的前24 個(gè)分量對(duì)應(yīng)的是白血病數(shù)據(jù)集的ALL 樣本,后28 個(gè)分量對(duì)應(yīng)AML 樣本。由圖1 可知:當(dāng)進(jìn)行5 次迭代后,ALL 樣本的標(biāo)記均大于0,而AML 樣本的標(biāo)記均小于0,所有樣本被正確地劃分為2 類(lèi),證實(shí)本文方法可以快速且有效的實(shí)現(xiàn)樣本類(lèi)別的劃分;隨著迭代次數(shù)的增加,2 類(lèi)樣本標(biāo)記值的區(qū)別更加明顯,同時(shí)第1 號(hào)樣本的標(biāo)記值始終為1,而第25 和52 號(hào)樣本的標(biāo)記值始終為-1,這說(shuō)明初始標(biāo)記點(diǎn)的標(biāo)記信息在每次迭代時(shí)都被保留下來(lái);當(dāng)進(jìn)行50 次和100 迭代后,標(biāo)記序列各分量的變化并不明顯,說(shuō)明經(jīng)過(guò)較少次數(shù)的迭代就可以得到最終的收斂結(jié)果。
將結(jié)腸癌數(shù)據(jù)的第1 號(hào)樣本(正常組織樣本)標(biāo)記為1,第62 號(hào)樣本(腫瘤組織樣本)標(biāo)記為-1,同樣分別進(jìn)行t=5,20,100 和200 次迭代,結(jié)果如圖2 所示。
圖2 中,標(biāo)記序列的前22 個(gè)分量對(duì)應(yīng)的是結(jié)腸癌數(shù)據(jù)集的正常組織樣本,后40 個(gè)分量對(duì)應(yīng)腫瘤組織樣本。由圖2 可知:初始標(biāo)記點(diǎn)的標(biāo)記值在標(biāo)記傳播過(guò)程中始終保持不變。當(dāng)經(jīng)過(guò)5 次迭代后,2 類(lèi)樣本標(biāo)記的區(qū)別并不明顯,但經(jīng)過(guò)20 次迭代后,就可以看出2 類(lèi)樣本的標(biāo)記的差異性,在正常組織樣本中,第18和20 號(hào)樣本被錯(cuò)誤標(biāo)記,而在腫瘤組織樣本中,第52,55 和58 號(hào)樣本被錯(cuò)誤標(biāo)記,準(zhǔn)確率達(dá)到91.94%,在實(shí)際情況中,這些樣本中含有較多的偏離值和異常點(diǎn),從而導(dǎo)致樣本異常表達(dá);同時(shí),進(jìn)行100 次和200次迭代后,樣本標(biāo)記值的變化已并不明顯,這同樣說(shuō)明本文方法可以快速實(shí)現(xiàn)標(biāo)記序列的收斂。
在理想情況下,初始標(biāo)記點(diǎn)的選取是任意的,但在實(shí)際情況中,某些樣本含有較多的噪聲和異常表達(dá)值,若將其作為初始迭代點(diǎn),則最終的迭代結(jié)果會(huì)受到一定的影響。因此,為了觀察初始標(biāo)記點(diǎn)對(duì)最終迭代結(jié)果的影響,分別將結(jié)腸癌數(shù)據(jù)中被錯(cuò)誤標(biāo)記的第20,52 和55 號(hào)樣本標(biāo)記為已知,結(jié)果如圖3 所示。
圖1 白血病數(shù)據(jù)的標(biāo)記傳播過(guò)程Fig.1 Label propagation processes of leukemia data
圖2 結(jié)腸癌數(shù)據(jù)的標(biāo)記傳播過(guò)程Fig.2 Label propagation processes of colon cancer data
圖3 異常樣本被標(biāo)記為已知的迭代結(jié)果Fig.3 Iterative results by labeling abnormal samples
圖3(a)中僅標(biāo)記了第1 和23 號(hào)樣本;圖3(b)中除標(biāo)記第1 和23 號(hào)樣本外,同時(shí)將第20 號(hào)樣本標(biāo)記為1;圖3(c)和(d)除標(biāo)記第1 和23 號(hào)樣本外,分別將第52 號(hào)和55 號(hào)樣本標(biāo)記為-1。由圖3(b)可知:當(dāng)將第20 號(hào)樣本標(biāo)記為已知,除20 號(hào)樣本外的正常組織樣本的標(biāo)記值并沒(méi)有受到明顯的影響,腫瘤組織樣本中的第52,55 和58 號(hào)樣本的標(biāo)記值也基本沒(méi)有變化,而其他樣本標(biāo)記值的絕對(duì)值減小卻趨于減小,同時(shí)第24 和59 號(hào)樣本被錯(cuò)誤標(biāo)記到另一類(lèi)中。由圖3(c)~(d)可知:當(dāng)將第52 或55 號(hào)樣本標(biāo)記為已知時(shí),第13至22 號(hào)樣本全部被錯(cuò)誤標(biāo)記,同時(shí)第1 至12 號(hào)樣本的標(biāo)記值的絕對(duì)值也相應(yīng)地減小,這主要是由于在標(biāo)記傳播過(guò)程中,某個(gè)樣本的標(biāo)記是根據(jù)其近鄰樣本點(diǎn)的標(biāo)記進(jìn)行更新的。因此,若將某個(gè)異常表達(dá)的樣本標(biāo)記為已知,則與該樣本相似的正常表達(dá)樣本,其標(biāo)記值也會(huì)趨向于與該樣本的相似,甚至?xí)诲e(cuò)誤標(biāo)記。
為了進(jìn)一步驗(yàn)證本文方法的正確性,將本文方法與傳統(tǒng)的S2N_KNN[1]法以及另外2 種基于圖的方法即局部線性嵌入法(Locally Linear Embedding,LLE)[5,15]和歸一化割法(Normalized Cut, Ncut)[16]進(jìn)行對(duì)比。S2N_KNN 以“信噪比”為指標(biāo)選取特征基因,再用K-近鄰(KNN)分類(lèi)器對(duì)樣本進(jìn)行分類(lèi);LLE 是一種流行學(xué)習(xí)方法,本文先以LLE 提取樣本特征,再結(jié)合KNN 實(shí)現(xiàn)樣本的分類(lèi)。Ncut 通過(guò)計(jì)算規(guī)范Laplace矩陣的次小特征值對(duì)應(yīng)的特征向量(Fiedler 向量)來(lái)進(jìn)行聚類(lèi),結(jié)果如表1 所示。
表1 本文方法與另外3 種方法的實(shí)驗(yàn)結(jié)果比較Table 1 Comparisons of experiment results with other three methods
由表1 可知:無(wú)論從準(zhǔn)確率還是運(yùn)算效率方面,本文方法都比傳統(tǒng)的S2N_KNN 法的高。傳統(tǒng)方法以降維來(lái)提取特征基因勢(shì)必會(huì)丟失部分含有分類(lèi)信息的基因,而本文方法將樣本數(shù)據(jù)作為高維空間中的點(diǎn),所構(gòu)造的權(quán)值矩陣反映了樣本之間的關(guān)系,使得原來(lái)的樣本分類(lèi)信息完全映射到低維的權(quán)值矩陣中。同時(shí),本文方法首先以樣本為節(jié)點(diǎn)構(gòu)圖,其低樣本特性決定了構(gòu)造的矩陣規(guī)模較小,從而具有較低的運(yùn)算復(fù)雜度,有利于基因表達(dá)數(shù)據(jù)的快速聚類(lèi)。
另外,從準(zhǔn)確率方面,本文方法明顯高于另外2種基于圖的方法。LLE 算法是一種有效的可視化方法,但其要求數(shù)據(jù)服從流形分布,提取的特征并不具有很強(qiáng)的分類(lèi)能力。Ncut 在聚類(lèi)時(shí)傾向于所得到的類(lèi)具有相同的類(lèi)內(nèi)相似度,且Fiedler 向量并不一定能夠反映原始數(shù)據(jù)的結(jié)構(gòu);而本文方法通過(guò)在近鄰點(diǎn)之間傳播標(biāo)記的方式來(lái)學(xué)習(xí)分類(lèi),并不會(huì)受到數(shù)據(jù)分布形狀的限制。同時(shí),在效率上,本文方法并不具有明顯的優(yōu)勢(shì),這是因?yàn)檫@幾種方法都是利用構(gòu)圖的方法將高維樣本映射到低維空間,構(gòu)造的矩陣規(guī)模是相同的。
(1) 針對(duì)原始標(biāo)記傳播算法存在的問(wèn)題,結(jié)合Gauss-Seidel 迭代的思想,提出了一種改進(jìn)的標(biāo)記傳播算法,并將其應(yīng)用于基因表達(dá)譜數(shù)據(jù)分析。
(2) 通過(guò)2 組癌癥數(shù)據(jù)集的實(shí)驗(yàn),證明本文方法可以快速有效地實(shí)現(xiàn)基因表達(dá)譜數(shù)據(jù)的聚類(lèi)。該方法克服了迭代次數(shù)過(guò)大和重復(fù)標(biāo)記數(shù)據(jù)點(diǎn)的缺點(diǎn);同時(shí)在數(shù)據(jù)類(lèi)別劃分時(shí)使用正負(fù)標(biāo)記的方式,避免了采用0-1 標(biāo)記時(shí)閾值選取的不確定性。
(3) 與傳統(tǒng)標(biāo)記傳播算法一樣,該方法的不足之處是初始標(biāo)記點(diǎn)的選取對(duì)最終迭代結(jié)果具有一定的影響,這有待進(jìn)一步研究與探討。
[1] Singh D, Febbo P G, Ross K, et al. Gene expression correlates of clinical prostate cancer behavior[J]. Cancer Cell, 2002, 1(2):203-209.
[2] Dash S, Patra B. A study on gene selection and classification algorithms for classification of gene expression profile[J].International Journal of Research and Reviews in Computer Science, 2011, 2(5): 1212-1217.
[3] 沈威, 鄭明, 劉桂霞, 等. 基于奇異值求通解方法進(jìn)行基因調(diào)控網(wǎng)絡(luò)構(gòu)建[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012, 43(4):1377-1381.SHEN Wei, ZHENG Ming, LIU Guixia, et al. Construction of gene regulatory network based on singular value decomposition for solution set[J]. Journal of Central South University (Science and Technology), 2012, 43(4): 1377-1381.
[4] 李宏, 李翔, 吳敏, 等. 基于閉合模式的高維基因表達(dá)譜多類(lèi)分類(lèi)[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2008, 39(5): 1035-1041.LI Hong, LI Xiang, WU Min, et al. Multi-class classification of high-dimension gene expression profile based on closed patterns[J]. Journal of Central South University (Science and Technology), 2008, 39(5): 1035-1041.
[5] LI Bo, ZHENG Chunhou, HYANG Deshuang, et al. Gene expression data classification using locally linear discriminant embedding[J]. Computers in Biology and Medicine, 2010,40(10): 802-810.
[6] Kancherla K, Mukkamala S. Feature selection for lung cancer detection using SVM based recursive feature elimination method[J]. Machine Learning and Data Mining in Bioinformatics, 2012, 7246: 168-176.
[7] Tari L, Baral C, Kim S. Fuzzy c-means clustering with prior biological knowledge[J]. Journal of Biomedical Informatics,2009, 42(1): 74-81.
[8] Patterson A D, LI Henghong, Eichler G S, et al.UPLC-ESI-TOFMS-based metabolomics and gene expression dynamics inspector self-organizing metabolomic maps as tools for understanding the cellular response to ionizing radiation[J].American Chemical Society, 2008, 80(3): 665-674.
[9] ZHU Xiaojin. Semi-supervised learning with graphs[D].Pennsylvania: Carnegie Mellon University. School of Computer Science, 2005: 5-8.
[10] WANG Fei, ZHANG Changshui. Label propagation through linear neighborhoods[J]. IEEE Transactions on Knowledge and Data Engineering, 2008, 20(1): 55-67.
[11] WANG Jingdong, WANG Fei, ZHANG Changshui, et al. Linear neighborhood propagation and its applications[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009,31(9): 1600-1615.
[12] BAI Xiang, YANG Xingwei, Latecki L J, et al. Learning context-sensitive shape similarity by graph transduction[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010,32(5): 861-874.
[13] Saad Y. Iterative methods for sparse linear systems[M]. Boston:PWS Publishing Company, 1996: 104-107.
[14] Zelnik-Manor L, Perona P. Self-tuning spectral clustering[J].Advances in Neural Information Processing Systems, 2004,17(2): 1601-1608.
[15] Shi C, Chen L. Feature dimension reduction for microarray data analysis using locally linear embedding[C]// Proceeding of 3rd Asia-Pacific Bioinformatics Conference. London: Imperial College Press, 2005: 211-217.
[16] Dhillon I S, GUAN Yuqiang, Kulis B. Kernel k-means-spectral clustering and normalized cuts[C]// Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery, 2004: 551-556.