李安慶,方國濤,高振楠,丁業(yè)兵
(安徽郵電職業(yè)學(xué)院,安徽 合肥 230031)
基于點(diǎn)的代數(shù)連通強(qiáng)度與PCA的腫瘤分類研究
李安慶,方國濤,高振楠,丁業(yè)兵
(安徽郵電職業(yè)學(xué)院,安徽合肥230031)
通過基因的表達(dá)水平來判別腫瘤的類別已成為后基因組時(shí)代的一個(gè)研究熱點(diǎn).針對(duì)腫瘤分類進(jìn)行了相關(guān)研究,提出了一種新的分類方法.首先利用點(diǎn)的代數(shù)連通強(qiáng)度(the Algebraic Connectivity Strength of Point,ACSP)剔除受外界因素影響過大的基因數(shù)據(jù)并用修正的特征記分準(zhǔn)則(Revised Feature Score Criterion,RFSC)判別進(jìn)行計(jì)分排序,選取高計(jì)分的作為基因子集;接著運(yùn)用主成分分析(the principal component analysis,PCA)提取主成分以消除基因間存在的相關(guān)性冗余信息,同時(shí)將基因子集映射到極低維的特征空間;最后利用支持向量機(jī)(the support vector machines,SVM)分類器進(jìn)行分類.本文通過多個(gè)典型腫瘤基因數(shù)據(jù)集的實(shí)驗(yàn),其結(jié)果驗(yàn)證了本文方法是有效的、可行的.
點(diǎn)的代數(shù)連通強(qiáng)度;特征記分準(zhǔn)則;主成分分析;支持向量機(jī)
隨著基因數(shù)據(jù)獲取技術(shù)的進(jìn)步,人類認(rèn)識(shí)與分析腫瘤及其類型又有了新的途徑和方法.針對(duì)傳統(tǒng)腫瘤診斷與治療的不足,如發(fā)現(xiàn)時(shí)間晚、治療效果差等,于是人類不斷探索新的途徑.基于微陣列技術(shù)[1],使得同時(shí)大規(guī)模觀察基因表達(dá)水平成為可能.如果能夠從這些基因表達(dá)譜數(shù)據(jù)中挖掘出有用的信息,則對(duì)腫瘤醫(yī)學(xué)起到巨大的推動(dòng)作用.
至從1999年,文獻(xiàn)[2]成功提出了以“信噪比”作為衡量基因類別信息量的一種手段進(jìn)行區(qū)分急性白血病的2個(gè)亞型一來,面對(duì)“人類基因組”項(xiàng)目以后的產(chǎn)生的海量基因數(shù)據(jù),如何挖掘出其中蘊(yùn)含的有用信息是已經(jīng)擺在廣大學(xué)者面前的一道難題,針對(duì)基因表達(dá)譜數(shù)據(jù)樣本少、維數(shù)高以及冗余信息多的特點(diǎn),已有研究做了大量工作.Alizadeh等人在2000年利用聚類分析的方法發(fā)現(xiàn)了淋巴瘤的兩種亞類型;在同時(shí)期,典型方法有人工神經(jīng)網(wǎng)絡(luò)法、貝葉斯法、SVM[2].由于理論知識(shí)的不斷發(fā)展與計(jì)算能力的快速增強(qiáng),挖掘基因表達(dá)譜數(shù)據(jù)的方法也得到了巨大進(jìn)步.像Sigh D等人[3]基于前列腺癌數(shù)據(jù)集,結(jié)合了“Signal—Noise Ratio”和K近鄰算法對(duì)其進(jìn)行了識(shí)別分析;而文獻(xiàn)[4]將稀疏非負(fù)矩陣分解方法引入到腫瘤領(lǐng)域中,對(duì)乳腺癌數(shù)據(jù)進(jìn)行了雙向聚類分析;阮曉鋼等人提出了組合方法——CLUSTER_S2N的方法來分析腫瘤信息基因,并對(duì)急性白血病的類型進(jìn)行了預(yù)測實(shí)驗(yàn).然而,基于融合多種理論方法的腫瘤基因表達(dá)譜數(shù)據(jù)處理技術(shù)變得越來越流行,像信息熵概念與SVM結(jié)合的方法[6]對(duì)前列腺癌基因表達(dá)數(shù)據(jù)進(jìn)行了有效識(shí)別.文獻(xiàn)[7]融合了PCA與ICA方法去識(shí)別胃癌表達(dá)譜差異基因以促進(jìn)結(jié)果的最終判別的準(zhǔn)確度;文獻(xiàn)[8]利用鄰接矩陣分解基因表達(dá)譜數(shù)據(jù),再運(yùn)用PCA分析獲取主分量的方法尋找結(jié)腸癌信息基因等.這些方法有效促進(jìn)了基因數(shù)據(jù)挖掘研究的發(fā)展.
前期研究主要運(yùn)用某種計(jì)分準(zhǔn)則對(duì)每個(gè)基因含有的類別信息量進(jìn)行衡量,選取排列靠前的、計(jì)分高的部分特征基因子作為后續(xù)處理的數(shù)據(jù)子集,但這些方法是基于類方差和類平均值的,因此易受污染的異常值影響,使之不能客觀反映選取的基因的重要性,因此本文采用點(diǎn)的代數(shù)連通強(qiáng)度與PCA來對(duì)腫瘤基因進(jìn)行識(shí)別和分類.首先利用ACSP方法剔除受外界因素影響過大的基因數(shù)據(jù)并用RFSC方法對(duì)剩下基因進(jìn)行重要性計(jì)分,選取高計(jì)分的作為基因子集;接著運(yùn)用PCA提取主成分以消除基因間存在的相關(guān)性冗余信息,同時(shí)將基因子集映射到極低維的特征空間;最后在SVM分類器上對(duì)三組典型數(shù)據(jù)集進(jìn)行了分類實(shí)驗(yàn).
設(shè)有一完全圖F,共有N個(gè)頂點(diǎn),記V={v1,v2,…vN}為頂點(diǎn)集,其邊集為E={eij|i,j∈{i,j∈1,2,…,N}},邊eij被賦予相應(yīng)權(quán)重wi,j,對(duì)其任意節(jié)點(diǎn)vi,計(jì)算與其相鄰K個(gè)鄰接節(jié)點(diǎn)的邊權(quán)重之和,記Sum(vi)=則Sum(vi)記為vi點(diǎn)的代數(shù)連通強(qiáng)度(the Algebraic Connectivity Strength of Point,ACSP)[9].圖中點(diǎn)的代數(shù)連通強(qiáng)度可以很好的反映圖中某點(diǎn)與其他點(diǎn)的關(guān)聯(lián)程度,所得到的信息可以反映圖的基本特征信息.對(duì)于每一個(gè)基因gi,構(gòu)建一個(gè)完全圖,將該基因在同一類樣本中的表達(dá)值作為圖中的點(diǎn),則gi對(duì)應(yīng)一個(gè)點(diǎn)集:Valuei={value1i,value2i,…,valueNumi},其邊權(quán)重定義如下:
其中Num表示某一類的樣本個(gè)數(shù),當(dāng)鄰近點(diǎn)的數(shù)目K≈T×Num,這里T是一個(gè)參數(shù)且T∈[0,1].計(jì)算:
首先,確定最大值Sum(valueji)
然后將與Summax對(duì)應(yīng)的valueji看做中心點(diǎn).基因gi在同種類別中表達(dá)水平的均值和方差可以通過分析T×Num個(gè)相鄰的valueji來獲得(包括valueji).同樣原理,基因在不同類別中表達(dá)水平的均值和方差也可以用相同方法得到.最后,基因gi利用修訂的特征記分準(zhǔn)則[14]進(jìn)行計(jì)分.
其中,RSFC(gi)值的大小反應(yīng)了基因gi對(duì)樣本數(shù)據(jù)集中“+”類和“-”類的辨別能力,μc+、μc-和δc+、δc-分別是“+”類和“-”類樣本均值和方差.
主成分分析(PCA),作為一種有效的線性數(shù)據(jù)壓縮和降維的工具,其應(yīng)用越來越廣泛.其實(shí)質(zhì)是確定原變量xj(j=1,2,…,p)在諸主成分zi(i=1,2,…,m)上的荷載lij,把原來多個(gè)變量劃分為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法.假定腫瘤樣本經(jīng)過上述ACSP和RFSC處理后維數(shù)降為p,即p個(gè)基因,則以樣本為行,基因?yàn)榱校瑯?gòu)成一個(gè)n×p階的數(shù)據(jù)矩陣X.現(xiàn)就PCA給出如下簡要描述:
設(shè)g1,g2,…,gp為原變量指標(biāo),z1,z2,…,zm(m≤p)為新變量指標(biāo),滿足式(6).
其中系數(shù)lij的確定原則為:1)zi與zj(i≠j;i,j=1,2,…,m)相互無關(guān);2)z1是g1,g2,…,gp的一切線性組合中方差最大者;z2是與z1不相關(guān)的g1,g2,…,gp的所有線性組合中方差最大者;…;zm是與z1,z2,…,zm-1都不相關(guān)的g1,g2,…,gp的所有線性組合中方差最大者.則lij的計(jì)算為:
新變量指標(biāo)z1,z2,…,zm分別稱為原變量指標(biāo)g1,g2,…,gp的第1,第2,…,第m主成分.一般取累計(jì)貢獻(xiàn)率達(dá)80%以上的特征值為λ1,λ2,…,λm所對(duì)應(yīng)的第1、第2、…、第m(m≤p)個(gè)主成分.
3.1實(shí)驗(yàn)流程
實(shí)驗(yàn)數(shù)據(jù)為白血病、結(jié)腸癌和前列腺癌三組典型基因表達(dá)譜數(shù)據(jù)集,其中白血病數(shù)據(jù)包含52個(gè)樣本——急性淋巴性白血?。ˋLL):24和急性粒性白血?。ˋML):28,每個(gè)樣本含基因12564個(gè);而結(jié)腸癌數(shù)據(jù)的正常樣本數(shù)和癌癥樣本數(shù)分別為22個(gè)和40個(gè),含2000個(gè)基因;前列腺癌數(shù)據(jù)共102個(gè)樣本,其中有50個(gè)正常樣本和52個(gè)癌癥樣本,含12600個(gè)基因(URL:http://www.broad.mit.edu/cgibin/caner/datasets.cgi).由于基因表達(dá)譜數(shù)據(jù)普遍為小樣本數(shù)據(jù),故本文基于留一法進(jìn)行實(shí)驗(yàn),即循環(huán)抽取所有樣本的每一個(gè)作為測試樣本,剩下樣本作為訓(xùn)練樣本進(jìn)行實(shí)驗(yàn).
綜上所述,實(shí)驗(yàn)具體步驟如下:
1)利用ACSP(經(jīng)多次試驗(yàn),選取T=0.8),獲取更加客觀的基因表達(dá)水平;
2)在第1步的基礎(chǔ)上,運(yùn)用RFSC對(duì)所有基因進(jìn)行重要性記分并按降序排列;
3)通過RFSC記分準(zhǔn)則選取特征基因子集,基于PCA降維,對(duì)該子集進(jìn)行主成分提??;
4)最后在三組公開的數(shù)據(jù)集上,利用SVM分類器對(duì)其進(jìn)行了腫瘤類型與分析.
3.2實(shí)驗(yàn)結(jié)果與分析
首先以結(jié)腸癌為例進(jìn)行了實(shí)驗(yàn)分析,通過ACSP使得結(jié)腸癌數(shù)據(jù)集中的正常樣本類和癌癥樣本類中客觀的基因表達(dá)值得到保留.圖中顯示了通過ACSP方法后利用RFSC算法獲取最高分值的基因在所有樣本中的表達(dá)水平(No.1168,即基因表達(dá)譜數(shù)據(jù)中列號(hào),行表示樣本,列表示基因),與之對(duì)比的沒有經(jīng)過ACSP處理的.
ACSP+RFSC獲取的最高分基因(a)與RFSC選取的基因(b)
通過ACSP+RFSC算法獲取的最高分基因No.1168,除了正常樣本類和結(jié)腸癌樣本類中幾個(gè)異常表達(dá)之外,基本能夠體現(xiàn)該基因在不同類中具有不同的表達(dá)值,且類間表達(dá)水平間距較大;而僅用RFSC獲取的最高基因No.1439,其表達(dá)水平圍繞歸一化后的0值波動(dòng),類間表達(dá)值接近,表明該基因區(qū)別不同類的能力較差.因此本文方法能夠更加客觀地、有效地獲取具有分類能力的基因.
本文提出了結(jié)合點(diǎn)的代數(shù)連通強(qiáng)度和PCA的基因腫瘤識(shí)別方法,通過三組具有代表性數(shù)據(jù)集的實(shí)驗(yàn)本文方法能夠有效識(shí)別不同腫瘤類型.由于PCA對(duì)噪聲數(shù)據(jù)敏感,而ACSP方法能夠獲取更加客觀的表達(dá)值并對(duì)噪聲進(jìn)行抑制,從而使得PCA降維更加有效,所以本文方法在識(shí)別過程中能夠得到較高的識(shí)別率.
PCA降維屬于線性降維,然而基因表達(dá)譜數(shù)據(jù)的高維性使之具有非線性特征,因此基于非線性降維與ACSP方法的結(jié)合也將值得進(jìn)一步研究.
〔1〕楊春梅,萬柏坤,梁慧嬡,等.DNA微陣列技術(shù)及其在生物醫(yī)學(xué)中的應(yīng)用[J].國外醫(yī)學(xué).生物醫(yī)學(xué)工程分冊,2002,25(5):203-206.
〔2〕王晶,周曠.基于支持向量機(jī)的腫瘤基因識(shí)別[J].計(jì)算機(jī)與數(shù)字工程,2011,9(39):3-6.
〔3〕Singh D,F(xiàn)ebbo P G,Ross K,et al.Gene expression correlates of clinical prostate cancer behavior[J].Cancer Cell,2002,1(2):203-209.
〔4〕孔薇,王娟,牟曉陽.基于改進(jìn)稀疏非負(fù)矩陣分解方法的乳腺癌微陣列表達(dá)數(shù)據(jù)分析[J].安徽醫(yī)科大學(xué)學(xué)報(bào),2013,48(7):725-729.
〔5〕阮曉鋼,晁浩.腫瘤識(shí)別過程中特征基因的選取[J].控制工程,2007,14(4):373-380.
〔6〕莊振華,王年,李學(xué)俊,等.癌癥基因表達(dá)數(shù)據(jù)的熵度量分類方法 [J].安徽大學(xué)學(xué)報(bào),2010,34(2):73-76.
〔7〕陳戰(zhàn)雷,李博宇,李益,等.結(jié)合主成分與獨(dú)立成分分析識(shí)別胃癌相關(guān)差異表達(dá)基因的方法研究[J].生物醫(yī)學(xué)工程學(xué)雜志,2013,30(5):915-918.
〔8〕陳樂,王年,蘇亮亮,等.基于鄰接譜主分量分析的腫瘤分類方法[J].安徽大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,35(4):86-91.
〔9〕Wang N,Su L L,Tang J,et al.Informative gene selection using the Algebraic Connectivity Strength of Point and Scoring Criteria[J].Chinese Science Bulletin,2013,58(6):657-661.
〔10〕李穎新,阮曉鋼,基于支持向量機(jī)的腫瘤分類特征基因選取[J].計(jì)算機(jī)研究與發(fā)展,2005,42(10):1796-1801.
TP18
A
1673-260X(2015)11-0032-03
安徽省高校優(yōu)秀青年人才基金重點(diǎn)項(xiàng)目(2013SQRL121ZD)