Boosting算法對(duì)卵巢癌代謝組數(shù)據(jù)的應(yīng)用研究*

2012-09-07 09:01武振宇賈慧珣

中國(guó)衛(wèi)生統(tǒng)計(jì) 2012年6期

武振宇賈慧珣朱驥△

武振宇1賈慧珣2朱驥2△

目的應(yīng)用Boosting算法建立模型，對(duì)卵巢癌和非卵巢癌(卵巢囊腫和子宮肌瘤)患者的尿液代謝組數(shù)據(jù)進(jìn)行分析，提取出具有生物學(xué)意義的代謝組分，為卵巢癌的早期診斷及疾病機(jī)理提供線索。方法將決策樹與Boosting算法相結(jié)合，對(duì)患者的臨床樣品代謝組數(shù)據(jù)進(jìn)行分析，并對(duì)代謝組分進(jìn)行逐步篩選，得到鑒別卵巢癌患者的重要代謝組分。結(jié)果由Boosting模型得到的排序靠前的10個(gè)差異代謝組分，能夠?qū)⒙殉舶┡c對(duì)照組患者進(jìn)行較好的判別分類，其ROC曲線下面積達(dá)到了0.944。結(jié)論 Boosting模型可以有效地應(yīng)用于卵巢癌代謝組數(shù)據(jù)，在保證較高的分類正確率的同時(shí)可以得到對(duì)分類起作用的重要的代謝組分。

代謝組學(xué) Boosting 特征篩選

*:國(guó)家青年科學(xué)基金項(xiàng)目資助(81001286);“中央高?；究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金”資助

1.復(fù)旦大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)教研室(200032)

2.復(fù)旦大學(xué)附屬腫瘤醫(yī)院臨床資料統(tǒng)計(jì)室

△通訊作者:朱驥

卵巢癌是婦科常見的惡性腫瘤之一，大約有1.4%的女性會(huì)患病，其病死率很高，對(duì)婦女生命造成嚴(yán)重威脅，國(guó)內(nèi)外臨床資料統(tǒng)計(jì)顯示其五年生存率僅25% ～30%。如果發(fā)現(xiàn)及時(shí)，90%的病人都能存活;若發(fā)現(xiàn)晚，癌細(xì)胞擴(kuò)散到卵巢，存活率就低于30%。所以早期診斷治療對(duì)于卵巢癌患者提高5年生存率具有十分重要的意義。

代謝組學(xué)研究研究特點(diǎn)是采用高通量檢測(cè)技術(shù)，對(duì)生物體代謝情況進(jìn)行整體的測(cè)量。圖1是一種代謝產(chǎn)物的總離子色譜圖和相應(yīng)的量化表，上半部分是代謝組研究中檢測(cè)得到的代謝產(chǎn)物離子色譜圖，每一個(gè)峰代表某一保留時(shí)間上的一組代謝產(chǎn)物。下半部分是由色譜圖得到的代謝產(chǎn)物的量化結(jié)果。每一列代表一個(gè)觀測(cè)對(duì)象，每一行代表一個(gè)保留時(shí)間上測(cè)得的代謝產(chǎn)物。

圖1 代謝產(chǎn)物的總離子色譜圖和相應(yīng)的量化表

利用代謝物(如尿液、血液)進(jìn)行疾病的診斷，方法簡(jiǎn)便、無(wú)創(chuàng)、患者易于接受。生物體的代謝物可能包含幾千甚至幾萬(wàn)個(gè)生物特征的信息，但限于研究成本，樣本例數(shù)通常只有數(shù)十例。因此具有生物學(xué)意義的特征篩選對(duì)于高維代謝組學(xué)數(shù)據(jù)分析來(lái)說顯得尤為重要。Boosting方法作為集成算法中的一員，一直以其優(yōu)異的性能吸引著廣大研究者。本研究的目的是對(duì)卵巢癌患者的代謝產(chǎn)物(尿液)的分析，其主要目的是篩選出能夠區(qū)分卵巢癌病人與非卵巢癌病人的生物標(biāo)志物以及對(duì)樣本進(jìn)行分類，通過比較正常和疾病狀態(tài)下代謝產(chǎn)物譜的差異，研究疾病的發(fā)生機(jī)理，為卵巢癌的臨床早期診斷、治療以及預(yù)后判斷提供重要依據(jù)和支持。

資料與方法

1．資料來(lái)源

本資料來(lái)源于2009年7月至2009年12月在哈爾濱醫(yī)科大學(xué)附屬腫瘤醫(yī)院收集37例首次發(fā)現(xiàn)并經(jīng)病理確診為卵巢癌患者(病例組)的尿樣(10ml)，同時(shí)收集患有卵巢囊腫和子宮肌瘤患者(對(duì)照組)共51例的尿樣。將所有尿樣(共88例)進(jìn)行預(yù)處理后，應(yīng)用高效液質(zhì)聯(lián)用儀進(jìn)行分析，得到23447個(gè)代謝組分。

2．研究目的和方法

(1)研究目的

①卵巢癌分類模型的建立，即采用機(jī)器學(xué)習(xí)的方法從已知的數(shù)據(jù)集中抽象出一個(gè)分類模型，使該模型能夠很好地?cái)M合當(dāng)前分類結(jié)果并能解釋其意義，對(duì)疾病的預(yù)測(cè)具有指導(dǎo)意義。② 對(duì)卵巢癌患者代謝產(chǎn)物的組分進(jìn)行分析，即從患者尿液分離出的23447個(gè)代謝組分中篩選出對(duì)疾病分類起重要作用的重要組分，為卵巢癌的研究打下基礎(chǔ)，使模型能夠?qū)εR床的診斷、治療及預(yù)后等實(shí)踐工作進(jìn)行指導(dǎo)并具有解釋意義。

(2)研究方法—Boosting方法

Boosting算法〔2－3〕基于其他機(jī)器學(xué)習(xí)算法之上的用來(lái)提高算法精度和性能的方法。起初并不需要構(gòu)造一個(gè)擬合精度高、預(yù)測(cè)能力好的算法，只要一個(gè)效果比隨機(jī)猜測(cè)略好的粗糙算法即可。通過不斷調(diào)用這個(gè)基算法來(lái)改變樣本分布和賦予判別模型不同的權(quán)重得以實(shí)現(xiàn)，最終獲得一個(gè)擬合和預(yù)測(cè)誤差都相當(dāng)好的組合預(yù)測(cè)模型。

Boosting嚴(yán)格意義上不是一個(gè)具體的學(xué)習(xí)算法，它需要給定一個(gè)弱學(xué)習(xí)算法和一個(gè)訓(xùn)練序列。初始化時(shí)給每個(gè)訓(xùn)練例賦權(quán)重為1/N。然后用選定的弱學(xué)習(xí)算法進(jìn)行第一次訓(xùn)練，給訓(xùn)練失敗的訓(xùn)練例賦以更大的權(quán)重，也就意味著在后面的學(xué)習(xí)中集中對(duì)此類訓(xùn)練例進(jìn)行學(xué)習(xí)。經(jīng)過T次訓(xùn)練后得到一個(gè)訓(xùn)練序列h1，h2，…，hT，其中hi有權(quán)重，預(yù)測(cè)效果好的預(yù)測(cè)函數(shù)權(quán)重較大，反之較小。最終的預(yù)測(cè)函數(shù)H采用有權(quán)重的投票方式產(chǎn)生。

Adaboost算法〔3－4〕

假定具有N個(gè)帶分類標(biāo)簽的樣品序列＜(x1，y1)，…，(xn，yN)＞，其中xi∈X，yi∈{－1，+1}，N個(gè)樣品點(diǎn)權(quán)重的分布為D，基礎(chǔ)弱學(xué)習(xí)算法記為Weaklearner，迭代次數(shù)為T。

① 初始化:D1(i)=1/N，其中i=1，2，…，N，對(duì)t=1，…，T循環(huán)執(zhí)行:

②用分布Dt訓(xùn)練基礎(chǔ)學(xué)習(xí)器;

③得到弱分類器ht;

④計(jì)算ht訓(xùn)練誤差εt，

⑥重新計(jì)算樣品的權(quán)重:

其中Zt=∑Dt(i)exp(－atyihi(xi))是歸一化因子(Dt+1為分布);

圖2 使用簡(jiǎn)單的線性模型作為弱分類器的Boosting算法運(yùn)算過程

Boosting算法進(jìn)行變量重要性評(píng)價(jià)原理〔5－6〕

由于決策樹具有能預(yù)測(cè)變量的重要性的優(yōu)點(diǎn)，可以對(duì)分類起作用的變量進(jìn)行重要性評(píng)價(jià)，因此考慮使用決策樹作為基函數(shù)。對(duì)于Boosting算法，在給定訓(xùn)練樣本和損失函數(shù)L(y，H)的前提下，其目的是找到一個(gè)決策樹模型的線性組合，使得該組合可以對(duì)損失函數(shù)進(jìn)行極小化優(yōu)化，即H(X)=argH(x)minEy，xL(y，H(x))，優(yōu)化的過程一般沿著目標(biāo)函數(shù)的梯度最速下降方向。最終得到的H(X)實(shí)際上是多個(gè)決策樹的線性組合。單個(gè)決策樹的變量重要性評(píng)分為由節(jié)點(diǎn)到分裂后的節(jié)點(diǎn)間誤差平方和的減少量，推廣到多個(gè)決策樹的問題上，即可以把每顆樹中該變量的重要性評(píng)分求均值。

模擬試驗(yàn)

按代謝組數(shù)據(jù)的特點(diǎn)構(gòu)造類似的數(shù)據(jù)，考察Boosting算法與決策樹結(jié)合后的判別分類模型對(duì)此類數(shù)據(jù)變量重要性度量的效果，設(shè)定5個(gè)對(duì)分類有作用的差異變量X1，X2，X3，X4，X5，兩組樣本含量設(shè)為n1=n2=30，兩類真實(shí)的區(qū)分度用ROC曲線下面積θ衡量，分別設(shè)置為θ=0.85，0.95，0.99。根據(jù)類間區(qū)分度來(lái)確定差異變量的均數(shù)，為簡(jiǎn)單起見，方差均設(shè)為==1，其中X1與X2兩個(gè)變量的相關(guān)系數(shù)設(shè)為ρ=0.5。加入1000個(gè)無(wú)差異的正態(tài)變量作為干擾，產(chǎn)生混合樣本。應(yīng)用Boosting方法構(gòu)建的模型對(duì)變量重要性進(jìn)行度量。重復(fù)上述步驟500次，表1給出的是預(yù)先設(shè)置的差異變量的頻數(shù)分布情況。結(jié)果顯示，θ=0.85在時(shí)獲得的結(jié)果不夠理想，而在兩種較高的區(qū)分度下，正確地將差異變量篩選到前10位的百分率分別達(dá)到了98．6%甚至于100．0%，結(jié)果令人滿意。

表1 設(shè)定的5個(gè)差異變量在變量重要性評(píng)價(jià)分析中的頻數(shù)分布

實(shí)例分析

病例入選標(biāo)準(zhǔn)，納入病例應(yīng)為無(wú)代謝疾病(糖尿病、高血脂、甲亢、甲減等)的卵巢癌、良性卵巢囊腫和無(wú)癌癥及卵巢疾病的對(duì)照女性。

由于在Windows操作系統(tǒng)下，使用R語(yǔ)言構(gòu)建BTS對(duì)變量的個(gè)數(shù)有一定的限制，因此首先應(yīng)用單變量分析方法(SAM)做預(yù)處理后，然后再用BTS模型進(jìn)行分析。經(jīng)過SAM方法分析后，選取SAM得分排在前2000的代謝組分進(jìn)行分析，應(yīng)用Boosting組合模型對(duì)經(jīng)過預(yù)處理的卵巢癌代謝組數(shù)據(jù)進(jìn)行了分析，利用無(wú)放回的隨機(jī)抽樣方法，將樣本分成兩部分，其中2/3為訓(xùn)練樣本，1/3為測(cè)試樣本，按此方法隨機(jī)組成1000個(gè)訓(xùn)練樣本和1000個(gè)測(cè)試樣本，建立組合分類器，最后綜合評(píng)價(jià)分類效果。評(píng)價(jià)采用靈敏度(Se)、特異度(Sp)、和ROC曲線下面積(AUC)三種指標(biāo)，其中AUC值為主要評(píng)價(jià)指標(biāo)。

圖3 在保留了2000個(gè)代謝組分的情況下Boosting模型對(duì)卵巢癌數(shù)據(jù)分類的ROC曲線

預(yù)測(cè)效果的ROC曲線見圖3?？梢钥闯?，在保留了2000個(gè)代謝組分的情況下，對(duì)外部測(cè)試集獲得了較為理想的判別分類結(jié)果，其靈敏度(Se)和特異度(Sp)分別為0.733和0.724，而ROC曲線下面積(AUC)則達(dá)到0.801。判別分類效果不甚理想，可能是由于噪聲變量(或?qū)Ψ诸悷o(wú)作用的代謝組分)太多引起的。

應(yīng)用Boosting模型進(jìn)行分類的同時(shí)，篩選出排序靠前的對(duì)分類起作用的變量。篩選標(biāo)準(zhǔn)是將1000次分類中篩選進(jìn)來(lái)的變量出現(xiàn)的概率≥80% 的變量提取出來(lái)，共提出30個(gè)變量。將篩選出的這30個(gè)變量對(duì)卵巢癌數(shù)據(jù)的外部驗(yàn)證集進(jìn)行1000次分類判別，得到的分類結(jié)果(AUC值)的頻數(shù)圖如下，由圖4可以看出分類能力顯著提高?？梢娺@30個(gè)變量中一定存在對(duì)分類起作用的信息。

圖4 應(yīng)用篩選出的30個(gè)變量進(jìn)行1000次分類得到的AUC值的頻數(shù)圖

為了篩選出最佳對(duì)分類起作用的變量，進(jìn)行了進(jìn)一步的變量提取工作。將30個(gè)變量按照變量重要性評(píng)分逐漸遞減，并用分類結(jié)果作驗(yàn)證。從表2和圖5可以看出，當(dāng)截取到10個(gè)變量的時(shí)候，分類判別能力達(dá)到理想的效果?？梢娺@10個(gè)代謝組分可能是區(qū)分卵巢癌患者與對(duì)照組患者的重要標(biāo)志物。

表2 隨著變量數(shù)目的減少分類結(jié)果AUC值的變化

圖5 隨著變量數(shù)目的減少分類結(jié)果AUC值的變化

討論

1.卵巢癌的早期診斷與早期治療是改善預(yù)后的關(guān)鍵。在疾病早期腫瘤僅局限于卵巢時(shí)難以診斷，所以尋找有實(shí)用價(jià)值的診斷方法成了近年來(lái)的研究熱點(diǎn)。代謝組學(xué)的研究近年來(lái)蓬勃發(fā)展，如果我們僅通過患者的代謝物(血液或尿液)即能夠做出正確的診斷，不僅給臨床的診斷工作帶來(lái)極大的便利，也為患者減輕做病理所帶來(lái)的痛苦。所以運(yùn)用代謝物來(lái)鑒別腫瘤的良惡性將是一件很有意義的工作。

2.本研究采用分類決策樹作為基礎(chǔ)算法，應(yīng)用Boosting方法建模，在模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)的應(yīng)用中均取得了理想的結(jié)果。在對(duì)卵巢癌代謝組實(shí)際數(shù)據(jù)的分析中，該模型能夠在分類的同時(shí)給出差異表達(dá)代謝組分的變量重要性評(píng)分，并由進(jìn)一步的分類驗(yàn)證可以看出，該模型預(yù)測(cè)的準(zhǔn)確性也能夠令人滿意，為臨床上對(duì)卵巢癌患者的診斷和治療提供了一定的依據(jù)。

3.此方法篩選出的10個(gè)代謝組分，通過HMDB數(shù)據(jù)庫(kù)的查詢，多數(shù)可能為磷脂類的物質(zhì)，但由于大量同分異構(gòu)體的存在，為了確保究竟是何種代謝組分，應(yīng)該將物質(zhì)打碎進(jìn)一步做二級(jí)質(zhì)譜以確定是何種代謝組分，這部分試驗(yàn)尚在進(jìn)行之中。

1．Jerome F，Trevor H，Robert T．Additive logistic regression:a statistical view of Boosting．The annals of Statistics，2000，28:337-407．

2．Schwenk H，Bengio Y．Boosting networks and neural computation，2000，12(8):1869-1887．

3．Servane Gey，Jean-Michel Poggi．Boosting and instability for regression trees．Computational Statistics＆ Data Analysis，2006，50:533-550．

4．Freund Y，Schapire R．Decision theoretic generalization of on-line learning and an application to boosting．Journal of Computer and System Science，1995，55(1):119-139．

5．李霞，何麗云，劉超．Boosting算法及其在中醫(yī)亞健康數(shù)據(jù)分類中的應(yīng)用．中國(guó)衛(wèi)生統(tǒng)計(jì)，2008，25(2):158-161．

6．Dao Li-li，Hu ke-yun，Lu Yu-chang．Improved stumps combined by boosting for text categorization．Journal of Software，2002，13(8):1361-1367．

The Study of Boosting Algorithm Applied to Ovarian Cancer Metabonomics Data

Wu Zhenyu，Jia Huixun，Zhu Ji．Department of Biostatistics，F(xiàn)udan University(200032)，Shanghai

ObjectiveBoosting model was built to analyze the metabonomics data from ovarian cancer and ovarian cyst patients urine．Some biological metabolites were also extracted from the data，which would provide some clues to the early diagnosis.MethodsBoosting and decision tress were combined to analyze the metabnomics data and the important metabolites were achieved according to their importance scores.ResultsThe top ten metabolites were extracted and the area under ROC curve was 0.944，which provided a better classification results than the original dataset.ConclusionBoosting could be effectively applied to the classification of ovarian cancer metabnomics data，important features could also be extracted at the same time．

Metabnomics data;Boosting;Feature selection

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Boosting算法對(duì)卵巢癌代謝組數(shù)據(jù)的應(yīng)用研究*

資料與方法

1．資料來(lái)源

2．研究目的和方法

模擬試驗(yàn)

實(shí)例分析

討 論

討論