方秋蓮,周儀璇,伍 幸
(中南大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖南 長(zhǎng)沙 410083)
乳腺癌是一種發(fā)生于女性身上的惡性腫瘤[1],是目前女性中發(fā)病率最高的惡性腫瘤[2].研究表明,大多數(shù)已確診乳腺癌的患者可以通過(guò)及時(shí)有效的治療被治愈或者延長(zhǎng)生存期[3].當(dāng)前乳腺癌診療研究的發(fā)展趨勢(shì)是根據(jù)患者的遺傳和臨床信息對(duì)其進(jìn)行精準(zhǔn)預(yù)后,并基于預(yù)測(cè)結(jié)果為其制定個(gè)性化的醫(yī)療方案.生存期預(yù)測(cè)是乳腺癌預(yù)后的重要研究?jī)?nèi)容之一[4].乳腺癌的發(fā)生和發(fā)展是一個(gè)復(fù)雜、多階段和連續(xù)的過(guò)程,不僅受遺傳因素(基因突變、表觀遺傳變化、細(xì)胞生物環(huán)境、個(gè)體特有特征)影響,也受患者生活環(huán)境因素影響,涉及多種生物分子水平的變化[5].近年來(lái),得益于大規(guī)模組學(xué)數(shù)據(jù)的收集和計(jì)算方法的發(fā)展,從多個(gè)生物學(xué)層面解讀乳腺癌疾病機(jī)制的研究取得了重大進(jìn)展.由高通量實(shí)驗(yàn)技術(shù)產(chǎn)生的海量數(shù)據(jù)統(tǒng)稱(chēng)為組學(xué)數(shù)據(jù),組學(xué)數(shù)據(jù)為細(xì)胞的分子機(jī)制提供了詳細(xì)描述,不同層次組學(xué)數(shù)據(jù)在全基因組的分布狀態(tài)與乳腺癌的發(fā)生、發(fā)展、預(yù)后之間均存在關(guān)聯(lián)關(guān)系[6].目前的研究趨勢(shì)是綜合運(yùn)用多個(gè)組學(xué)的信息對(duì)乳腺癌患者進(jìn)行預(yù)后.與單一組學(xué)數(shù)據(jù)相比,多組學(xué)數(shù)據(jù)可以提供更全面的基因信息,利于更好地解釋分類(lèi)結(jié)果[7]、改善預(yù)測(cè)效果[8]、理解復(fù)雜的分子機(jī)制[9].然而,多組學(xué)數(shù)據(jù)的融合面臨許多阻礙.一方面,組學(xué)數(shù)據(jù)自身具有缺失、類(lèi)不平衡、噪聲大、復(fù)雜及維數(shù)災(zāi)難等特點(diǎn),這使計(jì)算變得困難[10].另一方面,不同來(lái)源的數(shù)據(jù)集具有異質(zhì)性,具體表現(xiàn)為數(shù)據(jù)分布、類(lèi)型、規(guī)模的差異.組學(xué)數(shù)據(jù)的這些特點(diǎn)為數(shù)據(jù)的融合過(guò)程帶來(lái)了挑戰(zhàn).
現(xiàn)有的數(shù)據(jù)融合方法可按融合的時(shí)間點(diǎn)分為5類(lèi):早期、混合、中期、晚期和分層融合[11].早期融合即在建模前將所有數(shù)據(jù)集拼接為一個(gè)大型矩陣,這種方法思想簡(jiǎn)單且易解釋?zhuān)珪?huì)得到一個(gè)更加復(fù)雜高維的矩陣,增加了后續(xù)建模難度[11].混合融合是先將原始數(shù)據(jù)轉(zhuǎn)換為低維、少噪聲的簡(jiǎn)單表達(dá),然后融合數(shù)據(jù)的簡(jiǎn)單表達(dá)[11-12].這類(lèi)方法在進(jìn)行融合前不僅降低了數(shù)據(jù)的維度,還減弱了數(shù)據(jù)集間的異質(zhì)性,如數(shù)據(jù)規(guī)模.中期融合即直接融合未經(jīng)轉(zhuǎn)換或拼接的數(shù)據(jù)集并輸出可用于后續(xù)分析的新的數(shù)據(jù)表達(dá),這類(lèi)融合方法假定所有數(shù)據(jù)集可投影到一個(gè)公共的隱空間[11,13].晚期融合也可稱(chēng)為模型融合,即先分別對(duì)所有數(shù)據(jù)集建模,然后組合模型預(yù)測(cè)結(jié)果[11,14].分層融合即在神經(jīng)網(wǎng)絡(luò)的連接結(jié)構(gòu)中引入分子通路關(guān)系的先驗(yàn)信息,可以在模型中體現(xiàn)分子層面的模塊結(jié)構(gòu)[11,15].目前盡管已經(jīng)有一些利用多組學(xué)數(shù)據(jù)預(yù)測(cè)乳腺癌患者生存期的研究,但是使用基于模型的晚期融合方法來(lái)提升預(yù)測(cè)精度的研究較少.本文采用基于模型的晚期融合方法,其優(yōu)勢(shì)在于可以根據(jù)每一個(gè)數(shù)據(jù)集的特點(diǎn)分別選擇最合適的模型,充分考慮了數(shù)據(jù)集的異質(zhì)性,且無(wú)須直接整合異質(zhì)的數(shù)據(jù).在融合環(huán)節(jié),本文采用加權(quán)平均法組合模型預(yù)測(cè)結(jié)果,其中權(quán)重的取值由模型效果和預(yù)測(cè)結(jié)果間的互信息決定,這樣的組合方式可以改善預(yù)測(cè)效果,增強(qiáng)預(yù)測(cè)結(jié)果的可解釋性.
本文使用的數(shù)據(jù)來(lái)自 METABRIC數(shù)據(jù)庫(kù)[16],包括1 981位乳腺癌患者的臨床信息數(shù)據(jù)、1 904位乳腺癌患者的基因表達(dá)信息數(shù)據(jù)以及2 173位乳腺癌患者的拷貝數(shù)變異信息數(shù)據(jù),這3個(gè)數(shù)據(jù)集可通過(guò)共同字段——“PATIENT_ID”和“Hugo_Symbol”(均代表患者編號(hào))進(jìn)行連接,患者的生存時(shí)間變量包含在臨床信息數(shù)據(jù)集中.定義患者的生存時(shí)間是否大于5年為因變量,剔除隨訪期小于5年且生存狀態(tài)為存活的樣本,最終得到的基因表達(dá)數(shù)據(jù)集樣本量為1 844,臨床信息數(shù)據(jù)集和拷貝數(shù)變異數(shù)據(jù)集樣本量均為1 917,所有患者的最短生存期為0.1個(gè)月,最長(zhǎng)生存期為29.60年,中位生存期為9.96年.
組學(xué)數(shù)據(jù)具有缺失、高維等特征,因此,需要先進(jìn)行數(shù)據(jù)清洗、缺失值插補(bǔ)、特征選擇等數(shù)據(jù)預(yù)處理工作.
本文首先剔除數(shù)據(jù)集中含缺失的樣本得到無(wú)缺失的數(shù)據(jù)集,然后在無(wú)缺失的數(shù)據(jù)集上人工隨機(jī)生成缺失,缺失的生成比例即原始數(shù)據(jù)集中該特征的缺失比例,然后基于此數(shù)據(jù)集從多個(gè)缺失值插補(bǔ)方法中選出效果最好的方法,并將該方法用于原始數(shù)據(jù)的缺失值插補(bǔ).本文用到的缺失值插補(bǔ)方法有:隨機(jī)森林預(yù)測(cè)插補(bǔ)法、K最近鄰(KNN)預(yù)測(cè)插補(bǔ)法、簡(jiǎn)單均值眾數(shù)插補(bǔ)法以及基于K-means聚類(lèi)的均值眾數(shù)插補(bǔ)法.對(duì)于數(shù)值型特征,本文采用實(shí)際值與插補(bǔ)值的均方誤差來(lái)衡量插補(bǔ)效果,對(duì)于類(lèi)別型特征,采用實(shí)際值與插補(bǔ)值的F1值來(lái)衡量插補(bǔ)效果.
本文的特征選擇過(guò)程均是在單個(gè)數(shù)據(jù)集上進(jìn)行,分為3步:
1)采用假設(shè)檢驗(yàn)法分別對(duì)3個(gè)數(shù)據(jù)集的特征進(jìn)行初篩,選擇在長(zhǎng)生存期和短生存期兩類(lèi)樣本上的分布具有顯著差異的特征.對(duì)于數(shù)值型特征:首先分別對(duì)兩類(lèi)樣本上的特征進(jìn)行Shapiro正態(tài)性檢驗(yàn)和Levene方差齊性檢驗(yàn).若兩類(lèi)樣本上的特征取值均服從正態(tài)分布且具有等方差性,則對(duì)特征進(jìn)行方差分析.若兩類(lèi)樣本上的特征取值不全服從正態(tài)分布或不具有等方差性,則對(duì)兩類(lèi)樣本上的特征進(jìn)行Wilcoxon秩和檢驗(yàn),選擇方差分析或Wilcoxon秩和檢驗(yàn)顯著的特征,將其納入特征子集[17].對(duì)于類(lèi)別型特征:首先構(gòu)建特征與因變量之間的列聯(lián)表,根據(jù)列聯(lián)表單元格中的計(jì)數(shù)來(lái)進(jìn)行相關(guān)檢驗(yàn):若全部單元格計(jì)數(shù)T≥5且樣本總數(shù)n≥40,則用Pearson卡方檢驗(yàn);若存在單元格計(jì)數(shù)1≤T<5且樣本總數(shù)n≥40,則用連續(xù)性校正的卡方檢驗(yàn);若存在單元格計(jì)數(shù)T<1或n<40,則用Fisher精確檢驗(yàn)[17].
2)對(duì)第一步選出的特征建立隨機(jī)森林模型,計(jì)算每個(gè)特征的基尼重要性和基于排列的重要性,剔除重要性為0的特征,綜合兩種特征重要性對(duì)剩下的特征進(jìn)行排序.
3)將上述特征依序逐個(gè)加入Logistic回歸模型,若加入的特征能使模型的AUC提升10-6,則將加入的特征保留下來(lái),否則將其剔除.
完成缺失值插補(bǔ)及特征選擇后,在訓(xùn)練模型之前,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化.這是因?yàn)椴糠謾C(jī)器學(xué)習(xí)模型如支持向量機(jī)、KNN等是基于距離度量進(jìn)行樣本分類(lèi)和預(yù)測(cè)的,而距離對(duì)量綱和取值范圍非常敏感.數(shù)據(jù)標(biāo)準(zhǔn)化的過(guò)程如式(1)所示:
(1)
式中:X為原始特征;Xmean為X的平均值;Xstd為X的標(biāo)準(zhǔn)差;z為標(biāo)準(zhǔn)化后的特征.
對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,為了充分利用每一個(gè)數(shù)據(jù)集的信息,本文先為單一數(shù)據(jù)集選取最優(yōu)分類(lèi)模型,模型的融合是通過(guò)對(duì)3個(gè)數(shù)據(jù)集上的最優(yōu)模型的正類(lèi)預(yù)測(cè)概率進(jìn)行加權(quán)求和實(shí)現(xiàn).圖1展示的是本文構(gòu)建多組學(xué)數(shù)據(jù)融合模型的流程.
圖1 融合模型構(gòu)建流程Fig.1 Process of integrating model building
本文采用Logistic[18]、支持向量機(jī)[19]、隨機(jī)森林[20]、Xgboost[21],以及BP神經(jīng)網(wǎng)絡(luò)[22]5種機(jī)器學(xué)習(xí)分類(lèi)算法分別對(duì)基因表達(dá)、拷貝數(shù)變異和臨床信息數(shù)據(jù)集建立5年生存期預(yù)測(cè)模型,并以模型在訓(xùn)練集上的AUC值為評(píng)價(jià)指標(biāo),分別為每種數(shù)據(jù)集選擇一個(gè)最優(yōu)預(yù)測(cè)模型.
在確定了3種數(shù)據(jù)集上的最優(yōu)預(yù)測(cè)模型后,本文通過(guò)加權(quán)最優(yōu)模型的預(yù)測(cè)結(jié)果實(shí)現(xiàn)數(shù)據(jù)融合,并在融合時(shí)給效果更好且包含更多信息的模型賦予更高的權(quán)重.
假設(shè)ge_prob,cli_prob,cnv_prob分別表示基因表達(dá)、臨床信息和拷貝數(shù)變異數(shù)據(jù)集上最優(yōu)模型的正類(lèi)預(yù)測(cè)概率,即模型預(yù)測(cè)的樣本生存期大于5年的概率,定義融合模型的預(yù)測(cè)結(jié)果final_weight_prob為:
final_weight_prob=a·ge_prob+b·cli_prob+c·cnv_prob.
(2)
若final_weight_prob大于0.5,則表示預(yù)測(cè)生存期大于5年,若final_weight_prob小于0.5,則表示預(yù)測(cè)生存期小于5年.a,b,c為權(quán)重參數(shù),當(dāng)a=b=c=1/3時(shí),融合結(jié)果為等權(quán)重的正類(lèi)預(yù)測(cè)概率加權(quán)平均.然而,由于3個(gè)模型的效果及其所利用信息存在差異,其對(duì)最終正確預(yù)測(cè)的貢獻(xiàn)是不同的,故其對(duì)應(yīng)的權(quán)重也應(yīng)不同.
設(shè)G、C、V是基因表達(dá)、臨床信息、拷貝數(shù)變異數(shù)據(jù)訓(xùn)練集上的預(yù)測(cè)結(jié)果,其取值g、c、v為0或1.令I(lǐng)(G,V)、I(G,C)、I(C,V)表示G、C、V間的互信息,其計(jì)算公式分別如式(3)~式(5)所示,由互信息的定義——兩個(gè)隨機(jī)變量共享的信息量,可知兩個(gè)預(yù)測(cè)結(jié)果的互信息值體現(xiàn)了其對(duì)應(yīng)模型共享信息的多少,互信息值越高,說(shuō)明這兩個(gè)模型共享的信息量越大,即其中任一模型所含的信息越少.
(3)
(4)
(5)
令A(yù)UCge、AUCcli和AUCcnv表示模型在訓(xùn)練集上的AUC值,定義A、B、C的計(jì)算公式如式(6)~式(8)所示:
(6)
(7)
(8)
權(quán)重參數(shù)a,b,c的計(jì)算公式分別如式(9)~式(11)所示,可見(jiàn)效果越好且跟其他兩種模型共享信息越少的模型,其預(yù)測(cè)概率將具有越高的權(quán)重.
(9)
(10)
(11)
首先,采用1.2節(jié)所述的5種缺失值插補(bǔ)方法對(duì)3個(gè)數(shù)據(jù)集中的缺失值進(jìn)行插補(bǔ),選定的插補(bǔ)方法如表1所示.
表1 選定的缺失值插補(bǔ)方法
然后分3步進(jìn)行特征選擇,剔除了方差小于0.1的特征后,采用假設(shè)檢驗(yàn)、特征重要性排序和剔除冗余特征,得到3個(gè)數(shù)據(jù)集的最優(yōu)特征數(shù)目如表2所示.
表2 3個(gè)數(shù)據(jù)集的最優(yōu)特征數(shù)目
本文采用基于混淆矩陣的敏感度、特異性、準(zhǔn)確率、ROC曲線(xiàn)和AUC值來(lái)評(píng)價(jià)模型分類(lèi)效果.敏感度、特異性、準(zhǔn)確率的計(jì)算公式分別如式(12)~式(14)所示.
(12)
(13)
(14)
式中,nTP、nTN、nFP、nFN分別為真正例、真負(fù)例、假正例、假負(fù)例個(gè)數(shù).
本文采用分層抽樣的方式隨機(jī)抽取80%的樣本作為訓(xùn)練集,20%的樣本作為測(cè)試集.在訓(xùn)練集上采用分層五折交叉驗(yàn)證、隨機(jī)網(wǎng)格搜索以及網(wǎng)格搜索的方式調(diào)整模型的參數(shù).
本文先分別對(duì)所有數(shù)據(jù)按照式(1)進(jìn)行標(biāo)準(zhǔn)化,然后在基因表達(dá)、臨床信息和拷貝數(shù)變異數(shù)據(jù)集上訓(xùn)練分類(lèi)模型.圖2中的3幅圖分別為5種分類(lèi)模型在3種數(shù)據(jù)對(duì)應(yīng)訓(xùn)練集上的ROC曲線(xiàn).在基因表達(dá)數(shù)據(jù)集上,BP神經(jīng)網(wǎng)絡(luò)的AUC值最高,為0.826 8;在臨床信息數(shù)據(jù)集上,BP神經(jīng)網(wǎng)絡(luò)的AUC值最高,為0.757 7;在拷貝數(shù)變異數(shù)據(jù)集上,支持向量機(jī)的AUC值最高,為0.686 0.以AUC值為主要評(píng)價(jià)指標(biāo),確定基因表達(dá)和臨床信息數(shù)據(jù)集的最優(yōu)分類(lèi)模型為BP神經(jīng)網(wǎng)絡(luò)模型,拷貝數(shù)變異數(shù)據(jù)集的最優(yōu)分類(lèi)模型為支持向量機(jī)模型.
圖2 5種分類(lèi)算法在3個(gè)訓(xùn)練集上的ROC曲線(xiàn)及AUC值:(a)基因表達(dá)數(shù)據(jù);(b)臨床信息數(shù)據(jù);(c)拷貝數(shù)變異數(shù)據(jù) Fig.2 ROC and AUC of 5 types of classifiers for the three train sets:(a)Gene expression dataset;(b)Clinical dataset;(c)Copy number variation dataset
為驗(yàn)證正類(lèi)預(yù)測(cè)概率加權(quán)融合模型的有效性,本文綜合對(duì)比基于單一數(shù)據(jù)集的模型和融合模型在測(cè)試集上各評(píng)價(jià)指標(biāo)的結(jié)果.表3展示了各模型在測(cè)試集上的敏感度、特異性、準(zhǔn)確率和AUC值.其中BP_gene和BP_cli分別表示基于基因表達(dá)和臨床信息數(shù)據(jù)集預(yù)測(cè)的BP神經(jīng)網(wǎng)絡(luò)模型,SVM_cnv表示基于拷貝數(shù)變異數(shù)據(jù)集預(yù)測(cè)的支持向量機(jī)模型,equal_fusion表示等權(quán)重的正類(lèi)預(yù)測(cè)概率加權(quán)融合模型,weight_fusion表示正類(lèi)預(yù)測(cè)概率加權(quán)融合模型,其中權(quán)重參數(shù)a=0.275 0、b=0.488 1、c=0.236 9.敏感度最高的是基于拷貝數(shù)變異數(shù)據(jù)集預(yù)測(cè)的支持向量機(jī)模型,其敏感度為0.536 6;特異性最高的是正類(lèi)預(yù)測(cè)概率加權(quán)融合模型,其特異性為0.968 6;準(zhǔn)確率最高的是等權(quán)重的正類(lèi)預(yù)測(cè)概率加權(quán)融合模型,其準(zhǔn)確率均為0.813 0;AUC值最高的是正類(lèi)預(yù)測(cè)概率加權(quán)融合模型,其AUC值為0.815 6.與基于單一組學(xué)數(shù)據(jù)集的模型相比,基于多個(gè)數(shù)據(jù)集的模型具有更高的特異性、準(zhǔn)確率和AUC,說(shuō)明融合多組學(xué)數(shù)據(jù)可提升預(yù)測(cè)效果;與等權(quán)重的正類(lèi)預(yù)測(cè)概率加權(quán)融合模型相比,加權(quán)融合模型的特異性和AUC更高,說(shuō)明本文提出的權(quán)重是有效的.
表3 各模型在測(cè)試集上的評(píng)價(jià)指標(biāo)結(jié)果
通過(guò)高通量技術(shù)獲得的大量組學(xué)數(shù)據(jù)為個(gè)性化診療奠定了基礎(chǔ).本文選取基因表達(dá)、臨床信息和拷貝數(shù)變異數(shù)據(jù)進(jìn)行分析,分別對(duì)3個(gè)數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗、缺失值插補(bǔ)、特征選擇、最優(yōu)分類(lèi)模型選取,并通過(guò)求3個(gè)最優(yōu)模型的正類(lèi)預(yù)測(cè)概率的加權(quán)平均得到融合模型預(yù)測(cè)結(jié)果.正類(lèi)預(yù)測(cè)概率加權(quán)融合模型不僅同時(shí)利用了3個(gè)數(shù)據(jù)集的信息,還在確定權(quán)重的過(guò)程中綜合考慮了各個(gè)模型的準(zhǔn)確度和它們之間的互信息.本文通過(guò)實(shí)例證明了正類(lèi)預(yù)測(cè)概率加權(quán)融合模型具有良好的分類(lèi)效果,其預(yù)測(cè)結(jié)果可為醫(yī)生制定高效、低副作用的治療方案提供參考.正類(lèi)預(yù)測(cè)概率加權(quán)融合模型仍有提升空間,例如考慮非隨機(jī)缺失,應(yīng)用更先進(jìn)的降維、分類(lèi)算法,融合更多種類(lèi)的組學(xué)數(shù)據(jù)及提升預(yù)測(cè)效果等.