侯維巖,劉 超,宋 楊,孫 燚
(1.鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001;2.上海大學(xué) 機械自動化學(xué)院,上海 200072)
癌癥分類模型是癌癥基因組研究的重要組成部分之一,研究人員基于各種類型的基因測序數(shù)據(jù),如DNA甲基化、拷貝數(shù)變異和原始測序等,研究癌癥的精準分類,進而探索癌癥的發(fā)生、發(fā)展機制[1].目前的文獻首先對獲取的各類基因測序數(shù)據(jù)進行標(biāo)準化、降維、平衡化等預(yù)處理,然后將其輸入癌癥分類模型進行訓(xùn)練和學(xué)習(xí),在訓(xùn)練過程中不斷調(diào)整訓(xùn)練參數(shù)、優(yōu)化模型,最終得到性能穩(wěn)定、泛化能力較強的癌癥分類系統(tǒng).
Hao等[2]使用LASSO算法結(jié)合DNA甲基化構(gòu)建癌癥分類模型,實現(xiàn)了對4種常見癌癥樣本(乳腺癌、結(jié)腸癌、肝癌和肺癌)和正常樣本的精準分類.Capper等[3]利用隨機森林算法結(jié)合DNA甲基化構(gòu)建腦腫瘤分類模型,實現(xiàn)了對82種腦腫瘤亞型和9種對照樣本的正確分類.目前癌癥樣本的分類準確率較高,但少數(shù)類樣本的分類準確率較低,這主要是數(shù)據(jù)不平衡造成的.針對不平衡數(shù)據(jù)集的癌癥分類方法的上述問題,筆者提出一種基于TCGA數(shù)據(jù)庫不平衡數(shù)據(jù)的改進分類方法.利用合成少數(shù)類過采樣技術(shù)(synthetic minority oversampling technique,簡稱SMOTE)擴充少數(shù)類樣本集,通過Tomek Link算法剔除噪聲和邊界數(shù)據(jù),得到相對平衡的數(shù)據(jù)集,經(jīng)特征選擇后,將數(shù)據(jù)導(dǎo)入改進的gcForest模型進行訓(xùn)練、學(xué)習(xí)及分類.
混合采樣集成分類流程如圖1所示,流程分為4階段:數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、特征選擇、模型訓(xùn)練和分類.使用的6種不同癌癥類型的DNA甲基化測序數(shù)據(jù)源自TCGA官網(wǎng)(https://portal.gdc.cancer.gov/repository).在預(yù)處理階段, SMOTE對數(shù)據(jù)進行平衡化處理,用Tomek Link算法清理數(shù)據(jù),以剔除噪聲點.為減小數(shù)據(jù)的特征空間,僅考慮那些與癌癥有因果關(guān)系的突變基因.采用最小冗余最大相關(guān)(mRMR)算法進行特征選擇,使用改進的gcForest模型進行訓(xùn)練、學(xué)習(xí)及分類.
圖1 混合采樣集成分類流程
1.1.1 數(shù)據(jù)處理
癌癥基因組圖譜(the cancer genome atlas,簡稱TCGA)[4]是最全面的癌癥測序數(shù)據(jù)庫,提供的豐富的癌癥樣本數(shù)據(jù)為開發(fā)癌癥分類模型提供了基礎(chǔ).TCGA數(shù)據(jù)存在數(shù)據(jù)不平衡問題,多數(shù)類的影響使分類模型的假陰性率大幅增加[5].
TCGA公布了28種癌癥類型的DNA甲基化數(shù)據(jù).該文使用Broad Institute的FireBrowse[6]對DNA甲基化測序數(shù)據(jù)進行預(yù)處理,F(xiàn)ireBrowse將數(shù)值映射到基于HGNC命名法注釋的特定人類基因[7].每個樣本文件用TCGA標(biāo)識符值注釋,該值表示樣本是腫瘤組織還是正常組織.表1為該文使用的DNA甲基化數(shù)據(jù).
表1 該文使用的DNA甲基化數(shù)據(jù)
1.1.2 采 樣
表1的數(shù)據(jù)分布表明從TCGA中獲取的數(shù)據(jù)嚴重不平衡,這是樣本的類分布不統(tǒng)一所致.目前使用的分類方法對癌癥樣本有較高的準確率,但對正常樣本的敏感性較低[8].
SMOTE是基于隨機過采樣技術(shù)的一種改進,其主要思想是將新樣本插入少量相似樣本以平衡數(shù)據(jù).SMOTE的步驟[9]為:
(1) 對少數(shù)類中每一個樣本x,以歐氏距離為標(biāo)準計算它到少數(shù)類樣本集中所有樣本的距離,得到其k近鄰.
(2) 根據(jù)樣本不平衡比例確定采樣倍率N.
(3) 對于每一個少數(shù)類樣本x,從其k近鄰中隨機選擇若干樣本.
(4) 對每一個隨機選出的近鄰,與原樣本按下式構(gòu)建新的樣本
pi=x+rand(0,1)×(yi-x),i=1,2,…,N,
(1)
其中:x為樣本,rand(0,1)為 (0,1)內(nèi)的隨機數(shù),yi為從k近鄰中選擇的第i個樣本.
SMOTE在平衡類別分布的同時也擴張了少數(shù)類的樣本空間,導(dǎo)致原本屬于多數(shù)類樣本的空間被少數(shù)類“入侵”,造成模型的過擬合.采用Tomek Link算法剔除噪聲點和邊界點數(shù)據(jù),可較好解決“入侵”問題[10].Tomek Link算法的核心思想為:假設(shè)樣本點xi和xm屬于不同的類別,d(xi,xm)表示兩個樣本點之間的距離,如果不存在第3個樣本點xl使d(xl,xi) 對SMOTE算法擴充后的樣本集,使用Tomek Link算法計算新樣本與原樣本之間的歐式距離以及原樣本與近鄰之間的歐氏距離,然后比較二者的大小,剔除那些相似性低的樣本點(即噪聲點或者邊界點),保證插入數(shù)據(jù)與原樣本具有較好的相似性. 使用最小冗余最大相關(guān)(mRMR)算法[11]對樣本進行特征選擇,采用互信息作為評估兩個隨機變量相關(guān)程度的指標(biāo),篩選出122個相關(guān)性最大、冗余性最小的特征值.互信息的表達式為 (2) 其中:p(x,y)為x,y的聯(lián)合概率密度;p(x),p(y)分別為x,y的邊緣概率密度. 最大相關(guān)性可保證特征和類別的相關(guān)性最大,其表達式為 maxD(S,c), (3) 最小冗余性可保證特征間的冗余最小,其表達式為 minR(S), (4) 篩選出的相關(guān)性最大、冗余性最小的特征子集為 maxΦ(D,R), (5) 其中:Φ=D-R. gcForest模型[12]包括兩大模塊:級聯(lián)森林(cascade forest)和多粒度掃描(multi-grained scanning).級聯(lián)森林的每一層均由多個森林(既有隨機森林,又有完全隨機森林)組成,而每一個森林由多個決策樹(decision tree)組成,隨機森林和完全隨機森林保證了模型的多樣性. 研究表明,一定范圍內(nèi),深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)比每層神經(jīng)元的數(shù)量對模型性能的影響更大[13].該文對gcForest模型中的級聯(lián)森林結(jié)構(gòu)進行了改進(見圖2). 圖2 改進的級聯(lián)森林結(jié)構(gòu) 改進的級聯(lián)結(jié)構(gòu)中,每個級聯(lián)層有兩個子層,每個子層由1個隨機森林和1個完全隨機森林組成,第1個子層的2個隨機森林將輸出1個2維類向量,該類向量與原始特征結(jié)合作為第2個子層的輸入,其他結(jié)構(gòu)和gcForest模型相同. 癌癥分類是一個二分類問題,二分類模型的性能評價中,混淆矩陣是最常使用的指標(biāo)[14].表2展示了該文在二分類問題中使用的混淆矩陣.表1中,少數(shù)類樣本(即正常樣本)用0表示,多數(shù)類樣本(即癌癥樣本)用1表示.TP(true positive)的含義為:實際為正常樣本,分類結(jié)果也為正常樣本;TN(true negatives)的含義為:實際為癌癥樣本,分類結(jié)果也為癌癥樣本;FP(false positive)的含義為:實際為癌癥樣本,分類結(jié)果為正常樣本;FN(false negatives)的含義為:實際為正常樣本,分類結(jié)果為癌癥樣本. 表2 二分類問題的混淆矩陣 召回率(recall)或敏感性(sensitivity)的表達式為 (6) 此值越大,漏檢越小. 精確率的表達式為 (7) 特異度(specificity)或真陰性率(true negative rate,簡稱TNR)的表達式為 (8) F1為算術(shù)平均數(shù)與幾何平均數(shù)的比值,其表達式為 (9) 接收者操作特征 (receiver operating characteristic,簡稱ROC)是反映敏感性和特異性的綜合指標(biāo),ROC曲線上每個點反映對同一信號刺激的感受性,曲線越凸、越接近左上角(0,1)點,表明其分類價值越大. 偽正類率(false positive rate,簡稱FPR)為預(yù)測為正但實際為負的樣本占所有負例樣本的比值,真正類率(true positive rate,簡稱TPR)為預(yù)測為正且實際為正的樣本占所有正例樣本的比值. 從TCGA獲取的DNA甲基化測序數(shù)據(jù)按7∶3分為訓(xùn)練集和測試集.基于6種癌癥DNA甲基化數(shù)據(jù),比較5種分類方法(logistic regression[15]、隨機森林[16]、深度置信網(wǎng)絡(luò)[17]、gcForest、改進的gcForest方法(下文簡稱改進方法))的性能.各方法的主要參數(shù)設(shè)置如表3所示,其余參數(shù)采用默認值. 表3 5種方法的主要參數(shù)設(shè)置 表4為基于DNA甲基化數(shù)據(jù)的5種分類方法性能對比.由表4可知,5種分類方法對多數(shù)類樣本均具有較高的準確率,對少數(shù)類樣本的敏感性較低,準確率及F1值也偏低. 表4 基于DNA甲基化數(shù)據(jù)的5種分類方法性能 圖3為基于DNA甲基化數(shù)據(jù)的5種分類方法的ROC曲線圖. (a)ROC曲線;(b)圖(a)左上局部的放大.圖3 基于DNA甲基化數(shù)據(jù)的5種分類方法的ROC曲線 由圖3可知,基于DNA甲基化數(shù)據(jù)的5種分類方法性能均較差,但改進方法性能相對較好. 為解決上述問題,需要對DNA甲基化數(shù)據(jù)做平衡化處理.表5為基于平衡化后的DNA甲基化數(shù)據(jù)的5種分類方法的性能對比. 表5 基于平衡化后的DNA甲基化數(shù)據(jù)的5種分類方法的性能 對比表4,5發(fā)現(xiàn),基于平衡化后的DNA甲基化數(shù)據(jù)的5種分類方法對少數(shù)類樣本的敏感性、精確率和F1值均有明顯的提高,對多數(shù)類樣本的性能也有一定的提升. 圖4為基于平衡化后的DNA甲基化數(shù)據(jù)的5種分類方法的ROC曲線.對比圖3,4可以發(fā)現(xiàn),基于平衡化后的DNA甲基化數(shù)據(jù)的5種分類方法的性能均得到了明顯提升. (a)ROC曲線;(b)圖(a)左上局部的放大.圖4 基于平衡化后的DNA甲基化數(shù)據(jù)的5種分類方法的ROC曲線 分析表5及圖4發(fā)現(xiàn),與其他4種分類方法相比,改進方法的分類效果最佳,對少數(shù)類樣本的分類性能有顯著提高,對多數(shù)類樣本的性能也有一定的提升.改進方法中,多粒度掃描模塊利用滑動窗口對高維DNA甲基化數(shù)據(jù)進行處理和降維,故其特征學(xué)習(xí)的能力得到了提升.改進方法將多粒度掃描模塊輸出的特征向量和數(shù)據(jù)的原始特征向量一起送入級聯(lián)森林結(jié)構(gòu)中進行訓(xùn)練和學(xué)習(xí),其對數(shù)據(jù)特征的學(xué)習(xí)能力相比于其他4種方法更強. 改進方法中,SMOTE算法的近鄰k值和采樣倍率N是對方法性能影響較大的兩個參數(shù),表6為不同k值和采樣倍率N下改進方法的F1. 表6 不同k值和采樣倍率N下改進方法的F1 由表6可知,在不同k值和N值的9組參數(shù)組合中,近鄰k值為5、采樣倍率N為200%時,方法的性能最佳,因此,該文選擇此參數(shù)組合.采樣倍率N為200%情況下:k值為3時,方法復(fù)雜度高,容易產(chǎn)生過擬合現(xiàn)象,學(xué)習(xí)的估計誤差增大;當(dāng)k值為7時,雖然降低了學(xué)習(xí)的估計誤差,由于DNA甲基化數(shù)據(jù)集較小,增大了方法學(xué)習(xí)的近似誤差.近鄰k值為5的情況下:采樣倍率N為100%時,方法性能無明顯提升,是因為平衡化后的正、負樣本數(shù)據(jù)依然具有較大的不平衡性;采樣倍率N為300%時,方法性能較差,是因為擴充的樣本數(shù)遠大于原始樣本數(shù),造成數(shù)據(jù)特征混亂. 筆者提出了基于TCGA數(shù)據(jù)庫不平衡數(shù)據(jù)的改進分類方法.采用SMOTE和Tomek Link算法混合采樣,解決了TCGA數(shù)據(jù)庫中DNA甲基化數(shù)據(jù)不平衡問題,將特征選擇后的數(shù)據(jù)送入改進的gcForest分類模型中進行訓(xùn)練、學(xué)習(xí)及分類.5種分類方法的分類結(jié)果對比表明,改進方法對少數(shù)類樣本的分類性能有顯著提高,對多數(shù)類樣本的性能也有一定的提升.1.2 特征選擇
1.3 分類模型
1.4 評價標(biāo)準
2 分類結(jié)果及分析
3 結(jié)束語