黃雪倩 張巖波 王 蕾 鄭楚楚 余紅梅 范雙龍 陽楨寰 邢 蒙 趙志強(qiáng) 羅艷虹Δ
【提 要】 目的 對(duì)山西省某醫(yī)院2011-2017年確診為彌漫大B細(xì)胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)患者進(jìn)行疾病進(jìn)展階段多分類預(yù)測(cè),為患者是否需要及時(shí)轉(zhuǎn)為二線挽救治療或放療等治療手段的選擇提供參考。方法 用層次分類法將三分類的疾病進(jìn)展階段進(jìn)行兩層二分類,分別進(jìn)行變量篩選后,用SMOTE過采樣處理數(shù)據(jù)中的類別不平衡問題,然后使用SVM、BP神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等單分類器模型與AdaBoost同型集成和Stacking異型集成方法分別構(gòu)建兩層疾病進(jìn)展階段的二分類預(yù)測(cè)模型,最后分別選擇兩層中分類性能最優(yōu)的模型并結(jié)合在一起。結(jié)果 使用經(jīng)SMOTE平衡后的數(shù)據(jù)構(gòu)建的兩層分類模型中的SVMboost集成模型,準(zhǔn)確率分別為0.951和0.972,模型性能均為最優(yōu),因此兩層二分類的基分類器均選擇SVMboost。結(jié)論 本研究構(gòu)建彌漫大B細(xì)胞淋巴瘤患者疾病進(jìn)展階段的層次多分類預(yù)測(cè)模型,其中兩層分類模型中的SVMboost集成模型性能均為最優(yōu),將兩層二分類的基分類器結(jié)合后,準(zhǔn)確率為0.924,高于作為對(duì)比的直接多分類模型,為臨床工作者的診斷與治療方案選擇提供一定參考。
彌漫大B細(xì)胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)是非霍奇金淋巴瘤(non-Hodgkinlymphoma,NHL)中最常見的亞型,占所有NHL的30%~40%[1],是一組具有高度異質(zhì)性的惡性腫瘤,常呈進(jìn)展性。目前利妥昔單抗+環(huán)磷酰胺、阿霉素、長(zhǎng)春新堿和強(qiáng)的松(R-CHOP)是DLBCL的化療首選方案,大部分患者經(jīng)治療后可以達(dá)到完全緩解(complete remission,CR)。但仍有部分患者在治療中病情進(jìn)展或緩解后早期復(fù)發(fā)(緩解期小于一年),且復(fù)發(fā)后治療反應(yīng)率較低,反應(yīng)持續(xù)時(shí)間較短,最終轉(zhuǎn)變?yōu)殡y治性DLBCL,成為DLBCL主要死亡原因[2-3]。針對(duì)復(fù)發(fā)性和難治性DLBCL,臨床上研發(fā)了很多二線挽救治療方案,能有效延長(zhǎng)患者的總生存期(overall survival,OS),提高患者生存質(zhì)量。自體造血干細(xì)胞移植和低劑量姑息性放療等方法[4]對(duì)難治性侵襲性淋巴瘤也有一定效果。復(fù)發(fā)性和難治性DLBCL通常對(duì)一線治療方案不敏感或產(chǎn)生耐藥性,若不能準(zhǔn)確地對(duì)疾病進(jìn)展階段進(jìn)行判斷,重復(fù)地對(duì)其進(jìn)行無用治療,不僅會(huì)錯(cuò)過最好的二線挽救治療時(shí)機(jī),還會(huì)給患者帶來一定的心理負(fù)擔(dān)和經(jīng)濟(jì)負(fù)擔(dān)。因此,對(duì)DLBCL疾病的進(jìn)展階段進(jìn)行精確的分類預(yù)測(cè)有較大的現(xiàn)實(shí)意義。
本研究數(shù)據(jù)來自于山西省某醫(yī)院2011-2017年被確診為DLBCL的患者,共384例。其中復(fù)發(fā)性DLBCL是指初次化療獲得完全緩解后復(fù)發(fā)的淋巴瘤,共74例;難治性DLBCL是指滿足以下任何一項(xiàng):①經(jīng)標(biāo)準(zhǔn)方案規(guī)范化療 4 個(gè)療程,腫瘤縮小<50%或病情進(jìn)展;②經(jīng)標(biāo)準(zhǔn)方案化療達(dá)CR,但半年內(nèi)復(fù)發(fā);③CR后2次或2次以上復(fù)發(fā);④造血干細(xì)胞移植后復(fù)發(fā),共38例;剩余病例為一般性DLBCL[5],共272例。因不同疾病進(jìn)展階段的病例數(shù)量差距較大,造成了數(shù)據(jù)的不平衡,因此需要對(duì)數(shù)據(jù)進(jìn)行過采樣使其平衡。本文采用的過采樣方法是SMOTE算法。
1.類別不平衡數(shù)據(jù)
SMOTE(synthetic minority over-sampling technique)[6]算法在2002年被提出并得到認(rèn)可,它的基本思想是通過人工合成新的少數(shù)類樣本來降低類別不平衡性。具體做法是:假設(shè)鄰近參數(shù)為k,首先從每個(gè)少數(shù)類樣本的x個(gè)同類最近鄰中隨機(jī)選擇k個(gè)樣本;然后將每個(gè)少數(shù)類樣本分別與選中的k個(gè)樣本按式(1)合成k少數(shù)類新樣本;最后,將新樣本添加至訓(xùn)練樣本集中,形成新的訓(xùn)練樣本集[7]。
xnew=x+δ(y[i]-x)
(1)
式中:xnew為合成的新樣本;x為少數(shù)類樣本;δ為0到1之間的隨機(jī)數(shù);y[i]為x的第i個(gè)近鄰樣本。
在 SMOTE 算法中,鄰近參數(shù)k是否能夠合理設(shè)置將直接影響最終的分類性能。通常設(shè)置鄰近參數(shù)k=5。
本研究中SMOTE使用R軟件中DMwR包SMOTE語句實(shí)現(xiàn),其中設(shè)perc.over=500,perc.under=100。
2.分類模型
多分類的本質(zhì)是多次二分類,包括直接法和間接法。直接法是直接在目標(biāo)函數(shù)上修改,將多個(gè)分類面的參數(shù)求解合并到一個(gè)最優(yōu)化問題中,通過求解該最優(yōu)化問題一次性實(shí)現(xiàn)多分類。該方法看似簡(jiǎn)單,但其計(jì)算復(fù)雜度較高,且沒有通用的多分類求解法,需要根據(jù)具體問題設(shè)計(jì)策略,實(shí)現(xiàn)起來較困難,且分類準(zhǔn)確率不高;間接法主要是通過組合多個(gè)二分類器來實(shí)現(xiàn)多分類器的構(gòu)造,常見的方法有“一對(duì)一”(one-versus-one,OVO)、“一對(duì)其余”(one-versus-rest,OVR)和層次分類法等。
(1)層次分類法原理
本文采用的是層次分類法[8-9],其原理是第一層將所有類分為一級(jí)子類,第二層再將一級(jí)子類進(jìn)一步分為二級(jí)子類,直到能夠區(qū)分所有類別為止。圖1為包含四個(gè)類別的兩種層次結(jié)構(gòu)。圖1(a)是完全二叉樹,它在每個(gè)決策節(jié)點(diǎn)將所包含的類別分為兩個(gè)包含類別數(shù)目相同的子類;圖1(b)是偏二叉樹,它在每個(gè)決策節(jié)點(diǎn)將一類與其他所有類別分開。
圖1 層次分類法結(jié)構(gòu)
針對(duì)本研究數(shù)據(jù),使用偏二叉樹層次結(jié)構(gòu),即先將所有病例分為一般性DLBCL和復(fù)發(fā)性/難治性DLBCL兩類,然后再將復(fù)發(fā)性/難治性DLBCL分為復(fù)發(fā)性DLBCL和難治性DLBCL兩類,最終將所有病例分為一般性DLBCL、復(fù)發(fā)性DLBCL和難治性DLBCL三類。
(2)層次分類法基分類器的選擇
在本研究中,層次分類法將三分類的DLBCL疾病進(jìn)展階段數(shù)據(jù)分為兩層二分類。在每層二分類中,首先應(yīng)用支持向量機(jī)[10]、BP神經(jīng)網(wǎng)絡(luò)[11]、隨機(jī)森林[12]等單分類器構(gòu)建二分類模型;然后,分別應(yīng)用上述單分類器構(gòu)建集成學(xué)習(xí)二分類模型,集成方法主要包括AdaBoost集成[13]和Stacking集成[14],并將集成模型與各個(gè)單分類器的分類性能進(jìn)行比較;最后分別選擇兩層中分類性能最優(yōu)的模型并組合在一起,即完成層次分類法基分類器的選擇。
(3)構(gòu)建模型
為進(jìn)一步證實(shí)層次分類法的分類性能,本文應(yīng)用可進(jìn)行直接多分類的單分類器(SVM、隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò))構(gòu)建直接三分類模型,并應(yīng)用上述單分類器構(gòu)建AdaBoost集成模型和Stacking集成模型,分別將其分類性能與層次分類法進(jìn)行對(duì)比。
①直接多分類
分別從一般性、復(fù)發(fā)性和難治性DLBCL三類中各隨機(jī)抽取三分之一樣本合并,作為測(cè)試集;其余樣本作為訓(xùn)練集,訓(xùn)練集用于構(gòu)建模型,測(cè)試集用于測(cè)試模型的分類準(zhǔn)確率,重復(fù)采樣并構(gòu)建模型100次。
②層次分類法
將三分類的疾病進(jìn)展階段分為兩層二分類。第一層分別從一般性DLBCL和復(fù)發(fā)/難治性DLBCL兩類中各隨機(jī)抽取三分之一樣本合并,作為測(cè)試集,其余樣本作為訓(xùn)練集,訓(xùn)練集用于構(gòu)建模型,測(cè)試集用于測(cè)試模型的分類準(zhǔn)確率,重復(fù)采樣并構(gòu)建模型100次;第二層從復(fù)發(fā)性DLBCL和難治性DLBCL兩類中抽樣,其余同上所述。
3.評(píng)價(jià)指標(biāo)
本研究采用準(zhǔn)確率(accuracy)[7]、靈敏度(sensitivity)、F值、ROC曲線下面積(AUC)和G-means值作為評(píng)價(jià)指標(biāo)。由于AUC、F值、G-means一般僅適用于二分類問題,因此本研究中,上述指標(biāo)用于兩層二分類最優(yōu)模型的選擇,準(zhǔn)確率作為經(jīng)典直接多分類器和層次分類法的對(duì)比評(píng)價(jià)指標(biāo)。
每個(gè)分類器的結(jié)果可以分為真陽性(TP)、真陰性(TN)、假陽性(FP)和假陰性(FN)四類。由此可得以下的公式:
(2)
(3)
(4)
(5)
由式(3),(4),(5)可得出F值和G-means的表達(dá)式為:
(6)
(7)
F值既考慮精度(正確陽性結(jié)果的數(shù)量除以所有陽性結(jié)果的數(shù)量),也考慮召回率(正確陽性結(jié)果的數(shù)量除以應(yīng)該返回的陽性結(jié)果的數(shù)量)。只有精度和召回率都比較高的前提下,F(xiàn)值才會(huì)高。G值綜合考慮了少數(shù)類和多數(shù)類的分類性能,必須滿足多數(shù)類和少數(shù)類樣本正確率的值同時(shí)高,G值才會(huì)高。受試者工作特征曲線(receiver operating characteristic curve,ROC)是在平面上以假陽性率(FPR)為橫坐標(biāo),以真陽性率(TPR)為縱坐標(biāo)所畫的一條曲線,橫坐標(biāo)FPR和縱坐標(biāo)TPR可由下式計(jì)算得出:
(8)
(9)
4.變量篩選
病例信息來自于醫(yī)院的電子病例,包括一般情況、病理信息、CT/PET-CT影像數(shù)據(jù)和治療方案等100余個(gè)變量。結(jié)合《2013年中國(guó)彌漫大B細(xì)胞淋巴瘤診斷與治療指南》[15],對(duì)兩層二分類分別進(jìn)行變量重要性排序,篩選出前18個(gè)與疾病進(jìn)展階段分類相關(guān)的變量。圖2為前30個(gè)變量的重要性排序(其中1為原發(fā)部位,2為繼發(fā)部位)。
圖2 變量重要性排序
1.直接多分類
表1為三種單分類器及其構(gòu)建的集成模型的直接多分類結(jié)果,用分類準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。
表1 直接多分類準(zhǔn)確率
由表1可知,三種單分類器中,隨機(jī)森林分類準(zhǔn)確率最高,BP神經(jīng)網(wǎng)絡(luò)和SVM準(zhǔn)確率相差不多;各單分類器的AdaBoost集成模型分類準(zhǔn)確率較單分類器均有所提高,三種單分類器組合的Stacking集成分類準(zhǔn)確率高于SVM和BP神經(jīng)網(wǎng)絡(luò),但所有直接多分類模型準(zhǔn)確率均沒有達(dá)到90%。
2.層次分類法
表2和表3分別是使用測(cè)試集進(jìn)行驗(yàn)證的兩層分類模型的評(píng)價(jià)指標(biāo)。
表2 第一層分類模型性能評(píng)價(jià)
表3 第二層分類模型性能評(píng)價(jià)
由表2可得第一層二分類中,SVMboost模型性能最優(yōu)(準(zhǔn)確率=0.951,靈敏度=0.977,F(xiàn)值=0.956,AUC=0.948,G-means=1.001),因此選取SVMboost作為第一層的基分類器;由表3可得第二層二分類中,SVMboost模型性能最優(yōu)(準(zhǔn)確率=0.972,靈敏度=0.997,F(xiàn)值=0.975,AUC=0.969,G-means=0.968),因此第二層的基分類器也選擇SVMboost。
將兩層二分類所選擇的最優(yōu)基分類器SVMboost組合起來,疾病進(jìn)展階段三分類準(zhǔn)確率可達(dá)0.924。圖3為直接多分類模型和本文所應(yīng)用的層次分類法的分類準(zhǔn)確率對(duì)比。層次分類法的分類準(zhǔn)確率明顯高于直接多分類模型。
圖3 八種分類模型的準(zhǔn)確率
圖4分別給出了兩層分類模型中各個(gè)基分類器訓(xùn)練集和測(cè)試集的分類準(zhǔn)確率(其中1代表第一層分類,2代表第二層分類)。由圖4可知,所有模型中訓(xùn)練集的分類準(zhǔn)確率均優(yōu)于測(cè)試集;所有模型的第二層分類準(zhǔn)確率均高于第一層分類。對(duì)集成模型與單分類器進(jìn)行分類性能比較可知,除隨機(jī)森林模型外,集成模型的分類性能均優(yōu)于其對(duì)應(yīng)的單分類器,而隨機(jī)森林本身就是對(duì)樹模型的Bagging集成模型,本研究中對(duì)其做進(jìn)一步的AdaBoost集成后發(fā)現(xiàn)其模型的分類性能并未明顯提升。
圖4 層次分類法訓(xùn)練集和測(cè)試集的分類準(zhǔn)確率
本文應(yīng)用的層次分類法能將復(fù)雜的多分類問題簡(jiǎn)化,每一層都含有7個(gè)基分類器,包括單分類器和同型/異型集成模型,分類準(zhǔn)確率高于幾種用于對(duì)比的直接多分類器;在其他應(yīng)用集成算法的直接多分類研究中,宋亞男等在未進(jìn)行不平衡數(shù)據(jù)處理的AdaBoost 模型預(yù)測(cè)2型糖尿病患者降糖藥用藥分類準(zhǔn)確率僅為0.642[16],王莉莉等在基于主動(dòng)學(xué)習(xí)不平衡多分類 AdaBoost 算法的心臟病分類的準(zhǔn)確率為0.883[17],均未達(dá)到90%,而Stjepan Picek等在機(jī)器學(xué)習(xí)旁路攻擊中[18],層次分類法的分類準(zhǔn)確率比直接多分類法提高了21%。層次分類法應(yīng)用靈活,每種基分類器對(duì)不同數(shù)據(jù)類型的分類性能均有所差別,趙理莉等在宮頸細(xì)胞識(shí)別的層次分類法中每層使用了6種基分類器[19]。此外,層次分類法實(shí)際應(yīng)用廣泛,包括Celine Vens等對(duì)文本進(jìn)行層次分類[20],IvicaDimitrovski等進(jìn)行醫(yī)學(xué)圖像注釋[21],以及Ricardo Cerri等對(duì)蛋白質(zhì)功能預(yù)測(cè)等生物信息學(xué)任務(wù)等[22]。本文層次分類法的模型構(gòu)建通過R語言實(shí)現(xiàn),其他軟件如Python等也可實(shí)現(xiàn),適用性較強(qiáng)。
但是層次分類法中存在自上而下的“誤差累積”問題,且該方法每層分類所需的運(yùn)行時(shí)間較長(zhǎng)。本文每層分類循環(huán)次數(shù)為100次,運(yùn)行時(shí)間超過20小時(shí)。當(dāng)需要解決5類或5類以上的多分類問題時(shí),應(yīng)用該方法所需要分的層次更多,所得分類準(zhǔn)確率會(huì)越低,運(yùn)行的時(shí)間也越長(zhǎng)。此外,如何在層次分類中有效地進(jìn)行特征變量選擇也是一個(gè)值得關(guān)注的問題,不同的特征變量能影響各層中子類的區(qū)分,進(jìn)而影響整個(gè)分類模型的準(zhǔn)確率。例如Hussein Alahmer等在基于特征差的肝臟腫瘤層次分類中[23],不同的特征采集導(dǎo)致分類性能差異很大。如何解決和改進(jìn)上述幾個(gè)方面是本研究需要進(jìn)一步研究的問題。
中國(guó)衛(wèi)生統(tǒng)計(jì)2021年2期