章鳴嬛 陳 瑛 郭 欣 張 璇 季 萌
(上海杉達(dá)學(xué)院大數(shù)據(jù)分析與處理研究中心 上海 201209)
乳腺癌是女性最常見(jiàn)的惡性腫瘤,其死亡率高居女性癌癥的第二位。據(jù)2018 年統(tǒng)計(jì)數(shù)據(jù)顯示,全球每年有超過(guò)50萬(wàn)婦女死于乳腺癌,超過(guò)120萬(wàn)婦女罹患乳腺癌[1]。因此,對(duì)于乳腺癌的預(yù)后判斷十分重要?;诖罅扛哔|(zhì)量的、可信度較高的乳腺癌數(shù)據(jù)對(duì)于設(shè)計(jì)患者的預(yù)后評(píng)價(jià)模型顯得非常必要。
美國(guó)國(guó)立癌癥研究所“監(jiān)測(cè)、流行病學(xué)和結(jié)果”數(shù)據(jù)庫(kù)(Surveillance,Epidemiology and End Results,SEER)是北美最具代表性的大型腫瘤登記注冊(cè)數(shù)據(jù)庫(kù)之一,為臨床醫(yī)師的循證實(shí)踐及臨床醫(yī)學(xué)研究提供了系統(tǒng)的證據(jù)支持和寶貴的第一手資料[3]。
近年來(lái),國(guó)內(nèi)外有很多學(xué)者利用機(jī)器學(xué)習(xí)方法對(duì) SEER 數(shù)據(jù)進(jìn)行挖掘分析。Kim 等[8~9]分別應(yīng)用支持向量機(jī)和樸素貝葉斯方法來(lái)分析乳腺癌患者術(shù)后的情況。劉雅琴[10]利用三種機(jī)器學(xué)習(xí)算法,對(duì)SEER數(shù)據(jù)庫(kù)中的乳腺癌數(shù)據(jù)進(jìn)行預(yù)后分析。尹玢璨等[11]利用貝葉斯網(wǎng)絡(luò)構(gòu)建并分析亞洲腫瘤患者預(yù)后的模型。牟冬梅等[12]通過(guò)提取電子病歷信息來(lái)構(gòu)建妊娠高血壓綜合征危險(xiǎn)因素預(yù)測(cè)模型,建立了優(yōu)化的決策樹(shù)模型。
Logistic 回歸(Logistic Regression,LR)和神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是兩種常用的機(jī)器學(xué)習(xí)方法,在包括醫(yī)學(xué)輔助檢測(cè)在內(nèi)的諸多領(lǐng)域具有廣泛的應(yīng)用[13~18]。本文基于 SEER 數(shù)據(jù)庫(kù)1990~2014 年間乳腺癌患者的有效數(shù)據(jù),分別利用logistic回歸和神經(jīng)網(wǎng)絡(luò)算法建模分析,找出對(duì)乳腺癌預(yù)后影響最大的若干因素,為臨床醫(yī)師開(kāi)展乳腺癌的治療和預(yù)后判斷提供理論依據(jù)。
本研究以SEER 中1990~2014年間乳腺癌患者的數(shù)據(jù)記錄作為研究對(duì)象。原始數(shù)據(jù)中每條記錄共有133字段。由于SEER 中的字段設(shè)計(jì)是面向多種腫瘤的,很多字段與乳腺癌沒(méi)有直接關(guān)聯(lián),故在乳腺外科醫(yī)生的指導(dǎo)下,選取了12 個(gè)與本課題相關(guān)的字段。如表1所示。
表1 輸入字段
腫瘤患者5 年生存情況是評(píng)價(jià)預(yù)后效果的重要指標(biāo)[11]。以乳腺癌患者手術(shù)后5 年的生存情況作為輸出變量。此為二分類(lèi)變量,1 為尚存活,0 為死于乳腺癌。
預(yù)處理是使得數(shù)據(jù)盡量滿(mǎn)足模型輸入要求的過(guò)程。在滿(mǎn)足要求的前提下,應(yīng)盡可能簡(jiǎn)化數(shù)據(jù)形式,以降低建模的復(fù)雜度。[19]。
“腫瘤分期”(Stage)為分類(lèi)型變量,主要有I、II、III、IV 四大類(lèi),其嚴(yán)重程度依次增加。除上述四大類(lèi)之外,Stage 的取值還涉及到某些大類(lèi)中的細(xì)項(xiàng)。如II 型又可細(xì)分為IIA 和II B,III 又可細(xì)分為IIIA、III B、III C 和 IIINOS 等。為降低建模復(fù)雜程度,只保留 I、II、III、IV 四大類(lèi),而對(duì)其余細(xì)項(xiàng)加以合并?!澳挲g”為連續(xù)型數(shù)值變量,為降低分析難度和復(fù)雜度,以5 年為一個(gè)區(qū)間,將年齡數(shù)據(jù)劃分為18個(gè)區(qū)域。
預(yù)初實(shí)驗(yàn)顯示,數(shù)據(jù)預(yù)處理后共保留樣本445 575 條,其中術(shù)后5 年生存情況為存活的樣本有407 114條,死亡樣本有38 461條,樣本數(shù)量之比為10.6∶1,兩類(lèi)樣本極不平衡。若不處理該問(wèn)題就直接分析,則試驗(yàn)結(jié)果不具有合理性。多次試驗(yàn)后確定采用三種重抽樣方式,即,過(guò)抽樣、欠抽樣,及綜合過(guò)抽樣和欠抽樣技術(shù),以保證兩類(lèi)樣本的數(shù)量基本均衡。
本試驗(yàn)采用Logistic 回歸和神經(jīng)網(wǎng)絡(luò)兩種建模方法。
具有P 個(gè)自變量的Logistic 回歸模型如式(1)所示:
從形式上看,當(dāng)Logistic 回歸方程與一般線(xiàn)性回歸方程的形式相同,可用類(lèi)似的方法解釋方程中系數(shù)的含義[20]。即,當(dāng)其他解釋變量保持不變時(shí),解釋變量xi每增加一個(gè)單位,將引起logi(tP)平均增加(或減少)βi個(gè)單位。本試驗(yàn)中的因變量是患者術(shù)后5 年的生存狀態(tài),為二分類(lèi)變量,故采用二項(xiàng)logistic回歸分析。
人工神經(jīng)網(wǎng)絡(luò)是(ANN)一種模擬人腦思維的計(jì)算機(jī)建模算法。結(jié)構(gòu)上可劃分為輸入層、隱含層和輸出層。隱含層的層數(shù)和每層節(jié)點(diǎn)數(shù)決定了ANN 的復(fù)雜程度。本研究需對(duì)患者術(shù)后5 年的生存狀態(tài)進(jìn)行二分類(lèi)判定,這就要確定一個(gè)超平面,位于超平面上部的所有樣本點(diǎn)屬于一種情況,位于下部的屬于另一種情況。超平面可由式(2)確定。
式中,n 表示上層節(jié)點(diǎn)的個(gè)數(shù),Xi為上層第i 個(gè)節(jié)點(diǎn)的輸出,Wij為上層第i 個(gè)節(jié)點(diǎn)與本層第j 個(gè)節(jié)點(diǎn)的連接權(quán)值,qj為線(xiàn)性組合中的常數(shù)項(xiàng)。其中網(wǎng)絡(luò)權(quán)值Wij最為關(guān)鍵。最初,神經(jīng)網(wǎng)絡(luò)的所有權(quán)重均隨機(jī)生成,因此該網(wǎng)絡(luò)的輸出結(jié)果可能無(wú)意義。網(wǎng)絡(luò)通過(guò)不斷地向訓(xùn)練樣本學(xué)習(xí)來(lái)改變網(wǎng)絡(luò)權(quán)值,使超平面不斷地向正確方向移動(dòng),最終得到期望的輸出結(jié)果[21]。本試驗(yàn)采用多層感知器神經(jīng)網(wǎng)絡(luò)進(jìn)行建模分析,設(shè)置單隱層,以雙曲正切函數(shù)作為激活函數(shù)。
就輸入變量的形式來(lái)看,Logistic 回歸和神經(jīng)網(wǎng)絡(luò)要求輸入變量為數(shù)值型。因此,需考慮如何處理分類(lèi)型變量:對(duì)于二分類(lèi)變量,可轉(zhuǎn)換為取值為0/1的數(shù)值型變量;對(duì)于多分類(lèi)變量,應(yīng)將其轉(zhuǎn)換成啞變量。
分析12 個(gè)輸入與輸出變量的相關(guān)性可知,除了婚姻狀態(tài)和組織學(xué)形態(tài)與輸出的相關(guān)性不太明顯(P>0.05),其余10 個(gè)輸入變量均與輸出之間有較高的相關(guān)性(P<0.05)。因此,首先將全部輸入變量全部納入建模過(guò)程,分別使用Logistic 回歸和神經(jīng)網(wǎng)絡(luò)算法建立模型,考察在所有變量的交互作用下,輸入是如何影響乳腺癌的預(yù)后情況的。
分別采用過(guò)抽樣、欠抽樣,以及聯(lián)合使用以上兩種方法,設(shè)置合適的抽樣比例,保證兩類(lèi)樣本數(shù)基本平衡。抽樣技術(shù)僅針對(duì)訓(xùn)練樣本,對(duì)于測(cè)試樣本則不使用該技術(shù)。樣本的組織方式均采用十折交叉驗(yàn)證[22],采用靈敏度(Sensitivity)、特異度(Specificity)及分類(lèi)準(zhǔn)確率(Accuracy)來(lái)衡量實(shí)驗(yàn)判定所有受試者被正確分類(lèi)的能力。以TP代表真陽(yáng)性,F(xiàn)P代表假陽(yáng)性,TN代表真陰性,F(xiàn)N代表假陰性,則有:Sensitivity=TP(/TP+FN);Specificity=TN/(TN+FP);Accuracy=(TP+TN)(/TP+FN+ TN+FP)。這三個(gè)指標(biāo)的取值均在[0,1]之間,取值越接近1則效果越好[23]。受試者工作特征(ROC)是基于靈敏度和特異度引出的一種直觀的評(píng)價(jià)方式。ROC以 Sensitivity 為縱坐標(biāo),以(1- Specificity)為橫坐標(biāo),其曲線(xiàn)下面積(AUC)的取值大于0.7 時(shí)診斷價(jià)值較高。AUC越大則效果越好[24]。
試驗(yàn)流程如圖1。
1)過(guò)抽樣
存活樣本數(shù)為407 114,死亡樣本數(shù)為407 659(過(guò)抽樣比為1006%),總計(jì)814 773 條記錄。分別利用Logistic回歸和神經(jīng)網(wǎng)絡(luò)兩種算法進(jìn)行建模分析后,得到測(cè)試集上的靈敏度(Sensitivity)、特異度(Specificity)、準(zhǔn)確率(Accuracy)以及ROC下曲線(xiàn)面積(AUC)如表2所示。
圖1 試驗(yàn)設(shè)計(jì)流程
表2 過(guò)抽樣技術(shù)下兩種模型的性能比較
2)欠抽樣
存活樣本數(shù)為38 461(欠抽樣比為9.6%),死亡樣本數(shù)為38 828,總計(jì)77 289 條記錄。分別利用Logistic 回歸和神經(jīng)網(wǎng)絡(luò)兩種算法進(jìn)行建模分析后,得到測(cè)試集上的性能指標(biāo)如表3所示。
表3 欠抽樣技術(shù)下兩種模型的性能比較
3)過(guò)抽樣與欠抽樣相結(jié)合
存活樣本數(shù)為203 879(欠抽樣比為50%),死亡樣本數(shù)為203 541(過(guò)抽樣比為530%),總計(jì)407 420 條記錄。分別利用Logistic 回歸和神經(jīng)網(wǎng)絡(luò)兩種算法進(jìn)行建模分析,得到測(cè)試集上的性能指標(biāo)如表4所示。
表4 “過(guò)&欠”抽樣技術(shù)下兩種模型的性能比較
該抽樣技術(shù)下,基于Logistic 回歸模型的乳腺癌生存預(yù)測(cè)最優(yōu)模型的部分結(jié)果見(jiàn)表5。以腫瘤分級(jí)Grade和腫瘤分期Stage為例,二者均為多分類(lèi)型變量(分類(lèi)數(shù)為4),需轉(zhuǎn)換成啞變量處理。其中B為回歸系數(shù),S.E.為回歸系數(shù)的標(biāo)準(zhǔn)誤差,Wald為Wald 統(tǒng)計(jì)量,df 為自由度,Sig 為顯著性水平。Exp(B)為一元優(yōu)勢(shì)比估計(jì)值,可用于近似判斷不同組的相對(duì)“風(fēng)險(xiǎn)”。
表5 Logistic回歸模型的生存預(yù)測(cè)部分結(jié)果(過(guò)抽樣+欠抽樣)
經(jīng)比較三種抽樣技術(shù)下Logistic 回歸和神經(jīng)網(wǎng)絡(luò)的算法評(píng)價(jià)指標(biāo)可知,模型的靈敏度、特異度及準(zhǔn)確率均在75.4%~78.2%之間,AUC 均在0.847~0.850之間,模型具有較好的性能。
分析三種重抽樣技術(shù)下的建模過(guò)程可發(fā)現(xiàn),在12 個(gè)輸入變量中,對(duì)于模型影響最大的變量均為腫瘤分期、腫瘤分級(jí)、腫瘤尺寸、雌激素水平、孕激素水平、年齡分組。
模型顯示,在其他輸入變量保持不變的前提下,腫瘤的四種分期(Stage:I、II、III、IV)嚴(yán)重程度依次遞增。IV期是I期嚴(yán)重程度的48.5~51.3倍,III期是 I 期嚴(yán)重程度的 17.4~18.6 倍,II 期是 I 期嚴(yán)重程度的4.9~5.2倍。從某種意義上反應(yīng)了腫瘤不同分期的量化程度。
在其它輸入變量保持不變的前提下,腫瘤的四種分級(jí)(Grade:I、II、III、IV)嚴(yán)重程度依次遞增。IV期是 I 期嚴(yán)重程度的 3.4~3.6 倍,III 期是 I 期嚴(yán)重程度的 2.0~2.2 倍,II 期是 I 期嚴(yán)重程度的 1.2~1.3倍。從某種意義上反應(yīng)了腫瘤不同分級(jí)的量化程度。
重抽樣過(guò)程中,分別采用了過(guò)抽樣、欠抽樣以及兩者結(jié)合抽樣的方式。試驗(yàn)設(shè)置了一系列抽樣比例,存活樣本與死亡樣本的比例為5∶1~1∶1。結(jié)果證明,當(dāng)抽樣比例使得正負(fù)兩類(lèi)樣本數(shù)量趨于平衡時(shí),模型的性能最佳。
由前文結(jié)論可知,在12 個(gè)輸入變量中,對(duì)模型影響最大的變量為:腫瘤分期、腫瘤分級(jí)、腫瘤尺寸、雌激素水平、年齡分組和孕激素水平。為降低模型的復(fù)雜程度,只選用這6 個(gè)變量作為建模輸入,且三種抽樣比例仍保持不變。建模后的性能評(píng)價(jià)如表5。
表5 精簡(jiǎn)輸入變量后的模型性能
由表5 可看出,精簡(jiǎn)變量前后,模型的靈敏度、特異度及準(zhǔn)確率分別介于75.4%~78.2%和75.5%~77.8%,二者差異不大。同時(shí),精簡(jiǎn)前后的模型AUC 分別介于 0.847~0.850 和 0.845~0.846,也幾乎無(wú)顯著性差異。故可得出結(jié)論:模型分析所得的這6 個(gè)變量,是影響乳腺癌5 年預(yù)后最顯著的因素。該結(jié)論也符合臨床醫(yī)生的認(rèn)知。
此外,試驗(yàn)還利用CRT 決策樹(shù)進(jìn)行了建模分析,得出了近似的結(jié)論。決策樹(shù)方法篩選出對(duì)乳腺癌患者預(yù)后影響最大的因子分別是:腫瘤分期、腫瘤分級(jí)、腫瘤尺寸、雌激素水平、年齡分組和孕激素水平。可知,除了年齡分組和孕激素排序的位序略有差異,基于決策樹(shù)方法的建模結(jié)論與本文結(jié)論完全一致。
選用SEER 數(shù)據(jù)庫(kù)中1990~2014年的乳腺癌數(shù)據(jù),以術(shù)后5 年的存活狀態(tài)為觀察點(diǎn),分別利用logistic 回歸和神經(jīng)網(wǎng)絡(luò)構(gòu)建模型,以尋求對(duì)于對(duì)于乳腺癌預(yù)后影響最大的因素。研究結(jié)果表明:模型在測(cè)試集上的靈敏度、特異度及準(zhǔn)確率介于75.4%~78.2%之間,AUC均介于0.847~0.850之間,且試驗(yàn)結(jié)論與臨床診斷經(jīng)驗(yàn)相吻合。本研究可為乳腺癌治療及預(yù)后評(píng)價(jià)提供理論依據(jù),對(duì)于臨床診斷具有一定的輔助作用。