利用Logistic 回歸和神經(jīng)網(wǎng)絡(luò)分析乳腺癌的預(yù)后因素*

2020-06-09 06:18:02章鳴嬛

計(jì)算機(jī)與數(shù)字工程 2020年3期

關(guān)鍵詞：樣本數(shù)建模神經(jīng)網(wǎng)絡(luò)

章鳴嬛陳瑛郭欣張璇季萌

（上海杉達(dá)學(xué)院大數(shù)據(jù)分析與處理研究中心上海 201209）

1 引言

乳腺癌是女性最常見(jiàn)的惡性腫瘤，其死亡率高居女性癌癥的第二位。據(jù)2018 年統(tǒng)計(jì)數(shù)據(jù)顯示，全球每年有超過(guò)50萬(wàn)婦女死于乳腺癌，超過(guò)120萬(wàn)婦女罹患乳腺癌［1］。因此，對(duì)于乳腺癌的預(yù)后判斷十分重要?；诖罅扛哔|(zhì)量的、可信度較高的乳腺癌數(shù)據(jù)對(duì)于設(shè)計(jì)患者的預(yù)后評(píng)價(jià)模型顯得非常必要。

美國(guó)國(guó)立癌癥研究所“監(jiān)測(cè)、流行病學(xué)和結(jié)果”數(shù)據(jù)庫(kù)（Surveillance，Epidemiology and End Results，SEER）是北美最具代表性的大型腫瘤登記注冊(cè)數(shù)據(jù)庫(kù)之一，為臨床醫(yī)師的循證實(shí)踐及臨床醫(yī)學(xué)研究提供了系統(tǒng)的證據(jù)支持和寶貴的第一手資料［3］。

近年來(lái)，國(guó)內(nèi)外有很多學(xué)者利用機(jī)器學(xué)習(xí)方法對(duì) SEER 數(shù)據(jù)進(jìn)行挖掘分析。Kim 等［8～9］分別應(yīng)用支持向量機(jī)和樸素貝葉斯方法來(lái)分析乳腺癌患者術(shù)后的情況。劉雅琴［10］利用三種機(jī)器學(xué)習(xí)算法，對(duì)SEER數(shù)據(jù)庫(kù)中的乳腺癌數(shù)據(jù)進(jìn)行預(yù)后分析。尹玢璨等［11］利用貝葉斯網(wǎng)絡(luò)構(gòu)建并分析亞洲腫瘤患者預(yù)后的模型。牟冬梅等［12］通過(guò)提取電子病歷信息來(lái)構(gòu)建妊娠高血壓綜合征危險(xiǎn)因素預(yù)測(cè)模型，建立了優(yōu)化的決策樹(shù)模型。

Logistic 回歸（Logistic Regression，LR）和神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，ANN）是兩種常用的機(jī)器學(xué)習(xí)方法，在包括醫(yī)學(xué)輔助檢測(cè)在內(nèi)的諸多領(lǐng)域具有廣泛的應(yīng)用［13～18］。本文基于 SEER 數(shù)據(jù)庫(kù)1990～2014 年間乳腺癌患者的有效數(shù)據(jù)，分別利用logistic回歸和神經(jīng)網(wǎng)絡(luò)算法建模分析，找出對(duì)乳腺癌預(yù)后影響最大的若干因素，為臨床醫(yī)師開(kāi)展乳腺癌的治療和預(yù)后判斷提供理論依據(jù)。

2 數(shù)據(jù)采集及預(yù)處理

2.1 數(shù)據(jù)采集

本研究以SEER 中1990～2014年間乳腺癌患者的數(shù)據(jù)記錄作為研究對(duì)象。原始數(shù)據(jù)中每條記錄共有133字段。由于SEER 中的字段設(shè)計(jì)是面向多種腫瘤的，很多字段與乳腺癌沒(méi)有直接關(guān)聯(lián)，故在乳腺外科醫(yī)生的指導(dǎo)下，選取了12 個(gè)與本課題相關(guān)的字段。如表1所示。

表1 輸入字段

腫瘤患者5 年生存情況是評(píng)價(jià)預(yù)后效果的重要指標(biāo)［11］。以乳腺癌患者手術(shù)后5 年的生存情況作為輸出變量。此為二分類(lèi)變量，1 為尚存活，0 為死于乳腺癌。

2.2 數(shù)據(jù)預(yù)處理

預(yù)處理是使得數(shù)據(jù)盡量滿(mǎn)足模型輸入要求的過(guò)程。在滿(mǎn)足要求的前提下，應(yīng)盡可能簡(jiǎn)化數(shù)據(jù)形式，以降低建模的復(fù)雜度。［19］。

“腫瘤分期”（Stage）為分類(lèi)型變量，主要有I、II、III、IV 四大類(lèi)，其嚴(yán)重程度依次增加。除上述四大類(lèi)之外，Stage 的取值還涉及到某些大類(lèi)中的細(xì)項(xiàng)。如II 型又可細(xì)分為IIA 和II B，III 又可細(xì)分為IIIA、III B、III C 和 IIINOS 等。為降低建模復(fù)雜程度，只保留 I、II、III、IV 四大類(lèi)，而對(duì)其余細(xì)項(xiàng)加以合并?！澳挲g”為連續(xù)型數(shù)值變量，為降低分析難度和復(fù)雜度，以5 年為一個(gè)區(qū)間，將年齡數(shù)據(jù)劃分為18個(gè)區(qū)域。

預(yù)初實(shí)驗(yàn)顯示，數(shù)據(jù)預(yù)處理后共保留樣本445 575 條，其中術(shù)后5 年生存情況為存活的樣本有407 114條，死亡樣本有38 461條，樣本數(shù)量之比為10.6∶1，兩類(lèi)樣本極不平衡。若不處理該問(wèn)題就直接分析，則試驗(yàn)結(jié)果不具有合理性。多次試驗(yàn)后確定采用三種重抽樣方式，即，過(guò)抽樣、欠抽樣，及綜合過(guò)抽樣和欠抽樣技術(shù)，以保證兩類(lèi)樣本的數(shù)量基本均衡。

2.3 建模方法

本試驗(yàn)采用Logistic 回歸和神經(jīng)網(wǎng)絡(luò)兩種建模方法。

具有P 個(gè)自變量的Logistic 回歸模型如式（1）所示：

從形式上看，當(dāng)Logistic 回歸方程與一般線(xiàn)性回歸方程的形式相同，可用類(lèi)似的方法解釋方程中系數(shù)的含義［20］。即，當(dāng)其他解釋變量保持不變時(shí)，解釋變量xi每增加一個(gè)單位，將引起logi（tP）平均增加（或減少）βi個(gè)單位。本試驗(yàn)中的因變量是患者術(shù)后5 年的生存狀態(tài)，為二分類(lèi)變量，故采用二項(xiàng)logistic回歸分析。

人工神經(jīng)網(wǎng)絡(luò)是（ANN）一種模擬人腦思維的計(jì)算機(jī)建模算法。結(jié)構(gòu)上可劃分為輸入層、隱含層和輸出層。隱含層的層數(shù)和每層節(jié)點(diǎn)數(shù)決定了ANN 的復(fù)雜程度。本研究需對(duì)患者術(shù)后5 年的生存狀態(tài)進(jìn)行二分類(lèi)判定，這就要確定一個(gè)超平面，位于超平面上部的所有樣本點(diǎn)屬于一種情況，位于下部的屬于另一種情況。超平面可由式（2）確定。

式中，n 表示上層節(jié)點(diǎn)的個(gè)數(shù)，Xi為上層第i 個(gè)節(jié)點(diǎn)的輸出，Wij為上層第i 個(gè)節(jié)點(diǎn)與本層第j 個(gè)節(jié)點(diǎn)的連接權(quán)值，qj為線(xiàn)性組合中的常數(shù)項(xiàng)。其中網(wǎng)絡(luò)權(quán)值Wij最為關(guān)鍵。最初，神經(jīng)網(wǎng)絡(luò)的所有權(quán)重均隨機(jī)生成，因此該網(wǎng)絡(luò)的輸出結(jié)果可能無(wú)意義。網(wǎng)絡(luò)通過(guò)不斷地向訓(xùn)練樣本學(xué)習(xí)來(lái)改變網(wǎng)絡(luò)權(quán)值，使超平面不斷地向正確方向移動(dòng)，最終得到期望的輸出結(jié)果［21］。本試驗(yàn)采用多層感知器神經(jīng)網(wǎng)絡(luò)進(jìn)行建模分析，設(shè)置單隱層，以雙曲正切函數(shù)作為激活函數(shù)。

就輸入變量的形式來(lái)看，Logistic 回歸和神經(jīng)網(wǎng)絡(luò)要求輸入變量為數(shù)值型。因此，需考慮如何處理分類(lèi)型變量：對(duì)于二分類(lèi)變量，可轉(zhuǎn)換為取值為0/1的數(shù)值型變量；對(duì)于多分類(lèi)變量，應(yīng)將其轉(zhuǎn)換成啞變量。

3 結(jié)果

分析12 個(gè)輸入與輸出變量的相關(guān)性可知，除了婚姻狀態(tài)和組織學(xué)形態(tài)與輸出的相關(guān)性不太明顯（P＞0.05），其余10 個(gè)輸入變量均與輸出之間有較高的相關(guān)性（P＜0.05）。因此，首先將全部輸入變量全部納入建模過(guò)程，分別使用Logistic 回歸和神經(jīng)網(wǎng)絡(luò)算法建立模型，考察在所有變量的交互作用下，輸入是如何影響乳腺癌的預(yù)后情況的。

3.1 樣本組織方法和模型評(píng)價(jià)指標(biāo)

分別采用過(guò)抽樣、欠抽樣，以及聯(lián)合使用以上兩種方法，設(shè)置合適的抽樣比例，保證兩類(lèi)樣本數(shù)基本平衡。抽樣技術(shù)僅針對(duì)訓(xùn)練樣本，對(duì)于測(cè)試樣本則不使用該技術(shù)。樣本的組織方式均采用十折交叉驗(yàn)證［22］，采用靈敏度（Sensitivity）、特異度（Specificity）及分類(lèi)準(zhǔn)確率（Accuracy）來(lái)衡量實(shí)驗(yàn)判定所有受試者被正確分類(lèi)的能力。以TP代表真陽(yáng)性，F(xiàn)P代表假陽(yáng)性，TN代表真陰性，F(xiàn)N代表假陰性，則有：Sensitivity=TP（/TP+FN）；Specificity=TN/（TN+FP）；Accuracy=（TP+TN）（/TP+FN+ TN+FP）。這三個(gè)指標(biāo)的取值均在［0，1］之間，取值越接近1則效果越好［23］。受試者工作特征（ROC）是基于靈敏度和特異度引出的一種直觀的評(píng)價(jià)方式。ROC以 Sensitivity 為縱坐標(biāo)，以（1- Specificity）為橫坐標(biāo)，其曲線(xiàn)下面積（AUC）的取值大于0.7 時(shí)診斷價(jià)值較高。AUC越大則效果越好［24］。

試驗(yàn)流程如圖1。

3.2 三種重抽樣技術(shù)下的試驗(yàn)結(jié)果

1）過(guò)抽樣

存活樣本數(shù)為407 114，死亡樣本數(shù)為407 659（過(guò)抽樣比為1006%），總計(jì)814 773 條記錄。分別利用Logistic回歸和神經(jīng)網(wǎng)絡(luò)兩種算法進(jìn)行建模分析后，得到測(cè)試集上的靈敏度（Sensitivity）、特異度（Specificity）、準(zhǔn)確率（Accuracy）以及ROC下曲線(xiàn)面積（AUC）如表2所示。

圖1 試驗(yàn)設(shè)計(jì)流程

表2 過(guò)抽樣技術(shù)下兩種模型的性能比較

2）欠抽樣

存活樣本數(shù)為38 461（欠抽樣比為9.6%），死亡樣本數(shù)為38 828，總計(jì)77 289 條記錄。分別利用Logistic 回歸和神經(jīng)網(wǎng)絡(luò)兩種算法進(jìn)行建模分析后，得到測(cè)試集上的性能指標(biāo)如表3所示。

表3 欠抽樣技術(shù)下兩種模型的性能比較

3）過(guò)抽樣與欠抽樣相結(jié)合

存活樣本數(shù)為203 879（欠抽樣比為50%），死亡樣本數(shù)為203 541（過(guò)抽樣比為530%），總計(jì)407 420 條記錄。分別利用Logistic 回歸和神經(jīng)網(wǎng)絡(luò)兩種算法進(jìn)行建模分析，得到測(cè)試集上的性能指標(biāo)如表4所示。

表4 “過(guò)&欠”抽樣技術(shù)下兩種模型的性能比較

該抽樣技術(shù)下，基于Logistic 回歸模型的乳腺癌生存預(yù)測(cè)最優(yōu)模型的部分結(jié)果見(jiàn)表5。以腫瘤分級(jí)Grade和腫瘤分期Stage為例，二者均為多分類(lèi)型變量（分類(lèi)數(shù)為4），需轉(zhuǎn)換成啞變量處理。其中B為回歸系數(shù)，S.E.為回歸系數(shù)的標(biāo)準(zhǔn)誤差，Wald為Wald 統(tǒng)計(jì)量，df 為自由度，Sig 為顯著性水平。Exp（B）為一元優(yōu)勢(shì)比估計(jì)值，可用于近似判斷不同組的相對(duì)“風(fēng)險(xiǎn)”。

表5 Logistic回歸模型的生存預(yù)測(cè)部分結(jié)果（過(guò)抽樣+欠抽樣）

經(jīng)比較三種抽樣技術(shù)下Logistic 回歸和神經(jīng)網(wǎng)絡(luò)的算法評(píng)價(jià)指標(biāo)可知，模型的靈敏度、特異度及準(zhǔn)確率均在75.4%～78.2%之間，AUC 均在0.847～0.850之間，模型具有較好的性能。

分析三種重抽樣技術(shù)下的建模過(guò)程可發(fā)現(xiàn)，在12 個(gè)輸入變量中，對(duì)于模型影響最大的變量均為腫瘤分期、腫瘤分級(jí)、腫瘤尺寸、雌激素水平、孕激素水平、年齡分組。

模型顯示，在其他輸入變量保持不變的前提下，腫瘤的四種分期（Stage：I、II、III、IV）嚴(yán)重程度依次遞增。IV期是I期嚴(yán)重程度的48.5～51.3倍，III期是 I 期嚴(yán)重程度的 17.4～18.6 倍，II 期是 I 期嚴(yán)重程度的4.9～5.2倍。從某種意義上反應(yīng)了腫瘤不同分期的量化程度。

在其它輸入變量保持不變的前提下，腫瘤的四種分級(jí)（Grade：I、II、III、IV）嚴(yán)重程度依次遞增。IV期是 I 期嚴(yán)重程度的 3.4～3.6 倍，III 期是 I 期嚴(yán)重程度的 2.0～2.2 倍，II 期是 I 期嚴(yán)重程度的 1.2～1.3倍。從某種意義上反應(yīng)了腫瘤不同分級(jí)的量化程度。

4 討論

重抽樣過(guò)程中，分別采用了過(guò)抽樣、欠抽樣以及兩者結(jié)合抽樣的方式。試驗(yàn)設(shè)置了一系列抽樣比例，存活樣本與死亡樣本的比例為5∶1～1∶1。結(jié)果證明，當(dāng)抽樣比例使得正負(fù)兩類(lèi)樣本數(shù)量趨于平衡時(shí)，模型的性能最佳。

由前文結(jié)論可知，在12 個(gè)輸入變量中，對(duì)模型影響最大的變量為：腫瘤分期、腫瘤分級(jí)、腫瘤尺寸、雌激素水平、年齡分組和孕激素水平。為降低模型的復(fù)雜程度，只選用這6 個(gè)變量作為建模輸入，且三種抽樣比例仍保持不變。建模后的性能評(píng)價(jià)如表5。

表5 精簡(jiǎn)輸入變量后的模型性能

由表5 可看出，精簡(jiǎn)變量前后，模型的靈敏度、特異度及準(zhǔn)確率分別介于75.4%～78.2%和75.5%～77.8%，二者差異不大。同時(shí)，精簡(jiǎn)前后的模型AUC 分別介于 0.847～0.850 和 0.845～0.846，也幾乎無(wú)顯著性差異。故可得出結(jié)論：模型分析所得的這6 個(gè)變量，是影響乳腺癌5 年預(yù)后最顯著的因素。該結(jié)論也符合臨床醫(yī)生的認(rèn)知。

此外，試驗(yàn)還利用CRT 決策樹(shù)進(jìn)行了建模分析，得出了近似的結(jié)論。決策樹(shù)方法篩選出對(duì)乳腺癌患者預(yù)后影響最大的因子分別是：腫瘤分期、腫瘤分級(jí)、腫瘤尺寸、雌激素水平、年齡分組和孕激素水平。可知，除了年齡分組和孕激素排序的位序略有差異，基于決策樹(shù)方法的建模結(jié)論與本文結(jié)論完全一致。

5 結(jié)語(yǔ)

選用SEER 數(shù)據(jù)庫(kù)中1990～2014年的乳腺癌數(shù)據(jù)，以術(shù)后5 年的存活狀態(tài)為觀察點(diǎn)，分別利用logistic 回歸和神經(jīng)網(wǎng)絡(luò)構(gòu)建模型，以尋求對(duì)于對(duì)于乳腺癌預(yù)后影響最大的因素。研究結(jié)果表明：模型在測(cè)試集上的靈敏度、特異度及準(zhǔn)確率介于75.4%～78.2%之間，AUC均介于0.847～0.850之間，且試驗(yàn)結(jié)論與臨床診斷經(jīng)驗(yàn)相吻合。本研究可為乳腺癌治療及預(yù)后評(píng)價(jià)提供理論依據(jù)，對(duì)于臨床診斷具有一定的輔助作用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡