国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用Logistic 回歸和神經(jīng)網(wǎng)絡(luò)分析乳腺癌的預(yù)后因素*

2020-06-09 06:18:02章鳴嬛
關(guān)鍵詞:樣本數(shù)建模神經(jīng)網(wǎng)絡(luò)

章鳴嬛 陳 瑛 郭 欣 張 璇 季 萌

(上海杉達(dá)學(xué)院大數(shù)據(jù)分析與處理研究中心 上海 201209)

1 引言

乳腺癌是女性最常見(jiàn)的惡性腫瘤,其死亡率高居女性癌癥的第二位。據(jù)2018 年統(tǒng)計(jì)數(shù)據(jù)顯示,全球每年有超過(guò)50萬(wàn)婦女死于乳腺癌,超過(guò)120萬(wàn)婦女罹患乳腺癌[1]。因此,對(duì)于乳腺癌的預(yù)后判斷十分重要?;诖罅扛哔|(zhì)量的、可信度較高的乳腺癌數(shù)據(jù)對(duì)于設(shè)計(jì)患者的預(yù)后評(píng)價(jià)模型顯得非常必要。

美國(guó)國(guó)立癌癥研究所“監(jiān)測(cè)、流行病學(xué)和結(jié)果”數(shù)據(jù)庫(kù)(Surveillance,Epidemiology and End Results,SEER)是北美最具代表性的大型腫瘤登記注冊(cè)數(shù)據(jù)庫(kù)之一,為臨床醫(yī)師的循證實(shí)踐及臨床醫(yī)學(xué)研究提供了系統(tǒng)的證據(jù)支持和寶貴的第一手資料[3]。

近年來(lái),國(guó)內(nèi)外有很多學(xué)者利用機(jī)器學(xué)習(xí)方法對(duì) SEER 數(shù)據(jù)進(jìn)行挖掘分析。Kim 等[8~9]分別應(yīng)用支持向量機(jī)和樸素貝葉斯方法來(lái)分析乳腺癌患者術(shù)后的情況。劉雅琴[10]利用三種機(jī)器學(xué)習(xí)算法,對(duì)SEER數(shù)據(jù)庫(kù)中的乳腺癌數(shù)據(jù)進(jìn)行預(yù)后分析。尹玢璨等[11]利用貝葉斯網(wǎng)絡(luò)構(gòu)建并分析亞洲腫瘤患者預(yù)后的模型。牟冬梅等[12]通過(guò)提取電子病歷信息來(lái)構(gòu)建妊娠高血壓綜合征危險(xiǎn)因素預(yù)測(cè)模型,建立了優(yōu)化的決策樹(shù)模型。

Logistic 回歸(Logistic Regression,LR)和神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是兩種常用的機(jī)器學(xué)習(xí)方法,在包括醫(yī)學(xué)輔助檢測(cè)在內(nèi)的諸多領(lǐng)域具有廣泛的應(yīng)用[13~18]。本文基于 SEER 數(shù)據(jù)庫(kù)1990~2014 年間乳腺癌患者的有效數(shù)據(jù),分別利用logistic回歸和神經(jīng)網(wǎng)絡(luò)算法建模分析,找出對(duì)乳腺癌預(yù)后影響最大的若干因素,為臨床醫(yī)師開(kāi)展乳腺癌的治療和預(yù)后判斷提供理論依據(jù)。

2 數(shù)據(jù)采集及預(yù)處理

2.1 數(shù)據(jù)采集

本研究以SEER 中1990~2014年間乳腺癌患者的數(shù)據(jù)記錄作為研究對(duì)象。原始數(shù)據(jù)中每條記錄共有133字段。由于SEER 中的字段設(shè)計(jì)是面向多種腫瘤的,很多字段與乳腺癌沒(méi)有直接關(guān)聯(lián),故在乳腺外科醫(yī)生的指導(dǎo)下,選取了12 個(gè)與本課題相關(guān)的字段。如表1所示。

表1 輸入字段

腫瘤患者5 年生存情況是評(píng)價(jià)預(yù)后效果的重要指標(biāo)[11]。以乳腺癌患者手術(shù)后5 年的生存情況作為輸出變量。此為二分類(lèi)變量,1 為尚存活,0 為死于乳腺癌。

2.2 數(shù)據(jù)預(yù)處理

預(yù)處理是使得數(shù)據(jù)盡量滿(mǎn)足模型輸入要求的過(guò)程。在滿(mǎn)足要求的前提下,應(yīng)盡可能簡(jiǎn)化數(shù)據(jù)形式,以降低建模的復(fù)雜度。[19]。

“腫瘤分期”(Stage)為分類(lèi)型變量,主要有I、II、III、IV 四大類(lèi),其嚴(yán)重程度依次增加。除上述四大類(lèi)之外,Stage 的取值還涉及到某些大類(lèi)中的細(xì)項(xiàng)。如II 型又可細(xì)分為IIA 和II B,III 又可細(xì)分為IIIA、III B、III C 和 IIINOS 等。為降低建模復(fù)雜程度,只保留 I、II、III、IV 四大類(lèi),而對(duì)其余細(xì)項(xiàng)加以合并?!澳挲g”為連續(xù)型數(shù)值變量,為降低分析難度和復(fù)雜度,以5 年為一個(gè)區(qū)間,將年齡數(shù)據(jù)劃分為18個(gè)區(qū)域。

預(yù)初實(shí)驗(yàn)顯示,數(shù)據(jù)預(yù)處理后共保留樣本445 575 條,其中術(shù)后5 年生存情況為存活的樣本有407 114條,死亡樣本有38 461條,樣本數(shù)量之比為10.6∶1,兩類(lèi)樣本極不平衡。若不處理該問(wèn)題就直接分析,則試驗(yàn)結(jié)果不具有合理性。多次試驗(yàn)后確定采用三種重抽樣方式,即,過(guò)抽樣、欠抽樣,及綜合過(guò)抽樣和欠抽樣技術(shù),以保證兩類(lèi)樣本的數(shù)量基本均衡。

2.3 建模方法

本試驗(yàn)采用Logistic 回歸和神經(jīng)網(wǎng)絡(luò)兩種建模方法。

具有P 個(gè)自變量的Logistic 回歸模型如式(1)所示:

從形式上看,當(dāng)Logistic 回歸方程與一般線(xiàn)性回歸方程的形式相同,可用類(lèi)似的方法解釋方程中系數(shù)的含義[20]。即,當(dāng)其他解釋變量保持不變時(shí),解釋變量xi每增加一個(gè)單位,將引起logi(tP)平均增加(或減少)βi個(gè)單位。本試驗(yàn)中的因變量是患者術(shù)后5 年的生存狀態(tài),為二分類(lèi)變量,故采用二項(xiàng)logistic回歸分析。

人工神經(jīng)網(wǎng)絡(luò)是(ANN)一種模擬人腦思維的計(jì)算機(jī)建模算法。結(jié)構(gòu)上可劃分為輸入層、隱含層和輸出層。隱含層的層數(shù)和每層節(jié)點(diǎn)數(shù)決定了ANN 的復(fù)雜程度。本研究需對(duì)患者術(shù)后5 年的生存狀態(tài)進(jìn)行二分類(lèi)判定,這就要確定一個(gè)超平面,位于超平面上部的所有樣本點(diǎn)屬于一種情況,位于下部的屬于另一種情況。超平面可由式(2)確定。

式中,n 表示上層節(jié)點(diǎn)的個(gè)數(shù),Xi為上層第i 個(gè)節(jié)點(diǎn)的輸出,Wij為上層第i 個(gè)節(jié)點(diǎn)與本層第j 個(gè)節(jié)點(diǎn)的連接權(quán)值,qj為線(xiàn)性組合中的常數(shù)項(xiàng)。其中網(wǎng)絡(luò)權(quán)值Wij最為關(guān)鍵。最初,神經(jīng)網(wǎng)絡(luò)的所有權(quán)重均隨機(jī)生成,因此該網(wǎng)絡(luò)的輸出結(jié)果可能無(wú)意義。網(wǎng)絡(luò)通過(guò)不斷地向訓(xùn)練樣本學(xué)習(xí)來(lái)改變網(wǎng)絡(luò)權(quán)值,使超平面不斷地向正確方向移動(dòng),最終得到期望的輸出結(jié)果[21]。本試驗(yàn)采用多層感知器神經(jīng)網(wǎng)絡(luò)進(jìn)行建模分析,設(shè)置單隱層,以雙曲正切函數(shù)作為激活函數(shù)。

就輸入變量的形式來(lái)看,Logistic 回歸和神經(jīng)網(wǎng)絡(luò)要求輸入變量為數(shù)值型。因此,需考慮如何處理分類(lèi)型變量:對(duì)于二分類(lèi)變量,可轉(zhuǎn)換為取值為0/1的數(shù)值型變量;對(duì)于多分類(lèi)變量,應(yīng)將其轉(zhuǎn)換成啞變量。

3 結(jié)果

分析12 個(gè)輸入與輸出變量的相關(guān)性可知,除了婚姻狀態(tài)和組織學(xué)形態(tài)與輸出的相關(guān)性不太明顯(P>0.05),其余10 個(gè)輸入變量均與輸出之間有較高的相關(guān)性(P<0.05)。因此,首先將全部輸入變量全部納入建模過(guò)程,分別使用Logistic 回歸和神經(jīng)網(wǎng)絡(luò)算法建立模型,考察在所有變量的交互作用下,輸入是如何影響乳腺癌的預(yù)后情況的。

3.1 樣本組織方法和模型評(píng)價(jià)指標(biāo)

分別采用過(guò)抽樣、欠抽樣,以及聯(lián)合使用以上兩種方法,設(shè)置合適的抽樣比例,保證兩類(lèi)樣本數(shù)基本平衡。抽樣技術(shù)僅針對(duì)訓(xùn)練樣本,對(duì)于測(cè)試樣本則不使用該技術(shù)。樣本的組織方式均采用十折交叉驗(yàn)證[22],采用靈敏度(Sensitivity)、特異度(Specificity)及分類(lèi)準(zhǔn)確率(Accuracy)來(lái)衡量實(shí)驗(yàn)判定所有受試者被正確分類(lèi)的能力。以TP代表真陽(yáng)性,F(xiàn)P代表假陽(yáng)性,TN代表真陰性,F(xiàn)N代表假陰性,則有:Sensitivity=TP(/TP+FN);Specificity=TN/(TN+FP);Accuracy=(TP+TN)(/TP+FN+ TN+FP)。這三個(gè)指標(biāo)的取值均在[0,1]之間,取值越接近1則效果越好[23]。受試者工作特征(ROC)是基于靈敏度和特異度引出的一種直觀的評(píng)價(jià)方式。ROC以 Sensitivity 為縱坐標(biāo),以(1- Specificity)為橫坐標(biāo),其曲線(xiàn)下面積(AUC)的取值大于0.7 時(shí)診斷價(jià)值較高。AUC越大則效果越好[24]。

試驗(yàn)流程如圖1。

3.2 三種重抽樣技術(shù)下的試驗(yàn)結(jié)果

1)過(guò)抽樣

存活樣本數(shù)為407 114,死亡樣本數(shù)為407 659(過(guò)抽樣比為1006%),總計(jì)814 773 條記錄。分別利用Logistic回歸和神經(jīng)網(wǎng)絡(luò)兩種算法進(jìn)行建模分析后,得到測(cè)試集上的靈敏度(Sensitivity)、特異度(Specificity)、準(zhǔn)確率(Accuracy)以及ROC下曲線(xiàn)面積(AUC)如表2所示。

圖1 試驗(yàn)設(shè)計(jì)流程

表2 過(guò)抽樣技術(shù)下兩種模型的性能比較

2)欠抽樣

存活樣本數(shù)為38 461(欠抽樣比為9.6%),死亡樣本數(shù)為38 828,總計(jì)77 289 條記錄。分別利用Logistic 回歸和神經(jīng)網(wǎng)絡(luò)兩種算法進(jìn)行建模分析后,得到測(cè)試集上的性能指標(biāo)如表3所示。

表3 欠抽樣技術(shù)下兩種模型的性能比較

3)過(guò)抽樣與欠抽樣相結(jié)合

存活樣本數(shù)為203 879(欠抽樣比為50%),死亡樣本數(shù)為203 541(過(guò)抽樣比為530%),總計(jì)407 420 條記錄。分別利用Logistic 回歸和神經(jīng)網(wǎng)絡(luò)兩種算法進(jìn)行建模分析,得到測(cè)試集上的性能指標(biāo)如表4所示。

表4 “過(guò)&欠”抽樣技術(shù)下兩種模型的性能比較

該抽樣技術(shù)下,基于Logistic 回歸模型的乳腺癌生存預(yù)測(cè)最優(yōu)模型的部分結(jié)果見(jiàn)表5。以腫瘤分級(jí)Grade和腫瘤分期Stage為例,二者均為多分類(lèi)型變量(分類(lèi)數(shù)為4),需轉(zhuǎn)換成啞變量處理。其中B為回歸系數(shù),S.E.為回歸系數(shù)的標(biāo)準(zhǔn)誤差,Wald為Wald 統(tǒng)計(jì)量,df 為自由度,Sig 為顯著性水平。Exp(B)為一元優(yōu)勢(shì)比估計(jì)值,可用于近似判斷不同組的相對(duì)“風(fēng)險(xiǎn)”。

表5 Logistic回歸模型的生存預(yù)測(cè)部分結(jié)果(過(guò)抽樣+欠抽樣)

經(jīng)比較三種抽樣技術(shù)下Logistic 回歸和神經(jīng)網(wǎng)絡(luò)的算法評(píng)價(jià)指標(biāo)可知,模型的靈敏度、特異度及準(zhǔn)確率均在75.4%~78.2%之間,AUC 均在0.847~0.850之間,模型具有較好的性能。

分析三種重抽樣技術(shù)下的建模過(guò)程可發(fā)現(xiàn),在12 個(gè)輸入變量中,對(duì)于模型影響最大的變量均為腫瘤分期、腫瘤分級(jí)、腫瘤尺寸、雌激素水平、孕激素水平、年齡分組。

模型顯示,在其他輸入變量保持不變的前提下,腫瘤的四種分期(Stage:I、II、III、IV)嚴(yán)重程度依次遞增。IV期是I期嚴(yán)重程度的48.5~51.3倍,III期是 I 期嚴(yán)重程度的 17.4~18.6 倍,II 期是 I 期嚴(yán)重程度的4.9~5.2倍。從某種意義上反應(yīng)了腫瘤不同分期的量化程度。

在其它輸入變量保持不變的前提下,腫瘤的四種分級(jí)(Grade:I、II、III、IV)嚴(yán)重程度依次遞增。IV期是 I 期嚴(yán)重程度的 3.4~3.6 倍,III 期是 I 期嚴(yán)重程度的 2.0~2.2 倍,II 期是 I 期嚴(yán)重程度的 1.2~1.3倍。從某種意義上反應(yīng)了腫瘤不同分級(jí)的量化程度。

4 討論

重抽樣過(guò)程中,分別采用了過(guò)抽樣、欠抽樣以及兩者結(jié)合抽樣的方式。試驗(yàn)設(shè)置了一系列抽樣比例,存活樣本與死亡樣本的比例為5∶1~1∶1。結(jié)果證明,當(dāng)抽樣比例使得正負(fù)兩類(lèi)樣本數(shù)量趨于平衡時(shí),模型的性能最佳。

由前文結(jié)論可知,在12 個(gè)輸入變量中,對(duì)模型影響最大的變量為:腫瘤分期、腫瘤分級(jí)、腫瘤尺寸、雌激素水平、年齡分組和孕激素水平。為降低模型的復(fù)雜程度,只選用這6 個(gè)變量作為建模輸入,且三種抽樣比例仍保持不變。建模后的性能評(píng)價(jià)如表5。

表5 精簡(jiǎn)輸入變量后的模型性能

由表5 可看出,精簡(jiǎn)變量前后,模型的靈敏度、特異度及準(zhǔn)確率分別介于75.4%~78.2%和75.5%~77.8%,二者差異不大。同時(shí),精簡(jiǎn)前后的模型AUC 分別介于 0.847~0.850 和 0.845~0.846,也幾乎無(wú)顯著性差異。故可得出結(jié)論:模型分析所得的這6 個(gè)變量,是影響乳腺癌5 年預(yù)后最顯著的因素。該結(jié)論也符合臨床醫(yī)生的認(rèn)知。

此外,試驗(yàn)還利用CRT 決策樹(shù)進(jìn)行了建模分析,得出了近似的結(jié)論。決策樹(shù)方法篩選出對(duì)乳腺癌患者預(yù)后影響最大的因子分別是:腫瘤分期、腫瘤分級(jí)、腫瘤尺寸、雌激素水平、年齡分組和孕激素水平。可知,除了年齡分組和孕激素排序的位序略有差異,基于決策樹(shù)方法的建模結(jié)論與本文結(jié)論完全一致。

5 結(jié)語(yǔ)

選用SEER 數(shù)據(jù)庫(kù)中1990~2014年的乳腺癌數(shù)據(jù),以術(shù)后5 年的存活狀態(tài)為觀察點(diǎn),分別利用logistic 回歸和神經(jīng)網(wǎng)絡(luò)構(gòu)建模型,以尋求對(duì)于對(duì)于乳腺癌預(yù)后影響最大的因素。研究結(jié)果表明:模型在測(cè)試集上的靈敏度、特異度及準(zhǔn)確率介于75.4%~78.2%之間,AUC均介于0.847~0.850之間,且試驗(yàn)結(jié)論與臨床診斷經(jīng)驗(yàn)相吻合。本研究可為乳腺癌治療及預(yù)后評(píng)價(jià)提供理論依據(jù),對(duì)于臨床診斷具有一定的輔助作用。

猜你喜歡
樣本數(shù)建模神經(jīng)網(wǎng)絡(luò)
勘 誤 聲 明
聯(lián)想等效,拓展建模——以“帶電小球在等效場(chǎng)中做圓周運(yùn)動(dòng)”為例
神經(jīng)網(wǎng)絡(luò)抑制無(wú)線(xiàn)通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
電子制作(2018年17期)2018-09-28 01:56:44
不對(duì)稱(chēng)半橋變換器的建模與仿真
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
三時(shí)間間隔圓錐補(bǔ)償姿態(tài)更新算法性能分析
基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
田間鑒定雜交棉品種純度的適宜時(shí)期和樣本數(shù)
昌平区| 洞头县| 昌乐县| 铁力市| 军事| 若尔盖县| 阳西县| 桐庐县| 马龙县| 泰兴市| 醴陵市| 阿坝| 东兰县| 英吉沙县| 诏安县| 崇左市| 隆昌县| 措勤县| 固原市| 洪雅县| 荣昌县| 清水县| 梨树县| 青海省| 平阳县| 甘德县| 临武县| 托里县| 海伦市| 宜兰市| 沂水县| 鸡东县| 德保县| 特克斯县| 丰城市| 贺州市| 景东| 海兴县| 中西区| 澄城县| 专栏|