譚 垚 霍 苓 歐陽濤△ 姚 晨△
【提 要】 目的 探究并比較深度神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)學(xué)習(xí)淺層模型在基于超聲影像特征診斷乳腺病變性質(zhì)的應(yīng)用價(jià)值。方法 將建模數(shù)據(jù)集以75%:25%比例拆分為訓(xùn)練集和測(cè)試集,同時(shí)構(gòu)建6種淺層學(xué)習(xí)模型和深度神經(jīng)網(wǎng)絡(luò)模型,比較其在測(cè)試集和驗(yàn)證集的性能,以ROC曲線下面積(AUC)作為模型主要評(píng)估指標(biāo)。結(jié)果 在淺層學(xué)習(xí)模型中,logistic回歸的AUC最大,除多層感知器外,其他差異均有統(tǒng)計(jì)學(xué)意義;深度神經(jīng)網(wǎng)絡(luò)模型的ROC曲線下面積(AUC)高于logistic回歸,差異具有統(tǒng)計(jì)學(xué)意義。結(jié)論 深度神經(jīng)網(wǎng)絡(luò)模型相比于傳統(tǒng)淺層學(xué)習(xí)模型在基于超聲影像特征診斷乳腺病變性質(zhì)中有更大的診斷價(jià)值,但需要進(jìn)一步探索并優(yōu)化DNN模型,從而最終使臨床醫(yī)師能從深度學(xué)習(xí)模型的輔助診斷中獲益。
乳腺癌是中國(guó)女性發(fā)病率最高的惡性腫瘤,嚴(yán)重危害女性的身心健康[1]。對(duì)乳腺癌疾病進(jìn)行有效的篩查可以早期發(fā)現(xiàn)疾病,降低疾病死亡率。目前用于乳腺癌篩查的主要方法是基于常規(guī)超聲設(shè)備的乳腺超聲檢查,但醫(yī)生尤其是基層醫(yī)生的操作水平有限和經(jīng)驗(yàn)不足嚴(yán)重影響篩查的效果,如何進(jìn)一步提高篩查能力是研究者的共同目標(biāo)。因此基于大樣本超聲影像特征建立診斷乳腺病變性質(zhì)的模型可以有效輔助基層醫(yī)生提高篩查能力,從而做出更及時(shí)、更準(zhǔn)確的診斷。
目前國(guó)內(nèi)外針對(duì)于乳腺癌超聲影像建立模型的研究多數(shù)采用淺層學(xué)習(xí)模型,本文利用深度學(xué)習(xí)進(jìn)行進(jìn)一步探索。深度學(xué)習(xí)是一種基于人工神經(jīng)網(wǎng)絡(luò)的研究,通過模擬人腦神經(jīng)元將數(shù)據(jù)從低層傳遞到高層,最終解釋數(shù)據(jù)和信息的一種機(jī)械學(xué)習(xí)技術(shù)[2]。深度學(xué)習(xí)目前在醫(yī)學(xué)影像領(lǐng)域上取得較大的成功,因其構(gòu)架具有靈活性、特征提取能力強(qiáng)、性能潛力大和可擴(kuò)展性強(qiáng)等優(yōu)勢(shì),通常優(yōu)于淺層機(jī)器學(xué)習(xí)方法,并且可以在很少或沒有預(yù)處理的情況下從原始數(shù)據(jù)中自動(dòng)提取特征[3],從而輔助醫(yī)生提高診斷效能[4]。
本研究將利用logistic回歸(LR)、隨機(jī)森林(random forest,RF)、極端隨機(jī)樹(extra trees)、多層感知器(multilayer perceptron,MLP)、支持向量機(jī)(support vector,SVC)和極端梯度提升(XGBoost)六種淺層學(xué)習(xí)模型和深度神經(jīng)網(wǎng)絡(luò)模型(deep neural network,DNN)分別基于超聲影像特征診斷乳腺病變性質(zhì)建立相關(guān)模型,比較兩類模型的預(yù)測(cè)能力。
1.資料來源
本研究基于前期研究數(shù)據(jù)[14],建模數(shù)據(jù)集為北京腫瘤醫(yī)院2010年11月至2016年5月收集的具有全自動(dòng)超聲影像檢查資料、病灶超聲影像最大徑2cm以下且有組織病理學(xué)確診的1345例病例,經(jīng)過北京人民醫(yī)院醫(yī)生再次讀取影像特征數(shù)據(jù),最后納入兩醫(yī)院復(fù)判一致的建模數(shù)據(jù)為1125例,其中惡性腫瘤為732例(占65.07%)。將建模數(shù)據(jù)集劃分為75%訓(xùn)練樣本(training set)和25%測(cè)試樣本(test set),訓(xùn)練樣本用于模型構(gòu)建,測(cè)試樣本進(jìn)行模型測(cè)試。
外部驗(yàn)證數(shù)據(jù)集(external validation set)為北京腫瘤醫(yī)院、北京人民醫(yī)院、河北醫(yī)科大學(xué)第四醫(yī)院、北京市順義區(qū)婦幼保健院和北京市海淀區(qū)婦幼保健院5個(gè)中心2017年8月到2019年12月收集的全自動(dòng)超聲影像檢查資料,并且有活檢病例病理結(jié)果(1094例)或隨訪病例隨訪結(jié)果(890例)共計(jì)1981例,經(jīng)過數(shù)據(jù)清理最后納入1965例。用包括基層醫(yī)院在內(nèi)收集的1965例臨床數(shù)據(jù)作為外部驗(yàn)證數(shù)據(jù)集對(duì)模型進(jìn)行驗(yàn)證。
模型結(jié)局指標(biāo)是具有病理活檢分型的活檢病例或隨訪結(jié)果有疾病分型的隨訪病例的診斷結(jié)果(良性或惡性)。自變量是根據(jù)超聲影像特征性術(shù)語,在前期研究中確定納入模型的相關(guān)變量,變量編碼如表1。
表1 變量賦值情況
2.研究方法
(1)淺層學(xué)習(xí)模型
將變量選擇、獨(dú)熱編碼和基本模型組裝成pipeline(管道或流水線),將pipeline放入網(wǎng)格搜索,設(shè)置10折交叉驗(yàn)證,進(jìn)行超參數(shù)的搜索以調(diào)優(yōu),輸出最優(yōu)模型。為了防止模型過擬合,對(duì)模型進(jìn)一步校準(zhǔn),使用校準(zhǔn)后的模型對(duì)測(cè)試集和外部驗(yàn)證集進(jìn)行預(yù)測(cè),并輸出預(yù)測(cè)性能指標(biāo)。將上述全部流程定義為一個(gè)函數(shù)模塊以供重復(fù)調(diào)用。輸入所有自變量,對(duì)每個(gè)模型分別定義參數(shù)搜索范圍,調(diào)用上述函數(shù)并執(zhí)行結(jié)果。
交叉驗(yàn)證是防止過度擬合的有力預(yù)防措施。在標(biāo)準(zhǔn)的k倍交叉驗(yàn)證中,我們將數(shù)據(jù)劃分為k個(gè)子集,稱為folds(折)。然后,我們將(k-1)倍的迭代算法迭代訓(xùn)練,同時(shí)將其余倍數(shù)用作測(cè)試集(稱為“holdout fold”,即“留出來一部分”)。交叉驗(yàn)證使模型可以僅使用原始訓(xùn)練集來調(diào)整超參數(shù)。這樣,就可以將測(cè)試集保留為一個(gè)真正看不見的數(shù)據(jù)集,以選擇最終模型。對(duì)于具備正則化超參數(shù)的模型,我們對(duì)logistic回歸模型使用正則化,決策樹類型的random forest、extra trees進(jìn)行了剪枝,support vector和multilayer perceptron選用具有懲罰功能的超參數(shù),XGBoost使用了控制模型復(fù)雜性的參數(shù)。
機(jī)器學(xué)習(xí)所用軟件為Python。淺層學(xué)習(xí)模型構(gòu)建所使用的庫為“sklearn”庫。
(2)深度學(xué)習(xí)模型
構(gòu)建DNN模型,并以logistic回歸模型作為基線進(jìn)行比較。DNN模型所用的3個(gè)數(shù)據(jù)集(訓(xùn)練集,測(cè)試集和外部驗(yàn)證集)都同上述淺層學(xué)習(xí)模型,使用相同的自變量作為輸入。依次進(jìn)行獨(dú)熱編碼,模型架構(gòu)設(shè)計(jì),模型編譯,借助于網(wǎng)格搜索的超參數(shù)調(diào)整等流程確定最佳模型,最后進(jìn)行模型預(yù)測(cè),性能結(jié)果輸出。將DNN模型和logistic回歸模型在測(cè)試集和外部驗(yàn)證集的預(yù)測(cè)結(jié)果,以ROC曲線形式繪制到同一個(gè)圖中進(jìn)行兩者性能的對(duì)比。DNN模型使用的Python庫為:“keras”庫;“keras”的后端引擎庫為“tensorflow”。
①DNN架構(gòu)設(shè)計(jì)
DNN模型共包含4層的網(wǎng)絡(luò)架構(gòu),見圖1。Dense層使用“relu”激活函數(shù),內(nèi)核初始化器(kernel_initializer)使用“glorot_uniform”。模型編譯時(shí),使用損失函數(shù)為“binary_crossentropy”,優(yōu)化器為具有學(xué)習(xí)率為1e-4的“RMSprop”,評(píng)估指標(biāo)為準(zhǔn)確率(accuracy)。
圖1 DNN模型架構(gòu)
②DNN調(diào)優(yōu)
將DNN模型包裝在KerasClassifier類實(shí)例中,使用sklearn模塊中的GridSearchCV類進(jìn)行網(wǎng)格搜索超參數(shù)。最終使用的輪次(epochs,向前和向后傳播中所有批次的單次訓(xùn)練迭代),批處理(batch_size,即一次訓(xùn)練所選取的樣本數(shù))的取值分別為:epochs=100,batch_size=10。
直到一定數(shù)量的迭代,新的迭代才能改善模型,但是此后該模型的泛化能力可能會(huì)因?yàn)檫^度擬合訓(xùn)練數(shù)據(jù)而減弱。提前停止是指當(dāng)模型通過該點(diǎn)前停止。為了防止過擬合,我們開始時(shí)選擇相對(duì)較少的層和參數(shù),然后逐漸增加層的大小或增加新層,直到這種增加對(duì)驗(yàn)證損失的影響變得很小。根據(jù)模型的損失曲線,選擇適合的輪次,及時(shí)終止模型的迭代。
(3)ROC曲線比較
ROC曲線下面積用于評(píng)估模型的區(qū)分度,以此驗(yàn)證模型的鑒別能力。將各個(gè)模型ROC曲線下面積作為主要的評(píng)價(jià)指標(biāo),運(yùn)用Medcal軟件,將各個(gè)模型的預(yù)測(cè)值作為檢驗(yàn)變量,金標(biāo)準(zhǔn)結(jié)果設(shè)為分類變量,得出各個(gè)模型的ROC曲線下面積(AUC)并采用Z檢驗(yàn)對(duì)結(jié)果進(jìn)行兩兩比較,比較ROC曲線下面積有無統(tǒng)計(jì)學(xué)差異,P<0.05表示有統(tǒng)計(jì)學(xué)差異。
1.一般情況
建模數(shù)據(jù)集惡性腫瘤732例(65.07%),良性腫瘤393例(34.93%);驗(yàn)證數(shù)據(jù)集中惡性腫瘤498例(25.34%),良性腫瘤1467例(74.66%),兩者經(jīng)檢驗(yàn)差異具有統(tǒng)計(jì)學(xué)意義(χ2=471.132,P<0.0001)。
2.淺層學(xué)習(xí)模型結(jié)果
分別用logistic回歸、random forest、extra trees、multilayer perceptron、support vector和XGBoost對(duì)測(cè)試集和驗(yàn)證集進(jìn)行分析。
在測(cè)試集中,multilayer perceptron模型AUC最大,為0.775(95%CI:0.719~0.832);logistic回歸模型AUC為0.771(95%CI:0.715~0.826)。在驗(yàn)證集中l(wèi)ogistic回歸模型AUC最大,為0.906(95%CI:0.892~0.921)。其他模型在測(cè)試集和驗(yàn)證集的評(píng)價(jià)指標(biāo)詳見表2。
表2 不同模型在測(cè)試和驗(yàn)證集的評(píng)價(jià)指標(biāo)比較
用AUC作為模型的主要評(píng)價(jià)指標(biāo),對(duì)各個(gè)模型的AUC進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn),在驗(yàn)證集上,logistic回歸模型AUC高于其他模型,logistic回歸模型與extra trees,random forest和support vector的AUC差異具有統(tǒng)計(jì)學(xué)意義(Z值分別為5.746,4.981,8.079,P<0.0001);logistic回歸模型與XGBoost的AUC差異具有統(tǒng)計(jì)學(xué)意義(Z=2.081,P=0.0374);logistic回歸模型與multilayer perceptron的AUC差異無統(tǒng)計(jì)學(xué)意義。其他模型之間AUC比較見表3。
表3 不同模型在驗(yàn)證數(shù)據(jù)集上ROC曲線下面積比較
3.深度學(xué)習(xí)模型結(jié)果
以logistic回歸作為淺層學(xué)習(xí)基線模型,建立DNN深度學(xué)習(xí)模型與之進(jìn)行比較。DNN模型loss(損失)曲線和accuracy(準(zhǔn)確率)曲線見圖2,未出現(xiàn)過擬合的現(xiàn)象。根據(jù)表1,在測(cè)試集上DNN模型各個(gè)參數(shù)表現(xiàn)都優(yōu)于淺層學(xué)習(xí)模型,其準(zhǔn)確度為0.762,AUC為0.807(95%CI:0.751~0.854)。在驗(yàn)證集中DNN模型準(zhǔn)確度為0.854,在選取的截?cái)嘀禐?.468時(shí),靈敏度為0.821,特異度為0.859,AUC為0.914(95%CI:0.900~0.929),與logistic回歸比較,兩模型AUC相差0.0121,Z統(tǒng)計(jì)量為4.707,P<0.0001,兩模型預(yù)測(cè)價(jià)值差異具有統(tǒng)計(jì)學(xué)意義,DNN模型高于logistic回歸,兩者在測(cè)試集和驗(yàn)證集的ROC曲線見圖3。
圖2 DNN模型每輪(epoch)訓(xùn)練損失/準(zhǔn)確率和驗(yàn)證損失/準(zhǔn)確率
圖3 logistic模型和DNN模型在測(cè)試集(左)和驗(yàn)證集(右)的ROC曲線
本研究通過建立不同的淺層學(xué)習(xí)模型和深度學(xué)習(xí)模型探究基于超聲影像特征診斷乳腺病變性質(zhì)的價(jià)值。目前國(guó)內(nèi)臨床上利用超聲影像特征建立診斷模型大部分采用logistic 回歸[5-7],建模方式較為單一。logistic回歸作為一種常見的模型,構(gòu)建過程簡(jiǎn)單且易于解釋,但是由于它對(duì)參數(shù)進(jìn)行線性結(jié)合計(jì)算,對(duì)于復(fù)雜的變量適應(yīng)程度較低[8]。本研究所有變量均為分類變量,可以有效避免由于變量之間存在線性關(guān)系假設(shè)導(dǎo)致logistic 回歸建模的局限性[9]。本研究主要是基于前期研究[14]依據(jù)三種自變量篩選的方法,考慮模型的使用條件(如:共線性等)從最初27個(gè)自變量確定的7個(gè)模型預(yù)測(cè)自變量的進(jìn)一步驗(yàn)證研究。本研究不將重點(diǎn)放在自變量的篩選上,在基于前者研究確定的自變量上通過建立包括logistic 回歸在內(nèi)的6個(gè)淺層學(xué)習(xí)模型比較,綜合模型參數(shù)和模型操作便捷性,解釋容易性等方面,最終確定使用logistic 回歸作為淺層學(xué)習(xí)基線模型與深度模型比較。
當(dāng)前基于超聲影像特征建立乳腺病變性質(zhì)診斷模型多數(shù)使用的是淺層結(jié)構(gòu)算法模型,其局限性在于有限樣本和計(jì)算單元情況下對(duì)復(fù)雜函數(shù)的表示能力有限,針對(duì)復(fù)雜分類問題其泛化能力受到一定制約[10]。深度學(xué)習(xí)可通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示,并展現(xiàn)了強(qiáng)大的從少數(shù)樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力[11]。DNN模型是一種深度神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)模型,是深度學(xué)習(xí)的基礎(chǔ)[12]。其內(nèi)部的神經(jīng)網(wǎng)絡(luò)層可以分為三類,輸入層、隱藏層和輸出層,一般來說第一層是輸入層,最后一層是輸出層,而中間的層數(shù)都是隱藏層。相比于淺層學(xué)習(xí)模型,DNN由于有更多的層次,對(duì)事物的建?;蛘叱橄蟊憩F(xiàn)的能力更突出,因此也更能準(zhǔn)確模擬出更復(fù)雜的模型。
本研究構(gòu)建4層網(wǎng)絡(luò)架構(gòu)的深度學(xué)習(xí)模型,利用較少層數(shù)的DNN模型結(jié)構(gòu)處理數(shù)據(jù)結(jié)果,與傳統(tǒng)淺層學(xué)習(xí)模型相比模型得到明顯提升,具有更佳的診斷效果,尤其在準(zhǔn)確率上有較大的提升[13-14],說明利用深度學(xué)習(xí)模型能更充分地探索人工判讀的超聲影像特征變量的診斷價(jià)值,得到預(yù)測(cè)能力更強(qiáng)的預(yù)測(cè)模型。本研究的不足之處在于DNN模型建立過程中層數(shù)無法自動(dòng)設(shè)置,需要一層一層手動(dòng)添加構(gòu)建,本研究只探究了4層網(wǎng)絡(luò)構(gòu)架的DNN模型,未必達(dá)到最優(yōu)層數(shù)的設(shè)置,需要再嘗試更深層數(shù)的模型建立。同時(shí),在構(gòu)建DNN模型時(shí)涉及的每層參數(shù)設(shè)置采用的是默認(rèn)參數(shù),沒有嘗試調(diào)整相關(guān)參數(shù)以獲得更優(yōu)模型。
綜上所述,DNN模型相比于傳統(tǒng)淺層學(xué)習(xí)模型在基于超聲影像特征診斷乳腺病變性質(zhì)有更大的診斷價(jià)值,但需要進(jìn)一步探索并優(yōu)化DNN模型,從而最終使臨床醫(yī)師能從深度學(xué)習(xí)模型的輔助診斷中獲益。
中國(guó)衛(wèi)生統(tǒng)計(jì)2021年4期