張紅斌,鄔任重,蔣子良,武晉鵬,袁 天,滑 瑾,姬東鴻
(1.華東交通大學(xué)軟件學(xué)院,南昌 330013; 2.華東交通大學(xué)信息工程學(xué)院,南昌 330013;.武漢大學(xué)國家網(wǎng)絡(luò)安全學(xué)院, 武漢430072)
乳腺癌是女性發(fā)病率最高的癌癥[1],它給患者及其家屬帶來了身心上的折磨.乳腺癌的早期篩查與診斷能有效提高患者存活率[2],但它需要病理醫(yī)生具備大量專業(yè)知識和診斷經(jīng)驗.然而醫(yī)療條件的匱乏、醫(yī)療資源的分配不均及日益增長的就診數(shù)量導(dǎo)致乳腺癌患者得不到及時就診.因此,患者治愈率受到一定影響[3].基于計算機的乳腺癌圖像識別模型是破解這一困局的有效手段.本文提出“基于改進的自適應(yīng)提升算法的乳腺癌圖像識別”新方法,期望可以輔助病理醫(yī)生準確、高效地分析乳腺圖像,為提高診斷效率及縮短患者就診周期奠定重要基礎(chǔ).
在執(zhí)行有監(jiān)督學(xué)習(xí)算法時,需要大量帶標記的訓(xùn)練樣本.由于其特殊性,乳腺癌圖像只能由具備專業(yè)知識的病理醫(yī)生標記[4].然而,醫(yī)學(xué)圖像標注非常費時、費力,但準確、可靠的標注是實現(xiàn)高質(zhì)量乳腺癌圖像識別的重要前提.常見乳腺癌數(shù)據(jù)集包括:乳腺癌數(shù)字存儲庫[5](Breast Cancer Digital Repository,BCDR)、乳腺病理組織圖像數(shù)據(jù)庫[6](Breast Cancer Histopathological Images Dataset,BreaKHis)、數(shù)字乳腺影像子集[7](Curated Breast Imaging Subset of Digital Database for Screening Mammography,CBIS-DDSM)等.其次,圖像特征提取是訓(xùn)練優(yōu)良識別模型的重要保障.尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[8]、方向梯度直方圖(Histogram of Oriented Gradients,HOG)[9]、紋理基元[10]等均已在乳腺癌圖像識別研究中取得成功.Li[10]提取乳腺圖像內(nèi)部及其邊緣的紋理基元特征,綜合線性判別分析(Linear Discriminant Analysis,LDA)與K近鄰(K-Nearest Neighbor,KNN)算法完成乳腺腫塊良惡性分類.Awan[11]使用圖像中更多的上下文信息完成乳腺腫塊分類.Wang[12]提取4個基于形狀的特征和138個基于顏色的紋理特征,然后采用鏈狀代理遺傳算法(Chain-like Agent Genetic Algorithm,CAGA)完成乳腺組織圖像分類.近年來,基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)方法在乳腺癌圖像識別研究中取得了不錯的成績.Araújo[13]采用CNN模型提取乳腺圖像特征,然后基于支持向量機(Support Vector Machine,SVM)算法訓(xùn)練分類模型.Han[14]提出基于類結(jié)構(gòu)的深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN),完成端到端乳腺腫塊分類.Danaee[15]用堆疊降噪自動編碼器(Stacked Denoising Autoencoder,SDAE)將高維、有噪聲的基因表達轉(zhuǎn)換為低維、有意義的特征,然后基于SVM算法完成乳腺腫塊分類.不同于現(xiàn)有工作,本文從多特征融合的角度實現(xiàn)乳腺癌圖像識別,即綜合利用傳統(tǒng)特征及CNN特征之間的互補性,構(gòu)建性能更優(yōu)的乳腺癌圖像識別模型.
提出基于改進的自適應(yīng)提升算法的乳腺癌圖像識別模型,它包括:圖像特征提取與組合、多特征融合及乳腺癌圖像識別.首先,從形狀、紋理、深度學(xué)習(xí)等角度提取圖像的Gist[16](G)、SIFT(S)、HOG(H)及VGG16[17](V)特征,根據(jù)特征性質(zhì)進行合理組合;其次,改進傳統(tǒng)的有效區(qū)域基因優(yōu)選[18](Effective Range Based Gene Selection,ERGS)算法,即根據(jù)圖像特征在不同類別乳腺圖像上的有效區(qū)域,計算特征的ERGS權(quán)重.基于Adaboost算法[19]計算圖像特征隸屬不同類別乳腺圖像的預(yù)估概率;采用ERGS權(quán)重加權(quán)預(yù)估概率,實現(xiàn)多特征融合,完成乳腺癌圖像識別.綜上,基于改進的自適應(yīng)提升算法的乳腺癌圖像識別模型的基本框架如圖1所示.
圖1 基于改進的自適應(yīng)提升算法的乳腺癌圖像識別模型基本框架Fig.1 The framework of breast cancer image recognition model based on modified adaboost algorithm
如圖1陽性乳腺圖像所示,乳腺腫塊具有1)多樣性,即形態(tài)多變;2)密度不同、成像對比度不強,多隱藏于乳腺組織中;3)部分邊緣不清晰等特性.因此,應(yīng)優(yōu)選合適的特征準確地刻畫這些視覺特性.SIFT[8]是一種基于尺度空間的形狀特征,它對圖像縮放、旋轉(zhuǎn)、尺度空間、仿射都具有不變性,且它可減少形狀、角度、光線等因素的影響,準確定位多變的腫塊形狀,進而改善乳腺癌圖像識別精度.Gist[16]模擬人類觀察習(xí)慣以提取圖像中簡明的上下文信息,它從全局角度刻畫隱藏于乳腺組織中的腫塊,且腫塊的紋理特性不同于正常圖像,Gist特征能準確描述這一變化.HOG[9]是一種目標檢測描述子,它計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖,故HOG能獲取乳腺腫塊的邊緣信息,較準確地描述腫塊的表象和形狀.VGG16[17]特征基于CNN模型,CNN中的卷積層與池化層交替出現(xiàn),卷積層提取特征,池化層對特征做降采樣,最后形成深層特征.VGG16是目前主流的CNN類模型,能夠較好地解釋乳腺腫塊的多樣性特點.上述四種特征在融合之后可充分發(fā)揮它們之間的互補性.例如,某些特征組合如“S+G”“S+G+H”判別性更佳,解釋性也更好,因為它們主要體現(xiàn)紋理與形狀兩大視覺特性的融合,能更準確地識別乳腺腫塊,請參見3.2.1節(jié)實驗結(jié)果.
傳統(tǒng)ERGS算法[20]根據(jù)特征的權(quán)值大小完成特征篩選.它僅選取權(quán)值最大的特征,這必然會丟失一些來自其它特征的重要判別信息,最終影響識別性能.故改進ERGS的決策函數(shù),使其成為一個多特征融合算法,更好地利用不同特征之間的互補性,構(gòu)建高質(zhì)量的識別模型.算法描述如下.
算法1:改進后的ERGS算法
輸入:
圖像特征fz,z∈{G,S,H,V}
輸出: 多特征融合結(jié)果
1)計算特征fz在樣本cq上的有效區(qū)域ERzq,
q∈{Neg,Pos},
[μzq-(1-pq)τσzq,μzq+(1-pq)τσzq].
2)計算特征fz重疊區(qū)域OAz:
3)計算特征fz重疊區(qū)域系數(shù)ACz:
4)根據(jù)重疊區(qū)域系數(shù)ACz計算特征fz的ERGS權(quán)重wz:
5)運用ERGS權(quán)重wz,對分類模型輸出的預(yù)估概率pzj加權(quán),取其最大值生成多特征融合結(jié)果:
max(pz)=max{sum(pzj*wj:1≤j≤n)}.
選取CBIS-DDSM[7]數(shù)據(jù)集來驗證所提算法.CBIS-DDSM源于癌癥影像檔案,它是醫(yī)學(xué)數(shù)字成像和通信(Digital Imaging and Communications in Medicine,DICOM)格式的乳腺造影圖像.數(shù)據(jù)集中有753項鈣化病例和891項腫塊病例,每個病例都包含乳房側(cè)斜位(Mediolateral Oblique,MLO)和頭尾位(Craniocaudal,CC)視圖,圖像是灰度的(如圖1所示)并伴有一張掩碼圖像,該掩碼圖像指定分割前腫塊的區(qū)域,即由病理醫(yī)生標注的病灶區(qū)域(乳腺圖像數(shù)據(jù)集約163.6 GB,可從網(wǎng)址https://wiki.cancerimagingarchive.net/display/Public/CBIS-DDSM中獲得其詳細信息).首先,采用Python(PIL庫)對CBIS-DDSM數(shù)據(jù)集進行預(yù)處理:將圖像大小統(tǒng)一為1152×896,得到2 781幅完整的“.PNG”格式的乳腺造影圖像.它包含兩類樣本:陰性(Negative,Neg)與陽性(Positive,Pos).樣本分布:陰性1 434幅、陽性1 347幅,把數(shù)據(jù)集隨機分為訓(xùn)練集(70%)和測試集(30%)完成相關(guān)實驗.
采用如下四類基線與本文算法(ERGS-Ada)進行比較:
1) 傳統(tǒng)算法:邏輯回歸(Logistic Regression,LR)、隨機森林(Random Forest,RF)、K近鄰(KNN)、樸素貝葉斯(Naive Bayes,NB),它們均來自scikit-learn軟件包[21];
2) 融合類算法:傳統(tǒng)ERGS算法[20]、Adaboost[19]、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)[22];
3) ERGS類算法:將改進的ERGS算法應(yīng)用于傳統(tǒng)算法,得到ERGS-LR、ERGS-RF、ERGS-KNN、ERGS-NB及ERGS-GBDT等一組新算法;
4) 深度學(xué)習(xí)模型:主流的VGG16[17]及Densenet169[23]模型.
采用精準度(Accuracy)度量算法性能,計算公式如(1)所示:
(1)
(2)
“TPall+TNall”是正確分類的圖像總數(shù),TPall計算正確分類的正例,TNall計算正確分類的負例,“TPall+FPall+TNall+FNall”是圖像總數(shù).基于準確率(Precision)、平均準確率(Average Precision,AP)設(shè)計如下度量標準:
(3)
(4)
mass∈{Neg,Pos},Nmass=2為乳腺圖像類型數(shù).此外,計算所有識別模型的平均精度如公式(5)所示,其中Nclassifier=6.
(5)
ΔAccuracy=max(AccuracyERGS)-
max(AccuracyBasic).
(6)
公式(6)計算改進的ERGS算法與基本算法識別最優(yōu)值之間的差值,該值為正說明ERGS類算法更優(yōu).上述指標從不同角度評判乳腺癌圖像識別性能.
3.2.1 乳腺癌圖像識別結(jié)果 表1是采用3.1節(jié)基本算法(傳統(tǒng)算法與融合類算法)得到的識別精準度,由公式(1)計算.MA值由公式(5)計算,根據(jù)MA值對各單類別特征(“S”“G”“H”“V”)進行排序,如表1中最后一列所示.
表1 基本算法識別精準度Tab.1 Recognition accuracy of basic algorithms %
由表1可發(fā)現(xiàn):1)基于MA值,“S”特征的分類精準度最高,在六個基本算法中,它有五個結(jié)果最優(yōu).“G”特征次之,它有一個最優(yōu)、三個次優(yōu).顯然,“S”特征可減少圖像中形態(tài)、視角等變化帶來的噪聲.而“G”特征主要提取圖像中的簡明上下文信息,即全局紋理,故它從全局角度能更好地完成乳腺腫塊識別.相反,“V”特征效果不佳.這是因為:CNN模型雖然具有強大的學(xué)習(xí)能力和特征表示能力,但它需配合海量訓(xùn)練樣本,受標記樣本數(shù)量局限,CNN模型提取的“V”特征表現(xiàn)較差;2)Adaboost算法整體性能最優(yōu),其平均精準度達66.39%,較次優(yōu)算法提升66.39%-64.03%=2.36%.且它采用“S”“G”“V”三類特征識別時均達最優(yōu),最優(yōu)識別精準度為82.42%,較次優(yōu)值(選取RF算法及“S”特征)提升82.42%-76.08%=6.34%.因為Adaboost算法集多個弱分類器于一體,最終獲得判別能力更優(yōu)的強分類器,基于該強分類器來提升乳腺癌圖像識別精度.此外,除“H”特征之外,Adaboost算法對不同圖像特征都具有較好魯棒性;3)表1結(jié)果僅依賴單類別特征,乳腺癌圖像識別精度還有待提高.
表2對比本文算法(ERGS-Ada)與改進的ERGS類算法(第3類基線),“S+G+H+V”表示將“S”“G”“H”“V”這四種特征進行融合,其它特征組合的命名方同理,MA值、排名計算方式同表1.ΔAccuracy(公式6)計算表2中ERGS類算法最優(yōu)識別性能相對基本算法的提升幅度,該值為正說明ERGS類算法更優(yōu).例如,對于NB算法,ERGS-NB的提升幅度ΔAccuracy=63.16%-63.04%=0.12%,其它結(jié)果計算方式類似.根據(jù)MA值對特征進行排序,如表2中最后一列所示.
表2 ERGS類算法識別精準度Tab.2 Recognition accuracy of the ERGS algorithms %
由表2可發(fā)現(xiàn):1) 基于MA值,“S+G+H”組合的識別性能整體最佳,達到74.24%,相比表1中最優(yōu)值,它提升了74.24%-71.61%=2.63%.此外,其它特征組合如“H+G”“S+G”也表現(xiàn)不錯.它們的MA指標(MASGH=74.24%、MASG=73.86%、MASH=73.11%)均優(yōu)于對應(yīng)單類別特征.當(dāng)選取“S+G”特征組合并執(zhí)行ERGS-Ada算法時,識別精準度最優(yōu),達86.24%,相比表1中最優(yōu)值,它提升了3.82%.顯然,在乳腺癌圖像識別中,應(yīng)充分利用不同特征之間的互補性,進而減少因病灶區(qū)域乳腺腫塊形態(tài)、視角、光照等變化所帶來的噪聲干擾,最終改善識別性能.2) 基于MA值,“S+V”>“H+V”>“G+V”,“S+V”組合的MA指標較“H+V”提升64.26%-55.96%=8.30%,相比“G”和“H”,“S”特征與“V”特征的互補性最強.且它們的精準度均優(yōu)于“V”特征.同理,基于MA值,“S+H+V”>“S+G+V”>“H+G+V”.這些結(jié)果表明:由于提取方式不同,傳統(tǒng)特征(尤其是“S”“H”次之)與深度學(xué)習(xí)特征之間確實能互為補充,進一步增強了模型的判別性.3) 采用改進的ERGS算法完成多特征融合之后,包含“S”的七種組合表現(xiàn)最優(yōu),這進一步說明:對于CBIS-DDSM數(shù)據(jù)集,“S”特征能更準確地描述圖像視覺內(nèi)容,它在ERGS特征融合中扮演最重要角色,且改進的ERGS算法具有較強魯棒性;4) 表2中ΔAccuracy值皆大于0,顯然無論對于哪種分類算法,改進的ERGS算法都能有效地為特征分配合適權(quán)重,從而提升不同乳腺圖像之間的區(qū)分度,最終得到判別性更強、解釋性更好的乳腺癌圖像識別模型.
3.2.2 綜合比較 表3是乳腺癌圖像識別更細化的性能對比.第1列、第6列表示選取相應(yīng)特征的識別模型,如“NB(S)”表示選取“S”特征及“NB”算法完成識別.對于ERGS類算法,均選取表2中的最優(yōu)值.如“ERGS-NB”是表2中采用“S+G+H”特征組合的ERGS-NB算法.表3中第2~3列、第4列、第5列計算如公式(1)、(3)、(4)所示.第7~10列同理.
表3 多特征融合前后乳腺癌圖像識別結(jié)果Tab.3 Breast cancer image recognition results before and after multi-feature fusion %
由表3可發(fā)現(xiàn):1)改進的ERGS算法能有效提升乳腺癌圖像識別性能.除ERGS_KNN(Neg)、ERGS_GBDT(Pos)、ERGS_GBDT(AP)之外,其它ERGS類指標均表現(xiàn)不錯,共計21/24=87.5%的ERGS指標性能提升;2)“S”特征對乳腺腫塊的描述最準確,除KNN類算法外,“S”的表現(xiàn)均最優(yōu),其中“S”特征對“Pos”(陽性)樣本的識別非常準確,這是因為陽性樣本中包含大量有別于陰性樣本的病灶區(qū)域,且這些區(qū)域多表現(xiàn)為形態(tài)視覺差異(參見圖1).這為基于ERGS-Ada算法的多特征融合奠定了重要基礎(chǔ);3)總體上,“Pos”(陽性)樣本(即乳腺腫塊)的識別準確率較高.在臨床診斷中,這具有重要的應(yīng)用價值,它可有效避免誤診與漏診情況,使更多患者能接受及時診治;4)基于Accuracy和AP指標,ERGS-Ada算法整體表現(xiàn)最優(yōu),它較次優(yōu)模型的Accuracy、AP值分別提升86.24%-82.42%=3.82%和87.81%-84.75%=3.06%.雖然,它對“Pos”(陽性)類樣本的識別并非最優(yōu),但ERGS-Ada能更好地識別“Neg”(陰性)類樣本,最終整體推升算法的AP值與Accuracy值.
對比全部模型的精準度,結(jié)果如圖2所示(圖中均選擇各算法最優(yōu)值,其中傳統(tǒng)ERGS算法僅選取最優(yōu)特征的精準度,故它同Adaboost算法,圖2中不再顯示).
圖2 各基線最優(yōu)值與ERGS-Ada算法的精準度比較Fig.2 Accuracy comparisons between the ERGS-Ada algorithm and state-of-the-art baselines
如圖2所示: CNN類模型識別性能不佳,主要原因:1)訓(xùn)練樣本偏少,無法驅(qū)動CNN類模型更好地獲取深層特征;2)CNN類模型是基于ImageNet預(yù)訓(xùn)練得到的,ImageNet中并未包含乳腺圖像.因此,預(yù)訓(xùn)練模型未能有效捕獲相關(guān)圖像特征.總之,ERGS-Ada算法的精準度較次優(yōu)算法(Adaboost)提升3.82%,它能有效改善乳腺癌圖像識別性能,算法的實用性較高.
本節(jié)重點剖析ERGS-Ada算法的內(nèi)部細節(jié),表4展示執(zhí)行ERGS-Ada算法后,某測試樣本(陰性,真實標簽為0)的預(yù)估概率、特征重疊區(qū)域系數(shù)、ERGS權(quán)重及預(yù)測結(jié)果,其它樣本的結(jié)果與之類似,不再贅述.表4中預(yù)估概率由Adaboost算法計算,而重疊區(qū)域系數(shù)由算法1計算.
由表4可發(fā)現(xiàn):1)“S”“V”兩單類別特征能正確預(yù)測該樣本,而“G”“H”特征對該測試樣本的預(yù)測效果不佳,即陽性的預(yù)估概率高于陰性,最終導(dǎo)致錯誤預(yù)測,顯然腫塊多樣化的形態(tài)特性被“S”和“V”更好地捕獲并用于識別過程;2)“V”特征的重疊區(qū)域系數(shù)最大,故在相應(yīng)特征組合中其ERGS權(quán)重也更大.“S”特征重疊區(qū)域系數(shù)次之,而“G”特征最小.“V”特征的最大上邊界與最小下邊界間距離較小,該特征在樣本中的區(qū)分度不高,這便拉升了其重疊區(qū)域系數(shù);3)在全部特征組合中,8/11=72.72%組指標預(yù)測正確,這較單類別特征的50%提升了22.72%,而“H+G+V”“H+G”及“H+V”的預(yù)測結(jié)果出錯.主要原因:“G”發(fā)揮了負面作用,它在7組融合實驗中均預(yù)測錯誤.相反“S”特征則更為強勢,它充分發(fā)揮了正面作用.未來擬考慮進一步改進算法1,以“收縮”負面特征權(quán)重,以達到更優(yōu)的預(yù)測效果.
基于計算機的乳腺癌圖像識別模型能輔助病理醫(yī)生準確、高效地分析乳腺圖像、縮短患者就診周期.為充分利用特征間互補性,提出基于改進的自適應(yīng)提升算法的乳腺癌圖像識別模型,有效改善識別性能.實驗表明:1)ERGS-Ada算法表現(xiàn)最優(yōu),其精準度達86.24%.特征之間的互補性得到充分利用;2)陽性圖像更易識別,其準確率最高可達99.18%;3)對于CBIS-DDSM數(shù)據(jù)集,各類特征在識別中作用的降序排列:SIFT>Gist>HOG>VGG16.
表4 某測試樣本的預(yù)估概率、ERGS權(quán)重及預(yù)測結(jié)果Tab.4 The estimated probability,ERGS weight and predicted results of a testing sample
未來工作:1) 由于“V”特征識別效果不佳,嘗試采用其它深度學(xué)習(xí)模型(Inception-ResNet[24])提取更優(yōu)的乳腺圖像特征,并與傳統(tǒng)特征融合,進一步提升識別性能;2)引入判別相關(guān)分析(Discriminant Correlation Analysis,DCA)[25]算法,充分挖掘特征之間的跨模態(tài)語義,綜合跨模態(tài)語義及ERGS-Ada算法完成更高質(zhì)量的乳腺癌圖像識別;3)采用PGGAN[26]模型對圖像樣本做數(shù)據(jù)增強(Data Augment),從而更好地訓(xùn)練識別模型;4)增加病灶區(qū)域定位功能,引入non-local block[27]+Mask R-CNN[28]對乳腺腫塊病灶區(qū)域進行精準定位.