石靜文,李 嘉
(五邑大學(xué)智能制造學(xué)部,廣東江門(mén) 529020)
乳腺癌常常被稱作“粉紅殺手”,根據(jù)國(guó)際癌癥研究機(jī)構(gòu)2021年公布的全球最新癌癥統(tǒng)計(jì)數(shù)據(jù)表明:女性乳腺癌取代肺癌成為全球第一大癌[1]。乳腺癌產(chǎn)生的原因不止與遺傳原因、激素變化和既往相關(guān)疾病史有關(guān),并且隨著時(shí)代的發(fā)展、現(xiàn)代都市生活節(jié)奏日益加快,女性也承擔(dān)著更多的社會(huì)責(zé)任而導(dǎo)致有過(guò)度的精神壓力,過(guò)于緊張的生活帶來(lái)的精神心理因素等也有可能增加罹患乳腺癌的風(fēng)險(xiǎn),由此可見(jiàn),乳腺癌對(duì)女性的身體健康造成了很大的影響。因此乳腺癌的早期篩查與診斷非常有必要,不僅能及時(shí)發(fā)現(xiàn)隱患,而且可以有效提高患者的存活率。
現(xiàn)階段對(duì)乳腺癌的檢測(cè)研究,主要依賴于病理醫(yī)生的大量專業(yè)知識(shí)和診斷經(jīng)驗(yàn),但是由于我國(guó)醫(yī)療資源不足,并且隨著社會(huì)的發(fā)展,生理和心理承受的壓力越來(lái)越大,女性患乳腺癌的風(fēng)險(xiǎn)日益增加。在乳腺癌的檢測(cè)研究中,對(duì)特征的提取是一個(gè)關(guān)鍵環(huán)節(jié),因?yàn)闄z測(cè)效果受到特征提取的影響,近幾年乳腺癌病理圖像特征提取方法主要有基于紋理、形態(tài)特征等的傳統(tǒng)人工特征提取和基于深層神經(jīng)網(wǎng)絡(luò)的自動(dòng)特征提取兩大類。
本文首先介紹了公開(kāi)常用的乳腺癌病理圖像相關(guān)數(shù)據(jù)集,然后總結(jié)歸納了近幾年乳腺癌病理圖像特征提取算法的研究進(jìn)展,并分析了這些算法的優(yōu)缺點(diǎn),最后對(duì)乳腺癌病理圖像特征提取算法的未來(lái)研究發(fā)展進(jìn)行了展望。
數(shù)據(jù)集在乳腺癌病理圖像特征提取領(lǐng)域的研究中具有重要意義,它是衡量特征提取算法性能的基本,也是推動(dòng)乳腺癌病理圖像特征提取算法研究領(lǐng)域向更復(fù)雜方向發(fā)展的重要力量[2]。近幾年,公開(kāi)常用的相關(guān)數(shù)據(jù)集有Digital Database for Screening Mammography(DDSM)[3-4],其是馬薩諸塞州綜合醫(yī)院、南佛羅里達(dá)大學(xué)和桑迪亞國(guó)家實(shí)驗(yàn)室的合作項(xiàng)目,包含2 620個(gè)病例,總計(jì)20 480張的3 000×4 800像素和16位灰度級(jí)別的乳房X光圖像,灰度圖像的強(qiáng)度級(jí)別在0~255之間,圖像的原始格式是LJPEG,但它被轉(zhuǎn)換為jpg格式以降低復(fù)雜性。Mammographic Image Analysis Society Digital Mammo?gram Database(MIAS)[5]數(shù)據(jù)集收集在英國(guó),該數(shù)據(jù)庫(kù)包含322張尺寸為1 024×1 024的數(shù)字乳房X光檢查圖像,并由專家精確標(biāo)記。Wisconsin Breast Cancer Database(WDC)[6]數(shù)據(jù)集是由Dr.William H Walberg從威斯康星大學(xué)麥迪遜醫(yī)院收集的,該數(shù)據(jù)集包括699個(gè)實(shí)例和10個(gè)患者特征,包括實(shí)例標(biāo)識(shí)符、腫瘤信息、類等。Wis?consin Diagnostic Breast Cancer(WDBC)[7]數(shù)據(jù)集也由Dr.William H Walberg從威斯康星大學(xué)麥迪遜醫(yī)院收集,該數(shù)據(jù)集包含569個(gè)實(shí)例(62.74%為良性,37.26%為惡性),并有32個(gè)患者屬性,包括1個(gè)患者ID號(hào)記錄,30個(gè)腫瘤診斷信息,1個(gè)腫瘤診斷結(jié)果記錄(良、惡性),數(shù)據(jù)集中的腫瘤診斷信息來(lái)源于10個(gè)方面,對(duì)于每個(gè)來(lái)源,給出3個(gè)測(cè)量結(jié)果,即均值、標(biāo)準(zhǔn)誤差和最大值,結(jié)果在數(shù)據(jù)集中有30個(gè)特征記錄。Breast Cancer Histo?pathological Database(BreakHis)[8]數(shù)據(jù)集是巴西巴拉那的P&D實(shí)驗(yàn)室——病理解剖學(xué)和細(xì)胞病理學(xué)合作建立的,數(shù)據(jù)集由來(lái)自82名患者的7 909張乳腺腫瘤組織顯微圖像組成,其中包含5 429個(gè)惡性腫瘤樣本和2 480個(gè)良性腫瘤樣本。詳細(xì)內(nèi)容如表1所示。
表1 常見(jiàn)乳腺癌病理圖像數(shù)據(jù)集
人工提取特征常用的方法主要利用基本統(tǒng)計(jì)特征對(duì)圖像進(jìn)行描述,常見(jiàn)的圖像特征包括紋理特征、空間特征和顏色特征等[9]。紋理特征例如有小波變換、灰度共現(xiàn)矩陣(Gray-level Co-occurrence Matrix,GLCM)、完全局部二進(jìn)制模式(Completed Local Binary Pattern,CLBP)和局部二進(jìn)制模式(Local Bimary Pattern,LBP)等[10-13],另外還有空間特征,如最小生成樹(shù)(Minimum Spanning Tree,MST)、Delaunay三角剖分(Delaunay Tr?langulation,DT)、Voronoi圖(Voronoi Diagram,VD)等[14-17]方法。具體如Mercan C等[17]將為將全載玻片乳腺組織病理學(xué)圖像分為多個(gè)類,于是利用各種特征描述符對(duì)圖像進(jìn)行特征提取,如DT、LBP、MST、VD等描述符,最終精度達(dá)到81%和69%。Spanhol F A等[13]利用LBP、CLBP、GLCM和對(duì)參數(shù)自由閾值鄰接統(tǒng)計(jì)量(Pa?rameter-Free Threshold Adjacency Statistics,PFTAS)為特征提取技術(shù),并分別應(yīng)用至不同的分類器,實(shí)驗(yàn)結(jié)果證明,PFTAS和支持向量機(jī)分類器的組合取得了更好的性能,準(zhǔn)確率為85%。Vartika Mishra等[18]基于尺度不變特征變換(Scale-invariant feature transform,SIFT)和改進(jìn)的SIFT被稱為Speeded Up Robust Features(SURF)[19]為特征提取技術(shù)對(duì)乳腺癌病理圖像進(jìn)行特征提取,然后用主成分分析(Principle Component Analysis,PCA)降維,并對(duì)4種分類器的性能進(jìn)行了客觀分析,結(jié)果表明,K最近鄰(K-NearestNeighbor,KNN)在SIFT、SIFTPCA、SURF和SURF-PCA中具有最高的精度,而且SURF比SIFT更快。張紅斌等[20]使用SIFT、空間包絡(luò)特征(Gist)、方向梯度直方圖(Histogram of Oriented Gra?dient,HOG)和VGG16對(duì)乳腺癌細(xì)胞從形狀、紋理、深度學(xué)習(xí)等角度進(jìn)行了特征提取,并改進(jìn)ERGS(Effective Range Based Gene Selection)算法動(dòng)態(tài)計(jì)算特征權(quán)重進(jìn)行特征選擇,采用自適應(yīng)提升算法將弱分類器集成為強(qiáng)分類器,并對(duì)其輸出的預(yù)估概率做ERGS加權(quán),實(shí)現(xiàn)多特征融合,實(shí)驗(yàn)表明,算法識(shí)別精準(zhǔn)度達(dá)86.24%,SIFT、Gist、HOG特征之間具有較強(qiáng)互補(bǔ)性。馬尚洋等[21]針對(duì)乳腺癌細(xì)胞,采用LBP描述乳腺癌細(xì)胞特征,并且利用多維縮放(Multidimensional Scaling,MDS)、局部線性嵌入(Locally Linear Embedding,LLE)等矩陣降維,以反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)癌細(xì)胞輔助判讀,實(shí)驗(yàn)結(jié)果表明,采用LBP-LLE-BP結(jié)合的方法,數(shù)據(jù)規(guī)模降維至5×252時(shí),準(zhǔn)確率高達(dá)89.61%。此外,Pullaiah N等[22]還提出了混合局部最優(yōu)定向模式(Lo?cal Optimal Oriented Pattern,LOOP)&Haralick特征提取技術(shù)。Singh S[23]提出從乳腺癌病理圖像灰度圖中提取GL?CM、LBP、LTE(Law's texture energy)和HTF(Haralick Texture Feature)等特征,然后將這些特征集放在一起,形成一個(gè)特征向量進(jìn)行分類;Gupta V[24]使用顏色-紋理特征來(lái)描述圖像,例如Gabor特征、多層坐標(biāo)群集表示法等。
圖像特征除上述特征之外,還有形態(tài)特征,例如細(xì)胞核的細(xì)胞結(jié)構(gòu)等。在提取形態(tài)特征方面,于翠如[25]統(tǒng)計(jì)了細(xì)胞核占整個(gè)面積的比例、細(xì)胞核面積和周長(zhǎng)的平均值、標(biāo)準(zhǔn)差、最大最小值等特征值。另外還有采用自適應(yīng)閾值技術(shù)和高斯混合聚類對(duì)細(xì)胞核進(jìn)行分割[26],采用圓形霍夫變換估計(jì)細(xì)胞核位置[27]等特征提取方法。
人工提取特征方法需要手動(dòng)設(shè)計(jì)乳腺癌病理圖像中感興趣的區(qū)域特征,所以具有一定的局限性和復(fù)雜性,更缺乏良好的適應(yīng)性,難以包含有效且變化多樣的病變特征。盡管如此,這些特征提取技術(shù)也為進(jìn)一步研究乳腺癌病理圖像特征提取方法提供了理論意義和參考價(jià)值。
深層神經(jīng)網(wǎng)絡(luò)又稱深度學(xué)習(xí),基于深層神經(jīng)網(wǎng)絡(luò)的乳腺癌病理圖像特征提取方法主要采用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)。人工神經(jīng)網(wǎng)絡(luò)是一種重要且有效的機(jī)器學(xué)習(xí)技術(shù),其能夠?qū)?shù)據(jù)進(jìn)行自主學(xué)習(xí)完成特征提取和分類任務(wù)。其本質(zhì)是通過(guò)生物學(xué)的基本原理,對(duì)人腦神經(jīng)網(wǎng)絡(luò)進(jìn)行抽象而建立的模型[28]。近年來(lái),深層神經(jīng)網(wǎng)絡(luò)被成功地引入到乳腺癌病理圖像特征提取研究中[29-31]。具體如Kassani SH等[32]提出了一種自適應(yīng)VGG19、MobileNet和DenseNet三個(gè)預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)集成模型,該集成模型用于特征表示和提取步驟,提出的多模型集成方法比單分類器和機(jī)器學(xué)習(xí)算法獲得更好的預(yù)測(cè)。Vo D M等[33]利用Inception-ResNet-v2模型對(duì)多尺度圖像進(jìn)行視覺(jué)特征提取,然后采用梯度提升樹(shù)進(jìn)行最后的分類步驟。Gandomkar Z等[34]開(kāi)發(fā)了一個(gè)使用深度殘余網(wǎng)絡(luò)(MuDeRN)對(duì)H&E染色的乳腺癌組織病理學(xué)圖像進(jìn)行特征提取的框架。Darlington A Akogo等[35]使用端對(duì)端(End-to-end)卷積神經(jīng)網(wǎng)絡(luò)對(duì)乳腺癌細(xì)胞進(jìn)行自動(dòng)特征提取,系統(tǒng)具有6層CNN,能夠區(qū)分兩種不同的癌細(xì)胞類型,實(shí)驗(yàn)結(jié)果顯示可達(dá)到99%的準(zhǔn)確率。Han Z等[36]基于GoogLeNet架構(gòu)提出了一種新的CSDCNN模型,該模型可以實(shí)現(xiàn)端到端識(shí)別,也取得了很好的識(shí)別效果。楊曉玲等[37]基于經(jīng)典的LeNet-5模型,通過(guò)改變網(wǎng)絡(luò)的卷積層數(shù)等方法,對(duì)乳腺癌病理圖像進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果顯示,該方法對(duì)乳腺癌病理圖像平均識(shí)別率達(dá)89.58%,對(duì)惡性乳腺癌細(xì)胞識(shí)別率可達(dá)96.75%之高。孫福權(quán)等[38]提出多模型(VGG16、Inception-V3和ResNet-V2-152)卷積神經(jīng)網(wǎng)絡(luò)對(duì)乳腺癌病理圖像進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果表明,在Break His數(shù)據(jù)集的放大200倍的乳腺癌病理圖像上,準(zhǔn)確率可達(dá)到97.64%。Jinyin Chen等[39]設(shè)計(jì)了基于深層神經(jīng)網(wǎng)絡(luò)的雙網(wǎng)絡(luò)結(jié)構(gòu)(Net+DeNet),用于基因特征提取和癌癥分類,雙重網(wǎng)絡(luò)的特征提取方法既考慮了提取特征的分類能力又考慮了重構(gòu)能力。蔣慧琴等[40]利用YOLOv3主干網(wǎng)絡(luò)提取特征,特征提取網(wǎng)絡(luò)由5個(gè)殘差模塊組成,可以獲得檢測(cè)目標(biāo)的多尺度全局特征。
通過(guò)對(duì)現(xiàn)階段研究成果的分析,發(fā)現(xiàn)基于深層神經(jīng)網(wǎng)絡(luò)的乳腺癌病理圖像特征提取算法在準(zhǔn)確率方面取得了突破性的成功。深層神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)在于可以通過(guò)其多個(gè)隱含層的網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)挖掘數(shù)據(jù)深層次隱式特征[28],這些隱式特征有利于改善乳腺癌病理圖像特征提取的效果,然而大多數(shù)深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程相當(dāng)耗時(shí)。其最重要原因在于:深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)錯(cuò)綜復(fù)雜而且涉及到許多超參數(shù),這種復(fù)雜性使得分析深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)變得十分困難;為了在個(gè)性化應(yīng)用中獲得更高的診斷精度,深度學(xué)習(xí)模型不斷加深網(wǎng)絡(luò)層數(shù)或者調(diào)整參數(shù),但有時(shí)增加網(wǎng)絡(luò)深度反而會(huì)出現(xiàn)性能退化的問(wèn)題。
本文對(duì)國(guó)內(nèi)外研究者針對(duì)乳腺癌病理圖像特征提取問(wèn)題所進(jìn)行的大量科學(xué)研究進(jìn)行歸納和總結(jié),可以得出:(1)基于傳統(tǒng)人工特征提取算法需要病理學(xué)專家的豐富經(jīng)驗(yàn)對(duì)乳腺癌病理圖像進(jìn)行標(biāo)注,在此過(guò)程中有可能因?yàn)閷<业膫€(gè)人因素導(dǎo)致誤診,并且人工設(shè)計(jì)的乳腺癌病理圖像特征表示方法往往只適用于某幾種顯著特征的識(shí)別,所以具有一定的局限性,更缺乏良好的適應(yīng)性;(2)深層神經(jīng)網(wǎng)絡(luò)能對(duì)乳腺癌病理圖像進(jìn)行自動(dòng)提取特征,相比于傳統(tǒng)人工特征提取方法減少了許多繁瑣的步驟,并且可以提高癌癥檢測(cè)的準(zhǔn)確率和效率,但是深層神經(jīng)網(wǎng)絡(luò)仍然被訓(xùn)練時(shí)長(zhǎng)問(wèn)題和復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)等問(wèn)題所困擾。
在今后的研究工作中,可以從以下3個(gè)方面進(jìn)行:(1)由于不同的研究是在不同的乳腺癌病理圖像數(shù)據(jù)集上進(jìn)行的,所以特征提取算法的比較缺乏說(shuō)服性,因此在今后的研究中需要建立一個(gè)公開(kāi)可靠的乳腺癌病理圖像數(shù)據(jù)集供國(guó)內(nèi)外研究學(xué)者使用;(2)除目前現(xiàn)有乳腺癌病理圖像特征提取算法外,缺乏對(duì)其他高效的特征提取方法的探討,因此設(shè)計(jì)一種方便、高效和普適性強(qiáng)的乳腺癌病理圖像特征提取算法是今后研究的重要內(nèi)容;(3)目前乳腺癌病理圖像研究主要還是粗略識(shí)別良性和惡性兩類腫瘤細(xì)胞,在今后的研究中,應(yīng)該充分發(fā)揮人工智能的優(yōu)越性,輔助診斷更為細(xì)致、精確的腫瘤細(xì)胞的實(shí)時(shí)情況,讓醫(yī)生可以做出更加精準(zhǔn)的治療,更好地為患者服務(wù)。