李梓龍,呂 勇,譚國平,嚴 勤
(1.河海大學(xué)計算機與信息學(xué)院,江蘇 南京 211100; 2.河海大學(xué)無線通信與智能系統(tǒng)研究所,江蘇 南京 211100)
目前,乳腺癌已經(jīng)成為全世界婦女中常見的疾病[1]。事實上,正常乳腺如果出現(xiàn)腫塊、鈣化和結(jié)構(gòu)扭曲等狀況,會有癌變的可能。盡管現(xiàn)在科技很發(fā)達,有很多疾病可以被治愈,但是乳腺癌的病因還不是很清楚,發(fā)病機制也非常復(fù)雜,因此,早期發(fā)現(xiàn)乳腺癌對于提高生存率是非常重要的。近年來,各種成像技術(shù)如超聲成像、X線檢查、MRI等手段用于對乳腺進行早期的檢查[2]。在許多成像技術(shù)中,超聲成像由于成本低、不使用電離輻射以及能夠從多個平面以高分辨率評估等優(yōu)點,多年來在乳腺癌檢測中發(fā)揮著基礎(chǔ)性作用。然而這項技術(shù)在很大程度上依賴于醫(yī)生的臨床經(jīng)驗,導(dǎo)致許多普通患者常常需做一些不必要的深入檢查[3]。因此,使用計算機輔助檢測乳腺癌成為研究的熱門[4]。這種輔助檢測一般用于大規(guī)模篩查,為放射科醫(yī)生預(yù)判影像性質(zhì)提供一個依據(jù)。目前,有許多研究提出了乳腺超聲圖像中病變增生鑒別診斷的方法[5-16]。一方面,一些研究嘗試提取圖像的紋理特征以及乳腺的生物特征,然后使用神經(jīng)網(wǎng)絡(luò)等進行識別分類;另一方面,一些研究使用深度學(xué)習(xí),將特征提取和識別分類都交給深度神經(jīng)網(wǎng)絡(luò),但由于大量的乳腺超聲圖像難以獲得,所以這方面研究較少且以遷移學(xué)習(xí)為主??偠灾?,這些研究都是在超聲圖像存在乳腺腫塊的基礎(chǔ)上判別其是否癌變。事實上,大部分的乳腺超聲圖像是不存在乳腺腫塊的,因此單獨對乳腺腫塊存在與否進行識別是必要的。近期,Acharya等人[17]設(shè)計了一種專門判別乳腺腫塊存在與否的方法,使得研究識別乳腺腫塊的方法具有較高的可行性。本文針對乳腺超聲圖像小樣本數(shù)據(jù)集,使用人工神經(jīng)網(wǎng)絡(luò)對提取的圖像紋理特征進行乳腺腫塊識別,實驗效果良好。
本文提出的算法流程如圖1所示。首先對輸入的原始圖像采用最大響應(yīng)濾波進行去噪處理,去除超聲圖像中特有的斑點等噪聲干擾;然后將輸出得到的濾波圖像進行特征提取,從而得到其灰度直方圖特征和灰度共生矩陣特征的統(tǒng)計量;最后將得到的統(tǒng)計量特征作為輸入訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),得到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,并利用此模型完成對未知乳腺的識別分類。
圖1 乳腺腫塊識別方法流程圖
由于超聲圖像的成像特性,原始乳腺超聲圖像存在許多噪聲干擾如斑點噪聲和混響偽影等[18],如圖2所示。因此,為了更加準確地提取出圖像目標區(qū)域的紋理特征,需要對其進行進一步的去噪增強處理。
圖2 未經(jīng)濾波處理的乳腺圖像目標區(qū)域
本文采用最大響應(yīng)濾波器[19]對所得到的乳腺圖像目標區(qū)域進行濾波去噪處理。這種濾波器具有旋轉(zhuǎn)不變性且在不同的方向和尺度上提供最大的濾波器響應(yīng)。本文分別對圖像進行了高斯濾波、拉普拉斯濾波和各向異性高斯濾波,在每個像素點上進行比較,取最大響應(yīng)作為此點濾波后的結(jié)果,從而最終得到了整個圖像的最大濾波響應(yīng)。這樣做的好處是去除了部分噪聲,并且在一定程度上保持了邊緣組織結(jié)構(gòu)的完整性,如圖3所示。
圖3 使用最大響應(yīng)濾波處理后的乳腺圖像目標區(qū)域
在對目標區(qū)域進行了濾波處理后,就需要對所得的濾波圖像進行特征提取。本文主要提取圖像的一階、二階紋理特征即圖像的灰度直方圖統(tǒng)計特征和灰度共生矩陣特征。
圖像的灰度直方圖統(tǒng)計是對圖像中灰度級分布的統(tǒng)計,將數(shù)字圖像中的所有像素,按照灰度值的大小統(tǒng)計其出現(xiàn)的頻率,反映了圖像中某種灰度出現(xiàn)的頻率。這種特征主要描述了圖像整體的紋理分布特性。圖像的灰度共生矩陣是由具有某種空間位置關(guān)系的2個像素聯(lián)合分布構(gòu)成,具體可以看成2個像素灰度對的聯(lián)合直方圖。這種特征可以較好地反映局部紋理結(jié)構(gòu)變化。
考慮到本文實際使用的圖像樣本規(guī)模較小,如果直接將直方圖和灰度共生矩陣組合作為圖像特征,其維數(shù)太多,容易造成過擬合問題。有研究表明灰度共生矩陣的對比度、相關(guān)性、能量、逆差矩這4個統(tǒng)計量互不相關(guān),便于計算且能給出較高的分類精度[20]。其中,對比度主要度量圖像局部亮度變化,反映了圖像的清晰度和局部紋理的溝紋深淺;能量主要度量圖像紋理灰度變化穩(wěn)定程度,反映了圖像灰度分布均勻程度和紋理粗細度;逆差矩主要度量圖像局部紋理變化,反映了圖像紋理局部變化的大??;相關(guān)性主要度量圖像灰度級在行或列方向上相似程度,反映了局部灰度相關(guān)性。因此,對照著灰度共生矩陣,本文從不同的角度選取直方圖的4個統(tǒng)計量:均值、標準差、熵、平滑度。其中,均值主要反映圖像整體紋理的亮暗程度;標準差主要反映圖像整體紋理的平均對比度;熵主要反映圖像紋理所含信息量的大?。黄交戎饕从硤D像整體紋理的一致程度。具體而言,本文首先求得圖像的灰度直方圖和灰度共生矩陣,然后分別提取上述這2個特征的統(tǒng)計量共計8個,最后將這8個統(tǒng)計量組合形成一個8維特征向量,作為圖像最后的總特征。通過提取圖像一階、二階特征代表性較強的統(tǒng)計量作為圖像總特征,在考慮圖像局部紋理特征的基礎(chǔ)上增加全局的紋理特征,并大大減少了總特征維數(shù),從而在保證圖像特征信息損失較小的同時極大程度上降低了過擬合風險。
通過上述步驟,本文提取到了乳腺超聲圖像的一階、二階紋理特征共計8個,并將它們組合起來,作為圖像的一個8維特征向量。然后,將此作為輸入訓(xùn)練一個基于誤差反向傳播(Error Back Propagation)算法的人工神經(jīng)網(wǎng)絡(luò)。本文設(shè)計的神經(jīng)網(wǎng)絡(luò)是一種由輸入層、隱藏層、輸出層組成的3層前饋網(wǎng)絡(luò),訓(xùn)練時通過不斷的誤差反向傳播調(diào)整層內(nèi)參數(shù),以期使網(wǎng)絡(luò)的實際輸出值最大程度上逼近期望輸出值。最后通過訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對未知乳腺超聲圖像進行識別分類。具體而言,本文在輸入層中對紋理特征進行歸一化處理,即將特征數(shù)據(jù)歸一到[-1,1]之間,這樣做的好處是可以減少計算量且加快神經(jīng)網(wǎng)絡(luò)的收斂。在隱藏層中,將歸一后的特征通過全連接的方式連接到隱藏層中的每個神經(jīng)元,并通過激活函數(shù)得到更深層次的特征值。本文考慮到所提取的各個特征相差較大,因此選擇效果較好的雙曲正切函數(shù)作為隱藏層的激活函數(shù),而神經(jīng)元個數(shù)的選取主要依照公式(1)[21]。
(1)
其中,m是隱藏層的神經(jīng)元數(shù)目,n是輸入的特征向量維數(shù),l是輸出的個數(shù),α是1~10的常數(shù)。
在輸出層中,將隱藏層所得到的特征值通過全連接的方式連接到輸出層的每個神經(jīng)元中,由于本文的目標是識別出乳腺中存在的腫塊,可以看成將乳腺超聲圖像分類成含腫塊和不含腫塊的二分類問題,因此將輸出層的神經(jīng)元數(shù)定為2個,分別作為最終圖像可能屬于的類別,并通過softmax函數(shù)將這種結(jié)果映射成概率形式,從而方便判斷。此外,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型時對于模型內(nèi)部參數(shù)的調(diào)整本文采用了trianlm,這種訓(xùn)練算法對于本文較小規(guī)模的神經(jīng)網(wǎng)絡(luò)來說訓(xùn)練速度最快且模型收斂效果較好。
與普通的圖像相比,真實的帶標記超聲圖像一般無法從醫(yī)院大量獲取,因此本文的樣本集規(guī)模較小。具體而言,數(shù)據(jù)樣本集由133幅乳腺超聲圖像組成,其中包括2種不同類型:84幅含腫塊乳腺圖像和49幅正常乳腺圖像。
醫(yī)學(xué)圖像識別最大的限制在于訓(xùn)練數(shù)據(jù)集的數(shù)量級很難達到萬級。因此,對于小樣本的訓(xùn)練效果測試是有必要的。對于訓(xùn)練樣本與測試樣本數(shù)量比例的劃分,本文剛開始按照一般訓(xùn)練的規(guī)則:訓(xùn)練集與驗證集的比例為3∶1,雖然識別效果很好(測試總識別率可以達到90%),但由于總的樣本較小,導(dǎo)致測試樣本數(shù)量太少,結(jié)論普適性較差。所以嘗試增大測試樣本比例,在盡可能降低過擬合風險的同時最大程度保證測試結(jié)果的普適性,結(jié)果發(fā)現(xiàn)當訓(xùn)練集與驗證集的比例為1∶1時,測試樣本的數(shù)量級與訓(xùn)練樣本持平,一定程度上提高了結(jié)果的普適性。而且為了防止過擬合現(xiàn)象的發(fā)生,通過不斷地調(diào)參,特征維數(shù)為8、神經(jīng)元數(shù)目為3且神經(jīng)網(wǎng)絡(luò)層數(shù)為3時識別效果最好(達到86.7%),三者增大或減小識別效果均會下降;當訓(xùn)練集與驗證集的比例為1∶2時,為了防止過擬合的發(fā)生,一般需要減少訓(xùn)練參數(shù),但在減少參數(shù)數(shù)目的過程中,識別結(jié)果都較差(最高只達到75.5%)。所以這種情況下,雖然測試樣本比例較大,結(jié)論有更好的普適性,但不管怎樣調(diào)整特征維數(shù)及訓(xùn)練參數(shù)數(shù)目識別效果都較差,只能通過增大訓(xùn)練樣本提升識別效果,所以存在過擬合現(xiàn)象??偟膩碚f,使訓(xùn)練集與驗證集比例為1∶1,是可以將訓(xùn)練參數(shù)數(shù)目調(diào)整到與特征維數(shù)和訓(xùn)練樣本數(shù)目相匹配,達到較好的識別效果,從而避免過擬合現(xiàn)象的,而且也增大了測試樣本比例,提升了結(jié)論的普適性。具體而言,選取了73個作為訓(xùn)練樣本(正常乳腺29個,含腫塊乳腺44個),剩余60個作為測試樣本(正常乳腺20個,含腫塊乳腺40個),在此基礎(chǔ)上與使用其他濾波處理和分類器進行性能對比分析。
所有測試過程均在Matlab R2018a平臺上實現(xiàn)。測試過程中,在濾波處理方面,主要選取了巴特沃斯高通濾波器[22]、巴特沃斯低通濾波器[22]、加權(quán)核范數(shù)最小化濾波器[23]與本方案的最大響應(yīng)濾波器進行對比測試;在紋理特征方面,測試不同維數(shù)特征向量(從一階、二階紋理特征統(tǒng)計量選取)的影響;在分類器的使用上,主要選取了高斯混合模型、支持向量機與人工神經(jīng)網(wǎng)絡(luò)分類器進行對比測試。
表1、表2分別展示了最大響應(yīng)濾波處理前后人工神經(jīng)網(wǎng)絡(luò)隱藏層的神經(jīng)元數(shù)目對識別率的影響。表中的神經(jīng)元個數(shù)均依照公式(1)選取,8維特征為一階、二階特征的8個統(tǒng)計量,4維特征為一階特征的4個統(tǒng)計量,識別率均為60個測試樣本中識別的正確率??梢钥闯觯诓贿M行任何去噪增強處理情況下,人工神經(jīng)網(wǎng)絡(luò)分類在8維特征、4神經(jīng)元時效果最好,之后由于過擬合問題其識別率隨著神經(jīng)元數(shù)目的增大而下降,并且對于特征方面來說,一階、二階紋理特征組合的識別率高于一階紋理特征,說明增加這種反映局部紋理差異的特征對人工神經(jīng)網(wǎng)絡(luò)的分類性能有一定的提升;在使用最大響應(yīng)濾波處理后,人工神經(jīng)網(wǎng)絡(luò)在8維特征、3神經(jīng)元時識別率最高,較之濾波前神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)有所減少,在節(jié)約了一定的網(wǎng)絡(luò)訓(xùn)練時間的同時改善了識別效果,而4維特征時的識別率較之濾波前有明顯的下降,說明對于人工神經(jīng)網(wǎng)絡(luò)而言最大響應(yīng)濾波處理更傾向于改善具有更多種類特征的識別效果??傮w而言,本文使用濾波處理后對于人工神經(jīng)網(wǎng)絡(luò)識別乳腺腫塊效果有一定的改善。
表1 不使用任何濾波處理的不同特征維數(shù)下人工神經(jīng)網(wǎng)絡(luò)分類識別率與隱藏層神經(jīng)元數(shù)目關(guān)系 單位:%
表2 使用最大響應(yīng)濾波器的不同特征維數(shù)下人工神經(jīng)網(wǎng)絡(luò)分類識別率與隱藏層神經(jīng)元數(shù)目關(guān)系 單位:%
表3、表4展示了在進行最大響應(yīng)濾波處理下高斯混合模型與支持向量機各自主要參數(shù)對識別率的影響。表中的2維特征為一階特征的熵和二階特征的逆差矩,4維特征為一階特征的熵、平滑度和二階特征的逆差矩、相關(guān)性,6維特征為一階特征的標準差、熵、平滑度和二階特征的能量、逆差矩、相關(guān)性,8維特征為一階、二階特征的8個統(tǒng)計量。可以看出,高斯混合模型在8維特征、3高斯混合數(shù)時識別率最高,然后由于過擬合問題識別率隨著混合數(shù)的增加而降低,并且隨著特征種類的減少識別率整體上呈下降趨勢;支持向量機在使用sigmoid核函數(shù)時2、4、6特征維數(shù)的識別率均達到最高,但整體上較之人工神經(jīng)網(wǎng)絡(luò)和高斯混合模型識別率有一定的降低。分析上述實驗結(jié)果可知,相較于支持向量機這種通過尋找最優(yōu)線平面來分類的分類器,人工神經(jīng)網(wǎng)絡(luò)和高斯混合模型這種通過深度訓(xùn)練多層參數(shù)來逼近正確類別的分類器對于將一階、二階紋理特征統(tǒng)計量作為乳腺腫塊特征的小規(guī)模乳腺超聲圖像數(shù)據(jù)集有著更好的識別效果,且對于后者,一階、二階紋理特征統(tǒng)計量的結(jié)合整體上對于乳腺腫塊的識別效果有一定的改善。
表3 使用最大響應(yīng)濾波器的不同特征維數(shù)下高斯混合模型分類識別率與高斯混合數(shù)目關(guān)系 單位:%
表4 使用最大響應(yīng)濾波器的不同特征維數(shù)下支持向量機分類識別率與不同核函數(shù)關(guān)系 單位:%
表5進一步展示了使用最大響應(yīng)濾波器后人工神經(jīng)網(wǎng)絡(luò)、高斯混合模型與支持向量機分類器能達到的最好識別性能指標。其中,敏感度為對于測試樣本中含腫塊乳腺識別的正確率,反映了方法對于乳腺腫塊的識別效果;特異度為對于測試樣本中正常乳腺識別的正確率,反映了方法對于正常腫塊的識別效果??梢钥闯?,對于識別率,人工神經(jīng)網(wǎng)絡(luò)分類器效果最好,達到86.7%;對于敏感度,高斯混合模型分類器效果最好,達到97.5%;對于特異度,人工神經(jīng)網(wǎng)絡(luò)分類器效果最好,達到80%。綜合來看,在分類器方面,本文使用人工神經(jīng)網(wǎng)絡(luò)對乳腺腫塊的整體識別性能有一定的提升。
表5 使用最大響應(yīng)濾波器下各分類器最高識別性能對比
根據(jù)上述得到的實驗結(jié)果與分析,可知在加入濾波預(yù)處理操作后,提取乳腺超聲圖像的8維一階、二階紋理特征且使用人工神經(jīng)網(wǎng)絡(luò)分類器對于乳腺腫塊識別效果較好,且較之預(yù)處理前有一定的提升。因此,本文在提取圖像8維紋理特征并使用人工神經(jīng)網(wǎng)絡(luò)進行分類的前提下,嘗試不同濾波器進行預(yù)處理,并對其識別效果進行對比。對于進行對比的濾波器選取,本文主要依據(jù)濾波目的的2個方面:去除噪聲和邊緣結(jié)構(gòu)增強,且這2方面是相互制約的。在實驗中,主要使用峰值信噪比(Peak Signal-to-noise Ratio, PSNR)和結(jié)構(gòu)相似性(Structural Similarity Index, SSIM)[24]這2個評判指標分別對所選濾波器的去除噪聲和邊緣結(jié)構(gòu)增強能力進行量化對比。其中,PSNR值越大,說明濾波器去噪能力越強;SSIM值越大,說明濾波器保存的組織結(jié)構(gòu)信息越完整,具體公式如下:
(2)
其中,X、Y為濾波前、后的2幅M×N的圖像,xij和yij分別為圖像X和Y中第i行、第j列的像素值。
(3)
其中,x、y為濾波前、后2幅圖像中分割的圖像塊,μx、μy分別為x、y的均值,σx、σy分別為x、y的標準差,σxy為x、y的協(xié)方差,c1和c2是避免分母為0的2個常數(shù)。
對于完整的圖像X、Y,一般用Mean Structural Similarity Index(MSSIM)值評價圖像整體的結(jié)構(gòu)相似性。一般來說,MSSIM值的范圍在[-1,1]之間,當值為0時,說明2幅圖的結(jié)構(gòu)沒有任何聯(lián)系;當值越趨于1,說明2幅圖的結(jié)構(gòu)越相似,具體公式如下:
(4)
其中,X、Y是濾波前、后的2幅圖像,num是圖像的總圖像塊數(shù),SSIM(xi,yi)是第i塊圖像塊的SSIM值。
本文用巴特沃斯低通濾波器濾除圖像中的高斯白噪聲,用巴特沃斯高通濾波器增強圖像的邊緣和區(qū)域間對比度。此外,本文還選擇了與最大響應(yīng)濾波器目的相同的加權(quán)核范數(shù)最小化濾波器,即犧牲一定噪聲抑制能力而保持邊緣組織結(jié)構(gòu)。表6、表7分別展示了所選濾波器去噪增強能力的量化值及使用后的識別性能??梢钥闯?,就單純地去噪或邊緣結(jié)構(gòu)增強而言,兩者對增生乳腺超聲圖像的識別效果差異很小,而在處理時對這兩者進行一個均衡能使識別效果得到進一步的提升。在識別性能上,加權(quán)核范數(shù)最小化濾波器相較于本文所使用的最大響應(yīng)濾波器有一定的提升,但其處理的時間卻遠遠高于最大響應(yīng)濾波器。一般來說,對于處理一張乳腺超聲圖像,最大響應(yīng)濾波器的時間復(fù)雜度為O(n),加權(quán)核范數(shù)最小化濾波器的時間復(fù)雜度為O(n4)。在實際的測試中,最大響應(yīng)濾波器平均處理每張圖需要花費1 s,而加權(quán)核范數(shù)最小化濾波器則需要4 min。
根據(jù)上述一系列的對比試驗可知,本文使用最大響應(yīng)濾波器進行預(yù)處理,然后提取圖像8維特征向量,最后使用人工神經(jīng)網(wǎng)絡(luò)進行識別分類,在節(jié)約了大量識別時間的同時提升了乳腺腫塊的識別性能。
表6 各濾波器去噪增強能力指標比較
表7 進行不同濾波處理的識別性能
本文提出了一種基于紋理特征提取的乳腺腫塊超聲圖像識別方法。從處理整體圖像的角度出發(fā),不用考慮結(jié)節(jié)分割技術(shù),從而減少了算法的復(fù)雜度。濾波處理方面,使用最大響應(yīng)濾波器,將總的識別率提升到86.7%,敏感度可達到90%,特異度達到80%,增加了分類的精度,且較之效果更好的濾波方法,算法時間復(fù)雜度從O(n4)降為O(n)。測試時,為了適應(yīng)乳腺超聲圖像難以大規(guī)模獲得的特點,將訓(xùn)練樣本和測試樣本數(shù)量比例調(diào)為1∶1,并做了一系列的橫向、縱向?qū)嶒瀸Ρ?,以測試所提方法對于較小規(guī)模樣本識別的效果。實驗結(jié)果表明:1)對于較小規(guī)模樣本的訓(xùn)練識別,在提取圖像簡單的一階、二階紋理特征統(tǒng)計量并使用人工神經(jīng)網(wǎng)絡(luò)進行識別前,如果能對目標圖像進行很好的增強去噪處理,其識別性能得到較好的提升;2)對乳腺超聲圖像做是否有腫塊的識別是可行且效果良好的,能夠為乳腺癌變檢測算法提供一個前提的數(shù)據(jù)篩選參考。