謝 欣,夏哲雷
(中國計量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
宮頸癌是常見的婦科惡性腫瘤.現(xiàn)階段的宮頸癌細(xì)胞識別主要是人工參與分類,識別過程中存在較多的主觀因素,在分類宮頸癌細(xì)胞時存在較高的假陰性率[1].應(yīng)用深度學(xué)習(xí)識別宮頸癌細(xì)胞,促進(jìn)了醫(yī)療輔助診斷的智能化發(fā)展.
圖像分類是機(jī)器視覺領(lǐng)域非?;钴S的研究方向.1968年由COVER和HART提出的K-鄰近(KNN, K-NearestNeighbor)方法[2],因其簡單、有效且適用于樣本容量比較大的類域分類,而廣泛用于圖像的多分類識別.但是K-鄰近方法屬于惰性學(xué)習(xí)算法,計算量大、耗費時間[3].與K-鄰近相比,1995年由CORTES等首先提出的支持向量機(jī)[4](support vector machine, SVM)在非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,但是在求解問題分類時,要求解函數(shù)的二次規(guī)劃,這就需要大量的存儲空間[5].為提高圖像識別效率,減小計算量,近些年來卷積神經(jīng)網(wǎng)絡(luò)蓬勃發(fā)展[6],尤其是HE等在2015年提出的殘差網(wǎng)絡(luò)[7](ResNet)在圖像識別中取得了優(yōu)異的結(jié)果.該算法在輸出時由Softmax和交叉熵代價函數(shù)對數(shù)據(jù)進(jìn)行處理,實現(xiàn)多分類.但是該算法在實現(xiàn)分類時,當(dāng)樣本總量較大而其中某一類別樣本較小時,存在分類錯誤率較高的問題.將殘差網(wǎng)絡(luò)應(yīng)用于宮頸細(xì)胞圖像分類時,存在較高的假陰性率.
為解決宮頸細(xì)胞圖像在識別分類時存在較高假陰性率的問題,本文基于殘差網(wǎng)絡(luò),提出一種改進(jìn)的交叉熵代價函數(shù)算法.該算法通過對交叉熵代價函數(shù)增加權(quán)重實現(xiàn),根據(jù)不同病變程度的宮頸細(xì)胞建立權(quán)重矩陣來優(yōu)化分類輸出,減少假陰性的誤判.實驗結(jié)果表明,與傳統(tǒng)的分類算法相比,本文提出的改進(jìn)的交叉熵算法在輸出分類時,宮頸癌細(xì)胞圖像的假陰性率明顯降低.
殘差網(wǎng)絡(luò)避免了因簡單增加網(wǎng)絡(luò)深度帶來的梯度爆炸,以及在深層網(wǎng)絡(luò)中求解器難以利用多層網(wǎng)絡(luò)擬合同等函數(shù)的問題。殘差網(wǎng)絡(luò)具有網(wǎng)絡(luò)結(jié)構(gòu)易于優(yōu)化,圖像識別錯誤率低等優(yōu)點。殘差網(wǎng)絡(luò)期望網(wǎng)絡(luò)擬合殘差映射如式(1),結(jié)構(gòu)圖如圖1.
F(X)=G(X)+X.
(1)
式(1)中,F(xiàn)(X)為求和前網(wǎng)絡(luò)映射,G(X)為從輸入到求和后的網(wǎng)絡(luò)映射,當(dāng)F(X)=0時,即完成恒等映射G(X)=X.
圖1 殘差單元示意圖Figure 1 Residual element schematic diagram
Softmax和交叉熵代價函數(shù)廣泛的應(yīng)用在深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中圖像的分類[8].神經(jīng)網(wǎng)絡(luò)的原始輸出是對輸入的數(shù)值做了復(fù)雜的加權(quán)和與非線性處理之后的一個值,Softmax函數(shù)可以用來表示一個具有n個可能取值的離散型隨機(jī)變量的分布[9],如公式(2).
(2)
式(2)中z表示神經(jīng)網(wǎng)絡(luò)的輸出,u、v表示z中的元素.
交叉熵代價函數(shù)是一種用來衡量神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測值與實際值關(guān)系的方式[10].神經(jīng)網(wǎng)絡(luò)輸出層由Softmax函數(shù)處理訓(xùn)練樣本,得到一組概率向量,該向量經(jīng)交叉熵代價函數(shù)判定實際的輸出與期望的輸出的接近程度,交叉熵代價函數(shù)H(p,q)如式(3):
(3)
式(3)中,N訓(xùn)練樣本總和,x表示輸入樣本,p為期望輸出,q為神經(jīng)元實際輸出.
為了降低宮頸癌細(xì)胞圖像在識別過程中存在的假陰性率,本文基于殘差網(wǎng)絡(luò)提出一種改進(jìn)的交叉熵代價函數(shù)算法.該算法通過對交叉熵代價函數(shù)增加權(quán)重實現(xiàn).為減少假陰性的誤判,根據(jù)不同病變程度的宮頸細(xì)胞圖像建立權(quán)重矩陣從而優(yōu)化分類輸出,降低假陰性率,改進(jìn)算法如式(4):
(4)
式(4)中,wij為矩陣元素,i表示真實類別,j表示預(yù)測類別;wik表示矩陣元素在第i真實類別的情況下,預(yù)測類別為第k類的權(quán)重.
本文改進(jìn)的算法采用宮頸細(xì)胞圖像數(shù)據(jù)集,包含四類宮頸細(xì)胞[11]:正常細(xì)胞(Normal)、非典型鱗狀意義不明確(ASCUS)、低度鱗狀上皮內(nèi)病變(LSIL)、高度鱗狀上皮內(nèi)病變(HSIL),將此宮頸細(xì)胞圖像數(shù)據(jù)集作為殘差網(wǎng)絡(luò)的輸入,由于輸入是四類宮頸細(xì)胞圖像故殘差網(wǎng)絡(luò)的最后一層全連接層輸出一個4×1的特征圖像向量M:
M=[m0,m1,m2,m3].
(5)
該向量經(jīng)Softmax函數(shù)處理得到一組概率向量,向量的每個值表示該樣本屬于每一類的概率:
T=[t1,t2,t3,t4].
(6)
在將T輸入到交叉熵代價函數(shù)H(p,q)之前對T進(jìn)行加權(quán)處理.首先建立一個真實類別與預(yù)測類別的權(quán)重矩陣W[12],wij為矩陣元素,其中i表示某一真實類別,j表示某一預(yù)測類別.本文將宮頸細(xì)胞圖像數(shù)據(jù)集分成四類,i、j的取值相同,均為{0,1,2,3},其中{0,1,2,3}分別表示樣本標(biāo)簽屬于正常細(xì)胞(Normal)、非典型鱗狀意義不明確(ASCUS)、低度鱗狀上皮內(nèi)病變(LSIL)、高度鱗狀上皮內(nèi)病變(HSIL)的類別.權(quán)重矩陣表示如下:
(7)
在運算時,為使矩陣元素在一定范圍內(nèi)快速增加,有利于交叉熵判別Softmax輸出所屬類別,將矩陣元素wij的表示為
wij=an2.
(8)
式(8)中,n=i-j,當(dāng)i=j時,真實類別與預(yù)測類別相同,令wij=1.常數(shù)a用來調(diào)整每個權(quán)重的相對大小,根據(jù)序關(guān)系分析法[13]rk的賦值參考表來設(shè)置a的值.設(shè)置矩陣參數(shù)如下:
(9)
改進(jìn)后的交叉熵代價函數(shù)算法H1(p,q)對函數(shù)的每一項增加了權(quán)重系數(shù)wij.為使矩陣元素在一定范圍內(nèi)快速增加,對變量n采用平方的形式,與常數(shù)a相乘,根據(jù)宮頸細(xì)胞病變程度不同有針對的處理每一類輸出,在分類宮頸細(xì)胞圖像時有效地減少宮頸癌細(xì)胞被判成正常細(xì)胞的錯誤.H1(p,q)算法與H(p,q)算法相比,宮頸細(xì)胞圖像在識別分類時假陰性率明顯降低.
本文宮頸細(xì)胞圖像數(shù)據(jù)集是通過圖像掃描儀掃描由液基薄層細(xì)胞檢測(Thin-Cytologic Test, TCT)處理過的宮頸細(xì)胞載玻片得到的,將掃描的圖像做成宮頸細(xì)胞圖像數(shù)據(jù)庫(諸暨微因生物科技有限公司).宮頸癌細(xì)胞主要有細(xì)胞外形不規(guī)則、核質(zhì)比例大、核內(nèi)染色質(zhì)出現(xiàn)團(tuán)塊等特征.根據(jù)宮頸細(xì)胞癌變程度將數(shù)據(jù)集圖像分成四類:正常宮頸細(xì)胞(Normal)、非典型鱗狀意義不明確(ASCUS)、低度鱗狀上皮內(nèi)病變(LSIL)、高度鱗狀上皮內(nèi)病變(HSIL),如圖2.
圖2 宮頸細(xì)胞圖像Figure 2 Images of cervical cells
實驗采用3個不同的宮頸細(xì)胞圖像數(shù)據(jù)集作為樣本,分別為:8 271、17 640、27 608張圖片,數(shù)據(jù)集中每一類宮頸細(xì)胞圖片的數(shù)量如表1.
表1 宮頸細(xì)胞數(shù)據(jù)集Table 1 Cervical cell data set
為驗證在不同數(shù)據(jù)集的情況下本文算法識別分類宮頸細(xì)胞圖像的穩(wěn)定性[14],根據(jù)表1分別將宮頸細(xì)胞圖像8 271、17 640、27 608張數(shù)據(jù)集用于訓(xùn)練測試本文算法.數(shù)據(jù)集按4∶1隨機(jī)分配訓(xùn)練和測試圖片.分配后訓(xùn)練圖片數(shù)量分別為:6 617、14 112、22 086,測試圖片數(shù)量分別為:1 654、3 528、5 522.本文實驗中假陰性率為測試圖片中某一類病變細(xì)胞圖片被判成正常細(xì)胞圖片的張數(shù)與測試數(shù)據(jù)集總數(shù)的比值.本文方法與文獻(xiàn)[7]對比實驗結(jié)果如表2.
表2 兩種算法在不同數(shù)據(jù)集樣本上的假陰性率Table 2 False negative rate of two algorithms on different data sets samples
由表2可以看出本文改進(jìn)的交叉熵代價函數(shù)算法在不同數(shù)據(jù)集上的假陰性率,訓(xùn)練測試樣本大小不同,實驗結(jié)果相差不大.與文獻(xiàn)[7]相比,算法改進(jìn)后,對交叉熵函數(shù)進(jìn)行增加權(quán)重處理,減少分類錯誤.本文算法對宮頸癌細(xì)胞圖像識別分類的假陰性率與文獻(xiàn)[7]算法相比明顯降低.文獻(xiàn)[7]算法沒有針對特定假陰性類別的輸出進(jìn)行加權(quán)處理,在樣本總量較大而病變宮頸細(xì)胞圖片數(shù)量相對較少的情況下,輸出錯誤率較高,算法改進(jìn)后降低了假陰性率.
文獻(xiàn)[2]算法因其簡單、有效、適用于樣本容量比較大的類域的自動分類,而廣泛用于圖像的多分類識別.文獻(xiàn)[4]算法在非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢.本文基于殘差網(wǎng)絡(luò),通過在輸出層對交叉熵代價函數(shù)的每一項增加權(quán)重系數(shù)來降低宮頸癌細(xì)胞圖像在識別中的假陰性率.實驗訓(xùn)練和測試圖片分別為14 112和3 528張,結(jié)果對比如表3.
表3 與傳統(tǒng)分類算法相比實驗結(jié)果Table 3 The experimental results were compared with the traditional classification algorithm %
由實驗結(jié)果可以看出,文獻(xiàn)[4]算法在識別分類時ASCUS、LSIL的假陰性率低于文獻(xiàn)[2]算法,但文獻(xiàn)[2]算法的HSIL的假陰性率低于文獻(xiàn)[4]算法,兩種方法的ASCUS假陰性率都偏高.與文獻(xiàn)[2]、文獻(xiàn)[4]相比,本文算法根據(jù)宮頸細(xì)胞病變程度不同有針對地對交叉熵代價函數(shù)增加權(quán)重,在分類宮頸細(xì)胞圖像時有效地減少宮頸癌細(xì)胞被判成正常細(xì)胞的錯誤,宮頸癌細(xì)胞圖像假陰性率低于前兩種算法.
基于殘差網(wǎng)絡(luò),本文提出一種改進(jìn)的交叉熵代價函數(shù)算法,該算法通過對交叉熵代價函數(shù)增加權(quán)重實現(xiàn),根據(jù)不同病變程度的宮頸細(xì)胞建立權(quán)重矩陣來優(yōu)化分類輸出,減少假陰性誤判.文章首先研究了不同大小的數(shù)據(jù)集對實驗結(jié)果的影響,對于數(shù)據(jù)集大小不同,算法結(jié)果相對穩(wěn)定,同時與改進(jìn)前算法相比較,改進(jìn)后的算法由于針對性的增加權(quán)重,在輸出時降低分類錯誤率,減小假陰性率.最后本文算法與傳統(tǒng)圖像分類算法相比,本文算法在降低宮頸癌細(xì)胞假陰性率方面明顯低于傳統(tǒng)算法,證明了本文算法能很好地應(yīng)用到宮頸癌細(xì)胞圖像識別中.后續(xù)將研究卷積神經(jīng)網(wǎng)絡(luò)模型,探討影響模型性能的因素,如:圖片的格式、預(yù)處理的方法、分類器的改進(jìn)等.旨在實現(xiàn)更低的宮頸癌細(xì)胞錯誤率,將卷積神經(jīng)網(wǎng)絡(luò)更好的應(yīng)用在細(xì)胞識別中去.