楊 波, 張立娜, 韓霄松
(1. 長(zhǎng)春財(cái)經(jīng)學(xué)院 信息工程學(xué)院, 長(zhǎng)春 130122; 2. 吉林農(nóng)業(yè)大學(xué) 信息技術(shù)學(xué)院, 長(zhǎng)春 130118;3. 吉林大學(xué) 符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室, 長(zhǎng)春 130012;4. 吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 長(zhǎng)春 130012)
目前針對(duì)腸癌的診斷, 醫(yī)生通常采用指檢和腸道鏡等方式進(jìn)行早期排查, 由于腸癌早期癥狀不明顯, 給醫(yī)生診斷帶來(lái)巨大挑戰(zhàn). 通過(guò)指檢和腸道鏡檢查, 排查早期腸癌的準(zhǔn)確率約為80%, 一旦早期診斷出現(xiàn)失誤, 會(huì)對(duì)癌癥的及時(shí)治療和患者心理造成極大影響. 通過(guò)對(duì)腸鏡和CT圖像進(jìn)行實(shí)時(shí)處理, 提取圖像特征輔助腸癌早期識(shí)別, 可極大提高診斷效率. 基于此, 本文提出一種基于局部二進(jìn)制模式(local binary patterns, LBP) 和灰度共生矩陣(gray level co-occurrence matrix, GLCM)的腸道腫瘤圖像特征提取與識(shí)別方法, 分割腸道腫瘤的病灶區(qū)域, 通過(guò) LBP算法和 GLCM的結(jié)合, 判斷腸癌和息肉差異性的同時(shí), 確定適用于腸癌識(shí)別分類的特征參數(shù), 進(jìn)一步提高腸癌早期診斷預(yù)測(cè)的準(zhǔn)確率.
腸道惡性腫瘤通常呈球狀或半球狀凸起, 體積較大, 有的惡性腫瘤伴隨出血、 底部深陷等特點(diǎn), 也有多個(gè)腫瘤集中在一起出現(xiàn)腸腔狹窄的情況. 根據(jù)腸道腫瘤的特點(diǎn), 在對(duì)圖像進(jìn)行特征提取和識(shí)別前, 需將腸道腫瘤區(qū)域從醫(yī)學(xué)圖像中進(jìn)行有效分離, 從而進(jìn)行更有針對(duì)性的研究.
OTSU算法, 即最大類間方差法, 是在判別分析或最小二乘原理基礎(chǔ)上發(fā)展而來(lái)的[1], 也稱為大津法. 用最大類間方差法可以得到醫(yī)學(xué)圖像的一個(gè)合適閾值, 利用im2bw函數(shù)將圖像轉(zhuǎn)換為二值圖像的過(guò)程中, 通常須設(shè)置閾值, 該函數(shù)能獲得一個(gè)較合適的閾值. 該閾值與人工設(shè)定閾值相比能得到更好的轉(zhuǎn)換效果.
利用OTSU算法按照腫瘤圖像灰度的特性, 將腫瘤圖像分割成背景和前景兩部分, 其中前景又稱為目標(biāo). 類間方差越大, 表明圖像中的背景和目標(biāo)之間的差異性越大. 出現(xiàn)誤分情況時(shí), 即存在個(gè)別目標(biāo)被誤分為背景, 或個(gè)別背景被誤分為目標(biāo), 會(huì)使差別變小. 因此, 類間方差最大的分割, 誤分幾率最小. 對(duì)于圖像A(x,y), 假設(shè)目標(biāo)與背景的分割閾值為T(mén), 目標(biāo)像素點(diǎn)數(shù)占整個(gè)圖像的百分?jǐn)?shù)標(biāo)記為ω0, 其平均灰度為μ0, 背景像素點(diǎn)數(shù)占整個(gè)圖像的百分?jǐn)?shù)標(biāo)記為ω1, 其平均灰度為μ1.該圖像的總平均灰度記為μ, 類間方差記為g, 假設(shè)該腫瘤圖像的尺寸為M×N, 圖像中像素的灰度值小于閾值T的像素個(gè)數(shù)記為N0, 像素灰度大于閾值T的像素個(gè)數(shù)記為N1, 則有
將μ=ω0×μ0+ω1×μ1代入式(5)可得
g=ω0×ω1(μ0-μ1)2.
(6)
利用遍歷求得使類間方差最大的閾值T.
用OTSU算法得出輸入腫瘤圖像的閾值, 計(jì)算最大和最小值, 從最小灰度值到最大值分別計(jì)算方差, 計(jì)算目標(biāo)和背景的百分?jǐn)?shù)和平均灰度值. OTSU算法計(jì)算前原始圖像如圖1所示, Graythresh函數(shù)計(jì)算閾值圖像如圖2所示, 簡(jiǎn)化OTSU算法計(jì)算閾值圖像如圖3所示.
圖1 OTSU算法計(jì)算前原始圖像區(qū)域Fig.1 Original image area before OTSU algorithm calculation
由圖2可見(jiàn), Graythresh函數(shù)計(jì)算閾值圖像腫瘤區(qū)域基本被標(biāo)識(shí)為白色區(qū)域, 可與背景區(qū)域有效區(qū)別. 由圖3可見(jiàn), 簡(jiǎn)化后OTSU算法計(jì)算閾值圖像與Graythresh函數(shù)方法得到的圖像效果相當(dāng). 獲得腸癌腫瘤區(qū)域輪廓后, 利用drawContours( )函數(shù)繪制輪廓并進(jìn)行區(qū)域剪切, 即可得到理想的腫瘤區(qū)域圖像. 與計(jì)算機(jī)視覺(jué)開(kāi)源框架OpenCV自帶算法實(shí)驗(yàn)對(duì)比表明, 在分割效果上觀察OTSU算法與OpenCV自帶算法相當(dāng), 在計(jì)算速度上, OTSU算法時(shí)間為0.8 ms, 比OpenCV自帶算法快0.2 ms.
圖2 Graythresh函數(shù)計(jì)算閾值圖像Fig.2 Threshold image calculated by Graythresh function
圖3 簡(jiǎn)化OTSU算法計(jì)算閾值圖像Fig.3 Threshold image calculated by simplified OTSU algorithm
局部二進(jìn)制模式(LBP)算法一般將一張圖像劃分為中心區(qū)和鄰區(qū). 如果30為中心區(qū)的像素灰度值, 則將其作為閾值, 此時(shí)把圖像中心區(qū)獲得的像素值與相鄰8個(gè)區(qū)獲得的像素值對(duì)比[2]. 假設(shè)該圖像的中心區(qū)獲取像素值大于對(duì)比鄰區(qū)像素值, 則鄰區(qū)可以將對(duì)應(yīng)位置的像素值設(shè)定為1, 否則如果鄰區(qū)像素值大于中心區(qū)值, 則將鄰區(qū)對(duì)應(yīng)位置記為0. 以此類推, 將整個(gè)標(biāo)記完的區(qū)域從左上角按照順時(shí)針讀取8個(gè)二進(jìn)制數(shù), 形成一個(gè)二值化后的序列, 其對(duì)應(yīng)的十進(jìn)制數(shù)作為該鄰域中心點(diǎn)的響應(yīng). 基本LBP算子的獲取過(guò)程如圖4所示.
圖4 基本LBP算子的獲取過(guò)程Fig.4 Acquisition process of basic LBP operators
LBP算法局部紋理特征計(jì)算公式[3]為
(7)
其中: (xc,yc)為圖像的中心區(qū)像素坐標(biāo);p為8鄰區(qū)中的第p個(gè)像素點(diǎn);ip為p點(diǎn)對(duì)應(yīng)的灰度值;ic為中心區(qū)像素對(duì)應(yīng)的灰度值;S(x)為符號(hào)函數(shù),
(8)
本文通過(guò)實(shí)驗(yàn)將腸道腫瘤圖像的各像素點(diǎn)均通過(guò)LBP計(jì)算, 獲得的新腫瘤圖像與原腫瘤圖像大小相同, 稱為L(zhǎng)BP圖像. 同時(shí)計(jì)算并繪制腫瘤LBP 圖像的直方圖, 作為描述腫瘤圖像紋理特征的輔助方式[4]. 但基本的LBP算子計(jì)算得到的直方圖會(huì)出現(xiàn)維數(shù)較多的情況, 利用圖像等價(jià)模式LBP特征在一定程度上可達(dá)到降維的效果.
本文采用LBP算法獲取圖像原始LBP特征, 并顯示其統(tǒng)計(jì)直方圖與特征圖像, 腫瘤特征被有效保存, 單腫瘤圖像特征效果如圖5和圖6所示, 多腫瘤圖像特征效果如圖7和圖8所示.
圖5 單腫瘤圖像統(tǒng)計(jì)直方圖Fig.5 Statistical histogram of single tumor image
圖6 單腫瘤圖像LBP特征圖Fig.6 LBP characteristic map of single tumor image
圖7 多腫瘤圖像統(tǒng)計(jì)直方圖Fig.7 Statistical histogram of multiple tumor image
圖8 多腫瘤圖像LBP特征圖Fig.8 LBP characteristic map of multiple tumor image
圖9為圖像等價(jià)模式直方圖, 圖10為圖像等價(jià)模式LBP特征圖. 由圖9和圖10可見(jiàn), 采用圖像等價(jià)模式LBP能表示大多數(shù)紋理特征, 同時(shí)處理速度得到顯著提高, 有效特征也可以得到較好的保留.
圖9 圖像等價(jià)模式統(tǒng)計(jì)直方圖Fig.9 Statistical histogram of image equivalent pattern
圖10 圖像等價(jià)模式LBP特征圖Fig.10 LBP characteristic map of image equivalent pattern
灰度共生矩陣(GLCM)計(jì)算兩個(gè)點(diǎn)在一定距離和一定方向上的灰度相關(guān)性, GLCM反映了圖像在方向、 間隔、 變化范圍和速度等方面的綜合信息[5]. 本文利用GLCM進(jìn)行全局紋理特征提取, 設(shè)腫瘤數(shù)字圖像尺寸為M×N, 灰度為K, 為定義腫瘤圖像任意一對(duì)像素作為條件的概率密度, 假設(shè)預(yù)先給定距離d和方向θ(θ為像素對(duì)點(diǎn)之間連線與坐標(biāo)的夾角), 灰度以i為起點(diǎn), 出現(xiàn)灰度為j的概率.即GLCM是指目標(biāo)圖像中滿足d和θ成對(duì)點(diǎn)灰度出現(xiàn)率, 此概率用P(i,j,d,θ)表示:
P(i,j,d,θ)=([(x,y),(x+m,y+n)|f(x,y)=i,f(x+m,y+n)=j]),
(9)
實(shí)際上是(K×K)的矩陣. 圖11為GLCM算法示意圖. 圖11中灰度為i的點(diǎn)坐標(biāo)為(x,y), 灰度為j的點(diǎn)是偏離灰度為i的另一點(diǎn), 坐標(biāo)為(x+m,y+n), (m,n)為偏離值, 則此時(shí)將GLCM中相應(yīng)位置(x,y)處的值加1(初始值為0)[6].
圖11 GLCM算法示意圖Fig.11 Schematic diagram of GLCM algorithm
在實(shí)際應(yīng)用中, GLCM通常不能直接區(qū)分紋理特征, 需要一些屬性作為紋理特征的描述, 其中包括14種基于灰度共生矩陣計(jì)算出的統(tǒng)計(jì)量[7]: 能量(角二階矩)、 熵、 對(duì)比度、 均勻性、 相關(guān)性、 方差、 和平均、 和方差、 和熵、 差方差、 差平均、 差熵、 相關(guān)信息測(cè)度以及最大相關(guān)系數(shù)[8]. 根據(jù)需要和實(shí)際應(yīng)用效果, 本文采用角二階矩、 熵、 對(duì)比度和反差分矩陣4個(gè)統(tǒng)計(jì)量. 4個(gè)統(tǒng)計(jì)量計(jì)算方法為
其中: 角二階矩ASM表示腫瘤圖像的灰度分布均勻水平和紋理粗細(xì)程度,P(i,j)表示歸一化后的灰度共生矩陣; 熵ENT表示腫瘤圖像包含信息量的隨機(jī)性, 同時(shí)也反映腫瘤圖像的復(fù)雜程度; 對(duì)比度CON表示圖像清晰度和腫瘤紋理溝紋深度, 紋理越明顯, 腫瘤圖像中的明暗差距越大; 反差分矩陣IDM又稱為逆方差, 表示腫瘤圖像紋理的清晰水平和規(guī)則程度, 該值越大, 表示紋理越清晰[9], 同時(shí)越有規(guī)律性. 以單個(gè)腫瘤為例, GLCM結(jié)果如圖12所示.
圖12 GLCM結(jié)果Fig.12 GLCM results
將包含單個(gè)腫瘤、 多腫瘤和無(wú)腫瘤圖像的LBP圖, 根據(jù)式(10)~(13)計(jì)算獲取GLCM特征值, 對(duì)比結(jié)果列于表1. 表1中特征值均為單一樣本特征數(shù)據(jù). 由表1可見(jiàn), 多腫瘤圖像的GLCM角二階矩值相對(duì)較大, 表示紋理容易描述, GLCM的熵值反映腫瘤圖像相對(duì)復(fù)雜[10], 對(duì)比度較大說(shuō)明多腫瘤圖像紋理較清晰, 更容易識(shí)別.
表1 GLCM腫瘤特征值對(duì)比
實(shí)際使用過(guò)程中, 根據(jù)腸道腫瘤醫(yī)學(xué)圖像的紋理特征, 采用4個(gè)方向(0°,45°,90°,135°)生成灰度共生矩陣, 每個(gè)方向使用4個(gè)統(tǒng)計(jì)量標(biāo)識(shí)特征, 生成16個(gè)特征值. 再通過(guò)計(jì)算4個(gè)統(tǒng)計(jì)量的均值、 標(biāo)準(zhǔn)差和方差, 生成12個(gè)特征值, 共28個(gè)特征值描述一個(gè)腸道腫瘤圖像, 產(chǎn)生的矩陣部分?jǐn)?shù)據(jù)列于表2.
表2 腸道腫瘤圖像GLCM特征
本文采用的實(shí)驗(yàn)數(shù)據(jù)為吉林大學(xué)第一醫(yī)院二部腸鏡檢查數(shù)據(jù)圖像, 來(lái)自200名患病個(gè)體, 圖像信息1 500個(gè). 實(shí)驗(yàn)圖像數(shù)據(jù)需要臨床醫(yī)師進(jìn)行標(biāo)定, 腸鏡樣本數(shù)據(jù)分為單腫瘤、 多腫瘤、 正常腸道和息肉. 臨床醫(yī)師根據(jù)病例結(jié)果對(duì)1 500張圖像逐一標(biāo)定, 最終確定實(shí)驗(yàn)使用的數(shù)據(jù)集. 其中700張圖像作為訓(xùn)練數(shù)據(jù)集, 600張圖像作為測(cè)試數(shù)據(jù)集, 200張圖像作為待測(cè)數(shù)據(jù)集.
支持向量機(jī)(support vector machine, SVM)可以在有限樣本信息的情況下, 對(duì)模型的復(fù)雜性和學(xué)習(xí)能力之間進(jìn)行折衷, 獲得較好的推廣能力和識(shí)別效果[11]. 針對(duì)SVM識(shí)別方法, 本文采用LBP+SVM,GLCM+SVM和LBP+GLCM+SVM三種方式進(jìn)行分類識(shí)別. SVM可采用多種核函數(shù), 其中參數(shù)γ和誤差懲罰因子C是核函數(shù)的主要參數(shù), 本文利用交叉對(duì)比法.
SVM通過(guò)用內(nèi)積函數(shù)定義的非線性變換將輸入空間變換到一個(gè)高維空間[12]. SVM核函數(shù)K(xi,xj)是輸入空間和特征空間之間的映射.
多項(xiàng)式核函數(shù)表示為
(14)
徑向基核函數(shù)(RBF)表示為
K(xi,xj)=exp{-γ‖xi-xj‖2},
(15)
其中d為多項(xiàng)式次數(shù),γ為模型復(fù)雜度系數(shù). 通過(guò)核函數(shù)的使用, SVM將二維線性不可分樣本映射到高維空間中[13]. 樣本數(shù)據(jù)在高維空間中變得線性可分.
針對(duì)腸道腫瘤樣本數(shù)據(jù), 本文測(cè)試了SVM兩種核函數(shù)的識(shí)別準(zhǔn)確率, 結(jié)果表明, 多項(xiàng)式函數(shù)當(dāng)多項(xiàng)式次數(shù)達(dá)到一定值時(shí)精度開(kāi)始下降, 次數(shù)D=4時(shí)達(dá)到最高.RBF核函數(shù)精度普遍高于多項(xiàng)式函數(shù), 當(dāng)C=26,γ=0.3時(shí), 精度達(dá)到最高. 本文選擇深度學(xué)習(xí)的VGG模型作為對(duì)比實(shí)驗(yàn), 該模型相比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)更適合樣本數(shù)較少的識(shí)別任務(wù)[14]. 在樣本集上, VGG19模型的損失值結(jié)果如圖13所示, 準(zhǔn)確率結(jié)果如圖14所示. 不同方法實(shí)驗(yàn)對(duì)比結(jié)果列于表3.
圖13 樣本集上VGG19的損失值Fig.13 Loss values of VGG19 on sample set
圖14 樣本集上VGG19的驗(yàn)證準(zhǔn)確率Fig.14 Verification accuracy of VGG19 on sample set
表3 不同方法的實(shí)驗(yàn)結(jié)果對(duì)比
由表3可見(jiàn), 直接采用LBP模式圖像特征提取方法對(duì)腸道腫瘤醫(yī)學(xué)圖像進(jìn)行識(shí)別分類的準(zhǔn)確率為85.66%, 局部紋理特征提取后進(jìn)行SVM識(shí)別效果不明顯. 采用GLCM獲取全局紋理特征提取法識(shí)別效果稍好, 準(zhǔn)確率提高了4%. 采用LBP+GLCM+SVM方法, 準(zhǔn)確率達(dá)到94.84%. VGG19模型經(jīng)過(guò)訓(xùn)練, 當(dāng)損失值為0.162 4時(shí), 損失值曲線趨于平穩(wěn), 此時(shí)準(zhǔn)確率穩(wěn)定在約84.68%, 隨著epochs訓(xùn)練迭代次數(shù)的增加, 準(zhǔn)確率未出現(xiàn)明顯變化.
綜上所述, 針對(duì)腸道腫瘤圖像樣本有限導(dǎo)致腫瘤識(shí)別率低和收斂速度慢的問(wèn)題, 本文提出了一種LBP+GLCM+SVM方法. 利用GLCM方法對(duì)腸道腫瘤圖像進(jìn)行全局特征紋理獲取, 彌補(bǔ)了LBP方法缺少中心區(qū)像素點(diǎn)灰度計(jì)算的缺陷, 并結(jié)合了LBP高效性和GLCM魯棒性的優(yōu)點(diǎn). 深度學(xué)習(xí)VGG模型方法由于卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí), 為保證訓(xùn)練不被過(guò)擬合, 需要大量的訓(xùn)練數(shù)據(jù), 使得VGG方法樣本數(shù)量要遠(yuǎn)大于SVM方法, 且訓(xùn)練速度較慢. 實(shí)驗(yàn)結(jié)果表明, SVM方法較適用于小樣本數(shù)據(jù)的情形, 同時(shí)LBP+GLCM+SVM方法分類精度為94.84%, 優(yōu)于VGG19方法的84.68%, 取得了較理想的識(shí)別準(zhǔn)確率, 可實(shí)現(xiàn)輔助腸道腫瘤醫(yī)學(xué)診斷的目的.