胡嘉影 陳雨萍 羅志飛 蔡仁桑 馬夢(mèng)晨 黃幼生* 陳夢(mèng)柚
蘇木精-伊紅染色法(hematoxylin-eosin staining,HE)是石蠟切片技術(shù)里常用的染色法之一,在組織學(xué)、病理學(xué)等研究方面使用非常廣泛[1]。早期胃癌是指癌組織限于胃黏膜層及黏膜下層,不論其范圍大小和是否有淋巴結(jié)轉(zhuǎn)移,多見(jiàn)于中老年人,早期胃癌患者經(jīng)過(guò)有效治療后5年生存率達(dá)90%以上[2]。HE染色活檢組織病理學(xué)檢查是診斷早期胃癌的主要手段,近年來(lái)隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展,利用計(jì)算機(jī)輔助數(shù)字病理的過(guò)程中,將顯微鏡下觀(guān)察到的圖像通過(guò)電腦掃描制作成數(shù)字病理圖像,能夠極大提高診斷效率和準(zhǔn)確性[3]。
醫(yī)學(xué)圖像分割是醫(yī)學(xué)圖像處理與分析領(lǐng)域的復(fù)雜而關(guān)鍵的步驟,其目的是分割和提取醫(yī)學(xué)圖像中具有特殊含義的相關(guān)特征,為臨床診療和病理學(xué)研究提供可靠的依據(jù)。本研究利用訓(xùn)練邏輯回歸(logistic regression,LR)、支持向量機(jī)(support vector machine,SVM)和樸素貝葉斯(naive Bayes,NB)3個(gè)機(jī)器學(xué)習(xí)算法分類(lèi)器對(duì)像素點(diǎn)進(jìn)行癌巢區(qū)域和間質(zhì)區(qū)域進(jìn)行區(qū)分,對(duì)比癌巢分割效果,選擇效果最佳的分類(lèi)算法觀(guān)察其圖像組織學(xué)分級(jí)效果。
選用2018年1月至2019年12月海南醫(yī)學(xué)院第一附屬醫(yī)院病理科的420幅原始HE染色胃癌組織病理圖,其中黏膜內(nèi)癌[cT1a(M)]185幅,黏膜下癌[cT1b(SM)]235幅。使用Matlab7.0軟件對(duì)病理圖像進(jìn)行灰度化、去噪、增強(qiáng)對(duì)比度、特征提取及圖像分割等處理。
采用數(shù)字切片掃描與應(yīng)用系統(tǒng)(廈門(mén)麥克奧迪實(shí)業(yè)集團(tuán)有限公司,閩械注準(zhǔn)20162220080)。
將收集的420幅病理切片均運(yùn)用數(shù)字切片掃描與應(yīng)用系統(tǒng)進(jìn)行數(shù)字化掃描(20倍物鏡)形成數(shù)字化病理切片,并制作成TIFF格式圖像集,其分辨率為1024×1360。
1.4.1 癌巢分割
對(duì)原始的HE染色胃癌組織病理圖像進(jìn)行預(yù)處理,包括灰度化、去噪和對(duì)比度增強(qiáng)。
(1)灰度化。根據(jù)重要性及其他指標(biāo),將紅、綠、藍(lán)(Red,Green,Blue,RGB)3個(gè)分量以不同的權(quán)值進(jìn)行加權(quán)平均。由于人眼對(duì)綠色敏感最高,對(duì)藍(lán)色敏感最低,因此,對(duì)RGB的3個(gè)分量進(jìn)行加權(quán)平均得到較合理的灰度圖像,其轉(zhuǎn)換算法為公式1:
式中L為灰度值;R為紅色分量;G為綠色分量;B為藍(lán)色分量。
(2)去噪。為消除圖像中的噪聲并對(duì)圖像平滑化,選擇3×3模板掃描圖像中的每一個(gè)像素,用模板確定的鄰域內(nèi)像素的加權(quán)平均值替代模板中心像素點(diǎn)的值。
(3)對(duì)比度調(diào)整。將給定圖像的直方圖分布改變成“均勻”分布直方圖分布。根據(jù)圖像灰度計(jì)算概率密度函數(shù)(probability density function,PDF);計(jì)算累積概率分布函數(shù)的累積分布函數(shù)(cumulative distribution function,CDF);將CDF歸一化到原圖灰度取值范圍,如[0,255](灰度圖像像素值的取值范圍為[0,255])之后CDF四舍五入取整,得到灰度轉(zhuǎn)換函數(shù),其算法為公式2:
式中sk為目標(biāo)圖像灰度值;T為輸入灰度級(jí)和輸出灰度級(jí)之前的映射關(guān)系;rk為原始圖像灰度值;將CDF作為轉(zhuǎn)換函數(shù),將灰度為rkrk的點(diǎn)轉(zhuǎn)換為sksk灰度。
1.4.2 特征提取
(1)顏色特征提取。將顏色空間RGB模型轉(zhuǎn)化成六角錐體(Hue,Saturation,Value,HSV)模型,RGB轉(zhuǎn)換到HSV的算法:
(2)紋理特征提取。應(yīng)用局部二進(jìn)制模式(local binary pattern,LBP)算子的過(guò)程類(lèi)似于濾波過(guò)程中的模板操作,逐行掃描圖像,對(duì)于圖像中的每一個(gè)像素點(diǎn),以該點(diǎn)的灰度作為閾值,對(duì)周?chē)?×3的8鄰域進(jìn)行二值化,按照一定的順序?qū)⒍祷慕Y(jié)果組成一個(gè)8位二進(jìn)制數(shù),以此二進(jìn)制數(shù)的值(0~255)作為該點(diǎn)的響應(yīng)。3×3區(qū)域的中心點(diǎn),以其灰度值68作為閾值,對(duì)其8鄰域進(jìn)行二值化,并且從左上點(diǎn)開(kāi)始按照順時(shí)針?lè)较?具體的順序可以任意,只要統(tǒng)一即可)將二值化的結(jié)果組成一個(gè)二進(jìn)制數(shù)10 001 011,即十進(jìn)制的139,作為中心點(diǎn)的響應(yīng)。局部二進(jìn)制模式算子見(jiàn)圖1。
圖1 局部二進(jìn)制模式算子示意圖
1.4.3 細(xì)胞核分割
先對(duì)HE染色的早期胃癌組織病理圖像進(jìn)行主成分分析,得到含有蘇木精顏色信息的灰度圖像后進(jìn)行形態(tài)學(xué)預(yù)處理,得到較好的細(xì)胞核輪廓,運(yùn)用快速?gòu)较驅(qū)ΨQ(chēng)變換提取種子點(diǎn),將種子點(diǎn)標(biāo)記在原圖中,進(jìn)行后景標(biāo)記后完成預(yù)分割,得到初始輪廓;進(jìn)行曲線(xiàn)演化得到最終輪廓。分割算法步驟為:原始圖像→提取蘇木精染色通道的灰度圖→形態(tài)學(xué)操作→圖像預(yù)處理→快速?gòu)较驅(qū)ΨQ(chēng)變換→前景、后景標(biāo)記→分水嶺變換→分水嶺分割線(xiàn)→主動(dòng)輪廓模型→細(xì)胞核區(qū)域。
1.4.4 圖像組織學(xué)分級(jí)
應(yīng)用SVM進(jìn)行圖像分類(lèi)時(shí),整個(gè)過(guò)程劃分為訓(xùn)練階段分類(lèi)階段。在試驗(yàn)步驟中,對(duì)所采集的圖像特征提取,然后分別對(duì)圖像分配類(lèi)標(biāo)簽1和2以組成樣本。將每個(gè)類(lèi)別圖像總數(shù)的4/5作為訓(xùn)練集,1/5作為測(cè)試集。即cT1a(M)級(jí)患者148幅圖像用于訓(xùn)練,37幅圖像用于測(cè)試;cT1b(SM)級(jí)患者188幅圖像用于訓(xùn)練,47幅圖像用于測(cè)試。每次劃分均采用隨機(jī)方法將圖像劃分為5份,共進(jìn)行10次試驗(yàn),記錄每一次試驗(yàn)被正確分類(lèi)的各個(gè)類(lèi)別的數(shù)量,取其平均數(shù)。分別在像素級(jí)別特征(pixel level features,PLF)、對(duì)象級(jí)別特征(object level features,OLF)及兩者組合(PLF+OLF)上進(jìn)行試驗(yàn)。試驗(yàn)結(jié)果分別統(tǒng)計(jì)被正確分類(lèi)和錯(cuò)誤分類(lèi)的正例與負(fù)例的平均數(shù),SVM分類(lèi)器的核函數(shù)為徑向基核函數(shù),參數(shù)sigma=5。
選取一幅典型的圖像并請(qǐng)病理科醫(yī)生對(duì)此圖像中的癌巢與間質(zhì)作分割,在病理醫(yī)生的指導(dǎo)下隨機(jī)地劃分癌巢區(qū)域,選取100個(gè)典型的像素點(diǎn),提取其顏色特征和紋理特征,一起組成正例樣本,同樣地在圖像中被劃分為間質(zhì)區(qū)域里選取100個(gè)典型的像素點(diǎn),也提取其顏色特征與紋理特征,一起組成負(fù)例樣本,將正例樣本和負(fù)例樣本組合在一起組成訓(xùn)練樣本,并訓(xùn)練LR、NB和SVM 3種分類(lèi)器。
評(píng)估分類(lèi)效果,以像素點(diǎn)數(shù)作為定量評(píng)估標(biāo)準(zhǔn)。將圖像分割成癌巢和間質(zhì)兩個(gè)部分,因此定義真正例(TP)為被正確分割為癌巢區(qū)域的像素點(diǎn)數(shù),假正例(FP)為被錯(cuò)誤分割為癌巢區(qū)域的像素點(diǎn)數(shù),真負(fù)例(TN)為正確分割為間質(zhì)區(qū)域的像素點(diǎn)數(shù),假負(fù)例(FN)為被錯(cuò)誤分割為間質(zhì)域的像素點(diǎn)數(shù),查準(zhǔn)率P=TP÷(TP+FP),查全率R=TP÷(TP+FN)。對(duì)比不同算法下癌巢分割效果。
SVM分類(lèi)器的查準(zhǔn)率和查全率分別為85.4%和81.6%,高于LR分離器(83.0%和80.0%)及NB分離器(82.2%和79.4%),3種分類(lèi)器間比較均無(wú)統(tǒng)計(jì)學(xué)差異,見(jiàn)表1。
表1 三種分類(lèi)器的分類(lèi)效果
在圖像組織學(xué)分級(jí)準(zhǔn)確率中,cT1 a(M)級(jí)患者圖像與cT1 b(S M)級(jí)患者圖像二分類(lèi)時(shí),分類(lèi)器在PLF 上的圖像組織學(xué)分級(jí)準(zhǔn)確率為(23.6+36.8)÷(37+47)=71.9%,在OLF上的圖像組織學(xué)分級(jí)準(zhǔn)確率為(23.0+36.5)÷(37+47)=70.8%,在兩者組合(PLF+OLF)上的圖像組織學(xué)分級(jí)準(zhǔn)確率為(25.8+38.6)÷(37+47)=76.7%,相比于單獨(dú)PLF或OLF,兩者組合的圖像組織學(xué)分級(jí)準(zhǔn)確率較高,與其他兩組比較差異均無(wú)統(tǒng)計(jì)學(xué)意義。cT1a(M)被正確分級(jí)的準(zhǔn)確率為25.8÷37=69.7%,cT1b(SM)被正確分級(jí)的準(zhǔn)確率為38.6÷47=82.1%,見(jiàn)表2;患者早期胃癌組織學(xué)分級(jí)圖像見(jiàn)圖2。
HE病理圖像分析中,圖像質(zhì)量的好壞直接影響識(shí)別算法的設(shè)計(jì)與效果的精度,原始的HE染色胃癌組織病理圖像中存在噪聲,因此在圖像分析(特征提取、分割、匹配和識(shí)別)前需要進(jìn)行預(yù)處理[4]。圖像預(yù)處理的主要目的是消除圖像中無(wú)關(guān)的信息,恢復(fù)有用的真實(shí)信息,增強(qiáng)有關(guān)信息的可檢測(cè)性,最大限度地簡(jiǎn)化數(shù)據(jù),從而改進(jìn)特征提取、圖像分割、匹配和識(shí)別的可靠性[5]。圖像預(yù)處理主要包括灰度化、去噪及對(duì)比度增強(qiáng)。
表2 cT1a(M)與cT1b(SM)患者圖像的分級(jí)情況(%)
圖2 早期胃癌組織病理圖
對(duì)HE染色圖像進(jìn)行處理時(shí),往往需要對(duì)3個(gè)通道依次進(jìn)行處理,將會(huì)消耗很多時(shí)間。因此,為了達(dá)到提高整個(gè)應(yīng)用系統(tǒng)的處理速度的目的,需要對(duì)彩色圖像進(jìn)行灰度化以減少所需處理的數(shù)據(jù)量。在RGB模型中,如果R=G=B時(shí),則彩色表示一種灰度顏色,其中R=G=B的值叫灰度值,因此,灰度圖像每個(gè)像素只需一個(gè)字節(jié)存放灰度值(又稱(chēng)強(qiáng)度值、亮度值),灰度范圍為0~255[5]。根據(jù)重要性及其他指標(biāo),將3個(gè)分量以不同的權(quán)值進(jìn)行加權(quán)平均。由于人眼對(duì)綠色的敏感最高,對(duì)藍(lán)色敏感最低,因此,對(duì)RGB3個(gè)分量進(jìn)行加權(quán)平均能得到較合理的灰度圖像。
對(duì)圖像去噪時(shí),濾波器有抑制噪聲和光滑化的作用,常用的濾波器有均值濾波、中值濾波和高斯濾波等[6]。高斯濾波器是一種線(xiàn)性濾波器,能夠有效的抑制噪聲,平滑圖像,其作用原理和均值濾波器類(lèi)似,都是取濾波器窗口內(nèi)的像素的均值作為輸出,其窗口模板的系數(shù)和均值濾波器不同,均值濾波器的模板系數(shù)都是相同的為1;而高斯濾波器的模板系數(shù),則隨著距離模板中心的增大而系數(shù)減小[7]。因此,高斯濾波器相比于均值濾波器對(duì)圖像模糊程度較小。在比較各種濾波器效果之后選擇3×3模板大小的高斯濾波。
在對(duì)比度調(diào)整時(shí),基于直方圖的對(duì)比度調(diào)整方法:直方圖均衡化通過(guò)使用累積函數(shù)對(duì)灰度值進(jìn)行“調(diào)整”以實(shí)現(xiàn)對(duì)比度的增強(qiáng)。直方圖均衡化處理的“中心思想”是將原始圖像的灰度直方圖從比較集中的某個(gè)灰度區(qū)間變成在全部灰度范圍內(nèi)的均勻分布。直方圖均衡化是對(duì)圖像進(jìn)行非線(xiàn)性拉伸,重新分配圖像像素值,使一定灰度范圍內(nèi)的像素?cái)?shù)量大致相同,也是把給定圖像的直方圖分布改變成“均勻”分布直方圖分布。
在顏色特征提取中由于組織或細(xì)胞的不同成分,對(duì)蘇木精的親和力不同及染色性質(zhì)不一樣。經(jīng)蘇木精染色后,細(xì)胞核及鈣鹽粘液等呈藍(lán)色;再利用胞漿染料伊紅染胞漿,使胞漿的各種不同成分又呈現(xiàn)出深淺不同的粉紅色,這是區(qū)分不同組織對(duì)象的一個(gè)重要信息[8-10]。在圖像處理中,可以將一個(gè)具體的像素點(diǎn)所呈現(xiàn)的顏色分多種方法分析,并提取出其顏色特征分量。顏色特征是一種全局特征,描述了圖像或圖像區(qū)域所對(duì)應(yīng)的景物的表面性質(zhì)。一般顏色特征是基于像素點(diǎn)的特征,此時(shí)所有屬于圖像或圖像區(qū)域的像素都有各自的貢獻(xiàn)[9]。由于顏色對(duì)圖像或圖像區(qū)域的方向、大小等變化不敏感,所以顏色特征不能很好地捕捉圖像中對(duì)象的局部特征。此外,僅使用顏色特征查詢(xún)時(shí),如果數(shù)據(jù)庫(kù)很大,常會(huì)將許多不需要的圖像也檢索出來(lái)。顏色直方圖是最常用的表達(dá)顏色特征的方法,不受圖像旋轉(zhuǎn)和平移變化的影響,進(jìn)一步借助歸一化還可不受圖像尺度變化的影響。
紋理特征也是一種全局特征,其描述了圖像或圖像區(qū)域所對(duì)應(yīng)景物的表面性質(zhì)[11]。但由于紋理只是一種物體表面的特性,并不能完全反映出物體的本質(zhì)屬性,所以?xún)H僅利用紋理特征是無(wú)法獲得高層次圖像內(nèi)容的。與顏色特征不同,紋理特征不是基于像素點(diǎn)的特征,需要在包含多個(gè)像素點(diǎn)的區(qū)域中進(jìn)行統(tǒng)計(jì)計(jì)算。圖像的紋理特征有很多種,如灰度共生矩陣、Tamura紋理特征、自回歸紋理模型、小波變換、Gabor以及LBP等。
LBP方法是一種用來(lái)描述圖像局部紋理特征的算子,其作用是進(jìn)行特征提取,提取圖像的局部紋理特征[12-13]。LBP是計(jì)算機(jī)視覺(jué)中用于圖像特征分類(lèi)的一個(gè)方法,用于紋理特征提取。LBP紋理特征向量,一般以圖像分塊LBP直方圖表示。得到了整幅圖像的LBP紋理特征后,便可利用SVM或者其他機(jī)器學(xué)習(xí)算法進(jìn)行分類(lèi)。
分水嶺分割方法是一種基于拓?fù)淅碚摰臄?shù)學(xué)形態(tài)學(xué)的分割方法,其基本思想是將圖像看作測(cè)繪學(xué)上的拓?fù)涞孛?,圖像中每一點(diǎn)像素的灰度值表示該點(diǎn)的海拔高度,每個(gè)局部極小值及其影響區(qū)域稱(chēng)為集水盆,而集水盆的邊界則形成分水嶺[14]。分水嶺算法是一種圖像區(qū)域分割法,在分割的過(guò)程中會(huì)把跟臨近像素間的相似性作為重要的參考依據(jù),對(duì)圖像每個(gè)像素的灰度級(jí)進(jìn)行從低到高排序,再?gòu)牡偷礁邔?shí)現(xiàn)淹沒(méi)過(guò)程中,對(duì)每一個(gè)局部極小值在h階高度的影響域采用先進(jìn)先出(first in first out,F(xiàn)IFO)結(jié)構(gòu)進(jìn)行判斷及標(biāo)注[15]。
本研究中,通過(guò)將顯微鏡下觀(guān)察的患者組織切片掃描到計(jì)算機(jī)上并制作成TIFF格式,該圖像集的分辨率為1024×1360。選取一幅典型的圖像并請(qǐng)病理科醫(yī)生對(duì)此圖像中的癌巢與間質(zhì)作分割,在病理醫(yī)生的指導(dǎo)下隨機(jī)劃分癌巢區(qū)域,選取100個(gè)典型的像素點(diǎn),提取其顏色特征和紋理特征,一起組成正例樣本,同樣的在圖像中被劃分為間質(zhì)區(qū)域里選取100個(gè)典型的像素點(diǎn),也提取其顏色特征與紋理特征,一起組成負(fù)例樣本,將正例樣本和負(fù)例樣本組合在一起組成訓(xùn)練樣本,并訓(xùn)練LR、NB和SVM的3個(gè)分類(lèi)器。為評(píng)估分類(lèi)效果,本研究以像素點(diǎn)數(shù)作為定量評(píng)估標(biāo)準(zhǔn),將圖像分割成癌巢和間質(zhì)兩個(gè)部分,因此定義真正例(TP)為被正確分割為癌巢區(qū)域的像素點(diǎn)數(shù),假正例(FP)為被錯(cuò)誤分割為癌巢區(qū)域的像素點(diǎn)數(shù),真負(fù)例(TN)為正確分割為間質(zhì)區(qū)域的像素點(diǎn)數(shù),假負(fù)例(FN)為被錯(cuò)誤分割為間質(zhì)域的像素點(diǎn)數(shù)。結(jié)果顯示SVM分類(lèi)器的查準(zhǔn)率和查全率高于LR和NB分類(lèi)器。
細(xì)胞核分割中,對(duì)HE染色的早期胃癌組織病理圖像進(jìn)行主成分分析,得到含有蘇木精顏色信息的灰度圖像,然后用形態(tài)學(xué)操作進(jìn)行預(yù)處理,去除干擾成分,得到較好的細(xì)胞核輪廓,再運(yùn)用快速?gòu)较驅(qū)ΨQ(chēng)變換提取種子點(diǎn),將種子點(diǎn)標(biāo)記在原圖中,在進(jìn)行后景標(biāo)記后運(yùn)用分水嶺變換完成預(yù)分割,將預(yù)分割得到的輪廓線(xiàn)作為主動(dòng)輪廓模型的初始輪廓,進(jìn)行曲線(xiàn)演化得到最終輪廓。
組織病理學(xué)上根據(jù)浸潤(rùn)深度將早期胃癌分為cT1a(M)、cT1b(SM),在圖像組織學(xué)分級(jí)的試驗(yàn)中,先提取圖像相關(guān)特征,如PLF及OLF等,OLF提取包括前面提到的分割的癌巢特征與細(xì)胞核特征,然后使用分類(lèi)模型將圖像分類(lèi)為1和2,分別為cT1a(M)和cT1b(SM)。本研究中,在cT1a(M)患者圖像與cT1b(SM)患者圖像二分類(lèi)時(shí),分類(lèi)器在PLF上準(zhǔn)確率為71.9%,在OLF上準(zhǔn)確率為70.8%,在兩者組合(PLF+OLF)上的準(zhǔn)確率為76.7%,相比于單獨(dú)PLF或OLF,兩者組合的準(zhǔn)確率較高。cT1a(M)被正確分類(lèi)的準(zhǔn)確率為69.7%,cT1b(SM)被正確分類(lèi)的準(zhǔn)確率為82.1%。結(jié)果表明,從圖像分析的角度對(duì)圖像的組織學(xué)分級(jí)可行,而HE染色的早期胃癌組織病理圖像可以直接反映患者的胃癌狀態(tài)。
HE染色的早期胃癌組織病理圖像的組織學(xué)分級(jí)可以在一定程度上代表患者的組織學(xué)分級(jí)。在HE染色早期胃癌組織病理圖像中癌巢分割中,SVM分類(lèi)器的查準(zhǔn)率和查全率較高,同時(shí)其對(duì)圖像組織學(xué)分級(jí)效果較好。