趙 爽,馬志慶*,趙文華,趙曉辰
(1.山東中醫(yī)藥大學(xué)理工學(xué)院,濟(jì)南 250355;2.聯(lián)勤保障部隊(duì)第960醫(yī)院,濟(jì)南 250031)
癌癥是世界范圍內(nèi)致死率最高的疾病之一,其中乳腺癌是女性發(fā)病率最高的惡性腫瘤之一,且其發(fā)病率呈逐年上升和年輕化的趨勢(shì)[1]。早期乳腺癌可望永久性治愈,因此乳腺癌的早期發(fā)現(xiàn)并治療能有效提高患者的存活率。目前,臨床診斷中基于人工的病理圖像分類費(fèi)力、耗時(shí),且診斷結(jié)果易受到主觀人為因素的影響,借助計(jì)算機(jī)輔助診斷對(duì)病理圖像自動(dòng)進(jìn)行良、惡性分類,可為醫(yī)生提供更加客觀、準(zhǔn)確的診斷結(jié)果。相比X-ray、鉬靶、MRI等圖像,病理圖像是醫(yī)生最后確診乳腺癌的重要標(biāo)準(zhǔn),對(duì)病理圖像進(jìn)行準(zhǔn)確的診斷是醫(yī)生制訂最佳治療方案的重要依據(jù)。
Spanhol等[2]建立并公開了乳腺腫瘤病理圖像數(shù)據(jù)集BreaKHis,然后利用BreaKHis提取了局部二值模式(local binary patterns,LBP)[3]、灰度共生矩陣(gray-level co-occurrence matrix,GLCM)[4]等不同特征并利用隨機(jī)森林(randomforest,RF)[5]、支持向量機(jī)(support vector machine,SVM)[6]等不同的分類器進(jìn)行分類,準(zhǔn)確度達(dá)到80%~85%。王爽[7]主要對(duì)宮頸病理圖像提取了形態(tài)特征,利用BP(back propagation)神經(jīng)網(wǎng)絡(luò)[8]進(jìn)行分類,在測(cè)試集上準(zhǔn)確率最高達(dá)86.2%。陳海蛟[9]從肝癌病理圖像中提取了紋理特征,利用極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)[10]進(jìn)行正常、高中低分化分類,在測(cè)試集上準(zhǔn)確率平均達(dá)到85.80%。
上述研究中提取了病理圖像的紋理、形狀等特征,但良惡性腫瘤細(xì)胞結(jié)構(gòu)差異性大,尤其是細(xì)胞核,所以病理圖像中染色分布也有差異,而顏色特征對(duì)于乳腺腫瘤的良惡性分類非常重要。因此本研究提取乳腺腫瘤病理圖像的顏色自相關(guān)圖,利用k最近鄰(k-nearest neighbor,k-NN)分類器構(gòu)建乳腺腫瘤良惡性分類模型,對(duì)乳腺腫瘤良惡性進(jìn)行分類。
本研究采用公開數(shù)據(jù)集BreaKHis。BreaKHis由采用不同顯微鏡放大倍率(40×、100×、200×和 400×)采集的82個(gè)患者的7 909幅乳腺腫瘤組織病理圖像組成,包含2480幅良性腫瘤圖像和5429幅惡性腫瘤圖像(700×460像素,RGB三通道,每個(gè)通道8位深度,PNG格式)[2]。該數(shù)據(jù)集是Spanhol等與巴西的P&D實(shí)驗(yàn)室合作建立的。
從乳房組織活檢切片中提取樣本,用蘇木精和伊紅染色。整個(gè)制備過程包括取材、固定、修整、脫水、透明、浸蠟、包埋、切片、染色等步驟。切片厚度為3 μm,染色后用蓋玻片封片。病理學(xué)家通過在顯微鏡下對(duì)組織切片的視覺分析來識(shí)別每個(gè)載玻片上的腫瘤區(qū)域,每個(gè)病例的最終診斷均由經(jīng)驗(yàn)豐富的病理學(xué)家提供,并通過免疫組織化學(xué)分析等輔助檢查進(jìn)行確認(rèn)。最后使用數(shù)碼彩色相機(jī)從乳房組織切片獲得數(shù)字化圖像。去除不需要的區(qū)域,最終被剪切并保存為700×460像素,且圖像是無顏色、標(biāo)準(zhǔn)化的原始圖像。
本研究選取數(shù)據(jù)集BreaKHis中40×的1 995幅(良性625幅、惡性1 370幅)腫瘤病理圖像為研究對(duì)象。乳腺惡性腫瘤病理切片圖如圖1所示。
圖1 乳腺惡性腫瘤病理切片圖
1.2.1 特征提取
特征提取是進(jìn)行乳腺腫瘤良惡性診斷的關(guān)鍵一步,通過從病理圖像中提取特征來量化腫瘤等重大疾病,可以有效解決腫瘤良惡性難以定量評(píng)估的問題。由于良惡性腫瘤細(xì)胞形態(tài)、結(jié)構(gòu)不同,對(duì)蘇木精和伊紅的吸收程度也不同,染色后的良惡性腫瘤病理圖像顏色也會(huì)有所差異,所以顏色特征對(duì)區(qū)分乳腺腫瘤良惡性尤為重要。因此本文提取圖像顏色自相關(guān)圖64維特征對(duì)乳腺腫瘤進(jìn)行量化。
顏色自相關(guān)圖是借助顏色相關(guān)圖得到的,顏色相關(guān)圖不但反映了某一種顏色的像素?cái)?shù)量占整個(gè)圖像的比例,還體現(xiàn)了不同顏色對(duì)之間的空間相關(guān)性[11]。其定義[12]如下:
假設(shè)I表示n×n的一幅圖像,將圖像I中的顏色量化為m種顏色(C1,C2…,Cm),任意像素點(diǎn)P=(x,y)∈I(x、y為空間坐標(biāo))。
圖像 I的任意 2 個(gè)像素點(diǎn)P1=(x1,y1)和P2=(x2,y2)之間的距離d可由下式表示:
顏色相關(guān)圖的公式表示為
其中,ICi表示顏色為Ci的所有像素,ICj表示顏色為Cj的所有像素;Pr表示求概率運(yùn)算,即顏色為Ci的像素與顏色為Cj的像素之間的距離為k的概率。
由于顏色相關(guān)圖非常復(fù)雜和龐大,若Ci=Cj=Cw(w∈m),則變成了顏色自相關(guān)圖,僅表示具有相同顏色的像素間的空間關(guān)系,空間復(fù)雜度降低很多。其公式表示為
彩色圖像有R、G、B 3個(gè)通道,每個(gè)通道取值通常為0~255,因此一個(gè)像素點(diǎn)的顏色取值有2~24種,在求取顏色相關(guān)圖時(shí)相當(dāng)復(fù)雜。為計(jì)算方便,本實(shí)驗(yàn)將圖像量化為 64 種顏色,采用d=1、3、5、7、9 這5個(gè)距離作為算法中的像素空間距離,提取每一像素空間距離下的64維顏色自相關(guān)特征,最后根據(jù)分類結(jié)果求出最優(yōu)距離。
1.2.2 良惡性診斷模型構(gòu)建
k-NN是一種最基本的、基于實(shí)例的學(xué)習(xí)方法,即學(xué)習(xí)過程只是簡(jiǎn)單地存儲(chǔ)已知的訓(xùn)練數(shù)據(jù),遇到新的查詢實(shí)例時(shí),從訓(xùn)練集中取出相似的實(shí)例,因此它是一種懶惰的學(xué)習(xí)方法[13]。特別是1-NN通常用于特征的分類。本研究的基本思路為:對(duì)于測(cè)試集和訓(xùn)練集,求取每個(gè)測(cè)試樣本與訓(xùn)練樣本之間的距離(本研究選擇歐氏距離),然后選擇距離最近的近鄰,根據(jù)這個(gè)近鄰所屬類別對(duì)測(cè)試樣本進(jìn)行歸類。
本研究將40×的1 995幅乳腺病理圖像隨機(jī)分為訓(xùn)練集(1 395幅)和測(cè)試集(600幅)。采用minmax標(biāo)準(zhǔn)化(min-max normalization)對(duì)訓(xùn)練集和測(cè)試集的特征數(shù)據(jù)進(jìn)行歸一化處理,然后利用1-NN建立分類模型,并在測(cè)試集進(jìn)行驗(yàn)證。分類模型構(gòu)建流程圖如圖2所示。
圖2 分類模型構(gòu)建流程圖
本研究基于乳腺腫瘤病理圖像,提取了圖像的顏色自相關(guān)圖特征,對(duì)特征數(shù)據(jù)進(jìn)行歸一化處理后,利用1-NN構(gòu)建了乳腺腫瘤良惡性分類模型。分類模型的評(píng)判標(biāo)準(zhǔn)有很多,目前應(yīng)用最廣泛的有靈敏度、特異度和準(zhǔn)確度,本研究計(jì)算了模型測(cè)試的靈敏度、特異度和準(zhǔn)確度,并測(cè)試了顏色自相關(guān)圖中不同的像素空間距離d分別對(duì)模型預(yù)測(cè)的性能影響。實(shí)驗(yàn)結(jié)果是通過100次重復(fù)實(shí)驗(yàn)后取均值得到的。分類結(jié)果見表1,結(jié)果以均值±標(biāo)準(zhǔn)差的形式表示。
表1 分類結(jié)果%
在相同數(shù)據(jù)集上分別使用歸一化后的數(shù)據(jù)和原始數(shù)據(jù)進(jìn)行預(yù)測(cè),比較兩者差異,發(fā)現(xiàn)歸一化后數(shù)據(jù)求解速度明顯比未歸一化數(shù)據(jù)快很多。
由表1可知,對(duì)比不同的像素空間距離,發(fā)現(xiàn)像素空間距離為1時(shí)分類精度最高,準(zhǔn)確度平均達(dá)到87.01%,靈敏度平均達(dá)到88.52%,特異度平均達(dá)到85.49%,表明此模型具有一定的可行性。而標(biāo)準(zhǔn)差較小,準(zhǔn)確度大多為85.42%~88.60%,表明此模型具有良好的魯棒性。
為了進(jìn)一步評(píng)估本文提出的方法,在相同的數(shù)據(jù)集下,與Spanhol等[2]提取不同紋理特征并利用不同的分類器分類的結(jié)果進(jìn)行了比較,本文提出的方法準(zhǔn)確度(85.42%~88.60%)明顯高于Spanhol等所提出的方法(準(zhǔn)確度達(dá)到80%~85%),為乳腺腫瘤提供了一種更簡(jiǎn)便、更準(zhǔn)確的診斷方法。
本研究主要針對(duì)乳腺腫瘤良惡性的診斷,也可應(yīng)用于其他部位腫瘤病理圖像的病理分型和良惡性診斷。本研究的局限性在于,僅僅根據(jù)82例患者的乳腺腫瘤案例進(jìn)行訓(xùn)練測(cè)試,并不能代表全部的病例,希望以后可加大樣本量,做出更準(zhǔn)確、全面的診斷結(jié)果。
當(dāng)前乳腺腫瘤良惡性的人工分類費(fèi)力、耗時(shí),且診斷結(jié)果易受到主觀人為因素的影響。因此一些學(xué)者陸續(xù)在計(jì)算機(jī)輔助診斷的基礎(chǔ)上對(duì)乳腺腫瘤進(jìn)行自動(dòng)分類,雖達(dá)到良好的分類結(jié)果,但算法較復(fù)雜。本研究對(duì)乳腺病理圖像提取了顏色自相關(guān)圖64維特征,利用1-NN建立分類模型并進(jìn)行了測(cè)試,結(jié)果發(fā)現(xiàn)顏色自相關(guān)圖中像素空間距離為1時(shí)分類精度最高,準(zhǔn)確度平均達(dá)到87.01%,靈敏度平均達(dá)到88.52%,特異度平均達(dá)到85.49%,表明此模型具有良好的魯棒性和可行性,為乳腺腫瘤提供了一種簡(jiǎn)便、低成本和可重復(fù)的診斷方法。但是實(shí)驗(yàn)只能診斷腫瘤是良性還是惡性,希望以后的工作能夠更詳細(xì)地對(duì)腫瘤的發(fā)生發(fā)展階段做出判斷。