董艷莉, 朱一峰(.朝陽市衛(wèi)生學(xué)校實驗中心護(hù)理組,遼寧 朝陽 000;.朝陽師范高等??茖W(xué)校教務(wù)處,遼寧 朝陽 000)
乳腺腫瘤分類優(yōu)化算法研究①
董艷莉1, 朱一峰2
(1.朝陽市衛(wèi)生學(xué)校實驗中心護(hù)理組,遼寧 朝陽 122000;2.朝陽師范高等??茖W(xué)校教務(wù)處,遼寧 朝陽 122000)
設(shè)計實現(xiàn)了乳腺腫瘤分類的優(yōu)化算法.(1)根據(jù)乳腺腫瘤灰度分布情況,設(shè)計實現(xiàn)了基于灰度共生矩陣的BP分類算法;(2)針對圖像分類信息較大等特點,設(shè)計實現(xiàn)了基于主成分分析(PCA)的支持向量機(jī)(SVM)分類算法;(3)由于乳腺腫瘤種類繁多,在提取主成分特征的基礎(chǔ)上,利用歐式距離分類方法對乳腺腫瘤做進(jìn)一步細(xì)致分類.
乳腺腫瘤;圖像分割;特征提??;分類
乳腺癌是女性最常見的惡性腫瘤之一,早期檢測是預(yù)防乳腺癌的關(guān)鍵.而計算機(jī)輔助診斷隨著醫(yī)學(xué)影像數(shù)字化的發(fā)展逐步得到完善.乳腺腫瘤的特征一般可分為形態(tài)特征和紋理特征兩類.形態(tài)特征主要考察腫瘤的形狀、邊界光滑度等,對良性腫瘤具有較好的檢查率.紋理特征則反映了腫瘤區(qū)域與鄰近組織的關(guān)系等,對惡性腫瘤難獲得準(zhǔn)確邊界的特點十分有效.考慮到形態(tài)特征雖然直觀、受噪聲影響相對較小,但在識別惡性腫瘤時存在困難等特點,本文選擇主成分特征和灰度共生矩陣為特征參數(shù),設(shè)計基于支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò)的乳腺腫瘤分類器,實驗結(jié)果表明該方法可得到有效的乳腺腫瘤分類效果.
1988年,David Rumelhart,Geoffrey Hinton和RonaldWilliams提出了用于前向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的BP算法[1],解決了多層網(wǎng)絡(luò)的學(xué)習(xí)問題,促進(jìn)了神經(jīng)網(wǎng)絡(luò)的發(fā)展.
1.1實驗設(shè)計
乳腺腫瘤形態(tài)各異,有的腫瘤邊緣模糊,有的伴有長短不一的毛刺向外放射,這種形態(tài)特征對腫瘤邊界的提取代來巨大困難,從而影響腫瘤的分類識別[2].圖1給出了十例乳腺腫瘤影像圖,其中各圖分別為:(1)長毛刺單純癌(3)長毛刺實性癌(4)絨毛狀毛刺腫塊(5)神經(jīng)纖維瘤(10)圓形囊腫,其他圖像均為纖維瘤.本文實驗以圖1為例根據(jù)灰度共生矩陣對圖像像素分布的敏感性,從中提取共生矩陣特征作為BP分類器輸入?yún)?shù)進(jìn)行識別.流程如圖2所示.
圖1 X線影像中腫瘤原始圖像
在不設(shè)定灰度共生矩陣計算方向時求取的特征參數(shù)為水平方向值,為了防止圖像方位變化對分類效果的影響,特征值的選取可以在0°方向、45°方向、90°方向(垂直方向)和135°方向進(jìn)行,在求取樣例的灰度共生矩陣并計算特征參數(shù)后,將其作為BP分類器的輸入?yún)?shù)進(jìn)行識別.
分類器設(shè)計:以輸入向量維數(shù)為輸入層神經(jīng)元個數(shù),隱含層神經(jīng)元數(shù)目的選取本文采用第二種選擇方法進(jìn)行確定.實驗是對乳腺腫瘤的良惡性進(jìn)行識別,結(jié)果中1為惡性腫瘤,0為良性腫瘤,所以輸出神經(jīng)元選用一個節(jié)點可以滿足要求.本實驗在共生矩陣基礎(chǔ)上求取對比度、相關(guān)性、能量、均勻度和熵五個特征作為BP分類器的輸入?yún)?shù),當(dāng)取水平方向參數(shù)時,分類器輸入層、隱含層和輸出層神經(jīng)元數(shù)目分別為[5,3,1];當(dāng)取四個方向19個特征參數(shù)作為分類器輸入?yún)?shù)時,分類器各層神經(jīng)元數(shù)目為[19,5,1].實驗步驟將在下節(jié)具體描述.
圖2 基于紋理的分類算法流程圖
1.2實驗結(jié)果分析
由于共生矩陣的紋理特征有明確的意義,并且容易計算,則在圖像處理和分析過程中常被作為基本的特征[3].紋理特征可以很好的反映腫瘤區(qū)域與鄰近組織的關(guān)系,對惡性腫瘤難獲得準(zhǔn)確邊界的特點十分有效.本文充分考慮良惡性腫瘤的特點,以圖1為例對基于灰度共生矩陣的BP分類算法進(jìn)行分析.由于良惡性腫瘤及其周邊組織在X線影像中差異較小,需要綜合多個紋理特征才能滿足較好分類效果.本實驗以對比度、相關(guān)性、能量、均勻度和熵五個特征作為灰度共生矩陣參數(shù),如圖3所示,橫坐標(biāo)為10幅樣例圖標(biāo)號,縱坐標(biāo)表示五個特征值的大小.
將圖3所示灰度共生矩陣參數(shù)值進(jìn)行歸一化處理后,根據(jù)上節(jié)所述方法確定BP分類器.訓(xùn)練結(jié)果如圖4(a)所示.由于分類結(jié)果受參數(shù)數(shù)量和準(zhǔn)確度的影響,為了提高識別率,將上述實驗中一個方向的5個特征值進(jìn)行擴(kuò)充,分別在0°, 45°,90°和135°四個方向選擇特征值,然后對各組值求取均值和方差,得到每幅圖像的19個特征值.分類器輸入層神經(jīng)元格式調(diào)整為19個,隱含層調(diào)整為5個,結(jié)果如圖4(b)所示[4].
由圖4可以看出,針對同一組數(shù)據(jù),在相同的訓(xùn)練次數(shù)下,誤差率跟參數(shù)選取數(shù)量成反比.為了進(jìn)一步分析共生矩陣參數(shù)對分類器的影響,將兩次實驗結(jié)果進(jìn)行一下對比,如圖5所示.其中紅色為五個特征的分類結(jié)果,藍(lán)色為19個特征的分類結(jié)果,橫坐標(biāo)為樣例圖序號,縱坐標(biāo)1為惡性腫瘤標(biāo)識,0為良性腫瘤標(biāo)識,誤差棒長度為仿真值與原值之差,從誤差棒的偏離程度可以明顯看出后者準(zhǔn)確率大大提高.由此可知,一幅圖像中各個方向的紋理特征對整幅圖像的確定都起著一定的貢獻(xiàn)作用.
SVM是基于統(tǒng)計學(xué)理論的學(xué)習(xí)方法[4],它通過構(gòu)造最優(yōu)超平面,使得對未知樣本的分類具有最優(yōu)的推廣能力.
PCA(主成分分析)是模式識別中最為有效的一種特征提取方法[5].其目的是用較少數(shù)量的特征對采集樣本進(jìn)行描述,并降低特征空間的維數(shù),同時還能保留所需要的識別信息.
SVM(結(jié)合支持向量機(jī))在處理小樣本、高維數(shù)及泛化性能方面的優(yōu)勢,本文設(shè)計了一種計算機(jī)輔助識別乳腺良惡性腫瘤的新方法.首先對預(yù)處理后的ROI圖像利用主成分分析(PCA)方法進(jìn)行降維并提取特征,再將采集到的特征集利用SVM分類器識別,實驗結(jié)果表明該方法比BP神經(jīng)網(wǎng)絡(luò)分類器有較高的識別率,是一種有效的腫瘤病變識別方法.
2.1乳腺病變特征提取及其分類
PCA在模式識別領(lǐng)域(尤其是人臉識別)應(yīng)用廣泛,本文結(jié)合腫瘤病變區(qū)域不易分割的特點,將PCA應(yīng)用在乳腺病變性質(zhì)的識別上,利用ROI圖像的主向量建立識別模型,減少人為操作圖像的干擾因素,提高識別準(zhǔn)確性.
根據(jù)PCA方法得到的特征參數(shù)創(chuàng)建訓(xùn)練數(shù)據(jù)特征庫,作為SVM分類器的輸入?yún)?shù)進(jìn)行識別.首先對樣本特征數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),目的是找到分類超平面的優(yōu)化參數(shù).然后選擇輸入向量映射核的類型,并計算核函數(shù)K(x,y).根據(jù)測試結(jié)果對所選擇的核和懲罰因子進(jìn)行調(diào)整,將最優(yōu)結(jié)果存入學(xué)習(xí)模型數(shù)據(jù)庫,供預(yù)測數(shù)據(jù)識別使用.
2.2實驗結(jié)果分析
本文將120例病變樣本隨機(jī)分為兩個相互獨立的集合,分別作為訓(xùn)練集和測試集,其中良性腫瘤76例,惡性腫瘤44例.通過PCA方法提取訓(xùn)練集特征,利用BP神經(jīng)網(wǎng)和SVM分別作為分類器,測試數(shù)據(jù)交替組合三次,實驗結(jié)果如表1所示.
圖3 10幅樣例圖的特征值
圖4 特征值的BP分類訓(xùn)練結(jié)果
表1 BP分類器與SVM分類器性能比較
表1中FN(False Negative)表示假陰性,F(xiàn)P (False Positive)表示假陽性[6];準(zhǔn)確率 =(TP+ TN)/(TP+TN+FP+FN),其中TP和TN分別表示惡性和良性被正確分類的數(shù)目;敏感性 = TP/(TP+FN);特異性 =TN/(TN+FP).
由表1可見,SVM分類器的識別率(96.12%)較BP神經(jīng)網(wǎng)絡(luò)分類器識別率(93.33%)高,在敏感性和特異性上也表現(xiàn)出較大的優(yōu)勢.BP神經(jīng)網(wǎng)絡(luò)和SVM均屬于非線性分類器,但分類的基本原理有明顯的區(qū)別.BP網(wǎng)是運用了反向誤差算法的多層前向感知器,而SVM是基于結(jié)構(gòu)風(fēng)險最小化原則,由核空間理論得知,可通過非線性映射把輸入向量映射到一個高維特征空間,通過構(gòu)造最優(yōu)超平面將未知樣本進(jìn)行分類.兩個分類器在算法上都采用了迭代運算,這就意味著以較高的準(zhǔn)確率來犧牲時間代價,但時間仍在可接受的范圍內(nèi),而且SVM較BP分類器耗時少一些.
醫(yī)學(xué)影像圖像中,由于人體自身的差異和病變種類的復(fù)雜性等原因,使得病變區(qū)域識別難度增大.在乳腺病變檢測中惡性腫瘤的分割是研究的難點,為此,本文選擇PCA作為獲取特征參數(shù)的主要方法,然后分別以BP神經(jīng)網(wǎng)絡(luò)和SVM作為分類器進(jìn)行識別.
下面取10例72×60樣本(以圖1為例)對BP神經(jīng)網(wǎng)絡(luò)分類器和SVM分類器中的參數(shù)設(shè)置做進(jìn)一步說明.表2中列出了BP神經(jīng)網(wǎng)絡(luò)和SVM分類器的訓(xùn)練參數(shù).在SVM分類器的訓(xùn)練過程中,當(dāng)懲罰因子調(diào)節(jié)到40時,迭代次數(shù)27次,識別率達(dá)到100%.其中良性腫瘤支持向量數(shù)為7,惡性腫瘤支持向量數(shù)為3.隨著訓(xùn)練樣本數(shù)量的增加,SVM分類器的優(yōu)勢將進(jìn)一步顯現(xiàn).
表2 分類器功能參數(shù)比較
圖5 訓(xùn)練誤差比較圖
本文采用圖像處理中常用的距離法對病變的種類進(jìn)行細(xì)化.具體分類流程如圖7所示.
針對測試樣本,選擇相應(yīng)的PCA特征模板(即,根據(jù)樣本集求取的PCA特征空間),計算測試樣本的PCA向量,映射到特征空間,利用歐式距離法求取最接近的樣本類別.
本實驗以炎性疾患、囊性乳腺病、囊腫3種類型為例,分別取每種類型樣本20例(由于同種類型的疾病在不同病例中的形態(tài)特征有所差別,通過增加同種疾病測試樣本的數(shù)量來擴(kuò)大識別范圍,提高準(zhǔn)確率)共60幅(20×3)創(chuàng)建數(shù)據(jù)庫.選擇3種類型中前10例(10×3)樣本作為訓(xùn)練集,后10例(10×3)樣本作為測試集.對訓(xùn)練樣本求取主成分,構(gòu)成特征模板,然后將測試樣本通過主成分計算擴(kuò)張到樣本模板特征空間上,最后用歐式距離法求取最小距離,計算準(zhǔn)確率.由于主成分分析法是求取了圖像中貢獻(xiàn)大的特征向量進(jìn)行分析,忽略對整幅圖像作用較小的因素,從而在不影響識別效果的同時,大大提高了識別速度.與原始圖像直接進(jìn)行距離分類相比,準(zhǔn)確率得到改善,結(jié)果如表3所示.
圖6 乳腺病變細(xì)致分類流程圖
表3 原始數(shù)據(jù)與PCA特征識別結(jié)果對比
由表3可以看出,特征提取后的圖像去掉了冗余信息,使識別率得到較大提高,但是識別效果不是特別理想,分析原因如下:
(1)樣本庫的建立需要進(jìn)一步標(biāo)準(zhǔn)化.由于乳腺腫瘤種類繁多,要想準(zhǔn)確識別特征需要在專業(yè)醫(yī)生的指導(dǎo)下搜集典型案例,建立包含詳細(xì)信息量的圖片樣本庫.
(2)PCA方法可以較好的保留圖像的特征信息,弱化冗余信息,但在復(fù)雜環(huán)境下尚有不足. Scholkopf等人提出了KPCA(核主分量分析),它不僅能夠抽取非線性特征,而且具有更優(yōu)的識別結(jié)果.在PCA基礎(chǔ)上的獨立成分分析方法等都在應(yīng)用領(lǐng)域有不同程度的改進(jìn).因此,在乳腺腫瘤細(xì)致分類方面,需要根據(jù)具體病變的特點選擇更優(yōu)特征方法,在提高識別率方面還有很大空間.
(3)SVM分類器不僅可以作為兩類分類器,它還有很強(qiáng)的多分類能力,所以,可以嘗試將SVM的多分類功能應(yīng)用在病例細(xì)致分類方面,以提高識別率.
本文主要介紹了幾種適合乳腺腫瘤分類的有效方法.其中基于灰度共生矩陣的紋理特征能夠?qū)D像灰度分布很好的體現(xiàn)出來,克服了惡性腫瘤邊界模糊,放射分布等難以通過幾何特征來提取的特點,實驗取得較好效果.基于PCA特征的SVM分類,首先利用PCA方法對病變區(qū)域進(jìn)行降維并提取圖像主要信息,再將采集到的特征集利用SVM分類器識別,分類效果與BP算法相比識別率較高.由于乳腺腫瘤種類復(fù)雜,在確定良惡性疾病性質(zhì)后,再根據(jù)提取出的PCA特征利用距離法做進(jìn)一步分類,得到更詳細(xì)病變信息.
[1]楊誼.斑點噪聲分布擬合的乳腺超聲病灶分割方法[J].中國體視學(xué)與圖像分析,2014,6(02):35-37.
[2]成鵬飛.Hough變換和區(qū)域分離-合并相結(jié)合的分割算法[J].西安郵電大學(xué)學(xué)報,2013,25(03):150-153.
[3]蘇燕妮.乳腺腫瘤超聲圖像中感興趣區(qū)域的自動檢測[J].中國生物醫(yī)學(xué)工程學(xué)報,2010,18(02):305-307.
[4]曹穎,郝欣.基于自動隨機(jī)游走的乳腺腫塊分割算法[J].浙江大學(xué)學(xué)報(工學(xué)版),2011,20(10):15-18.
[5]林秋蘭.彩色多普勒超聲在乳腺腫瘤診斷中的應(yīng)用價值探討[J].中國醫(yī)學(xué)創(chuàng)新,2012,36(34):102-106.
[6]成楠.48例乳腺癌超聲表現(xiàn)與病理分型相關(guān)性探討[J].中外醫(yī)學(xué)研究,2015,24(14):1325-1327.
Research on the Optimal Algorithms of Breast Tumour Classification
DONG Yan-li1, ZHU Yi-feng2
(1.Nursing Group of Experimental Center,Chaoyang Health School,Chaoyang 122000,China;2.Dean's Office,Chaoyang Teachers College,Chaoyang 122000,China)
The optimal algorithms of breast tumor classification was presented as follows.(1)According to the gray distribution of breast tumor imaging,a BP neural network classification method was designed.(2)According to the characteristic of image information,an SVM classification method based on PCA was introduced. (3)For multiformity of breast tumor,an Euclidean distance classifier was used to do a further classification in the PCA feature space.
breast tumor;image segmentation;feature extraction;classification
TP391.41;R737.9
A
1008-1402(2015)06-0929-05
2015-10-30
董艷莉(1985-),女,遼寧朝陽人,講師,從事護(hù)理及臨床教學(xué)研究.通訊作者:朱一峰(1983-),男,遼寧朝陽人,講師,碩士,從事計算機(jī)教學(xué)研究.