馬滿芳陸惠玲王媛媛吳華鋒季明周濤
摘 要:針對BP神經(jīng)網(wǎng)絡(luò)在輔助診斷建模過程中因輸入特征的多維性而造成模型精度低、建模時間長等問題,提出基于遺傳算法—BP神經(jīng)網(wǎng)絡(luò)的乳腺腫瘤計算機(jī)輔助診斷模型。首先提取乳腺腫瘤感興趣區(qū)域的幾何特征、形狀特征、灰度特征、紋理特征、頻率特征和邊緣特征共79維;其次,用遺傳算法(GA)對提取的特征進(jìn)行約簡,去掉一些冗余特征,選擇最能體現(xiàn)腫瘤良惡性的特征組合17維;最后采用BP神經(jīng)網(wǎng)絡(luò)對17維特征進(jìn)行乳腺腫瘤輔助診斷研究。實驗結(jié)果表明,基于GA-BP的模型在乳腺腫瘤識別中取得了良好效果。
關(guān)鍵詞:遺傳算法;BP神經(jīng)網(wǎng)絡(luò);乳腺腫瘤;計算機(jī)輔助診斷
DOIDOI:10.11907/rjdk.161973
中圖分類號:TP319
文獻(xiàn)標(biāo)識碼:A 文章編號文章編號:16727800(2016)011014404
0 引言
乳腺癌作為全球女性中最為頻發(fā)的惡性腫瘤疾病和癌癥死亡的首要原因,嚴(yán)重危害女性身心健康。近年來,我國乳腺癌的發(fā)病率和死亡率逐年上升,且呈明顯的年輕化趨勢。乳腺癌在初期常無明顯臨床癥狀,或僅表征為輕微的乳房疼痛[1]。迄今為止,乳腺癌發(fā)病的確切原因還未找到,盡管環(huán)境、遺傳因素和生活方式是造成乳腺癌的主要因素,但60%以上的乳腺癌患者身上并不存在這些明顯的危險因素[2]。因此,早發(fā)現(xiàn)、早診斷仍是當(dāng)前提高乳腺癌治愈率和降低死亡率最有效的途徑[3]。
腫瘤作為乳腺癌的直接病理征象和主要診斷依據(jù),大約90%的乳腺癌患者在X影像上有清晰的腫瘤征象。由于X線是一種無創(chuàng)、微輻射的檢查方法,檢查費用低,而且對腫瘤與鈣化比較敏感,因此X線乳腺圖像已經(jīng)成為檢測乳腺癌的黃金標(biāo)準(zhǔn),通過它來檢測乳腺異常是預(yù)防乳腺癌的重要方法之一[4]。隨著醫(yī)學(xué)影像學(xué)和計算機(jī)輔助診斷技術(shù)的發(fā)展,基于X線乳腺圖像的CAD系統(tǒng)得到了廣泛應(yīng)用,但是不同CAD系統(tǒng)的診斷效果也由系統(tǒng)自身決定[5]。2013年,Marc Lobbes比較了兩個CAD系統(tǒng)(Second Look 和 AccuDetect Galileo)的病灶檢測能力,并分析了326份病例,結(jié)果顯示,AccuDetect Galileo在檢測腫瘤與微鈣化(尤其是針對致密性乳腺)時效果更佳[6]。目前,針對X線圖像的乳腺腫瘤輔助診斷算法主要分為圖像增強(qiáng)、腫瘤分割、特征提取和優(yōu)化,以及良惡性腫瘤識別4部分。
近年來,隨著BP神經(jīng)網(wǎng)絡(luò)理論的完善和成熟,在計算機(jī)輔助診斷領(lǐng)域得到了廣泛應(yīng)用。由于BP神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的非線性映射能力,在使用乳腺腫瘤病灶組織圖像時,建立基于神經(jīng)網(wǎng)絡(luò)的乳腺腫瘤輔助診斷方法模型,不僅能夠提高乳腺癌的診斷準(zhǔn)確率,而且可以為臨床醫(yī)生提供幫助。但是BP神經(jīng)網(wǎng)絡(luò)在進(jìn)行輔助診斷建模時,會因其輸入特征的多維性而造成模型精度低、建模時間長等問題。所以,本文提出了基于遺傳算法—BP神經(jīng)網(wǎng)絡(luò)的乳腺腫瘤CAD方法。首先,提取乳腺腫瘤ROI的幾何特征、形狀特征、灰度特征、紋理特征、頻率特征和邊緣特征79維;然后用遺傳算法(GA)對提取的特征進(jìn)行約簡,去除冗余特征后選擇最能體現(xiàn)腫瘤良惡性的特征組合17維;最后基于GA-BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行乳腺腫瘤良惡性分類,探討GA-BP模型在乳腺腫瘤分類識別中的性能。
1 基礎(chǔ)知識
1.1 遺傳算法
遺傳算法(Genetic Algorithm,GA)是模擬達(dá)爾文生物進(jìn)化論的自然淘汰與遺傳選擇生物進(jìn)化過程的一種計算模型。其核心思想源于適者生存的自然選擇規(guī)律,具有“生存+檢測”的迭代過程。它將所要解決的問題解空間映射到遺傳空間,再對解空間進(jìn)行編碼。一般用一串“1、0”數(shù)字串表示每個可能的解,并將該解稱為一個染色體,解的每一個分量稱為一個基因。在算法開始時,先隨機(jī)選擇一群染色體作為候選解,用預(yù)先設(shè)定好的評價指標(biāo)計算每個染色體的適應(yīng)值,并淘汰適應(yīng)度較低的染色體,保留適應(yīng)度高的優(yōu)良染色體,然后對這些染色體進(jìn)行選擇復(fù)制、交叉和變異等操作,如此進(jìn)行一代一代的“進(jìn)化”,直到找到算法的最優(yōu)解。
遺傳算法相對于一些傳統(tǒng)的優(yōu)化算法,優(yōu)點表現(xiàn)在:①遺傳算法在搜索過程中不易陷入局部最優(yōu),能以很大概率找到整體最優(yōu)解,具有良好的適應(yīng)性與魯棒性,是一種經(jīng)典的全局最優(yōu)化算法;②遺傳算法具有隱含并行性,運算效率高,適用于大規(guī)模的并行計算機(jī)。然而,遺傳算法的缺點表現(xiàn)在易早熟、局部收斂性差等。
1.2 BP神經(jīng)網(wǎng)絡(luò)
BP網(wǎng)絡(luò)[7]的拓?fù)浣Y(jié)構(gòu)由輸入層、隱含層和輸出層組成。圖1為一個典型的三層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖,層與層之間采用全連接方式,同一層之間不存在相互連接,隱含層包括一層或多層。
2 本文算法
本文首先對乳腺腫瘤圖像進(jìn)行分割,提取ROI區(qū)域,其次提取幾何特征、形狀特征、灰度特征、紋理特征、頻率特征和邊緣特征共79維,然后采用遺傳算法進(jìn)行特征選擇,選擇17維特征用于BP神經(jīng)網(wǎng)絡(luò)的計算機(jī)輔助診斷,從而識別乳腺腫瘤的良惡性,最后基于GA-BP神經(jīng)網(wǎng)絡(luò)的輔助診斷模型為臨床提供參考意見。
2.1 基于遺傳算法的特征選擇
基于BP神經(jīng)網(wǎng)絡(luò)的遺傳算法優(yōu)化輔助診斷,是使用遺傳算法選擇BP神經(jīng)網(wǎng)絡(luò)的最佳輸入特征,優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)能夠更好地識別乳腺腫瘤的良惡性并減少建模時間,以提高輔助診斷效果。利用遺傳算法選擇特征,必須經(jīng)過輸入變量編碼、初始種群產(chǎn)生、適應(yīng)度計算、交叉變異選擇、優(yōu)化結(jié)果輸出等過程[8]。本文GA優(yōu)化變量的主要步驟如下:(1)輸入變量編碼。本文首次提取的特征有79維,經(jīng)GA選擇17維特征作為BP神經(jīng)網(wǎng)絡(luò)的輸入,即輸入變量為17個,個體的每個基因只能取“1”和“0”兩種情況,1表示輸入變量參與建模,0表示輸入變量不參與建模。(2)初始種群產(chǎn)生。隨機(jī)產(chǎn)生20個初始個體組合作為一個種群,遺傳算法以這20個個體作為初始點進(jìn)行迭代。(3)適應(yīng)度計算。本文選取測試集數(shù)據(jù)誤差平方和的倒數(shù)作為適應(yīng)度函數(shù),對每個個體進(jìn)行訓(xùn)練和預(yù)測,如式(1)所示。
式(1)中,T′={t′1,t′2,…,t′n}為測試集的預(yù)測集,T={t1,t2,…,tn}為測試集的期望集,n為測試集的樣本數(shù)目。(4)選擇交叉變異。選擇操作使用比例選擇算子,計算出所有個體的適應(yīng)度和各個個體的相對適應(yīng)度,作為該個體被選中并遺傳到下一代的概率。變異操作一般采用單點變異算子,隨機(jī)產(chǎn)生一個變異點,改變其基因上的基因值,經(jīng)過一輪選擇交叉變異,又可以產(chǎn)生新的適應(yīng)度更高的種群。(5)優(yōu)化結(jié)果輸出。經(jīng)過一代代的迭代優(yōu)化,當(dāng)滿足迭代終止條件時,輸出的末代種群對應(yīng)的便是問題最優(yōu)解,即經(jīng)過選擇后的特征。
2.2 BP神經(jīng)網(wǎng)絡(luò)模型建立
2.2.1 模型拓?fù)浣Y(jié)構(gòu)設(shè)置
BP神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)由輸入層、隱含層和輸出層3部分組成,本文將特征數(shù)據(jù)作為網(wǎng)絡(luò)輸入,乳腺腫瘤的良惡性類別作為神經(jīng)網(wǎng)絡(luò)輸出,從而構(gòu)建基于BP神經(jīng)網(wǎng)絡(luò)的乳腺腫瘤輔助診斷模型。
(1)隱含層層數(shù):本文考慮到基于BP神經(jīng)網(wǎng)絡(luò)的乳腺腫瘤輔助診斷模型的輸入和輸出規(guī)模較小,選用一層隱含層。
(2)隱含層節(jié)點個數(shù):本文采用初始隱含層節(jié)點范圍公式計算隱含層數(shù)目。其中,s表示隱含層節(jié)點數(shù)目,m表示輸入層節(jié)點數(shù)目,n表示輸出層節(jié)點數(shù)目,a是1~10之間的整數(shù)。本文設(shè)定隱含層數(shù)目為10。
2.2.2 模型重要參數(shù)設(shè)置
要建立一個BP網(wǎng)絡(luò),除了對隱含層層數(shù)和節(jié)點個數(shù)的設(shè)置,還需要對BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練函數(shù)、節(jié)點傳遞函數(shù)、誤差界值、學(xué)習(xí)率等參數(shù)進(jìn)行初步設(shè)置。本文選擇系統(tǒng)默認(rèn)的Levenberg-Marquardt優(yōu)化算法作為BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練函數(shù)[9];初步設(shè)置BP神經(jīng)網(wǎng)絡(luò)默認(rèn)的節(jié)點傳遞函數(shù)tansig為隱含層節(jié)點傳遞函數(shù);網(wǎng)絡(luò)需要輸出的值是線性具體值,所以網(wǎng)絡(luò)輸出層的節(jié)點傳遞函數(shù)初步選擇purelin;誤差界值設(shè)置為0.01,既足以滿足網(wǎng)絡(luò)的精度要求,又可以保證網(wǎng)絡(luò)收斂速度;學(xué)習(xí)率初步設(shè)置為0.1,既能避免學(xué)習(xí)率過大造成的網(wǎng)絡(luò)不收斂,又避免學(xué)習(xí)率過小造成的時間復(fù)雜度高。具體設(shè)置如表1所示。
3 算法仿真實驗
實驗數(shù)據(jù):本研究中的乳腺腫瘤病例樣本數(shù)據(jù)來自于DDSM機(jī)器學(xué)習(xí)數(shù)據(jù)庫。選取555例乳腺瘤數(shù)據(jù)樣本作為實驗數(shù)據(jù),其中包括344例良性乳腺腫瘤數(shù)據(jù),211例惡性乳腺腫瘤數(shù)據(jù)。
實驗環(huán)境如下:操作平臺為Windows7操作系統(tǒng),仿真平臺為MATLAB 2012圖像處理軟件,硬件環(huán)境為4G內(nèi)存、750G硬盤、i5-3230M處理器。
3.1 圖像分割
首先從555例實驗圖像中提取ROI,圖3為5例良性乳腺腫瘤圖像與5例惡性乳腺腫瘤圖像以及經(jīng)過圖像分割處理后的ROI。
3.2 特征提取
針對3.1節(jié)分割后的555個ROI進(jìn)行特征提取,提取到的特征有79維,基于不變矩的形狀特征為:R1、R2、R3、R4、R5、R6、R7;基于圖像內(nèi)容的幾何特征為:周長、面積、圓形度、矩形度、伸長度、緊致度、歐拉數(shù);基于灰度直方圖的灰度特征為:平均灰度、一致性(標(biāo)準(zhǔn)差)、灰度波動、傾斜度、峰度、梯度能量;基于灰度共生矩陣的紋理特征為:能量、熵、慣性矩、相關(guān)性、逆差距、方差、和的均值、和熵、差熵、和的方差、差分方差、相關(guān)信息度量(f12,f13)、最大相關(guān)系數(shù);頻率特征為空間頻率;邊緣特征為:邊緣銳度、邊緣平均梯度,具體特征見表2。
3.3 基于遺傳算法的特征選擇實驗
實驗數(shù)據(jù)使用在3.2節(jié)實驗中所得的555幅圖像的79維特征數(shù)據(jù)。按照遺傳算法特征選擇的步驟進(jìn)行仿真,隨著進(jìn)化代數(shù)不斷增加,群體適應(yīng)度越來越高,也即預(yù)測值與期望值之間的誤差越來越小,群體整體表現(xiàn)越來越好。當(dāng)?shù)螖?shù)達(dá)到設(shè)定的最大迭代次數(shù)時,終止進(jìn)化,并輸出該種群中適應(yīng)度最好的個體對應(yīng)輸入變量的基因編號。它們分別是:1,4,8,9,10,12,14,15,17,18,19,22,23,24,25,26,28,即選擇后輸入特征是:基于不變矩的1階、4階等2個矩特征;基于灰度直方圖的平均灰度、一致性、灰度波動、峰度等4個灰度特征;基于圖像內(nèi)容的周長、面積、矩形度、伸長度、緊致度等5個灰度特征;邊緣銳度、邊緣平均梯度等2個邊緣特征;基于灰度共生矩陣(0°方向)的能量、熵、慣性矩、逆差距4個紋理特征,共17維特征,具體見表3。即經(jīng)過遺傳算法的選擇,確定該17維特征參與下一步的輔助診斷仿真。
3.4 基于BP的乳腺腫瘤輔助診斷實驗
實驗數(shù)據(jù)使用在3.3節(jié)實驗中所得的555例圖像的17維特征數(shù)據(jù)。BP神經(jīng)網(wǎng)絡(luò)的輸入是17維特征數(shù)據(jù),期望輸出是良性乳腺瘤和惡性乳腺瘤兩個類別,通過仿真實驗來檢驗只含有選擇后的特征輸入的BP網(wǎng)絡(luò)性能。網(wǎng)絡(luò)的期望輸出值只能取1或2作為己標(biāo)記的良惡性乳腺腫瘤分類。網(wǎng)絡(luò)的預(yù)測輸出值大于0.5且小于等于1.5,則視為良性乳腺瘤;如果該值大于1.5且小于等于2.5,則視為惡性乳腺瘤。
將555份樣本數(shù)據(jù)隨機(jī)排序并編號后,采用5-折交叉法將其分為5組,其中1~111號為第1組、112~222號為第2組、223~333號為第3組、334~444號為第4組、445~555號為第5組。每次實驗使用的訓(xùn)練樣本數(shù)據(jù)和測試樣本數(shù)據(jù)如表4所示。5次仿真實驗的結(jié)果迭代次數(shù)、建模時間和識別率如表5所示。
由表5可知,本文模型的平均迭代次數(shù)為8.6次,乳腺腫瘤輔助診斷準(zhǔn)確率的平均值為96.756 76%,并且每次仿真的迭代次數(shù)和準(zhǔn)確率非常接近。在仿真過程中發(fā)現(xiàn),建模時間基本在2s左右,建模速度較快??傊?,在進(jìn)行輔助診斷時,輸入特征的維數(shù)應(yīng)根據(jù)需要篩選核特征,去除無關(guān)冗余信息,不僅能提高網(wǎng)絡(luò)性能,也會降低時間復(fù)雜度。
在第5次仿真實驗中,良性腫瘤64例,惡性腫瘤47例,訓(xùn)練樣本共111例。其中良性腫瘤確診63例,誤診1例,良性腫瘤檢測率為98.44%;惡性腫瘤確診45例,誤診2例,惡性腫瘤檢測率為95.74%??倷z測樣本111例,確診108例,誤診3例,檢測準(zhǔn)確率為97.30%。仿真實驗預(yù)測結(jié)果如圖4~圖6所示。圖4為預(yù)測結(jié)果圖,圖5為線性回歸曲線圖,圖6為均方誤差收斂圖。
4 結(jié)語
本文在BP神經(jīng)網(wǎng)絡(luò)與乳腺腫瘤輔助診斷方法的基礎(chǔ)上,利用遺傳算法對BP神經(jīng)網(wǎng)絡(luò)所需的特征進(jìn)行選擇,優(yōu)化了BP神經(jīng)網(wǎng)絡(luò)輔助診斷模型,從而提高了模型整體性能。首先使用遺傳算法對BP神經(jīng)網(wǎng)絡(luò)的輸入特征進(jìn)行提取,然后選擇17維有效特征用于BP神經(jīng)網(wǎng)絡(luò)模型建模。仿真實驗結(jié)果表明,基于GA特征選擇的BP神經(jīng)網(wǎng)絡(luò)模型對乳腺瘤的診斷準(zhǔn)確率達(dá)到96.76%,在減少輸入特征的情況下,建模時間更少,識別率更高。因此,基于遺傳算法—BP神經(jīng)網(wǎng)絡(luò)的乳腺腫瘤輔助診斷模型取得了良好的診斷效果。
參考文獻(xiàn):
[1] 胡永升.現(xiàn)代乳腺影像診斷學(xué)[M].北京:科學(xué)出版社,2001.
[2] 劉君,方志沂.乳腺癌的早期診斷[J].中國全科醫(yī)學(xué),2002,5(6):431432.
[3] 郝欣,曹穎,夏順仁.基于醫(yī)學(xué)圖像內(nèi)容檢索的計算機(jī)輔助乳腺x線影像診斷技術(shù)[J].中國生物醫(yī)學(xué)工程學(xué)報,2009,28(6):922930.
[4] AFSANEH JALALIAN,SYAMSIAH B T MASHOHOR, HAJJAH ROZI MAHMUD,et al.Computeraided detection/diagnosis of breast cancer in mammography and ultrasound:a review[J].Clinical Imaging,2013,37(3):420426.
[5] C DROMAIN,B BOYER,R FERRE,et al.Computedaided diagnosis (CAD) in the detection of breast cancer[J].European Journal of Radiology,2013,82(3):417423.
[6] MARC LOBBES,MARJOLEIN SMIDT,KRISTIEN KEYMEULEN,et al.Malignant lesions on mammography:accuracy of two different computeraided detection systems[J].Clinical Imaging,2013,37(2):283288.
[7] XIA C,YANG Z,LEI B,et al.SCG and LM improved BP neural network loadforecasting and programming network parameter settings and data preprocessing[C].2012 International Conference on Computer Science & Service System (CSSS),IEEE,2012:3842.
[8] 高雋.人工神經(jīng)網(wǎng)絡(luò)原理及仿真實例[M].北京:機(jī)械工業(yè)出版社,2007.
[9] 王徽蓉,李衛(wèi)軍,劉揚陽,等.基于遺傳算法與線性鑒別的近紅外光譜玉米品種鑒別研究[J].光譜學(xué)與光譜分析,2011,31(3):669672.
(責(zé)任編輯:黃 ?。?