李洪進(jìn)
摘 要:隨著計(jì)算機(jī)信息化和人工智能的發(fā)展迅速,專家自動(dòng)診斷疾病系統(tǒng)成為各界關(guān)注的焦點(diǎn)。卵巢癌是嚴(yán)重威脅婦女健康的惡性腫瘤之一,而且目前無(wú)有效的篩選方法和特異的診斷方法。BP人工神經(jīng)網(wǎng)絡(luò)因其具有分布式信息存儲(chǔ)方式、自適應(yīng)能力、強(qiáng)大的容錯(cuò)性和非線性處理能力,能有效地對(duì)疾病進(jìn)行篩查和診斷。該文采用遺傳算法來優(yōu)化改進(jìn)BP算法得到GA-BP算法,通過遺傳和變異操作對(duì)BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值進(jìn)行優(yōu)化,不斷更新選擇,使得網(wǎng)絡(luò)的系統(tǒng)總誤差趨于最小,構(gòu)建出卵巢癌診斷模型。采用Matlab2013、VC++編程和統(tǒng)計(jì)軟件SPSS.18等工具來實(shí)現(xiàn)專家自動(dòng)診斷的人工智能模型,并通過計(jì)算機(jī)仿真和預(yù)測(cè)進(jìn)行檢驗(yàn)。
關(guān)鍵詞:遺傳算法 BP神經(jīng)網(wǎng)絡(luò) 自動(dòng)診斷 人工智能模型
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2015)01(a)-0005-03
目前,隨著計(jì)算機(jī)信息化和人工智能的迅速發(fā)展,人們生活水平在不斷提高,人們對(duì)健康也越來越重視。專家自動(dòng)診斷疾病的系統(tǒng)成為各界關(guān)注的焦點(diǎn),人們都希望從疾病知識(shí)庫(kù)中根據(jù)專業(yè)知識(shí)和病案數(shù)據(jù),提取相應(yīng)的規(guī)則來不斷學(xué)習(xí)更新,能盡早地發(fā)現(xiàn)疾病,提高疾病分類診斷的效率。該文采用遺傳算法和神經(jīng)網(wǎng)絡(luò)來建立一個(gè)卵巢癌自動(dòng)分級(jí)診斷的人工智能模型。
卵巢癌是嚴(yán)重威脅婦女健康的惡性腫瘤之一,由于卵巢位于盆腔深部,早期無(wú)任何癥狀,而且目前沒有有效的篩選方法和特異的診斷方法,患有卵巢癌的婦女的存活率較低,在各種卵巢癌中漿液性囊腺癌比例最大,5年存活率只有20%~30%。目前,臨床上對(duì)癌癥的診斷主要有B超、CT、對(duì)血清腫瘤標(biāo)志物的聯(lián)合檢測(cè)、血清蛋白質(zhì)組識(shí)別、病理分析等方法。病理學(xué)檢查是一種非常重要的疾病診斷方法,目前主要靠手工來完成,不但工作量大,且易受檢查者水平的限制。數(shù)字圖像中細(xì)胞的自動(dòng)分割和細(xì)胞分類識(shí)別模型的建立,分類識(shí)別模型是提高分類性能的重要因素。首先對(duì)卵巢腫瘤是良性、惡性還是交界性進(jìn)行準(zhǔn)確判斷,然后再判斷卵巢癌患者臨床分期。卵巢癌的臨床分期越早,治療效果越好;期別越晚,效果越差。檢查腹水中有無(wú)癌細(xì)胞是對(duì)卵巢臨床分期分級(jí)的重要步驟。
BP人工神經(jīng)網(wǎng)絡(luò)因其具有分布式信息存儲(chǔ)方式、并行式信息處理方式、自組織學(xué)習(xí)、自適應(yīng)能力、強(qiáng)大的容錯(cuò)性和非線性處理能力,能夠有效地對(duì)疾病進(jìn)行篩查和診斷。只需選擇好輸入和輸出變量,其他的工作全部由人工神經(jīng)網(wǎng)絡(luò)來完成,使用非常方便。既能避免人腦判斷問題時(shí)的主觀性和思維定勢(shì),也可完全消除人腦在決策過程中的易疲勞性。
BP神經(jīng)網(wǎng)絡(luò)在疾病的篩查和診斷中發(fā)揮重要作用,但是仍然存在一些難以解決的問題,如:局部極小問題、結(jié)構(gòu)設(shè)計(jì)問題、實(shí)時(shí)性差問題等。有研究采用BP神經(jīng)網(wǎng)絡(luò)來對(duì)卵巢癌診斷建模,但是由于改進(jìn)的BP算法有局限性,不易得到最優(yōu)解,從實(shí)驗(yàn)數(shù)據(jù)可以看到存在很大的誤差。為了改善BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法易陷入局部極小的缺陷,可以將遺傳算法和神經(jīng)網(wǎng)絡(luò)結(jié)合應(yīng)用,所以本文采用遺傳算法來優(yōu)化BP神經(jīng)網(wǎng)絡(luò),改進(jìn)BP算法得到GA-BP算法,得到BP反向傳播神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值,使其網(wǎng)絡(luò)模型的預(yù)測(cè)值誤差更小。
1 BP神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)是對(duì)生物神經(jīng)網(wǎng)絡(luò)BNN的結(jié)構(gòu)和實(shí)現(xiàn)機(jī)制原理進(jìn)行模擬,由大量人工神經(jīng)元以某種方式相互連接而成,對(duì)連續(xù)的輸入做出狀態(tài)響應(yīng)的動(dòng)態(tài)信息處理系統(tǒng),能模擬人腦生物神經(jīng)網(wǎng)絡(luò)系統(tǒng)處理信息,在醫(yī)學(xué)中應(yīng)用包括臨床對(duì)癌細(xì)胞診斷方面,如宮頸癌、胰腺癌等,80%~90%的人工神經(jīng)網(wǎng)絡(luò)模型是把誤差反傳算法 (BP網(wǎng)絡(luò))應(yīng)用于函數(shù)逼近、模式識(shí)別與分類。
BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)是一種單向傳播的多層前向神經(jīng)網(wǎng)絡(luò),至少有三層或三層以上的神經(jīng)網(wǎng)絡(luò),即:輸入層、中間層、輸出層,上下層之間實(shí)現(xiàn)全連接,而每層神經(jīng)元之間無(wú)連接,BP神經(jīng)網(wǎng)絡(luò)模型如圖1。學(xué)習(xí)樣本提供給網(wǎng)絡(luò)后,神經(jīng)元的激活值從輸入層經(jīng)各中間層向輸出層傳播,誤差反傳是將輸出誤差以某種形式通過隱含層向輸入層逐層反傳,并將誤差分?jǐn)偨o各層的所有單元,從而獲得各層單元的誤差信號(hào)。在輸出層經(jīng)過各中間層逐層根據(jù)誤差信號(hào)調(diào)整連接權(quán)值,最后回到輸入層,這種算法稱為誤差逆?zhèn)鞑ニ惴ǎJ巾槀鞑?誤差逆?zhèn)鞑?記憶訓(xùn)練-學(xué)習(xí)收斂四個(gè)過程。隨著這種誤差反向傳播權(quán)值的不斷修正,網(wǎng)絡(luò)對(duì)輸入模式響應(yīng)的正確率也不斷上升。如果網(wǎng)絡(luò)的輸入節(jié)點(diǎn)數(shù)為M、輸出節(jié)點(diǎn)數(shù)為L(zhǎng),則此神經(jīng)網(wǎng)絡(luò)可看成是從M維歐氏空間到L維歐氏空間的映射,這種高度非線性的映射,適合該文的研究對(duì)象,所以選擇誤差反向傳播以BP神經(jīng)網(wǎng)絡(luò)模型作為系統(tǒng)預(yù)測(cè)模型。
BP神經(jīng)網(wǎng)絡(luò)模型特點(diǎn)如下:
(1)非線性能力很強(qiáng),由許多神經(jīng)元按拓?fù)浣Y(jié)構(gòu)構(gòu)成大規(guī)模的復(fù)雜系統(tǒng)。
(2)具有自組織、自適應(yīng)、自學(xué)習(xí)的能力。
(3)高度容錯(cuò)性和穩(wěn)健性,當(dāng)預(yù)測(cè)單元中的部分信息不足或由于觀測(cè)失誤而產(chǎn)生錯(cuò)誤信息時(shí),仍可給出較正確的預(yù)測(cè)結(jié)果。
BP算法屬于δ算法,是監(jiān)督式的學(xué)習(xí)算法,基本步驟:
(1)初始化:置所有的加權(quán)系數(shù)為最小的隨機(jī)數(shù)。
(2)提供訓(xùn)練集:給出順序賦值的輸入向量x(t),x(2),…,和期望的輸出向量(訓(xùn)練集)t(1),t(2),…,tN。
(3)計(jì)算實(shí)際輸出。
(4)計(jì)算期望值與實(shí)際輸出的誤差。
(5)調(diào)整輸出層的加權(quán)系數(shù)ωki。
(6)調(diào)整隱含層的加權(quán)系數(shù)ωij。
(7)返回步驟(3),使網(wǎng)絡(luò)輸出層的誤差平方和達(dá)到最小。
BP標(biāo)準(zhǔn)梯度下降算法存在著學(xué)習(xí)收斂速度慢、容易陷入局部極小而不能得到全局最優(yōu)解等缺點(diǎn),所以BP神經(jīng)網(wǎng)絡(luò)建立的是黑箱模型,不能用數(shù)學(xué)方法求最優(yōu)解,而遺傳算法尋優(yōu)無(wú)需目標(biāo)函數(shù),具備明確的數(shù)學(xué)表達(dá)式,可以用來進(jìn)行優(yōu)化計(jì)算。本文采用遺傳算法來優(yōu)化神經(jīng)網(wǎng)絡(luò)建模,使訓(xùn)練后的網(wǎng)絡(luò)模型預(yù)測(cè)值與實(shí)驗(yàn)值誤差盡可能的小。
2 遺傳算法
遺傳算法GA(Genetic Algorithm)是基于進(jìn)化論和遺傳變異理論,是新發(fā)展起來基于優(yōu)勝劣汰、自然選擇和適者生存的優(yōu)化算法,特點(diǎn)是直接對(duì)結(jié)構(gòu)對(duì)象進(jìn)行操作,不存在求導(dǎo)和函數(shù)連續(xù)性的限定,具有內(nèi)在的隱并行性和更好的全局尋優(yōu)能力,采用概率化的尋優(yōu)方法,能自動(dòng)獲取和指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)地調(diào)整搜索方向,不需要確定的規(guī)則。基本遺傳算法其本操作包括選擇、交叉和變異操作。遺傳算法通過對(duì)多個(gè)體的迭代搜索來逐步找出問題的最優(yōu)解,在迭代過程中,實(shí)質(zhì)是處理了一些具有相似編碼結(jié)構(gòu)的個(gè)體,把個(gè)體作為某些相似模板的具體表示,則對(duì)個(gè)體的搜索過程就是對(duì)這些相似模板的搜索過程,即對(duì)模式的處理。遺傳算法的核心內(nèi)容是參數(shù)編碼、初始群體的設(shè)定、適應(yīng)度函數(shù)的設(shè)計(jì)、遺傳操作設(shè)計(jì)、控制參數(shù)設(shè)定五個(gè)要素。作為一種新的全局優(yōu)化搜索算法,遺傳算法有簡(jiǎn)單通用、魯棒性強(qiáng)、適于并行處理以及高效、實(shí)用等特點(diǎn)。最大的優(yōu)點(diǎn)是容易和其他的算法結(jié)合,具有可擴(kuò)展性。
遺傳算法在人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用中有三種結(jié)合方式,即網(wǎng)絡(luò)權(quán)值的進(jìn)化、網(wǎng)絡(luò)結(jié)構(gòu)的進(jìn)化、學(xué)習(xí)規(guī)則的進(jìn)化,該文選擇的是對(duì)網(wǎng)絡(luò)權(quán)值和閾值的進(jìn)化?;谶z傳算法的BP算法選擇最佳的染色體作為網(wǎng)絡(luò)權(quán)值,搜索能力強(qiáng),訓(xùn)練速度快,可以有效避免局部最小的問題。采用GA-BP算法,先用遺傳GA算法在全局空間上搜索權(quán)值和閾值的最優(yōu)點(diǎn),然后用BP算法在最優(yōu)點(diǎn)附近尋優(yōu)達(dá)到最優(yōu)值,能夠克服BP算法的缺陷。GA-BP算法具有全局搜索能力,增強(qiáng)在搜索過程中自動(dòng)獲得和積累知識(shí),使得搜索結(jié)果誤差很小。
3 GA-BP算法
由于BP算法存在著學(xué)習(xí)收斂速度慢、容易陷入局部極小而不能得到全局最優(yōu)解等缺點(diǎn),本課題采用遺傳算法來優(yōu)化BP神經(jīng)網(wǎng)絡(luò)建模,GA-BP算法先用遺傳GA算法在全局空間上搜索權(quán)值和閾值的最優(yōu)點(diǎn),然后用BP算法在最優(yōu)點(diǎn)附近尋優(yōu)達(dá)到最優(yōu)值,克服BP算法的缺陷。GA-BP算法的基本步驟如下。
(1)編碼,隨機(jī)產(chǎn)生一個(gè)初始種群。
(2)對(duì)染色體解碼解碼,將編碼后的個(gè)體轉(zhuǎn)換成問題空間的決策變量,確定隱含層節(jié)點(diǎn)數(shù)和權(quán)值,形成BP神經(jīng)網(wǎng)絡(luò)。
(3)按照個(gè)體適應(yīng)值的大小,計(jì)算適應(yīng)度函數(shù),評(píng)價(jià)染色體優(yōu)劣。
(4)由交叉和變異這兩個(gè)遺傳算子對(duì)交配池中的個(gè)體進(jìn)行操作,形成下一代種群。
(5)返回步驟(2)直到滿足收斂判據(jù),得到解。
將得到的隱含層節(jié)點(diǎn)數(shù)和權(quán)值賦值給BP神經(jīng)網(wǎng)絡(luò),進(jìn)行后續(xù)訓(xùn)練。
本算法把神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的連接權(quán)值編碼成二進(jìn)制碼串,隨機(jī)生成這些碼串的初始群體,用遺傳GA算法優(yōu)化計(jì)算,進(jìn)行一代計(jì)算后將碼串解碼成權(quán)值和閾值構(gòu)成新的神經(jīng)網(wǎng)絡(luò),對(duì)所有訓(xùn)練樣本計(jì)算得到神經(jīng)網(wǎng)絡(luò)輸出的均方誤差來確定每個(gè)個(gè)體的適應(yīng)度,反復(fù)計(jì)算使得神經(jīng)網(wǎng)絡(luò)的系統(tǒng)總誤差SSE (sum square error)趨于全局最小值,從而構(gòu)建了卵巢癌診斷模型。具體算法實(shí)現(xiàn)需要用到Matlab的神經(jīng)網(wǎng)絡(luò)工具箱NNET和遺傳算法工具箱GADS,提供了圖像用戶界面GUI,采用命令行方式,功能強(qiáng)大。
4 專家自動(dòng)診斷卵巢癌的人工智能模型
首先要確定BP神經(jīng)網(wǎng)絡(luò)的特征向量,對(duì)從卵巢腫瘤患者的腹水涂片中獲得的卵巢細(xì)胞圖像進(jìn)行識(shí)別與特征值提取。特征向量是神經(jīng)網(wǎng)絡(luò)的輸入,提取特征向量的目標(biāo),就是要把待分類信息轉(zhuǎn)化到更加能體現(xiàn)其類別的新特征空間中。因此,特征向量提取是否合適,將極大地影響分類結(jié)果。初始權(quán)值一般取(—1,1)之間的隨機(jī)數(shù),學(xué)習(xí)速率決定每一次循環(huán)訓(xùn)練中所產(chǎn)生的權(quán)值變化量,選取范圍在0.01~0.8之間。需要做以下工作:
對(duì)從卵巢腫瘤患者的腹水涂片中獲得的卵巢細(xì)胞圖像,用Matlab7.0中的Image Processing Toolbox工具箱進(jìn)行處理分析。訓(xùn)練與測(cè)試樣本來源于遵義醫(yī)學(xué)院病理科的存檔資料。
處理得到需要的細(xì)胞樣本圖像后,提取細(xì)胞圖像形態(tài)學(xué)的特征參數(shù)。
用Matlab中的Neural Network Toolbox工具箱對(duì)卵巢癌細(xì)胞圖像識(shí)別與特征值提取進(jìn)行深入研究的基礎(chǔ)上,用BP神經(jīng)網(wǎng)絡(luò)對(duì)細(xì)胞圖像進(jìn)行診斷分類。
用Matlab的神經(jīng)網(wǎng)絡(luò)工具箱nnToolKit來創(chuàng)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò),BP網(wǎng)絡(luò)創(chuàng)建函數(shù)為newff,網(wǎng)絡(luò)訓(xùn)練函數(shù)為 train,具體的訓(xùn)練過程:首先按照特征向量提取方法獲得包含80個(gè)特征向量的訓(xùn)練樣本集,樣本數(shù)據(jù)的定義與預(yù)處理,利用load函數(shù)可以在工作空間中自動(dòng)載入網(wǎng)絡(luò)訓(xùn)練所需的輸入數(shù)據(jù)p;然后按照樣本集計(jì)算目標(biāo)輸出集t;最后調(diào)用train函數(shù)即可完成網(wǎng)絡(luò)訓(xùn)練。網(wǎng)絡(luò)仿真使用函數(shù)sim,調(diào)用sim函數(shù)后返回一個(gè)形式與目標(biāo)輸出集相同的輸出。最后通過比較仿真輸出集與仿真樣本目標(biāo)輸出集評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)的自動(dòng)診斷效果。
因?yàn)榧?xì)胞識(shí)別的關(guān)鍵是細(xì)胞特征參數(shù)的選擇和計(jì)算,對(duì)細(xì)胞及細(xì)胞核共設(shè)立了灰度值、面積、周長(zhǎng)、等效圓直徑、形狀因子、核與漿之比6個(gè)特征參數(shù)值,將提取的特征向量作為輸入神經(jīng)元對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行權(quán)值訓(xùn)練,產(chǎn)生BP神經(jīng)網(wǎng)絡(luò),輸出變量包括正常卵巢上皮細(xì)胞、良性和惡性兩種不同的漿液性卵巢癌腫瘤細(xì)胞。
然后采用遺傳算法來優(yōu)化改進(jìn)BP算法得到GA-BP算法,并實(shí)現(xiàn)算法。通過遺傳和變異操作對(duì)BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值進(jìn)行優(yōu)化,不斷更新選擇,使得網(wǎng)絡(luò)的系統(tǒng)總誤差趨于最小,構(gòu)建出卵巢癌診斷模型。最后應(yīng)用Matlab、VC++和統(tǒng)計(jì)軟件SPSS.18工具來實(shí)現(xiàn)人工智能模型,得出實(shí)驗(yàn)數(shù)據(jù)和計(jì)算機(jī)仿真圖像,并驗(yàn)證網(wǎng)絡(luò)模型預(yù)測(cè)值與實(shí)驗(yàn)值之間的誤差。
5 結(jié)語(yǔ)
采用改進(jìn)BP算法的方法有以下幾種:加入動(dòng)量項(xiàng);使用順序方式訓(xùn)練網(wǎng)絡(luò);歸一化輸入信號(hào);自適應(yīng)學(xué)習(xí)速率法。采用L-M (Levenberg-Marquart)算法讓誤差平方和最小,加快學(xué)習(xí)收斂速度,通過對(duì)比實(shí)驗(yàn)數(shù)據(jù)和臨床數(shù)據(jù),其誤差還是很大,改進(jìn)后的效果不好,而遺傳算法尋優(yōu)無(wú)需目標(biāo)函數(shù),具備明確的數(shù)學(xué)表達(dá)式,可以用來進(jìn)行優(yōu)化計(jì)算。該文采用遺傳算法來優(yōu)化BP神經(jīng)網(wǎng)絡(luò)建模(GA-BP算法),使得訓(xùn)練后神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)值與實(shí)驗(yàn)值的系統(tǒng)總誤差SSE(sum square error)趨于全局最小值,建立了一個(gè)卵巢癌自動(dòng)分級(jí)診斷的人工智能模型。這個(gè)專家自動(dòng)診斷系統(tǒng)能有效地診斷卵巢癌患者臨床分期,有利于開展疾病防治工作。
參考文獻(xiàn)
[1] 韓立群.人工神經(jīng)網(wǎng)絡(luò)理論、設(shè)計(jì)用應(yīng)用一人工神經(jīng)細(xì)胞、人工神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)系統(tǒng)[M].北京:化學(xué)工業(yè)出版社,2002:51-52.
[2] Husseini G A,Abdel-Jabbar N M,Mjalli F S,et al.Modeling and sensitivity analysis of acoustic release of doxorubiein from unstabilized pInie P105 using an artificial neural network model[J].Technol Cancer Res Treat,2007,6(l):49-56.
[3] 管頌東.神經(jīng)網(wǎng)絡(luò)技術(shù)在卵巢腫瘤診斷中的應(yīng)用[D].無(wú)錫:江南大學(xué),2008.
[4] 師黎.基于遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)在心電圖身份識(shí)別中的應(yīng)用[J].中國(guó)組織工程研究與臨床康復(fù),2010(43):8069-8072.
[5] 任小洪,徐衛(wèi)東,劉立新,等.基于遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的數(shù)控機(jī)床熱誤差補(bǔ)償[J].制造業(yè)和自動(dòng)化,2011(9):41-43.