潘曉英 楊清萍
(西安郵電大學(xué) 西安 710061)
對癌癥患者科學(xué)準(zhǔn)確地預(yù)測生存期,不僅是患者及家屬關(guān)心的問題,也是制定治療方案的重要依據(jù)。長期以來生存期預(yù)測的討論都集中在使用基因組學(xué)和蛋白質(zhì)組學(xué)技術(shù)。它們需要活檢的侵入式手術(shù)取出一小部分腫瘤的組織進(jìn)行分析[1]。然而,由于腫瘤空間和時間的異質(zhì)性,活檢不能全面評估腫瘤的信息,而且病人很難承受連續(xù)多次的活檢[2]。醫(yī)學(xué)影像可以無創(chuàng)地提供整個腫瘤的信息,并且借助圖像分析監(jiān)測疾病的發(fā)生、發(fā)展及對治療的反應(yīng)[3]。因此醫(yī)學(xué)影像在指導(dǎo)治療上有很大的潛力,從醫(yī)學(xué)影像出發(fā)可以為癌癥的生存期預(yù)測提供一種新的方法。
影像組學(xué)(Radiomics)是一個新興領(lǐng)域[4],是從醫(yī)學(xué)圖像中提取定量影像學(xué)特征并進(jìn)行分析,找到疾病的影像學(xué)標(biāo)識物,從而實現(xiàn)對疾病的精準(zhǔn)預(yù)測、診斷及預(yù)后評估等[5]。Radiomics方法的應(yīng)用在于追求個體化的精準(zhǔn)醫(yī)療,在盡早時間內(nèi)給患者做出一個正確的疾病預(yù)測,并提出治療方案。
本文針對舌根癌的Radiomics 特征數(shù)據(jù),提出了人工神經(jīng)網(wǎng)絡(luò)生存期預(yù)測模型,同時為了解決BP 神經(jīng)網(wǎng)絡(luò)權(quán)值和閾值受初始值影響大、收斂速度慢、有局部極小點等缺點,本文運(yùn)用遺傳算法對神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值進(jìn)行優(yōu)化,建立了基于遺傳神經(jīng)網(wǎng)絡(luò)和舌根癌Radiomics特征的生存期預(yù)測模型。
本文的研究數(shù)據(jù)是來自美國經(jīng)過10 年收集的59例舌根癌患者的Radiomics特征數(shù)據(jù)以及相對應(yīng)患者的生存期。其中男性48例,女性11例;發(fā)病年齡22~89 歲,中位發(fā)病年齡56 歲。Radiomics 特征可以分為強(qiáng)度特征、形狀特征、紋理特征、小波特征四個方面,一共有1386維。
Radiomics 特征數(shù)據(jù)一共有1386 維,然而患者僅有59 例。如果直接用這組數(shù)據(jù)構(gòu)建模型,一方面既耗時又浪費(fèi)空間資源,另一方面由于特征維度過高研究數(shù)組過少極容易照成過擬合,所以必須對Radiomics 特征數(shù)據(jù)進(jìn)行降維。分析Radiomics 特征數(shù)據(jù)發(fā)現(xiàn),強(qiáng)度、形狀、紋理、小波特征又可分為熵、體積、集群趨勢、群陰、集群突出、自相關(guān)等22個種類,而每個種類又包含若干個特征,比較同一種類的若干特征可以發(fā)現(xiàn),這些特征的特征值很接近僅有細(xì)微的變化,故同一種類的數(shù)據(jù)可以用主成分分析進(jìn)行降維。
主 成 分 分 析(Principal Component Analysis,PCA),又稱主分量分析,是將多個變量通過線性變換選出幾個重要變量的一種多元統(tǒng)計方法[6]。其基本方法就是通過降維技術(shù)將原來具有一定相關(guān)性的變量,根據(jù)貢獻(xiàn)大小,重新組合成一組新的且相互獨立的、少數(shù)幾個能充分反映母體信息的綜合指標(biāo)以替代原來的指標(biāo),進(jìn)而在保證主要信息的前提下,以避開變量之間線性相關(guān),以便于進(jìn)一步分析。
假設(shè)有n 個樣本,每個樣本有p 個數(shù)據(jù),則構(gòu)成原始數(shù)據(jù)矩陣Xn×p,主成分分析步驟如下:
1)原始數(shù)據(jù)標(biāo)準(zhǔn)化
為消除原變量的量綱不同,數(shù)值差異太大帶來的影響,首先對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即
式中,i=1,2,…n;j=1,2,…p。
2)建立相關(guān)矩陣R,并計算特征值和特征向量
式中,Y 為標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣。求得R 的特征值 為 λ1≥λ2≥…≥λp及 相 應(yīng) 的 特 征 向 量 為αi=( αi1,αi2,…,αip)T,i=1,2,…,p。
3)計算方差貢獻(xiàn)率βk和累積方差貢獻(xiàn)率β( k)
4)求出主成分Z=Yα
若?α ∈( 0,1) ,且當(dāng)β( s )≥α,則Z1,Z2,…Zs為樣本X1,X2,…XP的顯著水平為α 的主成分。其中β( s )為第s 個主成分累貢獻(xiàn)率。 β( s )根據(jù)實際問題確定,一般選取80%以上。在本文中由于種類較多,故貢獻(xiàn)率應(yīng)該取高一些,本文取95%。Radiomics特征經(jīng)降維之后變成200維。
多層BP神經(jīng)網(wǎng)絡(luò)可以實現(xiàn)任意的線性和非線性函數(shù)的映射,克服感知器和線性神經(jīng)網(wǎng)絡(luò)的局限性,但是在訓(xùn)練過程中容易陷入局部最小點,且對于BP 神經(jīng)網(wǎng)絡(luò)而言,其搜索空間為整個網(wǎng)絡(luò)結(jié)構(gòu)中的極小子空間,并且無法準(zhǔn)確確定神經(jīng)網(wǎng)絡(luò)隱層的神經(jīng)元數(shù),建立BP神經(jīng)網(wǎng)絡(luò)時容易形成網(wǎng)絡(luò)“欠適配”和“過適配”的情況[7]。
BP 人工神經(jīng)網(wǎng)絡(luò)模型的基本結(jié)構(gòu)[8]:
式中:Y 為BP 網(wǎng)絡(luò)的輸出向量;purelin 為隱層到輸出層之間的傳遞函數(shù);IW1、LW2分別為輸入層到隱層、隱層到輸出層的網(wǎng)絡(luò)連接權(quán)值;B1、B2分別為輸入層到隱層、隱層到輸出層的網(wǎng)絡(luò)連接閾值;Pn為BP 網(wǎng)絡(luò)的輸入向量;Tansig 為輸入層到隱層之間的傳遞函數(shù)。
輸入層和輸出層之間的激活函數(shù)采用Sigmoid 函數(shù),其形式為
隱層節(jié)點和輸出層節(jié)點的連接函數(shù)采用線性函數(shù)(purelin)。
BP 神經(jīng)網(wǎng)絡(luò)雖然具有很強(qiáng)的非線性映射能力,但是網(wǎng)絡(luò)的連接權(quán)值及閾值很大程度依賴于初始權(quán)值和初始閾值,初始權(quán)值的優(yōu)劣直接影響模型的預(yù)測精度。而遺傳算法參考自然選擇和遺傳機(jī)制,具有強(qiáng)大的全面優(yōu)化性,能容易得到全局最優(yōu)解,可以通過引入遺傳算法來對BP 神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值進(jìn)行優(yōu)化改進(jìn)。
3.2.1 遺傳算法
遺傳算法是一種新的全局優(yōu)化搜索算法,其基本思想是基于Datwin 的進(jìn)化論和Mendel 的遺傳學(xué)說[9~11]。該方法魯棒性強(qiáng),適用于并行處理,廣泛應(yīng)用于計算機(jī)科學(xué)、運(yùn)輸問題、優(yōu)化調(diào)度、組合優(yōu)化等領(lǐng)域。
GA算法可以形式化描述如下:
式中:O(0)=a1( 0),a2( 0),…,aN( 0 ))∈IN,為初始種群;I=B1={0,1}為L 的二進(jìn)制串全體;N 為種群中含有的染色體個數(shù);L 為二進(jìn)制串的長度;s:IN→IN表示選擇策略;g 表示遺傳算子,通常包括繁殖算子Qr:I →I ,雜交算子Qc:I×I →I×I 和變異算子Qm:I →I ;p 表示遺傳算子的操作概率,包括繁數(shù);殖t概:I率N→pc{ 和0,變1}異為概終率止準(zhǔn)pm則;。f:I →R+代表適應(yīng)函
3.2.2 神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
網(wǎng)絡(luò)的泛化能力是指經(jīng)樣本學(xué)習(xí)后的網(wǎng)絡(luò)對學(xué)習(xí)樣本外的數(shù)據(jù)做出正確反應(yīng)的能力。影響網(wǎng)絡(luò)泛化能力的主要因素為網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)、單元結(jié)點間的連接權(quán)值和訓(xùn)練樣本的預(yù)處理。這3 個因素對于所建立的BP神經(jīng)網(wǎng)絡(luò)模型是判定其網(wǎng)絡(luò)優(yōu)劣性的主要標(biāo)準(zhǔn),根據(jù)指導(dǎo)原則,最好的選擇位能與給定樣本符合的最簡單(規(guī)模最小)的網(wǎng)絡(luò)是最好的選擇,即為逼近一個連續(xù)函數(shù),只有一個隱層的網(wǎng)絡(luò)已足夠。選用單隱層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),運(yùn)用VC維確定隱層神經(jīng)元數(shù),VC維可以測試系統(tǒng)復(fù)雜度對學(xué)習(xí)能力的影響[12~13]。設(shè)定VC 維的維度d為
如果用m 個樣本進(jìn)行訓(xùn)練,其泛化誤差以很高的置信度小于e 。其中e 滿足:e ≤O((d n)?ln(m d)),M、N、P 分別為輸入層、隱層、輸出層的神經(jīng)元數(shù)。M 和P 為已知,可在樣本數(shù)目允許的范圍內(nèi)改變m,并取不同的N 值,N 的取值范圍可根據(jù)下式[14]:
式中a 為1~20之間的常數(shù)。
通過選擇合適的m 和N 值以使得e 盡可能小,使得獲得最優(yōu)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和最適合該網(wǎng)絡(luò)的訓(xùn)練樣本數(shù)目m。
3.2.3 遺傳神經(jīng)網(wǎng)絡(luò)算法
應(yīng)用遺傳優(yōu)化BP神經(jīng)網(wǎng)絡(luò),對BP 神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值進(jìn)行優(yōu)化,通過遺傳和變異操作使得網(wǎng)絡(luò)的權(quán)值和閾值不斷更新?lián)Q代,使得網(wǎng)絡(luò)的系統(tǒng)總誤差(Sum Square Error,SSE)趨于最?。?5]。遺傳算法優(yōu)化BP網(wǎng)絡(luò)的步驟如下(圖1):
1)種群初始化
個體包含了整個BP 神經(jīng)網(wǎng)絡(luò)的所有權(quán)值和閾值。本文對個體采用實數(shù)編碼的方式進(jìn)行編碼。編碼長度為
其中,m 為隱含層節(jié)點數(shù);n 為輸入層節(jié)點數(shù);l 為輸出層節(jié)點數(shù)。
2)適應(yīng)度函數(shù)
根據(jù)個體得到BP 神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值,用訓(xùn)練數(shù)據(jù)訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)后預(yù)測系統(tǒng)輸出,把預(yù)測輸出和期望輸出之間的誤差絕對值和E 作為個體適應(yīng)度值F ,計算公式為
式中,n 為網(wǎng)絡(luò)輸出節(jié)點數(shù);yi為BP 神經(jīng)網(wǎng)絡(luò)第i個節(jié)點的期望輸出;oi為i 節(jié)點的預(yù)測輸出;k 為系數(shù)。
3)選擇操作
個體的選擇可以使用輪盤賭法,即基于適應(yīng)度比例的選擇策略,每個個體i 的選擇概率pi為
式中,F(xiàn)i為個體i 的適應(yīng)度值,由于適應(yīng)度越小越好,所以在個體選擇前對適應(yīng)度值求倒數(shù);k 為系數(shù);N 為種群個體數(shù)目。
4)交叉操作
由于個體采用實數(shù)編碼,所以交叉操作方法采用實數(shù)交叉方法,第k 個染色體ak和第l 個染色體al在j 為的交叉操作:
式中,b 是[0 ,1] 間的隨機(jī)數(shù)。
5)變異操作
選取第i 個個體的第j 個基因aij進(jìn)行變異,變異操作如下:
式中,amax為基因aij的上界;amin為基因aij的下界為一個隨機(jī)數(shù);g 為當(dāng)前迭代次數(shù);Gmax為最大進(jìn)化次數(shù);r 為[0 ,1] 間的隨機(jī)數(shù)。
圖1 遺傳算法優(yōu)化BP網(wǎng)絡(luò)流程圖
采用Matlab R 2010b 編制程序,利用Matlab 神經(jīng)網(wǎng)絡(luò)工具箱實現(xiàn)網(wǎng)絡(luò)預(yù)測模型的構(gòu)建、訓(xùn)練和仿真。BP 神經(jīng)網(wǎng)絡(luò)參數(shù):本文采用3 層BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入節(jié)點個數(shù)為200,輸出節(jié)點個數(shù)為1,隱含層節(jié)點為30,隱含層傳遞函數(shù)為S 型函數(shù)tansig ,輸出層函數(shù)為 purelin ,訓(xùn)練函數(shù)為traingdx 函數(shù),性能函數(shù)為mse 函數(shù)。最大訓(xùn)練次數(shù)為1000 次,學(xué)習(xí)速率為0.01,目標(biāo)誤差為0.00004。遺傳算法參數(shù):種群規(guī)模為10,進(jìn)化次數(shù)50 次,交叉概率0.8,變異概率為0.2。將經(jīng)主成分分析降維后的特征數(shù)據(jù)中的47 例(80%)用于構(gòu)建預(yù)測模型的訓(xùn)練集,12例(20%)用于測試集。各模型預(yù)測結(jié)果如表1。
表1 三種模型預(yù)測結(jié)果比較
從表1 中我們可以看出,三種預(yù)測模型中,邏輯回歸預(yù)測結(jié)果最差,有兩個異常預(yù)測值,預(yù)測值相對實際值有較大誤差,BP 神經(jīng)網(wǎng)絡(luò)比邏輯回歸預(yù)測結(jié)果稍有改進(jìn),僅有一個異常預(yù)測值,預(yù)測值相對實際值偏差減小,BP 神經(jīng)網(wǎng)絡(luò)預(yù)測值相較于邏輯回歸預(yù)測值更加穩(wěn)定,但由于BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法簡單還是產(chǎn)生了稍大的偏差,遺傳神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果最好,預(yù)測結(jié)果最為穩(wěn)定,沒有異常預(yù)測值,預(yù)測值相對于實際值最接近。從相對誤差來分析,邏輯回歸預(yù)測產(chǎn)生了比較大的誤差,而BP神經(jīng)網(wǎng)絡(luò)對比邏輯回歸誤差減小,但還是誤差還是稍大,而遺傳神經(jīng)網(wǎng)絡(luò)由于其方法的先進(jìn)性相較于其他預(yù)測方法誤差大大減小。
我們證明了癌癥Radiomic 特征數(shù)據(jù)在神經(jīng)網(wǎng)絡(luò)模型中的應(yīng)用。對于高維小樣本特征遺傳神經(jīng)網(wǎng)絡(luò)能夠更好地預(yù)測生存期。腫瘤的綜合性防治規(guī)劃包含4 個方面:預(yù)防、早期診斷、根治性治療和姑息性治療,確定預(yù)后特性可以設(shè)計出適合的個性化治療方式,盡可能地改善臨床結(jié)果。