劉運,丁文婷,盧丹,方可
【摘要】阿爾茲海默癥已成為全球范圍內(nèi)亟待解決的醫(yī)學(xué)問題和社會問題,神經(jīng)網(wǎng)絡(luò)模型將阿爾茲海默癥疾病進(jìn)展預(yù)測問題轉(zhuǎn)化為非線性問題,為復(fù)雜的阿爾茲海默癥疾病進(jìn)展預(yù)測提供了新思路。本文以神經(jīng)網(wǎng)絡(luò)的基本理論為基礎(chǔ),運用PCA技術(shù)對數(shù)據(jù)進(jìn)行特征選擇和特征提取,再使用BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò)建立預(yù)測模型,對預(yù)測效果進(jìn)行對比分析。
【關(guān)鍵詞】BP神經(jīng)網(wǎng)絡(luò);RBF神經(jīng)網(wǎng)絡(luò);數(shù)據(jù)預(yù)測;特征提取
【中圖分類號】R749.1 【文獻(xiàn)標(biāo)識碼】A 【DOI】10.12332/j.issn.2095-6525.2020.13.256
1研究背景
阿爾茲海默癥,即為人熟知的老年癡呆癥,也是全球老年人群最常見的癡呆形式之一,是一種慢性神經(jīng)退行性疾病。據(jù)《世界阿爾茨海默病報告》顯示,隨著人類預(yù)期壽命的增加,全球每3秒就約有一人患阿爾茲海默癥,預(yù)計到2050年全球阿爾茲海默癥患者人群將以每20年遞增一倍的速度增長至1.52億,成為全球范圍內(nèi)亟待解決的醫(yī)學(xué)問題和社會問題。如今網(wǎng)絡(luò)和數(shù)據(jù)庫技術(shù)的迅速發(fā)展,數(shù)據(jù)預(yù)測方法及應(yīng)用研究已經(jīng)越來越為人們所重視。目前,對于數(shù)據(jù)的預(yù)測方法有很多。由于神經(jīng)網(wǎng)絡(luò)能夠?qū)Υ罅繌?fù)雜的非線性數(shù)據(jù)進(jìn)行分析,可以完成極為復(fù)雜的趨勢分析,特別適用于構(gòu)造數(shù)據(jù)預(yù)測模型,使得基于神經(jīng)網(wǎng)絡(luò)的預(yù)測方法具有比其他預(yù)測方法更多的優(yōu)點。
人工神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用類似于大腦神經(jīng)突觸連接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型,它的構(gòu)筑理念是受到生物(人或其他動物)神經(jīng)網(wǎng)絡(luò)功能的運作啟發(fā)而產(chǎn)生的。人工神經(jīng)網(wǎng)絡(luò)是并行分布式系統(tǒng),采用了與傳統(tǒng)人工智能和信息處理技術(shù)完全不同的機(jī)理,克服了傳統(tǒng)的基于邏輯符號的人工智能在處理直覺、非結(jié)構(gòu)化信息方面的缺陷,具有自適應(yīng)、自組織和實時學(xué)習(xí)的特點,同時具有自學(xué)習(xí)功能、聯(lián)想存儲功能及高速尋找優(yōu)化解的能力,其自學(xué)習(xí)功能對于預(yù)測有特別重要的意義,預(yù)期未來的人工神經(jīng)網(wǎng)絡(luò)計算機(jī)將為人類提供各方面的預(yù)測,應(yīng)用前途遠(yuǎn)大。
2神經(jīng)網(wǎng)絡(luò)的基本原理
2.1神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN),簡稱神經(jīng)網(wǎng)絡(luò)(neural network,NN),是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計算模型,是人工智能對生物學(xué)中的神經(jīng)系統(tǒng)結(jié)構(gòu)進(jìn)行的模擬。神經(jīng)網(wǎng)絡(luò)是由大量的節(jié)點(或稱“神經(jīng)元”)和之間相互的連接構(gòu)成。人工神經(jīng)元包括輸入層、加權(quán)和、閾值函數(shù)(激活函數(shù))和輸出層。在學(xué)習(xí)或訓(xùn)練過程中改變突觸權(quán)重值,以適應(yīng)周圍環(huán)境的要求。通常,它的學(xué)習(xí)訓(xùn)練方式可分為兩種,一種是有監(jiān)督或稱有導(dǎo)師的學(xué)習(xí),利用給定的樣本標(biāo)準(zhǔn)進(jìn)行分類或模仿,如:BP、RBF在預(yù)測、分類中的應(yīng)用,PNN在分類中的應(yīng)用等;另一種是無監(jiān)督學(xué)習(xí)或稱無導(dǎo)師學(xué)習(xí),這時只規(guī)定學(xué)習(xí)方式或某些規(guī)則,具體的學(xué)習(xí)內(nèi)容隨系統(tǒng)所處環(huán)境而異,如:競爭神經(jīng)網(wǎng)絡(luò)、SOFM在分類、聚類中的應(yīng)用等。
2.2 兩種常見神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)
BP(反向傳播)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為多層前饋網(wǎng)絡(luò),其前、后層之間各神經(jīng)元實現(xiàn)全聯(lián)接,同一層的神經(jīng)元之間無連接。激活函數(shù)通常采用S形函數(shù),如logsig,tansig函數(shù);輸出層激活函數(shù)多采用purelin函數(shù)。理論上,具有一個隱含層的BP網(wǎng)絡(luò)可以以任意精度逼近任意非線性函數(shù)。BP網(wǎng)絡(luò)的學(xué)習(xí)算法是典型的有導(dǎo)師學(xué)習(xí)算法:將樣本輸入神經(jīng)網(wǎng)絡(luò),得到網(wǎng)絡(luò)的實際輸出,若輸出值與期望輸出之間的誤差不滿足精度要求,則從輸出層反向傳播該誤差,從而調(diào)整權(quán)值及閾值,使得網(wǎng)絡(luò)的輸出和期望輸出間的誤差逐漸減小,直至滿足精度要求。BP網(wǎng)絡(luò)學(xué)習(xí)過程即為信號前向傳播和誤差反向傳播。
RBF網(wǎng)絡(luò)的基本思想為是用RBF作為隱單元的“基”構(gòu)成隱含層空間,這樣就可以將輸入矢量直接映射到隱空間,而不需要通過權(quán)連接。當(dāng)RBF的中心點確定以后,這種映射關(guān)系也就確定了。而隱含層空間到輸出空間的映射是線性的,即網(wǎng)絡(luò)的輸出是隱單元輸出的線性加權(quán)和,此處的權(quán)即為網(wǎng)絡(luò)可調(diào)參數(shù)。其中,隱含層的作用是把向量從低維度的p映射到高維度的h,這樣低維度線性不可分的情況到高維度就可以變得線性可分了,主要就是核函數(shù)的思想。這樣,網(wǎng)絡(luò)由輸入到輸出的映射是非線性的,而網(wǎng)絡(luò)輸出對可調(diào)參數(shù)而言卻又是線性的。網(wǎng)絡(luò)的權(quán)就可由線性方程組直接解出,從而大大加快學(xué)習(xí)速度并避免局部極小問題。
3 神經(jīng)網(wǎng)絡(luò)模型預(yù)測分析
首先,基于PCA技術(shù)完成數(shù)據(jù)特征提取,PCA(Principal Component Analysis),即主成分分析方法,是一種使用最廣泛的數(shù)據(jù)降維算法。在實際情況中我們的數(shù)據(jù)會存在特征過多或者特征累贅的問題,所以用PCA算法來解決這種問題是很有必要的。PCA的主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,是在原有n維特征的基礎(chǔ)上重新構(gòu)造出來的k維特征,而不是簡單地從n維特征中取出其余n-k維特征。
其次,在進(jìn)行訓(xùn)練之前,需要先初始化網(wǎng)絡(luò)結(jié)構(gòu),其次給出權(quán)值和閾值的初始化值。從3000*751數(shù)據(jù)中獲取五分之三的數(shù)據(jù)當(dāng)作訓(xùn)練數(shù)據(jù),設(shè)置網(wǎng)絡(luò)參數(shù),確定最大迭代次數(shù)、學(xué)習(xí)率及學(xué)習(xí)目標(biāo),再進(jìn)行網(wǎng)絡(luò)訓(xùn)練。該網(wǎng)絡(luò)有1個隱含層,神經(jīng)元個數(shù)為100個。Algorithms部分展示了該網(wǎng)絡(luò)所使用的訓(xùn)練算法,該網(wǎng)絡(luò)采用Levenberg-Marquardt算法進(jìn)行訓(xùn)練,采用均方誤差算法計算誤差,保存為mex格式;Progress部分展示了該網(wǎng)絡(luò)允許的迭代次數(shù)最大為2000,實際迭代2000次,訓(xùn)練時長為14分20秒;該網(wǎng)絡(luò)的最大誤差為0.239,目標(biāo)誤查為0.001,實際誤差為0.0613;Gradient一欄表示該網(wǎng)絡(luò)的最大梯度為1.99,閾值梯度為1.00e-07,實際梯度為0.00196;由Mu一欄可得該網(wǎng)絡(luò)使用Levenberg-Marquardt算法中的阻尼因子最小值為0.001,閾值為1.00e+10,實際值為1.00e-06,Mu值越大意味著算法收斂效果越好。具體訓(xùn)練狀況圖如下:
由上圖可知迭代次數(shù)達(dá)到200次達(dá)到最佳結(jié)果,目標(biāo)誤差為0.001,實際誤差為0.0754109,RBF神經(jīng)網(wǎng)絡(luò)與BP神經(jīng)網(wǎng)絡(luò)相比誤差偏大。
4 總結(jié)
本研究將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)和驗證數(shù)據(jù)三類;然后選取樣本輸入輸出數(shù)據(jù)進(jìn)行PCA特征提取,在網(wǎng)絡(luò)訓(xùn)練之前初始化網(wǎng)絡(luò)結(jié)構(gòu),隨后進(jìn)行網(wǎng)絡(luò)訓(xùn)練,創(chuàng)建BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò);進(jìn)行數(shù)據(jù)的預(yù)測,生成測試數(shù)據(jù)后,對數(shù)據(jù)再進(jìn)行輸出反歸一化;最后對預(yù)測結(jié)果進(jìn)行分析和性能評價。基于BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)預(yù)測具有更低的誤差,實際輸出與預(yù)測值有更好的擬合度,能夠較為精準(zhǔn)的預(yù)測。這些結(jié)果說明了對于數(shù)據(jù)預(yù)測來說,神經(jīng)網(wǎng)絡(luò)的使用還是很有必要的,在生活中具有較大實用價值。
參考文獻(xiàn):
[1]彭彬彬,閆獻(xiàn)國,杜娟.基于BP和RBF神經(jīng)網(wǎng)絡(luò)的表面質(zhì)量預(yù)測研究[J].表面技術(shù),2020,49(10).
[2]王曉穎.改進(jìn)BP神經(jīng)網(wǎng)絡(luò)模型的地基變形預(yù)測[J].測繪與空間地理信息,2017,40(03):215-217.
[3]隋明輝.基于BP人工神經(jīng)網(wǎng)絡(luò)的混凝土強(qiáng)度預(yù)測模型[J].建材與裝飾,2016(13): 137-138.
[4]荀海潞.基于改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)在自相關(guān)過程控制中的應(yīng)用[D].長安大學(xué),2016: 258-263.
項目信息:
2018年安徽省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項目“基于基因數(shù)據(jù)與人工神經(jīng)網(wǎng)絡(luò)智能優(yōu)化算法的人類疾病預(yù)測研究”(編號AH201810380012)
作者簡介:
劉運(1981-),男,漢族,安徽合肥人,軟件工程碩士,副教授,研究方向:智能計算與模式識別、高等工程教育教學(xué)研究。