陳恩宏 劉陳帥 賈學(xué)勇
摘要:研究影響糖尿病治療效果的特征向量與病人再次入院率之間的聯(lián)系,其中,特征變量通過主成分分析可得出有效評價指標(biāo)為入院種類、藥物編號、體重、性別、出院配置。研究采用神經(jīng)網(wǎng)絡(luò)的GRNN算法,首先將歸一化的458組導(dǎo)入輸入層,從模式層可輸出對應(yīng)樣本的權(quán)值,接著經(jīng)過不斷訓(xùn)練,在光滑因子時輸出層的結(jié)果與實(shí)際再次入院率最相近,最后將其余100組數(shù)據(jù)帶入訓(xùn)練模型得出再次入院率與指定特征變量間的函數(shù)關(guān)系。
關(guān)鍵詞:主成分分析;徑向基函數(shù);神經(jīng)網(wǎng)絡(luò)
1 提取影響再次入院率的特征變量
1.1 主成分提取
step1:模型準(zhǔn)備
本文中根據(jù)醫(yī)院對于糖尿病的常見治療方案得出影響糖尿病治療效果的因素,從附件中預(yù)先選取八個影響指標(biāo),即糖尿病人的性別、年齡、體重、病人入院類型、入院來源、住院時間、使用藥物編號、出院配置、注射胰島素量,為進(jìn)行主成分分析,得到可行建立評價體系的主要指標(biāo),需將附件指標(biāo)進(jìn)行預(yù)處理。本文中將糖尿病人的性別進(jìn)行定量:男性為1、女性為0,病人每個階段的年齡、體重取平均值,病人胰島素用量規(guī)定:
step2:數(shù)據(jù)歸一化處理
為了避免指標(biāo)變量量綱的影響,需要對于變量指標(biāo)數(shù)據(jù)進(jìn)行歸一化處理;本文去噪后數(shù)據(jù)涉及558個,指標(biāo)數(shù)據(jù)9個,第j個數(shù)據(jù)的第i個指標(biāo)值為Fij,數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化公式:
(1)
其中, ——指標(biāo)i均值;
Si——指標(biāo)i的標(biāo)準(zhǔn)差;
計算標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)系數(shù)矩陣,求出該矩陣的特征值與特征向量。將第i個指標(biāo)和相鄰的第i個指標(biāo)的相關(guān)系數(shù)為rij,其計算公式:
(2)
則可得出兩個相鄰指標(biāo)的相關(guān)系數(shù)矩陣為:
(3)
2基于主成分分析的指標(biāo)提取
step1:提取相關(guān)指標(biāo)
主成分提取出的主要指標(biāo)仍具有較強(qiáng)的重復(fù)性和抽象性,此時,采用相關(guān)分析的方法對于主成分提取出的指標(biāo)進(jìn)行處理,建立與原始數(shù)據(jù)之間的直接關(guān)聯(lián)。便于后續(xù)預(yù)測算法的建立,極大程度上減少計算量。
根據(jù)原始指標(biāo)對于已知的三種主成分的貢獻(xiàn)程度提取主要影響因子,將6個主成分利用SPSS進(jìn)行分析,得出成分矩陣進(jìn)行分析判斷:
提取方法:主成分分析法
a.提取了6個成分
根據(jù)成分矩陣,可以得到每個主成分中指標(biāo)的貢獻(xiàn)率,主成分1中,入院種類與入院來源的貢獻(xiàn)率較高;主成分2中,住院時間和藥物編號的貢獻(xiàn)率較高;主成分3中,年齡和體重的貢獻(xiàn)率較高;主成分4中,性別和胰島素貢獻(xiàn)率較高;主成分5中,出院配置的貢獻(xiàn)率較高,成分6中,性別的貢獻(xiàn)率較高。
step2:根據(jù)相關(guān)系數(shù)確定最終指標(biāo)
樣本容量為558,假設(shè)置信度水平為0.01,當(dāng)樣本的指標(biāo)相關(guān)系數(shù)超過0.01,即認(rèn)為兩個指標(biāo)存在顯著性相關(guān)關(guān)系。因此可以在主成分分析的基礎(chǔ)上,得出指標(biāo)之間的相關(guān)性矩陣(見附錄)針對主成分1,入院種類與入院類型的相關(guān)系數(shù)為0.862,兩者顯著性相關(guān),保留貢獻(xiàn)高的入院種類;同理,通過主成分分析可得出有效評價指標(biāo)為入院種類、藥物編號、體重、性別、出院配置。
3.再次入院率與特征變量的關(guān)系求解
3.1數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是指在主要的處理以前對數(shù)據(jù)進(jìn)行的一些處理。主要是清理異常值、糾正錯誤數(shù)據(jù)。在附件中,有來自美國130家醫(yī)院的糖尿病患者的101766組治療數(shù)據(jù),由于變量較多,數(shù)據(jù)量巨大,對指標(biāo)體系的建立和模型的精度均有影響,所以首先需要進(jìn)行數(shù)據(jù)的預(yù)處理,對初始數(shù)據(jù)進(jìn)行篩選形成新的樣本集。
基于本問,我們利用Excel的篩選功能將信息殘缺數(shù)據(jù)和非糖尿病人的數(shù)據(jù)清洗掉,還剩下558組數(shù)據(jù)作為樣本集。
3.2廣義回歸神經(jīng)網(wǎng)絡(luò)模型
通過上文的指標(biāo)篩選的結(jié)果,確定入院種類、藥物編號、體重、性別、出院配置作為影響治療效果的關(guān)鍵性指標(biāo),顯然這幾個特征變量能夠給出對于再次入院率的影響關(guān)系。本文選取廣義回歸神經(jīng)網(wǎng)絡(luò)模型,通過建立神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本,得出特征變量與再次入院率之間的網(wǎng)絡(luò),即給出二者之間的關(guān)系。
4.結(jié)論
1.影響糖尿病治療效果的主要指標(biāo)為入院種類、藥物編號、體重、性別、出院配置。
2.得出特征向量與再次入院率之間的關(guān)系,改變指標(biāo)的參數(shù)可得出病人的治療效果改善情況。
3.通過敏感性分析,得出降低入院率從醫(yī)院的藥物編號和出院配置兩個方面進(jìn)行考慮效果更好。
符號說明
R——指標(biāo)間的相關(guān)系數(shù)矩陣;
Yi——第i個主成分;
Wi——主成分Yi的貢獻(xiàn)率;
hi——高斯徑向基函數(shù);
σ——神經(jīng)網(wǎng)絡(luò)訓(xùn)練平滑因子;
參考文獻(xiàn):
[1]劉宸.基于交互學(xué)習(xí)神經(jīng)網(wǎng)路的仿真研究[J].電子世界,2013(04):133-134.
[2]郭欣欣.人工神經(jīng)網(wǎng)絡(luò)在住宅類房地產(chǎn)評估中的應(yīng)用[D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2012.
[3]司守奎,孫璽菁.《數(shù)學(xué)建模算法與應(yīng)用》.北京:國防工業(yè)出版社,2011.
[4]張仕良.基于深度神經(jīng)網(wǎng)絡(luò)的語音識別模型研究[D].中國科學(xué)技術(shù)大學(xué),2017.
[5]G·葛蘭·亨利,泰瑞·派克斯.多運(yùn)算神經(jīng)網(wǎng)絡(luò)單元[P].上海:CN106503796A,2017-03-15.
[6]肖特特,茅佳源.目標(biāo)檢測方法和裝置、神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法和裝置[P].北京:CN106778867A,2017-05-31.