陳曉瑾 陳海哨 周紅萍
腸道病毒引起的手足口?。╤and-foot-mouth disease,HFMD)是5歲以下兒童常見(jiàn)的傳染病,其病原體以腸道病毒71型(EV71)和科薩奇病毒A組16型(Cox A16)最為常見(jiàn)。嚴(yán)重的進(jìn)行性HFMD主要由EV71型導(dǎo)致,病情兇險(xiǎn),病死率高[1]。早期識(shí)別EV71型HFMD重癥傾向,對(duì)提高重癥HFMD患兒的救治成功率、降低病死率具有重要意義。HFMD危險(xiǎn)因素復(fù)雜,通常呈非線性關(guān)系,難以用傳統(tǒng)方法如線性回歸或logistic回歸擬合。誤差反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)在處理復(fù)雜非線性關(guān)系時(shí)的分析正確率較高[2-4]。遺傳算法(genetic algorinthm,GA)遵循自然界“優(yōu)勝劣汰”的選擇規(guī)律,以進(jìn)化權(quán)值和閾值作為最優(yōu)解,增強(qiáng)了網(wǎng)絡(luò)的全局搜索能力,靈敏度、特異度和準(zhǔn)確度均優(yōu)于BP神經(jīng)網(wǎng)絡(luò)[5-7]。本研究以HFMD患兒住院資料為基礎(chǔ),采用MATLAB R2016b神經(jīng)網(wǎng)絡(luò)工具箱構(gòu)建多層前饋的BP神經(jīng)網(wǎng)絡(luò),利用GA工具箱優(yōu)化初始權(quán)值和閾值,構(gòu)建遺傳算法優(yōu)化誤差反向傳播(genetic algorinthm back propagation,GABP)神經(jīng)網(wǎng)絡(luò)模型并預(yù)測(cè)HFMD重癥化傾向,以期為重癥EV71型HFMD的早期識(shí)別和臨床早期干預(yù)提供參考。
1.1 研究設(shè)計(jì) 參照《2010版手足口病診療指南》[8],回顧性分析杭州市兒童醫(yī)院在2014年1月—2016年12月收治的確診為EV71型的469例HFMD患兒信息,其中HFMD重癥病例385例(重癥組),普通型(輕癥)病例84例(普通組)。以入院時(shí)臨床表現(xiàn)、檢查檢驗(yàn)結(jié)果、發(fā)病過(guò)程等臨床相關(guān)指標(biāo)作為模型輸入?yún)?shù),以是否具有重癥化傾向作為輸出指標(biāo),根據(jù)ROC曲線和AUC、靈敏度、特異度和均方根誤差評(píng)價(jià)GABP模型,并進(jìn)行驗(yàn)證。以2014年1月—2015年12月收治的352例患兒作為訓(xùn)練組,用于構(gòu)建GABP模型,其中重癥288例,輕癥64例;以2016年1月—2016年12月收治的117例患兒作為驗(yàn)證組,用于模型的驗(yàn)證和評(píng)價(jià),其中重癥97例,輕癥20例。限定患兒發(fā)病自入院時(shí)間≤3 d。
1.2 資料收集和處理 綜合文獻(xiàn)報(bào)道和兒童感染科醫(yī)師臨床經(jīng)驗(yàn),從病例資料中提取發(fā)病和臨床經(jīng)過(guò)、人口學(xué)情況,選取可能的影響因素如兒童職業(yè)(散居/托幼)、性別、月齡、體質(zhì)量、熱峰、發(fā)熱(≥37.4℃)/高熱(>39.0℃)天數(shù)、發(fā)病至就診時(shí)間、發(fā)病至入院時(shí)間、皮疹分布(手、足、口腔)、呼吸系統(tǒng)和神經(jīng)系統(tǒng)情況(咳嗽、呼吸節(jié)律不齊、易驚、驚跳天數(shù)、手足抖動(dòng)、頸強(qiáng)直、嗜睡、精神差、驚厥、嘔吐、煩躁)、入院FPG水平以及WBC、中性粒細(xì)胞、淋巴細(xì)胞、CRP、EV71病毒載量、通用型病毒載量、機(jī)體免疫功能(IgA、IgM、IgG水平)、心肌酶譜(肌酸激酶,creatine kinase,CK;肌酸激酶同工酶,creatine kinase-MB,CK-MB)水平等34個(gè)指標(biāo)作為模型輸入?yún)?shù)。采用ACESS數(shù)據(jù)庫(kù)雙人錄入和核查建立預(yù)測(cè)、驗(yàn)證數(shù)據(jù)庫(kù)。
1.3 GABP神經(jīng)網(wǎng)絡(luò)的構(gòu)建 應(yīng)用MATLAB軟件R2016b中mapminmax函數(shù)對(duì)469例HFMD患兒數(shù)據(jù)歸一化,非數(shù)值型參數(shù)用0或1表示,歸一化至[-1,1]。以34個(gè)危險(xiǎn)因素作為輸入變量,重癥和輕癥作為輸出變量(重癥為1,輕癥為0),建立BP模型。隱含層和輸出層的傳遞函數(shù)分別采用tansig和purelin。網(wǎng)絡(luò)的訓(xùn)練函數(shù)采用函數(shù)trainlm。最大訓(xùn)練步數(shù)1 000步,訓(xùn)練誤差角度目標(biāo)0.000 1,學(xué)習(xí)速率為0.01。通過(guò)計(jì)算危險(xiǎn)因素的平均影響值(mean impact values,MIV)對(duì)輸入變量進(jìn)行優(yōu)化,除去冗余變量,建立GABP模型。采用五折交叉驗(yàn)證法驗(yàn)證模型的適用性和準(zhǔn)確性,每折所構(gòu)建的模型均運(yùn)行3次。
1.4 GABP模型預(yù)測(cè)效能的評(píng)價(jià) 比較AUC,評(píng)價(jià)BP模型和GABP模型的特異度和靈敏度。當(dāng)0.7≤AUC<0.8,認(rèn)為模型的預(yù)測(cè)能力可以接受;0.8≤AUC<0.9,認(rèn)為模型的預(yù)測(cè)能力很好;AUC≥0.9,認(rèn)為模型的預(yù)測(cè)能力杰出;AUC越接近1,說(shuō)明預(yù)測(cè)效果越好。統(tǒng)計(jì)不同條件下MATLAB軟件的運(yùn)行步數(shù)和運(yùn)行時(shí)間,比較BP模型和GABP模型的運(yùn)行性能。通過(guò)均方根誤差衡量模型的擬合精度,其值越小說(shuō)明模型擬合精度越高。
1.5 統(tǒng)計(jì)學(xué)處理 采用SPSS 13.0統(tǒng)計(jì)軟件。正態(tài)分布的計(jì)量資料以±s表示,非正態(tài)分布的計(jì)量資料以M(P25,P75)表示,計(jì)數(shù)單位以例數(shù)表示。計(jì)量資料采用兩獨(dú)立樣本t檢驗(yàn)或Mann-WitneyU檢驗(yàn),計(jì)數(shù)資料采用χ2檢驗(yàn)。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
2.1 兩組患者危險(xiǎn)因素比較 HFMD重癥組385例,其中男234例(60.8%),女151例(39.2%),平均年齡(31.85±16.21)個(gè)月;普通組84例,其中男51例(60.7%),女33例(39.3%),平均年齡(31.49±15.34)個(gè)月。重癥組和普通組患兒年齡、性別比較,差異均無(wú)統(tǒng)計(jì)學(xué)意義(均P>0.05),最高體溫、發(fā)熱(≥37.4℃)天數(shù)、高熱(>39.0℃)天數(shù)、口腔皰疹、FPG、中性粒細(xì)胞、淋巴細(xì)胞、驚跳天數(shù)、精神差、易驚、手足抖動(dòng)、嘔吐和呼吸節(jié)律不齊等比較,差異均有統(tǒng)計(jì)學(xué)意義(均P<0.05),見(jiàn)表1。
表1 重癥組和普通組危險(xiǎn)因素的單因素比較
2.2 BP神經(jīng)網(wǎng)絡(luò)輸入變量的優(yōu)化 34個(gè)危險(xiǎn)因素中,MIV絕對(duì)值排名前20位的依次為驚跳天數(shù)、通用型病毒載量、最高體溫、EV71病毒載量、IgM、精神差、CK-MB、FPG、易驚、咳嗽、發(fā)熱(≥37.4℃)天數(shù)、頸強(qiáng)直、職業(yè)(散居/托幼)、IgA、性別、呼吸節(jié)律不齊、高熱(≥39.0℃)天數(shù)、發(fā)病至入院時(shí)間、手足抖動(dòng)、體質(zhì)量,見(jiàn)表2。將BP模型的輸入變量由34個(gè)參數(shù)調(diào)整為20個(gè)后,AUC從0.630增加到0.723,可見(jiàn)模型擬合度提高,見(jiàn)圖1。因此,選取以上20個(gè)危險(xiǎn)因素作為BP神經(jīng)網(wǎng)絡(luò)的輸入變量。
表2 危險(xiǎn)因素的MIV絕對(duì)值
圖1 不同輸入變量的ROC曲線
2.3 隱含層神經(jīng)元數(shù)的優(yōu)化 網(wǎng)絡(luò)性能指標(biāo)的均方根誤差預(yù)設(shè)為0.01,MATLAB最大步數(shù)限定1 000,考察不同隱含層神經(jīng)元數(shù)下網(wǎng)絡(luò)實(shí)際運(yùn)行情況和AUC,結(jié)果可知,隱含層神經(jīng)元數(shù)目為10和20時(shí),BP神經(jīng)網(wǎng)絡(luò)和GABP神經(jīng)網(wǎng)絡(luò)均無(wú)法滿足均方根誤差≤0.01的要求,所需的運(yùn)行步數(shù)均已達(dá)到預(yù)設(shè)最大值。隨著神經(jīng)元數(shù)的增加,模型達(dá)到預(yù)設(shè)誤差范圍的運(yùn)行步數(shù)和運(yùn)行時(shí)間均減少,AUC值增加,可見(jiàn)在一定范圍內(nèi)增加隱含層神經(jīng)元數(shù)可提升網(wǎng)絡(luò)的運(yùn)行性能和預(yù)測(cè)能力。相對(duì)于BP神經(jīng)網(wǎng)絡(luò),GABP神經(jīng)網(wǎng)絡(luò)構(gòu)建模型擬合性能更好,效率更高。當(dāng)隱含層神經(jīng)元個(gè)數(shù)為40時(shí),GABP模型網(wǎng)絡(luò)性能和預(yù)測(cè)能力均為最佳。由此,最終GABP模型的網(wǎng)絡(luò)結(jié)構(gòu)為20→40→1,即輸入層變量為20,隱含層和輸出層的神經(jīng)元數(shù)分別為40和1,見(jiàn)表3。
表3 隱含層神經(jīng)元數(shù)對(duì)BP模型和GABP模型性能的影響
2.4 GABP模型預(yù)測(cè)能力評(píng)估 采用五折交叉驗(yàn)證法比較兩種預(yù)測(cè)模型的ROC曲線參數(shù),GABP模型的靈敏度和特異度均高于BP模型(P<0.05),說(shuō)明BP模型經(jīng)GA優(yōu)化后,真陽(yáng)性率更高,假陽(yáng)性率更低。結(jié)合均方根誤差和AUC,相對(duì)于BP模型,GABP模型的網(wǎng)絡(luò)穩(wěn)定性和預(yù)測(cè)準(zhǔn)確性更高,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),見(jiàn)表4。
表4 BP模型和GABP模型預(yù)測(cè)效果比較
HFMD重癥化的危險(xiǎn)因素是臨床的研究熱點(diǎn)。根據(jù)BP神經(jīng)網(wǎng)絡(luò)輸入變量的MIV值篩選出前20位危險(xiǎn)因素,其中驚跳天數(shù)、手足抖動(dòng)、最高體溫、發(fā)熱天數(shù)、FPG、精神差、易驚、高熱天數(shù)和呼吸節(jié)律不齊在單因素分析中也顯示出有統(tǒng)計(jì)學(xué)差異,提示這些指標(biāo)與重癥化具有高度相關(guān)性,與文獻(xiàn)報(bào)道一致[9-10]。但是仍有部分危險(xiǎn)因素的單因素分析結(jié)果與MIV排序不同,如中性粒細(xì)胞比例在單因素分析中有統(tǒng)計(jì)學(xué)差異(P<0.01),而在MIV排序中位列29位。這可能是BP模型與單因素分析對(duì)數(shù)據(jù)處理和統(tǒng)計(jì)方式的不同導(dǎo)致。t檢驗(yàn)或χ2檢驗(yàn)通過(guò)對(duì)單個(gè)危險(xiǎn)因素進(jìn)行比較,判斷各危險(xiǎn)因素在兩組之間是否存在統(tǒng)計(jì)學(xué)差異。BP神經(jīng)網(wǎng)絡(luò)主要分析危險(xiǎn)因素與預(yù)測(cè)結(jié)果之間的內(nèi)在聯(lián)系,根據(jù)MIV絕對(duì)值的大小判斷各危險(xiǎn)因素對(duì)網(wǎng)絡(luò)預(yù)測(cè)性能的影響程度,從而實(shí)現(xiàn)危險(xiǎn)因素的篩選。在GABP神經(jīng)網(wǎng)絡(luò)中,CK-MB位列MIV排序第7,而單因素分析中無(wú)統(tǒng)計(jì)學(xué)差異。心肌組織是EV71容易侵犯的部位,心肌損傷也是HFMD患兒常見(jiàn)的臟器并發(fā)癥,目前已經(jīng)發(fā)現(xiàn)CK-MB對(duì)HFMD的重癥化產(chǎn)生影響[11-13]。對(duì)輸入變量的MIV分析可見(jiàn),CK-MB在HFMD的重癥化中發(fā)揮著重要的作用。GABP模型中,IgM在MIV排序中位居第8位,推測(cè)免疫功能可能影響HFMD的發(fā)生和發(fā)展。也有文獻(xiàn)指出EV71型HFMD重癥組患兒IgM水平顯著高于普通組[14-16],而IgM在t檢驗(yàn)中并未表現(xiàn)出統(tǒng)計(jì)學(xué)差異。同樣,MIV分析顯示通用型病毒載量和EV71型病毒載量分別列第2和第4位,說(shuō)明病毒載量在GABP重癥化預(yù)測(cè)模型中具有重要的地位。
利用危險(xiǎn)因素構(gòu)建風(fēng)險(xiǎn)預(yù)測(cè)模型,可提早發(fā)現(xiàn)重癥傾向,常見(jiàn)的構(gòu)建HFMD重癥化危險(xiǎn)模型多采用logistic回歸模型[17-19]。馬曉梅等[20-21]首次使用HFMD重癥化相關(guān)因素構(gòu)建BP模型,獲得了較好的擬合效果。但BP神經(jīng)網(wǎng)絡(luò)的算法存在學(xué)習(xí)效率低、全局搜索能力弱等問(wèn)題,在模型擬合過(guò)程中容易陷入局部極小導(dǎo)致無(wú)法收斂。本研究建立的GABP重癥化預(yù)測(cè)模型,在網(wǎng)絡(luò)性能上,滿足均方根誤差所需要的系統(tǒng)運(yùn)行時(shí)間,運(yùn)行步數(shù)少于BP模型,解決了BP模型計(jì)算量大、耗時(shí)長(zhǎng)的問(wèn)題;在預(yù)測(cè)能力上,靈敏度和特異度顯著優(yōu)于BP模型,AUC達(dá)0.8以上,說(shuō)明GABP模型具有很好的預(yù)測(cè)能力,能更準(zhǔn)確、特異地識(shí)別HFMD的重癥化風(fēng)險(xiǎn)。
迄今文獻(xiàn)報(bào)道的HFMD重癥化預(yù)測(cè)模型均未對(duì)腸道病毒進(jìn)行分類,而重癥HFMD最常見(jiàn)的病毒為EV71型,因此針對(duì)EV71型HFMD構(gòu)建的預(yù)測(cè)模型更接近臨床實(shí)際。本研究基于GABP神經(jīng)網(wǎng)絡(luò)建立的EV71型HFMD重癥預(yù)警模型,為臨床醫(yī)師實(shí)現(xiàn)HFMD患兒早期評(píng)估提供了一個(gè)新工具。