樊 楚 賀向前 于 躍 田 杰 張 勝 李 哲
·論著·
基于數(shù)據(jù)挖掘技術(shù)建立的BP神經(jīng)網(wǎng)絡(luò)模型鑒別兒童川崎病與發(fā)熱性疾病的研究
樊 楚1賀向前1于 躍1田 杰2張 勝1李 哲1
目的 以臨床表現(xiàn)和實驗室指標(biāo)建立診斷川崎病(KD)的BP神經(jīng)網(wǎng)絡(luò)模型并考察其診斷性能。方法 收集重慶醫(yī)科大學(xué)附屬兒童醫(yī)院(我院)2007年1月至2016年1月電子病歷系統(tǒng)中出院診斷為KD的連續(xù)病例和待鑒別發(fā)熱疾病病例,使用R 3.2.3軟件中的隨機抽樣函數(shù)分為訓(xùn)練集和測試集。截取病歷中一般情況、臨床表現(xiàn)和實驗室指標(biāo)的共51項信息,單因素分析后提取有統(tǒng)計學(xué)意義的變量,以此分別構(gòu)建Logistic回歸和BP神經(jīng)網(wǎng)絡(luò)模型,比較兩種模型的診斷性能。結(jié)果 905例KD患兒和438例待鑒別發(fā)熱疾病患兒進入數(shù)據(jù)模型分析,訓(xùn)練集1 042例,其中KD 700例,待鑒別發(fā)熱類疾病342例;測試集301例,其中KD 205例,待鑒別發(fā)熱類疾病96例。單因素分析結(jié)果顯示差異有統(tǒng)計學(xué)意義37項信息。Logistic回歸分類模型有16個變量納入最佳回歸方程。BP神經(jīng)網(wǎng)絡(luò)輸入層、隱含層和輸出層分別有37、24和1個節(jié)點。Logistic回歸分類模型對訓(xùn)練集和測試集的分類正確率為84.1%和82.1%,ROC曲線下面積為0.91和0.89;BP神經(jīng)網(wǎng)絡(luò)模型對訓(xùn)練集和測試集的分類正確率為96.4%和86.0%,ROC曲線下面積為0.94和0.92;2個模型的敏感度均很好, BP神經(jīng)網(wǎng)絡(luò)模型的特異度優(yōu)于Logistic回歸分類模型。結(jié)論 本文建立的BP神經(jīng)網(wǎng)絡(luò)診斷模型對KD有較好的診斷輔助功能,有待進一步通過臨床檢驗。
川崎?。?發(fā)熱疾??; Logistic回歸; BP神經(jīng)網(wǎng)絡(luò); 診斷模型
川崎病(KD)是一種病因未明的急性、自限性的血管炎,高發(fā)人群為5歲以下的兒童,是獲得性心臟病的主要病因之一。目前國內(nèi)外對KD的鑒別診斷研究取得了很大進展,研究發(fā)現(xiàn)一些炎癥指標(biāo)、蛋白質(zhì)標(biāo)記物或基因標(biāo)記物可作為KD的診斷指標(biāo)[1~6]。但目前尚無任何一種生物標(biāo)志物在獨立診斷KD時具有滿意的敏感度和特異度,需與臨床檢查相結(jié)合進行診斷。近年來有研究證明隨機森林和線性判別等數(shù)據(jù)挖掘方法可提高KD的診斷率[7~9],但相關(guān)研究分析的樣本量不大,且指標(biāo)均由經(jīng)驗選取,有一定的局限性。本研究基于病歷的相關(guān)信息,運用神經(jīng)網(wǎng)絡(luò)技術(shù)構(gòu)建了診斷模型,以期提供簡便、可靠的KD輔助診斷方法。
1.1 研究設(shè)計 預(yù)試驗采集歸類兒童KD和待鑒別發(fā)熱疾病的臨床表現(xiàn)、實驗室指標(biāo),確定建模所用數(shù)據(jù)。經(jīng)數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約的處理,采用單因素分析進行特征提取有統(tǒng)計學(xué)意義的變量。使用R 3.2.3軟件中的隨機抽樣函數(shù)將樣本隨機分為訓(xùn)練集和測試集。分別構(gòu)建Logistic回歸和BP神經(jīng)網(wǎng)絡(luò)模型對KD和待鑒別發(fā)熱疾病進行分類,通過診斷參數(shù)對兩模型進行評價和分類效果比較,確定最優(yōu)模型。
1.2 KD的診斷標(biāo)準(zhǔn) 參照美國心臟病協(xié)會2004年修訂的KD診斷標(biāo)準(zhǔn)[10]。①持續(xù)發(fā)熱>5 d;②急性期手足硬腫和掌跖發(fā)紅,第2~4周時指趾端出現(xiàn)膜狀脫皮;③多形性紅斑;④雙側(cè)結(jié)膜充血;⑤口腔及咽部黏膜彌漫充血,唇發(fā)紅及干裂,并呈楊梅舌;⑥頸淋巴結(jié)的非化膿性腫脹,其直徑>1.5 cm。除符合第①項之外,還需要滿足② ~⑥中的4項,并且排除其他可以引起類似癥狀體征的疾病。
1.3 待鑒別發(fā)熱疾病及其診斷 本文選擇以下疾病,診斷符合重慶醫(yī)科大學(xué)附屬兒童醫(yī)院(我院)疾病診療常規(guī)。麻疹、敗血癥、幼年特發(fā)性關(guān)節(jié)炎、多形性紅斑、猩紅熱、EB病毒感染、支氣管肺炎、支原體感染、上呼吸道感染、Stevens-Johnsons綜合征、病毒性腦炎、頸淋巴結(jié)炎、蜂窩組織炎和手足口病。
1.4 KD和待鑒別發(fā)熱疾病共同納入標(biāo)準(zhǔn) ①我院2007年1月至2016年1月電子病歷系統(tǒng)中出院診斷為KD(連續(xù)病例,包括不完全KD)和1.3項所列疾病的病歷(至少有KD臨床診斷標(biāo)準(zhǔn)中的一項癥狀或體征);②同一患兒多次入院,取第一次入院信息.
1.5 KD和待鑒別發(fā)熱疾病排除標(biāo)準(zhǔn) ①本文采集的臨床指標(biāo)缺失值>20項的病歷,②KD病例病史中記錄患兒入我院前接受過丙種球蛋白治療。
1.6 臨床信息采集及判斷 使用SQL Server 2008 數(shù)據(jù)庫管理工具從病歷中單人截取以下51項臨床信息。
1.6.1 一般信息 性別、發(fā)病年齡。
1.6.2 臨床表現(xiàn) ①病歷中有以下描述歸納為頸部淋巴結(jié)腫大:頸部淋巴結(jié)腫大、頸部淋巴結(jié)捫及腫大、頸部捫及包塊、頸部淋巴結(jié)稍腫大、頸部淋巴結(jié)腫、頸部淋巴結(jié)數(shù)個腫大、頸部淋巴結(jié)約黃豆大、頸部淋巴結(jié)數(shù)個、頸部淋巴結(jié)數(shù)枚、頸部淋巴結(jié)0.5 cm×0.5 cm、頸部淋巴結(jié)豌豆大、頸部淋巴結(jié)花生米大、頸部淋巴結(jié)數(shù)個腫大約蠶豆大、頸部淋巴結(jié)可觸及、頸部淋巴結(jié)炎腫大、頸部淋巴結(jié)增大、頸部淋巴結(jié)大、頸部超聲見多個腫大淋巴結(jié)、頸部淺表淋巴結(jié)輕度腫大、頸部可聞及包塊;②病歷中有以下描述歸納為皮疹,皮疹、蕁麻疹、丘疹、斑丘疹、玫瑰疹、充血性皮疹、紅色皮疹、全身散在紅色皮疹、淡紅色皮疹、充血性皮疹;③病歷中有以下描述歸納為眼結(jié)膜充血:眼結(jié)膜充血、球結(jié)膜充血、雙眼瞼結(jié)膜充血、結(jié)膜稍充血、結(jié)膜紅、結(jié)膜彌漫性充血、結(jié)膜面紫紅、結(jié)膜輕度發(fā)紅、結(jié)膜面局部充血、結(jié)膜輕微充血;④病歷中有以下描述歸納為口咽變化:咽紅、咽充血、咽部黏膜慢性充血、咽稍充血、咽中紅、咽微紅、咽部出血、唇紅、唇干燥發(fā)紅、唇櫻紅、唇皸裂、唇周有潰瘍、口唇糜爛、唇周發(fā)紺、唇周可見皮蘚、唇周干裂、口唇破潰、唇周脫屑、口唇可見結(jié)痂、嘴唇脫皮、楊梅舌;⑤病歷中有以下描述歸納為手足變化:趾指端脫屑、手指脫屑、指端脫屑、手指脫皮、手指發(fā)紫、手指紅腫、腳掌紅腫壓痛、手足硬腫、指甲板凹凸不平、手指紅腫脫皮、指/趾脫屑、手指末端腫脹、指脫屑。
1.6.3 實驗室指標(biāo) CRP、WBC、ESR、淋巴細(xì)胞百分比、單核細(xì)胞百分比、中性粒細(xì)胞百分比、嗜酸細(xì)胞百分比、RBC、Hb、HCT、平均RBC體積(MCV)、平均血紅蛋白量(MCH)、平均Hb濃度(MCHC)、RBC分布寬度(RDW)、RBC分布絕對值、PLT、PLT平均體積(MPV)、大PLT比率、PLT寬度(PDW)、PLT壓積(PCT)、結(jié)合膽紅素(CB)、總膽紅素(TBIL)、白蛋白(ALB)、球蛋白(GLB)、谷氨酰轉(zhuǎn)肽酶(GGT)、ALT、AST、AST/ALT(ASAL)、乳酸脫氫酶(LDH)、總蛋白(TP)、堿性磷酸酶(ALP)、SCr、血清K、血清Pi、血清Cl、血清Mg、血清Ca、血清Na、尿膽紅素(BIL)、尿蛋白質(zhì)、BUN、尿酸(UA)、尿亞硝酸鹽(NIT)、酮體(KET)。
1.7 臨床信息賦值 男編碼為0,女編碼為1;病歷中未出現(xiàn)以上臨床癥狀和實驗室定性陰性,編碼為0,否則編碼為1。分類數(shù)據(jù)在正常參考值范圍內(nèi)編碼為0,否則編碼為1。
1.8 基于Logistic回歸建立模型 本研究的觀察結(jié)果為患KD或待鑒別發(fā)熱疾病,為二元Logistic回歸。將與KD相關(guān)的臨床表現(xiàn)和實驗室指標(biāo)作為Logistic回歸模型的自變量,診斷結(jié)果作為因變量,對訓(xùn)練集樣本進行逐步向前Logistic回歸,P<0.05為差異有統(tǒng)計學(xué)意義。
1.9 基于BP神經(jīng)網(wǎng)絡(luò)建立模型 網(wǎng)絡(luò)的輸入對應(yīng)每個訓(xùn)練樣本的輸入變量,并將這些輸入提供給輸入層的單元,按照輸出的弧的權(quán)重進行線性加權(quán),再經(jīng)過激活函數(shù)變換后提供給第一個隱含層,該隱含層的輸出可以輸入到另一個隱藏層,以此類推。最后一個隱藏層的權(quán)重輸出作為構(gòu)成輸出層的單元的輸入,輸出層輸出給定樣本的網(wǎng)絡(luò)預(yù)測值。BP神經(jīng)網(wǎng)絡(luò)采用誤差反向傳播學(xué)習(xí)算法,把每個樣本實際值和預(yù)測值相比較進行學(xué)習(xí)。對于每一個訓(xùn)練樣本,修改權(quán)重使得網(wǎng)絡(luò)預(yù)測和實際目標(biāo)值之間的均方誤差最小。修改是“后向”進行的,即由輸出層經(jīng)由各個隱含層到第一個隱藏層。通過這種信息前向傳播和誤差逆向傳播的反復(fù)交替的過程來訓(xùn)練網(wǎng)絡(luò),最終使網(wǎng)絡(luò)趨于收斂。
1.10 統(tǒng)計分析 使用R3.2.3 軟件進行統(tǒng)計分析和模型構(gòu)建,計數(shù)資料采用χ2檢驗,用 %表示,計量資料采用t檢驗,用均數(shù)±標(biāo)準(zhǔn)差表示,P<0.05為差異有統(tǒng)計學(xué)意義。
2.1 一般情況 本研究納入KD患兒905例,男490例,女415例,年齡1~18(2.7±2.1)歲;待鑒別發(fā)熱疾病患兒438例,男242例,女196例,年齡1~18(4.0±3.9)歲。待鑒別發(fā)熱疾病包括麻疹19例,敗血癥22例,幼年特發(fā)性關(guān)節(jié)炎37例,多形性紅斑4例,猩紅熱2例,藥疹1例,EB病毒感染29例,支氣管肺炎53例,支原體感染16例,上呼吸道感染157例,Stevens-Johnsons綜合征2例,病毒性腦炎6例,頸淋巴結(jié)炎20例,蜂窩組織炎7例,手足口病13例。訓(xùn)練集1 042例,其中KD 700例,待鑒別發(fā)熱類疾病342例;測試集301例,其中KD 205例,待鑒別發(fā)熱類疾病96例。
2.2 單因素分析 表1顯示,對納入分析的1 343例KD和待鑒別發(fā)熱疾病病例采集的51項信息進行單因素分析,差異有統(tǒng)計學(xué)意義為37項。
表1 51項臨床信息的單因素分析[n(%)]
2.3 Logistic回歸分類模型 采用逐步向前的回歸方法,使用訓(xùn)練集數(shù)據(jù)對單因素分析結(jié)果中差異有統(tǒng)計學(xué)意義的37項建立Logistic回歸分類模型,并通過測試集數(shù)據(jù)對模型的性能進行評估。表2顯示,在回歸分析的結(jié)果中,16個變量納入最佳回歸方程,對KD與待鑒別的發(fā)熱性疾病有較好的預(yù)測價值。
表2 Logistic回歸分析結(jié)果
2.4 BP神經(jīng)網(wǎng)絡(luò)分類模型 將單因素分析結(jié)果中有統(tǒng)計學(xué)意義的37項指標(biāo)作為BP神經(jīng)網(wǎng)絡(luò)的輸入?yún)?shù),待分類的疾病類別為KD和待鑒別發(fā)熱疾病,經(jīng)過多次訓(xùn)練(圖1),當(dāng)隱含層節(jié)點數(shù)為24時,BP神經(jīng)網(wǎng)絡(luò)對訓(xùn)練集和測試集的擬合效果最好,故BP神經(jīng)網(wǎng)絡(luò)輸入層有37個節(jié)點,隱含層有24個節(jié)點,輸出層有1個節(jié)點。使用訓(xùn)練集數(shù)據(jù)訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型,測試集數(shù)據(jù)評估模型的預(yù)測分類能力。
2.5 Logistic回歸分類模型和BP神經(jīng)網(wǎng)絡(luò)模型的比較 表3顯示2個模型的診斷參數(shù)。Logistic回歸分類模型對訓(xùn)練集和測試集的分類正確率分別為84.1%和82.1%,ROC曲線下面積分別為0.91和0.89;BP神經(jīng)網(wǎng)絡(luò)模型對訓(xùn)練集和測試集的分類正確率分別為96.4%和86%,ROC曲線下的面積分別為0.94和0.92;2個模型的敏感度均很好, BP神經(jīng)網(wǎng)絡(luò)模型的特異度優(yōu)于Logistic回歸分類模型。
圖1 在不同隱藏層節(jié)點數(shù)下的模型誤判率
注 誤判率=1-分類正確率,使用不同的隱含層節(jié)點數(shù)進行重復(fù)試驗,當(dāng)隱含層節(jié)點數(shù)為24時,模型對于訓(xùn)練集和測試集的誤判率最低,故確定本研究BP神經(jīng)網(wǎng)絡(luò)模型的隱含層節(jié)點數(shù)為24,圖中圓圈標(biāo)記為最佳隱藏層節(jié)點數(shù)和其相應(yīng)誤判率。
表3 Logistic回歸分類模型和BP神經(jīng)網(wǎng)絡(luò)模型診斷參數(shù)比較
KD分為完全和不完全KD。其主要臨床表現(xiàn)為持續(xù)高熱、楊梅舌、非滲出性雙側(cè)眼結(jié)膜充血、口腔黏膜彌漫充血、手足硬性紅腫、皮疹和頸部淋巴結(jié)腫大等[10]。目前KD的診斷主要基于臨床體征和非特異性的實驗室指標(biāo),但由于許多發(fā)熱性疾病和KD具有相似的臨床表現(xiàn),如猩紅熱、EB病毒感染、幼年特發(fā)性關(guān)節(jié)炎、麻疹和腺病毒感染等,此外,15%~36.2%的KD患兒不具備完全的KD臨床表現(xiàn),即不完全KD,這些都可能導(dǎo)致KD的誤診和延遲診斷[11]。未經(jīng)及時治療的KD患兒中20%~25%會發(fā)生冠狀動脈損害[8],部分患兒會引發(fā)冠狀動脈瘤,少數(shù)患兒會引起局部缺血性心臟病、心肌梗死或者猝死[12]。
KD尚無特異性的診斷方法,通常依賴于患兒的臨床表現(xiàn),對于經(jīng)驗不足的臨床醫(yī)生,有可能會造成KD的誤診,因此KD與許多發(fā)熱性疾病的鑒別診斷在臨床工作中十分重要。本研究基于BP神經(jīng)網(wǎng)絡(luò)方法實現(xiàn)的KD和待鑒別發(fā)熱疾病的鑒別診斷模型,解決了KD早期各項臨床體征和實驗室指標(biāo)與診斷結(jié)果之間的非線性關(guān)系,其診斷效果得到了較好的驗證,且診斷準(zhǔn)確率高于Logistic回歸分類模型。BP神經(jīng)網(wǎng)絡(luò)模型敏感度和特異度較高,分類鑒別過程簡單,克服了主觀因素的影響,為基于經(jīng)驗的KD診斷提供了一種有價值的計算機輔助診斷方法?;诒疚腂P神經(jīng)網(wǎng)絡(luò)模型的建立進一步開發(fā)KD輔助診斷系統(tǒng),將本研究篩選的有統(tǒng)計學(xué)意義的指標(biāo)輸入計算機,系統(tǒng)會給出診斷提示。對臨床鑒別診斷KD與待鑒別發(fā)熱疾病有一定的輔助作用,具有潛在的臨床意義。
本研究的局限性:①盡管本研究全面采集了實驗室指標(biāo)和臨床體征等信息,但由于部分指標(biāo)僅有少數(shù)患兒進行了檢查,故未納入分析,其與KD的關(guān)系及預(yù)測性有待數(shù)據(jù)量擴大后進一步分析。②BP神經(jīng)網(wǎng)絡(luò)模型并不完全具備臨床醫(yī)生的診療思維,也缺乏對KD復(fù)雜性的靈活應(yīng)變,僅對臨床醫(yī)生的診療決策起輔助作用。③本研究僅對KD和待鑒別發(fā)熱疾病進行了分類鑒別,下一步重點研究的內(nèi)容之一是分析不完全KD與待鑒別發(fā)熱疾病的差異。
致謝:本研究在后期分析指標(biāo)和鑒別發(fā)熱性疾病的篩選中,得到了重慶醫(yī)科大學(xué)附屬兒童醫(yī)院心內(nèi)科張靜教授的具體指導(dǎo),謹(jǐn)致謝意!
[1] Song XY,Huang JY,Hong Q,et al.Platelet count and erythrocyte sedimentation rate are good predictors of Kawasaki disease:ROC analysis.J Clin Lab Anal,2010,24(6):385-388
[2] Dahdah N,Siles A,Fournier A,et al.Natriuretic peptide as an adjunctive diagnostic test in the acute phase of Kawasaki disease.Pediatr Cardiol,2009,30(6):810-817
[3] Kentsis A,Shulman A,Ahmed S,et al.Urine proteomics for discovery of improved diagnostic markers of Kawasaki disease.EMBO Mol Med,2013,5(2):210-220
[4] Huang MY,Gupta-Malhotra M,Huang JJ,et al.Acute-Phase Reactants and a Supplemental Diagnostic Aid for Kawasaki Disease.Pediatr Cardiol,2010,31(8):1209-1213
[5] Oh JH,Han JW,Lee SJ,et al.Polymorphisms of human leukocyte antigen genes in korean children with Kawasaki disease.Pediatr Cardiol,2008,29(2):402-408
[6] Chi H,Huang FY,Chen MR,et al.ITPKC gene SNP rs28493229 and Kawasaki disease in Taiwanese children.Hum Mol Genet,2010,19(6):1147-1151
[7] Tremoulet AH,Dutkowski J,Sato Y,et al.Novel data-mining approach identifies biomarkers for diagnosis of Kawasaki disease.Pediatr Res,2015,78(5):547-553
[8] Ling XB,Kanegaye JT,Ji J,et al.Point-of-care differentiation of Kawasaki disease from other febrile illnesses.J Pediatr,2012,162(1):183-188
[9] Hao S,Jin B,Tan Z,et al.A Classification Tool for Differentiation of Kawasaki Disease from Other Febrile Illnesses.J Pediatr,2016,176(8):114-120
[10] Newburger JW,Takahashi M,Gerber MA,et al.Diagnosis,treatment,and long-term management of Kawasaki disease:a statement for health professionals from the Committee on Rheumatic Fever,Endocarditis,and Kawasaki Disease,Council on Cardiovascular Disease in the Young,American Heart Association.Pediatrics,2004,114(6):1708-1733
[11] Yu JJ.Diagnosis of incomplete Kawasaki disease.Korean J Pediatr.,2012,55(3):83-87
[12] Kato H,Sugimura T,Akagi T,et al.Long-term consequences of Kawasaki disease.Circulation,1997,96(3):231-232
(本文編輯:張崇凡,孫晉楓)
BP neural network model for the differentiation of Kawasaki disease and febrile illnesses based on data mining
FANChu1,HEXiang-qian1,YUYue1,TIANJie2,ZHANGSheng1,LIZhe1
(1CollegeofMedicalInformatics,ChongqingMedicalUniversity,Chongqing400016,China;2DepartmentofCardiology,Children'sHospital,ChongqingMedicalUniversity,Chongqing400000,China)
HE Xiang-qian,E-mail:hexiangqian@cqmu.edu.cn
ObjectiveA BP neural network model for diagnosing Kawasaki disease(KD)based on laboratory tests and clinical symptoms was developed and evaluated.MethodsConsecutive cases of diagnosis for KD and other common febrile illnesses in electronic medical record system of Children's Hospital of Chongqing Medical University from January 2007 to January 2016 was collected as the study subject.Subjects were randomized into training cohort and test cohort using random sampling function in R 3.2.3.Totally 51 clinical information including demographic data,laboratory tests and clinical symptoms were collected and analyzed by univariate analysis to identify significant variables .The diagnostic model was established using Logistic regression analysis and BP neural network,respectively.And the diagnostic performance of the two methods was compared.ResultsA total of 905 patients with KD and 438 patients with other febrile illnesses were included:1 042 patients (700 patients with KD,342 patients with other febrile illnesses) as the training cohort and 301 patients (205 patients with KD,96 patients with other febrile illnesses ) as the testing cohort.Univariate analysis showed that 37 variables had significant difference between KD and other febrile illness.Logistic regression analysis showed that 16 variables were included in the optimal regression equation.This BP neural network had 37 input layer nodes,24 hidden layer nodes and 1 output layer nodes.Logistic regression analysis accurately diagnosed 84.1% of training cohort and 82.1% of testing cohort,the ROC analysis of Logistic regression revealed that AUC was 0.91 in training cohort and 0.89 in testing cohort.The accuracy of BP neural network was 96.4% and 86%,AUC was 0.94 and 0.92.These two models showed reasonably high sensitivity.The specificity of BP neural network model was significantly higher than that of Logistic regression model.ConclusionA BP neural network model was developed,which has important accessory diagnostic value for diagnosis of KD.But all these conclusions need further validation in clinic.
Kawasaki disease; Febrile illnesses; Logistic regression; BP neural network; Diagnostic model
重慶市自然科學(xué)基金:cstc2015shmszx0301
1重慶醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)院 重慶,400016; 2 重慶醫(yī)科大學(xué)附屬兒童醫(yī)院心內(nèi)科 重慶,400000
賀向前 ,E-mail:hexiangqian@cqmu.edu.cn
10.3969/j.issn.1673-5501.2017.01.005
2017-02-16
2017-02-21)