国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹和人工神經(jīng)網(wǎng)絡(luò)的小兒肺炎痰熱閉肺證診斷模型研究*

2020-04-19 07:12宮文浩蘭天瑩莫清蓮戴啟剛陳莎莎唐子西劉悠江
關(guān)鍵詞:人工神經(jīng)網(wǎng)絡(luò)決策樹證候

宮文浩,蘭天瑩,莫清蓮,楊 燕,戴啟剛,陳莎莎,唐子西,劉悠江,艾 軍**

(1. 廣西中醫(yī)藥大學(xué)基礎(chǔ)醫(yī)學(xué)院 南寧 530200;2. 廣西中醫(yī)藥大學(xué)壯醫(yī)藥學(xué)院 南寧 530200;3. 首都醫(yī)科大學(xué)附屬北京兒童醫(yī)院 北京 100045;4. 南京中醫(yī)藥大學(xué)附屬醫(yī)院 南京 210023;5. 南寧市邕寧區(qū)人民醫(yī)院 南寧530200)

小兒肺炎(pneumonia)是兒科常見的肺系疾病之一, 以氣喘、咳嗽、咯痰痰鳴、發(fā)熱為主要特征[1]。其發(fā)病率逐年上升,是發(fā)展中國家5 歲以下兒童死亡的主要原因。本病屬中醫(yī)“肺炎喘嗽”、“風(fēng)溫”范疇,運(yùn)用中醫(yī)藥治療療效確切,其中痰熱閉肺證是最常見證型。筆者運(yùn)用數(shù)據(jù)挖掘技術(shù)開展小兒肺炎郁熱辨證及衛(wèi)氣營血辨證的證候基礎(chǔ)研究,本證也為最重要證型。因此,探索運(yùn)用決策樹和人工神經(jīng)網(wǎng)絡(luò)方法建立本病證診斷模型,有益于相關(guān)研究的深入。

中醫(yī)辨證的思維過程與數(shù)據(jù)挖掘極其相似。決策樹和人工神經(jīng)網(wǎng)絡(luò)模型作為數(shù)據(jù)挖掘中機(jī)器學(xué)習(xí)模型,可以充分模擬中醫(yī)思維,在證候分類與決策中應(yīng)用最為廣泛且準(zhǔn)確率較高[2-4]。本研究將收集大樣本、多中心小兒肺炎臨床病例,運(yùn)用CRT、CHAID、QUEST、C5.0決策樹方法和多層感知器(MLP)、徑向基函數(shù)(RBF)算法的人工神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘方法,對小兒肺炎痰熱閉肺證四診信息進(jìn)行分析,旨在建立小兒肺炎的痰熱閉肺證診斷模型,規(guī)范小兒肺炎辨證論治,為中醫(yī)客觀化、標(biāo)準(zhǔn)化提供客觀依據(jù)。

1 資料與方法

1.1 一般資料

2017 年 1 月-2018 年 12 月間在首都醫(yī)科大學(xué)附屬北京兒童醫(yī)院、南京中醫(yī)藥大學(xué)附屬醫(yī)院、廣西中醫(yī)藥大學(xué)第一附屬醫(yī)院共3家醫(yī)院收集確診為小兒肺炎的病例,共計 918 例(北京 329 例、南京360 例、廣西229例)。所有患兒均簽署知情同意書。其中男性513例(55.3%),女性405例(44.1%)。男女比例為1.26:1。

1.2 診斷標(biāo)準(zhǔn)

西醫(yī)診斷標(biāo)準(zhǔn):參照《諸福棠實用兒科學(xué)》[5]第8版制訂。中醫(yī)辨病辨證標(biāo)準(zhǔn):符合中華中醫(yī)藥學(xué)會兒科分會《小兒肺炎喘嗽中醫(yī)診療指南》[1]內(nèi)肺炎喘嗽的痰熱閉肺證辨證標(biāo)準(zhǔn)。

1.3 納入和排除標(biāo)準(zhǔn)

納入標(biāo)準(zhǔn):(1)符合西醫(yī)診斷標(biāo)準(zhǔn)及中醫(yī)辨病辨證標(biāo)準(zhǔn);(2)年齡在1-15 周歲;(3)住院患者;患兒法定監(jiān)護(hù)人知情同意受試。

排除標(biāo)準(zhǔn):(1)心力衰竭、呼吸衰竭、中毒性腦病、滲出性胸膜炎等合并癥者;(2)合并有心、肝、腎和造血系統(tǒng)等嚴(yán)重原發(fā)性疾病,精神病患者;(3)觀察資料不全而影響評估者。

1.4 證型分布

依據(jù)《小兒肺炎喘嗽中醫(yī)診療指南》中痰熱閉肺證的辨證標(biāo)準(zhǔn),由2 名具有正高級職稱的中醫(yī)兒科專家進(jìn)行辨證分型判斷。納入的小兒肺炎病例共計918例。其中痰熱閉肺證436 例,非痰熱閉肺證482 例(包括風(fēng)熱閉肺證214 例,毒熱閉肺證132 例,陰虛肺熱證91例,肺脾氣虛證45例)。

1.5 數(shù)據(jù)預(yù)處理

應(yīng)用Microsoft Office Excel 2019 軟件將臨床收集的患兒病例的基本信息、四診信息和辨證分型信息進(jìn)行整理,建立數(shù)據(jù)庫。采取雙人雙機(jī)獨(dú)立錄入,減少信息誤差。中醫(yī)癥狀術(shù)語規(guī)范均參照《中醫(yī)癥狀鑒別診斷學(xué)》[6]。清洗和剔除無效數(shù)據(jù)以及病歷記錄不全者。對于癥狀描述出現(xiàn)者賦值為1,不出現(xiàn)者賦值為0。對所有的四診信息作頻數(shù)頻率統(tǒng)計,按照從高到低排序結(jié)果,剔除頻率小于10%的四診信息。最終篩選出17個四診信息作為證候因子納入模型中。

1.6 數(shù)據(jù)挖掘模型建立及驗證

經(jīng)預(yù)處理后,將賦值后篩選的918 例小兒肺炎的數(shù)據(jù)庫導(dǎo)入到SPSS Moderler 18.0,設(shè)定17個四診信息為自變量,“是否為痰熱閉肺證”為因變量,采用CRT、C5.0、CHAID 和QUEST 算法的決策樹以及多層感知器(MLP)和徑向基函數(shù)(RBF)算法的人工神經(jīng)網(wǎng)絡(luò)的方法建立數(shù)據(jù)挖掘模型,分析痰熱閉肺證的診斷規(guī)律。并對最終的模型進(jìn)行測試集驗證。

2 結(jié)果

2.1 證候要素頻率分析結(jié)果

通過應(yīng)用R 語言對小兒肺炎痰熱閉肺證的所有四診信息進(jìn)行頻率分析,發(fā)現(xiàn)其中出現(xiàn)頻率最高的依次是咳嗽(98.6%)、舌紅(66.3%)、發(fā)熱(61.9%)、痰色黃(57.6%)、苔黃膩(47.9%)、痰多粘稠(47.5%)等(見圖1)。最終篩選頻率大于10%的四診信息共17項并納入到?jīng)Q策樹和人工神經(jīng)網(wǎng)絡(luò)模型中。

2.2 小兒肺炎痰熱閉肺證CRT決策樹模型

通過運(yùn)用CRT算法的決策樹對918例小兒肺炎進(jìn)行建模分析,結(jié)果顯示樹模型深度為1,形成2個節(jié)點,終結(jié)點1 個。篩選出痰多粘稠屬性為符合決策樹規(guī)則。得出的判別規(guī)則為若“痰多粘稠=是”,則判斷為“痰熱閉肺證”。其中訓(xùn)練樣本的準(zhǔn)確率為83.06%。測試樣本的準(zhǔn)確率為78.13%。見圖2。

2.3 小兒肺炎痰熱閉肺證CHAID決策樹模型

運(yùn)用CHAID 算法的決策樹模型對納入的918 例小兒肺炎進(jìn)行建模,卡方方法為Pearson相關(guān)系數(shù)。結(jié)果顯示樹模型深度為5,共產(chǎn)生10 個節(jié)點,終結(jié)點6個。共篩選出痰多粘稠、苔黃、痰色黃、舌紅、咳嗽等屬性符合決策樹規(guī)則。判別規(guī)則為:若“痰多粘稠=是”、“苔黃=否”且“痰色黃=是”偏向于診斷痰熱閉肺證。10 倍交叉驗證中訓(xùn)練樣本為準(zhǔn)確率為90.98%。測試集的準(zhǔn)確率為85.87%。見圖3。

2.4 小兒肺炎痰熱閉肺證QUEST決策樹模型

運(yùn)用QUEST算法的決策樹模型對納入的918例小兒肺炎進(jìn)行分析,結(jié)果顯示樹模型深度為2,共產(chǎn)生4個節(jié)點,終結(jié)點3個。共篩選出痰多粘稠、苔黃等屬性符合決策樹規(guī)則。判別規(guī)則為:若“痰多粘稠=是”且“苔黃=否”偏向于診斷痰熱閉肺證。其中訓(xùn)練樣本為準(zhǔn)確率為89.5%。測試集的準(zhǔn)確率為85.07%。見圖4。

2.5 小兒肺炎痰熱閉肺證C5.0決策樹模型

圖2 CRT算法決策樹模型示意圖

運(yùn)用C5.0算法的決策樹模型對納入的918例小兒肺炎進(jìn)行分析,結(jié)果顯示樹模型深度為11,共產(chǎn)生19個節(jié)點,終結(jié)為12個。共篩選出痰多粘稠、苔黃、痰色黃、咳嗽、脈滑等屬性符合決策樹規(guī)則。判別規(guī)則為:①若“痰多粘稠=是”、“苔黃=否”、“痰色黃=是”,則判斷為痰熱閉肺證。②若“痰多粘稠=是”、“苔黃=否”、“痰色黃=否”、“咳嗽=是”且“脈滑=是”偏向于診斷痰熱閉肺證。③若“痰多粘稠=是”、“苔黃=否”、“痰色黃=否”、“咳嗽=是”、“脈滑=否”、“嘔吐=否”、“鼻塞=否”且“指紋紫滯=是”,判斷為痰熱閉肺證。其中訓(xùn)練樣本為準(zhǔn)確率為93.19%。測試集的準(zhǔn)確率為90.93%。見圖5。

2.6 基于MLP 算法人工神經(jīng)網(wǎng)絡(luò)的小兒肺炎痰熱閉肺證診斷模型

運(yùn)用MLP算法的人工神經(jīng)網(wǎng)絡(luò)對導(dǎo)入的篩選的17項自變量小兒肺炎數(shù)據(jù)庫進(jìn)行建模分析。結(jié)果顯示訓(xùn)練樣本的正確率為92.08%,測試數(shù)據(jù)集的正確率為91.2%。生成的神經(jīng)網(wǎng)絡(luò)模型中,隱藏層共含有7個神經(jīng)元。見圖6。其中小兒肺炎痰熱閉肺證證候因子中占權(quán)重相對較高的有:痰多粘稠(24.8%)、痰色黃(18.5%)、苔黃(14.6%)、脈滑(7.5%)、咳嗽(6.1%)、嘔吐(5.8%)、鼻塞(4.0%)、指紋紫滯(3.6%)。見表1。

表1 基于MLP算法人工神經(jīng)網(wǎng)絡(luò)的小兒肺炎痰熱閉肺證輸入變量重要性

圖3 CHAID算法決策樹模型示意圖

圖4 QUEST算法決策樹模型示意圖

2.7 基于RBF 算法人工神經(jīng)網(wǎng)絡(luò)的小兒肺炎痰熱閉肺證診斷模型

運(yùn)用基于RBF 算法的人工神經(jīng)網(wǎng)絡(luò)對導(dǎo)入的小兒肺炎的篩選的17 個自變量數(shù)據(jù)庫進(jìn)行建模分析。結(jié)果顯示訓(xùn)練樣本的正確率為90.75%,測試數(shù)據(jù)集的正確率為85.33%。生成的神經(jīng)網(wǎng)絡(luò)模型中,隱藏層共含有8 個神經(jīng)元。見圖7。其中小兒肺炎痰熱閉肺證證候因子中占權(quán)重相對較高的有:痰多粘稠(22.4%)、痰色黃(13.0%)、苔黃(10.4%)、脈滑(6.4%)。見表2。

表2 基于RBF算法人工神經(jīng)網(wǎng)絡(luò)的小兒肺炎痰熱閉肺證輸入變量重要性

3 討論

決策樹是機(jī)器學(xué)習(xí)中的預(yù)測模型。它主要建立決策樹節(jié)點,并且根據(jù)字段的不同值來建立分支[7]。最終生成的規(guī)則可視化,便于理解其內(nèi)部的規(guī)則。CHAID 算法(卡方自動交互檢測法)原理是根據(jù)結(jié)果變量的對樣本的結(jié)果變量進(jìn)行最優(yōu)分割,采用卡方檢驗的結(jié)果進(jìn)行分組判斷[8]。QUEST(Quick, Unbiased,Efficient,Statistical Tree),是一種用于構(gòu)建決策樹的二元分類法[9]。算法可以使分支變量和分割點的選擇分開進(jìn)行,兼顧適用于同時使用連續(xù)型的變量和離散型的變量的特點。C5.0決策樹是從ID3和C4.5算法衍生出來的。作為C4.5 的商業(yè)版本,C5.0 改善了生成規(guī)則和算法精度,實現(xiàn)更準(zhǔn)確的生成規(guī)則,更快的速度和更低的錯誤率,它更適合于對大型數(shù)據(jù)集進(jìn)行分類[10]。多層感知器(Multiple-Layer Perceptron,MLP)利用通用函數(shù)逼近器來對局部特征進(jìn)行提取。它也是一個深度學(xué)習(xí)模型,與卷積神經(jīng)網(wǎng)絡(luò)相同,均可采用反向傳播訓(xùn)練[11]。徑向基函數(shù)(Radial Basis Function,RBF)能夠逼近任意的非線性函數(shù),學(xué)習(xí)收斂速度快,各方面均優(yōu)于BP神經(jīng)網(wǎng)絡(luò)[12]。

本研究中,采用四種算法建立的小兒肺炎痰熱閉肺證診斷決策樹模型均有較高的預(yù)測準(zhǔn)確性。并且通過決策樹模型可視化可以直觀的展現(xiàn)決策的過程。CRT、CHAID、QUEST、C5.0 的預(yù)測準(zhǔn) 確 性分別為83.1%、91.0%、89.5%、93.2%。其中C5.0 算法的決策樹判斷準(zhǔn)確率高于其他三種算法,為小兒肺炎痰熱閉肺證最佳診斷模型。通過決策樹共篩選出6~12 個判斷規(guī)則的證候因子,其中痰多粘稠、痰色黃、脈滑、咳嗽、指紋淡紫在決策樹中起決定性作用。并生成了2條最可信的判斷規(guī)則為:①若“痰多粘稠=是”、“苔薄黃=否”且“痰色黃=是”,則診斷為痰熱閉肺證;②若“痰多粘稠=是”、“苔黃=否”、“痰色黃=否”、“咳嗽=是”、“脈滑=否”、“嘔吐=否”、“鼻塞=否”且“指紋紫滯=是”,判斷為痰熱閉肺證。本研究還運(yùn)用了MLP 和RBF 的神經(jīng)網(wǎng)絡(luò)對小兒肺炎進(jìn)行訓(xùn)練建模,并對輸入的證候因子的權(quán)重進(jìn)行分析。顯示痰多粘稠、痰色黃、苔薄黃、脈滑、咳嗽等證候因子重要性最高。通過對訓(xùn)練和測試樣本準(zhǔn)確率來看,MLP 算法的神經(jīng)網(wǎng)絡(luò)要優(yōu)于RBF 算法的神經(jīng)網(wǎng)絡(luò),可被優(yōu)先用于小兒肺炎痰熱閉肺證的輔助診斷。其中“痰多粘稠”、“痰色黃”為兩個模型共同篩選出可信度比較高的兩個證候因子。

圖5 C5.0算法決策樹模型示意圖

圖6 MLP算法神經(jīng)網(wǎng)絡(luò)示意圖

鄭惠伯教授[13]用“痰、熱、閉”概括了小兒肺炎的基本病機(jī)。汪教授[14]進(jìn)一步將小兒肺炎概括為“熱、郁、痰、瘀”。提出了治療應(yīng)從清熱、解郁、滌痰、化瘀等幾個方面進(jìn)行。艾軍教授[15]運(yùn)用了關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法,對收集的480例小兒肺炎進(jìn)行運(yùn)算,分析得到小兒肺炎痰熱閉肺證中痰相關(guān)病機(jī)比風(fēng)熱犯肺證關(guān)聯(lián)度高。本研究運(yùn)用決策樹和神經(jīng)網(wǎng)絡(luò)方法對小兒肺炎痰熱閉肺證數(shù)據(jù)集建模,發(fā)現(xiàn)痰熱閉肺證中痰多粘稠、痰色黃、脈滑、咳嗽、指紋紫滯相關(guān)證候因子在證候中起決定因素。說明痰熱閉肺證包含“熱”、“痰”、“瘀”的基本病機(jī)?!疤怠辈C(jī)在其中占到了首位,與中醫(yī)辨證理論相符合。其次,痰色黃、脈滑說明痰熱閉肺證中包含的“熱”病機(jī)僅次于“痰”病機(jī)。但由于收集小兒肺炎的病例中痰熱閉肺證的病情較為輕淺,導(dǎo)致“瘀”相關(guān)的病機(jī)在模型中所占比重降低。

圖7 RBF算法神經(jīng)網(wǎng)絡(luò)示意圖

綜上所述,通過運(yùn)用決策樹和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法對小兒肺炎痰熱閉肺證分析,建立小兒肺炎痰熱閉肺證的診斷模型,更加直觀、清晰地找到小兒肺炎痰熱閉肺證的診斷辨證規(guī)則。C5.0 算法的決策樹模型和MLP 神經(jīng)網(wǎng)絡(luò)模型為小兒肺炎痰熱閉肺證診斷的最優(yōu)模型。從中提取的痰多粘稠、痰色黃、脈滑、指紋紫滯等屬性在痰熱閉肺證的診斷規(guī)則中起決定性作用?!疤怠?、“熱”病機(jī)為小兒肺炎痰熱閉肺證的主要病機(jī),與中醫(yī)辨證理論相符。通過建模分析,本研究證明了運(yùn)用機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘方法來建立中醫(yī)診斷模型的可行性,為中醫(yī)臨床辨證提供客觀依據(jù)。但是仍需納入大樣本、多層次的數(shù)據(jù)進(jìn)行研究,將結(jié)論在臨床中加以檢驗和驗證。并結(jié)合西醫(yī)的診斷指標(biāo)以及生物標(biāo)志物,豐富診斷模型的適用范圍。

猜你喜歡
人工神經(jīng)網(wǎng)絡(luò)決策樹證候
單核苷酸多態(tài)性與中醫(yī)證候相關(guān)性研究進(jìn)展
改進(jìn)貝葉斯統(tǒng)計挖掘名老中醫(yī)對肺痿的證候分型經(jīng)驗
慢性阻塞性肺疾病中醫(yī)證候研究綜述
基于人工神經(jīng)網(wǎng)絡(luò)的Ni-ZrO2納米鍍層耐腐蝕性能預(yù)測
人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)簡單字母的識別
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
基于人工神經(jīng)網(wǎng)絡(luò)的優(yōu)化配置研究
決策樹學(xué)習(xí)的剪枝方法
決策樹多元分類模型預(yù)測森林植被覆蓋
基于人工神經(jīng)網(wǎng)絡(luò)的經(jīng)濟(jì)預(yù)測模型