◇仰恩大學工程技術學院 黃紫成
突發(fā)公共衛(wèi)生事件對人民群眾生命健康造成重大威脅,科學的應急決策能最大程度降低其帶來的損失。通過計算傳染病的相似程度、構建基于C4.5決策樹模型的方法,力圖為分析疫情爆發(fā)風險等級提供參照。突發(fā)公共衛(wèi)生事件決策模型根據一個地區(qū)的經濟、醫(yī)療水平及氣候環(huán)境等因素判斷事件風險等級,為防控疫情提供技術支持。
突發(fā)公共衛(wèi)生事件的風險評估,傳染病疫情的監(jiān)測預警,一直是專家學者的研究熱點。大數據、人工智能、云計算等數字技術在疫情檢測分析與防控發(fā)揮著重要的支撐作用[1-2]。本文探討在爆發(fā)公共傳染病疫情時,與現有法定傳染病進行相似性計算,并依據結果,選取相似度最高傳染病構建基于C4.5決策樹模型,推測疫情爆發(fā)風險等級,為防控疫情提供輔助決策。
截至2020年2月4日,國家法定傳染病共40種,其中甲類傳染病2種,乙類傳染病27種,丙類傳染病11種。通過收集這40種法定傳染病的基本信息,提取典型的特征屬性見表1。
表1 法定傳染病典型特征屬性
如甲類2種傳染?。菏笠?,癥狀:“發(fā)熱毒血癥癥狀淋巴結腫大肺炎出血”,病因:“鼠疫桿菌”,傳播途徑:“鼠蚤叮咬飛沫 皮膚傷口 消化道感染”,多發(fā)群體:“全員”,平均潛伏期:3天,2015-2019年平均發(fā)病率:0.00012/10萬,2015-2019年平均死亡率:0.00004/10萬;霍亂,癥狀:“突然腹瀉 繼而嘔吐血壓下降 脈搏微弱”,病因:“霍亂弧菌”,傳播途徑:“直接接觸間接接觸”,多發(fā)群體:“全員”,平均潛伏期:“2”,2015-2019年平均發(fā)病率:“0.00142/10萬”,2015~2019年平均死亡率:“0”。
在匹配目標傳染病案例與歷史案例時,需進行屬性間的相似性的計算,本文采用如下幾個函數進行計算[3-4]:
(1)相等函數。比較兩個屬性值是否相同,若相同,相似性計算為1,反之為0。
(2)間隔函數。定義標準間隔距離,計算兩個屬性值的距離絕對值,利用如下公式計算:
(3)余弦向量相似度。計算兩個屬性之間的夾角余弦來度量它們之間的相似性,公式如下:
本文在癥狀、病因、傳播途徑、多發(fā)群體四個屬性特征,采用余弦向量進行相似度計算,平均潛伏期采用相等函數計算,平均發(fā)病率、平均死亡率采用間隔函數計算,間隔設定要大于兩個屬性距離之差的絕對值。
現假設泉州某個地區(qū)突發(fā)公共衛(wèi)生事件且傳染病為一種新型的病毒,患者主要癥狀有發(fā)熱、咳嗽、全身肌肉酸痛、乏力;傳播途徑主要通過飛沫、直接接觸和污染物品接觸傳播,全員皆可被傳染,平均潛伏期4天,通過統(tǒng)計該區(qū)當前患者數據,發(fā)病率為55.65572/10萬,死亡率0.007/10萬。為了不給群眾造成過度恐慌或者由于對該病毒認知的偏少而貽誤最佳的隔離時機。首先通過計算與當前法定傳染病相似性,計算結果顯示該類傳染病與底下三種法定傳染病最接近,相似度如表2所示。
表2 三種相似度最高的法定傳染病
從表2可以得到,流行性感冒與該種傳染病的相似度最高,而該種新型傳染病是否為大規(guī)模爆發(fā)由于缺乏有效數據還無法評定,借鑒該地區(qū)最相似的法定傳染病數據,推測爆發(fā)的風險等級具有一定的借鑒意義。
由于傳染病疫情傳播風險等級通常和一個地區(qū)經濟水平、醫(yī)療水平及氣候環(huán)境有很大的關系[5-6]。通過收集該種相似性最高的傳染病歷次觀測數據,預測分析是否爆發(fā)大規(guī)模傳染的可能性。收集的數據由七部分特征組成為:疫情地區(qū)范圍、人口密集程度、GDP(元/人)、人均醫(yī)院床位、PM2.5、平均晝夜溫差、平均相對濕度。對收集的數據進行等區(qū)間離散化處理,部分數據如下所示。
表3 該區(qū)流行性感冒歷次監(jiān)測數據
C4.5算法采用信息增益率來構建各個結點,定義如下:
通過計算得到首次信息增益率見表4。
表4 各節(jié)點的信息增益率
通過選取最大信息增益率構建根節(jié)點如圖1所示。
圖1 根結點決策圖
重復計算剩余節(jié)點的信息增益率構建決策樹,最終得到如圖2所示的完整決策模型。
圖2 基于C4.5決策樹模型圖
通過圖2得到的決策樹模型,結合現有的人口聚集程度、疫情覆蓋范圍及經濟環(huán)境因素便可以分析出當前的新型傳染病疫情爆發(fā)風險等級。如:該地區(qū)現有人口密度大,恰逢秋冬交替,晝夜溫差大,并且整個地區(qū)已有較大覆蓋范圍,就可以推測出爆發(fā)大規(guī)模傳染病的疫情等級高,政府決策部門應采取緊急聯動措施應對該公共衛(wèi)生事件[8-9]。
“依靠科學、專業(yè)處置”是《國家突發(fā)公共事件總體應急預案》的六大原則之一,科學的決策可以有效降低突發(fā)公共衛(wèi)生事件帶來各種損失。新型傳染病具有眾多的未知性和不確定性,大數據、人工智能、云計算等數字技術為疫情檢防控提供了眾多的思路。本文利用傳染病的相似性計算,結合人口密度、經濟環(huán)境因素構建C4.5傳染病決策樹模型,該模型為分析疫情爆發(fā)風險等級提供一定的依據。