摘要:篩選出對病情發(fā)展有重要影響的因素,對新增確診人數(shù)和新增死亡人數(shù)做出預測。通過隨機森林的特征重要性篩選出對疫情發(fā)展影響最大的因素,使用LSTM(Long Short Term Memory Network)建立預測模型。機場的繁忙程度對確診人數(shù)影響最大,人口密度與死亡人數(shù)的關聯(lián)性最大。美國地區(qū)的人口密度和機場交通情況對感染人數(shù)影響較大,從而影響年齡在80歲以上老人的死亡率,但分析結果顯示美國疫情發(fā)展已基本趨于穩(wěn)中下降的態(tài)勢。
關鍵詞:COVID-19;影響因素;LSTM;感染數(shù);死亡數(shù)
中圖分類號:R318;TP183? ? 文獻標識碼:A? ? 文章編號:2096-4706(2021)07-0091-04
Disease Prediction and Influencing Factors Analysis of COVID-19
Based on LSTM Model
HU Haiwen
(School of Mathematics and Physics,Lanzhou Jiaotong University,Lanzhou? 730070,China)
Abstract:To screen out the factors that have an important impact on the development of the disease,and to predict the number of new confirmed cases and new deaths. Based on the importance of random forest characteristics,the most influential factors were screened out,and the LSTM(Long Short Term Memory Network)was used to establish the prediction model. The business of the airport has the greatest impact on the number of confirmed cases,and the population density has the greatest correlation with the number of deaths. The population density and airport traffic conditions in the United States have a great impact on the number of infected people,thus affecting the mortality of the elderly over 80 years old. However,the analysis results show that the development of the epidemic situation in the United States has basically tended to a steady decline.
Keywords:COVID-19;influencing factor;LSTM;number of infections;number of deaths
收稿日期:2021-03-11
基金項目:國家自然科學基金(61863022)
0? 引? 言
2019年底暴發(fā)的新冠肺炎疫情(COVID-19)給全世界的醫(yī)療健康、經濟發(fā)展帶來了巨大影響。由于早期對病毒(SARS-CoV2)缺乏相應的認知,未能做到及時采取有力的應對措施,導致全球的感染人數(shù)急速增長。隨著對病毒了解程度的加深,各國政府先后采取各種非藥物干預(non-pharmaceutical interventions,NPIs)措施,例如公共場所佩戴口罩、保持社交距離、對外來人員實行集中管控及隔離等措施,在很大程度上抑制了病毒的傳播,使得疫情得到有效的控制。但由于超級傳播者和無癥狀感染者的存在,使該地區(qū)的感染人數(shù)在短期內會迅速增加,這在一定程度上加大了疫情防控的難度。據(jù)世界衛(wèi)生組織公布的數(shù)據(jù),截至2021年4月29日,全球新冠確診病例達到149 197 928例,死亡病例為3 146 119例。需要注意的是,當傳播概率一定時,即使疫苗注射普及率很高,但疫苗的有效性較低,仍會有極大可能發(fā)生感染大爆發(fā),光靠疫苗注射控制疫情的效果可能不如采取嚴格的非藥物干預措施[1]。所以,針對新冠傳染情況比較嚴重的地區(qū),進行傳染因素和影響病情發(fā)展因素的分析,對有針對性地控制疫情發(fā)展具有重要作用,此外,對疫情發(fā)展的有效預測,對后期疫情的管控和預防意義重大。
美國作為新冠疫情的重災區(qū),確診病例高達3千多萬例,雖然目前已經開發(fā)出疫苗,但早期感染數(shù)量較大,同時病毒不斷變異,病情還是有很大可能會繼續(xù)惡化下去。本文分析了疫情發(fā)展過程中導致患者感染和死亡的主要因素,通過對疫情發(fā)展的預測,為后期更有針對性地實施防御保護措施提供支撐,同時也可以為后續(xù)類似呼吸疾病的預防和管控提供寶貴的參考經驗。
1? 數(shù)據(jù)、特征選擇與方法
1.1? 數(shù)據(jù)來源與特征選擇
本文從紐約時報、美國勞工統(tǒng)計局、美國人口普查局等網(wǎng)站獲取了2020年美國各個州的靜態(tài)特征數(shù)據(jù)[2],包括各州的GDP、面積、人口密度、人口分布情況等,具體如表1所示。此外,從Johns Hopkins University Center for Systems Science and Engineering(JHU CSSE)[3]中獲取了美國新冠發(fā)展的具體數(shù)據(jù),其中包括從美國確診第一例新冠病毒開始,到2021年5月為止的每日新增確診數(shù)和死亡數(shù)、7日平均新增病例數(shù)以及總感染人數(shù)和死亡數(shù)。其中,靜態(tài)數(shù)據(jù)可以更好地體現(xiàn)各州的綜合情況,能直接反映出受新冠病毒影響最嚴重的群體,同時可得出新冠病毒的發(fā)展與哪些靜態(tài)穩(wěn)定的因素有關[4-6]。因為該數(shù)據(jù)集涵蓋的因素過多,直接用所有特征進行相關性分析會比較繁瑣耗時,所以本文首先對近100多個相關的因素進行特征篩選,采用隨機森林的重要性評分方法進行重要性評估,得到對新冠感染人數(shù)和死亡人數(shù)影響最大的前10個因素,然后再對較重要的因素進行相關性分析,得到影響程度比較大的因素。疫情預測所使用的數(shù)據(jù)來源于JHU CSSE在GitHub上公開的開源數(shù)據(jù),數(shù)據(jù)質量較好,沒有空白數(shù)據(jù),因為每日新增病例更能看出疫情整體的發(fā)展變化趨勢,所以預測的重點在于新增病例的情況。
1.2? 理論方法
1.2.1? 隨機森林
隨機森林作為一種監(jiān)督式分類算法,可以學習數(shù)據(jù)特征與標簽的關系,它通過自助法(bootstrap)重采樣技術,不斷從原始訓練樣本集N中有放回地反復隨機抽取n個樣本,生成一個新的訓練樣本集合,最終用來訓練決策樹,多次重復后就得到了多棵樹組成的隨機森林。而通過隨機森林的重要性評估可以實現(xiàn)對結果影響最大的特征選擇,達到壓縮模型所用的特征數(shù)的作用[6]。計算公式為:
(1)
其中,袋外數(shù)據(jù)誤差為errOOB1,在計算過程中,隨機地為袋外數(shù)據(jù)加入噪聲干擾,會得到新的袋外數(shù)據(jù)誤差errOOB2,N為隨機森林樹的個數(shù)。如果在特征中隨機加入噪聲后,袋外準確率呈現(xiàn)較大幅度的降低,則代表該特征對樣本分類結果影響很大,該特征的變動會極大程度地影響分類結果,即證明其重要性程度比較高。
1.2.2? LSTM
長短時記憶網(wǎng)絡(Long Short Term Memory Network,LSTM)為改進后的循環(huán)神經網(wǎng)絡(Recurrent Neural Network,RNN)。它能解決RNN對短期的輸入敏感的問題,此外,LSTM在RNN的基礎上增加了一個狀態(tài)結構和三個門結構,如圖1所示,即:單元狀態(tài)(cell state)、遺忘門、輸入門和輸出門。其中,遺忘門通過函數(shù)控制之前信息的輸入程度,輸入門控制當前信息的輸入程度,輸出門則用來控制最終輸出[7-9]。LSTM能夠綜合處理長期和短期的輸入,非常適合處理時間序列的預測問題。
遺忘門會讀取ht-1和xt的信息,當ft=0時,該部分被遺忘,當ft=1時,信息會保留,ft的計算公式為:
(2)
第二個過程是要將新信息存放在長期狀態(tài)里,此過程包含三個部分:首先是tanh層創(chuàng)建一個新的候選值向量,然后輸入門層it控制對候選向量的哪些元素進行更新,最后新信息被加入到長期狀態(tài)中[10],此過程的計算公式為:
(3)
(4)
(5)
輸出門則基于細胞的狀態(tài),確定最后輸出的值。首先通過sigmoid層確定輸出的信息,然后通過tanh層對長期狀態(tài)進行處理,將其與經過輸出門過濾的信息相乘,得到最終的ht,計算公式為:
(6)
(7)
1.2.3? 度量指標
本文使用R2的大小來衡量模型的預測精度[11]。R2的計算公式為:
(8)
其中,為預測值,y(i)為真實值,為平均值,有用模型的R2范圍一般是在0到1之間,R2越接近于1,表示模型的預測效果越好,越接近于0,表示模型的預測效果越差,如果R2為負數(shù),則表明模型擬合的預測誤差過大。
2? 結果
2.1? 特征篩選結果
通過隨機森林中的特征重要性對所有特征進行重要性評分,然后對結果排序,取出前十個數(shù)據(jù),結果如表2所示。通過計算結果可以得出,新冠肺炎的確診人數(shù)與年齡在25~29歲、50~54歲和85歲以上、距紐約的距離、機場繁忙程度、地區(qū)GDP、亞裔、流浪者人數(shù)、封鎖天數(shù)有比較大的關系,而死亡人數(shù)與年齡在55~59歲、80歲以上、距紐約州、紐澤西州的距離、機場繁忙程度、地區(qū)GDP、人口密度和封鎖前的檢測人數(shù)有關。
進一步對選出的因素做相關的關系分析,結果如圖2所示。
得出結論:確診人數(shù)主要與地區(qū)機場的繁忙程度、地區(qū)GDP水平、年齡在50~59歲、80~84歲、85歲以上、人口密度和流浪者人數(shù)有較大的關系,可以推測,某地區(qū)GDP水平比較高時,該地區(qū)的人口密度較高,交通會比較繁忙,所以當某地區(qū)的人流較大時,新冠肺炎確診的人數(shù)會比較多,老年群體,尤其是年齡在80歲以上的老人,更有可能被確診感染新冠病毒。死亡人數(shù)與人口密度、地區(qū)機場的繁忙程度、年齡在80歲以上的老人人數(shù)相關性較大,當人口密度高、交通繁忙時,會使病毒傳染更快,確診人數(shù)的增加,加之老年人的抵抗能力較弱,使得死亡病例更多集中在80歲以上的老年群體中,且死亡率沒有呈現(xiàn)種族偏好。
2.2? LSTM預測結果
預測采用的數(shù)據(jù)是從2020年1月22日美國出現(xiàn)第一例確診病例開始,到2021年3月1日為止,全美國每日出現(xiàn)的確診病例和死亡人數(shù)。由于數(shù)據(jù)從0開始增加到萬,為減少量綱對預測結果的影響,對數(shù)據(jù)進行歸一化處理。模型輸入層為1層,隱藏層為6層,可以達到較佳的擬合情況,優(yōu)化器選擇了隨機梯度下降(SGD),能夠有效避免陷入局部最優(yōu),同時也能加快收斂速度。預測時,采用了的間隔取數(shù),避免局部數(shù)據(jù)的影響。最終得到模型的R2=0.830 3,最終的預測模型擬合情況如圖3、圖4所示。從預測圖中可以看出,美國每日新增確診和死亡人數(shù)已基本穩(wěn)定且不斷減少,疫情得到緩解。
3? 結? 論
本文首先對影響美國疫情發(fā)展的一些靜態(tài)數(shù)據(jù)指標進行了分析,篩選出比較重要的特征后進行確診病例和死亡病例的相關性分析,發(fā)現(xiàn)美國新冠的確診人數(shù)與年齡在85歲以上、地區(qū)的交通繁忙程度和GDP發(fā)展水平等因素的相關性最大,而死亡人數(shù)則與人口密度和年齡在80歲以上的相關性最大。得到此結論后,本文采用了LSTM建立模型,對美國疫情的每日發(fā)展情況進行了預測,通過預測結果可以看出,美國的疫情目前已經趨穩(wěn),確診人數(shù)和死亡人數(shù)都在不斷下降。
參考文獻:
[1] TANG B,ZHANG X,LI Q,et al. The minimal COVID-19 vaccination coverage and efficacy to compensate for potential increase of transmission contacts,and increased transmission probability of the emerging strains [J/OL].BNE Public Health,2021:[2021-02-24].https://www.researchsquare.com/article/rs-140717/v1.
[2] CDC. Covid data tracker [EB/OL].[2021-03-01]. https://covid.cdc.gov/covid-data-tracker/#datatracker-home.
[3] Johns Hopkins University & Medicine. COVID-19 Dashboard by the Center for Systems Science and Engineering (CSSE) at Johns Hopkins University (JHU) [EB/OL].[2021-03-01].https://coronavirus.jhu.edu/map.html.
[4] RANDHAWA G,SOLTYSIAK M,EL ROZ H,et al. Machine learning using intrinsic genomic signatures for rapid classification of novel pathogens:COVID-19 case study [J/OL].PLOS One,2020,15(4):[2021-03-01].https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0232391.
[5] 胡小亮,路方紅,劉振東,等.原發(fā)性高血壓患者血壓晨峰與心血管疾病危險因素相關性分析 [J].中國循環(huán)雜志,2012,27(2):95-98.
[6] 湯正義,李向利,張煒,等.2型糖尿病神經病變的發(fā)病情況與有關因素相關性分析 [J].中華內科雜志,2003(12):47-48.
[7] 黃梅,朱焱.基于隨機森林特征重要性的K-匿名特征優(yōu)選 [J].計算機應用與軟件,2020,37(3):266-270.
[8] 李俊卿,李秋佳,石天宇,等.基于隨機森林重要性的LSTM網(wǎng)絡風電功率缺失數(shù)據(jù)補齊 [J].電器與能效管理技術,2018(13):47-52+58.
[9] 歐陽紅兵,黃亢,閆洪舉.基于LSTM神經網(wǎng)絡的金融時間序列預測 [J].中國管理科學,2020,28(4):27-35.
[10] ALIMADADI A,ARYAL S,et al. Artificial intelligence and machine learning to fight COVID-19 [J].Physiological Genomics,2020,52(4):200-202.
[11] WANG P P,ZHENG X Q,LI J Y,et al. Prediction of epidemic trends in COVID-19 with logistic model and machine learning technics [J/OL].Chaos,Solitons & Fractals,2020,139:[2021-03-01].https://doi.org/10.1016/ j.chaos.2020.110058.
作者簡介:胡海文(1995—),女,漢族,甘肅嘉峪關人,碩士研究生在讀,研究方向:應用統(tǒng)計。