楊芷銘 謝歐 謝文武
摘? 要:文章針對新型冠狀病毒(COVID-19)管控難以及疫情治理難等普遍性問題,對國內(nèi)外疫情數(shù)據(jù)進(jìn)行預(yù)處理并實現(xiàn)數(shù)據(jù)的可視化顯示,然后通過時序分析方法中的趨勢分析和突變分析識別,建立基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分析模型——ANN模型和LSTM模型。通過訓(xùn)練模型展示出疫情相關(guān)結(jié)果,預(yù)測疫情發(fā)展趨勢。其結(jié)果與實際趨勢能夠很好地對應(yīng)起來,進(jìn)一步驗證了兩種模型的有效性和實用性。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);數(shù)據(jù)預(yù)測;數(shù)據(jù)分析;COVID-19
中圖分類號:TP18? ? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)13-0032-07
Analysis and Prediction of COVID-19 Data Based on Neural Networks
YANG Zhiming, XIE Ou, XIE Wenwu
(School of Information Science and Engineering, Hunan Institute of Science and Technology, Yueyang? 414006, China)
Abstract: In view of the common problems such as the difficulty of COVID-19 management and control and the difficulty of epidemic management, this paper preprocesses the domestic and foreign epidemic data and realizes the visual display of the data. Then, through the trend analysis and muta-tion analysis identification in the time series analysis method, the data analysis model based on neural networks - ANN model and LSTM model are es-tablished. Display epidemic related results through training models and predict the development trend of the epidemic. The results correspond well with the actual trends, further verifying the effectiveness and practicali-ty of the two models.
Keywords: neural network; data prediction; data analysis; COVID-19
0? 引? 言
新冠疫情期間,如何精確有效的預(yù)測疫情的走向成為研究的熱點問題,許多研究團隊對新冠感染的情況進(jìn)行了分析[1,2]。文獻(xiàn)[3]建立了一個城市級結(jié)構(gòu)化疫情預(yù)測模型,并基于最新的傳染病動力學(xué)理論,將SEIR模型與社會網(wǎng)絡(luò)模型結(jié)合起來對新冠感染狀況進(jìn)行分析。文獻(xiàn)[4]提出了一種改進(jìn)的SIR模型來預(yù)測新冠感染狀況,其中還考慮了新冠感染的死亡者因素。文獻(xiàn)[5]建立了時間序列模型,對湖北省新冠感染確診人數(shù)進(jìn)行預(yù)測分析,并給出相應(yīng)的建議。文獻(xiàn)[6]提出了一種基于組合式神經(jīng)網(wǎng)絡(luò)的新冠預(yù)測模型,并對湖北省確診人數(shù)進(jìn)行了預(yù)測,最后驗證了模型的準(zhǔn)確性。文獻(xiàn)[7]通過建立數(shù)學(xué)模型以及擬合的方式來對中國的疫情狀況進(jìn)行預(yù)測分析。
本文通過建立基于神經(jīng)網(wǎng)絡(luò)的新冠感染預(yù)測模型,對新冠感染的情況進(jìn)行趨勢分析,并通過可視化的方式來對新冠感染的走勢進(jìn)行預(yù)測,進(jìn)而對全世界范圍內(nèi)的疫情發(fā)展有一個清晰的認(rèn)知,最后對新冠感染的情況進(jìn)行評估。數(shù)據(jù)分析的目標(biāo)為:
1)實現(xiàn)疫情狀況預(yù)測,幫助國家快速發(fā)現(xiàn)爆發(fā)地,確保當(dāng)?shù)孛癖娍梢蕴崆白龊貌《绢A(yù)防準(zhǔn)備,實現(xiàn)發(fā)現(xiàn)和控制兩頭抓。
2)基于以往疫情數(shù)據(jù),綜合考慮節(jié)假日、天氣、交通等因素對疫情趨勢預(yù)測,方便國家提前做出調(diào)控與準(zhǔn)備。
3)基于疫情大數(shù)據(jù),尋找對疫情發(fā)展有較好抵制作用的因素,以便國家及時進(jìn)行策略調(diào)整。
本文在分析新冠感染數(shù)據(jù)的基礎(chǔ)上,綜合考慮時間空間復(fù)雜度以及限制條件的影響,構(gòu)建了兩種基于神經(jīng)網(wǎng)絡(luò)的新冠感染預(yù)測模型。本文的主要貢獻(xiàn)如下:
1)首先對新冠感染數(shù)據(jù)進(jìn)行預(yù)處理,然后將清洗后的數(shù)據(jù)采用的PyEcharts模塊進(jìn)行可視化分析,其中包括趨勢分析和突變識別。
2)建立了ANN和LSTM兩種神經(jīng)網(wǎng)絡(luò)模型對新冠感染狀況進(jìn)行分析和預(yù)測,將兩種模型的預(yù)測效果進(jìn)行對比,最后通過分析給出相應(yīng)的建議。
1? 數(shù)據(jù)預(yù)處理
本文主要從數(shù)據(jù)清洗、缺失值處理兩方面對新冠感染數(shù)據(jù)進(jìn)行處理。
1.1? 數(shù)據(jù)清洗
數(shù)據(jù)清洗的主要目的是從建模等方面考慮,篩選出實驗所需要的數(shù)據(jù)。由于原始數(shù)據(jù)中不是所有數(shù)據(jù)都需要進(jìn)行分析,因此需要在數(shù)據(jù)處理時,將贅余的數(shù)據(jù)進(jìn)行過濾。
1.2? 缺失值處理
數(shù)據(jù)缺失主要包括記錄缺失和字段信息缺失等情況[8],對數(shù)據(jù)分析會有較大影響導(dǎo)致結(jié)果的不確定性會更加顯著。一般采用的缺失值處理方法有:刪除記錄、數(shù)據(jù)插補和不處理。對于數(shù)據(jù)插補來說,有五種方式,即均值、中位數(shù)、眾數(shù)插補、臨近值插補、拉格朗日插值法。本文在進(jìn)行缺失值處理采用了臨近值插補和拉格朗日插值法。
臨近值插補一般是用該數(shù)據(jù)的前一個數(shù)據(jù)或者后一個數(shù)據(jù)直接填補。拉格朗日插值法則是通過確定原始數(shù)據(jù)集中的因變量和自變量,隨后取出缺失值前后5個數(shù)據(jù),根據(jù)拉格朗日插值公式計算后所得到的數(shù)據(jù)插入缺失值處,所用到的公式為:
其中x為缺失值對應(yīng)的下標(biāo)序號,Ln(x)為缺失值的插值結(jié)果,xi為非缺失值yi的下標(biāo)序號。對全部缺失數(shù)據(jù)進(jìn)行依次插補,直到不存在缺失值為止。
2? 數(shù)據(jù)分析
本文進(jìn)行數(shù)據(jù)分析所使用到的所有國內(nèi)新冠感染數(shù)據(jù)均來自國家衛(wèi)生健康委員會所公布的官方報告,所有的國外新冠感染數(shù)據(jù)均來自世界衛(wèi)生組織官網(wǎng),且所有數(shù)據(jù)時間范圍均為2020年1月21日至2020年7月3日。
本文的研究主要從疫情時序分析和疫情可視化分析兩個方面展開。對于疫情時序分析,主要思路為:通過時間序列方法對局部地區(qū)的單日病例時間序列進(jìn)行分析,從而能夠發(fā)現(xiàn)每日新增病例的變化趨勢、疫情演變階段、疫情拐點特征。在時序統(tǒng)計數(shù)據(jù)中記錄了各種地方新冠感染的確診人數(shù)、死亡人數(shù)和治愈人數(shù)等。
對于疫情可視化,本文采用了曲線圖、直方圖、餅狀圖以及地圖的方式進(jìn)行展示,通過不同的專題圖形表述各地疫情,更加直觀地展示了新冠感染的狀況。
2.1? 國內(nèi)疫情對比分析
以2020年1月28日到2020年6月12日湖北省的新冠感染狀況為例,如圖1所示。
由圖1可知,新冠感染爆發(fā)的時間是在1月到2月份,且確診人數(shù)的增長趨勢很快。原因在于武漢市出現(xiàn)了新冠確診患者,武漢是中國交通的大動脈,其人員流動性非常大,導(dǎo)致了疫情從武漢開始蔓延,逐漸擴散到全國。但到了3月底之后確診人數(shù)的增長趨勢明顯變緩。這是由于中國下達(dá)了武漢封城的指令,隨后中央舉全國之力援助武漢,大量醫(yī)護人員前往武漢支援,大量醫(yī)療物資往武漢輸送,在武漢集中救治確診患者,這才在3月底逐漸控制住了疫情。
再以同時段福建省的新冠感染狀況為例,如圖2所示。
由圖2可知,春節(jié)期間福建省的確診病例在快速增加,覆蓋的區(qū)域也在擴大,原因在于1月23號武漢市封城前后回福建省的人員、福建本地的密切接觸者、湖北旅行史人員較多,并且與以武漢市為主的湖北地區(qū)商務(wù)、生活流動頻繁有關(guān),故造成較多的輸入性病例。同時,福建省是沿海地區(qū),沿海地區(qū)人口密度大,有境外輸入的風(fēng)險,也會造成大規(guī)模感染。
將中國的部分省份的新冠感染狀況整合成直方圖,如圖3所示。
由圖3可知,湖北省的新冠確診人數(shù)是各省中最高的,但其治愈人數(shù)與確診人數(shù)相差不大,大部分確診患者在湖北省都能成功治愈,這也說明了我國的醫(yī)療水平先進(jìn)和醫(yī)療設(shè)施完善,我國對于湖北省投入的醫(yī)療物資齊全,同時也派遣了大量優(yōu)秀的醫(yī)務(wù)人員,而且普通民眾對疫情防控措施也十分配合,這也是其他省份感染不嚴(yán)重的原因。
2.2? 國外疫情對比分析
本節(jié)以國外部分典型國家的新冠感染狀況為例繪制了餅狀圖進(jìn)行分析,如圖4至圖6所示。
從圖4至圖6中可以看出,全世界確診人數(shù)、治愈人數(shù)和死亡人數(shù)排名前三的國家全都是美國、印度和巴西,尤其以美國最為嚴(yán)重,該國確診人數(shù)、死亡人數(shù)均為最多,原因在于美國政府未能及時發(fā)布限制令,使得境外輸入病例持續(xù)增加;來自不同地區(qū)的人員參加大規(guī)模聚會在早期傳播中扮演顯著角色;美國還缺少防護措施,使得病毒在傳入人口密集區(qū)域后迅速擴散;在美國疫情早期,新冠病毒檢測難度高,美國疫情起始和加速擴散階段存在大量未被察覺的傳播。而印度的情況也相當(dāng)嚴(yán)重,是由于印度醫(yī)療條件落后、醫(yī)療技術(shù)落后,而且疫情初期沒有對疑似病例進(jìn)行檢測,無法排除新冠感染的可能性;印度面積不大,但人口多,故人口流動的頻率也很高,從而為新冠病毒的傳播創(chuàng)造了有利的條件。巴西則是因為地域廣大,而且巴西是南美中心,與大量國家有著密切來往,從而導(dǎo)致輸入病例過多,造成大規(guī)模傳染。
為了更加直觀地看出全世界新冠感染狀況,此處以世界地圖建立了新冠感染分布圖,如圖7所示(該世界地圖是采用Python的Map庫直接生成)。
由圖7可知,全世界疫情比較嚴(yán)重的地區(qū)基本集中在美洲地區(qū)和歐洲地區(qū)。原因在于這些地區(qū)對于新冠感染疫情的重視程度不夠,在新冠感染初期沒有及時采取有效的措施。部分歐美國家在疫情擴散時也采取了很多措施,但效果遠(yuǎn)遠(yuǎn)不如中國。其原因在于當(dāng)?shù)孛癖妼τ谛鹿诓《镜臒o知,以及對防疫措施的不配合。部分疫區(qū)民眾對自己不負(fù)責(zé),對社會中的其他人也不負(fù)責(zé),把所有責(zé)任都推給政府的防疫不利,推給媒體的錯誤報道。這也是導(dǎo)致歐美地區(qū)新冠感染大爆發(fā)的一個重要原因。以美國為例,各個州發(fā)布了抗疫措施,大量民眾都不支持,許多人寧可冒著生命危險與州政府要求解除居家令,也不愿居家隔離,因此造成了新冠病毒迅速傳播。而亞洲、非洲和大洋洲等地區(qū)疫情相對沒有那么嚴(yán)重。以東亞地區(qū)為例,不管政府措施如何,在疫情的真實數(shù)據(jù)面前,普通民眾都保持了較高的警覺意識,對于各類防疫措施也愿意接受。因此抗疫的關(guān)鍵需要民眾的支持,否則一切防疫措施和政策都是空洞的。
3? 數(shù)據(jù)挖掘建模
本文在進(jìn)行可視化分析后,建立了兩種模型來進(jìn)行分析和預(yù)測,分別為ANN模型和LSTM模型。預(yù)測曲線的類型則分為兩種:J型曲線和S型曲線。
ANN模型:ANN是指由大量的處理單元(神經(jīng)元)互相連接而形成的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),是對人腦組織結(jié)構(gòu)和運行機制的某種抽象、簡化和模擬,它以數(shù)學(xué)模型模擬神經(jīng)元活動,是基于模仿大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的一種信息處理系統(tǒng)[9]。
LSTM模型:LSTM是一種特殊的RNN模型,是為了解決RNN模型梯度彌散的問題而提出的[10]。在傳統(tǒng)的RNN中,訓(xùn)練算法使用的是BPTT,當(dāng)時間比較長時,需要回傳的殘差指數(shù)下降,導(dǎo)致網(wǎng)絡(luò)權(quán)重更新緩慢,無法體現(xiàn)出RNN的長期記憶的效果,因此需要一個存儲單元來存儲記憶,因此LSTM模型被提出。
3.1? 國內(nèi)疫情分析預(yù)測
本文通過對國內(nèi)新冠感染數(shù)據(jù)進(jìn)行訓(xùn)練得出了湖北省和全國新冠感染的ANN模型和LSTM模型,訓(xùn)練和預(yù)測結(jié)果如圖8至圖11所示。
通過對比湖北省和全國的疫情預(yù)測數(shù)據(jù)曲線,可以看出兩者均為S型曲線,即新冠感染達(dá)到最高點后增長速度趨于平緩,其原因在于中國及時采取防控措施,集中救治患者。初期的增長是因為最初國內(nèi)還沒有引起重視和采取防范措施,從湖北省流出的人口較多,導(dǎo)致疫情在全國范圍內(nèi)迅速擴散。湖北省預(yù)測曲線中原始數(shù)據(jù)與預(yù)測數(shù)據(jù)是存在一定的偏差的,但趨勢走向基本一致,表明預(yù)測結(jié)果相對準(zhǔn)確。
湖北省和全國的LSTM模型曲線趨勢與對應(yīng)的ANN模型曲線趨勢一致,即均為S型曲線。但LSTM模型中湖北省疫情預(yù)測曲線和全國疫情預(yù)測曲線原始數(shù)據(jù)和預(yù)測數(shù)據(jù)有著明顯的差距,LSTM模型在此處對于新冠感染的預(yù)測相比于ANN模型不夠準(zhǔn)確,主要原因在于LSTM主要采用門控的機制,能夠在一定程度上解決梯度爆炸、梯度消失問題,但LSTM有不能并行的缺點,導(dǎo)致其性能有所損失。
3.2? 國外疫情分析預(yù)測
通過對國外新冠感染數(shù)據(jù)進(jìn)行訓(xùn)練得出了美國和全球疫情的ANN模型和LSTM模型,訓(xùn)練和預(yù)測結(jié)果如圖12至圖15所示。
通過對比美國和全球疫情預(yù)測數(shù)據(jù)曲線,可以看出兩者均為J型曲線,即確診人數(shù)增長速度一直在增加。這就說明疫情根本就沒有得到控制,原因在于美國沒有集中控制疫情,民眾不支持政府的措施,且大部分國家的醫(yī)療水平不夠高,醫(yī)療設(shè)施不夠完善,造成了大量的病毒感染。
美國和全球的LSTM模型曲線趨勢與對應(yīng)的ANN模型曲線趨勢一致,即均為J型曲線。但二者的LSTM模型的預(yù)測效果均不如ANN模型的預(yù)測效果好,與國內(nèi)的兩種模型的曲線對比一致。
4? 結(jié)? 論
通過上述宏觀、微觀分析,可以得出如下重要結(jié)論:
針對國內(nèi)疫情,新冠感染重災(zāi)區(qū)分布在祖國中部和東南沿海地區(qū),這些地區(qū)均與湖北省接壤和相鄰,湖北省的疫情增長速度較快,其他省份增長速度相對平緩。原因在于湖北省武漢市為重大交通中心,全國大部分地區(qū)與湖北地區(qū)有著商務(wù)往來,且湖北地區(qū)人口密度較大,造成較多的輸入性病例。因此疫情的傳播與交通的發(fā)達(dá)程度和地區(qū)人口密度有著不可分割的關(guān)系,需要采取的措施為限制部分湖北地區(qū)的人口流動,呼吁全國市民居家隔離,以免造成交叉感染。
針對國外疫情,以美國、巴西、印度三個國家最為嚴(yán)重,主要原因在于各個國家政治體制不同,民眾對于政府的態(tài)度有差異,不配合政府的措施行動,部分國家醫(yī)療水平的欠缺,許多國家之間有著業(yè)務(wù)上的來往,都會造成新冠病毒的擴散。要想從根本上解決這個問題,其他國家需要制定相應(yīng)的防疫政策,將民眾調(diào)動起來積極配合政府行動,防止感染進(jìn)一步擴大。
針對預(yù)測結(jié)果,ANN模型的訓(xùn)練和預(yù)測效果更優(yōu)于LSTM模型,且兩種模型下的國內(nèi)疫情均呈現(xiàn)S型曲線,而兩種模型下的國外疫情均呈現(xiàn)J型曲線,與上述對于新冠感染的分析結(jié)果能夠很好地對應(yīng)起來,更加說明了所建立的兩種模型的正確性。
參考文獻(xiàn):
[1] 周丹,陳安.時空尺度差異下疫情嚴(yán)重程度的比較研究 [J].科技導(dǎo)報,2020,38(6):103-114.
[2] 張海冰.全球抗擊新冠肺炎疫情:國際合作與路徑選擇 [J].當(dāng)代世界,2020(5):4-10.
[3] 王金愷,張虎,賈鵬,等.城市級新冠肺炎(COVID-19)疫情預(yù)測和仿真模型 [J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2022,34(8):1302-1312.
[4] 張艷霞,李進(jìn).基于SIR模型的新冠肺炎疫情傳播預(yù)測分析 [J].安徽工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2020,37(1):94-101.
[5] 白璐,郭佩汶,范晉蓉.湖北省新冠肺炎確診人數(shù)的建模與預(yù)測分析 [J].檢驗檢疫學(xué)刊,2020,30(2):10-12.
[6] 吳志強,王波.基于組合神經(jīng)網(wǎng)絡(luò)模型的新冠疫情傳播預(yù)測分析 [J].軟件導(dǎo)刊,2020,19(10):15-19.
[7] 金啟軒.中國新冠肺炎疫情預(yù)測建模與理性評估 [J].統(tǒng)計與決策,2020,36(5):11-14.
[8] 胡文瑜,應(yīng)康輝.實例層數(shù)據(jù)清洗技術(shù)研究 [J].計算機技術(shù)與發(fā)展,2022,32(5):22-28.
[9] 張海波,王富強.基于ANN預(yù)測模型快速檢測改性瀝青SBS含量的方法研究 [J].西部交通科技,2020(7):1-3+44.
[10] 李晶晶,張永敏,田桂林,等.基于LSTM神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測方法 [J].電子設(shè)計工程,2022,30(22):154-157+164.
作者簡介:楊芷銘(1997.10—),男,侗族,湖南
懷化人,碩士在讀,研究方向:物聯(lián)網(wǎng)及區(qū)塊鏈;謝歐(1996.12—),女,漢族,湖南株洲人,碩士在讀,研究方向:復(fù)雜系統(tǒng)建模及仿真;謝文武(1979.12—),男,漢族,湖北荊州人,副教授,博士,研究方向:無線通信算法研究。
收稿日期:2023-02-07