趙春燕 房宗英 姚徽 王浩
摘 ?要:在新冠疫情常態(tài)化防控形勢下,如何快速發(fā)現(xiàn)疑似病例并對疑似病例進行有效的管控仍是目前亟需解決的問題。為此建立可自我學(xué)習(xí)進化的疫情傳播分析預(yù)警平臺,實現(xiàn)對高危人員、公共場所的有效管控,可為政府、企業(yè)和個人做好疫情防范提供有效依據(jù),同時有效提升高危人員來源地追溯的準(zhǔn)確性、加快病例發(fā)現(xiàn)速度,提高各部門反應(yīng)速度,補全發(fā)現(xiàn)機制,提高社會參與率和數(shù)據(jù)利用效率,提高疫情監(jiān)控管理效率。
關(guān)鍵詞:新冠肺炎;大數(shù)據(jù);手機信令;疫情預(yù)警
中圖分類號:TP311 ? 文獻標(biāo)識碼:A ? ? ?文章編號:2096-4706(2021)12-0097-04
Abstract: Under the situation of COVID-19's normalization prevention and control, how to quickly identify suspected cases and effectively control suspected cases is still an urgent problem to be solved at present. To this end, a self-learning and evolving epidemic spread analysis and early warning platform is established to realize effective control of high-risk personnel and public places, which can provide an effective basis for the government, enterprises and individuals to prevent the epidemic. At the same time, it can effectively improve the accuracy of tracing the source of high-risk personnel, speed up the case discovery speed, improve response speed of various departments and complete the discovery mechanism, improve the social participation rate and data utilization efficiency, and improve the efficiency of epidemic monitoring and management.
Keywords: COVID-19; big data; cell phone signal; epidemic early warning
0 ?引 ?言
新冠肺炎疫情形勢嚴(yán)峻,目前確診患者均已得到很好的治療,但是對疑似病例的發(fā)現(xiàn)和管控還未形成一個行之有效的方案,如何第一時間篩選出疑似病例,并對疑似病例進行有效的管控,是當(dāng)前疫情控制中亟待解決的問題。習(xí)近平總書記指出,要充分發(fā)揮大數(shù)據(jù)、人工智能、云計算等新一代信息技術(shù)的支撐作用;國務(wù)院要求各地充分利用各種信息技術(shù)手段(例如“大數(shù)據(jù)+網(wǎng)格化”等),做好疫情預(yù)警、監(jiān)測、排查、檢測等工作。
應(yīng)對當(dāng)前疫情防控的嚴(yán)峻形勢,本文提出利用手機信令和關(guān)系圖譜數(shù)據(jù),基于大數(shù)據(jù)分析及人工智能等新興技術(shù),建立可自我學(xué)習(xí)進化的疫情傳播大數(shù)據(jù)分析預(yù)警平臺,將確診病例、疑似病例、高危人員、移動信令等數(shù)據(jù)信息匯入平臺,通過對數(shù)據(jù)進行清洗、挖掘和分析,實現(xiàn)疫情形勢的空間化動態(tài)展示和分析,為疫情防控“早發(fā)現(xiàn)”提供數(shù)據(jù)支撐,對將疫情傳播控制在萌芽狀態(tài)具有極其重要的意義。
1 ?應(yīng)用背景概述
近年來,隨著計算機、互聯(lián)網(wǎng)等新興技術(shù)的快速發(fā)展以及傳染病防控技術(shù)的不斷創(chuàng)新和突破,我國的傳染病監(jiān)測技術(shù)手段得以迅速發(fā)展,許多省市地區(qū)也根據(jù)自身特點建設(shè)了區(qū)域性傳染病監(jiān)測系統(tǒng)??偨Y(jié)當(dāng)前新冠肺炎疾病監(jiān)測的過程,不難發(fā)現(xiàn),傳統(tǒng)的監(jiān)測系統(tǒng)多為被動監(jiān)測,不能主動及時地發(fā)現(xiàn)新的傳染病和疑似傳染病病例,同時各系統(tǒng)之間的資源互補性也不足,容易出現(xiàn)重復(fù)采樣、重復(fù)建設(shè)的現(xiàn)象,且不同的系統(tǒng)之間存在信息傳遞不暢、信息化不夠和數(shù)據(jù)挖掘程度不深等問題。
為解決上述問題,當(dāng)務(wù)之急是采取更有效的措施,彌補現(xiàn)有傳染病監(jiān)測系統(tǒng)在應(yīng)對如新冠肺炎等新的重大傳染病方面的不足。
2 ?總體架構(gòu)設(shè)計
疫情傳播大數(shù)據(jù)分析預(yù)警平臺是用于新冠肺炎傳播人群、活動軌跡的大數(shù)據(jù)分析、預(yù)警、預(yù)測的平臺。結(jié)合已有數(shù)據(jù),分析數(shù)據(jù)特點和應(yīng)用需求,搭建基于Hadoop的時空大數(shù)據(jù)索引與查詢技術(shù)體系,為平臺提供高穩(wěn)定、高并發(fā)和高性能的支撐環(huán)境;基于手機基站定位數(shù)據(jù)及手機關(guān)系,在有限的信息資源約束下,采用系統(tǒng)的觀點、方法和理論,結(jié)合機器學(xué)習(xí)技術(shù),建立疫情等級評估模型,為用戶提供疫情的風(fēng)險評估。結(jié)合GIS技術(shù)和定位數(shù)據(jù),建立基站-道路映射模型,實現(xiàn)對高危人員的歷史軌跡分析,用于評估高風(fēng)險人員同其他人現(xiàn)實接觸的可能性;為科學(xué)評估疫情發(fā)展態(tài)勢,精準(zhǔn)部署防控提供了決策支持,平臺總體框架如圖1所示。
3 ?關(guān)鍵技術(shù)研究
3.1 ?海量數(shù)據(jù)并行處理模塊
目前對時間序列數(shù)據(jù)存儲和處理的研究采用Hadoop開源大數(shù)據(jù)技術(shù),這些方法大多基于自建的Hadoop平臺,存在集群規(guī)模小、維護困難等問題。為了滿足系統(tǒng)海量數(shù)據(jù)存儲與高并發(fā)的訪問以及具備高擴展性、高容錯性和高穩(wěn)定性的要求,通過公有云免維護、彈性伸縮和按需租用等優(yōu)點,結(jié)合MaxCompute大數(shù)據(jù)技術(shù),設(shè)計實現(xiàn)了海量時間序列數(shù)據(jù)的MaxCompute表存儲方法;基于MaxCompute提供的并行編程框架MapReduce,設(shè)計實現(xiàn)海量時間序列歷史數(shù)據(jù)的并行處理。滿足平臺海量數(shù)據(jù)存儲與高并發(fā)的訪問要求,且可有效解決平臺建設(shè)周期短的問題,降低研發(fā)成本。MaxCompute是阿里巴巴云提供的PByte/EByte數(shù)據(jù)存儲與處理平臺,提供海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲、并行編程框架MapReduce、Graph計算模型和數(shù)據(jù)訪問通道Tunnel等,非常適合海量歷史數(shù)據(jù)存儲和批量并行數(shù)據(jù)分析。在數(shù)據(jù)存儲方面,MaxCompute的邏輯層采用表和分區(qū)的方式組織數(shù)據(jù),便于使用SQL(結(jié)構(gòu)化查詢語言)接口進行數(shù)據(jù)訪問;在物理層面,基于分布式文件系統(tǒng)存儲數(shù)據(jù)的分布式三份副本,具有較高的數(shù)據(jù)可靠性和可用性;在訪問接口方面,支持SQL用戶自定義函數(shù)UDF、MapReduce和Graph。
3.2 ?疫情等級評估模型
邏輯回歸(又稱為邏輯回歸分析),可用于分類和預(yù)測,是統(tǒng)計學(xué)中的經(jīng)典分類算法。針對回歸或分類問題,該方法首先需要建立損失函數(shù),然后通過優(yōu)化方法迭代求解最優(yōu)模型參數(shù),再利用已有數(shù)據(jù)檢驗求解模型的質(zhì)量?;谶壿嫽貧w模型構(gòu)建原理,結(jié)合確診患者數(shù)據(jù)(包括手機定位數(shù)據(jù)、信令數(shù)據(jù)、關(guān)系圖譜數(shù)據(jù)等),利用邏輯回歸算法對確診患者數(shù)據(jù)集進行訓(xùn)練,最終獲得分類準(zhǔn)確度非常高的邏輯回歸模型,建立新冠疫情等級評估體系,根據(jù)用戶數(shù)據(jù),預(yù)測用戶感染新冠肺炎病毒的可能性有多大。邏輯回歸算法的實現(xiàn)包含三個步驟。第一步是構(gòu)造回歸參數(shù)(θ)待定的h函數(shù),第二步是根據(jù)h函數(shù)構(gòu)造J函數(shù)(損失函數(shù)),第三步是最小化J函數(shù),通過連續(xù)迭代得到回歸參數(shù)(θ)。最后,將回歸參數(shù)代入h函數(shù),形成邏輯回歸模型,進而實現(xiàn)預(yù)測,如圖2所示。
3.3 ?高危人員路徑匹配算法模型
基于高危人員過去14天所處的基站信息,通過GIS道路信息數(shù)據(jù)點建立K-D樹,然后利用決策樹算法實現(xiàn)基站定位信息與道路數(shù)據(jù)的快速匹配,建立基站-道路映射模型,構(gòu)建原理如圖3所示。
基于GIS+決策樹的路徑匹配算法流程為:
(1)首先對從開源地中下載的道路信息數(shù)據(jù)進行填充處理,基于處理后的道路信息數(shù)據(jù)點建立K-D樹模型,進而提高匹配位置點的效率,加快待匹配的過程。
(2)在獲取新的待匹配數(shù)據(jù)點之前,通過改進的基于決策樹的預(yù)測算法,實現(xiàn)兩個數(shù)據(jù)點之間最佳位置點的快速匹配。
(3)如待匹配位置點在兩個數(shù)據(jù)點所在的道路上,則直接反饋該位置點,作為基站道路匹配算法的結(jié)果;如待匹配位置點不在兩個數(shù)據(jù)點所在的道路上,則基于最近鄰兩個數(shù)據(jù)點進行計算,實現(xiàn)待匹配位置點在最近數(shù)據(jù)點道路上的匹配結(jié)果,得到高危人員所在的道路信息。
4 ?系統(tǒng)的設(shè)計與實現(xiàn)
4.1 ?客戶端APP
疫情傳播大數(shù)據(jù)分析預(yù)警平臺客戶端APP主要包括自我風(fēng)險評估、掃碼評估以及個人信息管理三大子模塊,其中,自我風(fēng)險評估模塊通過提取本機的手機號碼和通訊錄,并將所提取的信息發(fā)送到后臺服務(wù)器進行疫情風(fēng)險評估。評估完成后,會在主界面中展示評估得分和對應(yīng)風(fēng)險等級,針對不同的評估等級系統(tǒng)將會給出相應(yīng)的處置建議;通過掃碼評估模塊中的掃碼功能,通過掃描由本平臺為酒店、餐飲、公共交通或個人給出的指定二維碼,獲取相應(yīng)的風(fēng)險評估數(shù)據(jù),同時可根據(jù)風(fēng)險評估等級選擇性地為用戶服務(wù)或與用戶開展接觸;個人信息管理模塊可實現(xiàn)個人二維碼展示、掃碼記錄查詢以及個人密碼設(shè)置等功能,如圖4所示。
4.2 ?PC端后臺管理
疫情傳播大數(shù)據(jù)分析預(yù)警平臺PC端后臺管理主要包括手機管理、疫情管理、預(yù)警分析、系統(tǒng)管理以及我的后臺五大子模塊,其中,手機管理模塊主要實現(xiàn)高風(fēng)險人員手機定位、軌跡、通訊錄、通話記錄以及短信記錄等功能;疫情管理模塊主要實現(xiàn)病例管理、風(fēng)險人員管理、風(fēng)險場所管理等功能;預(yù)警分析模塊主要實現(xiàn)高危人員預(yù)警、疫情預(yù)警以及大數(shù)據(jù)展示等功能;系統(tǒng)管理模塊主要實現(xiàn)用戶角色權(quán)限管理、組織機構(gòu)管理、系統(tǒng)管理以及數(shù)據(jù)傳輸?shù)裙δ?我的后臺模塊主要通過控制臺和儀表盤,將系統(tǒng)中的核心數(shù)據(jù)以及疫情發(fā)展趨勢圖表直接呈現(xiàn)出來,同時可對個人信息及密碼進行修改,如圖5、圖6所示。
5 ?結(jié) ?論
在當(dāng)前新冠肺炎可能成為一種類似流感的常見病長期存在的形勢下,疫情傳播大數(shù)據(jù)分析預(yù)警平臺可有效推進疫情傳播的研判、分析和預(yù)測,有助于相關(guān)部門對疫情的發(fā)展態(tài)勢進行有效評估,提前制定緊急情況下的應(yīng)急措施,盡可能地降低傳染風(fēng)險,有助于政府監(jiān)管部門對疫情傳播進行實時監(jiān)控和動態(tài)預(yù)測,提高疫情防控水平。
參考文獻:
[1] 習(xí)近平.全面提高依法防控依法治理能力健全國家公共衛(wèi)生應(yīng)急管理體系 [EB/OL].(2020-02-29).http://www.gov.cn/xinwen/2020-02/29/content_5484903.htm.
[2] 衛(wèi)生健康委網(wǎng)站.關(guān)于印發(fā)近期防控新型冠狀病毒感染的肺炎工作方案的通知 [EB/OL].(2020-01-28).http://www.gov. cn/xinwen/2020-01/28/content_5472795.htm.
[3] 張媚,張永慧,程培明,等.廣東省急性傳染病防控動態(tài)監(jiān)測系統(tǒng)建設(shè)與展望 [J].中國衛(wèi)生信息管理雜志,2019,16(5):526-531.
[4] 吳凡.上海市創(chuàng)新傳染病監(jiān)測模式的實踐和思考 [J].中華流行病學(xué)雜志,2019,40(8):880-882.
[5] 李耀輝.基于移動信令數(shù)據(jù)的用戶出行行為研究 [D].重慶:重慶郵電大學(xué),2017.
[6] 周成虎,裴韜,杜云艷,等.新冠肺炎疫情大數(shù)據(jù)分析與區(qū)域防控政策建議 [J].中國科學(xué)院院刊,2020,35(2):200-203.
作者簡介:趙春燕(1979.12—),女,漢族,貴州貴陽人,副教授,博士,研究方向:旅游管理、計算機科學(xué)。