謝月鋒 董現(xiàn)壘 陳卉 王燕 劉志成
摘要:為疾病突然爆發(fā)時醫(yī)療機構能夠及時采取應對措施合理配置醫(yī)療資源,本文以兒童腹瀉為例,利用網(wǎng)絡痕跡數(shù)據(jù),提供一種建模思路和方法,對兒童腹瀉的發(fā)生進行即時預測。結果顯示,兒童腹瀉的發(fā)病具有明顯的周期性特征,同時大眾的網(wǎng)絡搜索行為與相關就診量具有明顯的相關性,人們可以利用網(wǎng)絡痕跡數(shù)據(jù)即時預測兒童疾病的未來就診量。
關鍵詞:公共網(wǎng)絡;痕跡數(shù)據(jù);兒童腹瀉;數(shù)據(jù)挖掘;趨勢預測
在環(huán)境惡化等因素的影響下,近些年突然爆發(fā)某種疾病的現(xiàn)象時有發(fā)生,對醫(yī)院的應急管理系統(tǒng)提出挑戰(zhàn)。例如,目前多數(shù)醫(yī)院是依靠經(jīng)驗給醫(yī)生排班。比如首都醫(yī)科大學附屬北京兒童醫(yī)院會提前3個月就排好班次,如沒有特殊情況一般很少變動。這種模式具備一定的優(yōu)勢:患者可以提前預約掛號以減少排隊或等待時間,醫(yī)生則可以分散患者進行診治以提高效率。但是當某種疾病爆發(fā)時,醫(yī)院只能根據(jù)即時的就醫(yī)情況,臨時啟動應急預案,解決突如其來的大批量患者就醫(yī)問題。由于時間短,任務重,應急預案的執(zhí)行具有極大的不確定性,加上就醫(yī)患者的情緒波動等因素,就醫(yī)場所混亂的場景時有發(fā)生。再者,對于藥品的采購,醫(yī)院通常是根據(jù)歷史經(jīng)驗建立藥品基數(shù),繼而每天根據(jù)缺藥情況產(chǎn)生采購訂單,進行補藥,正常情況下是可以滿足臨床需求。但是當某種疾病突然爆發(fā)時,就有可能出現(xiàn)特定藥品缺貨的現(xiàn)象。此時,如果在疾病的爆發(fā)初期就能預測未來幾天的就醫(yī)狀況,醫(yī)院就可以有較充分的時間來提前安排相關專業(yè)的醫(yī)生以及現(xiàn)場疏導人員,也能隨時對特定藥品等醫(yī)療資源進行預見性地調配,以應對臨床可能出現(xiàn)的緊急情況,從而井然有序的定向迎接"突然"增多的就醫(yī)患者,大大提高醫(yī)療應急管理效率。也就是說,在疾病大規(guī)模爆發(fā)的前期對其進行精確的"即時預測"具有重要的意義。
即時預測("nowcasting")與一般意義的預測不同,其目的并不是為了預測未來(長期)的狀況,而是為了清楚地把握當前的信息狀況[1]。要把握即時信息或實時信息,就必須利用發(fā)布即時信息的平臺,而社交媒體(包括搜索引擎)的出現(xiàn)和發(fā)展,為這一技術提供了關鍵性的支持。社交媒體中大量持續(xù)出現(xiàn)的即時信息為即時預測提供了可能,充分利用社交媒體中有效的即時信息,就有希望改善此類醫(yī)療應急管理的現(xiàn)狀。對大眾網(wǎng)絡行為信息(網(wǎng)絡痕跡數(shù)據(jù))進行分析成為大數(shù)據(jù)分析的重要內(nèi)容,而將社交媒體大數(shù)據(jù)信息引入到疾病的預測和管理中,是本文的主要研究思路。本文利用百度搜索數(shù)據(jù)(百度指數(shù)),對兒童腹瀉這種多發(fā)疾病的即時預測進行了研究。
1 即時預測的國內(nèi)外研究現(xiàn)狀
在互聯(lián)網(wǎng)中,人們不停地進行交流和搜索,產(chǎn)生了源源不斷的網(wǎng)絡痕跡數(shù)據(jù)[2-3]。相關研究發(fā)現(xiàn),信息的發(fā)生雖然是不可提前預測的,但是早期的一些跡象及信息可以從社交媒體網(wǎng)絡中即時獲取,比如博客、微博、論壇以及搜索引擎等[2]。于是隨著數(shù)據(jù)挖掘技術的發(fā)展,人們開始研究社交媒體潛在信息與經(jīng)濟、社會指標之間的關系[4-5]。已經(jīng)有研究表明,社交媒體的潛在信息具有預測價值,如可以預測書籍的銷售結果[6]、票房的收入[7]甚至股市道瓊斯指數(shù)的波動[8-9]等。搜索引擎數(shù)據(jù)作為一種相對比較容易獲得的社交媒體數(shù)據(jù),也被廣泛的應用于該類研究中。比如谷歌趨勢的數(shù)據(jù)可以被用來即時預測不同地區(qū)流感的流行狀況[10]以及各種經(jīng)濟指標數(shù)值,也有相關學者提出一系列建模方法研究消費者信心指數(shù)[11-13]或揭示著作的發(fā)表規(guī)律和趨勢等[14]。人們還基于話題搜索工具構建量化模型,研究消費者行為[15]以及疾病的流行和發(fā)生趨勢[16]等。然而目前國內(nèi)還沒有利用網(wǎng)絡數(shù)據(jù)來對疾病進行即時預測的研究,并且對網(wǎng)絡痕跡數(shù)據(jù)的量化分析與應用研究,多數(shù)還是以傳統(tǒng)的統(tǒng)計分析、回歸分析為主,通過描述數(shù)據(jù)的統(tǒng)計特征或者通過一般的函數(shù)擬合與估計(如通過變量合并來降維[17-18])來描述或預測網(wǎng)絡痕跡數(shù)據(jù)與特定社會、經(jīng)濟指標之間的關聯(lián)[19-22]。本文將在前人研究的基礎上,提出一種分析網(wǎng)絡數(shù)據(jù)和醫(yī)療指標相關關系的即時預測模型,以兒童腹瀉為例,展示其在疾病即時預測方面的功用。
2 數(shù)據(jù)獲取與建模
2.1數(shù)據(jù)準備 本文所使用的數(shù)據(jù)主要有兩部分,時間跨度均從2011年1月~2015年10月。
2.1.1首都醫(yī)科大學附屬北京兒童醫(yī)院歷史就診數(shù)據(jù),近幾年醫(yī)療信息化發(fā)展迅速,首都醫(yī)科大學附屬北京兒童醫(yī)院2006年住院全面實現(xiàn)電子化,2009年門診全面實現(xiàn)電子化,臨床醫(yī)療數(shù)據(jù)以相對標準化的形式儲存在數(shù)據(jù)庫中,大大方便了對數(shù)據(jù)的統(tǒng)計分析。圖中以腹瀉和上呼吸道感染為例,展示了近幾年就診量變化趨勢,見圖1。本文的建模分析則主要以首都醫(yī)科大學附屬北京兒童醫(yī)院兒童腹瀉的就診數(shù)據(jù)為例。
3.1.2大眾對疾病相關關鍵詞的網(wǎng)絡搜索數(shù)據(jù),來自于百度指數(shù)。百度指數(shù)是由百度公司提供的以百度海量網(wǎng)民行為數(shù)據(jù)為基礎的數(shù)據(jù)分享平臺。百度指數(shù)由百度搜索引擎提供,其可以提供用戶查詢某問題被搜索的頻率隨時間變化的趨勢數(shù)據(jù),如搜索規(guī)模、漲跌態(tài)勢、人群分布等等。將搜索的地點鎖定為北京市,就可以得到北京市市民對于特定話題(關鍵詞)的搜索趨勢數(shù)據(jù)。
由于百度指數(shù)不提供數(shù)據(jù)下載支持(只有圖像趨勢、無公開的API并且加密),本文利用易佰百度指數(shù)批量查詢工具對數(shù)據(jù)進行抓取,可以獲得每個關鍵詞每天的搜索量,對其進行統(tǒng)計處理就可以獲得特定關鍵詞的月度搜索趨勢數(shù)據(jù)(可分為總體趨勢,PC端趨勢和移動端趨勢),見圖2。
2.2模型的構建
2.2.1變量處理與選取 百度指數(shù)的總體趨勢是PC端趨勢和移動端趨勢的和,為了防止變量間的完全共線性,本文只選擇PC端趨勢和移動端趨勢的數(shù)據(jù)進行建模擬合。接下來,首先考查所選擇自變量(百度指數(shù)數(shù)據(jù))的相關性,相關系數(shù)如表1所示。
從表 1可以看出,來自百度指數(shù)的數(shù)據(jù)有較高的相關性,部分變量間的相關系數(shù)高達0.998以上,為了避免方程的多重共線性,考慮將以上變量進行主成分分析,結果見表2及圖3。
從主成分分析的結果來看(表2及圖3),前兩主成分就可以比較全面的包含原百度指數(shù)的信息,達92.24。因此,本文選擇前兩個主成分進行建模,從而避免多重共線性的同時,降低自變量的維度,使得建模更容易。表3列出了所選取的兩個主成分變量Ci(i=1,2)與原百度指數(shù)變量之間的具體計算關系,即:
2.2.2模型的構建 從圖1可以看出,兒童腹瀉的歷史就診數(shù)據(jù)中不存在明顯的趨勢變化,但是存在比較明顯的季節(jié)性現(xiàn)象,即每年基本有兩個患病高峰期,大概為3月和10月附近,因此,本文考慮構建包含季節(jié)性周期的狀態(tài)空間模型。
3結果與分析
利用Stata求解方程(3),擬合數(shù)據(jù)與觀測的就診數(shù)據(jù)的對比見圖4,擬合曲線基本和觀測曲線的趨勢基本一致,能夠較好的表現(xiàn)出實際就診數(shù)量的變化和趨勢,也說明了模型的擬合效果相對較好。
從系數(shù)擬合的結果來看,P值均小于0.01,方程的擬合效果相對較好。接下來,我們對就診數(shù)據(jù)的季節(jié)性和原百度指數(shù)變量進行分析。
3.1就診數(shù)據(jù)的季節(jié)性周期 通過模型求解,可以獲得兒童腹瀉的的季節(jié)性周期,見圖5。從建模的結果來看,兒童腹瀉的就診情況具有明顯的季節(jié)性周期特點,一般的,每年2月和3月腹瀉疾病的高發(fā)期(春節(jié)附近),而每年的5~7月則相對發(fā)病較少。
3.2兒童腹瀉就診量與大眾網(wǎng)絡行為的關系分析 從表4中的擬合結果可以看出大眾網(wǎng)絡搜索行為與兒童腹瀉的就診量變化具有明顯的相關關系,具體地,大眾網(wǎng)絡行為與兒童腹瀉就診量的關系如圖6所示。從圖中可以看出,人們的網(wǎng)絡搜索行為會在一定程度上顯示人們對兒童腹瀉的就診需求狀況。兒童的腹瀉會導致人們在該領域的網(wǎng)絡搜索行為,同時也會導致兒童醫(yī)院的腹瀉就診量增加。從模型的結果來看,由大眾網(wǎng)絡搜索行為引致的相關就診量大概維持在8800上下,即大眾網(wǎng)絡搜索行為(對于兒童腹瀉相關話題)與兒童腹瀉的就診量具有顯著的相關性。
3.3利用大眾網(wǎng)絡搜索數(shù)據(jù)即時預未來兒童腹瀉的就診量 本文將兒童腹瀉的就診量分解為兩部分,即季節(jié)性變化和由大眾網(wǎng)絡行為引致的就診量變化。一般地,季節(jié)性變化具有周期規(guī)律,只要明確具體的月份就可以了解當月的周期性特點。而網(wǎng)絡行為數(shù)據(jù)一般會早于醫(yī)院的就診數(shù)據(jù)可以提前獲得:比如可以利用當月上半月的搜索數(shù)據(jù)(2倍)作為對當月搜索數(shù)量的預測,這樣就可以利用網(wǎng)絡搜索數(shù)據(jù)來即時預測未來一段時期的兒童疾病的就診量。
4 結論與總結
利用大眾網(wǎng)絡的搜索數(shù)據(jù)(百度指數(shù)),本文提出了利用網(wǎng)絡痕跡信息即時預測流行性疾病的思路和方法。以首都醫(yī)科大學附屬北京兒童醫(yī)院兒童腹瀉的就診情況為例,本文首先從百度指數(shù)獲得與兒童腹瀉相關的話題和關鍵詞的搜索量隨時間變化的趨勢數(shù)據(jù),然后分析其相關性。為了防止模型的多重共線性,本文利用主成分分析提取了解釋變量的主成分,進而利用包含有季節(jié)性周期的狀態(tài)空間模型進行建模并獲得擬合結果。模型擬合結果較好,通過建模和求解,可以獲得結論如下。
網(wǎng)絡痕跡數(shù)據(jù)蘊含了大量有價值的潛在信息,人們可以通過一定的技術手段獲得其中的潛在信息。由于網(wǎng)絡痕跡數(shù)據(jù)具有實時性,因此人們可以通過分析網(wǎng)絡痕跡數(shù)據(jù)進行相關社會-經(jīng)濟指標的即時預測。同時,從網(wǎng)絡中獲得有價值的潛在信息相對于傳統(tǒng)的統(tǒng)計、問卷等方法也具有一定的優(yōu)越性,可以降低成本,提高效率,保證信息的客觀性。
從具體的建模結果來看,兒童腹瀉的發(fā)病具有明顯的周期性特征,同時大眾的網(wǎng)絡搜索行為與相關就診量具有明顯的相關性,人們可以利用網(wǎng)絡痕跡數(shù)據(jù)即時預測兒童疾病的未來就診量,而本文的建模思路和方法為其提供了一種行之有效的方案。
5討論
本文以兒童腹瀉為例,通過建模求解得出結論,進一步可選取幾種其他常見疾病,獲取數(shù)據(jù),對結論進行驗證。同時,可選取不同區(qū)域(華北、華中、華南),分別對結論進行驗證。另一方面,在大眾網(wǎng)絡搜索行為與相關就診量具有明顯相關性的基礎上,可以進行更深層次的研究,最終得出大眾網(wǎng)絡搜索行為相對于相關就診量的提前量。從而就可以確定即時的大眾網(wǎng)絡搜索行為可以預測未來哪個時間點的就診量。
參考文獻:
[1]Scott, S., & Varian, H.. Predicting the Present With Bayesian Structural Time Series[J].International Journal of Mathematical Modeling and Numerical Optimization, 2014, 5(1-2): 4-23.
[2]Bello-Orgaz, G., Jung, J.J. & Camacho, D.. Social Big Data: Recent Achievements and New Challenges[J].Information Fusion, 2016, 28(C): 45-59.
[3]Marz, N. & Warren, J.. Big Data: Principles and Best Practices of Scalable Realtime Data Systems[M]. Pearson Schweiz Ag, 2015.
[4]Arora, D. & Malik, P.. Analytics: Key to Go from Generating Big Data to Deriving Business Value[C]. First International Conference on Big Data Computing Service & Applications. IEEE Computer Society, 2015: 446-452.
[5]Collins, B.. Big Data and Health Economics: Strengths, Weaknesses, Opportunities and Threats[J].Pharmacoeconomics, 2015:1-6.
[6]Gruhl, D., Guha, R., Kumar, R., et al. The Predictive Power of Online Chatter[C]. Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining (KDD). Now York, USA: ACM, 2005:78-87.
[7]Asur, S., & Huberman, B.A.. Predicting the Future with Social Media[C]. Web Intelligence and Intelligent Agent Technology, Toronto, 2010, 1: 492-499.
[8]Gilbert, E., & Karahalios, K.. Widespread Worry and the Stock Market[C]. Proceedings of the 4th International Conference on Weblogs and Social Media, 2010: 59-65.
[9]Bollen, J., Mao, H., & Zeng, X.. Twitter Mood Predicts the Stock Market[J]. Journal of Computational Science, 2011, 2(1): 1-8.
[10]Araz, O. M., Bentley, D., & Muelleman, R.. Using Google Flu Trends Data in Forecasting Influenza-Like-Illness Related Emergency Department Visits in Omaha, Nebraska[J]. The American Journal of Emergency Medicine, 2014, 32(9):1016-1023.
[11]Dong, X., Bollen, J.. Computational models of consumer confidence from large-scale online attention data: crowd-sourcing econometrics[J]. PLOSONE, 2015, 10(3): e0120039.
[12]董現(xiàn)壘,Bollen Johan,胡蓓蓓. 貝葉斯視角下社交媒體數(shù)據(jù)的挖掘與應用研究[J]. 軟科學, 2015,(9):96-101.
[13]董現(xiàn)壘, Bollen Johan,胡蓓蓓. 基于網(wǎng)絡搜索數(shù)據(jù)的中國消費者信心指數(shù)測算與分析[J]. 統(tǒng)計與決策. 2016,(5): 9-13.
[14]Dong, X., Xu, J., Ding, Y., Zhang, C., Zhang, K., and Song M.. Understanding the Correlations between Social Attention and Topic Trends of Scientific Publications[J].Journal of Data and Information Science, 2016, 1(1): 28-49
[15]Goel, S., Hofman, J. M., Lahaihe, S., Pennock, D. M., & Watts, D. J.. Predicting Consumer Behavior with Web Search[J].Proceedings of the National Academy of Sciences of the United States of America, 2010, 107(41): 17486-17490.
[16]Gluskin, R. T., Johansson, M. A., Santillana, M., & Brownstein, J. S.. Evaluation of Internet-Based Dengue Query Data: Google Dengue Trends[J].PLoS Neglected Tropical Diseases, 2014, 8 (2): 85-88.
[17]du Preez, J. & Witt, S. F.. Univariate Versus Multivariate Time Series Forecasting: An Application to International Tourism Demand[J]. International Journal of Forecasting, 2003,19: 435-451.
[18]Bangwayo-Skeete, P. F. & Skeete, R. W.. Can Google Data Improve the Forecasting Performance of Tourist Arrivals? Mixed-Data Sampling Approach[J].Tourism Management, 2015, 46: 454-464.
[19]嚴霄鳳,張德馨.大數(shù)據(jù)研究[J].計算機技術與發(fā)展, 2013, 04: 168-172.
[20]王元卓, 靳小龍, 程學旗. 網(wǎng)絡大數(shù)據(jù): 現(xiàn)狀與展望[J]. 計算機學報, 2013, 06: 1125-1138.
[21]覃雄派,王會舉,杜小勇, 王珊.大數(shù)據(jù)分析-RDBMS與MapReduce的競爭與共生[J]. 軟件學報, 2012, 23(1): 32-45.
[22]陶雪嬌,胡曉峰, 劉洋.大數(shù)據(jù)研究綜述[J]. 系統(tǒng)仿真學報, 2013(S1).
編輯/金昊天