国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于百度指數(shù)的傳染病預測精準性探索
——以廣東省H7N9亞型禽流感為例

2020-12-08 02:21黃澤穎
中國人獸共患病學報 2020年11期
關(guān)鍵詞:亞型禽流感波段

黃澤穎

新世紀以來,我國不僅面臨傳統(tǒng)傳染病的持續(xù)威脅,而且SARS、H7N9亞型禽流感、MERS、新冠肺炎等新型傳染病的連續(xù)出現(xiàn),使我們不斷反思傳染病預測的精準性。同一傳染病在不同地區(qū)表現(xiàn)不同特征,若不劃分區(qū)域展開研究,可能削弱預測能力[1]。H7N9亞型禽流感嚴重危害居民的生命健康,引發(fā)全球的廣泛關(guān)注[2]。廣東省是人感染H7N9亞型禽流感的高發(fā)省份,2013年8月份至 2018年2月份,共發(fā)生病例數(shù)264起(占全國18.84%)[3]。不同的是,廣東省的H7N9亞型禽流感與本地H9N2禽流感重配組合,傳染能力更強,具有典型區(qū)域性[4-5]。雖然H7N9亞型禽流感在廣東省得到有效控制,但尚未凈化和消滅,其潛在的威脅不可忽視,故有必要加強精確預測,提高防控決策的科學性。

大數(shù)據(jù)的“數(shù)據(jù)密集型科學”研究范式極大提高了科學發(fā)現(xiàn)概率[6],也為傳染病預測提供了一種新的技術(shù)和手段[7]。隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,來自雅虎、谷歌、百度等知名互聯(lián)網(wǎng)公司的搜索引擎網(wǎng)絡大數(shù)據(jù)越來越多地應用到傳染病發(fā)展趨勢的預測,例如,Polgreen PM等[8]分析雅虎搜索引擎上的流感搜索次數(shù)與實際流感發(fā)生之間的關(guān)系,預測美國的流感發(fā)展趨勢。 Ginsberg J等[9]通過監(jiān)測谷歌搜索引擎上與疾病相關(guān)信息的搜索行為預測美國季節(jié)性流感動態(tài)。Yuan Q等[10]使用百度指數(shù)預測我國流感走勢。王晶晶等[11]基于百度指數(shù)預測以廣東省為中心的全國登革熱疫情。Li Z等[12]結(jié)合百度指數(shù)、氣象和人口因素開發(fā)了廣州市登革熱預測模型。Bu Y等[13]利用百度指數(shù)預測我國流感情況。Zhao Y等[14]結(jié)合百度指數(shù)構(gòu)建時間序列元特征的預測模型,對全國及典型地區(qū)的手足口病發(fā)病率進行即時預報。白寧等[15]基于百度指數(shù)分波段預測福建省的H7N9亞型禽流感疫情。梳理文獻可知,包括百度指數(shù)在內(nèi)的搜索引擎網(wǎng)絡大數(shù)據(jù)與傳染病的流行病學有緊密的聯(lián)系,有充分的證據(jù)預測疫情的發(fā)生或流行。然而,就如何進一步提高搜索引擎網(wǎng)絡大數(shù)據(jù)預測的精準度方面,大多數(shù)研究一方面忽視了公眾搜索行為隨疫情發(fā)展變化的特征,不分疫情波段進行預測研究,另一方面忽視了疫情期間公眾通過搜索引擎查詢身體不適的原因和治療方法,未將公眾對傳染病臨床癥狀相關(guān)關(guān)鍵詞的搜索頻率考慮在內(nèi)。

《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》指出,截至2020年3月份,我國網(wǎng)民規(guī)模達9.04億,其中,搜索引擎是搜索信息的主要渠道,用戶占總網(wǎng)民的83.0%[16]。百度是全球最大的中文搜索引擎,其推出的百度指數(shù),以網(wǎng)民在百度的搜索量為數(shù)據(jù)基礎,以關(guān)鍵詞為統(tǒng)計對象,科學分析并計算出各個關(guān)鍵詞在百度網(wǎng)頁搜索中搜索頻次的加權(quán)和,客觀地反映網(wǎng)民的主動搜索需求和網(wǎng)民對網(wǎng)絡信息的關(guān)注程度。因此,本文以提高廣東省H7N9亞型禽流感疫情的預測準確度為研究重點,利用回顧性流行病學調(diào)查方法,基于“H7N9”關(guān)鍵詞百度指數(shù),首先根據(jù)疫情整體趨勢劃分波段預測疫情,然后從中選擇預測效果較佳的波段,結(jié)合臨床癥狀關(guān)鍵詞的百度指數(shù)開展預測研究,希冀通過這些方法與理論能更好地支撐H7N9亞型禽流感疫情防控,也為流行病學分析提供參考價值。

1 材料與方法

1.1數(shù)據(jù)來源 本文使用的數(shù)據(jù)主要是廣東省H7N9亞型禽流感病例數(shù)和相關(guān)關(guān)鍵詞的百度指數(shù):一是根據(jù)廣東省衛(wèi)健委的疫情信息[3],整理2013年1月份到2018年12月份的廣東省H7N9亞型禽流感月度與周度新增病例數(shù);二是在百度指數(shù)平臺(http://index.baidu.com),以“PC端+移動端”指數(shù)(基于我國居民越來越多使用電腦和智能手機進行信息搜索的趨勢)作為搜索指數(shù)來源,地區(qū)范圍設定在廣東省,一方面,為提高查全率,以“H7N9”為關(guān)鍵詞采集2013年1月份到2018年12月份廣東省每月與每周的“H7N9”百度指數(shù),另一方面,根據(jù)H7N9禽流感的定義,結(jié)合H7N9亞型禽流感高頻被引國內(nèi)外文獻[17-19],基于百度指數(shù)平臺對關(guān)鍵詞的收錄權(quán)限,選取了“發(fā)熱”“咳嗽”“咳痰”“肌肉酸痛”“呼吸困難”“乏力”“頭痛”“咽痛”“胸悶”“氣喘”“胸痛”“流涕”12個與H7N9亞型禽流感臨床癥狀密切相關(guān)且特異性的關(guān)鍵詞。鑒于每年普通流感的流行高峰與H7N9禽流感的流行高峰在時間上有很大重合性,且人感染H7N9禽流感的臨床表現(xiàn)也跟一般的普通流感比較相似,但顯著的區(qū)別在于潛伏期,即流感的潛伏期相對較短,通常1~3 d。而H7N9潛伏期平均是7 d,短的是2~3 d,長的是10~14 d。因此,在利用臨床癥狀關(guān)鍵詞的百度指數(shù)預測環(huán)節(jié)中,將預測時間間隔擬定為周,搜集臨床癥狀關(guān)鍵詞在2013年1月份到2018年12月份廣東省每周的百度指數(shù)。

1.2研究方法 本文運用R統(tǒng)計軟件,基于廣東省H7N9亞型禽流感病例數(shù)和百度指數(shù),采用支持向量機回歸和多元線性回歸對疫情趨勢進行預測。

1.2.1支持向量機回歸預測 支持向量機回歸(support vector machine regression, SVMR)是以支持向量機作為數(shù)據(jù)挖掘方法處理時間序列分析問題,其擬合優(yōu)度并非通過常規(guī)的二次損失函數(shù)(均方差)測量,而是通過非靈敏損失函數(shù)(ILF)測度[20]。本文以每個疫情波段中H7N9亞型禽流感每月新增病例數(shù)為因變量,以相應的H7N9月度百度指數(shù)為自變量,采用徑向基(RBF)核函數(shù),利用交叉驗證方法尋找最佳的懲罰因子和RBF核函數(shù)的方差,然后分波段建立支持向量機回歸模型,對每個波段的疫情前半段進行模型訓練和對后半段進行模型預測,考察是否可以預測到實際病例數(shù)的變化趨勢與峰值出現(xiàn)的時間,最后以均方誤差小和決定系數(shù)大作為預測效果良好的評判標準,選取預測效果較好的疫情波段。

1.2.2多元線性回歸預測 基于支持向量回歸預測效果較好的疫情波段,以這段疫情波段的每周新增病例數(shù)為因變量,以12個H7N9亞型禽流感臨床癥狀關(guān)鍵詞的百度指數(shù)為自變量建立多元線性回歸模型。第1步,采用皮爾森相關(guān)系數(shù)(PCC)和斯皮爾曼相關(guān)系數(shù)(SCC)判斷12個關(guān)鍵詞與實際每周H7N9亞型禽流感病例數(shù)的關(guān)系。第2步, 評估模型的預測效果:采用留一法交叉驗證法LOOCV(leave-ont-out cross validation),選取上述支持向量回歸預測效果較好的疫情波段,假設有n個周的數(shù)據(jù),將每周的數(shù)據(jù)作為測試集,其余n-1個周的數(shù)據(jù)作為訓練集,重復方法使每個周度數(shù)據(jù)都被作為一次測試集,然后使用逐步回歸法去除回歸效果不夠顯著的自變量,建立最優(yōu)的預測模型,以預測值與實際值的皮爾森相關(guān)系數(shù)(PCC)評估預測模型實際應用中的準確度。第3步,開展疫情預測:采用反向測試(retrospective test)方法,假設數(shù)據(jù)集共M條周度數(shù)據(jù),用后N條周度數(shù)據(jù)作測試集,以測試其中的第n條周度數(shù)據(jù)為例,將前(M-N+n-1)條周度數(shù)據(jù)作為訓練集構(gòu)建模型,為排除普通流感流行(潛伏期1~3 d)的混雜影響,文章鑒于人感染H7N9禽流感的臨床表現(xiàn)一般存在7 d潛伏期,參考一些專家的方法[21],將預測周的前一周H7N9實際新增病例數(shù)據(jù)作為自變量加入到模型中,預測第n條的周度數(shù)值,重復方法N次,也就是說,利用上述支持向量回歸預測效果較好的疫情波段作為訓練集,預測下一個疫情波段的病例數(shù),并以下一個疫情波段的實際病例數(shù)作為驗證集進行比較,最后利用預測值和實際值之間的皮爾森相關(guān)系數(shù)(PCC)檢驗反向測試的效果以及采用預測值與實際值的平均絕對誤差(MAE)判斷模型的預測準確度。

2 結(jié) 果

2.1廣東省H7N9亞型禽流感疫情波段劃分與分析 由圖1可知,廣東省2013年8月份至2018年2月份的月度H7N9亞型禽流感確診病例數(shù)與百度指數(shù)的變化趨勢具有很高的相似性,總體上,月新增病例數(shù)越多其百度指數(shù)越高,而且呈現(xiàn)4個波段,波段周期長短相符,大體可劃分為:第1波段(2013年7月份至2014年7月份)、第2波段(2014年10月份至2015年4月份)、第3波段(2015年10月份至2016年6月份)、第4波段(2016年11月份至2017年5月份);此外,與病例數(shù)變化趨勢相比,4波疫情中的居民搜索關(guān)鍵詞“H7N9”的行為呈提前現(xiàn)象(提前時間1個月),如廣東省首個病例發(fā)生于2013年8月份,比居民首次搜索關(guān)鍵詞“H7N9”的行為僅晚了1個月;在2013-2018年期間,廣東省發(fā)生病例數(shù)最多(44起)的月份是2014年2月份,而百度指數(shù)最高(11 719)的月份是2014年1月份。

由圖2可知,在每波疫情中,H7N9亞型禽流感總病例數(shù)與關(guān)鍵詞“H7N9”總的百度指數(shù)有一定的相關(guān)關(guān)系。除了第2波疫情外,第1波、第3波、第4波疫情中的百度指數(shù)與病例總數(shù)近似同步。

圖2 每波疫情總病例數(shù)與關(guān)鍵詞“H7N9”百度指數(shù)的關(guān)系圖Fig.2 Relationship between the total number of cases in each wave and the keyword "H7N9" in the Baidu index

2.2分波段支持向量機回歸預測 在H7N9亞型禽流感疫情的不同波段,居民對于關(guān)鍵詞“H7N9”的搜索行為不同,故根據(jù)疫情波段選擇訓練集與預測集開展支持向量機回歸預測,見圖3~7。

由圖3可知,廣東省的每波疫情中,2月份是H7N9亞型禽流感的高發(fā)月份,以此為界,選擇疫情中10月份到次年1月份的病例發(fā)生數(shù)作為訓練集,2月份到9月份作為預測集。

圖3 2013年8月份至2018年12月份各波疫情每月H7N9亞型禽流感病例數(shù)Fig.3 Number of H7N9 subtype avian influenza cases in each wave from August 2013 to December 2018

第1~3波疫情中(見圖1),百度指數(shù)峰值出現(xiàn)的時間比病例數(shù)峰值提前1個月,故利用第t-1個月的關(guān)鍵詞“H7N9”百度指數(shù)預測第t個月的H7N9禽流感病例數(shù);在第4波疫情中,百度指數(shù)峰值出現(xiàn)時間比病例數(shù)峰值滯后1個月,因此利用第t+1個月關(guān)鍵詞“H7N9”的百度指數(shù)預測第t個月H7N9亞型禽流感病例數(shù)。

圖1 2013-2018年各月H7N9亞型禽流感病例數(shù)與關(guān)鍵詞“H7N9”百度指數(shù)的變化趨勢Fig.1 Change trend in the number of H7N9 subtype avian influenza cases in each month and the keyword "H7N9" in the Baidu index from 2013 to 2018

由圖4可知,廣東省第1波疫情中預測集是2014年2月份至2014年7月份,除了2014年4月份和7月份外,2014年2月份、3月份、5月份和6月份的預測值均低于同期的真實值。

圖4 第1波疫情中預測集的真實值和預測結(jié)果的對比Fig.4 Comparison of the true values of the predicted sets and the predicted results in the first wave epidemic

由圖5可知,廣東省第2波疫情中預測集是從2015年2月份到2015年4月份,其中2015年2月份的預測值低于同期的真實值,而3月份的預測值高于同期的真實值。

圖5 第2波疫情中預測集的真實值和預測結(jié)果的對比Fig.5 Comparison of the true values of the predicted sets and the predicted results in the second wave epidemic

由圖6可知,第3波疫情中預測集是從2016年2月份到2016年6月份,其中5月份的預測值與真實值一致,但2016年2月份、3月份的預測值低于同期的真實值,而4月份、6月份的預測值高于同期的真實值。

圖6 第3波疫情中預測集的真實值和預測結(jié)果的對比Fig.6 Comparison of the true values of the predicted sets and the predicted results in the third wave epidemic

由圖7可知,廣東省第4波疫情中的預測集是從2017年2月份到2017年5月份,這些月份的預測值均高于同期的真實值。

圖7 第4波疫情中預測集的真實值和預測結(jié)果的對比Fig.7 Comparison of the true values of the predicted sets and the predicted results in the fourth wave epidemic

通過計算圖4到圖7每波疫情的均方誤差和決定系數(shù)發(fā)現(xiàn),第1波、第2波、第3波、第4波疫情預測集的均方誤差分別為21.68、8.63、11.21、30.97,決定系數(shù)分別為0.78、0.91、0.90、0.76,第2、3波疫情的預測值能較好地描述真實病例數(shù)的變化趨勢。

2.3多元線性回歸預測 由表1可知,12個關(guān)鍵詞的百度指數(shù)與實際每周H7N9亞型禽流感病例數(shù)的皮爾森相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù)有明顯的正相關(guān),與實際疫情有較強相關(guān)性的關(guān)鍵詞是 “肌肉酸痛”(PCC=0.381,SCC=0.472)、“頭痛”(PCC=0.326,SCC=0.281)、“發(fā)熱”(PCC=0.261,SCC=0.377)。由此可知,12個關(guān)鍵詞的百度指數(shù)可用來預測H7N9亞型禽流感疫情的動態(tài)變化。

表1 各關(guān)鍵詞的百度指數(shù)與實際病例數(shù)的相關(guān)性系數(shù)Tab.1 Correlation coefficients between each keyword in the Baidu index and the actual number of cases

以廣東省2014年10月份到2016年6月份每周新增H7N9亞型禽流感病例數(shù)作為因變量,以上述12個關(guān)鍵詞的百度指數(shù)作為自變量建立多元線性回歸模型,依次選取2014年10月份到2016年6月份中的一個周的數(shù)據(jù)為測試集,其余的數(shù)據(jù)為訓練集,通過逐步回歸方法,結(jié)合AIC信息準則數(shù)值最小化作為選擇模型擬合數(shù)據(jù)較優(yōu)的標準,最終形成自變量為“肌肉酸痛”、“發(fā)熱”、“頭痛”、“流涕”、“乏力”的預測模型。通過留一法交叉驗證(LOOCV)評估發(fā)現(xiàn),預測值與實際值之間的PCC為0.805(P<0.01),這說明,模型在測試數(shù)據(jù)上的效果較好。

采用反向測試方法,以76周(2014年10月份到2016年6月份,共19個月,累計76周)的數(shù)據(jù)作為訓練集,預測第4波段(2016年11月份到2017年5月份,共7個月,累計28周)的疫情走勢,以28個預測周的前1周H7N9病例新增數(shù)據(jù)(即2016年10月25-31日)作為自變量加入到模型中,消除普通流感的混雜影響,并以第4波段的實際病例數(shù)作為驗證集。為了便于比較,將多元線性回歸模型得出的周度預測值轉(zhuǎn)換為預測值,研究結(jié)果見表2,第4波段疫情的預測值與實際值比較接近,兩者之前的PCC為0.885(P<0.01),相關(guān)性強,預測值與實際值的平均絕對誤差(MAE)為2.83,預測的準確度較高,很好地捕捉到真實病例數(shù)峰值出現(xiàn)的時間。在2017年2月份到2017年5月份這段時間內(nèi),支持向量機回歸的預測值與實際值之間的PCC值為0.791(P<0.01),MAE=10,而多元線性回歸的預測值與實際值之間的PCC值為0.987(P<0.01),相關(guān)性更明顯,MAE=2.25,相比之下,多元線性回歸的預測效果更優(yōu)。

表2 第4波段疫情的病例數(shù)預測值與實際值Tab.2 Predicted values and the actual number of cases in the fourth wave of the epidemic

3 討 論

為了更好地預測廣東省H7N9亞型禽流感疫情的動態(tài)變化,本文基于2013-2018年廣東省的“H7N9”與12個H7N9亞型禽流感臨床癥狀等關(guān)鍵詞的百度指數(shù),結(jié)合2013年到2018年的廣東省H7N9亞型禽流感月度新增病例數(shù),劃分了4個疫情波段,首先,通過支持向量機回歸預測篩選第2、3波段的疫情時間(2014年10月份到2016年6月份),然后,在這個疫情的周度時間范圍內(nèi),12個H7N9亞型禽流感臨床癥狀的關(guān)鍵詞與實際病例數(shù)有明顯的正相關(guān),結(jié)合臨床癥狀關(guān)鍵詞建立多元線性回歸模型對第4波段疫情預測發(fā)現(xiàn),預測值能更好地擬合實際疫情動態(tài)趨勢,比支持向量機回歸的預測精度更高。

“有事問百度”已成為我國居民利用其檢索服務功能關(guān)注新型傳染病以及查詢和獲取健康信息的重要渠道,隨著網(wǎng)民的逐年增加和5G時代的到來,搜索引擎的使用率會愈加頻繁,基于百度指數(shù)預測傳染病的發(fā)生率具有良好的應用前景。本文以廣東省H7N9亞型禽流感疫情為例,創(chuàng)新性地從分疫情波段和臨床癥狀關(guān)鍵詞兩個方面試圖改進現(xiàn)有研究的預測性能,得到的結(jié)論具有流行病學意義,進一步肯定了搜索引擎網(wǎng)絡大數(shù)據(jù)預測傳染病的可行性。

然而,本文預測的結(jié)果與實際疫情發(fā)生尚不完全吻合,預測模型及參數(shù)方面仍存在不盡人意的地方。盡管百度公司對百度指數(shù)進行不懈的完善,使之更接近實際,但傳染病預測模型的建立,還有不少影響精準度的噪音:一是指數(shù)本身受制于搜索者的知識層面、所在地區(qū)的限制,對于預測結(jié)果存在一定的干擾,例如,非廣東省地區(qū)發(fā)生了疑似疫情,可能導致廣東省對H7N9亞型禽流感搜索量的上升;二是疫情態(tài)勢已發(fā)生變化,當前我國人感染H7N9禽流感呈散發(fā)態(tài)勢,大規(guī)模與集中暴發(fā)的可能性較低,如果以集中暴發(fā)期的新增案例預測,則與實際相差甚遠。因此,利用好搜索引擎網(wǎng)絡大數(shù)據(jù)開展精準預測除了要進一步了解公眾的搜索習慣,揣測搜索動機,還應根據(jù)氣候、環(huán)境、社會、經(jīng)濟、防控政策等新變化對構(gòu)建的模型進行年度調(diào)整。

利益沖突:無

猜你喜歡
亞型禽流感波段
最佳波段組合的典型地物信息提取
尖銳濕疣患者感染HPV亞型的研究及臨床分析
H4 亞型和N2 亞型禽流感病毒二重RT-PCR 檢測方法的建立
Acknowledgment to reviewers—November 2018 to September 2019
H10亞型和N8亞型禽流感病毒三重RT-PCR檢測方法的建立
基于PLL的Ku波段頻率源設計與測試
禽流感
小型化Ka波段65W脈沖功放模塊
L波段kw級固態(tài)功放測試技術(shù)
美國7月禽流感頻發(fā)復關(guān)或延遲至明年二季度