基于LASSO回歸模型與百度搜索數(shù)據(jù)構(gòu)建的流感疫情預(yù)測(cè)系統(tǒng)

2017-06-05 14:20郝元濤

中國(guó)衛(wèi)生統(tǒng)計(jì) 2017年2期

郭貔王力郝元濤

·論著·

郭貔1王力1郝元濤2,3△

目的探討基于LASSO回歸模型與百度搜索數(shù)據(jù)構(gòu)建流感疫情預(yù)測(cè)系統(tǒng)的可行性。方法采用Bagging方法和模型性能的多指標(biāo)優(yōu)化評(píng)估策略，對(duì)傳統(tǒng)LASSO回歸模型進(jìn)行改進(jìn)，構(gòu)建性能提升的集成LASSO回歸模型，將其應(yīng)用于中國(guó)大陸地區(qū)季節(jié)性流感流行趨勢(shì)的預(yù)測(cè)研究。結(jié)果與傳統(tǒng)LASSO回歸模型相比，本研究所構(gòu)建的集成LASSO回歸模型對(duì)2011年至2015年中國(guó)大陸地區(qū)流感流行趨勢(shì)的預(yù)測(cè)偏差更小，說(shuō)明集成LASSO回歸模型的外部推斷能力更強(qiáng)，適合于流感疫情的預(yù)測(cè)分析；本研究開(kāi)發(fā)了開(kāi)源的R軟件程序包SparseLearner，方便用戶(hù)進(jìn)行調(diào)用和進(jìn)一步開(kāi)發(fā)研究。結(jié)論 Bagging方法和多指標(biāo)優(yōu)化評(píng)估策略相結(jié)合所構(gòu)建的集成LASSO回歸模型，有效地增強(qiáng)了傳統(tǒng)LASSO回歸模型的性能。本研究所構(gòu)建的預(yù)測(cè)模型可以應(yīng)用于流感等傳染病疫情的預(yù)測(cè)研究。

Bagging LASSO 流感預(yù)測(cè)

流感的流行和暴發(fā)是中國(guó)大陸地區(qū)面臨的重要公共衛(wèi)生問(wèn)題之一[1-4]。為了更好地預(yù)防和控制季節(jié)性流感在大規(guī)模人群范圍內(nèi)暴發(fā)和流行，研究者們已經(jīng)開(kāi)展了一些前沿的科學(xué)研究，利用社交媒體和搜索引擎等電子信息，以對(duì)流感的暴發(fā)和傳播提供近似實(shí)時(shí)的監(jiān)測(cè)[5-8]。Ginsberg 等(2006)[7]最早開(kāi)始研究利用Google搜索數(shù)據(jù)對(duì)美國(guó)地區(qū)流感的流行趨勢(shì)進(jìn)行預(yù)測(cè)，且證實(shí)這種近似實(shí)時(shí)監(jiān)測(cè)的方法對(duì)流感暴發(fā)的準(zhǔn)確預(yù)測(cè)比傳統(tǒng)哨點(diǎn)疫情監(jiān)測(cè)方法提早了一周。

Marcel等(2013)[7]在著名的《新英格蘭醫(yī)學(xué)雜志》上討論以社交網(wǎng)絡(luò)和搜索引擎數(shù)據(jù)為媒介對(duì)傳染病暴發(fā)進(jìn)行實(shí)時(shí)或者近似實(shí)時(shí)的預(yù)測(cè)的“電子流行病學(xué)”(digital epidemiology)的發(fā)展，并認(rèn)為這種方法能夠有效地補(bǔ)充和完善傳統(tǒng)的疾病監(jiān)測(cè)方法。由于百度搜索引擎是目前中國(guó)大陸地區(qū)最為廣泛使用的互聯(lián)網(wǎng)搜索引擎，因此百度關(guān)鍵詞的搜索量可以準(zhǔn)確地反映中國(guó)互聯(lián)網(wǎng)用戶(hù)的網(wǎng)絡(luò)搜索行為的主要特征。在2013年，Yuan等(2013)[9]首次探討了采用百度搜索數(shù)據(jù)對(duì)中國(guó)大陸地區(qū)季節(jié)性流感流行趨勢(shì)預(yù)測(cè)的方法學(xué)問(wèn)題，根據(jù)百度用戶(hù)搜索關(guān)鍵詞的頻次構(gòu)建預(yù)警模型，證明了該方法能有效地對(duì)季節(jié)性流感的流行水平進(jìn)行準(zhǔn)確估計(jì)。該方法[9]需要事先使用不同權(quán)重對(duì)眾多搜索詞進(jìn)行加權(quán)，構(gòu)建一個(gè)復(fù)合的預(yù)測(cè)因子，并采用線性回歸模型進(jìn)行預(yù)測(cè)。實(shí)際上，使用搜索關(guān)鍵詞構(gòu)建預(yù)測(cè)模型，需要分析的搜索關(guān)鍵詞的數(shù)目往往較多，這種處理方式使模型無(wú)法對(duì)每個(gè)關(guān)鍵詞的貢獻(xiàn)進(jìn)行估計(jì)。另外，基于線性回歸模型對(duì)流感流行與暴發(fā)進(jìn)行預(yù)測(cè)的穩(wěn)健性仍有待進(jìn)一步提高。

我們以往研究(2015)[10]表明基于隨機(jī)Bootstrap抽樣方法構(gòu)建的LASSO回歸模型能夠準(zhǔn)確地識(shí)別關(guān)鍵變量并估計(jì)其效應(yīng)。另外，在傳染病監(jiān)測(cè)應(yīng)用領(lǐng)域，對(duì)傳染病暴發(fā)期進(jìn)行預(yù)測(cè)，我們需要根據(jù)不同的模型評(píng)價(jià)指標(biāo)，全面地評(píng)估所構(gòu)建模型對(duì)傳染病流行與暴發(fā)的預(yù)測(cè)效果。因此，在構(gòu)建傳染病預(yù)測(cè)模型時(shí)，有必要綜合多個(gè)評(píng)價(jià)指標(biāo)對(duì)模型預(yù)測(cè)效果進(jìn)行評(píng)估，從而使得所構(gòu)建模型的預(yù)測(cè)效果在多個(gè)指標(biāo)上同時(shí)達(dá)到最優(yōu)。

本研究擬采用Bagging(1993)算法[11]結(jié)合多指標(biāo)優(yōu)化評(píng)估策略(2007)[12]對(duì)傳統(tǒng)LASSO回歸模型進(jìn)行改進(jìn)，探討構(gòu)建一種基于百度搜索數(shù)據(jù)的流感預(yù)測(cè)系統(tǒng)，使得模型預(yù)測(cè)的準(zhǔn)確性和穩(wěn)健性均有所提高，并將其應(yīng)用于中國(guó)大陸地區(qū)季節(jié)性流感流行與暴發(fā)的估計(jì)。

原理與方法

1.LASSO線性回歸模型

假設(shè)現(xiàn)有數(shù)據(jù)(Xi,yi)，i=1,2,…，N,這里Xi=(xi1,…,xip)T和yi分別表示第i個(gè)觀察值對(duì)應(yīng)的自變量和因變量。在觀察值彼此獨(dú)立的前提下，該線性模型表示如下：

(1)

早在1995年，Breiman[13]提出變量收縮和系數(shù)估計(jì)同步進(jìn)行的Nonnegative Garrote方法。該方法可表示為：

(2)

在此基礎(chǔ)上，Tibshirani(1996)[14]提出了LASSO估計(jì)方法，彌補(bǔ)其缺陷。在線性回歸模型的情況下，LASSO方法給出的系數(shù)估計(jì)表示為：

(3)

2.結(jié)合Bagging算法與多指標(biāo)優(yōu)化評(píng)估策略構(gòu)建的集成LASSO回歸模型

(1)Bagging算法的基本原理

Bagging算法將很多基礎(chǔ)模型Ci進(jìn)行集成產(chǎn)生一個(gè)復(fù)合預(yù)測(cè)模型，其通過(guò)對(duì)原有的訓(xùn)練數(shù)據(jù)進(jìn)行Bootstrap重復(fù)抽樣[15]，從樣本大小為n的原有數(shù)據(jù)中隨機(jī)抽取nb個(gè)樣本，構(gòu)造一份Bootstrap樣本。本研究采用有放回等樣本抽樣方法構(gòu)造Bootstrap樣本。進(jìn)行多次Bootstrap抽樣，產(chǎn)生多份Bootstrap樣本數(shù)據(jù)，利用這些抽樣數(shù)據(jù)訓(xùn)練基礎(chǔ)模型Ci，最終將所有Ci的預(yù)測(cè)結(jié)果進(jìn)行平均，形成穩(wěn)定的預(yù)測(cè)結(jié)果。

(2)模型預(yù)測(cè)性能的多指標(biāo)優(yōu)化評(píng)估策略

實(shí)際上，基于多個(gè)指標(biāo)確定一個(gè)最優(yōu)模型是屬于多指標(biāo)優(yōu)化的問(wèn)題，其原理是每個(gè)單獨(dú)指標(biāo)根據(jù)自身取值大小對(duì)所有比較模型進(jìn)行排序。假設(shè)以Li表示在指標(biāo)i上所有模型的排序序列。這樣對(duì)于K個(gè)指標(biāo)而言，我們可以得到K個(gè)排列的模型序列L1,L2,…,LK，每個(gè)序列Li的長(zhǎng)度代表所比較的模型的個(gè)數(shù)。因此，多指標(biāo)評(píng)估便轉(zhuǎn)化為整合分析上述K個(gè)排序的序列，以尋找一個(gè)最優(yōu)的模型序列，使其與所有K個(gè)序列之間的距離最小。加權(quán)排序融合技術(shù)[16]可以用于求解這類(lèi)多指標(biāo)評(píng)估的優(yōu)化問(wèn)題。

上述尋找最優(yōu)模型序列是一個(gè)經(jīng)典的組合優(yōu)化問(wèn)題，可以采用加權(quán)排序融合技術(shù)進(jìn)行求解。首先，定義一個(gè)目標(biāo)函數(shù)：

(4)

在式(4)中，m是評(píng)估指標(biāo)的數(shù)目，Li是模型排序列表中任何一個(gè)長(zhǎng)度為k的已知的模型序列，δ是目標(biāo)函數(shù)的可能解，wi是權(quán)重因子，而d是衡量任何兩個(gè)序列之間相似程度的距離函數(shù)[17]。

那么，在所有可能的解中尋找一個(gè)最優(yōu)的解δ*需要滿(mǎn)足：

(5)

式(5)表示所要找的最優(yōu)解將使得δ*與其他所有序列Li之間的距離最小。

加權(quán)排序融合技術(shù)用于尋找模型序列δ*，使δ*盡可能地逼近已知的模型序列Li，這個(gè)δ*就是目標(biāo)函數(shù)(5)的一個(gè)最優(yōu)解。所謂序列之間盡可能的“逼近”，其實(shí)質(zhì)是選擇合適的距離函數(shù)d測(cè)量任何兩個(gè)序列之間的近似程度。通常地，距離函數(shù)d可以由斯皮爾曼簡(jiǎn)捷距離[18]或者其加權(quán)的形式描述。

假設(shè)現(xiàn)有一個(gè)已知序列Li，rLi(A)表示元素A在序列Li中的秩。對(duì)于任意序列δ而言，序列δ和Li之間的斯皮爾曼簡(jiǎn)捷距離定義為：

(6)

這里，序列δ和Li之間的斯皮爾曼簡(jiǎn)捷距離代表兩個(gè)序列中所有不同元素秩序差值的絕對(duì)值總和。S(δ,Li)越小，表示二者的相似程度越高。當(dāng)兩個(gè)序列中元素的秩序完全不一致時(shí)，該距離達(dá)到最大值，表示二者之間相似程度很低。

若已知某個(gè)評(píng)估指標(biāo)得分值，我們可以利用這部分信息定義一個(gè)加權(quán)形式的斯皮爾曼簡(jiǎn)捷距離[16]。假設(shè)Mi(1),…,Mi(k)表示序列Li中每個(gè)元素對(duì)應(yīng)的指標(biāo)分值(在我們的研究中，可以是靈敏度、特異度、AUC等評(píng)估指標(biāo)取值)，Mi(1)表示最優(yōu)的分?jǐn)?shù)，Mi(2)為次優(yōu)的分?jǐn)?shù)，依次類(lèi)推。那么，任意兩個(gè)序列δ和Li之間的加權(quán)斯皮爾曼簡(jiǎn)捷距離則表示為：

(7)

考慮到提高算法運(yùn)算效率，本研究采用互熵蒙特卡洛方法求解尋找目標(biāo)函數(shù)(5)的最優(yōu)解δ*，以構(gòu)建適合預(yù)測(cè)變量數(shù)目較大的流感疫情預(yù)測(cè)系統(tǒng)，其方法學(xué)原理詳見(jiàn)文獻(xiàn)[19]。

(3) 集成LASSO回歸模型

結(jié)合Bagging與多指標(biāo)優(yōu)化評(píng)估策略，本研究改進(jìn)傳統(tǒng)LASSO回歸模型，構(gòu)建集成LASSO回歸模型，應(yīng)用于流感疫情的預(yù)測(cè)。下面給出集成LASSO回歸模型的具體算法：

輸入:

?(X,Y):原有數(shù)據(jù)包含n個(gè)樣本和p個(gè)預(yù)測(cè)變量，(X,Y)∈n×(p+1)

?B:有放回Bootstrap重抽樣次數(shù)

?nBootstrap:每次有放回Bootstrap重抽樣的樣本量

?M:子模型序列的長(zhǎng)度

?K:子模型性能評(píng)估指標(biāo)

?RP:預(yù)測(cè)變量隨機(jī)子集的大小

?δ:子模型排序序列初始值

?d(.):子模型序列之間的距離函數(shù)

輸出:模型最終預(yù)測(cè)ψaverage

1:forb=1toBdo

2:產(chǎn)生Bootstrap樣本L=(Xb,Yb)∈nBootstrap×(p+1)

4:form=1toMdo

5:從原有預(yù)測(cè)變量集Xb中隨機(jī)選擇RP個(gè)變量

10:fork=1toKdo

12:end

13:end

15:根據(jù)矩陣VK×M產(chǎn)生模型性能排序序列{Ri=(C(1),C(2),…,C(M))i,i=1,…,K}

17:使用互熵蒙特卡洛方法求解該目標(biāo)函數(shù)，得到目標(biāo)函數(shù)的最優(yōu)解

19:end

21:使用模型平均法實(shí)現(xiàn)模型的最終預(yù)測(cè)ψaverage=E[C(1)(R*)]

本研究構(gòu)建的集成LASSO回歸模型所采用的性能評(píng)估指標(biāo)包括相對(duì)誤差指標(biāo)和絕對(duì)誤差指標(biāo)兩大類(lèi)，即相對(duì)誤差(relative error，RE)、均方根誤差(root mean square error，RMSE)、平均絕對(duì)誤差(mean absolute error，MAE)和對(duì)稱(chēng)的平均絕對(duì)比例誤差(symmetric mean absolute percentage error，SMAPE)。它們各自的定義如下：

(8)

(9)

(10)

(11)

在構(gòu)建的集成LASSO回歸模型中，我們采用非參數(shù)置換方法[23]客觀地評(píng)估每個(gè)預(yù)測(cè)變量的重要性。在采用Bootstrap技術(shù)對(duì)原有數(shù)據(jù)集進(jìn)行隨機(jī)抽樣時(shí)，我們使用袋外樣本數(shù)據(jù)Xoob對(duì)集成LASSO回歸模型進(jìn)行評(píng)估。具體過(guò)程是：在利用袋外樣本Xoob測(cè)度變量Xi重要性時(shí)，對(duì)該變量進(jìn)行置換操作，并基于置換后的Xi與其余變量構(gòu)建Bagging模型。如果置換變量的袋外樣本預(yù)測(cè)錯(cuò)誤率比未置換變量的預(yù)測(cè)錯(cuò)誤率明顯增大，說(shuō)明該變量非常重要。

我們采用公式(12)測(cè)度Bagging模型中變量的重要性：

(12)

在上述理論與方法的基礎(chǔ)上，我們開(kāi)發(fā)了一個(gè)開(kāi)源的R程序宏包SparseLearner(https://cran.r-project.org/web/packages/SparseLearner/index.html)，其中集成LASSO回歸模型主要由函數(shù)Bagging.LASSO實(shí)現(xiàn)。

實(shí)例分析

本研究中國(guó)大陸地區(qū)2011年1月至2015年5月之間的季節(jié)性流感發(fā)病病例數(shù)來(lái)自中國(guó)疾病與預(yù)防控制中心。聯(lián)合百度指數(shù)網(wǎng)站(http://index.baidu.com/)和百度搜索關(guān)鍵詞挖掘網(wǎng)站(http://s.tool.chinaz.com/baidu/words.aspx)初步確定100個(gè)與“流感”相關(guān)的檢索詞作為候選預(yù)測(cè)變量。在此基礎(chǔ)上，通過(guò)文獻(xiàn)[9]介紹的變量過(guò)濾規(guī)則進(jìn)一步篩選得到58個(gè)預(yù)測(cè)變量。由于潛在影響因素對(duì)流感流行趨勢(shì)可能存在延遲效應(yīng)，考慮影響因素延遲一個(gè)月的效應(yīng)，且將流感每月病例數(shù)作為自回歸項(xiàng)納入模型建模。這種做法是傳染病統(tǒng)計(jì)建模分析常用的方法。最終，本研究納入預(yù)測(cè)建模分析共有117個(gè)預(yù)測(cè)變量。由于預(yù)測(cè)變量的個(gè)數(shù)比樣本量53大得多，此時(shí)使用最小二乘方法對(duì)模型系數(shù)進(jìn)行估計(jì)是失效的。因此，有必要采用LASSO等稀疏估計(jì)方法建立模型，對(duì)流感流行趨勢(shì)進(jìn)行預(yù)測(cè)，分析其影響因素。

1.流感病例與百度搜索關(guān)鍵詞數(shù)據(jù)

本研究使用中國(guó)大陸地區(qū)2011年1月至2015年5月之間的季節(jié)性流感發(fā)病病例數(shù)(表1)對(duì)集成LASSO回歸模型和傳統(tǒng)LASSO回歸模型的預(yù)測(cè)效果進(jìn)行比較和評(píng)估。關(guān)于百度搜索關(guān)鍵詞數(shù)據(jù)，通過(guò)相關(guān)檢索初步確定100個(gè)與“流感”相關(guān)的檢索詞作為候選預(yù)測(cè)變量。進(jìn)一步過(guò)濾，篩選得到58個(gè)預(yù)測(cè)變量(表2)。同時(shí)將每月流感病例數(shù)作為模型的自回歸項(xiàng)以及考慮預(yù)測(cè)變量的延遲效應(yīng)，納入預(yù)測(cè)建模分析共有117個(gè)預(yù)測(cè)變量。

2.兩種模型預(yù)測(cè)效果的比較

本研究將2011年1月至2015年5月之間的流感病例數(shù)據(jù)拆分為兩部分，以2011年1月至2014年12月時(shí)期的流感病例數(shù)據(jù)訓(xùn)練模型，分別擬合集成LASSO回歸模型和傳統(tǒng)LASSO回歸模型，對(duì)2015年1月至2015年5月時(shí)期的流感病例數(shù)據(jù)進(jìn)行預(yù)測(cè)。結(jié)果顯示：集成LASSO回歸模型的預(yù)測(cè)誤差指標(biāo)RMSE、MAE、RE和SMAPE的取值分別是4393.83、3590.16、24.16%和23.87%，小于LASSO回歸模型的對(duì)應(yīng)的預(yù)測(cè)誤差(6326.23、5429.72、35.85%和39.60%)。圖1給出了集成LASSO回歸模型對(duì)該時(shí)期的流感流行趨勢(shì)進(jìn)行預(yù)測(cè)，集成LASSO回歸模型給出的由第10百分位數(shù)和第90百分位數(shù)所構(gòu)造的預(yù)測(cè)區(qū)間能夠準(zhǔn)確地覆蓋該時(shí)期內(nèi)季節(jié)性流感實(shí)際的流行曲線。

散點(diǎn)表示實(shí)際的流感病例數(shù)，綠色曲線表示擬合值，上段灰色曲線和下段灰色曲線分別表示第10百分位數(shù)和第90百分位數(shù)取值，灰色區(qū)域表示模型擬合時(shí)期范圍(2011-01至2014-12)，淺綠色區(qū)域表示模型預(yù)測(cè)時(shí)期范圍(2015-01至2015年05)

圖1 集成LASSO回歸模型對(duì)流感流行趨勢(shì)的預(yù)測(cè)

3.預(yù)測(cè)變量重要性測(cè)度

集成LASSO回歸模型對(duì)預(yù)測(cè)變量的重要性進(jìn)行測(cè)度。與季節(jié)性流感流行趨勢(shì)最密切的前5個(gè)百度檢索詞分別是：“a型流感”、“話說(shuō)甲型h1n1流感(延遲1個(gè)月效應(yīng)項(xiàng))”、“豬流感死亡人數(shù)”、“甲型流感癥狀(延遲1個(gè)月效應(yīng)項(xiàng))”和“話說(shuō)甲型h1n1流感”。根據(jù)預(yù)測(cè)變量重要性測(cè)度結(jié)果，我們可以判斷在流感流行期間，人們通常采用這些檢索詞了解流感疫情。

表1 2011年1月至2015年5月中國(guó)季節(jié)性流感病例數(shù)

*：粗體的預(yù)測(cè)變量表示在第一步被剔除；斜體的預(yù)測(cè)變量表示在第二步被剔除；粗體加斜體的預(yù)測(cè)變量表示在第三步被剔除。

第一步：所選擇的關(guān)鍵檢索詞的含義比較明確，能代表影響流感流行的因素；第二步：所選擇的關(guān)鍵檢索詞是由特定時(shí)間單位(每月，每周或每日)構(gòu)成的序列；第三步：所選擇的關(guān)鍵檢索詞序列與流感病例序列的交叉相關(guān)系數(shù)≥0.4。

討論

本研究首先介紹了Bagging方法和模型預(yù)測(cè)性能的多指標(biāo)優(yōu)化評(píng)估策略的基本原理，在此基礎(chǔ)上改進(jìn)了傳統(tǒng)LASSO回歸模型，與百度搜索數(shù)據(jù)結(jié)合，構(gòu)建了適合于流感疫情預(yù)測(cè)的集成LASSO回歸模型。研究結(jié)果證實(shí)了所構(gòu)建的集成LASSO回歸模型有效地改善了傳統(tǒng)LASSO回歸模型的預(yù)測(cè)效果，能夠?yàn)榧膊”O(jiān)測(cè)與預(yù)警方法研究提供新的思路。

本文所構(gòu)建的集成LASSO回歸模型適用于因變量服從正態(tài)分布的數(shù)據(jù)。當(dāng)數(shù)據(jù)樣本量較小和變量相關(guān)性較強(qiáng)時(shí)，該模型對(duì)變量的選擇和模型系數(shù)的估計(jì)具有較強(qiáng)的穩(wěn)健性?；诎俣人阉鲾?shù)據(jù)構(gòu)建傳染病疫情預(yù)測(cè)系統(tǒng)，需要綜合地評(píng)估大量的檢索詞，利用有效的檢索詞對(duì)傳染病流行趨勢(shì)作出預(yù)測(cè)。正是由于集成LASSO模型對(duì)模型系數(shù)進(jìn)行收縮估計(jì)，使得一些弱相關(guān)的預(yù)測(cè)變量不被納入模型，提高了模型的整體預(yù)測(cè)效果。另外，本研究構(gòu)建的集成LASSO回歸模型是綜合多個(gè)評(píng)價(jià)指標(biāo)對(duì)模型預(yù)測(cè)效果進(jìn)行評(píng)估，從而使所構(gòu)建模型的預(yù)測(cè)效果在多個(gè)指標(biāo)上同時(shí)達(dá)到最優(yōu)。因此，本研究所提出的方法也適用于對(duì)模型預(yù)測(cè)效果進(jìn)行綜合評(píng)估的情況。

[1]Cowling BJ,Jin L,Lau EH,et al.Comparative epidemiology of human infections with avian influenza A H7N9 and H5N1 viruses in China:a population-based study of laboratory-confirmed cases.Lancet,2013,382(9887):129-37.

[2]Qi X,Qian YH,Bao CJ,et al.Probable person to person transmission of novel avian influenza A(H7N9) virus in Eastern China.BMJ,2013,347:f4752.

[3]Li Q,Zhou L,Zhou M,et al.Epidemiology of human infections with avian influenza A(H7N9) virus in China..N Engl J Med,2014,370(6):520-532.

[4]Feng L,Wu JT,Liu X,et al.Clinical severity of human infections with avian influenza A(H7N9) virus,China,2013/14.Euro Surveill.2014,19(49):20984.

[5]Chew C,Eysenbach G.Pandemics in the age of Twitter:content analysis of Tweets during the 2009 H1N1 outbreak.PLoS One,2010,5(11):e14118.

[6]Signorini A,Segre AM,Polgreen PM.The use of Twitter to track levels of disease activity and public concern in the U.S.during the influenza A H1N1 pandemic.PLoS One,2011,6(5):e19467.

[7]Ginsberg J,Mohebbi MH,Patel RS,et al.Detecting influenza epidemics using search engine query data.Nature,2009,457(7232):1012-1014.

[8]Doornik,JA.Improving the timeliness of data on influenza-like illnesses using Google search data.In 8th OxMetrics User Conference.George Washington University,Washington DC.2010.

[9]Yuan Q,Nsoesie EO,Lv B,et al.Monitoring Influenza Epidemics in China with Search Query from Baidu.Plos One,2013,8(5):e64323-e64323.

[10]Guo P,Zeng F,Hu X,et al.Improved Variable Selection Algorithm Using a LASSO-Type Penalty,with an Application to Assessing Hepatitis B Infection Relevant Factors in Community Residents.Plos One,2015,10(7).

[11]Leo Breiman.Bagging Predictors.Machine Learning,1996,24(2):123-140.

[12]Pihur V,Datta S,Datta S.Weighted rank aggregation of cluster validation measures:a Monte Carlo cross-entropy approach. Bioinformatics,2007,23(13):1607-1615.

[13]Leo Breiman.Better Subset Regression Using the Nonnegative Garrote.Technometrics,1995,37(4):373-384.

[14]Tibshirani R.Regression shrinkage and selection via the LASSO.Journal of the Royal Statistical Society.Series B(Methodological),1996,267-288.

[15]Efron B,Tibshirani R.An introduction to the Bootstrap.1993,Chapman and Hall.

[16]Pihur V,Datta S,Datta S.Weighted rank aggregation of cluster validation measures:a Monte Carlo cross-entropy approach.Bioinformatics,2007,23(13):1607-1615.

[17]Lin S,Ding J,Zhou J.Rank aggregation of putative microRNA targets with Cross-Entropy Monte Carlo methods.Preprint,presented at the IBC 2006 conference,Montreal.

[18]Fagin R,Kumar R,Sivakumar D.Comparing top k lists.SODA ′.03 Proceedings of the fourteenth annual ACM-SIAM symposium on Discrete algorithms,2003:28-36.

[19]Rubinstein RY.Optimization of computer simulation models with rare events.European Journal of Operational Research,1997,99(1):89-112.

[20]Hoens TR,Chawla NV.Generating Diverse Ensembles to Counter the Problem of Class Imbalance.Advances in Knowledge Discovery and Data Mining,2010,6119:488-499.

[21]Tin Kam Ho,Bell Labs,Murray Hill.IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8):832-844.

[23]Breiman L.Random forests.Mach Learn,2001,45(1):5-32.

(責(zé)任編輯：郭海強(qiáng))

Building a Prediction System of Influenza Epidemics with LASSO Regression Model and Baidu Search Query Data

Guo Pi,Wang Li,Hao Yuantao

(DepartmentofPreventiveMedicine,ShantouUniversityMedicalCollege(515041),Shantou)

Objective To evaluate the performance of a prediction system built with LASSO regression model and Baidu search query data.Methods Based on a strategy using a combination of Bagging and multi-measure optimization method,this study proposed an ensemble LASSO regression model which had an obviously improved performance,and applied it to predict the epidemics of influenza in China.Results The results showed that the improved model had significantly smaller prediction error rates than that of the conventional LASSO regression model for influenza cases during the study period of 2011-2015.This study designed an open source R package,SparseLearner,which was conveniently used and further developed.Conclusion The combination of Bagging and multi-measure optimization method is an efficient strategy to improve the performance of LASSO regression model.The proposed ensemble LASSO regression model in this study can be applied for the prediction of infectious diseases epidemics.

Bagging;LASSO;Influenza;Prediction

1.汕頭大學(xué)醫(yī)學(xué)院公共衛(wèi)生與預(yù)防醫(yī)學(xué)教研室(515041)

2.中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系

3.中山大學(xué)衛(wèi)生信息中心、廣東省衛(wèi)生信息學(xué)重點(diǎn)實(shí)驗(yàn)室

△通信作者：郝元濤

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于LASSO回歸模型與百度搜索數(shù)據(jù)構(gòu)建的流感疫情預(yù)測(cè)系統(tǒng)

原理與方法

實(shí)例分析

討 論

討論