郭美麗,覃錫忠,賈振紅,陳 麗
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.中國(guó)移動(dòng)通信集團(tuán)新疆有限公司,新疆 烏魯木齊 830063)
基于改進(jìn)的網(wǎng)格搜索SVR的話務(wù)預(yù)測(cè)模型*
郭美麗1,覃錫忠1,賈振紅1,陳 麗2
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.中國(guó)移動(dòng)通信集團(tuán)新疆有限公司,新疆 烏魯木齊 830063)
話務(wù)預(yù)測(cè)是整個(gè)通信保障工作的基礎(chǔ),其預(yù)測(cè)精度決定了整個(gè)規(guī)劃的合理性和科學(xué)性。而節(jié)假日話務(wù)量,具有歷史樣本量較小和非線性強(qiáng)的特點(diǎn),傳統(tǒng)的預(yù)測(cè)方法很難實(shí)現(xiàn)精確的預(yù)測(cè)。支持向量機(jī)在解決小樣本和非線性問(wèn)題時(shí)表現(xiàn)出許多特有的優(yōu)勢(shì)。提出了一種改進(jìn)的網(wǎng)格搜索法和交叉驗(yàn)證法對(duì)支持向量回歸機(jī)(SVR)參數(shù)優(yōu)化選擇,并對(duì)節(jié)假日忙時(shí)話務(wù)進(jìn)行預(yù)測(cè),并與BP神經(jīng)網(wǎng)絡(luò)、基本的SVR和網(wǎng)格搜索SVR三種預(yù)測(cè)模型進(jìn)行比較。而且用免疫算法和粒子群算法優(yōu)化SVR參數(shù)與本文算法作比較來(lái)預(yù)測(cè)普通日子的話務(wù)量。實(shí)驗(yàn)結(jié)果表明,基于改進(jìn)的網(wǎng)格搜索SVR預(yù)測(cè)精度高、耗時(shí)少、穩(wěn)定性強(qiáng),具有很好的實(shí)用性和推廣性。
節(jié)假日話務(wù)預(yù)測(cè);支持向量回歸機(jī);改進(jìn)的網(wǎng)格搜索法
每逢重大節(jié)假日,如春節(jié)、國(guó)慶節(jié)等,移動(dòng)通信網(wǎng)絡(luò)都面臨著高話務(wù)的沖擊。雖然給通信公司帶來(lái)了巨額的收入,但同時(shí)也帶來(lái)了巨大的壓力,因?yàn)檫^(guò)高的話務(wù)量極易造成交換系統(tǒng)過(guò)載,出現(xiàn)電路擁塞、話音接通率下降等現(xiàn)象,給用戶(hù)也帶了極大的不便。而話務(wù)量預(yù)測(cè)是整個(gè)通信保障工作的基礎(chǔ),也是移動(dòng)運(yùn)營(yíng)商進(jìn)行網(wǎng)絡(luò)規(guī)劃和建設(shè)的依據(jù),其預(yù)測(cè)精度決定了整個(gè)規(guī)劃的合理性和科學(xué)性。因此,移動(dòng)運(yùn)營(yíng)商對(duì)話務(wù)量預(yù)測(cè)技術(shù)的需求非常急迫。
目前,對(duì)回歸預(yù)測(cè)的研究方法有時(shí)間序列法、神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)法、支持向量機(jī)SVM(Support Vector Machine)[1]等,實(shí)際應(yīng)用中上述方法對(duì)月平均話務(wù)量、月忙時(shí)話務(wù)量等能取得較好的效果。但是,節(jié)假日當(dāng)天忙時(shí)話務(wù)量存在較強(qiáng)的非線性,主要表現(xiàn)在話務(wù)量增長(zhǎng)在區(qū)域分布上不均衡、互聯(lián)互通話務(wù)量增長(zhǎng)與本地營(yíng)銷(xiāo)策略關(guān)系大和長(zhǎng)途話務(wù)量的增長(zhǎng)幅度大等方面。針對(duì)上述問(wèn)題,傳統(tǒng)的預(yù)測(cè)方法很難實(shí)現(xiàn)精確的預(yù)測(cè),本文采用優(yōu)化參數(shù)的支持向量回歸機(jī)建立預(yù)測(cè)模型。
支持向量機(jī)以統(tǒng)計(jì)學(xué)習(xí)理論SLT(Statistical Learning Theory)為基礎(chǔ),它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中[2]。近幾年,支持向量機(jī)作為一種預(yù)測(cè)工具,已經(jīng)應(yīng)用在了醫(yī)療診斷[3]、電力負(fù)荷預(yù)測(cè)[4]以及能量輸出預(yù)測(cè)[5]等方面。但是,在實(shí)際使用支持向量機(jī)時(shí),支持向量機(jī)參數(shù)的尋優(yōu)非常重要,合適的參數(shù)可以直接提高方法性能。本文主要研究的節(jié)假日話務(wù)量是非線性強(qiáng)的小樣本問(wèn)題,所以本文提出一種改進(jìn)的網(wǎng)格搜索算法來(lái)提高參數(shù)優(yōu)化的準(zhǔn)確率,進(jìn)而提高其優(yōu)化速度。該方法用于新疆各地區(qū)節(jié)日話務(wù)預(yù)測(cè),取得了比較滿(mǎn)意的結(jié)果,在非節(jié)假日的小樣本話務(wù)預(yù)測(cè)中也取得了較好的結(jié)果。
支持向量機(jī)是基于Vapnik提出的小樣本統(tǒng)計(jì)學(xué)習(xí)理論建立的,以訓(xùn)練誤差作為優(yōu)化問(wèn)題的約束條件,以置信范圍最小化為優(yōu)化目標(biāo)。它最終是求解一個(gè)凸規(guī)劃問(wèn)題,或者是一個(gè)二次規(guī)劃(QP)問(wèn)題。對(duì)于一組給定的數(shù)據(jù)集T={(x1,y1),…,(xi,yi)}?Rd×R,i=1,…,n,回歸問(wèn)題就是要估計(jì)出xi與yi的關(guān)系:
其中〈·,·〉對(duì)應(yīng)Rd空間的內(nèi)積。Φ(·)為核函數(shù),可以把訓(xùn)練數(shù)據(jù)映射到高維空間F上,因此在原空間上解決非線性問(wèn)題就等同于在新的高維空間上解決線性回歸問(wèn)題。
機(jī)器學(xué)習(xí)理論對(duì)這一問(wèn)題可以表述為在一組函數(shù){f(x,ω)}中尋求一個(gè)最優(yōu)的函數(shù){f(x,ω*)},使得預(yù)期的期望風(fēng)險(xiǎn)R(ω)達(dá)到最小。
其中,n為樣本容量,h為VC維。支持向量機(jī)理論把式(2)轉(zhuǎn)化為尋求如下問(wèn)題的最優(yōu)解:
其中,ε由不敏感損失函數(shù)L(y,f(x,a))來(lái)定義,決定了回歸曲線的平坦程度,這里是事先取定的一個(gè)正數(shù),且0<ε<1。當(dāng)x點(diǎn)的觀察值y 與預(yù)測(cè)值f(x)之差不超過(guò)事先給定的ε時(shí),則認(rèn)為在該點(diǎn)的預(yù)測(cè)值f(x)是無(wú)損失的,盡管預(yù)測(cè)值f(x)和觀測(cè)值y可能并不完全相等。
式(3)中C為懲罰因子,表示對(duì)錯(cuò)分樣本的懲罰。
由此支持向量機(jī)所求得的回歸函數(shù)可以表示為:
在SVR建模中,考慮到RBF核函數(shù)所體現(xiàn)出的較好的性能[7],本文選取式(4)RBF來(lái)進(jìn)行建模研究。實(shí)際應(yīng)用中大多憑經(jīng)驗(yàn)確定參數(shù)或采用試算法,導(dǎo)致由于參數(shù)選擇不準(zhǔn)確而使最后的預(yù)測(cè)精度低于目標(biāo)精度。因此,核函數(shù)參數(shù)和懲罰系數(shù)C的選擇對(duì)SVR的性能至關(guān)重要,只有選擇合適的模型參數(shù),SVR的優(yōu)越性才能更好地發(fā)揮出來(lái)。
SVR的參數(shù)選擇問(wèn)題,其實(shí)質(zhì)就是一個(gè)優(yōu)化問(wèn)題。在ε-SVR算法中,參數(shù)γ、C、ε對(duì)支持向量機(jī)的性能有著十分重要的影響。參數(shù)γ影響數(shù)據(jù)在高維空間中分布的復(fù)雜度;參數(shù)C是經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的裁決;參數(shù)ε確保對(duì)偶變量的稀疏性,同時(shí)確保全局最小解和可靠泛化界的優(yōu)化。比較常用的三種參數(shù)尋優(yōu)方法是遺傳算法、粒子群優(yōu)化算法和網(wǎng)格搜索法[7]。前兩種算法容易陷入局部極值,無(wú)法保證得到最優(yōu)參數(shù)。近幾年發(fā)展起來(lái)的人工智能新方法——免疫算法[8],克服了遺傳算法的缺陷,能夠?qū)さ饺肿顑?yōu)解,但其運(yùn)算耗時(shí)較長(zhǎng)?;镜木W(wǎng)格搜索遍歷了在搜索范圍內(nèi)所有的參數(shù)組合,可搜索到最優(yōu)參數(shù),但是運(yùn)算量大、耗時(shí)長(zhǎng)。
對(duì)于支持向量機(jī)的參數(shù)優(yōu)化問(wèn)題要根據(jù)實(shí)際問(wèn)題具體解決,本文選擇網(wǎng)格搜索SVR參數(shù)具有以下優(yōu)勢(shì):(1)可以搜索到最優(yōu)參數(shù);(2)本文只需搜索兩個(gè)參數(shù)(因?yàn)橛稍拕?wù)預(yù)測(cè)的先驗(yàn)知識(shí)可知SVR的最優(yōu)參數(shù)ε均在[0.0098,0.0109],所以為了節(jié)省搜索時(shí)間,本文設(shè)定ε=0.01),因此運(yùn)行時(shí)間相對(duì)較少;(3)每組參數(shù)(C,γ)都是獨(dú)立的,因此很容易實(shí)現(xiàn)并行計(jì)算。為了使網(wǎng)格搜索能更快更精確地尋到最優(yōu)參數(shù),本文提出交叉驗(yàn)證與改進(jìn)的網(wǎng)格搜索法進(jìn)行SVR參數(shù)選擇,進(jìn)而對(duì)樣本小、非線性強(qiáng)的節(jié)假日忙時(shí)話務(wù)量進(jìn)行預(yù)測(cè)。
網(wǎng)格搜索算法是一種窮舉法,在參數(shù)空間每維上取若干分格,遍歷輸入空間中所有網(wǎng)格交叉點(diǎn),得到最優(yōu)解。該算法首先確定每個(gè)參數(shù)的取值范圍,然后對(duì)每個(gè)參數(shù)取值范圍按照一定規(guī)律插值,得出若干組參數(shù)組合;對(duì)每組參數(shù)組合進(jìn)行一次計(jì)算,應(yīng)用交叉驗(yàn)證計(jì)算其預(yù)測(cè)誤差;對(duì)應(yīng)于預(yù)測(cè)誤差最小的參數(shù)組合,就是最優(yōu)的參數(shù)取值。網(wǎng)格搜索法計(jì)算過(guò)程中各組參數(shù)相互解耦,便于并行計(jì)算,運(yùn)行效率高[9]。本文提出一種改進(jìn)的網(wǎng)格搜索法來(lái)提高優(yōu)化準(zhǔn)確率和優(yōu)化速度。
傳統(tǒng)的網(wǎng)格搜索比較耗時(shí),且不一定能搜索到滿(mǎn)足精度要求的最優(yōu)參數(shù)組合,改進(jìn)的網(wǎng)格搜索算法通過(guò)自動(dòng)改變搜索范圍和搜索步長(zhǎng)來(lái)更精細(xì)地搜索最優(yōu)參數(shù),最終預(yù)測(cè)出符合要求的預(yù)測(cè)精度。該方法選擇最佳參數(shù)(C,γ)的具體步驟如下:
步驟1設(shè)定參數(shù)C和γ的取值范圍,再設(shè)定比較大的搜索步長(zhǎng),以2的冪次方沿著兩個(gè)參數(shù)的不同增長(zhǎng)方向生成網(wǎng)格。這樣既能遍歷所有的參數(shù),又能方便網(wǎng)格的收縮與增長(zhǎng)。由此參數(shù)將區(qū)間分別分為M、N等分,網(wǎng)格中的節(jié)點(diǎn)即為給定范圍內(nèi)所有可能得到的參數(shù)對(duì)。
步驟2針對(duì)所有分割組合(Ci,γj)(i=1,…,M,j=1,…,N),對(duì)樣本集進(jìn)行訓(xùn)練和測(cè)試,比較得到使評(píng)價(jià)函數(shù)最小的參數(shù)組合(Ci,γj),判斷是否滿(mǎn)足精度要求或結(jié)果穩(wěn)定,如果是則轉(zhuǎn)到步驟4,否則轉(zhuǎn)到步驟3。
步驟3選取參數(shù)(Ci,γj)相鄰的兩個(gè)區(qū)間作為新 的 參 數(shù) 范 圍 C∈ [Ci-1,Ci+1],γ∈ [γj-1,γj+1],并且分別減少搜索步長(zhǎng)的2倍 (可使用其他的收縮率,但因子-2-收縮率是方便的,因?yàn)榫W(wǎng)格數(shù)是2的冪次方);再次搜索最優(yōu)參數(shù)組合,判斷是否滿(mǎn)足精度要求或結(jié)果穩(wěn)定,如果是則轉(zhuǎn)到步驟4,否則在這一步不斷循環(huán)直到尋找到最優(yōu)的一組參數(shù)組合。
步驟4存儲(chǔ)參數(shù),參數(shù)優(yōu)化結(jié)束。
歷史數(shù)據(jù)是話務(wù)預(yù)測(cè)的基石,但歷史數(shù)據(jù)并非越多越好。在進(jìn)行預(yù)測(cè)時(shí),一定要選取具有較大相關(guān)性的歷史數(shù)據(jù),數(shù)據(jù)的相關(guān)性越強(qiáng),對(duì)預(yù)測(cè)準(zhǔn)確性的幫助就越大。所謂相關(guān)性,是指歷史數(shù)據(jù)所依存的業(yè)務(wù)環(huán)境與現(xiàn)有環(huán)境具有較大的相似性。但是,在選取預(yù)測(cè)基準(zhǔn)數(shù)據(jù)時(shí),往往沒(méi)有足夠的相關(guān)性數(shù)據(jù)。這其中很重要的一個(gè)原因是:直接從ACDSee獲得的數(shù)據(jù)往往存在著各種異常因素。如:系統(tǒng)故障等原因引起的數(shù)據(jù)缺失,促銷(xiāo)活動(dòng)、異常天氣等引起的話務(wù)量異動(dòng)等。為了解決相關(guān)性數(shù)據(jù)缺乏的問(wèn)題,通常需要對(duì)歷史數(shù)據(jù)進(jìn)行清洗,如剔除缺失數(shù)據(jù)、修正異常數(shù)據(jù)等,這個(gè)過(guò)程其實(shí)就是要提高數(shù)據(jù)的相關(guān)性,使之更能反映業(yè)務(wù)現(xiàn)狀的特點(diǎn)。本文主要研究的是節(jié)假日的話務(wù)量,節(jié)假日話務(wù)量往往具有峰值特性,因此,我們只需選擇相關(guān)性大的數(shù)據(jù)也就是峰值周?chē)臄?shù)據(jù)做樣本,并對(duì)這些樣本做異常數(shù)據(jù)修正,從而導(dǎo)入到話務(wù)預(yù)測(cè)模型中進(jìn)行預(yù)測(cè)。
本文實(shí)驗(yàn)的數(shù)據(jù)是實(shí)時(shí)新疆移動(dòng)通信話務(wù)量數(shù)據(jù),話務(wù)量歷史數(shù)據(jù)包括新疆16個(gè)地州從2004年1月~2012年5月每天每小時(shí)的話務(wù)量。為了使移動(dòng)運(yùn)營(yíng)商能夠根據(jù)預(yù)測(cè)出的節(jié)日忙時(shí)話務(wù)量對(duì)話務(wù)信道及時(shí)做處理,保障話務(wù)高峰期的正常通信,并且能降低誤差和減少訓(xùn)練時(shí)間,達(dá)到最佳的預(yù)測(cè)效果,本文剔除掉節(jié)日前10天的話務(wù)數(shù)據(jù),選取每年節(jié)日10天前的20天最忙時(shí)話務(wù)量做輸入樣本,歷年節(jié)日當(dāng)天話務(wù)做輸出樣本,同時(shí)橫向和縱向訓(xùn)練,建立預(yù)測(cè)模型,最終預(yù)測(cè)出要預(yù)測(cè)的節(jié)日當(dāng)天最忙時(shí)話務(wù)量。本文以預(yù)測(cè)2012年元旦忙時(shí)話務(wù)量為例,隨機(jī)選取新疆五個(gè)地區(qū)做預(yù)測(cè)分析。
改進(jìn)的網(wǎng)格搜索優(yōu)化支持向量機(jī)進(jìn)行節(jié)假日話務(wù)預(yù)測(cè)的步驟如下:
步驟1對(duì)話務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,主要是對(duì)一些缺失數(shù)據(jù)和異常數(shù)據(jù)進(jìn)行相應(yīng)處理,如對(duì)這些數(shù)據(jù)取相近的數(shù)據(jù)填補(bǔ);
步驟2將選用的話務(wù)量數(shù)據(jù)劃分為訓(xùn)練樣本和測(cè)試樣本,并將這些數(shù)據(jù)進(jìn)行歸一化處理;
步驟3本文設(shè)定ε=0.01,設(shè)定網(wǎng)格搜索的C、γ值的初始搜索范圍和步長(zhǎng),這里設(shè)置為γ∈[2-8,28],步長(zhǎng)為1,C∈[2-8,28],步長(zhǎng)為1;
步驟4根據(jù)樣本集,利用改進(jìn)的網(wǎng)格搜索法和交叉驗(yàn)證[8]找出最佳參數(shù)組合(Ci,γj)(交叉驗(yàn)證誤差是推廣誤差的一種近似無(wú)偏估計(jì),在很多情況下表現(xiàn)出比其他估計(jì)量更好的性能[10],本文采用5-折交叉驗(yàn)證);
步驟5根據(jù)樣本集和最優(yōu)的(Ci,γj)組合,建立基于網(wǎng)格搜索的支持向量機(jī)話務(wù)預(yù)測(cè)模型;
步驟6利用建立好的模型對(duì)話務(wù)量進(jìn)行預(yù)測(cè)。
本文采用MATLAB編寫(xiě)改進(jìn)的網(wǎng)格搜索尋參程序,結(jié)合libsvm支持向量機(jī)工具箱,用均方誤差MSE作為評(píng)價(jià)指標(biāo)。
其中,Xi(i=1,2,…,n)是真實(shí)值,Yi(i=1,2,…,n)是預(yù)測(cè)值,MSE越接近于零,預(yù)測(cè)效果越好。輸入向量的維數(shù)選取8,則支持向量回歸機(jī)的輸入值與目標(biāo)值可以表述為:
SVR參數(shù)選擇效果如圖1所示。得到的最優(yōu)參數(shù)建立SVR預(yù)測(cè)模型,代入預(yù)測(cè)樣本數(shù)據(jù)進(jìn)行運(yùn)算,預(yù)測(cè)效果如圖2所示。
Figure 1 SVR parameters choice圖1 SVR參數(shù)選擇圖(3D視圖)
為了說(shuō)明該方法的優(yōu)越性,本文首先選取了BP網(wǎng)絡(luò)、傳統(tǒng)SVR和網(wǎng)格搜索SVR與之進(jìn)行對(duì)比,對(duì)新疆五個(gè)地區(qū)元旦當(dāng)天忙時(shí)話務(wù)量進(jìn)行預(yù)測(cè)。預(yù)測(cè)誤差用相對(duì)誤差Erep表示,結(jié)果如表1所示。
其中,Xi(i=1,2,…,n)是真實(shí)值,Yi(i=1,2,…,n)是預(yù)測(cè)值。
通過(guò)表1可知,本文基于改進(jìn)的網(wǎng)格搜索SVR取得了較好的預(yù)測(cè)結(jié)果,其誤差均小于5%,且穩(wěn)定,運(yùn)行時(shí)間均在3秒左右,符合規(guī)范預(yù)測(cè)精度,完全滿(mǎn)足實(shí)際預(yù)測(cè)的需求。而SVR模型雖然運(yùn)行速度很快,但很難尋到最優(yōu)模型參數(shù),需人手動(dòng)多次試驗(yàn),若有豐富的經(jīng)驗(yàn)知識(shí),可能會(huì)得到較理想的預(yù)測(cè)結(jié)果;BP網(wǎng)絡(luò)效果要略好于SVR,但由于BP網(wǎng)絡(luò)易陷入局部極小,預(yù)測(cè)值波動(dòng)很大,所以很難對(duì)每個(gè)地區(qū)做精確的預(yù)測(cè)?;镜木W(wǎng)格搜索SVR雖然取得了比較穩(wěn)定的結(jié)果,但會(huì)出現(xiàn)個(gè)別地州達(dá)不到實(shí)際要求的精度,即沒(méi)有搜索到最優(yōu)參數(shù)組合。而本文算法通過(guò)改變搜索范圍和搜索步長(zhǎng)更精細(xì)地搜索最優(yōu)參數(shù)直到滿(mǎn)足要求的精度才停止。因此,無(wú)論是從預(yù)測(cè)精度還是耗時(shí)來(lái)說(shuō),基于改進(jìn)的網(wǎng)格搜索的SVR模型均優(yōu)于傳統(tǒng)的SVR模型、網(wǎng)格搜索SVR模型和BP神經(jīng)網(wǎng)絡(luò)模型。
Table 1 Comparison of forecast result 1表1 預(yù)測(cè)結(jié)果分析表1
該話務(wù)預(yù)測(cè)模型不僅適合于非線性強(qiáng)的節(jié)假日忙時(shí)話務(wù)預(yù)測(cè),也適合平常話務(wù)(非節(jié)假日)的預(yù)測(cè)。目前支持向量機(jī)參數(shù)的選擇方法有很多,仍沒(méi)有形成一個(gè)統(tǒng)一的模式,一般視具體情況而定。本文隨機(jī)選取五個(gè)地區(qū)的某個(gè)平常日子代入話務(wù)模型進(jìn)行預(yù)測(cè),另選免疫算法(IA)和粒子群算法(PSO)對(duì)SVR尋優(yōu)并應(yīng)用于話務(wù)預(yù)測(cè)模型。與本文算法比較,由于前兩種算法每次運(yùn)行的結(jié)果不同,某次結(jié)果可能是陷入局部極值時(shí)所得,不能代表整體預(yù)測(cè)效果,所以前兩種算法均運(yùn)行50次,取結(jié)果的平均值,各算法的誤差和運(yùn)行時(shí)間結(jié)果如表2所示。
由表2可知,三種算法誤差因地區(qū)的不同而不同,總體效果差不多。但是,由于PSO-SVR易陷入局部極值,且運(yùn)行次數(shù)多,消耗時(shí)間長(zhǎng),IA-SVR能夠搜索到全局最優(yōu)解,但其運(yùn)算耗時(shí)還是較長(zhǎng),在實(shí)際應(yīng)用中影響工作效率;而本文提出的改進(jìn)的網(wǎng)格搜索法能安全地搜索到SVR的最優(yōu)參數(shù),不會(huì)陷入局部極值且每次運(yùn)行的結(jié)果是相同的。所以,本文提出的算法模型只需運(yùn)行一次就可得到穩(wěn)定的值。因此本文算法在穩(wěn)定性和運(yùn)行時(shí)間上都有很大優(yōu)勢(shì)。
Table 2 Comparison of forecast result 2表2 預(yù)測(cè)結(jié)果分析表2
本文利用改進(jìn)的網(wǎng)格搜索法對(duì)支持向量機(jī)的關(guān)鍵參數(shù)進(jìn)行尋優(yōu),然后進(jìn)行交叉驗(yàn)證,找出使交叉驗(yàn)證精確度最高的(C,γ)對(duì),進(jìn)而建立模型并預(yù)測(cè)話務(wù)量,實(shí)現(xiàn)了支持向量回歸機(jī)參數(shù)的自動(dòng)優(yōu)化選擇,避免了通過(guò)實(shí)驗(yàn)人工選擇的盲目性。實(shí)驗(yàn)結(jié)果表明,本文算法在穩(wěn)定性、準(zhǔn)確率和運(yùn)行速度等方面明顯優(yōu)于現(xiàn)有算法,是一種預(yù)測(cè)忙時(shí)話務(wù)量的有效方法。當(dāng)然,本文提出的改進(jìn)的網(wǎng)格搜索法還處于研究的初步階段,對(duì)于參數(shù)較少的模型能有效地搜索到最優(yōu)值,但對(duì)于參數(shù)多的模型,搜索復(fù)雜度加大,可能比較耗時(shí),有待進(jìn)一步探索。
[1] Vapnik V.Statistical learning theory[M].New York:John Wiley&Sons,1998.
[2] Zhang Xue-gong.About the statistical learning theory and support vector machine[J].ACTA Automatica SINICA,2000,26(1):32-42.(in Chinese)
[3] Khandoker A H,Palaniswami M,Karmakar C K.Support vector machines for automated recognition of obstructive sleep apnea syndrome from ECG recordings[J].IEEE Transactions on Information Technology in Biomedicine,2009,13(1):37-48.
[4] Elattar E E,Goulermas J Y,Wu Q H.Electric load forecasting based on locally weighted support vector regression[J].IEEE Transactions on Systems, Man and Cybernetics,2010,40(1):438-447.
[5] Shi Jie,Lee Wei-Jen,Liu Yong-qian,et al.Forecasting power output of photovoltaic systems based on weather classification and support vector machines[C]∥Proc of the IEEE Annual Meeting on Industry Applications(IAS),2011:1-6.
[6] Deng Nai-yang,Tian Ying-jie.A new method of data mining:Support vector machine[M].Beijing:Science Press,2004.(in Chinese)
[7] Wu Hai-wei,Yu Hai-ye,Zhang Lei.The net photosynthetic rate prediction model based on the optimized support vector machine[J].Spectroscopy and Spectrum Analysis,2011,31(5):1414-1418.(in Chinese)
[8] Huang Yan-qiu.The IA -SVM algorithm research in network intrusion detection[J].The Computer Simulation,2011,28(1):182-186.(in Chinese)
[9] Feng Guo-he.The large sample support vector research based on the clustering[J].Computer Science,2006,33(4):145-147.(in Chinese)
[10] Duan K,Keerthi S S,Poo A N.Evaluation of simple performance measures for tuning SVM hyperparameters[J].Neurocomputing,2003,51:41-59.
附中文參考文獻(xiàn):
[2] 張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2000,26(1):32-42.
[6] 鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘中的新方法:支持向量機(jī)[M].北京:科學(xué)出版社,2004.
[7] 武海巍,于海業(yè),張蕾.基于參數(shù)優(yōu)化支持向量機(jī)的林下參凈光合速率預(yù)測(cè)模型[J].光譜學(xué)與光譜分析,2011,31(5):1414-1418.
[8] 黃艷秋.IA-SVM算法在網(wǎng)絡(luò)入侵檢測(cè)中的研究[J].計(jì)算機(jī)仿真,2011,28(1):182-186.
[9] 奉國(guó)和.基于聚類(lèi)的大樣本支持向量研究[J].計(jì)算機(jī)科學(xué),2006,33(4):145-147.
The prediction model of traffic based on improved grid search SVR
GUO Mei-li1,QIN Xi-zhong1,JIA Zhen-hong1,CHEN Li2
(1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046;2.China Mobile Group Xinjiang Company Limited,Urumqi 830063,China)
The traffic prediction is the basis of the whole communication's security work,whose prediction accuracy determines the rationality and scientificity of the entire plan.While the prediction of holiday's traffic has the characteristics of small historical sample size and strong nonlinear,it is hard to realize accurate prediction for the traditional prediction method.An improved grid search method for selecting the optimized parameter of Support Vector Regression machine(SVR)and then predicting the busy traffic in holidays is proposed and compared with BP neural network,SVR and grid search SVR.And the traffic of general days is predicted by comparing our method with Immune algorithm and Particle Swarm Optimization algorithm in optimizing SVR parameters.The experimental results show that the improved grid search SVR has a higher forecast precision,a less time-consuming and a strong stability,thus having good practicality and promotion.
prediction of holiday's traffic;support vector regression machine;improved grid search method
1007-130X(2014)04-0707-06
TP181
A
10.3969/j.issn.1007-130X.2014.04.023
2012-09-11;
2012-12-19
中國(guó)移動(dòng)通信集團(tuán)新疆有限公司發(fā)展基金項(xiàng)目(XJM2011-11)
通訊地址:830046新疆烏魯木齊市勝利路14號(hào)新疆大學(xué)信息科學(xué)與工程學(xué)院
Address:College of Information Science and Engineering,Xinjiang University,14Shengli Rd,Urumqi 830046,Xinjiang,P.R.China
郭美麗(1987-),女,新疆塔城人,碩士生,研究方向?yàn)槿斯ぶ悄芎鸵苿?dòng)通信。E-mail:guomeili314@126.com
GUO Mei-li,born in 1987,MS candidate,her research interests include artificial intelligence,and mobile communications.
覃錫忠(1964-),男,重慶人,碩士,副教授,研究方向?yàn)橥ㄐ排c信息處理。E-mail:qmqqxz@163.com
QIN Xi-zhong,born in 1964,MS,associate professor,his research interest includes communication and information processing.
賈振紅(1964-),男,河南洛陽(yáng)人,博士,教授,研究方向?yàn)楣馔ㄐ藕托盘?hào)處理。E-mail:jzhh@xju.edu.cn
JIA Zhen-hong,born in 1964,PhD,professor,his research interests include optical communication,and signal processing.
陳麗(1980-),女,新疆烏魯木齊人,碩士,高級(jí)工程師,研究方向?yàn)橐苿?dòng)通信。E-mail:chenli@xj.chinamobile.com
CHEN Li,born in 1980,MS,senior engineer,her research interest includes mobile communication.