摘 要: 高斯過(guò)程回歸(Gaussian process regression, GPR)是一種基于高斯過(guò)程的非參數(shù)化貝葉斯回歸方法,其可以靈活適應(yīng)不同類(lèi)型數(shù)據(jù),用于建模和預(yù)測(cè)數(shù)據(jù)之間的復(fù)雜關(guān)系,具有擬合能力強(qiáng)、泛化能力好等特點(diǎn)。針對(duì)海量用戶(hù)場(chǎng)景下用戶(hù)量實(shí)時(shí)預(yù)測(cè)問(wèn)題,提出一種基于GPR的用戶(hù)量預(yù)測(cè)優(yōu)化方法。在滑動(dòng)窗口方法處理數(shù)據(jù)的基礎(chǔ)上,選擇合適的核函數(shù),基于k折交叉驗(yàn)證得到最佳超參數(shù)組合以實(shí)現(xiàn)GPR模型訓(xùn)練,完成在線(xiàn)用戶(hù)量的實(shí)時(shí)預(yù)測(cè)并進(jìn)行性能評(píng)估。實(shí)驗(yàn)結(jié)果表明,相比于采用訓(xùn)練集中輸出數(shù)據(jù)方差的50%作為信號(hào)噪聲估計(jì)量的傳統(tǒng)方案,所提方法具有較高的預(yù)測(cè)準(zhǔn)確度,并且在測(cè)試集均方根誤差(root mean square, RMS)、平均絕對(duì)誤差(mean absolute error, MAE)、平均偏差(mean bias error, MBE)和決定系數(shù)R2這4個(gè)評(píng)估指標(biāo)方面均有提升,其中MBE至少提升了43.3%。
關(guān)鍵詞: 高斯過(guò)程回歸; 用戶(hù)量預(yù)測(cè); 滑動(dòng)窗口; 交叉驗(yàn)證; 超參數(shù)優(yōu)化
中圖分類(lèi)號(hào): TP 391.7
文獻(xiàn)標(biāo)志碼: A
DOI:10.12305/j.issn.1001-506X.2024.08.19
Optimization method of user quantity prediction based on GPR model
LIU Xuehao1,2, LIU Wenxue1, YANG Chaosan1, ZHU Wenjing1,2, SONG Yu1,2, LI Jinhai1,2,*
(1. Communication and Information Engineering Research and Development Center, Institute of Microelectronics
of the Chinese Academy of Sciences, Beijing 100029, China; 2. School of Integrated Circuits,
University of Chinese Academy of Sciences, Beijing 100049, China)
Abstract: Gaussian process regression (GPR) is a non-parametric Bayesian regression method based on Gaussian processes. It is flexible in adapting to different types of data, and it is used to model and predict complex relationships between different types of data. It has strong fitting capabilities and good generalization abilities. A user quantity prediction optimization method based on GPR is proposed to tackle the problem of real-time user quantity prediction in the context of massive user scenario. Building upon the sliding window method for data processing, the method selects a suitable kernel function and uses k-fold cross-validation to determine the optimal hyperparameter combination for training the GPR model, which enables the real-time prediction of online user quantity. Finally, the performance of the model is evaluated. The experimental results demonstrate that compared with the traditional approach that uses half of the variance of the output data in the training set as the signal noise estimator, the proposed method has higher prediction accuracy and improvements in the four following evaluation metrics of root mean square (RMS), mean absolute error (MAE), mean bias error (MBE) and determination coefficient R2 on the test set. Specifically, the MBE shows an improvement of at least 43.3%.
Keywords: Gaussian process regression (GPR); user quantity prediction; sliding window; cross-validation; hyperparameter optimization
0 引 言
用戶(hù)量預(yù)測(cè)問(wèn)題的本質(zhì)是時(shí)間序列預(yù)測(cè),其在互聯(lián)網(wǎng)、金融服務(wù)、智能交通等方面有著廣泛應(yīng)用[1-3],通過(guò)歷史用戶(hù)量和當(dāng)前用戶(hù)量數(shù)據(jù)對(duì)未來(lái)一段時(shí)間內(nèi)用戶(hù)數(shù)量進(jìn)行精準(zhǔn)預(yù)測(cè),對(duì)搜索引擎系統(tǒng)性能測(cè)試、金融領(lǐng)域服務(wù)模式改進(jìn)、智能交通系統(tǒng)構(gòu)建有重要意義。
在傳統(tǒng)建模方法方面,文獻(xiàn)[4]采用:自回歸移動(dòng)平均模型(autoregressive integrated moving average model, ARIMA)模型預(yù)測(cè)時(shí)間序列,引入了梯度下降方法以更新權(quán)重,能夠?qū)崿F(xiàn)高性能的時(shí)間序列預(yù)測(cè)。但是,采用梯度下降的方法更新權(quán)重存在陷入局部最優(yōu)而無(wú)法找到全局最優(yōu)解的問(wèn)題。在深度學(xué)習(xí)方法方面,文獻(xiàn)[5]提出基于小波去噪和相位重構(gòu)的交通量預(yù)測(cè)模型,采用相位空間重構(gòu)理論,將一維交通量映射到了高維空間,該方法更好地描述了交通量的平穩(wěn)性、復(fù)雜性和空間相關(guān)性,但模型的計(jì)算復(fù)雜度高、訓(xùn)練時(shí)間長(zhǎng),并且可解釋性差。文獻(xiàn)[6]采用2型模糊長(zhǎng)短期記憶(type-2 fuzzy long short-term memory, Type-2 FLSTM)神經(jīng)網(wǎng)絡(luò)進(jìn)行長(zhǎng)期交通量預(yù)測(cè),其與傳統(tǒng)模糊系統(tǒng)相比,在描述成員信息和處理不確定性較高的數(shù)據(jù)方面具有更大自由度,且具有更好的抗噪能力,但其仍然具有很高的模型復(fù)雜度以及可解釋性差的缺點(diǎn)。
針對(duì)用戶(hù)量預(yù)測(cè)問(wèn)題,本文提出一種基于高斯過(guò)程回歸(Gaussian process regression, GPR)模型的用戶(hù)量預(yù)測(cè)優(yōu)化方法,將在線(xiàn)用戶(hù)量數(shù)據(jù)集進(jìn)行狀態(tài)離散化處理,隨后使用滑動(dòng)窗口方法處理并進(jìn)行歸一化。選擇合適的GPR的核函數(shù)之后,進(jìn)行超參數(shù)搜索和交叉驗(yàn)證(cross validation, CV),以確定最優(yōu)的超參數(shù)組合,得到GPR模型,并進(jìn)行用戶(hù)量實(shí)時(shí)預(yù)測(cè)以及模型性能評(píng)估。
1 GPR模型
1.1 GPR模型介紹
GPR是一種基于高斯過(guò)程的非參數(shù)化貝葉斯回歸方法,其可以靈活適應(yīng)不同類(lèi)型的數(shù)據(jù),用于建模和預(yù)測(cè)數(shù)據(jù)之間的復(fù)雜關(guān)系,具有擬合能力強(qiáng)、泛化能力好等特點(diǎn)。此外,該模型的復(fù)雜程度較低,可解釋性強(qiáng),且適合短期以及中期預(yù)測(cè)。
高斯過(guò)程作為一種隨機(jī)過(guò)程,通常是時(shí)間或空間索引的隨機(jī)變量的集合[7],其過(guò)程示意圖如圖1所示[8]。高斯過(guò)程可以簡(jiǎn)記為fGP(z),其中z∈Z,ωSS∈ΩSS,Z Rnz,nz為正整數(shù),ΩSS為樣本空間。此外,高斯過(guò)程被認(rèn)為可以由均值函數(shù)m∶Z→R和協(xié)方差函數(shù)k∶Z×Z→R完全描述,表示為
fGP(z)~GP(m(z),k(z,z′))(1)
其中,z,z′∈Z,且
m(z)=E[fGP(z)](2)
k(z,z′)=E[(fGP(z)-m(z))(fGP(z′)-m(z′))](3)
協(xié)方差函數(shù)是兩個(gè)狀態(tài)(z,z′)之間相關(guān)性的度量,由于高斯過(guò)程是由無(wú)限維隨機(jī)變量構(gòu)成的,明確定義協(xié)方差矩陣并不可行,因而采用核函數(shù)來(lái)確定協(xié)方差矩陣[9]。
對(duì)于高斯過(guò)程fGP(z),若給定z∈Z,則fGP(z)是ΩSS的隨機(jī)變量。此外,高斯過(guò)程的特殊性質(zhì)在于,對(duì)于 n, z1,z2,…,zn,隨機(jī)向量(fGP(z1),fGP(z2),…,fGP(zn))T都服從n元高斯分布。因此,若(fGP(z1),fGP(z2))~N
GPR將高斯過(guò)程作為貝葉斯推斷中的先驗(yàn)概率分布,從而進(jìn)行函數(shù)回歸。根據(jù)貝葉斯方法,通過(guò)新數(shù)據(jù)和先驗(yàn)概率分布可以獲得后驗(yàn)概率分布。數(shù)據(jù)模型可以表示為
y~{i}dat=fGP(x{i}dat)+v(5)
輸入為X=[x{1}dat,x{2}dat,…,x{nD}dat]∈Z1×nD,輸出為Y=[y~{1}dat,y~{2}dat,…,y~{nD}dat]T∈RnD,i=1,2,…,nD,nD為正整數(shù)。輸出受到噪聲v的干擾,v~N(0,σ2n)。新信息可以表達(dá)為訓(xùn)練集D={X,Y}。由于高斯分布的任意有限子集服從多元高斯分布,因而對(duì)于任意測(cè)試點(diǎn)z*∈Z[7]有:
通過(guò)后驗(yàn)均值公式計(jì)算得到的值即可作為GPR的預(yù)測(cè)結(jié)果。
1.2 核函數(shù)
從GPR的內(nèi)容來(lái)看,核函數(shù)是均值函數(shù)與協(xié)方差函數(shù)的重要構(gòu)成部分,因此需要選擇合適的核函數(shù)。此外,核函數(shù)也依賴(lài)于一組超參數(shù),這需要使用者自行確定這組參數(shù)。常見(jiàn)的核函數(shù)[7,10]如表1所示。
在上述核函數(shù)中,φ·是超參數(shù)。線(xiàn)性核計(jì)算簡(jiǎn)單,適合處理龐大且區(qū)分度好的數(shù)據(jù)集[11]。有理二次核用于處理非平穩(wěn)數(shù)據(jù),能夠?qū)Ψ蔷€(xiàn)性關(guān)系進(jìn)行很好的建模,但在數(shù)據(jù)量較少或噪聲多的情況下容易出現(xiàn)過(guò)擬合現(xiàn)象。
平方指數(shù)核和Matérn核是通用核現(xiàn)象。平方指數(shù)核的使用非常廣泛,其包含了兩個(gè)超參數(shù)φ1、φ2。超參數(shù)φ1描述了信號(hào)方差,決定了數(shù)據(jù)生成函數(shù)到其均值的平方距離,長(zhǎng)度尺度φ2定義了在輸入空間中需要沿著特定的坐標(biāo)軸移動(dòng)并能夠使函數(shù)值不相關(guān)的移動(dòng)距離。平方指數(shù)核有很高的魯棒性,是一種局部性強(qiáng)的核函數(shù),并且具有很強(qiáng)的抗干擾能力,其在處理高維樣本數(shù)據(jù)時(shí)表現(xiàn)出很好的適應(yīng)性[12-13],但在處理大量局部波動(dòng)數(shù)據(jù)時(shí)過(guò)于嚴(yán)格[14]。Matérn核是非常強(qiáng)大的核函數(shù),其可以通過(guò)控制形狀因子,控制核函數(shù)的光滑性并成為多種不同內(nèi)核,十分靈活[15-16]。Matérn32核適合處理相關(guān)距離較短或非平穩(wěn)的情況,而Matérn52核更適合處理具有較長(zhǎng)相關(guān)距離或數(shù)據(jù)集比較平滑的情況。
指數(shù)核則適合處理具有平穩(wěn)性和線(xiàn)性的數(shù)據(jù)。平方指數(shù)ARD核相比于平方指數(shù)核可以提升預(yù)測(cè)精度和穩(wěn)健性[17-18],可以考慮到輸入輸出之間的非線(xiàn)性映射關(guān)系[19],但是在數(shù)據(jù)量較少的情況下使用平方指數(shù)ARD核訓(xùn)練出的模型性能較差。
對(duì)于時(shí)間序列的預(yù)測(cè),若序列具有長(zhǎng)期依賴(lài)性,可以選擇具有長(zhǎng)度尺度參數(shù)的核,如指數(shù)核、Matérn核等。若序列具有周期性,可以選擇周期核[20]或具有周期參數(shù)的指數(shù)核等。若序列具有平穩(wěn)的特性,則可以選擇平方指數(shù)核、線(xiàn)性核等平穩(wěn)核,平穩(wěn)核對(duì)捕捉數(shù)據(jù)的局部相關(guān)性具有良好的表現(xiàn)。
1.3 模型性能評(píng)估指標(biāo)
常見(jiàn)的模型性能評(píng)估指標(biāo)有均方根誤差(root mean square, RMS)、平均絕對(duì)誤差(mean absolute error, MAE)[21]、平均偏差(mean bias error, MBE)以及決定系數(shù)R2,其具體表達(dá)如表2所示。其中,xi表示實(shí)際數(shù)據(jù),x^i表示預(yù)測(cè)數(shù)據(jù),n表示數(shù)據(jù)個(gè)數(shù)。
RMS主要關(guān)注于預(yù)測(cè)值與真實(shí)值之間的差異程度的整體標(biāo)準(zhǔn)差。MAE能預(yù)測(cè)誤差相對(duì)于真實(shí)值的偏差比例。MBE衡量了預(yù)測(cè)模型的平均偏差,關(guān)注于預(yù)測(cè)值的整體偏差方向和大小。R2能反映預(yù)測(cè)值與真實(shí)值相關(guān)程度的大小。
2 基于GPR模型的用戶(hù)量預(yù)測(cè)建模優(yōu)化
GPR具有擬合能力強(qiáng)、泛化能力好的特點(diǎn),可以很好地處理時(shí)間序列預(yù)測(cè)的問(wèn)題。本文采用GPR方法對(duì)在線(xiàn)用戶(hù)量的變化進(jìn)行建模預(yù)測(cè)。選擇合適的核函數(shù)之后,需要進(jìn)行超參數(shù)優(yōu)化。此外,在數(shù)據(jù)模型中存在的噪聲項(xiàng)通常也被作為超參數(shù),一起被優(yōu)化。
交叉驗(yàn)證作為超參數(shù)優(yōu)化的方法,將訓(xùn)練集分成兩個(gè)不相交的數(shù)據(jù)集,一個(gè)用作訓(xùn)練,一個(gè)用作驗(yàn)證,以此監(jiān)控性能。通過(guò)重復(fù)利用數(shù)據(jù)集中的不同子集,能夠很好地評(píng)估模型的泛化能力和性能,并幫助選擇最優(yōu)的超參數(shù)。對(duì)于k折交叉驗(yàn)證[22-23],其首先將訓(xùn)練集劃分為k份大小相等的樣本子集,每1份稱(chēng)為1折。然后,依次將每1折作為驗(yàn)證集,將其他折作為訓(xùn)練集,進(jìn)行模型的訓(xùn)練和評(píng)估。最后,將k次評(píng)估指標(biāo)的平均值作為最終的評(píng)估指標(biāo)。5折交叉驗(yàn)證示意圖如圖2所示。
常見(jiàn)的折數(shù)可以選為5或10。若數(shù)據(jù)集較小,樣本數(shù)量有限,5折交叉驗(yàn)證更加合適。10折交叉驗(yàn)證提供了更多的訓(xùn)練和測(cè)試組合,可以獲得更可靠的評(píng)估結(jié)果[24],但其與5折交叉驗(yàn)證相比需要更多的計(jì)算資源和時(shí)間成本。然而,時(shí)間序列在時(shí)間上具有自相關(guān)性[25],而k折交叉驗(yàn)證是在觀(guān)測(cè)數(shù)據(jù)相互獨(dú)立的假設(shè)下實(shí)施的,因而在被應(yīng)用于時(shí)間序列模型訓(xùn)練時(shí)存在一定問(wèn)題,進(jìn)而導(dǎo)致模型不準(zhǔn)確,另外還具有信息泄露的問(wèn)題。
本文選取k折交叉驗(yàn)證的方式進(jìn)行超參數(shù)優(yōu)化。為了改善交叉驗(yàn)證方法不適合處理時(shí)間序列的問(wèn)題,在建模之前引入滑動(dòng)窗口方法[26-28]對(duì)數(shù)據(jù)集進(jìn)行整理,減小數(shù)據(jù)自相關(guān)性的影響。這樣的處理也可以在一定程度上避免信息泄漏問(wèn)題。所提出的基于GPR的在線(xiàn)用戶(hù)量預(yù)測(cè)方法實(shí)施示意圖如圖3所示。
在獲得在線(xiàn)用戶(hù)量數(shù)據(jù)集之后,對(duì)其進(jìn)行狀態(tài)確定、滑動(dòng)窗口方法處理、歸一化等操作,選定核函數(shù)進(jìn)行模型訓(xùn)練并通過(guò)評(píng)價(jià)選取最優(yōu)模型作為最佳預(yù)測(cè)模型,以實(shí)現(xiàn)在線(xiàn)用戶(hù)量預(yù)測(cè)。所提算法流程圖如圖4所示,其中l(wèi)en(·)為數(shù)據(jù)集的長(zhǎng)度。
其具體實(shí)施過(guò)程包括如下4個(gè)步驟。
步驟 1 獲取在線(xiàn)用戶(hù)量數(shù)據(jù)集,數(shù)據(jù)集文件應(yīng)該包含每個(gè)用戶(hù)在線(xiàn)的起止時(shí)間。根據(jù)數(shù)據(jù)集中在線(xiàn)用戶(hù)在線(xiàn)時(shí)間的中位數(shù)選定狀態(tài)周期,對(duì)其進(jìn)行狀態(tài)離散化,得到新數(shù)據(jù)集。狀態(tài)抽象過(guò)程的示意圖如圖5所示。
步驟 2 選定合適的窗口尺寸kim和預(yù)測(cè)跨度zim,采用滑動(dòng)窗口方法重新組織步驟1得到的數(shù)據(jù)集中的數(shù)據(jù)。組織好的數(shù)據(jù)集的第i行中存儲(chǔ)有依次排列的步驟1得到的數(shù)據(jù)集中的第i個(gè)至第(i+kim-1)個(gè)狀態(tài)、第(i+kim+zim-1)個(gè)狀態(tài)。此處假定數(shù)據(jù)集步驟1得到的數(shù)據(jù)集共有state_num個(gè)狀態(tài),則新數(shù)據(jù)集共有(state_num-kim-zim+1)行、(kim+1)列。該數(shù)據(jù)集數(shù)據(jù)組織形式示意圖如圖6所示。
步驟 3 對(duì)步驟2得到的數(shù)據(jù)集的每一列進(jìn)行歸一化處理,以解決數(shù)據(jù)分布不一致的問(wèn)題,保證機(jī)器學(xué)習(xí)模型獲得最佳性能,得到新數(shù)據(jù)集。將數(shù)據(jù)集中每一行數(shù)據(jù)稱(chēng)作一個(gè)樣本,每一列數(shù)據(jù)稱(chēng)作一個(gè)特征,將該數(shù)據(jù)集前kim列作為特征,是模型的輸入,將第(kim+1)列作為模型的輸出。對(duì)該數(shù)據(jù)集的樣本按照8∶2的比例劃分為訓(xùn)練集、測(cè)試集。
步驟 4 選定合適的核函數(shù),確定超參數(shù)空間,使用解析導(dǎo)數(shù)、數(shù)值方法、網(wǎng)格搜索、隨機(jī)搜索、貝葉斯優(yōu)化、梯度調(diào)整等方法[29-30]在超參數(shù)空間搜索超參數(shù)組合,并在訓(xùn)練集基礎(chǔ)上對(duì)每個(gè)超參數(shù)組合進(jìn)行k折交叉驗(yàn)證以評(píng)估模型性能,根據(jù)交叉驗(yàn)證結(jié)果選擇最佳性能的超參數(shù)組合,如圖7所示。最佳性能可以采用RMS、MAE、MBE等進(jìn)行評(píng)價(jià)。使用最佳超參數(shù)組合在全部訓(xùn)練數(shù)據(jù)上訓(xùn)練GPR模型。通過(guò)得到的GPR模型,可以得到后驗(yàn)均值函數(shù)形式,以此作為GPR的預(yù)測(cè)結(jié)果。最后,再通過(guò)測(cè)試集對(duì)模型進(jìn)行評(píng)估。
3 實(shí)驗(yàn)結(jié)果與分析
本文選取2016年8月一共享單車(chē)品牌在一地區(qū)的數(shù)據(jù)集[31],在仿真軟件上完成基于GPR模型的在線(xiàn)用戶(hù)量預(yù)測(cè)建模、仿真與優(yōu)化。在實(shí)現(xiàn)過(guò)程中,在獲取每周期的狀態(tài)之后,采用滑動(dòng)窗口的方法處理該數(shù)據(jù),得到新數(shù)據(jù)集。
對(duì)于共享單車(chē)這一類(lèi)時(shí)間序列,其潛周期通常有24 h、7 d、1 y等,對(duì)已有數(shù)據(jù)集(30 d)的數(shù)據(jù)進(jìn)行24 h趨勢(shì)仿真和30 d變化趨勢(shì)仿真,仿真結(jié)果如圖8和圖9所示。
一天內(nèi)有兩個(gè)主要峰值,分別是8點(diǎn)左右和18至20點(diǎn)。對(duì)已有數(shù)據(jù)集的自相關(guān)情況進(jìn)行仿真,仿真結(jié)果如圖10所示。自相關(guān)峰產(chǎn)生在(2n-1)·12 h和2n·12 h處,其中n=1,2,3,…。
經(jīng)過(guò)分析發(fā)現(xiàn),2n·12 h處的相關(guān)峰主要是由24 h的周期造成,其與7 d的周期關(guān)系很小;(2n-1)·12 h處的相關(guān)峰是由8點(diǎn)和18~20點(diǎn)兩處用戶(hù)量峰值造成的,其與7 d的周期關(guān)系也很小。但在一定時(shí)間范圍內(nèi),仍然可以認(rèn)為距離當(dāng)前時(shí)刻越遠(yuǎn)的數(shù)據(jù),與當(dāng)前時(shí)刻需要預(yù)測(cè)的數(shù)據(jù)的相關(guān)性越小。由于不同天同一時(shí)段2n·12 h數(shù)據(jù)少,無(wú)法采用該數(shù)據(jù)進(jìn)行預(yù)測(cè),因此選取一定時(shí)間范圍內(nèi)數(shù)據(jù)進(jìn)行未來(lái)預(yù)測(cè)。通過(guò)觀(guān)察自相關(guān)圖發(fā)現(xiàn),在偏移量小于24 h、相關(guān)值大于(2n-1)·12 h處出現(xiàn)相關(guān)峰值,因此比較適合的窗口尺寸應(yīng)小于24。由于本仿真追求預(yù)測(cè)的實(shí)時(shí)性,希望用前幾個(gè)數(shù)據(jù)預(yù)測(cè)后一個(gè)數(shù)據(jù),因此選定適合的窗口尺寸為15,預(yù)測(cè)跨度為1。
選取幾種不同的核函數(shù)并采用隨機(jī)搜索算法優(yōu)化信號(hào)噪聲,采用擬牛頓法優(yōu)化核參數(shù),在訓(xùn)練集基礎(chǔ)上對(duì)每個(gè)超參數(shù)組合進(jìn)行5折交叉驗(yàn)證,并使用各種評(píng)估指標(biāo)評(píng)估性能,根據(jù)交叉驗(yàn)證結(jié)果得到最優(yōu)模型。由于在不對(duì)信號(hào)噪聲進(jìn)行優(yōu)化時(shí),傳統(tǒng)方法通常采用訓(xùn)練集中輸出數(shù)據(jù)方差的一半作為信號(hào)噪聲方差的估計(jì)量,因此本文將其作為交叉驗(yàn)證優(yōu)化信號(hào)噪聲方法的對(duì)照組。
本文采用基于GPR模型的在線(xiàn)用戶(hù)量預(yù)測(cè)方法對(duì)共享單車(chē)在線(xiàn)用戶(hù)量實(shí)現(xiàn)建模、優(yōu)化與性能仿真評(píng)估,將本文GPR模型優(yōu)化方法與傳統(tǒng)GPR模型方法在3種不同核函數(shù)(平方指數(shù)核、matérn52核、matérn32核)情況下進(jìn)行建模仿真,通過(guò)RMS、MAE、MBE和R2這4個(gè)評(píng)估指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià)。
(1) 選取平方指數(shù)核的預(yù)測(cè)結(jié)果如圖11所示,預(yù)測(cè)結(jié)果殘差情況如圖12所示,模型性能評(píng)估結(jié)果如表3所示。其中,圖12(a)殘差均值為4.602 8,圖12(b)殘差均值為2.611 9。
(2) 選取matérn52核的預(yù)測(cè)結(jié)果如圖13所示,預(yù)測(cè)結(jié)果殘差情況如圖14所示,模型性能評(píng)估結(jié)果如表4所示。其中,圖14(a)殘差均值為5.53 6,圖14(b)殘差均值為2.040 9。
(3) 選取matérn32核的預(yù)測(cè)結(jié)果如圖15所示,預(yù)測(cè)結(jié)果殘差情況如圖16所示,模型性能評(píng)估結(jié)果如表5所示。其中,圖16(a)殘差均值為4.529 9,圖16(b)殘差均值為2.391 8。
此外,在仿真中還選取有理二次核、平方指數(shù)ARD核以及指數(shù)核進(jìn)行了模型構(gòu)建與性能評(píng)估,結(jié)果表明相較于平方指數(shù)核,matérn52核以及matérn32核性能較差。綜合分析上述3種核函數(shù)的模型訓(xùn)練評(píng)估結(jié)果可知:在測(cè)試集上,采用GPR模型優(yōu)化方法比采用傳統(tǒng)GPR模型方法在RMS、MAE、MBE、R2這4個(gè)評(píng)估指標(biāo)上的表現(xiàn)都更好,預(yù)測(cè)結(jié)果的殘差也更?。徊捎脗鹘y(tǒng)方法的方案對(duì)單車(chē)數(shù)量轉(zhuǎn)折處的預(yù)測(cè)能力更差。其中,RMS提升22.8%以上,MAE提升20.7%以上,MBE提升43.3%以上,R2提升3.3%以上。綜上所述,3種核函數(shù)中的2種matérn核,尤其是matérn52核訓(xùn)練出的GPR模型效果更好,可將其選為該案例共享單車(chē)在線(xiàn)用戶(hù)量預(yù)測(cè)的核函數(shù)。
4 結(jié) 論
本文提出一種基于GPR模型的在線(xiàn)用戶(hù)量預(yù)測(cè)優(yōu)化方法,對(duì)傳統(tǒng)GPR模型在超參數(shù)優(yōu)化方面完成了優(yōu)化設(shè)計(jì)。所提方法首先對(duì)序列進(jìn)行狀態(tài)離散化,隨后引入滑動(dòng)窗口方法處理并進(jìn)行歸一化。在訓(xùn)練GPR模型時(shí),采用k折交叉驗(yàn)證方法選擇最優(yōu)超參數(shù)組合?;瑒?dòng)窗口方法的引入使得在運(yùn)用交叉驗(yàn)證時(shí)避免了數(shù)據(jù)泄露的風(fēng)險(xiǎn),并且考慮了時(shí)間序列的時(shí)間相關(guān)性。公開(kāi)的共享單車(chē)用戶(hù)量數(shù)據(jù)集的預(yù)測(cè)結(jié)果表明,與傳統(tǒng)采用訓(xùn)練集中輸出數(shù)據(jù)方差的一半作為信號(hào)噪聲方差估計(jì)量的方法相比,本文方法在選取平方指數(shù)核、matérn52核以及matérn32核作為GPR的核函數(shù)時(shí),測(cè)試集預(yù)測(cè)效果都更加優(yōu)秀,而且matérn52核作為本數(shù)據(jù)集GPR模型的核函數(shù)時(shí)預(yù)測(cè)效果提升最多。基于GPR模型的在線(xiàn)用戶(hù)量預(yù)測(cè)優(yōu)化方法,可以用于搜索引擎系統(tǒng)性能測(cè)試、金融領(lǐng)域服務(wù)模式改進(jìn)、智能交通系統(tǒng)構(gòu)建等與時(shí)間序列預(yù)測(cè)相關(guān)的應(yīng)用場(chǎng)景,具有潛在的商業(yè)與社會(huì)管理價(jià)值。
參考文獻(xiàn)
[1]王繼民, 彭波. 搜索引擎用戶(hù)訪(fǎng)問(wèn)量模型[J]. 計(jì)算機(jī)工程與應(yīng)用, 2004(25): 9-11, 30.
WANG J M, PENG B. Modeling quantity of users’ access for search engine [J]. Computer Engineering and Applications, 2004(25): 9-11, 30.
[2]程鵬超, 杜軍平, 薛哲. 基于多路交叉的用戶(hù)金融行為預(yù)測(cè)[J]. 智能系統(tǒng)學(xué)報(bào), 2021, 16(2): 378-384.
CHENG P C, DU J P, XUE Z. Prediction of user financial behavior based on multi-way crossing [J]. CAAI Transactions on Intelligent Systems, 2021, 16(2): 378-384.
[3]XIAO H B, XIAO J H, DENG X W, et al. Traffic flow prediction based on traffic and meteorological data fusion in non-stationary environments[C]∥Proc.of the International Conference on Electronic Information Technology and Smart Agriculture, 2021: 154-158.
[4]LEE J, LEE H Y, KIM N W, et al. A study on online arima algorithms applying various gradient descent optimization algorithms for time series prediction[C]∥Proc.of the International Conference on Information and Communication Technology Convergence, 2021: 1104-1106.
[5]PENG Y N, XIANG W L. Short-term traffic volume prediction using GA-BP based on wavelet denoising and phase space reconstruction[J]. Physica A: Statistical Mechanics and its Applications, 2020, 549: 123913.
[6]LI R M, HU Y C, LIANG Q H. T2F-LSTM method for long-term traffic volume prediction[J]. IEEE Trans.on Fuzzy Systems, 2020, 28(12): 3256-3264.
[7]BECKERS T. An introduction to Gaussian process models[EB/OL]. [2024-01-10]. https:∥arXiv preprint arXiv: 2102.05497,2021.
[8]KRISHNAN V, CHANDRA K. Probability and random proce-sses[M]. Hoboken: John Wiley amp; Sons, 2016.
[9]JAKKALA K. Deep Gaussian processes: a survey[EB/OL]. [2024-01-10]. https:∥arXiv preprint arXiv: 2106.12135,2021.
[10]WILLIAMS C K I, RASMUSSEN C E. Gaussian processes for machine learning[M]. Cambridge: Massachusetts Institute of Technology press, 2006.
[11]梁袁澤. 基于經(jīng)驗(yàn)?zāi)B(tài)分解與排列熵的癲癇腦電信號(hào)自動(dòng)檢測(cè)方法[D]. 南京: 南京郵電大學(xué), 2023.
LIANG Y Z. An automatic detection method for epileptic EEG signals based on empirical mode decomposition and permutation entropy [D]. Nanjing: Nanjing University of Posts and Telecommunications, 2023.
[12]楊雨亭. 基于RF特征優(yōu)選的ISSA-SVM變壓器故障診斷方法[D]. 南京: 南京郵電大學(xué), 2023.
YANG Y T. ISSA-SVM transformer fault diagnosis method based on RF feature selection [D]. Nanjing: Nanjing University of Posts and Telecommunications, 2023.
[13]ZHANG S Y, TAN W A, LI Y B. Survey of kernel extreme learning machine kernel function based on the perspective of kernel parameter optimization time[C]∥Proc.of the 4th Annual International Conference on Network and Information Systems for Computers, 2018: 430-433.
[14]PARAL P, GHOSH S, CHATTERJEE A, et al. Automatic relevance determination kernel-embedded Gaussian process regression for sonar-based human leg localization with a mobile robot[J]. IEEE Sensors Letters, 2022, 7(1): 6000504.
[15]DONG W H, LI X F, BI D J, et al. Matern kernel adaptive filtering with Nystrom approximation for indoor localization[J]. IEEE Trans.on Instrumentation and Measurement, 2023.
[16]TRONARP F, KARVONEN T, SARKKA S. Mixture representation of the Matern class with applications in state space approximations and Bayesian quadrature[C]∥Proc.of the IEEE 28th International Workshop on Machine Learning for Signal Processing, 2018.
[17]LIU K L, LI Y, HU X S, et al. Gaussian process regression with automatic relevance determination kernel for calendar aging prediction of lithiumion batteries[J]. IEEE Trans.on Industrial Informatics, 2019, 16(6): 3767-3777.
[18]TAGHAVIFAR H, MARDANI A. Gaussian process with automatic relevance determination predictive model for energy management of electric direct-drive wheels: experimental validation[J]. IEEE Trans.on Vehicular Technology, 2023, 73(2): 1910-1917.
[19]LIU T, CHAI W, WANG C C. Soft-sensors based on Gaussian process regression for wastewater treatment plants[C]∥Proc.of the IEEE 11th Data Driven Control and Learning Systems Conference, 2022: 437-442.
[20]楊成飛. 基于高斯過(guò)程的智能采樣策略研究[D]. 合肥: 中國(guó)科學(xué)技術(shù)大學(xué), 2019.
YANG C F. Adaptive sampling strategy based on Gaussian process [D]. Hefei: University of Science and Technology of China, 2019.
[21]ALBRECHT T, RAUSCH T M, DERRA N D. Call me maybe: methods and practical implementation of artificial intelligence in call center arrivals’ forecasting[J]. Journal of Business Research, 2021, 123: 267-278.
[22]BERGMEIR C, COSTANTINI M, BENITEZ J M. On the useful-ness of cross-validation for directional forecast evaluation[J]. Computational Statistics amp; Data Analysis, 2014, 76: 132-143.
[23]CERQUEIRA V, TORGO L, MOZETIC I. Evaluating time series forecasting models: an empirical study on performance estimation methods[J]. Machine Learning, 2020, 109(11): 1997-2028.
[24]ARLOT S, CELISSE A. A survey of cross-validation procedures for model selection[J]. Statistics Surveys, 2010, 4(2010): 40-79.
[25]BERGMEIR C, HYNDMAN R J, KOO B. A note on the validity of cross-validation for evaluating autoregressive time series prediction[J]. Computational Statistics amp; Data Analysis, 2018, 120: 70-83.
[26]GUI C, SUN B L, SONG Y, et al. Variable length sliding window-based network coding algorithm in MANETs[C]∥Proc.of the International Conference on Mobile and Ubiquitous Systems: Networking and Services, 2017.
[27]MENG J F, GONG L, XU J. Sliding-window QPS (SW-QPS) a perfect parallel iterative switching algorithm for input-queued switches[J]. ACM Sigmetrics Performance Evaluation Review, 2021, 48(3): 71-76.
[28]LI L G, ZHAO J S, QIANG B H, et al. Prediction method of fan main shaft fault state based on sliding window characteristics[C]∥Proc.of the 10th International Conference on Internet Computing for Science and Engineering, 2021: 67-73.
[29]VARDHAN B V S, KHEDKAR M, SURESH V. Hyper-parame-ter tuned short term load forecasting using stochastic classifier-regression mapping for power system operator[C]∥Proc.of the IEEE PES 14th Asia-Pacific Power and Energy Engineering Conference, 2022.
[30]LI Z H, SHOEMAKER C A. Hyper-parameter optimization for deep learning by surrogate-based model with weighted distance exploration[C]∥Proc.of the IEEE Congress on Evolutionary Computation, 2021: 917-925.
[31]SODA上海開(kāi)放數(shù)據(jù)創(chuàng)新應(yīng)用大賽. 摩拜上海城區(qū)用戶(hù)使用數(shù)據(jù)[EB/OL]. [2024-01-10]. https:∥shanghai.sodachallenges.com/data.html.
作者簡(jiǎn)介
劉學(xué)浩(1999—),男,碩士研究生,主要研究方向?yàn)橥ㄐ排c衛(wèi)星導(dǎo)航技術(shù)、信息與信號(hào)處理。
劉文學(xué)(1985—),男,高級(jí)工程師,博士,主要研究方向?yàn)樾l(wèi)星導(dǎo)航相關(guān)的軟硬件設(shè)計(jì)、信號(hào)處理算法。
楊超三(1989—),男,助理研究員,博士,主要研究方向?yàn)樾l(wèi)星通信與自組網(wǎng)通信。
祝文晶(1999—),女,博士研究生,主要研究方向?yàn)橹悄軣o(wú)線(xiàn)通信。
宋 玉(1999—),女,博士研究生,主要研究方向?yàn)橹悄軣o(wú)線(xiàn)通信、自組網(wǎng)通信。
李金海(1978—),男,高級(jí)工程師,博士,主要研究方向?yàn)樾l(wèi)星導(dǎo)航、寬帶無(wú)線(xiàn)通信。