周熠烜, 陳華友, 周禮剛, 朱家明
(1.安徽大學 數(shù)學科學學院,安徽 合肥 230601; 2.安徽大學 互聯(lián)網(wǎng)學院,安徽 合肥 230039)
在控制全球變暖的過程中,減少碳排放是至關重要的環(huán)節(jié)和有效途徑。為了控制二氧化碳的排放,全球碳交易市場應運而生。碳交易有利于合理地對碳配額進行分配,進而減緩全球變暖的進程。因此,如何有效預測碳價格是學術界需要解決的重要而迫切的研究課題。
傳統(tǒng)的組合預測模型使用的數(shù)據(jù)大多來源于政府或相關統(tǒng)計部門,這些數(shù)據(jù)為年度統(tǒng)計數(shù)據(jù),并有一定的滯后期,此類數(shù)據(jù)為類型單一的結構化數(shù)據(jù)。然而在網(wǎng)絡環(huán)境下,搜索引擎的使用越來越頻繁,從而導致非結構化數(shù)據(jù)廣泛存在,因此有必要探討非結構化數(shù)據(jù)所提供的有效信息來提高預測的準確度。
實際上,百度指數(shù)就是一類重要的非結構化數(shù)據(jù)。它以關鍵詞的搜索次數(shù)為基礎,科學地分析計算各關鍵詞在百度搜索中的加權和,進而揭示大眾關注對信息的影響機制[1]。文獻[2]利用格蘭杰因果關系檢驗分析實際游客流量和網(wǎng)絡搜索量之間的聯(lián)系,構建了基于百度指數(shù)的故宮游客流量預測模型;文獻[3]利用百度指數(shù)衡量用戶關注度,探究普通投資者的關注程度對股票流動性及股票收益可能造成的影響。
近年來,人工智能算法得到了很大程度的發(fā)展,相比較傳統(tǒng)的組合預測方法具有更高的魯棒性和精確性。因此結合人工智能算法構建組合預測模型能提高容錯率,挖掘數(shù)據(jù)中的潛在信息,提高預測精準度。文獻[4]應用改進的v-支持向量回歸(v-support vector regression,v-SVR)模型預測股票價格;文獻[5]采用粒子群優(yōu)化算法改進支持向量機模型,并用改進后的模型進行房價預測;文獻[6]運用神經(jīng)網(wǎng)絡集成學習方法建立模型對股票市場進行預測;文獻[7]運用非線性自回歸神經(jīng)網(wǎng)絡(nonlinear autoregressive neural network,NANN)對大氣密度進行了預測;文獻[8]應用最小二乘支持向量機(leasts squares support vector machine,LSSVM)方法對太陽黑子進行預測,并對模型中的參數(shù)進行優(yōu)化,取得了很好效果。
國內外對碳市場價格的分析與研究一直是學術界關注的熱點問題之一[9],國內外學者提出了多種方法實現(xiàn)對碳價格的預測。文獻[10]考慮灰色理論的特點,利用帶有殘差修正的GM(1,1)結果優(yōu)化模型對碳交易試點的價格進行預測;文獻[11]結合灰色預測方法和馬爾科夫理論,使用改進的Grey-Markov模型對碳價格的波動進行預測;文獻[12]應用差分整合移動平均自回歸模型(autoregressive integrated moving average model,ARIMA)模型和LSSVM組合模型預測國際交易市場的碳交易價格;文獻[13]針對焦炭消費的特點,構建了帶BP神經(jīng)網(wǎng)絡的半?yún)?shù)組合預測模型。實驗表明上述模型具有較高的預測精度。
然而,上述有關碳價格預測模型利用的數(shù)據(jù)均是結構化數(shù)據(jù),并沒有考慮非結構化數(shù)據(jù)對碳價格的影響。因此,目前的碳價格預測若采用傳統(tǒng)的組合預測模型,則存在一定的缺陷。具體表現(xiàn)為傳統(tǒng)的組合預測模型大多對單項預測結果進行線性的加權平均獲得預測結果,因此預測精度過分依賴于單項預測模型的選擇。例如,假設某個指標的實際值為100,而3種單項預測結果均大于110,因此線性加權算術平均導致組合預測的結果也至少是110以上,從而造成較大的誤差。實際上,碳價格預測考慮到非結構化數(shù)據(jù)的影響,在混合數(shù)據(jù)結構下碳價格和影響因素呈現(xiàn)非線性數(shù)據(jù)特征,這是傳統(tǒng)的組合預測方法所不能反映的。本文所構建的基于局部線性嵌入和鯨魚優(yōu)化算法的最小二乘支持向量回歸(locally linear embedding-whale optimization algorithm-least squares support vector regression,LLE-WOA-LSSVR)預測模型改變了傳統(tǒng)的組合預測模型的思路,把組合預測看成是一個預測過程。先考慮對眾多的非結構化數(shù)據(jù)進行降維處理,提取出數(shù)據(jù)有效信息特征,降低一些次要的或偶然因素對系統(tǒng)行為擾動的影響。在此基礎上,利用機器學習算法LSSVR進行非線性建模,并對模型的參數(shù)利用鯨魚算法(whale optimization algorithm,WOA)進行優(yōu)化,從而進一步改進傳統(tǒng)的組合預測方法。
為此,本文在現(xiàn)有文獻基礎上,構建新的基于非結構化數(shù)據(jù)的LLE-WOA-LSSVR碳價格組合預測模型。該模型具有如下創(chuàng)新性:
(1) 為了克服結構化數(shù)據(jù)包含信息的不全面性,本文考慮非結構化數(shù)據(jù)對碳價格的影響,調查碳價格相關關鍵詞的百度指數(shù),并運用局部線性嵌入(locally linear embedding,LLE)算法對數(shù)據(jù)進行降維。
(2) 利用WOA算法優(yōu)化LSSVR模型中的參數(shù),并利用優(yōu)化后的模型對碳價格數(shù)據(jù)進行訓練、測試和預測。
(3) 通過比較4種不同預測方法的碳價格預測結果。實例分析表明,本文提出的組合預測模型合理且有效。
非結構化數(shù)據(jù)是指數(shù)據(jù)結構不規(guī)則或不完整,沒有預先定義的數(shù)據(jù)。相比較結構化數(shù)據(jù),非結構化數(shù)據(jù)隱藏著很多重要的信息,引入非結構化數(shù)據(jù),可以完善數(shù)據(jù)提供的信息,使得信息更加全面,有利于獲得更加精準的預測結果。
本文利用百度指數(shù)作為非結構化數(shù)據(jù)來源,通過相關關鍵詞在百度的每日搜索量,分析并預測未來碳價格的變化趨勢。假設樣本集X={X1,X2,…,Xn}為影響碳價格影響因素的指標集合。
LLE算法是文獻[14]提出的一種流行的學習非線性降維方法。該方法假設高維空間內的樣本點在局部內的關系是線性的,即一個樣本點可以由若干個相鄰的點來線性表示。通過LLE算法降維后,樣本點集合在低維空間中仍保持這樣的線性關系不變。
LLE算法基本思想是將高維樣本數(shù)據(jù)集X={X1,X2,…,Xn}(Xi∈Rd)映射到低維樣本數(shù)據(jù)集Y={Y1,Y2,…,Yn}(Yi∈Rd′),其中維數(shù)d′ (1) 對于高維空間的樣本集X={X1,X2,…,Xn}中的元素,計算每個樣本點Xi和剩余的n-1個樣本點之間的歐式距離dij=|Xi-Xj|。按距離從小到大進行排序,選擇前K個距離Xi最近的樣本點作為xi的近鄰點集合Qi。 (1) (2) LSSVR是文獻[15]對支持向量回歸的改進,在標準算法的基礎上將最小二乘估計引入SVR算法中,通過把原算法中的不等式約束轉化為等式約束,對二次線性規(guī)劃問題的求解轉變?yōu)閷€性方程組的求解,可以極大地減少運算量,提高運算效率。在原始的低維空間中,線性回歸的問題可以由如下線性方程表示: f(x)=ωTx+b (3) 其中:ω為權重向量;b為偏差。在選用合適的核函數(shù)映射到高維特征空間后,線性回歸的問題可以由下式表示: y=ωTφ(x)+b (4) 其中,φ(x)為非線性變換。和SVM算法相類似,根據(jù)結構風險最小化原則,LSSVR算法的優(yōu)化目標函數(shù)可以表示為: (5) 其中:ei為誤差;γ為懲罰系數(shù)。 (5)式是一個等式約束非線性規(guī)劃問題,引入Lagrange函數(shù)將其轉化為無條件極值問題,有: (6) 其中,αi為Lagrange乘子。 對(6)式中的ω、b、ei、αi分別求偏導,可得(6)式的駐點,即令: i=1,2,…,N, 從而如下方程組成立: (7) 消去(7)式中的ω和ei,可以將(7)式化為如下的線性方程組: (8) 其中:1=[1 1 … 1]T;Ω=(Ωij)n×n,Ωij=φ(xi)Tφ(xj)=K(xi,xj);α=[α1α2…αn]T;Y=[y1y2…yn]T。 由(8)式可以得到模型參數(shù)b和α1,α2,…,αn的估計,從而LSSVR算法的預測模型為: (9) 鯨魚優(yōu)化算法(whale optimization algorithm,WOA)是由文獻[16]于2016年提出的模仿座頭鯨捕獵行為的一種新的仿生智能算法,具有操作簡單,調整參數(shù)較少和跳出局部最優(yōu)解的能力強等特點,可運用于模型參數(shù)優(yōu)化等問題。 在WOA算法中,假設在一個D維的空間中,有n個鯨魚組成了一個種群X={X1,X2,…,Xn},其中個體Xi=(xi1,xi2,…,xiD)是該鯨魚在空間中的位置,它表示解空間中的一個解;解空間中的最優(yōu)解可以抽象為獵物的位置。WOA算法分為3個部分,分別是環(huán)繞捕食、泡泡網(wǎng)攻擊以及搜索捕食。 (1) 環(huán)繞捕食。座頭鯨在捕食時,可以識別獵物的位置并對其進行包圍,該行為可以由下式表示: Xi(t+1)=X*(t)-A·D (10) D=|C·X*(t)-Xi(t)| (11) 其中:“·”為矩陣的Hadamard積;| |為向量的每一個分量取絕對值后構成的新向量;X*(t)為迭代到第t次時當前種群最優(yōu)解的位置;A=a(2r-1)、C=2r為系數(shù)向量,1=[1 1 … 1]T,r為[0,1]上的隨機向量,a為在迭代的過程中從2到0線性下降的控制參數(shù)。 (2) 泡泡網(wǎng)攻擊。在WOA算法中,運用收縮包圍機制和螺旋更新位置機制模擬泡泡網(wǎng)攻擊的行為。 收縮包圍機制可以通過減少a的大小實現(xiàn),當A的每個分量在[-1,1]時,鯨魚會通過(10)式、(11)式在原始位置和當前最優(yōu)位置之間選擇任意的位置。 螺旋更新位置機制的實現(xiàn)是通過在鯨魚和獵物之間建立螺旋方程,即 Xi(t+1)=D′eblcos(2πl(wèi))+X*(t) (12) D′=|X*(t)-Xi(t)| (13) 其中:b為控制螺旋形狀的參數(shù),通常取b=1;l為[-1,1]上的隨機數(shù);| |含義同上。 為了模擬泡泡網(wǎng)攻擊行為,WOA算法認為這2種機制發(fā)生的概率相同,即各為50%。因此構建如下的算法模型: (14) (3) 搜索捕食。在實際的捕食過程中,個體會根據(jù)其他個體的位置隨機搜索食物,在搜索捕食的機制下,個體通過隨機選擇其他個體的位置代替最優(yōu)個體的位置,以增強算法在全局范圍內的搜索能力。該機制的算法可以表示為: Xi(t+1)=Xrand(t)-A·D (15) D=|C·Xrand(t)-Xi(t)| (16) 搜索捕食機制是通過控制參數(shù)a的變化來控制的。當|A|<1時,選擇最優(yōu)個體位置更新,即(10)式、(11)式;當|A|≥1時,選擇隨機個體位置更新,即(15)式、(16)式。 在用LSSVR模型對數(shù)據(jù)進行預測時,預測精度很大程度上依賴于γ和σ的選取。其中:γ為懲罰系數(shù);σ為核函數(shù)半徑。γ越大,分類越嚴格,允許錯分的樣本受到的限制越大,錯分的樣本數(shù)少,容易出現(xiàn)過擬合,泛化能力差;γ越小,允許錯分的樣本受到的限制越少,容易出現(xiàn)欠擬合。σ越小,模型只作用于支持向量樣本附近,訓練效果好,但預測效果差;σ越大,越容易出現(xiàn)平滑效應,造成訓練效果差。因此選取合適的γ和σ顯得尤為重要。 本文結合WOA算法對LSSVR中的參數(shù)γ和σ進行優(yōu)化,利用最優(yōu)的參數(shù)對數(shù)據(jù)進行預測。同時為了防止過擬合導致訓練效果好但預測效果差,本文運用留出法(hold-out)將數(shù)據(jù)X分為訓練集S、驗證集T和測試集P。在訓練集S上訓練模型,用驗證集T評估模型的測試誤差,作為對泛化誤差的估計。為此,本文構建新的基于非結構化數(shù)據(jù)的LLE-WOA-LSSVR組合預測模型的流程如圖1所示。 圖1 基于非結構化數(shù)據(jù)的LLE-WOA-LSSVR組合預測模型 基于非結構化數(shù)據(jù)的LLE-WOA-LSSVR預測模型的步驟如下: (1) 收集相關的非結構化數(shù)據(jù)X={X1,X2,…,Xn}。 (2) 運用LLE降維方法對原始樣本集X進行降維處理,得到低維樣本集Y,并將樣本集Y劃分為訓練集S、驗證集T和測試集P。 (3) 利用WOA算法優(yōu)化LSSVR模型參數(shù)γ和σ。 1、在高位推動上聯(lián)合。切實把宣傳定位于衛(wèi)生計生工作的重要位置,納入衛(wèi)生計生目標管理責任,在日常工作中更加突出宣傳先行先導的作用。 (4) 結合優(yōu)化后的γ和σ,利用LSSVR模型對訓練集S進行訓練,適應度函數(shù)為驗證集T的誤差平方和。 (5) 利用訓練后的模型對測試集P中的數(shù)據(jù)進行預測,并進行誤差分析,比較多種預測方法之間的優(yōu)劣。 為了評價基于非結構化數(shù)據(jù)的LLE-WOA-LSSVR預測模型的有效性,本文利用2015年1月1日至2018年6月30日的百度指數(shù)數(shù)據(jù)對碳價格進行預測。通過在百度指數(shù)中輸入相應的關鍵詞,可以得到每日用戶對關鍵詞的搜索量。本文選取碳匯、碳足跡、碳交易、碳關稅、碳排放、低碳經(jīng)濟、減排、碳中和、低碳生活和低碳這10個關鍵詞作為影響碳價格的因素。所有實驗是在Windows 10,MATLAB R2017a環(huán)境下進行的。 運用LLE算法對10組數(shù)據(jù)進行降維處理,本文將數(shù)據(jù)降成二維數(shù)據(jù)h1、h2,選取參數(shù)為k=3,每個樣本點距離最近的3個點作為近鄰點。運用得到的h1、h2和前一期的碳價格作為訓練集,運用LSSVR算法預測碳價格。 為了防止過擬合,本文采用留出法,選取2015年1月1日至2017年12月29日的數(shù)據(jù)作為訓練集,2018年1月2日至2018年2月28日的數(shù)據(jù)作為驗證集,2018年3月1日至2018年6月30日作為測試集。利用WOA算法優(yōu)化參數(shù)γ和σ,以驗證集的誤差平方和為適應度函數(shù);另外,WOA算法的相關參數(shù)中,令種群數(shù)量為30,最大迭代次數(shù)為500,γ的取值區(qū)間為[0.01, 6 000],σ取值區(qū)間為[0.01, 100],得到γ=6 000,σ=49.343 1為最優(yōu)參數(shù)。運用最優(yōu)組參數(shù),使用LSSVR工具箱程序預測數(shù)據(jù),得到預測結果。 為了說明本文方法的有效性,選取如下預測模型進行對比分析: (1) 采用非結構化數(shù)據(jù)加入WOA算法尋優(yōu)的LLE-WOA-LSSVR組合預測模型,記為模型一,即本文算法。 (2) 采用結構化數(shù)據(jù)且加入WOA算法尋優(yōu)的模型,記為模型二。 (3) 采用非結構化數(shù)據(jù)未加入WOA算法尋優(yōu)的模型,記為模型三。 (4) 采用結構化數(shù)據(jù)且未加入WOA算法尋優(yōu)的模型,記為模型四。 (5) 無LLE降維算法,采用非結構化數(shù)據(jù)加入WOA算法尋優(yōu)的模型,記為模型五。 本文采用的結構化數(shù)據(jù)是碳價格的時滯為3期的數(shù)據(jù),即利用前3期數(shù)據(jù)作為預測下一期的標準。先將前4種預測方法的結果進行比較,如圖2、圖3所示。 圖2 4種預測方法訓練和測試結果 從圖2可以看出,4種預測方法的訓練和測試結果,與實際值相比,趨勢基本一致,擬合程度較好,沒有太大的誤差。為了對比4種預測方法的泛化能力,對預測集結果進行單獨比較,結果如圖3所示。 圖3 4種預測方法預測集結果 從圖3可以看出,4種方法和實際值相比,整體變化趨勢一致,誤差在可接受范圍內,本文所用的方法與實際值更接近。此外,為了分析降維方法對預測模型是否有效,比較模型一和模型五,分析降維方法引入的合理性,結果如圖4所示。 圖4 有LLE降維和無降維模型預測結果和誤差圖 從圖4可以看出,引入LLE降維方法后,結果與無降維方法,直接使用WOA+LSSVR預測模型的結果總體差距不大,從誤差大小來看,本文提出模型總體誤差較小。為了比較不同模型更加精確的預測能力,現(xiàn)引入5種誤差度量標準進行誤差分析。 為了比較不同預測模型之間的優(yōu)劣性,體現(xiàn)非結構化數(shù)據(jù)和WOA算法優(yōu)化參數(shù)對模型求解的優(yōu)勢,多種誤差標準被用來評價模型的有效性。本文采用的誤差度量標準是SSE、MSE、MAE、MAPE和MSPE,見表1所列。 表1 5種誤差度量標準 將本文模型(模型一)得到的預測結果與其他4種方法得到的預測結果進行比較,得到測試集的誤差結果見表2所列。 表2 4種預測方法參數(shù)和測試集誤差結果比較 從表2可以看出,本文所提出的組合預測模型一在5種誤差標準下的值均為最小,這表明本文所用的方法是4種預測方法中最優(yōu)的。 另外,對比模型一和模型三,可以發(fā)現(xiàn)運用了WOA算法尋優(yōu)后,效果比直接運用LSSVR模型預測的精度要高,說明將智能算法和仿生尋優(yōu)算法結合的可行性與有效性。對比模型二和模型四也有類似的結論。對比模型一和模型二,可以發(fā)現(xiàn)在考慮非結構化數(shù)據(jù)后,效果相較于只考慮結構化數(shù)據(jù)得到的結果要優(yōu),這表明非結構化數(shù)據(jù)在數(shù)據(jù)預測方面提供更多的信息。對比模型三和模型四,也有類似的結論。 同時,將無LLE降維的模型和其他4個模型對比可以發(fā)現(xiàn),本文提出的模型一在各項誤差上都有顯著提高,并且模型二至模型四的誤差也略優(yōu)于無LLE降維的模型,這說明運用了LLE降維算法后,預測的精度有明顯提高,表明降維并沒有導致主要信息的缺失,同時降維后數(shù)據(jù)量的減少會提高模型計算的效率,說明降維算法在實際問題中的合理性。 綜上所述,本文提出的基于非結構化數(shù)據(jù)的LLE-WOA-LSSVR碳價格組合預測模型具有較好的可行性和適用性。 為了解決碳價格的預測問題,本文首先引入非結構化數(shù)據(jù),完善數(shù)據(jù)的信息完整性;其次利用LLE降維算法,將搜集到的10個影響碳價格的非結構化數(shù)據(jù)降成二維數(shù)據(jù),并與滯后一期的碳價格構成影響碳價格的因素,運用LSSVR模型對訓練集數(shù)據(jù)進行訓練,并將測試集數(shù)據(jù)的誤差作為適應度函數(shù),結合WOA優(yōu)化算法對參數(shù)優(yōu)化,得到預測結果;最后比較4種不同預測方法的預測結果并分析誤差,發(fā)現(xiàn)本文提出的基于非結構化數(shù)據(jù)的LLE-WOA-LSSVR碳價格組合預測模型的精度最高,說明本文模型具有較高的可行性和有效性。在未來的研究中,可以對WOA方法中的參數(shù),以及種群初始化進行優(yōu)化調整,使算法收斂速度更快,提高運算精度和運算時間。1.3 LSSVR
1.4 WOA優(yōu)化算法
2 LLE-WOA-LSSVR組合預測模型構建
3 案例分析
4 5種預測模型的誤差分析
5 結 論