余樂安,雷凱宇
(1.四川大學 商學院,四川 成都 610065; 2.北京化工大學 經(jīng)濟管理學院,北京 100029)
原油在工業(yè)社會發(fā)展中起著不可替代的作用,故其價格預測一直是學術界研究的熱點問題。對于企業(yè)和國家做長期規(guī)劃而言,可靠的多期預測比單期預測更具有實際意義,故本文擬構建模型以重點提升油價的多期預測精度。既往文獻曾使用計量經(jīng)濟、人工智能(AI)、混合模型和相似模式匹配模型對油價預測進行探索。對于計量模型,Baumeister等[1]使用向量自回歸模型(VAR)預測了原油價格,結果表明VAR模型比AR與ARMA模型具有更高的方向精度;Zhao等[2]使用自回歸移動平均(ARIMA)模型來預測國際原油價格,發(fā)現(xiàn)這一模型在短期預測上具有顯著優(yōu)勢。對于AI模型,Xie等[3]提出了一種基于支持向量機(SVM)的原油價格預測新方法,取得了較好的預測精度;Tang等[4]使用隨機向量函數(shù)鏈路(RVFL)預測WTI油價,結果表明沒有迭代過程的RVFL計算時間短且能達到較高的預測精度;Yu等[5]利用極限學習機(ELM)和擴展極限學習機(EELM)對WTI原油價格進行了預測,也得到了較高的預測精度。不同于單個模型,混合模型可以克服單個模型的缺點,Wang等[6]將人工神經(jīng)網(wǎng)絡(ANN)和基于規(guī)則的專家系統(tǒng)(RES)以及文本挖掘(WTM)技術相互集成,開發(fā)了一種新穎的混合模型用于油價預測;Zhang等[7]提出了一種EEMD-PSO-LSSVM-GARCH的混合方法用于原油價格預測,并證明了該方法對原油價格具有很強的預測能力。相似模式匹配模型是一類能夠一次輸出未來多個預測結果的模型,在多期預測任務上表現(xiàn)良好,Singh等[8]第一次在金融序列長記憶性的基礎上提出了PMR方法,并可以一次輸出多期預測結果;Fan等[9]也在此基礎上構建了GPM模型,使用遺傳算法對相似模式匹配過程進行尋優(yōu),取得了多期預測精度的提升。綜上,受到模式匹配思想與深度學習訓練過程可以互相嵌入的啟發(fā),本文擬將二者結合進行模型構建,且通過多種相似性度量方法的綜合增強模型魯棒性,提升國際油價多期預測精度。
為了充分挖掘隱藏在油價歷史數(shù)據(jù)中的有用信息,同時能夠利用AI方法強大的非線性擬合能力[10],本文提出了一種基于模式匹配與深度學習的原油價格預測模型。該模型由2個主要步驟組成:第一步為形狀相似性判斷,這一步擬基于相似模式搜尋的思想進行建模;第二步為相似模式驅(qū)動的參數(shù)訓練,按照第一步選出的相似模式進行模型參數(shù)訓練,采用對特定時間段加權的方式來使模型更加關注特定形狀的學習。所提方法的整體框架如圖1所示。
圖1 基于相似模式與深度學習的算法流程
從圖1中可以看出,模型中的2個步驟總共包含4個核心環(huán)節(jié),下面分別對這4個環(huán)節(jié)進行詳細介紹。
1.滾動窗口長度確定
原油價格的記憶性特征是指當前油價走勢與歷史上某些時間段具有很強的相關性[11],需要依據(jù)記憶性特征來確定滾動窗口的長度。英國水文學家Hurst[12]提出的R/S分析法常被用來對序列的記憶性進行度量,由于改變R/S分析法的窗口長度可以影響生成R/S序列的標準差、極差、子間隔個數(shù)等因素,從而對最終的Hurst指數(shù)產(chǎn)生影響,這也說明在不同窗口長度下序列會表現(xiàn)出不同的記憶性強度。故本環(huán)節(jié)先使用R/S分析法對原油價格的長記憶性特征進行檢驗,并通過改變R/S分析的參數(shù)值判定原油價格的最優(yōu)記憶性尺度,然后基于記憶性強弱確定最優(yōu)滾動窗口長度(即相似模式長度)。
2.相似模式匹配
首先將實驗數(shù)據(jù)劃分為訓練集與測試集,并以訓練集的最后一個窗口作為油價變動的當前模式,然后,按照與當前油價波動狀態(tài)的“相似性”進行模式匹配與尋找。[13]為了增強整體模型的魯棒性,采用長度標準化的歐氏距離[14]、相關系數(shù)[13]、均方誤差[13]3種不同的相似性度量方式,并為每一種方法設定一個閾值,歷史序列中相似性指標大于/小于此閾值的即被選為當前模式的相似模式。最后,本文還將3種方法所選出的相似模式區(qū)段取交集,以獲得更為魯棒的相似模式,方便后續(xù)產(chǎn)生更為魯棒的預測結果。
3.樣本加權訓練
根據(jù)找出的當前模式的歷史相似模式對訓練樣本進行加權,這一步驟的基本原則為根據(jù)歷史中所有模式與當前模式的相似性進行加權:當歷史模式與當前模式之間的相似性高時,它在訓練過程中就被賦予更高的權重,以體現(xiàn)訓練過程對于相似模式的關注。最終訓練出帶有權重因素的深度學習模型,然后對測試集進行預測。
4.深度學習預測
在預測環(huán)節(jié),本文選用長短期記憶網(wǎng)絡(LSTM)這一深度學習模型進行向前預測,這一網(wǎng)絡結構包含一系列循環(huán)連接的子網(wǎng)絡,每個記憶模塊包含一個或多個自連接的細胞以及控制信息流動的輸入門、輸出門和遺忘門三個門限單元系統(tǒng),故其能夠很好地處理時間序列數(shù)據(jù)前后之間的依賴關系。[15]
將實證數(shù)據(jù)劃分為訓練集和測試集之后,需要選定訓練集的最后一段作為當前油價模式,而當前模式的長度確定是一個十分重要的問題,這一長度的選取將直接影響最終相似模式尋找的質(zhì)量。時間序列的長記憶性現(xiàn)象表明序列會在當前與歷史上的某些窗口具有一定相似性[16-17],故在進行模式匹配之前,應該基于時間序列的長記憶性特征進行滾動窗口長度的選擇。使用R/S分析法對油價序列的記憶性進行度量,其基本原理是通過更改時序數(shù)據(jù)的時間尺度分析其統(tǒng)計特性的變化,其具體步驟如下。
(2)計算每個子間隔的累積離散度。
(1)
(3)基于式(2)計算每個子集合的極差。
Ra=max (Xa,k)-min (Xa,k)
(2)
(4)使用標準偏差和極差來計算每個子間隔的重標度極差,即Ra/Sa。m個子集合的平均重標度極差可以表示為
(3)
(5)改變時間窗口n后,重復上述步驟計算以得到長度為n的所有子集合的(R/S)n。當n為無窮大時,存在E(R/S)n=cnH,對數(shù)處理后有l(wèi)nE(R/S)n=lnc+Hlnn,其中,Hurst指數(shù)(H)是該式的斜率,c為常數(shù)。
Hurst指數(shù)是衡量時間序列記憶性強弱的重要指標,最優(yōu)的Hurst指數(shù)可以保證這個窗口是容易被“記憶”的,即以這個窗口為一個記憶周期的可能性較大。故本文通過修改起始窗口長度這一參數(shù)以獲取不同的Hurst指數(shù),最終選取最大的Hurst指數(shù)所對應的窗口長度作為模式長度,以這一窗口長度進行窗口劃分可以獲得最強的記憶性強度,故以這一窗口長度作為記憶周期較為合理。
相似模式匹配即根據(jù)模式之間的相似性對模式進行分類的過程[9],在不同文獻中,相似性度量的方法各不相同。根據(jù)當前模式和滾動窗口操作得到的多個歷史模式,按照歷史模式與當前模式之間的相似性程度進行相似模式匹配,并采用對特定時間段加權的方式來使模型更加關注特定形狀的學習。這里選擇長度標準化的歐式距離、皮爾遜相關系數(shù)以及均方誤差作為模式之間的相似性度量方法,這3類方法都是時間序列相似性度量的常用方法。而為了保證找出相似模式的魯棒性,本文將3種方法找出的相似區(qū)段取交集處理,因為這些區(qū)段通過這3種度量方式都可以取到,故認為它們是帶有魯棒性的相似區(qū)段。
歐式距離是最常用的距離度量方式,在這里使用長度標準化的歐氏距離來進行距離度量,消除序列長度對相似性度量的影響,從而更關注形狀對于相似性的影響,其公式為
(4)
式中:TX,TY為兩條時間序列;n為它們的長度;i為序列的第i個點。
皮爾遜相關系數(shù)通常用于衡量兩個序列之間的相關程度,在本文中指的是兩個序列之間的相似性,其值介于-1與1之間,其絕對值越大表明兩條序列之間的相似性越大[13],其公式為
Pearson(TX,TY)=
(5)
均方誤差(MSE)也常用來度量兩個序列之間的差異性大小[13],是衡量“平均誤差”的一種較方便的方法,均方誤差越小,說明兩個序列之間的差異越小、越相似,其公式為
(6)
為了找出歷史中與當前模式形狀相似的模式,需要為每一種度量方法設定一個閾值,當歷史模式的度量值大于/小于這一閾值時即被認定為相似模式。對于距離指標(歐式距離與均方誤差),本文參考Zakaria等人的方法來確定閾值[14]。而對于相關系數(shù)指標,現(xiàn)有文獻沒有統(tǒng)一的標準,故最后對這一參數(shù)的取值敏感性進行分析。
利用上一步選擇出的相似模式,本步驟對訓練樣本進行加權。加權的方法為:與當前模式相似性高的窗口(相似模式)被賦予高權重,與當前模式相似性低的窗口被賦予低權重,而對樣本進行加權則通過影響機器學習模型訓練中的誤差傳播與損失下降過程實現(xiàn)。為了增強模式匹配過程的魯棒性,分別對皮爾遜相關系數(shù)、歐式距離與均方誤差3個指標進行賦權方法的定義。
對于相關系數(shù)的指標,歷史模式與當前模式之間的相關系數(shù)越高,它在訓練中的樣本權重就越高,其公式為
(7)
式中:ρi為第i個模式與當前模式之間的相關系數(shù);m代表所有歷史模式的個數(shù)。
對于距離指標(歐氏距離與均方誤差),歷史模式與當前模式之間的距離越近,其被賦予的權重應該越高,反之應該越低。以歐氏距離為例,這里采用常用的反函數(shù)加權法進行賦權,為了避免分母為零,一般在賦權時需要在分母上加上均值,具體公式為
Wi=1/[dist(pi,cs)+mean(dist(pi,cs))]
(8)
式中:pi為第i個模式;cs為當前模式;dist可以為歐式距離,也可以為MSE距離。
由于本文是時間序列預測場景,故采用長短期記憶網(wǎng)絡(LSTM)模型[15]作為油價預測的主體模型,并通過修改模型內(nèi)部結構,完成回歸預測和方向預測兩種任務。對于水平預測,模型接受帶有相似模式加權的價格序列樣本作為輸入,并通過誤差反向傳播訓練出帶有相似模式權重因素的網(wǎng)絡,完成向前預測。而對于方向預測,本文擬搭建二分類網(wǎng)絡,預測向前2、4、8期的油價比今天是漲(1)還是跌(0),故模型接受帶有權重因素的歷史漲跌(0/1)序列作為輸入,并將漲跌信息(0/1)作為預測結果,最后用精度(Accuracy)指標代替方向精度。
樣本權重對模型訓練的影響會通過損失的下降過程來實現(xiàn),算法在進行反向傳播時會把每個樣本的訓練損失乘以其對應權重,故之前被賦予特定權重的相似區(qū)段樣本則會在訓練中帶來更大的損失下降,最終影響整體模型的訓練效果,使模型更關注相似區(qū)段樣本所包含的信息。在之后的實證中也會對相似模式加權影響訓練損失這一現(xiàn)象進行驗證。
在網(wǎng)絡結構方面,為了使實驗具有可比性,回歸預測和方向預測模型主體部分都是使用LSTM單元,但在回歸網(wǎng)絡中,使用重復向量(Repeat Vector)層和時間分布(Time Distribution)層聯(lián)合產(chǎn)生序列多期預測的結果,而在分類網(wǎng)絡中則分別將它們替換為隨機失活(Dropout)層和普通的全連接層(Dense),并且在最終的輸出層中將線性激活函數(shù)替換為S型激活函數(shù)(Sigmoid)。
自2005年以來,國際原油價格受多方面因素影響而呈現(xiàn)出劇烈波動,故為了驗證所提方法的有效性,選擇Brent原油期貨價格2005年1月1日到2022年2月26日共896個周度數(shù)據(jù)進行實證分析。
按照8∶2的比例,將實驗數(shù)據(jù)劃分為訓練集與測試集,并選擇訓練集的最后一個窗口作為當前模式。使用訓練集訓練模型,并在測試集上驗證效果。為了將基于模式相似性的方法和深度學習方法融合起來,預測模型的主體使用LSTM模型,并利用找出相似模式對訓練數(shù)據(jù)進行加權訓練,最終用帶有樣本權重的LSTM模型對Brent油價進行向前預測。
在進行模式匹配之前,首先需要確定模式長度。本文使用R/S分析法,通過改變最短時間間隔這一參數(shù)得出不同起始時間間隔下的Hurst指數(shù),然后選擇Hurst指數(shù)最大的時間間隔作為窗口長度。在確定窗口長度之后,對訓練集數(shù)據(jù)進行滾動窗口操作,得到多個長度相等的滾動窗口(子序列),選擇最后一個滾動窗口作為當前模式。
接下來分別使用相關系數(shù)法、長度歸一化的歐式距離與均方誤差距離來尋找相似模式,為了解決不同時間段油價尺度不一樣的問題,統(tǒng)一將訓練集所有滾動窗口進行歸一化,這樣便可得到尺度在(0, 1)之內(nèi)、消除尺度影響而只體現(xiàn)具體形狀差異的多個模式。
在找出相似模式之后,根據(jù)各個模式與當前模式之間的相似性對訓練數(shù)據(jù)進行加權并輸入模型,訓練出帶有權重因素的預測器,然后對測試集分別進行向前2周、4周和8周的多期預測。將所提模型(3種不同的加權方式)與常見的深度學習模型LSTM、多層感知機(MLP)以及機器學習模型支持向量回歸(SVR)、決策樹(DT)、嶺回歸(Ridge)和計量模型自回歸移動平均(ARIMA)、指數(shù)平滑(ES)作對比,以驗證相似模式加權的有效性以及基于模式的預測方法的有效性。
為了比較不同模型的性能,選擇水平精度和方向精度作為評價標準。具體而言,平均絕對百分比誤差(MAPE)和均方根誤差(RMSE)被用來衡量預測結果的水平精度[18-19],其指標的具體計算方法如式(9)和(10)所示。
(9)
(10)
而對于方向精度,將油價所在時間區(qū)間內(nèi)的油價漲跌情況進行統(tǒng)計,發(fā)現(xiàn)在實驗期內(nèi)油價的漲(1)跌(0)情況接近1:1的比例,所以在分類實驗中不需要考慮類別標簽不均衡[20]的問題,這也進一步說明了使用分類精度(Accuracy)指標直接衡量方向精度的合理性。
最后,為了在統(tǒng)計學意義上證明所提方法的優(yōu)越性,本文分別對不同模型的預測結果進行DM檢驗(Diebold-Mariano Test)[21-22]。
1.長記憶性特征分析
使用經(jīng)典的R/S分析法對Brent原油價格序列的長記憶性特征進行檢驗,并通過改變R/S檢驗中的時間間隔參數(shù)來得到不同的Hurst指數(shù)。通過調(diào)節(jié)最小窗口長度計算出不同的Hurst指數(shù)來確定油價的記憶周期[23]。根據(jù)圖2結果可知,窗口的長度確定為19(周)較好,因為這時的Hurst指數(shù)最大,即以這個窗口為一個周期的記憶性較強。同時,當Hurst指數(shù)大于0.5時,時間序列數(shù)據(jù)具有長期記憶性特征[24],且Hrust指數(shù)的值越大表明數(shù)據(jù)的記憶性越強[25],油價序列的Hurst指數(shù)最大約為0.72,故這一時間序列具有正向的長期記憶性特征,即歷史序列波動會與當前序列波動形狀相似,適合于使用基于模式相似性的方法和尺度變換進行預測分析。
圖2 不同窗口長度下Brent油價序列的R/S分析結果
在確定窗口長度為19之后,對長度為717(896×0.8)的訓練集數(shù)據(jù)進行滾動窗口操作,共獲得717-19+1=699個滾動窗口,每一個滾動窗口都是一個模式。選擇訓練集最后一個滾動窗口為當前模式,其他訓練集數(shù)據(jù)為歷史模式,并從中尋找當前模式的歷史相似模式。
2.相似模式匹配
接下來,根據(jù)歷史模式與當前模式之間的相似性進行相似模式匹配。為了增強魯棒性,本文選擇長度標準化歐氏距離、相關系數(shù)、均方誤差總共3種相似性度量方式進行匹配,將每一種方式的匹配結果用于測試集的預測,并進行精度效果對比。
將序列尺度歸一化后,首先使用相關系數(shù)法尋找相似模式,相關系數(shù)大于閾值的歷史模式即被選為相似模式,不同閾值下的結果如表1所示。最終選擇相似模式的閾值為0.6,所找出的相似模式如圖3所示,虛線型為當前模式,十字花型為找出的所有歷史相似模式。然后根據(jù)每個歷史模式與當前模式之間的相似性對訓練樣本進行加權,當作之后預測模型的輸入。在后面的模型參數(shù)討論部分將對相關系數(shù)加權法閾值選擇問題進行更具體的實證分析,以驗證0.6這一閾值選擇的合理性。
表1 不同相關系數(shù)閾值下找出的相似模式個數(shù)
使用長度標準化的歐式距離和均方誤差兩個距離指標尋找當前油價模式的歷史相似模式,并按照設定的相似性閾值判定方法[14]進行相似模式的搜尋匹配。其匹配結果如圖4和圖5所示,距離小于既定閾值的時間窗口模式即被判定為當前油價模式的歷史相似模式。圖4和圖5分別展示了利用長度標準化的歐氏距離和均方誤差距離找出的相似模式結果(最后的虛線為當前模式),可以看出前者找出了14段相似模式,而后者找出了10段。這也同時說明使用不同的距離度量方式進行相似模式匹配確實會得到不同的結果。
圖4 歐式距離選出的相似模式
圖5 均方誤差距離選出的相似模式
為了增強模式匹配過程的魯棒性,接下來對3種方法下找出的相似模式取交集,以找出在任何相似性度量方式下都能夠找出的相似模式,取交集后發(fā)現(xiàn)得出的相似模式同樣如圖3所示,即與相關系數(shù)法找出的相似模式相同,故在后面預測實驗中也會重點關注相關系數(shù)法找出的相似模型區(qū)段加權后(作為魯棒相似模式)的預測性能,并分別與歐式距離、MSE距離加權的預測結果以及其他基準模型相對比,以驗證相關系數(shù)法尋找出的魯棒相似模式在預測性能上的優(yōu)越性。
接下來利用找出的相似模式對訓練樣本進行加權,訓練出帶有樣本權重因素的預測器用于后續(xù)的預測工作。
3.預測精度分析
將通過3種不同加權方式訓練出的模型與上文中提到的多種基準模型相對比,并統(tǒng)一做向前2周、4周和8周的多期預測,各個模型的預測在水平精度上的表現(xiàn)如表2所示。發(fā)現(xiàn)在向前2周、4周和8周的預測中,相關系數(shù)加權模型的所有水平指標都表現(xiàn)最好。但隨著預測步長的增長,在向前8周的預測中,相關系數(shù)指標的預測精度與歐式距離、均方誤差距離的整體水平精度相近。同時,所提出的3種相似模式加權LSTM模型的表現(xiàn)不僅比未加權的LSTM模型要好,而且比其他基準模型都要好,這不僅說明了本文所提出的“基于相似模式加權”這一技巧的有效性,而且還說明了基于模式相似性這一類預測模型較其他模型的有效性。另外,所提模型中不同相似性度量方式之間的對比說明基于相關系數(shù)搜尋的相似模式比其他度量方式所找到的相似模式質(zhì)量要高,具有更高的預測性能。
表2 預測水平精度對比
進一步地,使用LSTM分類網(wǎng)絡來預測油價的漲跌情況,并利用精度(Accuracy)指標評估方向預測的準確性。為了使實驗效果易于對比,本步驟中僅選用相關系數(shù)加權的模型作為主推模型與其他基準模型進行比較。同時,在對比模型中,剔除嶺回歸這一回歸模型。實驗結果如表3所示。
表3 預測方向精度對比
從表3中可以看出,在所有基準模型中,LSTM模型的預測方向精度最高,這是因為其本身適合于時序信息記憶問題。而所提模型在多期預測方向精度上比大部分模型要好,這是由于所提模型的主體也是LSTM模型,只是加了相似模式的樣本加權訓練的機制,且可以看出所提出的3種模型在向前2、4、和8步預測的方向精度上可以超過基準LSTM模型,這也證明了所提相似模式加權的技巧可以適用于油價方向預測的分類任務。另外,單獨對比所提模型發(fā)現(xiàn),基于相關系數(shù)加權的方法在方向精度上也優(yōu)于其他兩種度量方法,且與水平精度不同,隨著預測步長的增長,相關系數(shù)方法在水平精度上的優(yōu)勢越來越明顯。這可能是因為相關系數(shù)本身在度量相似性的時候會關注到序列之間形狀上的相似性,故在進行加權訓練時使模型學習到了形狀走向的變化規(guī)律。而距離度量方式只是單純地將與當前模式距離較小的模式找了出來,并沒有考慮形狀因素,故其在方向精度,尤其是多步多期方向精度上的表現(xiàn)不如相關系數(shù)法。
最后,為了驗證所提模型相較其他模型在統(tǒng)計學意義上的優(yōu)越性,對預測結果進行DM檢驗。由于之前的實驗證明了基于相關系數(shù)加權模型的優(yōu)越性,故為了凸顯模型性能,此處只選擇相關系數(shù)加權的所提模型進行檢驗。DM檢驗的結果如表4所示。
通過表4可以看出,在向前2周的預測中,除了ARIMA模型,其他所提出模型的預測效果在統(tǒng)計學意義上比所有基準模型都要好,第一行DM值都為負,且p值都小于0.1,在90%的置信度下可以相信模型效果比大部分基準模型要好;在向前4周的預測中,所提模型的預測效果在統(tǒng)計學意義上顯著優(yōu)于其他所有模型;在向前8周的預測中,所提出模型的預測效果在統(tǒng)計學上意義上優(yōu)于所有模型。由DM檢驗的結果可知,所提模型在各個步長任務上的預測結果均具有一定優(yōu)勢,且這種優(yōu)勢隨著預測步長的增加而變得更明顯。
雖然相關系數(shù)加權的模型在各項性能上表現(xiàn)優(yōu)越,但其閾值的選擇也是一個主要問題,因此,應對相關系數(shù)加權法確定相似模式的閾值進行討論。與“距離”方式的加權不同文獻給出的閾值的公式有所不同,相關系數(shù)加權需要對特定的閾值所找出的相似模式以及每一種閾值取值情況下的模型預測效果進行具體的靈敏度分析。相關系數(shù)閾值在不同時的模型預測效果對比如表5所示。
表5 不同相關系數(shù)閾值的預測效果
結合表1不同閾值下找出的不同相似模式段數(shù)可以看出,在向前2、4、8周預測的任務中,相關系數(shù)閾值為0.6時均取得了最好的效果,而在訓練過程中,雖然相關系數(shù)為0.5時選出的相似模式較多(15段),但其在預測實驗中的表現(xiàn)卻不如閾值為0.6時的結果。這說明加權訓練的模式越多不一定訓練過程越徹底,最后的精度也不一定越高,還要看模型在加權訓練中是否學習到信息,也就是說,雖然閾值為0.5時找出的相似模式較多,但并不是每一個模式的加權訓練都帶來了訓練損失的大幅度下降。因此相關系數(shù)方法確定相似模式的閾值為0.6是合理的。
(1)不同的滾動窗口長度會影響油價序列的記憶性強度,通過記憶性檢驗發(fā)現(xiàn),當窗口長度設定為19周時,Brent油價序列的Hurst指數(shù)可以達到最大,故以19周作為一個記憶周期可以獲得較強的記憶性效果。
(2)所提出的加權模型不僅比一般機器學習(深度學習)的模型要好,而且比未加權的模型要好,且進一步用DM檢驗驗證了這一點。這說明所提出的基于相似模式加權訓練的技巧確實可以提升模型在預測中的性能。而使用所提模型分類方法對油價變化的方向做出預測取得了較好的方向精度,這說明相似模式加權的技巧對油價方向預測(分類任務)同樣也有較好效果。
(3)對不同相似性度量方式找出的相似模式取交集,發(fā)現(xiàn)基于相關系數(shù)找出的相似模式更為魯棒,且其預測能力比歐式距離和MSE距離找出的更強。
(4)通過對相關系數(shù)閾值設定的討論可以看出,所找出的相似模式的個數(shù)確實能影響訓練過程與最終的模型效果,但并不是加權相似模式越多精度越高,具體還要看每一段模式中加權是否能帶來信息。