王 平,師 青
(1.武漢工程大學(xué) 管理學(xué)院,武漢430071;2.中南財(cái)經(jīng)政法大學(xué) 公共管理學(xué)院,武漢430073)
支持向量機(jī)[1]是近年來(lái)發(fā)展起來(lái)的一種有效的非線性問(wèn)題處理工具,它以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為目標(biāo),因此能夠克服BP神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)統(tǒng)計(jì)方法的諸多缺點(diǎn),在訓(xùn)練樣本有限的情況下,可很好地控制學(xué)習(xí)機(jī)器的推廣能力。支持向量機(jī)作為一種新的機(jī)器學(xué)習(xí)方法,其理論體系完備,而且能夠逼近任意復(fù)雜系統(tǒng),因此在模式識(shí)別和數(shù)據(jù)挖掘領(lǐng)域得到了廣泛的應(yīng)用,但用于對(duì)復(fù)雜的時(shí)間序列進(jìn)行預(yù)測(cè)則不多見(jiàn),尤其是在房地產(chǎn)預(yù)警領(lǐng)域的運(yùn)用目前還未曾見(jiàn)到,本文將支持向量機(jī)回歸方法用來(lái)進(jìn)行房地產(chǎn)單指標(biāo)預(yù)測(cè),并和BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)法進(jìn)行比較。
設(shè)線性函數(shù)為f(x)=(wx)+b,則對(duì)ε不敏感函數(shù)逼近問(wèn)題可轉(zhuǎn)化為以下優(yōu)化問(wèn)題:
其中C=1/λ,為便于求解,將該二次規(guī)劃(優(yōu)化)問(wèn)題轉(zhuǎn)換為其對(duì)偶問(wèn)題:
對(duì)于非線性逼近,基本思想是先通過(guò)非線性變換x→φ(x),將輸入空間映射成高維的特征空間(Hilbert空間)[3],然后在特征空間中進(jìn)行線性逼近,即f(x)=(w·φ(x))+b,這樣目標(biāo)函數(shù)式就變?yōu)椋?/p>
高維特征變換空間的內(nèi)積運(yùn)算即為支持向量機(jī)的核函數(shù):
通過(guò)上面的分析可知,要求變量在高維空間的內(nèi)積,只需在原低維空間計(jì)算其核函數(shù)即可,對(duì)凸二次規(guī)劃問(wèn)題進(jìn)行求解,可得到如下非線性映射:
通常,上式中系數(shù)(α-α?)只有一小部分不等于0,而這些系數(shù)不為0所對(duì)應(yīng)的數(shù)據(jù)點(diǎn)就被稱(chēng)為支持向量。
由Kolmogro定理可知,對(duì)于任意一個(gè)時(shí)間序列,我們都可以把它看成一個(gè)系統(tǒng),其輸入、輸出由非線性機(jī)制所決定。從這個(gè)意義上說(shuō),對(duì)時(shí)間序列進(jìn)行預(yù)測(cè),實(shí)質(zhì)上就是根據(jù)歷史數(shù)據(jù)求出映射f:Rm→Rn,然后用該映射來(lái)逼近數(shù)據(jù)中的非線性機(jī)制F,因此映射f就可以作為預(yù)測(cè)器使用[4]。
給定一個(gè)時(shí)長(zhǎng)為N的時(shí)間序列{xt},其中xt=x(t),t=1,2,…,N,由于系統(tǒng)的演化規(guī)律可以在一個(gè)高維的相空間中恢復(fù),因此,我們可以在短期內(nèi)對(duì)時(shí)間序列{xt}進(jìn)行預(yù)測(cè)。如果在某種條件下對(duì)滿(mǎn)足特定條件的m,可以找到一個(gè)光滑映射f:Rm→R,使下面的等式成立:
xt=f(xt-m,xt-m+1,…,xt-1)
那么,我們把m稱(chēng)作嵌入維,而最小嵌入維則是使上式成立的最小的m取值。對(duì)時(shí)間序列進(jìn)行預(yù)測(cè),就是根據(jù)N-m 個(gè)Rm中的點(diǎn)Xt=(xt-m,xt-m+1,… ,xt-1)和Yt=xt組成樣本對(duì)(Xi,Yi),(i=m+1,m+2,…,N),利用這些樣本估計(jì)映射f,從而給出Xn+1的近似值。
為了降低建模誤差,對(duì)原始數(shù)據(jù)首先進(jìn)行零處理以及數(shù)據(jù)的歸一化,然后根據(jù)Takens理論進(jìn)行相空間重構(gòu)操作,也就是把一維的時(shí)間序列轉(zhuǎn)化成矩陣形式,得出數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,從而能得到盡可能多的信息量。為了使重構(gòu)的相空間能較充分而細(xì)致的反映系統(tǒng)運(yùn)動(dòng)特征,恰當(dāng)?shù)倪x取嵌入維m的大小是相空間重構(gòu)的關(guān)鍵。
這樣,原始的一維時(shí)間序列經(jīng)過(guò)變形后可以得到用于預(yù)測(cè)學(xué)習(xí)的樣本。
給定時(shí)間序列{xt},其中xt=x(t),t=1,2,…,N,我們可以把數(shù)據(jù)分成兩部分,一部分用于模型訓(xùn)練,而另一部分則用來(lái)測(cè)試。其中,我們把前Ntr個(gè)數(shù)據(jù)用來(lái)做訓(xùn)練,而后NNtr個(gè)數(shù)據(jù)用來(lái)做檢驗(yàn)和測(cè)試。按照嵌入維數(shù)m進(jìn)行滑動(dòng),則可以得到N-m個(gè)Rm中的點(diǎn),也就是Xt={xt-m,xt-m+1,…,xt-1}及其映射值Yt=xt組成的樣本對(duì)(Xi,Yi),(i=m+1,m+2,...,N),對(duì)前Ntr-m個(gè)數(shù)據(jù)進(jìn)行訓(xùn)練,可以對(duì)映射f:Rm→R進(jìn)行模擬估計(jì),而后N-Ntr個(gè)數(shù)據(jù)則用來(lái)做測(cè)試,用來(lái)對(duì)建立的回歸模型的預(yù)測(cè)效果進(jìn)行檢驗(yàn)。根據(jù)訓(xùn)練樣本建立的SVM回歸函數(shù)為:
則可以得到一步預(yù)測(cè)模型為:
而進(jìn)一步則L步預(yù)測(cè)模型為:
對(duì)于以上建立的基于支持向量機(jī)回歸的時(shí)間序列預(yù)測(cè)模型,首先要確定時(shí)間序列嵌入維數(shù)m,而m的確定目前尚未完備的理論基礎(chǔ),一般都是通過(guò)試驗(yàn)選擇使預(yù)測(cè)誤差最小的m,其次就是要確定支持向量機(jī)的主要參數(shù),包括核函數(shù)形式的確定、模型正則化參數(shù)C和回歸逼近誤差控制參數(shù)g。而這些參數(shù)一旦確定后,支持向量數(shù)也即隱層節(jié)點(diǎn)數(shù)SV則可以自動(dòng)確定該預(yù)測(cè)模型的網(wǎng)絡(luò)結(jié)構(gòu),連接權(quán)也可由算法自動(dòng)確定[3]。
對(duì)構(gòu)建的支持向量回歸預(yù)測(cè)模型可以用如下統(tǒng)計(jì)量檢驗(yàn)其擬合效果和預(yù)測(cè)。
平均絕對(duì)百分誤差:
MAPE為相對(duì)數(shù),一般而言,在時(shí)間序列預(yù)測(cè)中MAPE的值落在20%-40%就能夠滿(mǎn)足要求,而在具體分析時(shí),其值越小,說(shuō)明預(yù)測(cè)值和實(shí)際值越接近,預(yù)測(cè)模型的精度越高。
根據(jù)前面建立的支持向量機(jī)回歸預(yù)測(cè)模型,我們可以對(duì)組成房地產(chǎn)預(yù)警系統(tǒng)的各項(xiàng)指標(biāo)的未來(lái)值進(jìn)行短期預(yù)測(cè),以武漢市房地產(chǎn)為例利用WEKA軟件進(jìn)行分析,由于組成房地產(chǎn)預(yù)警指標(biāo)體系的指標(biāo)較多,考慮到篇幅,僅以土地轉(zhuǎn)讓面積為例進(jìn)行預(yù)測(cè)。
在用支持向量機(jī)回歸模型做預(yù)測(cè)前,必須對(duì)指標(biāo)進(jìn)行歸一化處理,使指標(biāo)值在[-1 1]內(nèi)變動(dòng),這樣使得處理后的數(shù)據(jù)更容易訓(xùn)練和學(xué)習(xí),本文的數(shù)據(jù)因?yàn)樵谇懊孢M(jìn)行指標(biāo)選擇時(shí)已經(jīng)進(jìn)行了處理,所以在這可直接進(jìn)行試驗(yàn)。
根據(jù)前面分析,要對(duì)土地轉(zhuǎn)讓面積2010年的增長(zhǎng)率進(jìn)行預(yù)測(cè),首先要對(duì)增長(zhǎng)率進(jìn)行相間重構(gòu),嵌入維數(shù)m考慮到數(shù)據(jù)的個(gè)數(shù)不多,參考了其他文獻(xiàn)[3-4],在多次實(shí)驗(yàn)的基礎(chǔ)上,確定為m=4,也就是從第一年開(kāi)始,前四年作為輸入,第五年為輸出,接著滑動(dòng)窗口,從第二年開(kāi)始,2、3、4、5年作為輸入,第六年作為輸出,如此循環(huán)下去,則共有10組數(shù)據(jù)。在建模時(shí),為了保證模型的泛化性,把樣本分成5份,采用5折交叉驗(yàn)證。
表1 土地轉(zhuǎn)讓面積增長(zhǎng)率實(shí)際值與預(yù)測(cè)值比較 (%)
對(duì)以上10組數(shù)據(jù)建立模型,RBF函數(shù)因其優(yōu)秀的局部逼近特性在SVM中應(yīng)用最為廣泛,本文的核函數(shù)選擇RBF函數(shù),經(jīng)過(guò)反復(fù)試驗(yàn),確定C=1,g=0.008,并進(jìn)行誤差分析和檢驗(yàn)。我們對(duì)同一組數(shù)據(jù)分別用BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)這兩種方法來(lái)建立模型,具體比較結(jié)果如表1。
利用支持向量機(jī)對(duì)已知的歷史數(shù)據(jù)進(jìn)行學(xué)習(xí),建立模型,通過(guò)檢驗(yàn)滿(mǎn)足誤差要求后就可以利用建好的模型來(lái)對(duì)該指標(biāo)的未來(lái)值進(jìn)行預(yù)測(cè),按照同樣的格式對(duì)數(shù)據(jù)進(jìn)行整理,即根據(jù)2010年之前的前四年的增長(zhǎng)率來(lái)推算2010年土地轉(zhuǎn)讓面積增長(zhǎng)率,支持向量機(jī)會(huì)根據(jù)前面的模型,進(jìn)行自動(dòng)學(xué)習(xí),得出2010年土地轉(zhuǎn)讓面積增長(zhǎng)率的值,通過(guò)weka軟件的運(yùn)算結(jié)果,可得到2010年武漢市土地轉(zhuǎn)讓面積增長(zhǎng)率為15.6%。
由預(yù)測(cè)結(jié)果得知,2010年武漢市土地增長(zhǎng)率和2009年相比,將會(huì)上升,這與武漢市房地產(chǎn)發(fā)展的實(shí)際相符合,MAPE為16.6%,精度滿(mǎn)足預(yù)測(cè)要求,且精度明顯高于BP神經(jīng)網(wǎng)絡(luò),,說(shuō)明基于支持向量機(jī)回歸的房地產(chǎn)單指標(biāo)預(yù)測(cè)模型表現(xiàn)出了較強(qiáng)的泛化能力,得到令人滿(mǎn)意的結(jié)果。
[1] Tay FEH,Cao LJ.Application of Support Vector Machines in Financial Forecasting[J].Omega,2001,9(4).
[2] 許建華,張學(xué)工,李衍達(dá).支持向量機(jī)的新發(fā)展[J].控制與決策,2004,
19(5).
[3] 崔萬(wàn)照,朱長(zhǎng)純,保文信星.混沌時(shí)間序列的支持向量機(jī)測(cè)定與預(yù)測(cè)[J].物理學(xué)報(bào),2004,53(10).
[4] 周佩玲等.相空間重構(gòu)在股票短期預(yù)測(cè)中的應(yīng)用[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),1999,(29).