基于支持向量機(jī)回歸的房地產(chǎn)單指標(biāo)預(yù)測(cè)

2011-07-24 09:35:40王平，師青

統(tǒng)計(jì)與決策 2011年21期

王平，師青

（1.武漢工程大學(xué) 管理學(xué)院，武漢430071；2.中南財(cái)經(jīng)政法大學(xué) 公共管理學(xué)院，武漢430073）

0 引言

支持向量機(jī)[1]是近年來(lái)發(fā)展起來(lái)的一種有效的非線性問(wèn)題處理工具,它以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為目標(biāo)，因此能夠克服BP神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)統(tǒng)計(jì)方法的諸多缺點(diǎn),在訓(xùn)練樣本有限的情況下,可很好地控制學(xué)習(xí)機(jī)器的推廣能力。支持向量機(jī)作為一種新的機(jī)器學(xué)習(xí)方法，其理論體系完備，而且能夠逼近任意復(fù)雜系統(tǒng)，因此在模式識(shí)別和數(shù)據(jù)挖掘領(lǐng)域得到了廣泛的應(yīng)用，但用于對(duì)復(fù)雜的時(shí)間序列進(jìn)行預(yù)測(cè)則不多見(jiàn)，尤其是在房地產(chǎn)預(yù)警領(lǐng)域的運(yùn)用目前還未曾見(jiàn)到，本文將支持向量機(jī)回歸方法用來(lái)進(jìn)行房地產(chǎn)單指標(biāo)預(yù)測(cè)，并和BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)法進(jìn)行比較。

1 理論分析

1.1 支持向量機(jī)回歸

設(shè)線性函數(shù)為f(x)=(wx)+b,則對(duì)ε不敏感函數(shù)逼近問(wèn)題可轉(zhuǎn)化為以下優(yōu)化問(wèn)題:

其中C=1/λ，為便于求解，將該二次規(guī)劃（優(yōu)化）問(wèn)題轉(zhuǎn)換為其對(duì)偶問(wèn)題：

對(duì)于非線性逼近,基本思想是先通過(guò)非線性變換x→φ(x),將輸入空間映射成高維的特征空間(Hilbert空間)[3],然后在特征空間中進(jìn)行線性逼近,即f(x)=(w·φ(x))+b，這樣目標(biāo)函數(shù)式就變?yōu)椋?/p>

高維特征變換空間的內(nèi)積運(yùn)算即為支持向量機(jī)的核函數(shù)：

通過(guò)上面的分析可知，要求變量在高維空間的內(nèi)積，只需在原低維空間計(jì)算其核函數(shù)即可，對(duì)凸二次規(guī)劃問(wèn)題進(jìn)行求解，可得到如下非線性映射：

通常,上式中系數(shù)(α-α?)只有一小部分不等于0,而這些系數(shù)不為0所對(duì)應(yīng)的數(shù)據(jù)點(diǎn)就被稱(chēng)為支持向量。

1.2 時(shí)序相空間重構(gòu)

由Kolmogro定理可知，對(duì)于任意一個(gè)時(shí)間序列，我們都可以把它看成一個(gè)系統(tǒng)，其輸入、輸出由非線性機(jī)制所決定。從這個(gè)意義上說(shuō)，對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)，實(shí)質(zhì)上就是根據(jù)歷史數(shù)據(jù)求出映射f:Rm→Rn，然后用該映射來(lái)逼近數(shù)據(jù)中的非線性機(jī)制F，因此映射f就可以作為預(yù)測(cè)器使用[4]。

給定一個(gè)時(shí)長(zhǎng)為N的時(shí)間序列{xt}，其中xt=x(t)，t=1,2,…，N，由于系統(tǒng)的演化規(guī)律可以在一個(gè)高維的相空間中恢復(fù)，因此，我們可以在短期內(nèi)對(duì)時(shí)間序列{xt}進(jìn)行預(yù)測(cè)。如果在某種條件下對(duì)滿(mǎn)足特定條件的m，可以找到一個(gè)光滑映射f:Rm→R,使下面的等式成立：

xt=f(xt-m，xt-m+1，…,xt-1)

那么，我們把m稱(chēng)作嵌入維，而最小嵌入維則是使上式成立的最小的m取值。對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)，就是根據(jù)N-m 個(gè)Rm中的點(diǎn)Xt=(xt-m，xt-m+1，… ,xt-1)和Yt=xt組成樣本對(duì)（Xi，Yi），（i=m+1，m+2，…，N），利用這些樣本估計(jì)映射f，從而給出Xn+1的近似值。

為了降低建模誤差，對(duì)原始數(shù)據(jù)首先進(jìn)行零處理以及數(shù)據(jù)的歸一化，然后根據(jù)Takens理論進(jìn)行相空間重構(gòu)操作，也就是把一維的時(shí)間序列轉(zhuǎn)化成矩陣形式，得出數(shù)據(jù)間的關(guān)聯(lián)關(guān)系，從而能得到盡可能多的信息量。為了使重構(gòu)的相空間能較充分而細(xì)致的反映系統(tǒng)運(yùn)動(dòng)特征，恰當(dāng)?shù)倪x取嵌入維m的大小是相空間重構(gòu)的關(guān)鍵。

這樣，原始的一維時(shí)間序列經(jīng)過(guò)變形后可以得到用于預(yù)測(cè)學(xué)習(xí)的樣本。

2 基于SVMR的模型構(gòu)建

給定時(shí)間序列{xt}，其中xt=x(t),t=1,2,…,N，我們可以把數(shù)據(jù)分成兩部分，一部分用于模型訓(xùn)練，而另一部分則用來(lái)測(cè)試。其中，我們把前Ntr個(gè)數(shù)據(jù)用來(lái)做訓(xùn)練，而后NNtr個(gè)數(shù)據(jù)用來(lái)做檢驗(yàn)和測(cè)試。按照嵌入維數(shù)m進(jìn)行滑動(dòng)，則可以得到N－m個(gè)Rm中的點(diǎn)，也就是Xt={xt－m,xt－m+1,…,xt－1}及其映射值Yt=xt組成的樣本對(duì)(Xi,Yi),(i=m+1,m+2,...,N),對(duì)前Ntr－m個(gè)數(shù)據(jù)進(jìn)行訓(xùn)練，可以對(duì)映射f:Rm→R進(jìn)行模擬估計(jì)，而后N－Ntr個(gè)數(shù)據(jù)則用來(lái)做測(cè)試，用來(lái)對(duì)建立的回歸模型的預(yù)測(cè)效果進(jìn)行檢驗(yàn)。根據(jù)訓(xùn)練樣本建立的SVM回歸函數(shù)為：

則可以得到一步預(yù)測(cè)模型為：

而進(jìn)一步則L步預(yù)測(cè)模型為：

對(duì)于以上建立的基于支持向量機(jī)回歸的時(shí)間序列預(yù)測(cè)模型，首先要確定時(shí)間序列嵌入維數(shù)m，而m的確定目前尚未完備的理論基礎(chǔ)，一般都是通過(guò)試驗(yàn)選擇使預(yù)測(cè)誤差最小的m，其次就是要確定支持向量機(jī)的主要參數(shù)，包括核函數(shù)形式的確定、模型正則化參數(shù)C和回歸逼近誤差控制參數(shù)g。而這些參數(shù)一旦確定后，支持向量數(shù)也即隱層節(jié)點(diǎn)數(shù)SV則可以自動(dòng)確定該預(yù)測(cè)模型的網(wǎng)絡(luò)結(jié)構(gòu)，連接權(quán)也可由算法自動(dòng)確定[3]。

對(duì)構(gòu)建的支持向量回歸預(yù)測(cè)模型可以用如下統(tǒng)計(jì)量檢驗(yàn)其擬合效果和預(yù)測(cè)。

平均絕對(duì)百分誤差：

MAPE為相對(duì)數(shù)，一般而言，在時(shí)間序列預(yù)測(cè)中MAPE的值落在20%-40%就能夠滿(mǎn)足要求，而在具體分析時(shí)，其值越小，說(shuō)明預(yù)測(cè)值和實(shí)際值越接近，預(yù)測(cè)模型的精度越高。

3 實(shí)證分析

根據(jù)前面建立的支持向量機(jī)回歸預(yù)測(cè)模型，我們可以對(duì)組成房地產(chǎn)預(yù)警系統(tǒng)的各項(xiàng)指標(biāo)的未來(lái)值進(jìn)行短期預(yù)測(cè)，以武漢市房地產(chǎn)為例利用WEKA軟件進(jìn)行分析，由于組成房地產(chǎn)預(yù)警指標(biāo)體系的指標(biāo)較多，考慮到篇幅，僅以土地轉(zhuǎn)讓面積為例進(jìn)行預(yù)測(cè)。

3.1 數(shù)據(jù)預(yù)處理

在用支持向量機(jī)回歸模型做預(yù)測(cè)前，必須對(duì)指標(biāo)進(jìn)行歸一化處理，使指標(biāo)值在[-1 1]內(nèi)變動(dòng),這樣使得處理后的數(shù)據(jù)更容易訓(xùn)練和學(xué)習(xí)，本文的數(shù)據(jù)因?yàn)樵谇懊孢M(jìn)行指標(biāo)選擇時(shí)已經(jīng)進(jìn)行了處理，所以在這可直接進(jìn)行試驗(yàn)。

3.2 確定訓(xùn)練樣本和測(cè)試樣本

根據(jù)前面分析，要對(duì)土地轉(zhuǎn)讓面積2010年的增長(zhǎng)率進(jìn)行預(yù)測(cè)，首先要對(duì)增長(zhǎng)率進(jìn)行相間重構(gòu)，嵌入維數(shù)m考慮到數(shù)據(jù)的個(gè)數(shù)不多，參考了其他文獻(xiàn)[3-4]，在多次實(shí)驗(yàn)的基礎(chǔ)上，確定為m=4，也就是從第一年開(kāi)始，前四年作為輸入，第五年為輸出，接著滑動(dòng)窗口，從第二年開(kāi)始，2、3、4、5年作為輸入，第六年作為輸出，如此循環(huán)下去，則共有10組數(shù)據(jù)。在建模時(shí)，為了保證模型的泛化性，把樣本分成5份，采用5折交叉驗(yàn)證。

3.3 參數(shù)的選擇與誤差分析

表1 土地轉(zhuǎn)讓面積增長(zhǎng)率實(shí)際值與預(yù)測(cè)值比較（%）

對(duì)以上10組數(shù)據(jù)建立模型，RBF函數(shù)因其優(yōu)秀的局部逼近特性在SVM中應(yīng)用最為廣泛，本文的核函數(shù)選擇RBF函數(shù)，經(jīng)過(guò)反復(fù)試驗(yàn)，確定C=1，g=0.008，并進(jìn)行誤差分析和檢驗(yàn)。我們對(duì)同一組數(shù)據(jù)分別用BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)這兩種方法來(lái)建立模型，具體比較結(jié)果如表1。

3.4 單指標(biāo)預(yù)測(cè)

利用支持向量機(jī)對(duì)已知的歷史數(shù)據(jù)進(jìn)行學(xué)習(xí)，建立模型，通過(guò)檢驗(yàn)滿(mǎn)足誤差要求后就可以利用建好的模型來(lái)對(duì)該指標(biāo)的未來(lái)值進(jìn)行預(yù)測(cè)，按照同樣的格式對(duì)數(shù)據(jù)進(jìn)行整理，即根據(jù)2010年之前的前四年的增長(zhǎng)率來(lái)推算2010年土地轉(zhuǎn)讓面積增長(zhǎng)率，支持向量機(jī)會(huì)根據(jù)前面的模型，進(jìn)行自動(dòng)學(xué)習(xí)，得出2010年土地轉(zhuǎn)讓面積增長(zhǎng)率的值，通過(guò)weka軟件的運(yùn)算結(jié)果，可得到2010年武漢市土地轉(zhuǎn)讓面積增長(zhǎng)率為15.6%。

4 研究結(jié)論

由預(yù)測(cè)結(jié)果得知,2010年武漢市土地增長(zhǎng)率和2009年相比，將會(huì)上升，這與武漢市房地產(chǎn)發(fā)展的實(shí)際相符合，MAPE為16.6%，精度滿(mǎn)足預(yù)測(cè)要求，且精度明顯高于BP神經(jīng)網(wǎng)絡(luò),，說(shuō)明基于支持向量機(jī)回歸的房地產(chǎn)單指標(biāo)預(yù)測(cè)模型表現(xiàn)出了較強(qiáng)的泛化能力,得到令人滿(mǎn)意的結(jié)果。

[1] Tay FEH,Cao LJ.Application of Support Vector Machines in Financial Forecasting[J].Omega,2001,9(4).

[2] 許建華,張學(xué)工,李衍達(dá).支持向量機(jī)的新發(fā)展[J].控制與決策,2004,

19(5).

[3] 崔萬(wàn)照,朱長(zhǎng)純,保文信星.混沌時(shí)間序列的支持向量機(jī)測(cè)定與預(yù)測(cè)[J].物理學(xué)報(bào),2004,53(10).

[4] 周佩玲等.相空間重構(gòu)在股票短期預(yù)測(cè)中的應(yīng)用[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),1999,(29).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡