任梓銘
摘要:房價(jià)的漲跌直接影響民眾的生活質(zhì)量。根據(jù)房價(jià)的歷史數(shù)據(jù)對未來房價(jià)走勢進(jìn)行預(yù)測分析,對政府制定住房政策,指導(dǎo)房地產(chǎn)行業(yè)發(fā)展以及對公民選擇合適的時(shí)機(jī)購買住房都具有重要的意義。首先研究了北京各個(gè)城區(qū)平均房價(jià)的縱向時(shí)變特性,建立了回歸模型,利用線性函數(shù)和三角函數(shù),刻畫房價(jià)增長趨勢和周期性波動趨勢,得到了很好的擬合和預(yù)測性能。之后進(jìn)一步對數(shù)據(jù)集進(jìn)行處理、并采用灰色預(yù)測GM(1,1)模型進(jìn)行了預(yù)測,得到了更加精準(zhǔn)的預(yù)測結(jié)果。
關(guān)鍵詞:回歸分析模型;灰色預(yù)測模型;房價(jià)影響因素
中圖分類號:F23文獻(xiàn)標(biāo)識碼:Adoi:10.19311/j.cnki.1672-3198.2019.10.047
1前言
房價(jià)的高低和漲跌與我們的生活息息相關(guān),是政府關(guān)心的重大民生問題,影響著每一位公民的生活質(zhì)量。近年來,北京市的房價(jià)節(jié)節(jié)攀升,愈漲愈高。房價(jià)體現(xiàn)著房子自身所具有的價(jià)值和市民對于房子的需求,也代表著房價(jià)市場發(fā)展的趨勢。對于如何做好房價(jià)的預(yù)測,一直是百姓、政府、國內(nèi)外的專家學(xué)者所關(guān)注的重要問題。
國內(nèi)的一些學(xué)者已經(jīng)對相關(guān)方面的問題進(jìn)行了研究,研究學(xué)者提出了一些基于回歸模型的方法,來自云南省人民政府政策研究室的聶元飛等人通過OLS等方式研究了GDP、CPI、利率、居民可支配收入等對于房價(jià)的影響,取得了比較良好的預(yù)測效果。鐘麗燕等人利用多元線性回歸模型進(jìn)行房價(jià)數(shù)據(jù)擬合,其模型中采用的變量對我們的研究有所啟示,但多元線形模型把各變量對于房價(jià)的影響的刻畫較為僵化,忽略了一些因素對房價(jià)非線性疊加的影響。文獻(xiàn)[5]提出了一種基于信號處理思想的方法,也就是基于馬爾科夫模型的房價(jià)預(yù)測方法。這種方法并沒有顯性的考慮房價(jià)的多個(gè)干擾因素。本文在前人研究的基礎(chǔ)上,利用回歸模型分析了北京市房價(jià)隨時(shí)間變化的規(guī)律和特性,并進(jìn)一步采用灰色預(yù)測GM(1,1)模型進(jìn)行預(yù)測,得到了更精準(zhǔn)的結(jié)果。
2數(shù)據(jù)收集及預(yù)處理
本文數(shù)據(jù)來自于鏈家和北京市統(tǒng)計(jì)局等官方機(jī)構(gòu),并利用了Hengshu Zhu等人[6]研究的鏈家網(wǎng)于2011年至2013年的80000余條成交記錄數(shù)據(jù)。成交記錄數(shù)據(jù)包括每個(gè)房屋的教育時(shí)間、成交價(jià)格、面積、樓層等十余個(gè)維度。
本文將數(shù)據(jù)按所在行政區(qū)而進(jìn)行劃分,由于東城區(qū)等部分城區(qū)數(shù)據(jù)量過小,我們選擇了西城、海淀、豐臺、朝陽、大興五個(gè)數(shù)據(jù)充足,數(shù)據(jù)量較大的城區(qū)進(jìn)行研究。
在數(shù)據(jù)預(yù)處理方面進(jìn)行如下操作:
(1)由于北京市各城區(qū)房價(jià)市場存在巨大差異,為避免城區(qū)對于房價(jià)的影響,本文將分不同城區(qū)對房價(jià)建立模型并進(jìn)行預(yù)測。
(2)取各城區(qū)的房價(jià)數(shù)據(jù),并對每月的單位房價(jià)以百元為單位向下取整后取平均值作為房價(jià)模型公式中的因變量。此舉可以去除由于房子個(gè)體差異造成的房價(jià)差別。
(3)以2011年10月為起始月,將時(shí)間月份進(jìn)行編號從1開始,每過一個(gè)月就增加1,將該自然數(shù)組作為模型公式中的時(shí)間變量。
3基于回歸模型的房價(jià)預(yù)測
由于數(shù)據(jù)量巨大,本文分別用西城區(qū)、海淀區(qū)的數(shù)據(jù)進(jìn)行回歸分析,此處以海淀區(qū)和西城區(qū)為例建立時(shí)間序列的房價(jià)預(yù)測模型。
3.1訓(xùn)練集與測試集選取與模型評價(jià)標(biāo)準(zhǔn)
此時(shí)間序列預(yù)測模型的研究對象為北京市海淀區(qū)2011年10月到2013年11月的房價(jià)變化。根據(jù)海淀區(qū)每月的房價(jià)數(shù)據(jù)量等因素綜合考慮,如下劃分訓(xùn)練集與測試集:
(1)訓(xùn)練集:2011年10月到2013年06月的每月平均房價(jià)。
(2)測試集:2013年07月到2013年10月的每月平均房價(jià)。
由此劃分后,80%的數(shù)據(jù)用于訓(xùn)練模型,20%的數(shù)據(jù)用于測試驗(yàn)證模型。
3.2建立房價(jià)時(shí)間變量模型
通過對數(shù)據(jù)進(jìn)行作圖觀察,將房價(jià)隨時(shí)間的變化趨勢分為兩個(gè)特征:
(1)線性增長特征:在研究時(shí)間范圍內(nèi),北京的房價(jià)隨時(shí)間變化成正相關(guān)的增長,長期的增長幅度基本保持穩(wěn)定,因此利用線性特征表達(dá)式刻畫房價(jià)的增長特征。
(2)周期性變化特征:房價(jià)在線性增長之外,還會隨著月份的變化而呈現(xiàn)一定的波動性,并且體現(xiàn)出以1年為周期的波動性變化。這也與2011-2013年范圍內(nèi)夏季交易量上漲、冬季交易量下降的規(guī)律一致。因此利用三角函數(shù)特征表達(dá)式刻畫房價(jià)的周期性變化特征。
本文選用三角函數(shù)的形式來刻畫這一特征,建立如下包含周期函數(shù)的房價(jià)雖時(shí)間變化的預(yù)測模型:
Puni=c0+c1·sin(ωDcon+φ)+c2·Dcon
其中,a、b、c、ω、φ均為待擬合的常數(shù)。考慮到房價(jià)隨月份變化的周期為1年,所以將ω設(shè)為 π6.φ在求解模型的過程中根據(jù)觀察房價(jià)走勢確定范圍,并不斷調(diào)整最終確定擬合效果最好的φ的取值。
3.3對海淀區(qū)房價(jià)時(shí)序預(yù)測模型
通過海淀區(qū)的房價(jià)數(shù)據(jù)對房價(jià)時(shí)變預(yù)測模型進(jìn)行大數(shù)據(jù)量的分析、處理與擬合,得到如下結(jié)果:
c0=229.1519,c1=13.1020,c2=10.9073
經(jīng)對φ取值的不斷調(diào)整與嘗試,我們最終確定φ=-127π。此時(shí)模型的擬合優(yōu)度R2=0.93。這一擬合精度說明本文提出的基于sin函數(shù)的周期性房價(jià)時(shí)變模型能夠很好的反映房價(jià)數(shù)據(jù)在時(shí)間維度上的變化規(guī)律。
通過在海淀區(qū)的測試數(shù)據(jù)集上進(jìn)行測試,該模型在測試集上的結(jié)果如圖1所示。
經(jīng)計(jì)算,此時(shí)該模型在測試集上的均方誤差為559,相比于20000~60000元的房價(jià)數(shù)值,預(yù)測均方誤差已經(jīng)很小,這說明提出的房價(jià)時(shí)變預(yù)測模型具有比較好的泛化能力,能夠較好的捕捉到房價(jià)隨著時(shí)間的近似變化趨勢。
4基于灰色預(yù)測模型的房價(jià)預(yù)測
進(jìn)一步地,本文建立灰色預(yù)測模型,在對數(shù)據(jù)進(jìn)行歸一化的基礎(chǔ)上,嘗試進(jìn)行更加優(yōu)化、精準(zhǔn)的時(shí)間序列預(yù)測。灰色系統(tǒng)理論是既含已知信息又含未知信息的理論體系。該模型計(jì)算是一個(gè)隨機(jī)性不斷被弱化,確定性不斷增強(qiáng)的過程,該特征使得它在解決樣本不夠大,需要通過部分已知信息推知變化趨勢的實(shí)際問題上較為合適。
將原始數(shù)據(jù)列房價(jià)記做:x(0)=(x(0)(1),x(0)(2),……,x(0)(n)),n為數(shù)據(jù)個(gè)數(shù)。
第一步,記x(1)為生成數(shù)據(jù)列:x(1)=(x(1)(1),x(1)(2),……,x(1)(n)),其中x(1)(t)表示對前幾項(xiàng)數(shù)據(jù)的累加,即x(1)(t)=∑tk=1x(1)(k)。
第二步,對x(1)(t)建立一階線性微分方程:dx(1)dt+ax(1)=b,其中a和b分別表示發(fā)展系數(shù)和灰色作用量。a取值區(qū)間為(-2,2)。記a,b組成的參數(shù)矩陣為a'=a
b。求出a和b,就能求出x(1)(t),進(jìn)而能求出x(0)的預(yù)測值。
第三步,對累加生成的數(shù)據(jù)列做均值,生成B與常數(shù)項(xiàng)向量Yn,即:
B=0.5(x(1)(1)+x(1)(2))
0.5(x(1)(2)+x(1)(4))
……
0.5(x(1)(n-1)+x(1)(n))
Yn=(x(0)(2),x(0)(3),……,x(0)(n))T
第四步,用最小二乘法,通過最小誤差的平方和尋找數(shù)據(jù)函數(shù)的最佳匹配求解灰參數(shù)a',a'=a
b=(BTB)-1BTYn。
第五步,將灰色參數(shù)a'代入dx(1)dt+ax(1)=b求解,得:
x'(1)(t+1)=(x(0)(1)-ba)e-at+ba
第六步,對函數(shù)表達(dá)式x'(1)(t+1)及x'(1)(t)進(jìn)行離散,并將兩者做差值還原原序列,得到近似數(shù)據(jù)序列x'(0)(t+1)=x'(1)(t+1)-x'(1)(t)。
最后,可以利用模型預(yù)測,得到預(yù)測結(jié)果:
x'(0)=[x'(0)(1),x'(0)(2),…,x'(0)(n),x'(0)(n+1),…,x'(0)(n+m)]
綜上所述,可以看出灰色模型計(jì)算原理很清晰,但計(jì)算量較大,本文通過matlab編程實(shí)現(xiàn)模型求解。得到在部分城區(qū)的測試集結(jié)果,與基于回歸模型的預(yù)測結(jié)果對比:
(1)海淀區(qū):回歸模型 MSE = 55.9,灰色預(yù)測模型 MSE = 78.3。
(2)西城區(qū):回歸模型 MSE = 147.1,灰色預(yù)測模型MSE = 93.6。
(3)朝陽區(qū):回歸模型 MSE = 122.5,灰色預(yù)測模型 MSE = 89.3。
由此可見,只有在海淀區(qū)的預(yù)測中,灰色預(yù)測模型的性能略低于回歸模型;在其他兩個(gè)兩個(gè)區(qū)的預(yù)測中,灰色預(yù)測都展現(xiàn)出了更好的性能。
5結(jié)語
本文以多元非線形回歸模型為基礎(chǔ),并以灰色預(yù)測模型作為對比,選擇對房價(jià)影響顯著的因素作為解釋的自變量,建立模型。逐步改進(jìn),采用歸一化數(shù)據(jù)預(yù)處理的方式,不斷增加變量并改進(jìn)變量的處理方式,對模型進(jìn)行優(yōu)化,最終探索了北京市房價(jià)隨時(shí)間變化的規(guī)律。通過檢驗(yàn)和分析證實(shí)所建立的模型基本上是合理有效的,可以較準(zhǔn)確地預(yù)測北京市各城區(qū)近期的房價(jià)。
在未來的工作中,希望可以搜集到更多與小區(qū)特征有關(guān)的數(shù)據(jù),對小區(qū)進(jìn)行聚類,并以此為基礎(chǔ)建立模型,力爭得到更加準(zhǔn)確的房價(jià)預(yù)測模型。
參考文獻(xiàn)
[1]彭聰,聶元飛.房價(jià)影響因素的實(shí)證研究——基于GDP、CPI、利率和居民可支配收入視角[J].建筑經(jīng)濟(jì),2009,(12):326.
[2]鐘麗燕,高淑蘭.多元線性回歸模型在房價(jià)走勢分析與預(yù)測中的應(yīng)用[J].科技創(chuàng)業(yè)月刊,2017,(9).
[3]王賽.基于回歸分析的房價(jià)模型及預(yù)測[D].西安:陜西理工學(xué)院,2012.
[4]張彥周,賈利新.基于網(wǎng)格尋優(yōu)SVR房價(jià)預(yù)測模型——以鄭州市為例[J].河南科學(xué),2014,(8).
[5]韋光蘭,鄧曉瑩,張瓊.基于馬爾可夫鏈預(yù)測模型的昆明市房價(jià)預(yù)測分析[J].產(chǎn)業(yè)經(jīng)濟(jì),2015,(21):836.
[6]Hengshu Zhu,Hui Xiong,F(xiàn)angshuang Tang,Qi Liu,Yong Ge,Enhong Chen,Yanjie Fu,Days on Market:Measuring the Liquidity of Real Estate Markets[C].The 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2016),San Francisco,CA,USA,2016.