段永輝,高 紳,郭一斌,王 翔
(1. 河南工業(yè)大學土木工程學院,河南 鄭州 450001;2. 鄭州航空工業(yè)管理學院土木工程學院,河南 鄭州 450015)
經過二十多年的快速發(fā)展,中國房地產市場已經逐步趨于成熟。高額的住宅價格一直是政府部門和人民群眾關注的熱點。如何準確預測住宅價格走勢和價格波動區(qū)間一直是學術界關注的重要的經濟課題。準確的預測住宅價格不僅可以為消費者與投資者提供購房意向參考,同時也可以為政府相關部門發(fā)布購房政策提供理論依據。因此,探索一套快速高效的商用住宅價格預測模型對房地產市場的健康發(fā)展十分重要。
針對商用住宅價格的預測的問題,國內外學者進行了各種各樣的嘗試,旨在尋求一種快捷高效的預測方法。目前,以自回歸移動平均模型(Auto-Regressive and Moving Average Model,ARMA)為代表的傳統(tǒng)預測模型雖有強大的數學理論基礎支撐,但仍存在準確度相對較低的問題。近年來,速率更快準確度更高的機器學習模型已被多位學者引入住宅價格預測問題的研究中,顯示出良好的效果。
在眾多住宅價格預測的研究中,文獻[1-3]采用線性回歸模型進行預測,但是該模型不能進行有效處理非線性數據,同時其重點是解釋而非預測,且對類似工程數據樣本大小與工程項目相似程度依賴性較大[4]。支持向量機模型(Support Vector Machines,SVM)[5-7]是一種基于結構風險最小化原理的統(tǒng)計學習算法,該算法理論基礎扎實,泛化能力強,能夠有效處理非線性問題,但是也存在處理大樣本數據速度較慢,以及參數及核函數選取對模型預測結果影響較大等問題。文獻[8,9]將集成學習模型(Ensemble Learning)應用于住宅價格預測問題的研究中,并取得良好的預測效果,但該模型仍然存在理論框架不統(tǒng)一、集成標準難于確定、訓練樣本不足、集成算法之間度量差異等問題[10]。
人工神經網絡(Artificial Neural Network,ANN)[11]是目前最流行預測算法之一,它對于建模的限制較少,只要擁有足夠樣本就可以進行預測。目前,針對住宅價格預測問題,已經有很多學者利用ANN進行了一些有益的嘗試,且取得優(yōu)異的預測效果[12-15]。但是ANN模型也存在容易陷入局部極值的缺陷。
綜合以上分析,本文針對商用住宅價格預測問題主要進行了以下兩項創(chuàng)新工作。
第一,提出了一種基于粒子群優(yōu)化的神經網絡算法(Particle swarm optimization Neural Networks,PSO-NN),用于克服ANN模型易于陷入局部極值的缺陷。
第二,為了進一步提升PSO-NN算法的泛化性能,本文基于集成學習的bagging思想,提出了一種集成PSO-NN算法。
集成學習是一種通過集成策略將多個模型的預測結果融合,從而提高預測精度的方法。它對于模型泛化能力提升具有顯著的效果,近年來一直是機器學習領域的研究熱點。bagging方法(bootstrap aggregation,Bagging)是集成學習中最經典的策略之一。
Bagging集成策略旨在通過集成多個基學習器,進而提升模型的穩(wěn)定性和準確性,并有效避免過擬合現(xiàn)象的發(fā)生。該策略的基本思想是通過bootstrap方法對訓練集采取有放回抽樣的方式抽取多個子訓練集,并分別對子訓練集進行訓練,得到相對應的基學習器。本文借助Bagging策略建立集成PSO-NN模型,流程如圖1所示。
圖1 集成PSO-NN模型
在訓練完所有基學習器之后,采用softmax函數對基學習器結果進行加權平均,最后輸出結果。softmax函數通過歸一化方式,使基學習器的權重均為小于1的正數,且所有基學習器的權重之和為1。該函數能凸顯出相對重要的基學習器,即對預測精度更高的基學習模型賦予較大的權值。假設共有n個基學習器,第i個基學習器中預測結果與真實值的百分比誤差小于10%的比例為mi,則第i個基學習器的權重xi的計算公式如下所示。
(1)
(2)
ANN模型是一種模擬人類大腦信息處理過程的人工智能技術,具有較強的自學習或自組織能力,特別適用于處理非線性現(xiàn)象間的復雜關系。在ANN模型中,信息通過相互連接的神經元進行處理和傳遞,同時相互連接的神經元分別位于不同的的網絡結構層中。典型的網絡結構由輸入層、隱藏層和輸出層構成[16]。
ANN的性能取決于網絡結構中各層包含神經元節(jié)點的數量。常見的ANN學習過程是學習神經元節(jié)點連接的權重,它包含正向傳播與反向傳播兩個步驟,正向傳播是輸入信息由輸入層經隱含層到輸出層的過程,若輸出層得到的預測結果與真實值之間的誤差過大或不滿足要求時,則啟動反向傳播過程,所得的誤差信息通過網絡從隱藏層傳回輸入層,進而調節(jié)神經元連接的權值與閾值。如此反復的多次訓練直至預測結果滿足要求為止。目前,較為常用的三層ANN結構如圖2所示。
圖2 神經網絡結構
1995年提出的粒子群優(yōu)化算法[17](Particle Swarm Optimization,PSO)是一種基于鳥類捕食行為的進化算法,主要用于求解無約束優(yōu)化問題。PSO算法是基于種群中個體間的相互合作和信息共享進行尋優(yōu)求解,它具有操作簡潔、參數較少等優(yōu)點。在PSO算法中,一群粒子代表一個需要優(yōu)化的個體,每個粒子具有速度和位置兩個性質。粒子通過適應度函數衡量當前位置的優(yōu)劣,進而基于適應度值選擇個體的歷史最優(yōu)位置和群體的歷史最優(yōu)位置,最終在連續(xù)迭代中找到最優(yōu)解。標準粒子群算法的數學表達式如下:
(3)
(4)
其中i=1,2,…,n表示粒子編號;d=1,2,…,D表示問題維度;t表示迭代次數;rand()表示取值為介于0到1的隨機數;ω為慣性權重;c1和c2為學習因子。本文設置ω=0.72984,c1=c2=1.496172。pBest為個體歷史最佳位置,gBest為群體歷史最佳位置,pBest與gBest通過式(5)和式(6)進行更新。在每個粒子進行搜尋時,其移動速度和位置也同樣受到搜尋空間的限制,即,V∈[Vmin,Vmax],X∈[Xmin,Xmax]。
(5)
(6)
本文通過整理分析相關文獻資料,進而選取了對住宅項目價格具有影響的指標。首先,以“住宅價格特征分析”為關鍵詞在CNKI進行檢索,共計得到55篇文獻。其次,針對其中29篇核心期刊文獻進行重點分析,結果發(fā)現(xiàn)土地成本價格是最重要的影響因素之一,由于土地價格受其所在區(qū)位影響較大,又考慮到本文僅選取鄭州市區(qū)內的50組數據進行研究,故本文不對其進行深入研究。最終,將影響住宅特征指標歸結為四類:建筑特征、鄰里特征、區(qū)位特征以及政府調控。針對指標對進一步分析發(fā)現(xiàn),在三篇以上文獻中的指標共計18個,占指標總數的80%,需要特別指出的是多位學者對建筑特征類指標進行了重點研究。
基于以上研究,結合專家訪談法和線上咨詢法進一步指標篩選,最終確定商用住宅售價影響指標分為以下三類:建筑特征類,鄰里特征類和區(qū)位特征類,具體包含16個指標,如表1所示。以下所有實驗都以鄭州市50棟住宅樣本的16個指標量化數值作為輸入,整個住宅項目的價格作為輸出。
表1 商用住宅價格影響因素分析
為了評價不同模型的預測能力強弱,本文選取均方誤差(mean-square error,MSE)和平均絕對誤差(Mean Absolute Error,MAE)兩個最常用的損失函數作為標準。若MSE與MAE值越小,則表明模型預測性能越好;反之模型預測效果越差。MSE和MAE的具體公式如下
(7)
(8)
為檢驗集成PSO-NN模型預測效果,本文以四類經典機器學習模型針對鄭州市50組住宅價格數據進行對比實驗。以下是對各模型的簡單描述。
集成學習[18]集成學習模型是由多個具有獨立決策能力的分類器按照一定的策略組合進行決策分析與預測。根據個體分類器之間的關系,可將集成學習模型分為同質集成和異質集成兩類。
線性回歸該模型是進行回歸分析時一種重要的統(tǒng)計技術,通過建立函數分析多個自變量與因變量之間的線性關系,在小樣本情況下效果同樣顯著。
支持向量機[19]支持向量機模型是以一種監(jiān)督式學習方法對數據集進行線性分類的分類器。此算法本質上是在三維空間中尋找一個最大邊緣超平面(其超平面為二維平面)使得超平面與最近的數據點之間的距離最大。
神經網絡模型[11]人工神經網絡模型是受生物神經系統(tǒng)啟發(fā)而建立的智能非參數數學模型。近三十年來,人工神經網絡模型在分類、模式識別、回歸和預測問題中得到了廣泛應用。
對上述給出的集成學習、線性回歸、支持向量機和神經網絡四類模型分別進行住宅價格預測。為保證實驗效果的準確性,在每類模型中分別選出兩種常見的子模型進行建模。其中,神經網絡模型中ANN模型和PSO-NN模型為三層網絡結構,輸入層神經元均設置為16個,并通過多次實驗對比顯示當ANN模型隱含層神經元個數為16、PSO-NN模型隱含層神經元個數為4時兩模型預測效果最佳。表2給出了子模型選取以及在三項指標中的預測情況,各模型預測效果如圖4所示。
圖3 單模型預測結果
表2 對比模型選取
通過表2和圖3可知,四類模型預測中各子模型預測效果各不相同,集成學習模型、支持向量機模型與神經網絡模型整體差異不大。為進一步提高對商用住宅價格的預測精度,本文提取四類模型中預測效果更好,且與真實曲線更為貼合的子模型進行進一步分析,分別為集成學習類中的Gradient Tree Boosting模型、線性回歸類中的LinearRegression模型、支持向量機類中的SVM Regressor (Poly Kernel)和神經網絡類中的PSO-NN模型。
在得到四類模型中預測精度較高的子模型后,本文采取以下組合策略進行進一步的預測精度提升:①采取bagging集成策略對PSO-NN模型進行集成優(yōu)化;②對上述四種表現(xiàn)最好的單模型結果進行算數平均法組合;③采取softmax函數思想對四種單模型進行加權平均法組合。各模型在MSE和MAE評價指標中的預測結果如表3所示。
表3 各模型實驗結果對比
通過表3可知,經過組合策略優(yōu)化的模型精度整體上優(yōu)于單模型預測,其中集成PSO-NN模型在上述模型中的兩項指標排名均為第一,相較于單模型中預測效果最優(yōu)的PSO-NN模型在兩項指標中分別提升了26.14%和27.61%;在組合模型中,集成PSO-NN模型比排名第二的softmax加權平均法預測精度分別提升了35.11%和24.41%。綜上所述,經bagging集成策略優(yōu)化的PSO-NN模型在商用住宅價格預測問題中效果最佳。
為清晰展示集成PSO-NN模型對住宅價格預測效果的提升程度,本文對集成PSO-NN模型及其子模型從擬合曲線效果和可信度分析兩個角度進行效果對比。
圖4為集成PSO-NN模型、PSO-NN模型與ANN模型的預測結果與測試集真實樣本的擬合曲線,通過對三條曲線的對比分析,集成PSO-NN模型與真實曲線更為貼合,ANN模型貼合程度最差。
圖4 bagging集成策略擬合效果
可信度分析是指通過設置百分比誤差來衡量模型預測結果與真實樣本之間的差距[20],并定義當百分比誤差在區(qū)間[0,10%]時具有較高的可信度,當百分比誤差在區(qū)間(10%,20%)時模型預測結果可信度為中等,當百分比誤差在區(qū)間[20%,100%]時結果可信度較低。百分比誤差計算公式為
(10)
圖5 可信度分析
圖5為本文三種模型的可信度分析結果,從圖中可以看出,集成PSO-NN模型在10%以內的百分比誤差相較于PSO-NN模型和ANN模型分別提升了15.38%和84.62%,集成模型的全部預測結果都處于可信度較高的區(qū)間范圍內,進一步說明該模型在住宅價格預測問題中優(yōu)勢較大。
綜上所述,在商用住宅價格預測問題中,對于神經網絡模型中收斂速度慢,易陷入局部極值等問題導致的模型預測結果較差,粒子群優(yōu)化算法具有較好的解決能力,同時使用bagging集成策略對單模型預測精度具有明顯的提升效果。
本文針對住宅價格預測問題,提出一種基于bagging集成策略的PSO-NN模型,通過對鄭州市50組商用住宅項目數據進行仿真,得出以下結論:
1)相對于神經網絡模型、集成學習模型、支持向量機模型和線性回歸模型這四類傳統(tǒng)機器學習模型,集成PSO-NN模型具有較高的預測精度,并在均方誤差、平均絕對誤差兩項指標上相較于最優(yōu)的單模型算法分別提升了26.14%和27.61%;
2)使用算術平均法和softmax加權平均法組合策略對上述四種單模型進行模型組合,預測結果精度整體上有一定幅度的提升,但預測效果與bagging集成學習策略有一定的差距;
3)集成PSO-NN模型在可信度分析角度相對于PSO-NN模型和ANN模型預測精度分別提升了15.38%和84.62%,且集成模型全部預測結果都處于可信度較高的區(qū)間范圍,從而反映出本文提出的集成模型在商用住宅價格預測問題中具有較高的實用性。