陳敏,李英冰
(1.武漢大學(xué)測(cè)繪學(xué)院,湖北 武漢 430079; 2.武漢大學(xué)測(cè)繪學(xué)院時(shí)空大數(shù)據(jù)研究中心,湖北 武漢 430079)
在房地產(chǎn)稅制改革和大數(shù)據(jù)的背景下,我國(guó)的房地產(chǎn)評(píng)估行業(yè)面臨新的挑戰(zhàn)[1]。許軍等指出我國(guó)房地產(chǎn)評(píng)估行業(yè)的目標(biāo)應(yīng)由“以房為本”、“服務(wù)開發(fā)”的模式轉(zhuǎn)變?yōu)椤耙匀藶楸尽?、“服?wù)兩端”的模式[2]?!耙匀藶楸尽币髲南M(fèi)者需求的角度出發(fā)考察影響房?jī)r(jià)的因素,將其作為房?jī)r(jià)評(píng)估依據(jù);“服務(wù)兩端”強(qiáng)調(diào)建立統(tǒng)一管理平臺(tái),為消費(fèi)者和政府相關(guān)部門提供經(jīng)濟(jì)、高效的優(yōu)質(zhì)信息服務(wù)。
目前,國(guó)外已經(jīng)有了基于CAMA (Computer Assisted Mass Appraisal)和GIS(Geography Information System)的房地產(chǎn)批量評(píng)估方法,而我國(guó)仍處于大數(shù)據(jù)系統(tǒng)的構(gòu)建階段[2],缺少相關(guān)的技術(shù)、算法支持。特征價(jià)格理論認(rèn)為住宅價(jià)格的確定不是基于作為整體的住宅本身,而等于住宅各個(gè)屬性的效用總和[3],呼應(yīng)了“以人為本”的需求;人工神經(jīng)網(wǎng)絡(luò)作為一個(gè)強(qiáng)大的非線性變換系統(tǒng)[4],具有自組織、自學(xué)習(xí)的特點(diǎn),能夠充分利用大數(shù)據(jù)優(yōu)勢(shì),在實(shí)例研究中顯現(xiàn)出較傳統(tǒng)方法更高的準(zhǔn)確率和效率[5~9],或許能在自動(dòng)批量評(píng)估系統(tǒng)中發(fā)揮重要作用。因此,綜合特征價(jià)格理論和人工神經(jīng)網(wǎng)絡(luò),探索更準(zhǔn)確、效率更高的估價(jià)算法,能夠提高估價(jià)方法的科學(xué)性和前瞻性,并推動(dòng)統(tǒng)一的房地產(chǎn)信息服務(wù)平臺(tái)的構(gòu)建。
如圖1所示,研究區(qū)域?yàn)榫嚯x武漢市政府 15 km的武昌、江漢、洪山、青山、江岸、硚口、漢陽(yáng)七個(gè)行政區(qū)內(nèi)的212個(gè)小區(qū)。各小區(qū)與市中心聯(lián)系緊密,基本在三環(huán)線內(nèi)。各小區(qū)平均二手房?jī)r(jià)格 3 714 元/m2~22 112 元/m2不等,小區(qū)內(nèi)不同房屋成交價(jià)也有差別。
圖1 研究區(qū)域及小區(qū)分布
特征價(jià)格模型的一般形式[4]為:
P=f(X1,X2,…,Xi)
(1)
其中P為住宅價(jià)格,Xi表示住宅特征,f為特征與價(jià)格之間的函數(shù)關(guān)系。
住宅特征(即房?jī)r(jià)影響因子)的選取十分重要,特征價(jià)格理論默認(rèn)模型僅包含影響房?jī)r(jià)且量測(cè)精確的因素。但是,影響房?jī)r(jià)的因素十分復(fù)雜,且存在隨機(jī)波動(dòng);加上某些特征不能做到精確測(cè)量和量化,實(shí)際難以達(dá)到這一標(biāo)準(zhǔn)。
王娟娟等[10]統(tǒng)計(jì)了相關(guān)文獻(xiàn)中常用的特征變量及其顯著性,為特征變量的選取提供了參考。根據(jù)此參考及數(shù)據(jù)庫(kù)數(shù)據(jù),結(jié)合武漢市房地產(chǎn)市場(chǎng)特點(diǎn),確定了參與評(píng)估的14個(gè)特征變量,如表1所示。
特征變量及數(shù)據(jù)來(lái)源 表1
量化數(shù)據(jù)時(shí)定量特征直接引用數(shù)值;定性特征則采用二元虛擬變量法、李克特量表法或綜合性指標(biāo)法量化[11]。再手動(dòng)補(bǔ)充、剔除缺失值、刪除虛假數(shù)據(jù)、剔除異常值,最終得到武漢市二手房數(shù)目多于200套的住宅小區(qū)212個(gè),小區(qū)內(nèi)部二手房樣本 84 215條。
利用神經(jīng)網(wǎng)絡(luò)估計(jì)住宅價(jià)格,思路是把住宅的各個(gè)特征變量作為輸入,房?jī)r(jià)作為輸出,把各個(gè)特征變量與房?jī)r(jià)之間的關(guān)系模擬為各層神經(jīng)元之間連接的權(quán)值與閾值。通過(guò)大量樣本的監(jiān)督學(xué)習(xí),得到合適的權(quán)值與閾值,即確定了特征變量與房?jī)r(jià)之間的關(guān)系。
部分利用神經(jīng)網(wǎng)絡(luò)進(jìn)行估價(jià)的研究采用的訓(xùn)練樣本體積偏小,并且只給出一個(gè)通用網(wǎng)絡(luò)模型,沒(méi)有考慮空間異質(zhì)性對(duì)模型精度的影響,如周圍是否有學(xué)校很大程度影響到購(gòu)房決策[12]。不考慮小區(qū)間這類影響因子的差異,模型的泛化能力無(wú)法得到保證,難以應(yīng)用于實(shí)際??紤]到隨著樣本體積增大,網(wǎng)絡(luò)訓(xùn)練的速度降低,效率不高[13],本文設(shè)計(jì)了整體基準(zhǔn)價(jià)和精確估價(jià)的兩級(jí)模型,結(jié)構(gòu)如圖2所示。抽取研究區(qū)域的樣本訓(xùn)練得到基準(zhǔn)價(jià)網(wǎng)絡(luò),再輸入需要估價(jià)的小區(qū)樣本進(jìn)一步訓(xùn)練得到適合該小區(qū)的精確估價(jià)網(wǎng)絡(luò),希望在保證模型的泛化能力同時(shí)提高估價(jià)效率。
圖2 分級(jí)模型結(jié)構(gòu)
基準(zhǔn)價(jià)模型和精確估價(jià)模型的構(gòu)建涉及網(wǎng)絡(luò)結(jié)構(gòu)、激活函數(shù)確定,訓(xùn)練算法選擇的工作。其中,隱層節(jié)點(diǎn)個(gè)數(shù)、激活函數(shù)以及學(xué)習(xí)速率可以基于經(jīng)驗(yàn)和試湊法確定,通過(guò)隨機(jī)抽取5 000條樣本進(jìn)行實(shí)驗(yàn),不斷調(diào)整學(xué)習(xí)速率,確定最優(yōu)隱層節(jié)點(diǎn)數(shù)為30,激活函數(shù)第一層為logsig,第二層tansig。網(wǎng)絡(luò)的訓(xùn)練采用反向傳播的思想。對(duì)每一個(gè)樣本(x,y),(x為特征向量,y為價(jià)格)先進(jìn)行前向傳遞,求每個(gè)神經(jīng)元的激活值a,得到估價(jià)h(x)。
a=∑σ(ωx+b)
(2)
再比較h(x)與真實(shí)價(jià)格,利用損失函數(shù)求損失C(函數(shù)cost通常是均方誤差)。
C=cost[h(x),y]
(3)
接著進(jìn)行誤差反向傳播,從最后一層向前依次求各層誤差(鏈?zhǔn)椒▌t),并調(diào)整權(quán)值和偏置(式(4)、式(5)運(yùn)用的學(xué)習(xí)算法是梯度下降)。反復(fù)迭代至C足夠小,停止訓(xùn)練。
(4)
(5)
反向傳播有梯度下降法、擬牛頓法、共軛梯度法和Levenberg-Marquardt法等經(jīng)典算法。不同訓(xùn)練算法最小化損失函數(shù)的思想不同,在收斂速度、計(jì)算量、泛化能力上存在差異,因而針對(duì)不同參數(shù)規(guī)模的網(wǎng)絡(luò)應(yīng)選取不同的訓(xùn)練算法[14]。
圖3 網(wǎng)絡(luò)結(jié)構(gòu)及訓(xùn)練思路
本文影響因子數(shù)較少(14),網(wǎng)絡(luò)參數(shù)不多(481),但樣本體積較大(84 215)。 圖3展示了網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練思路,為確定最優(yōu)訓(xùn)練算法,抽出“武漢天地御江璟城”小區(qū)數(shù)據(jù),將其余 83 871條樣本分為訓(xùn)練組(80 000條)和測(cè)試組(3 871條)輸入網(wǎng)絡(luò)用不同算法分別訓(xùn)練,綜合比較模型訓(xùn)練時(shí)間、估價(jià)結(jié)果精度(如表2所示)得到合適的訓(xùn)練算法。
模型評(píng)價(jià)采取擬合優(yōu)度R2和估價(jià)相對(duì)誤差RE、絕對(duì)誤差A(yù)E。擬合優(yōu)度評(píng)價(jià)模型對(duì)觀測(cè)值的擬合程度,越接近1效果越好;相對(duì)誤差與絕對(duì)誤差能更直觀地表現(xiàn)估價(jià)精度。
R2=(TSS-RSS)/TSS
(6)
AE=h(x)-y
(7)
RE=AE/y
(8)
其中,TSS為總誤差平方和,RSS為殘差平方和。
用不同訓(xùn)練算法訓(xùn)練基準(zhǔn)價(jià)網(wǎng)絡(luò)得到估價(jià)結(jié)果,如表2所示,比較結(jié)果的擬合優(yōu)度、平均相對(duì)誤差、相對(duì)誤差在10%、20%內(nèi)的樣本比例,梯度下降法和共軛梯度法均陷入了局部最優(yōu)解,模型精度低;擬牛頓法精度雖高但不及L-M法,且訓(xùn)練時(shí)間過(guò)長(zhǎng);L-M法估價(jià)精度高、收斂速度快,訓(xùn)練時(shí)間適中,最合適。
基準(zhǔn)價(jià)網(wǎng)絡(luò)不同算法估價(jià)結(jié)果 表2
在基準(zhǔn)價(jià)網(wǎng)絡(luò)上進(jìn)一步輸入特定小區(qū)的二手住宅樣本進(jìn)行小區(qū)估價(jià)模型訓(xùn)練,這里以兩個(gè)小區(qū)(如表3所示)為例,給出估價(jià)結(jié)果的相對(duì)誤差(如表4所示)。小區(qū)武漢天地御江璟城在江岸區(qū),所有樣本沒(méi)有參與基準(zhǔn)價(jià)網(wǎng)絡(luò)訓(xùn)練,小區(qū)世紀(jì)江尚在江漢區(qū),均價(jià)低于武漢天地,部分樣本參與了基準(zhǔn)價(jià)網(wǎng)絡(luò)訓(xùn)練。
小區(qū)價(jià)格分布及樣本數(shù)量 表3
小區(qū)估價(jià)模型精度比較 表4
如表4所示,小區(qū)模型的估價(jià)精度均優(yōu)于基準(zhǔn)價(jià)模型,說(shuō)明分級(jí)模型對(duì)精度有提高作用。在訓(xùn)練世紀(jì)江尚的小區(qū)模型時(shí),迭代10次便達(dá)到了表中的精度,證明在基準(zhǔn)價(jià)網(wǎng)絡(luò)上訓(xùn)練模型,能夠提高效率。世紀(jì)江尚的部分樣本參與了基準(zhǔn)價(jià)模型訓(xùn)練,用基準(zhǔn)價(jià)模型直接估價(jià)時(shí),平均相對(duì)誤差??;武漢天地的樣本沒(méi)有參與基準(zhǔn)價(jià)網(wǎng)絡(luò)訓(xùn)練,直接用基準(zhǔn)價(jià)模型平均相對(duì)誤差達(dá)到了105.74%,說(shuō)明將小區(qū)樣本納入基準(zhǔn)價(jià)模型的必要性。整體上看,兩個(gè)小區(qū)模型估價(jià)結(jié)果的相對(duì)誤差在20%內(nèi)的比例均達(dá)到了95%以上,具備實(shí)際應(yīng)用能力。
本文應(yīng)用特征價(jià)格理論確定14個(gè)房?jī)r(jià)影響因子,與神經(jīng)網(wǎng)絡(luò)結(jié)合,建立了武漢市二手住宅估價(jià)的兩層分級(jí)模型。一方面,在基準(zhǔn)價(jià)網(wǎng)絡(luò)基礎(chǔ)上訓(xùn)練針對(duì)特定小區(qū)的網(wǎng)絡(luò),訓(xùn)練時(shí)間縮短,提高了效率;另一方面,通過(guò)將所有小區(qū)的部分樣本納入整體的基準(zhǔn)價(jià)模型,可以保證模型的泛化能力,再訓(xùn)練特定的小區(qū)估價(jià)模型,能夠提高估價(jià)精度。此分級(jí)模型為自動(dòng)批量評(píng)估系統(tǒng)的實(shí)現(xiàn)提供了一種可行思路。
對(duì)于面向海量數(shù)據(jù)的房?jī)r(jià)自動(dòng)評(píng)估系統(tǒng),要進(jìn)一步提高估價(jià)精度,除探索效率更高的估價(jià)算法外,可從數(shù)據(jù)著手,提高輸入的數(shù)據(jù)質(zhì)量,這一點(diǎn)或可通過(guò)引入有效的異常點(diǎn)自動(dòng)挖掘算法實(shí)現(xiàn)。