胡夷 蔡近近 張敬鴻 袁鵬程
摘 要:收集上海市14個(gè)區(qū)的11 195條有效二手房成交數(shù)據(jù)作為樣本,首先對(duì)樣本進(jìn)行相關(guān)性檢驗(yàn)并選擇9個(gè)變量,分別用線性模型和半對(duì)數(shù)模型對(duì)樣本進(jìn)行初步分析,通過(guò)比較模型的擬合優(yōu)度等最終選取半對(duì)數(shù)模型對(duì)樣本進(jìn)行回歸分析建模,由此得到模型的常數(shù)值和各變量相關(guān)系數(shù)。根據(jù)此模型分析得到各自變量對(duì)上海市14個(gè)區(qū)的單位面積房?jī)r(jià)的影響程度,其中房源所處的行政區(qū)對(duì)單位面積房?jī)r(jià)的影響較大。此外,運(yùn)用該半對(duì)數(shù)模型可對(duì)指定特征信息的房源進(jìn)行房?jī)r(jià)預(yù)測(cè)。
關(guān)鍵詞:上海市;二手房?jī)r(jià)格;單位面積房?jī)r(jià);虛擬變量
中圖分類號(hào):F299.23? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? 文章編號(hào):1673-291X(2022)04-0070-03
引言
據(jù)報(bào)告統(tǒng)計(jì),2020年,上海二手房市場(chǎng)量?jī)r(jià)走勢(shì)與新房市場(chǎng)基本一致。全年二手住宅成交約30.2萬(wàn)套,同比增長(zhǎng)27%,達(dá)近4年來(lái)新高。其中,2020年12月上海二手房的成交量刷新了近幾年來(lái)的新高,二手住宅月度成交套數(shù)約為3.9萬(wàn)套,環(huán)比增長(zhǎng)20.3%,同比增長(zhǎng)96.2%。由此可見(jiàn),二手房交易在上海市房地產(chǎn)市場(chǎng)逐漸占據(jù)重要地位。
在此前提下,對(duì)于二手房?jī)r(jià)格影響因素的研究越來(lái)越多。如戴瑗、鄭傳行通過(guò)Python對(duì)南京市二手房數(shù)據(jù)進(jìn)行了收集和分析,經(jīng)過(guò)可視化分析從中提煉出能幫助人們做出購(gòu)房決策的信息[1];黃明宇、夏典收集了合肥市二手房交易數(shù)據(jù)并進(jìn)行分析,建立了多元線性回歸模型,為合肥市二手房交易提供了一個(gè)有實(shí)用價(jià)值的房?jī)r(jià)參考定價(jià)工具[2];傅行行利用ArcGIS分析了上海市二手房?jī)r(jià)格空間分布特征,探索影響二手房?jī)r(jià)格的可能因素[3]。
本文以上海市的14個(gè)區(qū)(除金山區(qū)和崇明區(qū)外)為研究對(duì)象,對(duì)其進(jìn)行數(shù)據(jù)收集和處理,并建立了多元線性回歸模型和半對(duì)數(shù)模型,通過(guò)比較得出各因素對(duì)二手房單位面積房?jī)r(jià)的影響程度,最終選擇了半對(duì)數(shù)模型進(jìn)行房?jī)r(jià)的預(yù)測(cè)。
一、數(shù)據(jù)收集和變量選擇
本文通過(guò)數(shù)據(jù)收集工具“Gooseeker”從鏈家網(wǎng)站上爬取了上海市14個(gè)區(qū)的二手房成交數(shù)據(jù),共采集了12 316條2020年上海市成交的二手房數(shù)據(jù),經(jīng)過(guò)初步相關(guān)性檢驗(yàn),剔除了房屋結(jié)構(gòu)和廚房數(shù)等無(wú)關(guān)變量,最終選取了9個(gè)變量,其中單位面積房?jī)r(jià)為因變量,其余為自變量,具體變量如表1所示。
二、變量處理和描述性分析
對(duì)采集的數(shù)據(jù)進(jìn)行預(yù)處理:一是刪除數(shù)據(jù)異常和存在無(wú)關(guān)信息的數(shù)據(jù)條;二是對(duì)于數(shù)值型缺失值,采用平均數(shù)代替;對(duì)于虛擬變量型缺失值,采用眾數(shù)代替。通過(guò)異常值篩選和缺失值填充處理后,有效數(shù)據(jù)共11 195條。
所有樣本數(shù)據(jù)中,單位面積房?jī)r(jià)最高為100 977元/平方米,對(duì)應(yīng)于黃浦區(qū)士林華苑的一套住房,此住房2室2廳,面積90.12平方米;單位面積房?jī)r(jià)最低為20 842元/平方米,對(duì)應(yīng)于奉賢區(qū)金水苑的一套住房,此住房3室1廳,面積103.4平方米。面積最大為586.15平方米,對(duì)應(yīng)為青浦區(qū)的圣安德魯斯莊園,成交總價(jià)為1 940萬(wàn)元;面積最小為19.6平方米,對(duì)應(yīng)為黃埔區(qū)尊德里的住房,此住房為1室0廳。
上海市14個(gè)區(qū)的平均房?jī)r(jià)為54 358.72元/平方米。平均單位面積房?jī)r(jià)最高的行政區(qū)為黃浦區(qū),高達(dá)96 675.5元/平方米。黃浦區(qū)為上海市中心城區(qū),擁有南京東路,人民廣場(chǎng)和外灘等比較繁華的地段。平均單位面積房?jī)r(jià)最低的行政區(qū)為奉賢區(qū),低至23 305元/平方米。奉賢區(qū)位于上海南部,距離上海市中心較為遙遠(yuǎn),且經(jīng)濟(jì)發(fā)展較為緩慢。
部分變量樣本分布情況如表2所示,可以看出,配備電梯的二手房樣本相對(duì)較少,且低樓層和中樓層占比較高,經(jīng)查閱資料可知其主要原因是上海市大部分老舊小區(qū)樓層較低,沒(méi)有配備電梯設(shè)施。
三、模型建立
(一)創(chuàng)建虛擬變量
本文將單位面積房?jī)r(jià)作為因變量,面積,臥室數(shù)等作為自變量,其中是否有電梯,裝修情況,樓層,地區(qū)為定性變量,對(duì)于是否有電梯引入0—1虛擬變量來(lái)處理;對(duì)于裝修情況和樓層這兩個(gè)3種取值的變量,分別以毛坯和高樓層為基準(zhǔn),各引入兩個(gè)0—1虛擬變量;同樣對(duì)于行政區(qū)這一定性變量,該變量有14個(gè)取值,以奉賢區(qū)為基準(zhǔn),引入13個(gè)0—1虛擬變量進(jìn)行處理。其中,1均表示是,0均表示否。
(二)模型選擇和擬合結(jié)果比較
本文選擇多元線性回歸模型和半對(duì)數(shù)模型這兩種模型對(duì)上海市的二手房單位面積房?jī)r(jià)進(jìn)行分析建模,表現(xiàn)形式分別為:
其中,P為單位面積房?jī)r(jià),a為常數(shù)項(xiàng),bi為各影響因素的特征系數(shù),?著為誤差項(xiàng)。
將因變量和所有自變量導(dǎo)入SPSS 26.0,分別建立線性模型和半對(duì)數(shù)模型,分析結(jié)果如表3所示。
通過(guò)比較可知,線性模型和半對(duì)數(shù)模型的調(diào)整后R2分別為0.967和0.976,擬合優(yōu)度均較好,其中半對(duì)數(shù)模型更接近于1,且半對(duì)數(shù)模型的估計(jì)標(biāo)準(zhǔn)誤差為0.05871,遠(yuǎn)遠(yuǎn)小于線性模型的估計(jì)標(biāo)準(zhǔn)誤差,因此半對(duì)數(shù)模型對(duì)該二手房房?jī)r(jià)樣本解釋能力更好。
(三)模型建立和顯著性檢驗(yàn)
經(jīng)過(guò)上述分析,本文選擇半對(duì)數(shù)模型對(duì)樣本進(jìn)行回歸分析,其中因變量為單位面積房?jī)r(jià),其余為自變量,各變量回歸系數(shù)和顯著性如下頁(yè)表4所示。
模型F值為18 779.693,對(duì)應(yīng)的P值為 0.000<0.05,說(shuō)明引入的22個(gè)自變量在a=0.05的顯著水平下總體上對(duì)因變量單位面積房?jī)r(jià)有顯著性影響,且每個(gè)自變量對(duì)應(yīng)的P值均小于0.05,說(shuō)明每個(gè)自變量在a=0.05的顯著水平下均對(duì)因變量有顯著性影響。同時(shí)由共線性檢驗(yàn)可知,各自變量的方差膨脹因子(VIF)均遠(yuǎn)小于10,說(shuō)明此半對(duì)數(shù)回歸分析模型不存在多重共線性的問(wèn)題。
綜上分析可得本文建立的回歸模型如下:
LnP=11.437-0.009x1-0.002x2+0.007x3+0.008x4+0.011x5+0.006x6+0.016x7+0.005x8+0.006x9+0.326x10+0.417x11+0.801x12+0.629x13+0.694x14+0.253x15+0.566x16+0.685x17+0.757x18+0.539x19+0.207x20+0.737x21+0.931x22
由模型可知,面積和房齡與單位面積房?jī)r(jià)為負(fù)相關(guān),其余特征變量均為正相關(guān)。
(四)結(jié)論和預(yù)測(cè)
通過(guò)控制變量可以得到以下結(jié)論:一是面積每增加1平方米,單位面積房?jī)r(jià)下降約0.9%;房齡每增加1年,單位面積房?jī)r(jià)下降約0.2%。二是臥室數(shù)每增加1個(gè),單位面積房?jī)r(jià)增加約0.7%;客廳數(shù)每增加1個(gè),單位面積房?jī)r(jià)增加約0.8%。三是單位面積房?jī)r(jià)中,有電梯比無(wú)電梯增加約1.1%。四是單位面積房?jī)r(jià)精裝比毛坯增加約1.6%,單位面積房?jī)r(jià)簡(jiǎn)裝比毛坯增加約0.6%。五是單位面積房?jī)r(jià)低樓層比高樓層增加約0.5%,單位面積房?jī)r(jià)中樓層比高樓層增加為0.6%。
由于模型擬合度較好,且變量總體和個(gè)體均通過(guò)顯著性檢驗(yàn),因此可以利用此模型來(lái)進(jìn)行預(yù)測(cè)。假設(shè)楊浦區(qū)有一套3室2廳的120平方米的精裝修房,房齡10年,樓層處于中樓層,有電梯,根據(jù)此模型預(yù)測(cè)的單位面積房?jī)r(jià)為66 237元/平方米,總價(jià)約795萬(wàn)元。
結(jié)語(yǔ)
本文以上海市11 195條有效二手房數(shù)據(jù)為樣本,經(jīng)過(guò)相關(guān)性檢驗(yàn)確定了8個(gè)自變量,并通過(guò)對(duì)比分析選擇了半對(duì)數(shù)模型對(duì)樣本進(jìn)行回歸分析,可以得出8個(gè)特征變量對(duì)單位面積房?jī)r(jià)的影響程度,其中行政區(qū)對(duì)單位面積房?jī)r(jià)影響較大,房齡對(duì)單位面積房?jī)r(jià)影響較小,最后,根據(jù)此模型對(duì)假設(shè)房源進(jìn)行了房?jī)r(jià)預(yù)測(cè)并驗(yàn)證。由于房?jī)r(jià)影響因素較多,未來(lái)可以引入是否臨近地鐵、月收入水平等因素進(jìn)一步完善模型,使模型更加精準(zhǔn)。
參考文獻(xiàn):
[1]? 戴瑗,鄭傳行.基于Python的南京二手房數(shù)據(jù)爬取及分析[J].計(jì)算機(jī)時(shí)代,2021,(1):37-40+45.
[2]? 黃明宇,夏典.合肥市二手房?jī)r(jià)多元線性回歸預(yù)測(cè)模型[J].合作經(jīng)濟(jì)與科技,2019,(9):80-82.
[3]? 傅行行.上海市二手房?jī)r(jià)格空間分布及其影響因素研究[J].上海房地,2020,(7):11-15.