国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于網(wǎng)絡(luò)租賃數(shù)據(jù)的分析與預(yù)測

2019-02-10 06:35
福建質(zhì)量管理 2019年24期
關(guān)鍵詞:房型房源月度

(四川大學(xué)經(jīng)濟(jì)學(xué)院 四川 成都 610000)

一、研究內(nèi)容與數(shù)據(jù)來源

本文首先通過爬取鏈家網(wǎng)租賃房房源信息,然后利用python、R等對數(shù)據(jù)進(jìn)行處理,進(jìn)一步分析成都市房源整體狀況、對影響房價(jià)的可能因素進(jìn)行描述統(tǒng)計(jì)分析,最后選擇BP神經(jīng)網(wǎng)絡(luò)對租賃房價(jià)格進(jìn)行建模和預(yù)測。

本文通過八爪魚爬蟲軟件爬取鏈家網(wǎng)租賃源信息,所要抓取的變量有城市、房源標(biāo)題、房源上架時(shí)間、鏈家編號、價(jià)格、租賃方式、房型、樓層、面積、朝向、地鐵、小區(qū)、位置、經(jīng)度、緯度、房源照片、房源介紹、當(dāng)前時(shí)間、頁面網(wǎng)址共19個(gè)特征,最終去除重復(fù)后有2892條數(shù)據(jù)。

二、房源信息整體情況

分析成都租賃房的整體特點(diǎn),本文采用數(shù)據(jù)集中的經(jīng)緯度對應(yīng)每一個(gè)房源的地理位置,然后在成都市地圖中進(jìn)行標(biāo)記(使用Rstudio軟件)。可以看出,在爬取的這2892條房源信息中,絕大部分的房源分布在成都市三環(huán)以內(nèi),除了北三環(huán)等地區(qū),基本上在三環(huán)以內(nèi)都有租賃房房源。其次房源較多的區(qū)域有高新區(qū)、天府新區(qū)、雙流區(qū)、溫江區(qū)、郫都區(qū)、新都區(qū)、青白江區(qū)和龍泉驛區(qū)等,另外其他區(qū)域也有少量房源。

三、房源信息分變量描述統(tǒng)計(jì)

本文節(jié)選部分變量對租賃房房源進(jìn)行描述統(tǒng)計(jì)分析。

(一)房型

從不同房型來看,2室1廳1衛(wèi)、1室1廳1衛(wèi)、1室0廳1衛(wèi)等房型有較多的房源,可以看出一方面可能因?yàn)殚_發(fā)商在小戶型住房的開發(fā)上占多數(shù);另一方面也可能因?yàn)樾粜偷姆孔雍芎贸鲎猓m合才從事工作的人員作為過渡房使用。

圖2 不同房型的分布

(二)朝向

觀察不同朝向的占比餅狀圖,可以看到朝南、朝東南、朝東的房子比例分別為36.5%、32.8%、15.6%,根據(jù)中國人的傳統(tǒng)居住習(xí)慣也可以看出,大部分的居民會選擇朝南或東的房子。

圖3 不同朝向的分布

四、租賃房價(jià)格影響因素分析

下面主要分析房價(jià)的影響因素,這可以進(jìn)一步為下一節(jié)進(jìn)行神經(jīng)網(wǎng)絡(luò)預(yù)測做準(zhǔn)備。因?yàn)橛械淖》孔赓U是單租有的是整租,導(dǎo)致用原始價(jià)格不能很好地反映住房的可比價(jià)格,因此本文選擇使用月度單位面積價(jià)格來度量房價(jià)的大小以及用月度單位面積價(jià)格來進(jìn)行預(yù)測。為進(jìn)一步觀察不同劃分情況下的價(jià)格分布的差異,以下節(jié)選所在不同行政區(qū)位、距離地鐵站距離兩個(gè)影響租賃房價(jià)格的因素進(jìn)行分析。

(一)不同行政區(qū)位下月度單位面積平均價(jià)格

行政區(qū)位的不同對月度單位面積平均價(jià)格有很大的影響,可以看到在成都不同的區(qū)域,房價(jià)是明顯不同的。高新區(qū)和錦江區(qū)的租賃價(jià)格最高,這和目前的房價(jià)水平保持一致;其次是成華、金牛和天府區(qū);而都江堰、彭州和青白江等區(qū)域的租賃價(jià)格相對較低,這是因?yàn)榫嚯x成都中心城區(qū)較遠(yuǎn)的原因。

圖4 不同行政區(qū)域下月度單位面積價(jià)格比較

(二)距離地鐵站遠(yuǎn)近與月度單位面積平均價(jià)格

通過觀察地鐵距離與月度單位面積價(jià)格散點(diǎn)圖可以看出,1000米左右的距離相對地鐵站來說距離都是比較近的,單從散點(diǎn)圖來看還不能觀察出距離對價(jià)格的影響。因此繪制數(shù)據(jù)的趨勢線可以看出,趨勢線略微往右下方傾斜,距離地鐵站越近的租賃房價(jià)格越高,可能交通便利度確實(shí)會價(jià)格造成一定的影響。

圖5 與地鐵站距離不同下月度單位面積價(jià)格比較

五、BP神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測

本文將全部數(shù)據(jù)劃分為70%訓(xùn)練集和30%的測試集(參考其他文獻(xiàn)的通用做法)。使用隨機(jī)數(shù)生成的原則,隨機(jī)選取70%的數(shù)據(jù)作為訓(xùn)練集,30%的數(shù)據(jù)作為測試集。

不同評價(jià)指標(biāo)往往具有不同的量綱和量綱單位,這樣的情況會影響到數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱影響,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,以解決數(shù)據(jù)指標(biāo)之間的可比性。

本文選擇建立BP神經(jīng)網(wǎng)絡(luò),選擇建立三層網(wǎng)絡(luò)結(jié)構(gòu)。第一層的神經(jīng)元個(gè)數(shù)為10,激勵(lì)函數(shù)選擇Relu函數(shù);第二層的神經(jīng)元個(gè)數(shù)為5,激勵(lì)函數(shù)選擇Relu函數(shù);第三層的神經(jīng)元個(gè)數(shù)為1,激勵(lì)函數(shù)選擇Linear函數(shù)。迭代次數(shù)100次,每次用來梯度下降的批處理數(shù)據(jù)大小為100,最終通過運(yùn)行可以繪制出訓(xùn)練值與測試值的損失圖像。在經(jīng)過迭代100次過后誤差基本趨于一致。

圖6 迭代次數(shù)與預(yù)測誤差

使用30%的測試集數(shù)據(jù)進(jìn)行測試,最終繪制其中100個(gè)租賃房預(yù)測價(jià)格與實(shí)際價(jià)格的比較圖形,可以看出預(yù)測價(jià)格較好地?cái)M合了真實(shí)價(jià)格。

圖7 其中100個(gè)房源真實(shí)值與預(yù)測值比較

六、總結(jié)

本文主要運(yùn)用爬蟲軟件獲取網(wǎng)站租賃房房源信息的數(shù)據(jù)分析,先從描述統(tǒng)計(jì)的角度進(jìn)行了成都租賃房的整體分布觀察以及對重要變量進(jìn)行了分別統(tǒng)計(jì);其次結(jié)合數(shù)據(jù)分別觀察不同變量下租賃房月度單位面積價(jià)格是否有差異,最后運(yùn)用BP神經(jīng)網(wǎng)絡(luò)建立了房價(jià)預(yù)測模型,最終的預(yù)測效果較為理想,具有一定的實(shí)踐價(jià)值。但是本文存在諸多不足之處,首先數(shù)據(jù)的抓取上受限于網(wǎng)站頁碼的限制,可以改進(jìn)代碼進(jìn)行更大規(guī)模數(shù)據(jù)的抓取。其次由于沒有考慮時(shí)間因素,房價(jià)會隨時(shí)間變化,因此在以后研究中應(yīng)將此考慮進(jìn)去。

猜你喜歡
房型房源月度
有晶狀體眼后房型人工晶體植入術(shù)治療中高度近視的臨床觀察
從一句廣告詞看房地產(chǎn)經(jīng)紀(jì)的本質(zhì)
傳統(tǒng)吉祥紋樣在經(jīng)濟(jì)房型家居設(shè)計(jì)中的應(yīng)用
在線民宿首次出租間隔時(shí)長影響因素研究
——基于信號理論視角
眾籌筑屋規(guī)劃方案核算方法的數(shù)學(xué)模型
淺談高層住宅小戶型設(shè)計(jì)優(yōu)化研究及應(yīng)用
月度聚焦
月度聚焦
月度聚焦
月度聚焦