国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Python爬蟲的南京市二手房市場現(xiàn)狀分析和熱點研究

2021-02-26 16:53馮崇軍
電腦與電信 2021年11期
關(guān)鍵詞:戶型爬蟲二手房

馮崇軍

(南京衛(wèi)生高等職業(yè)技術(shù)學校,江蘇 南京 210046)

1 引言

房地產(chǎn)市場是關(guān)乎國計民生的重要經(jīng)濟產(chǎn)業(yè),近期中央多個部委召開會議強調(diào)保持樓市調(diào)控政策的連續(xù)性和穩(wěn)定性,在“房住不炒”基調(diào)指導(dǎo)下,地方政府在房地產(chǎn)監(jiān)管上因城施策,南京作為長三角區(qū)域的房市熱點城市,調(diào)控政策也聚焦穩(wěn)低價、穩(wěn)房價、穩(wěn)預(yù)期等方面持續(xù)發(fā)力,力爭確保房地產(chǎn)市場平穩(wěn)健康發(fā)展。本文選取南京地區(qū)二手房市場作為研究對象,使用Python 爬蟲采集網(wǎng)上的二手房源掛牌信息,以爬取的信息數(shù)據(jù)為分析依據(jù),從價格趨勢、房源類型、熱點區(qū)域等多個維度分析二手房市場的現(xiàn)狀,并將分析結(jié)果數(shù)據(jù)進行可視化處理,方便用戶參考決策。

2 二手房源數(shù)據(jù)采集和預(yù)處理

2.1 數(shù)據(jù)來源及變量設(shè)計

由于城鄉(xiāng)二手房源的價格懸殊,且偏遠郊區(qū)的房源流通性很小,本文僅爬取南京市熱點城區(qū)的在售二手房數(shù)據(jù)進行分析,對二手房市場的現(xiàn)實狀況進行多維度分析。此外,由于各城區(qū)二手房樣本量超過3000之后信息會出現(xiàn)大量干擾或無效信息,進行篩選分析后決定爬取各區(qū)約3000份房源樣本,并剔除了面積在10000平方以上特殊房源。通過網(wǎng)頁研究,我們將各主城區(qū)二手房源的小區(qū)、地段、面積、建設(shè)年代、朝向、裝修、稅率、價格等信息作為研究變量,從而確定Python爬蟲需要從網(wǎng)站抓取的數(shù)據(jù)范疇。

通過對市場認可度較高的搜房網(wǎng)、安居客、鏈家網(wǎng)等二手房掛牌網(wǎng)站進行的初步觀察統(tǒng)計發(fā)現(xiàn),鏈家網(wǎng)依托分布廣泛、覆蓋全面的線下門店系統(tǒng),能夠?qū)崟r動態(tài)更新其網(wǎng)站的二手房信息,并能對海量的房源數(shù)據(jù)進行嚴格審查,從而確保網(wǎng)站數(shù)據(jù)的真實可靠,能夠很好地反應(yīng)南京當?shù)氐亩址渴袌霈F(xiàn)狀。

2.2 數(shù)據(jù)爬取過程設(shè)計

Requests 庫作為Python 常用的HTTP 庫之一,在友好繼承urlib標準庫的規(guī)范的基礎(chǔ)上,對主要的爬蟲模塊進行了高度封裝,便于用戶更加方便快捷地進行web 數(shù)據(jù)的爬取操作。其中requests.get()是獲取網(wǎng)頁的方法,如r=requests.get(url),r是一個Response對象,Request對象包含爬蟲返回的服務(wù)器資源,可以使用get(url)方法構(gòu)造一個向服務(wù)器請求資源的Request。

為了有效應(yīng)對網(wǎng)站的反爬蟲機制,本研究對爬蟲的請求頭進行了偽裝處理,在頭部信息中添加了特定的瀏覽器表示和訪問地址,使得HTTP請求在實際運行中能夠模擬人的操作。循環(huán)爬取每個行政區(qū)至少3000個房源信息,利用BeautifulSoup對站點數(shù)據(jù)進行解析,從中獲取房源標題、小區(qū)、位置、稅率、總價、單價等信息,通過“|”切割房源標簽,獲得面積、朝向、裝修、建設(shè)年份等,并將數(shù)據(jù)結(jié)構(gòu)化處理存入DataFrame。關(guān)鍵代碼如圖1所示。

圖1 Python爬蟲構(gòu)造房源數(shù)據(jù)集的關(guān)鍵代碼

2.3 數(shù)據(jù)結(jié)構(gòu)分析及預(yù)處理

從二手房網(wǎng)站共計爬取到24080個房源信息,其中存在空值、重復(fù)值、數(shù)據(jù)格式不規(guī)范等問題,為了保證后期分析研究的信效度,在使用前需要對數(shù)據(jù)進行預(yù)處理。重復(fù)值主要表現(xiàn)為數(shù)據(jù)重復(fù)行,使用drop_duplicates()方法直接刪除存在重復(fù)的數(shù)據(jù)行。對于空值的處理,根據(jù)房源數(shù)據(jù)的實際表述形式及研究的需要,對不同字段的空值采用了不同的處理方式,對行政區(qū)、房源標題、地段、小區(qū)、面積、戶型、價格等關(guān)鍵字段存在空值的情況,直接使用dropna()方法刪除該房源數(shù)據(jù),對于稅率、朝向、裝修及建設(shè)年份字段存在空值的房源,按小區(qū)字段排序后,使用df.fillna()方法插入上下文數(shù)據(jù)進行填充。由于鏈家網(wǎng)站對房源數(shù)據(jù)的審核嚴格,所爬取的房源數(shù)據(jù)普遍格式規(guī)整,主要朝向及建設(shè)年份兩個字段存在不規(guī)范的數(shù)據(jù),以小區(qū)、面積字段作為關(guān)鍵字排序后,使用同小區(qū)近似面積房源的上下文數(shù)據(jù)對異常值進行替換填充。數(shù)據(jù)清洗和預(yù)處理后的主要代碼如圖2所示。

圖2 通過Python爬蟲獲取的二手房源數(shù)據(jù)集縮略圖

3 二手房市場現(xiàn)狀分析及數(shù)據(jù)可視化

3.1 二手房掛牌數(shù)據(jù)的可視化分析

數(shù)據(jù)可視化能讓人們更直觀地了解數(shù)據(jù)所表達的信息。Echarts 是百度開源的一個數(shù)據(jù)可視化JS 庫,主要用于數(shù)據(jù)可視化。Pyecharts 是一個用于生成Echarts 圖表的類庫,即用Python 編碼創(chuàng)作Echarts 圖表的專門模塊。對南京市區(qū)的24000套二手房源按總結(jié)及面積進行關(guān)聯(lián)分析,形成了面積—總價的散點圖,由圖3 可見,南京市區(qū)的二手房以500 萬的總價為界限,面積與價格呈現(xiàn)的相關(guān)性有明顯的分化趨勢。其中,200平方米以內(nèi)的二手房源,總價與面積的相關(guān)性更強,與市場上二居室、三居室二手房量占比較高的事實相符,也會剛需購房者的首選,側(cè)面印證了較小戶型的房源在掛牌出售時買賣雙方對價格的敏感度更高的現(xiàn)實情況。而200平方米以上的大戶型房源,隨著面積的增加,與總價的相關(guān)性逐漸變?nèi)?,尤其?00平方米以上的戶型房源的總價—面積離散度更高,大戶型房源以四居室、五居室、別墅等特殊戶型為主,是改善性購房者的主要目標,但由于總價高而帶來的巨大資金壓力,買賣雙方對于房源的裝修條件、小區(qū)環(huán)境、位置地段及周邊配套等環(huán)境因素的考量會更多,因而房源面積的細微差別并不會影響市場主體的成交意向。

圖3 南京市二手房源總價—面積散點圖

二手房市場的情況從房源的分布地段可以得到體現(xiàn),如圖4 所示,在南京二手房均價TOP10 地段的柱狀圖中,鼓樓區(qū)作為省級機關(guān)的集中地,也是南京的科教中心,其二手房價長期占據(jù)高位,且受到學區(qū)房政策的利好推動,二手房價格節(jié)節(jié)攀升,在均價TOP10地段中占據(jù)2/3的優(yōu)勢。其次,玄武區(qū)是南京市的行政中心,其科教文旅產(chǎn)業(yè)優(yōu)勢突出且發(fā)展均衡,玄武門及北京東路區(qū)域有優(yōu)質(zhì)學區(qū)的加持,其二手房價格也普遍較高,且相當堅挺。唯一進入TOP10的新城區(qū)是奧體地段,作為河西新城的核心區(qū),憑借政府的超前規(guī)劃及大量優(yōu)質(zhì)房企數(shù)十年的精耕細作,金融、體育、文旅、科技等產(chǎn)業(yè)已初成規(guī)模,且區(qū)域環(huán)境、交通條件得天獨厚,隨著一批優(yōu)質(zhì)學校的進駐,二手房價格持續(xù)走高,已有比肩鼓樓、玄武的實力。

圖4 南京市二手房均價TOP 10 地段

二手房市場的情況,也可以從房源本身的戶型結(jié)構(gòu)進行分析,通過對南京市場的二手房源戶型進行統(tǒng)計分析,可視化生成了各戶型分布的餅圖,由圖5可見,兩室一廳、三室兩廳戶型構(gòu)成了南京二手房市場的主力戶型,這也體現(xiàn)了購房者對傳統(tǒng)戶型房源高度認可,傳統(tǒng)的戶型結(jié)構(gòu)得房率高、采光通風較佳,更加契合購房者的居住習慣,也能帶來更好的生活體驗。其次,三室一廳及兩室兩廳的戶型也占比較高,作為小戶型房源中的特殊戶型,對于年輕的購房者更加有吸引力。其他的大戶型房源及單室套房源相對較少,主要是面向改善性需求的家庭購房者或單身客戶。

圖5 南京市二手房戶型分布餅圖

3.2 二手房市場熱度研究

經(jīng)過觀察研究常用的二手房網(wǎng)站,可以發(fā)現(xiàn),業(yè)主和中介更傾向于在房源標題中用特定的詞語來描述并突出房源的優(yōu)勢,以此吸引購房者的注意。為了更加準確直觀地分析南京市二手房源的市場熱點,對數(shù)據(jù)集的房源標題字段進行分詞處理,并統(tǒng)計詞頻,然后使用WordCloud()方法繪制詞云圖,以詞云圖的形式來展示二手房源的市場關(guān)注熱點。

如圖6,從二手房源標題分詞的統(tǒng)計情況來看,“采光”一詞的出現(xiàn)頻次最高,這與南京市場的二手房房源現(xiàn)狀有顯著關(guān)系,從數(shù)據(jù)集中的二手房建設(shè)年份來看,房齡在10年以上的二手房占比達到76%以上,而房齡在20年以上的老房子占比是36%,對于市區(qū)建設(shè)年份較早的房源,普遍存在樓間距小、低層住宅多、周邊高層建筑遮擋視野等問題,采光狀況直接關(guān)系到業(yè)主的居住體驗,所以采光問題受到購房者的重點關(guān)注。同時,“樓層”“戶型”作為二手房源的客觀屬性,在二手房賣點的宣傳中占據(jù)了主要地位,與此相關(guān)的“黃金樓層”“南北通透”“戶型方正”“朝南”等詞頻也普遍較高,這些因素均與房屋的居住體驗密切相關(guān),也側(cè)面證明南京市場的二手房購買者主要以自住為目的,與新房的投資屬性截然不同。其次,“精裝修”“配套”“交通”“便利”等詞語在房源標題中的出現(xiàn)頻次也較高,可見關(guān)于房源內(nèi)裝檔次、周邊配套及交通便利性等環(huán)境指標的水平也受到二手房市場參與者的重點關(guān)注。從有關(guān)房源描述的熱點詞云圖來看,購房者的自住需求是二手房市場的主導(dǎo)因素,房源的硬件屬性及環(huán)境指標是影響買賣雙方形成成交意向的主要決定因素,進而也表現(xiàn)為南京二手房市場的熱點。

圖6 南京市二手房源市場熱點分析圖

4 結(jié)語

本文通過編碼設(shè)計實現(xiàn)Python爬蟲,并運用Pandas、Pyecharts 等擴展庫對爬取的南京市二手房數(shù)據(jù)集進行結(jié)構(gòu)化處理及分析,采用豐富的可視化圖形直觀呈現(xiàn)了南京市二手房源的價格、面積、戶型、區(qū)位等分布現(xiàn)狀及市場熱點。研究發(fā)現(xiàn),以鼓樓、玄武為代表的主城區(qū)二手房源,源于學區(qū)、交通、環(huán)境配套等因素的巨大優(yōu)勢,均價普遍較高,處于第一梯隊。以奧體為代表的河西新城片區(qū),受益于產(chǎn)業(yè)定位高、立體交通覆蓋及名校學區(qū)資源的加盟等因素,二手房均價也遙遙領(lǐng)先。同時,研究發(fā)現(xiàn)南京市掛牌的二手房源中,10年以上房齡的二手房源占比達到76%,傳統(tǒng)的兩室一廳、三室兩廳戶型的房源占據(jù)主力地位,二手房市場的買賣雙方則更加注重房屋的居住感受和生活體驗,可見南京市場二手房的投資屬性相對較弱,更多地傾向于滿足潛在客戶的剛性居住需求。隨著國家房產(chǎn)調(diào)控政策的不斷優(yōu)化,二手房市場的發(fā)展必將更加分化和多元,積極探索使用大數(shù)據(jù)技術(shù)分析當前的二手房市場,并高效預(yù)測未來的二手房變化趨勢和行業(yè)熱點,必能合理引導(dǎo)二手房市場的參與者理智決策,促進房地產(chǎn)經(jīng)濟的健康發(fā)展。

猜你喜歡
戶型爬蟲二手房
利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
長城腳下坐望山——C1戶型&D3戶型
僑城一號A&E戶型
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
格局已變!最新數(shù)據(jù)揭示,廣州樓市七成多戶型超100m2!
二手房買賣之賣方違約糾紛解析
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
下半年北京二手房或?qū)⒂瓉斫禍乇P整
本市二手房成交量及價格走勢圖
抓住客戶需求 促進交易達成——以二手房交易為例
朝阳区| 桐梓县| 鄂伦春自治旗| 沙坪坝区| 临漳县| 武威市| 边坝县| 利辛县| 垫江县| 峨边| 宁夏| 辽宁省| 高要市| 乌鲁木齐县| 利津县| 新邵县| 永仁县| 门头沟区| 宁晋县| 裕民县| 会宁县| 堆龙德庆县| 土默特右旗| 荃湾区| 黔西县| 阜宁县| 库尔勒市| 北海市| 法库县| 镇安县| 孟连| 平舆县| 桦川县| 田东县| 阿图什市| 丰县| 延津县| 年辖:市辖区| 陵水| 个旧市| 绥江县|