劉華琛+白峰+繆濤+謝偉
摘要摘要:以2016年某月存量房交易數(shù)據(jù)為例,通過(guò)使用公共地理編碼服務(wù),清理和規(guī)范化地址數(shù)據(jù)并獲得空間參照數(shù)據(jù)。以整理后的數(shù)據(jù)為基礎(chǔ),利用R交互式編程環(huán)境,以核密度分析和六邊形分析兩種方法,對(duì)存量房交易數(shù)據(jù)進(jìn)行空間點(diǎn)模式分析。結(jié)果表明,利用地理編碼服務(wù)獲取的數(shù)據(jù)能夠滿(mǎn)足空間分析需要;在R語(yǔ)言環(huán)境中可以方便快速地完成空間數(shù)據(jù)獲取、分析和展示的全過(guò)程,極大提高了空間分析效率;武漢市存量房交易密度大體上呈環(huán)線分布,漢口比武昌熱,漢口存在一個(gè)密集交易中心,武昌則呈現(xiàn)多點(diǎn)開(kāi)花的態(tài)勢(shì)。
關(guān)鍵詞關(guān)鍵詞:地理編碼;R語(yǔ)言;空間分析;點(diǎn)模式分析;核密度分析
DOIDOI:10.11907/rjdk.162298
中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)001014403
引言
隨著城市土地供應(yīng)和新建商品房供應(yīng)的日趨減少,房地產(chǎn)市場(chǎng)重心將逐步由一級(jí)市場(chǎng)轉(zhuǎn)移到二、三級(jí)市場(chǎng)。但目前的房產(chǎn)市場(chǎng)分析局限于新建商品房市場(chǎng),對(duì)存量房交易市場(chǎng)的研究未予以足夠重視。存量房交易市場(chǎng)分析研究滯后的原因在于交易數(shù)據(jù)地址信息不規(guī)范,缺乏相應(yīng)的空間數(shù)據(jù),無(wú)法在此基礎(chǔ)上開(kāi)展空間分析。另外,市場(chǎng)分析的空間分析過(guò)度依賴(lài)于GIS系統(tǒng)的建設(shè),導(dǎo)致技術(shù)和需求契合不足,造成分析工作滯后。
本文探索了利用公共地理編碼服務(wù),完善存量房交易數(shù)據(jù)的空間信息;同時(shí)脫離GIS系統(tǒng),利用R交互式編程環(huán)境,進(jìn)行存量房交易熱點(diǎn)空間分布的點(diǎn)模式分析。這對(duì)于利用交易地址信息、快速整理數(shù)據(jù)、建立分析模型和交互式圖形具有較好的參照意義。同時(shí),基于本文方法,可以進(jìn)一步挖掘時(shí)空數(shù)據(jù)的變遷,并促進(jìn)存量房、商品房等相關(guān)市場(chǎng)的關(guān)聯(lián)研究。
1數(shù)據(jù)獲取
數(shù)據(jù)分析的主要工作量來(lái)自于數(shù)據(jù)準(zhǔn)備,即數(shù)據(jù)的選取、清理和整理,以滿(mǎn)足數(shù)據(jù)分析需要。
1.1地址數(shù)據(jù)來(lái)源
武漢市存量房交易合同打印是存量房交易的前置條件,房屋坐落數(shù)據(jù)是由交易雙方根據(jù)房屋產(chǎn)權(quán)證證載坐落進(jìn)行填寫(xiě),其中可能出現(xiàn)少量填寫(xiě)錯(cuò)誤及文字編碼不規(guī)范的情況。為進(jìn)行市場(chǎng)分析,保證樣本的隨機(jī)性和代表性,本文選取2016某一交易月的存量房交易全月成交數(shù)據(jù)共7 805條作為分析樣本。
1.2空間參照數(shù)據(jù)獲取
樣本數(shù)據(jù)只包含有地址信息,沒(méi)有包含空間分析所需要的空間參照坐標(biāo)信息。本文利用公開(kāi)的地址編碼服務(wù),獲得和完善分析數(shù)據(jù)的空間參照數(shù)據(jù)。
1.2.1地址編碼
地址編碼(Geocoding)[1]是將地點(diǎn)的描述信息(地址或建筑物名稱(chēng))轉(zhuǎn)化地球表面位置(坐標(biāo))的過(guò)程。地址編碼分為正向地址編碼和反向地址編碼兩種。正向地址編碼是指從地址描述轉(zhuǎn)換成位置信息的過(guò)程,反向地址編碼則是從位置信息轉(zhuǎn)換成地址或建筑物名稱(chēng)的過(guò)程。
用于描述地點(diǎn)的位置信息的準(zhǔn)確度分為不同的級(jí)別,主要取決于查詢(xún)條件的準(zhǔn)確和詳細(xì)程度。通常情況下會(huì)提供建筑物中心點(diǎn)、街道中心點(diǎn)、郵政編碼區(qū)域中心點(diǎn)坐標(biāo)等不同準(zhǔn)確度的查詢(xún)結(jié)果。
1.2.2高德地圖的地理編碼服務(wù)
由于地圖基礎(chǔ)數(shù)據(jù)較為詳實(shí),API使用簡(jiǎn)便,本文采用高德地圖提供的地址編碼服務(wù)作為空間數(shù)據(jù)完善的工具。以查詢(xún)雄楚大街199號(hào)的空間位置為例,調(diào)用高德地理編碼服務(wù)后得到的是json形式的響應(yīng)報(bào)文,響應(yīng)報(bào)文內(nèi)容包括格式化地址即湖北省武漢市洪山區(qū)雄楚大街199號(hào),地址所在省、市、區(qū)、城市編碼(電話區(qū)號(hào))、區(qū)域編碼、平面坐標(biāo)("114.339802,30.515439",以逗號(hào)分隔的字符串表示),精度級(jí)別[2](門(mén)牌號(hào))等空間參照數(shù)據(jù)。
1.2.3利用R獲取空間數(shù)據(jù)
為了獲取7 805個(gè)交易樣本的空間參照數(shù)據(jù),本文通過(guò)使用R的RCurl包程序化調(diào)用地理編碼服務(wù),從而批量完成交易樣本數(shù)據(jù)的空間參照數(shù)據(jù)完善任務(wù)。程序包括以下步驟:①將地址數(shù)據(jù)規(guī)范化;②生成查詢(xún)URL,同時(shí)轉(zhuǎn)換為utf8編碼;③對(duì)API調(diào)用的結(jié)果進(jìn)行解析,獲取平面坐標(biāo)、精度信息和標(biāo)準(zhǔn)化地址。對(duì)7 805條樣本數(shù)據(jù)進(jìn)行空間數(shù)據(jù)解析結(jié)果統(tǒng)計(jì),地理編碼能達(dá)到門(mén)牌號(hào)、興趣點(diǎn)、交叉路口的樣本數(shù)據(jù)占總樣本的91%,足以支撐空間數(shù)據(jù)分析。
2空間點(diǎn)模式分析
2.1空間數(shù)據(jù)分類(lèi)及點(diǎn)模式
空間數(shù)據(jù)通常分為3類(lèi)[3]:①點(diǎn)參照數(shù)據(jù)(Point-Referenced Data),即有取樣點(diǎn)的空間位置是相對(duì)固定的,類(lèi)似于氣象觀測(cè)站獲得的數(shù)據(jù);②平面數(shù)據(jù)(Areal Data),即取樣點(diǎn)為有固定邊界的數(shù)據(jù),如行政區(qū)數(shù)據(jù);③點(diǎn)模式數(shù)據(jù)(Point Pattern Data),即取樣點(diǎn)不再是固定而是隨機(jī)的,存量房交易數(shù)據(jù)就屬于點(diǎn)模式數(shù)據(jù)。
點(diǎn)模式分析主要是研究特定事件隨機(jī)發(fā)生的地理位置關(guān)系,空間值域D是在某一特定區(qū)域內(nèi)特定事件發(fā)生的點(diǎn)集合,其中事件發(fā)生的點(diǎn)是隨機(jī)的。在進(jìn)行空間點(diǎn)模式分析時(shí),通常是為了評(píng)價(jià)事件發(fā)生可能性的集簇(Cluster)[4]。由于事件點(diǎn)通常是隨機(jī)產(chǎn)生的,因此許多空間點(diǎn)模型關(guān)注計(jì)算的是在空間值域范圍內(nèi)隨機(jī)點(diǎn)的可能密度。針對(duì)于存量房交易市場(chǎng)分析,空間點(diǎn)模式可以用于研究交易發(fā)生的熱度分度及不同類(lèi)型交易的空間分布及可能性分析(Marked Point Pattern Process)。
2.2KDE核密度估算與展示
最簡(jiǎn)單的空間點(diǎn)模式的模型是認(rèn)為存在一個(gè)密度函數(shù)f(x)能夠?qū)㈦S機(jī)點(diǎn)x的可能密度計(jì)算出來(lái)。假設(shè)一片區(qū)域(空間點(diǎn)的分布域),這片區(qū)域被分成細(xì)小的網(wǎng)格,每個(gè)網(wǎng)格都有各自的概率密度分布,那么指定區(qū)域的概率密度分布就是區(qū)域內(nèi)包含網(wǎng)格的概率密度分布的總和。這種密度分布通常是未知的,基于特定地理形狀的,而不是常見(jiàn)高斯分布 [5]。
用于估算f(x)的常用技術(shù)是KDE(Kernel Density Estimates),KDE假定(x1,x2,…xn )是密度函數(shù)f(x)在某種分布下的獨(dú)立同分布的采樣。為了測(cè)算f(x)的形狀, KDE采用式(1):^fh(x)=1n∑ni=1Kh(x-xi)=1nh∑ni=1Kh(x-xih)(1)其中K(·)是核函數(shù),h稱(chēng)為帶寬(Bandwidth),是用于平滑的參數(shù)。在空間分析中,KDE的基本思路是有一系列的空間樣本點(diǎn),以每個(gè)空間樣本點(diǎn)為核心,h為半徑,隨機(jī)生成n個(gè)樣本點(diǎn),每個(gè)樣本點(diǎn)都以K作為概率密度分布函數(shù),現(xiàn)有樣本點(diǎn)的概率密度分布就等于這n個(gè)樣本點(diǎn)概率密度的均值[6]。
因此,h的選取對(duì)KDE結(jié)果的影響很大。h選擇較小,分布就會(huì)產(chǎn)生多個(gè)峰值,h選擇較大,則分布就相對(duì)平滑??梢圆捎煤?jiǎn)單的規(guī)則選取h,如式(2):hx=σx(23n)16(2) 式(2)是空間位置x的標(biāo)準(zhǔn)差。以存量房交易發(fā)生位置進(jìn)行分析,圖1顯示不同h對(duì)KDE結(jié)果的影響。
如圖1(b)所示,從高平滑處理結(jié)果看,武漢市存量房成交的密度總體按照環(huán)線分布,內(nèi)環(huán)尤其是漢口內(nèi)環(huán)存量房成交最為密集。所有交易基本上在三環(huán)以?xún)?nèi),交易密度從內(nèi)環(huán)到外環(huán)逐層遞減。如圖1(a)所示,武漢市存量房交易在中心城區(qū)交易密集度可分為3個(gè)等級(jí),交易最密集地區(qū)分布在以解放大道和香港路交匯為中心,北至江大路,南至中山大道友誼路交匯處,東至沿江大道和三陽(yáng)路交匯處,西至建設(shè)大道和萬(wàn)松園交匯處的區(qū)域漢口核心區(qū)域。交易密度較為密集的則集中在武昌南湖片、積玉橋片、徐東片。武昌光谷片、青山片區(qū)和漢口后湖片和漢陽(yáng)王家灣片區(qū)緊接其后,屬于第三層級(jí)。存量房交易在新城區(qū)的分布則局限于新城區(qū)的城關(guān)鎮(zhèn)和陽(yáng)邏、盤(pán)龍城、沌口開(kāi)發(fā)區(qū),但交易密度遠(yuǎn)遠(yuǎn)低于中心城區(qū)。
2.3六邊形分檔
六邊形分檔(Hexagonal Binning)是顯示空間數(shù)據(jù)分布的另一項(xiàng)有效工具。六邊形分檔的原理十分簡(jiǎn)單[7],即用六角形的網(wǎng)格覆蓋觀察區(qū)域,然后計(jì)算每個(gè)網(wǎng)格中點(diǎn)的數(shù)量,最后將點(diǎn)數(shù)大于0的網(wǎng)格通過(guò)不同的顏色或大小按比例顯示。通過(guò)使用R的fMultivar包可以將全市存量房交易區(qū)域分為161個(gè)存在交易的六角形區(qū)域,其中交易最密集區(qū)域的月交易量達(dá)364個(gè)。通過(guò)標(biāo)記圓大小顯示交易密集地區(qū)的地圖顯示如圖2所示。相對(duì)于圖1,其六角分檔更為簡(jiǎn)單直接。
3結(jié)語(yǔ)
通過(guò)本文研究,可得出如下結(jié)論:由于空間數(shù)據(jù)缺乏,存量房交易研究一直局限于常規(guī)的統(tǒng)計(jì)分析;通過(guò)使用第三方公開(kāi)的地理編碼服務(wù),可以解決空間數(shù)據(jù)缺失的問(wèn)題,從而實(shí)現(xiàn)有效的空間分析,尤其是點(diǎn)模式分析;利用R語(yǔ)言提供的各種分析包和工具可以脫離傳統(tǒng)的GIS工具快速進(jìn)行空間分析和展示,加快和簡(jiǎn)化分析過(guò)程;以武漢市為例,存量房交易的熱點(diǎn)區(qū)域仍然主要在中心城區(qū)內(nèi)進(jìn)行,尤其是在漢口中心區(qū)域;存量房交易空間的點(diǎn)模式分析,最直接的應(yīng)用是幫助經(jīng)紀(jì)行業(yè)更精確地確定網(wǎng)店分布。后續(xù)研究中,可建立新建商品房增加、城市拆遷和存量房交易之間的空間相關(guān)性,從而獲得存量房交易的空間發(fā)展趨勢(shì)。
參考文獻(xiàn):
[1]DAVISC A,F(xiàn)ONSECA F T.Assessing the certainty of locations produced by an address geocoding system[J].Geoinformatica,2007,11(1):103129.
[2]DANIEL TESKE.Geocoder accuracy ranking[J].Communications in Computer and Information Science,2014,500(1):161174.
[3]SUDIPTO BANERJEE,BRADLEY.Hierarchical modeling and analysis for spatial data[M].USA,CRC,2015.
[4]MARTA BLANGIARDO,MICHELA CAMELETTI.Spatial and spatiotemporal bayesian models with RINLA[M].United Kingdom:Wiley,2015.
[5]CHRIS BRUNSDON,LEX COMBER.An introduction to R for spatial analysis&mapping[M].United Kingdom:SAGE,2015.
[6]S J SHEATHER,M C JONES.A reliable databased bandwidth selection method for kernel density estimation[J].Journal of the Royal Statistical Society:Series B,1991(2):683690.
[7]NICHOLAS LEWINKOH.Hexagon binning:an overview [EB/OL].https://cran.rproject.org/web/packages/hexbin/vignettes/hexagon_binning.pdf.
責(zé)任編輯(責(zé)任編輯:孫娟)