国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

省域房產(chǎn)大數(shù)據(jù)熱力圖人工智能預(yù)測系統(tǒng)①

2022-05-10 02:28楊海濤孫慶輝呂建明阮鎮(zhèn)江夏蘭亭
計算機系統(tǒng)應(yīng)用 2022年2期
關(guān)鍵詞:熱力時序年份

楊海濤,孫慶輝,呂建明,阮鎮(zhèn)江,夏蘭亭,徐 飛

1(廣東省建設(shè)信息中心,廣州 510055)

2(華南理工大學(xué) 計算機科學(xué)與工程學(xué)院,廣州 510006)

1 背景和目標(biāo)

1.1 課題背景

省域地理范圍房產(chǎn)權(quán)利登記和交易活動中所形成的歷年數(shù)據(jù)記錄是反映我國經(jīng)濟社會活動的重要大數(shù)據(jù)基礎(chǔ)資源.我們在承擔(dān)廣東省應(yīng)用型科技研發(fā)專項資金重點項目“省域房地產(chǎn)交易數(shù)據(jù)資源云同步及大數(shù)據(jù)規(guī)?;瘧?yīng)用”過程中,獲得了海量的廣東省域房地產(chǎn)交易法定業(yè)務(wù)實錄大數(shù)據(jù)資源.然而,這些過往業(yè)務(wù)所產(chǎn)生的歷史和現(xiàn)狀大數(shù)據(jù)的直接使用,只能發(fā)揮其檔案查詢、數(shù)據(jù)統(tǒng)計和現(xiàn)態(tài)監(jiān)控的數(shù)據(jù)支持作用,對于省級房地產(chǎn)主管部門進行房地產(chǎn)市場預(yù)警預(yù)報,開展住房和房地產(chǎn)管理政策、產(chǎn)業(yè)發(fā)展和住房建設(shè)規(guī)劃的研究和制定等并無前瞻性的幫助.就我國房地產(chǎn)大數(shù)據(jù)應(yīng)用意義而言,省域區(qū)劃是我國社會治理和政治經(jīng)濟特色的最大綜合管治(包括監(jiān)管服務(wù)與行業(yè)調(diào)控)單元.特別是,廣東省作為我國第一經(jīng)濟大省,2019年全省實現(xiàn)地區(qū)生產(chǎn)總值107 671.07 億元(僅低于世界排行第12 名的韓國),其中全年新增房地產(chǎn)開發(fā)投資15 852.16 億元[1],加上城鎮(zhèn)與房產(chǎn)為依托的各行各業(yè)的經(jīng)濟產(chǎn)值則總量更為巨大.因此在宏觀層面研究廣東省域房產(chǎn)大數(shù)據(jù)并深化其應(yīng)用具有重要的現(xiàn)實意義.本文擬通過建立基于人工智能的系統(tǒng)平臺,全程實現(xiàn)對既有積累的海量房產(chǎn)法定業(yè)務(wù)大數(shù)據(jù)資源做可視化呈現(xiàn)并面向未來進行建模預(yù)測,以探索實現(xiàn)直觀地顯示預(yù)示廣東省域城鄉(xiāng)建設(shè)、城鎮(zhèn)發(fā)展的某些重要指標(biāo)(如房產(chǎn)或房屋建筑面積和套數(shù))的時空演化過程,為研究廣東省域城鄉(xiāng)建設(shè)、區(qū)劃經(jīng)濟的布局趨勢,科學(xué)有效地輔助支持各相關(guān)城市開發(fā)建設(shè)管理決策和省域房地產(chǎn)市場宏觀調(diào)控等工作服務(wù).

1.2 前期工作

在“十三五”期間,我們一直從事廣東省域房產(chǎn)大數(shù)據(jù)相關(guān)工作,具備了進一步開展房產(chǎn)大數(shù)據(jù)深度智慧應(yīng)用的基礎(chǔ).

1.2.1 房產(chǎn)大數(shù)據(jù)基礎(chǔ)平臺及數(shù)據(jù)資源開發(fā)建設(shè)

建立“(房產(chǎn))行業(yè)數(shù)據(jù)云同步樞紐平臺系統(tǒng)”:實現(xiàn)了可覆蓋全省各市房地產(chǎn)交易登記數(shù)據(jù)的同步歸集.提供了包括同步系統(tǒng)節(jié)點規(guī)劃管理、安裝配置,分塊流水線處理、單和雙向同步(全量/增量,樂觀/謹(jǐn)慎校驗策略,同步塊及分組調(diào)適)、并發(fā)控制、指標(biāo)映射、多屬性主鍵歸一、敏感字段Hash,以及同步正確性保障等較齊全的同步樞紐平臺功能.

建立“HBDP (housing big data platform)省房屋大數(shù)據(jù)計算集群及作業(yè)調(diào)度系統(tǒng)”[2]:集群采用Hadoop分布式文件存儲架構(gòu),選用Hive 管理元數(shù)據(jù),供用戶利用Spark SQL 進行房屋大數(shù)據(jù)分布式交互分析,參見圖1.

圖1 HBDP 省房屋大數(shù)據(jù)計算集群及作業(yè)調(diào)度系統(tǒng)

歸集省域房產(chǎn)交易登記數(shù)據(jù)資源:形成全省房產(chǎn)交易與產(chǎn)權(quán)管理數(shù)據(jù)大字典1 137 頁(省和各市卷合編),入庫各市4 108 個原始表、92 871 列字段、9.07 億條記錄,約203.7 GB 數(shù)據(jù)量.析出房產(chǎn)單元約1 551.4 萬套(其中,住宅831.8 萬套,有房屋建成年份的約1 200 萬套)、產(chǎn)權(quán)人827 萬.梳理8 市網(wǎng)簽和預(yù)售系統(tǒng)樓盤表共935.4 萬戶和22 790 個房地產(chǎn)項目的數(shù)據(jù).

1.2.2 海量地址關(guān)聯(lián)數(shù)據(jù)的熱力圖渲染優(yōu)化研發(fā)

地址關(guān)聯(lián)數(shù)據(jù)的地理分布熱力圖呈現(xiàn)通常是依托基于位置服務(wù) (location-based service,LBS)公共平臺進行二次開發(fā)實現(xiàn).現(xiàn)有方案是將所有地址關(guān)聯(lián)數(shù)據(jù)在本地進行整理后按照固定的格式全部上傳至LBS服務(wù)提供商的遠程服務(wù)器,由遠程服務(wù)器處理后返回本地進行呈現(xiàn).但是,在處理海量數(shù)據(jù)時,該方案由于互聯(lián)網(wǎng)帶寬和PC 瀏覽器處理能力的限制,實際響應(yīng)慢,用戶體驗差.對此,我們通過實踐探索,創(chuàng)造性實現(xiàn)了“一種地址關(guān)聯(lián)數(shù)據(jù)處理方法、用戶終端和服務(wù)器”[3],它依據(jù)用戶選擇的需求參數(shù)和應(yīng)用的地圖屬性,將輸入的海量地址關(guān)聯(lián)數(shù)據(jù)劃分成即時渲染(第1 組)和延緩渲染(第2 組)兩組數(shù)據(jù),使得第1 組的數(shù)據(jù)能迅速在客戶端呈現(xiàn),同時第2 組數(shù)據(jù)的落圖渲染計算在本地服務(wù)器(集群)同步進行.這種前后兩組計算結(jié)合能顯著地提高海量地址關(guān)聯(lián)數(shù)據(jù)落圖渲染呈現(xiàn)的響應(yīng)速度,改善了相關(guān)應(yīng)用的用戶體驗,解決了一般PC 端網(wǎng)頁瀏覽器在交互式播放海量地址關(guān)聯(lián)數(shù)據(jù)渲染所普遍遇到的顯示滯卡問題.具體參見圖2.

圖2 海量地址關(guān)聯(lián)數(shù)據(jù)渲染優(yōu)化處理框圖

1.3 課題目標(biāo)

1.3.1 省域房產(chǎn)大數(shù)據(jù)熱力圖系統(tǒng)總體構(gòu)成系統(tǒng)總體由兩大部分構(gòu)成,參見圖3.

圖3 省域房產(chǎn)大數(shù)據(jù)熱力圖系統(tǒng)總體構(gòu)成

第一部分是基礎(chǔ)設(shè)施部分,它由負責(zé)數(shù)據(jù)歸集和專題數(shù)據(jù)生產(chǎn)的系統(tǒng)構(gòu)成:首先由“(房產(chǎn))行業(yè)數(shù)據(jù)云同步樞紐平臺系統(tǒng)”同步歸集廣東省域各地城市源數(shù)據(jù),然后,經(jīng)由“HBDP 省房屋大數(shù)據(jù)計算集群及作業(yè)調(diào)度系統(tǒng)”計算生成適用于熱力圖渲染播放的熱力值專題大數(shù)據(jù)對象.本文術(shù)語“房屋”與“房產(chǎn)”可相互通用,具體沿繼使用習(xí)慣.

第二部分是熱力圖播放和預(yù)報部分,它由“熱力圖播放系統(tǒng)”和“人工智能預(yù)測系統(tǒng)”構(gòu)成.其中,“人工智能預(yù)測系統(tǒng)”為本文研發(fā)的重點,它提供人工智能建模預(yù)測功能,負責(zé)使用已有的熱力值數(shù)據(jù)訓(xùn)練模型并產(chǎn)生預(yù)測輸出.

1.3.2 關(guān)鍵研發(fā)任務(wù)—人工智能預(yù)測系統(tǒng)

在前述總體框架,待研發(fā)實現(xiàn)的是“人工智能預(yù)測系統(tǒng)”.而該系統(tǒng)的關(guān)鍵在于如何有效地實現(xiàn)“省域房產(chǎn)大數(shù)據(jù)熱力值預(yù)測計算”的核心課題任務(wù)上.基于我們所能掌握的廣東省域房產(chǎn)大數(shù)據(jù)資源限于2018年之前的原始數(shù)據(jù),我們將本文主要課題任務(wù)的實質(zhì)性研發(fā)內(nèi)容具體地明確為:如何利用人工智能算法對既獲得的已知的廣東省各市截至2017年的房產(chǎn)登記和交易業(yè)務(wù)等歷史記錄的指標(biāo)數(shù)據(jù)(房產(chǎn)套數(shù)和面積)的熱力值,建立可重復(fù)使用的時序預(yù)測模型系統(tǒng),特別是,近期實現(xiàn)預(yù)測后來2018–2023年指標(biāo)數(shù)據(jù)熱力值;據(jù)此,為將來具備條件(獲得后繼年份數(shù)據(jù)資源)時,滾動地推廣應(yīng)用至更多的未知數(shù)據(jù)年份.

2 技術(shù)問題歸結(jié)與預(yù)測建模設(shè)計

針對上節(jié)提出的主要課題任務(wù),我們首先從計算機系統(tǒng)開發(fā)建設(shè)與應(yīng)用的角度出發(fā),細化和明確所擬要研究解決的實質(zhì)技術(shù)問題及其技術(shù)路線.具體地,本文課題的核心研發(fā)內(nèi)容主要包括以下3 方面:1)關(guān)鍵指標(biāo)及其計算問題的歸結(jié);2)總體計算處理框架設(shè)計;3)時序預(yù)測模型設(shè)計與實現(xiàn).

2.1 問題歸結(jié)

(1)房產(chǎn)熱力值的定義

所謂熱力圖就是關(guān)于地理區(qū)域單元上的計算指標(biāo)的值即“熱力值”的地圖渲染.具體地,本課題所研究的房產(chǎn)熱力值是關(guān)于一個地理區(qū)域內(nèi)的房產(chǎn)指標(biāo)(套數(shù)和面積)的統(tǒng)計量的數(shù)值.

(2)時序數(shù)據(jù)計算任務(wù)定義

本文處理的房產(chǎn)指標(biāo)熱力值是具有時間屬性的,從而可構(gòu)成時序序列.相應(yīng)的時序數(shù)據(jù)計算任務(wù)包括:一是由原始房產(chǎn)業(yè)務(wù)記錄導(dǎo)出可直接計算房產(chǎn)熱力值的房產(chǎn)單元記錄;二是由已知的一系列年份的房產(chǎn)單元記錄數(shù)據(jù)集計算出對應(yīng)地理區(qū)域的房產(chǎn)指標(biāo)(套數(shù)和面積)的熱力值(可直接在百度地圖上標(biāo)識渲染成熱力圖);三對地理區(qū)域后繼年份的未知房產(chǎn)指標(biāo)熱力值進行預(yù)測計算.為簡化起見,只對套數(shù)和面積兩個基本指標(biāo)進行預(yù)測.

鑒于房產(chǎn)數(shù)據(jù)的變化規(guī)模與頻度的實際情況,本文所考慮的時序單位明確為“年份”.

原始房產(chǎn)業(yè)務(wù)記錄化為如下房產(chǎn)單元記錄格式:

<房產(chǎn)單元>(經(jīng)度,緯度,建成年份,套數(shù)|面積,城市)

其中,經(jīng)度和緯度坐標(biāo)是用房產(chǎn)單元坐落地址調(diào)用“百度開放平臺”Web 服務(wù)API的地理編碼服務(wù)(又名Geocoder)[4]獲得.例如,以房產(chǎn)單元坐落“廣州市越秀區(qū)豪賢路102 號”調(diào)用百度Geocoder,可獲得經(jīng)緯度坐標(biāo){113.281 270 035 554 5,23.136 617 015 096 8}.

我們所討論的房產(chǎn)熱力值是關(guān)于具體地理區(qū)域內(nèi)的所有<房產(chǎn)單元>個數(shù)(稱作“套數(shù)”)或面積的統(tǒng)計值的數(shù)量指標(biāo).欲將房產(chǎn)熱力值落在百度地圖上渲染顯示,就必須將其與地理區(qū)域的坐標(biāo)相關(guān)聯(lián).為簡單起見,我們采取地理區(qū)域中心點的經(jīng)度和緯度來標(biāo)識地理區(qū)域,從而有如下的房產(chǎn)指標(biāo)熱力屬性關(guān)系:

<區(qū)域房產(chǎn)熱力>(經(jīng)度,緯度,年份,熱力值,城市)

其中,“熱力值”是該(經(jīng)度,緯度)所標(biāo)識區(qū)域截止于“年份”的期末實有房產(chǎn)單元的“套數(shù)|面積”統(tǒng)計數(shù)(假設(shè)房產(chǎn)房屋建成后一直存在,則它代表歷年直至該“年份”期末的累計數(shù),以下均采用此假設(shè)).

(3)時序計算區(qū)域的網(wǎng)格化處理

為確定最基本的地理區(qū)域單元,也為了細化計算處理、減少隨機噪音影響,我們將廣東省全域(東沙群島除外)分成M×M個矩形區(qū)域(M>0),稱作“M分網(wǎng)格”.每個網(wǎng)格區(qū)域可用經(jīng)其左下角點的網(wǎng)格線的行號和列號來唯一標(biāo)識:網(wǎng)格(x,y)代表以第x列、第y行(0≤x<M,0≤y<M)網(wǎng)格線的交點為其左下角的矩形網(wǎng)格區(qū)域.

網(wǎng)格 (x,y)區(qū)域的年房產(chǎn)熱力值(套數(shù)|面積)按房產(chǎn)房屋建成年份排列構(gòu)成如下時序:

1)網(wǎng)格(x,y)房產(chǎn)套數(shù)累計時序:

Tx,y={Tx,y,1,Tx,y,2,···}

其中,Tx,y,i為第i年(x,y)區(qū)域累計房產(chǎn)套數(shù).

2)網(wǎng)格(x,y)房產(chǎn)套數(shù)增量時序:

?Tx,y={?Tx,y,1,?Tx,y,2,···}

其中,?Tx,y,i為第i年(x,y)區(qū)域新增房產(chǎn)套數(shù),可由下式計算:

?Tx,y,i=Tx,y,i?Tx,y,i?1

3)網(wǎng)格(x,y)房產(chǎn)面積累計時序:

Ax,y={Ax,y,1,Ax,y,2,···}

其中,Ax,y,i表示第i年(x,y)區(qū)域累計房產(chǎn)面積.

4)網(wǎng)格(x,y)房產(chǎn)面積增量時序:

?Ax,y={?Ax,y,1,?Ax,y,2,···}

其中,?Ax,y,i表示第i年(x,y)區(qū)域新增房產(chǎn)面積,可由下式導(dǎo)出:

?Ax,y,i=Ax,y,i?Ax,y,i?1

進一步,在更大的尺度上,對于某個城市c,我們得到市級房產(chǎn)熱力值統(tǒng)計值序列如下:

1)市級房產(chǎn)套數(shù)累計時序:

Tc={Tc1,Tc2,···}

其中,Tic表示第i年城市c累計房產(chǎn)套數(shù).

2)市級房產(chǎn)套數(shù)增量時序:

?Tc={?Tc1,?Tc2,···}

其中,?Tic表示第i年城市c新增房產(chǎn)套數(shù),可由下式導(dǎo)出:

?Tci=Tci?Tci?1

3)市級房產(chǎn)面積累計時序:

Ac={Ac1,Ac2,···}

其中,Aci表示第i年,城市c累計房產(chǎn)面積.

4)市級房產(chǎn)面積增量時序:

?Ac={?Ac1,?Ac2,···}

其中,?Aci表示第i年城市c新增房產(chǎn)面積,可由下式導(dǎo)出:

?Aci=Aci?Aci?1

本課題的基本預(yù)測計算任務(wù)可歸結(jié)為兩個:

預(yù)測1:給定網(wǎng)格區(qū)域(x,y)的房產(chǎn)套數(shù)n年時序數(shù)據(jù){Tx,y,1,Tx,y,2,···,Tx,y,n},預(yù)測下一年(第n+1年)該區(qū)域累計房產(chǎn)套數(shù)Tx,y,n+1.

預(yù)測2:給定網(wǎng)格區(qū)域(x,y)的房產(chǎn)面積n年時序數(shù)據(jù){Ax,y,1,Ax,y,2,···,Ax,y,n},預(yù)測下一年(第n+1年)該區(qū)域累計房產(chǎn)面積Ax,y,n+1.

顯見,通過逐年向前移動時序數(shù)據(jù),就可實現(xiàn):利用過去一段時間房產(chǎn)數(shù)據(jù)的變化,對未來一段時間內(nèi)的房產(chǎn)數(shù)據(jù)進行預(yù)測.

2.2 總體處理框架設(shè)計

根據(jù)上節(jié)的分析,課題的基本科學(xué)技術(shù)問題在于建立時序預(yù)測模型:利用過去一段時間內(nèi)某事件(房屋建成事件)的時間特征來預(yù)測未來一段時間內(nèi)該事件的特征(房產(chǎn)套數(shù)或面積)—這種時間序列數(shù)據(jù)預(yù)測.

鑒于房產(chǎn)套數(shù)和建筑面積的預(yù)測的建模都是類同的,本文僅需闡述房產(chǎn)套數(shù)的預(yù)測模型.

實踐上,我們先直接對廣東省域(由于東沙群島無房地產(chǎn)項目,本文研究的廣東省域不包括東沙群島)各網(wǎng)格單元應(yīng)用深度神經(jīng)網(wǎng)絡(luò)建立預(yù)測模型.結(jié)果所產(chǎn)生的預(yù)測誤差普遍過大,且無法調(diào)優(yōu)模型將誤差降到合理程度.這是因為,全省各市房地產(chǎn)源數(shù)據(jù)集的房產(chǎn)熱力指標(biāo)值的地理空間和時間區(qū)間的分布相當(dāng)不均勻,并且在時間和空間上存在不同程度的數(shù)據(jù)樣本不足.因此,我們提出“網(wǎng)格累計量預(yù)測+市域增量預(yù)測修正”的總體預(yù)測建模計算框架.具體工作思路如下.

1)對廣東省域地圖做M分網(wǎng)格,將其中的任意網(wǎng)格看作獨立單元,運用基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)測模型對其房產(chǎn)套數(shù)時序數(shù)據(jù)進行獨立預(yù)測,獲得其下一時序點套數(shù)的預(yù)測值.

2)考慮到實際上同一城市的不同區(qū)域間受共同的城市發(fā)展內(nèi)在關(guān)系影響,彼此間應(yīng)存在某些關(guān)聯(lián)或約束,我們在模型中進一步引入同城數(shù)據(jù)約束修正來提高預(yù)測結(jié)果的合理性和準(zhǔn)確性.

總體處理框架如圖4所示.具體過程如下.

圖4 房產(chǎn)套數(shù)預(yù)測總體處理框架

1)市域網(wǎng)格預(yù)測

將同屬一個城市的所有網(wǎng)格區(qū)域篩濾出來,然后將每個網(wǎng)格區(qū)域 (x,y)的房產(chǎn)累計套數(shù)年份時序{Tx,y,1,Tx,y,2,···,Tx,y,n}輸入到基于深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)格房產(chǎn)套數(shù)累計預(yù)測模型.該預(yù)測模型輸出下一個時序年份該區(qū)域房產(chǎn)套數(shù)累計Tx,y,n+1的預(yù)測值.根據(jù),計算出對應(yīng)的房產(chǎn)套數(shù)增量的預(yù)測值:

對同屬城市c的每個區(qū)域(x,y)的房產(chǎn)套數(shù)增量預(yù)測值進行歸一化,得到:

其中,?c表示所有屬于城市c的網(wǎng)格區(qū)域(u,v)的集合.

2)市域全局修正

由此修正后的房產(chǎn)套數(shù)增量的預(yù)測值,得到該網(wǎng)格區(qū)域的累計房產(chǎn)套數(shù)最終預(yù)測值:

實際操作上,整個工作路線包括如下基本步驟:

1)數(shù)據(jù)預(yù)處理:對原始數(shù)據(jù)進行清洗、網(wǎng)格映射、序列提取、數(shù)據(jù)規(guī)范化,獲得網(wǎng)格區(qū)域房產(chǎn)套數(shù)累計時序、網(wǎng)格區(qū)域房產(chǎn)面積累計時序、市級房產(chǎn)套數(shù)增量時序、市級房產(chǎn)面積增量時序.

2)使用網(wǎng)格區(qū)域房產(chǎn)套數(shù)累計時序,訓(xùn)練圖4中的網(wǎng)格房產(chǎn)套數(shù)累計預(yù)測模型[5,6].

3)使用市級房產(chǎn)套數(shù)增量時序,訓(xùn)練圖4中的市級房產(chǎn)套數(shù)增量預(yù)測模型.

4)使用網(wǎng)格區(qū)域房產(chǎn)面積累計時序,訓(xùn)練網(wǎng)格房產(chǎn)面積累計預(yù)測模型(與套數(shù)預(yù)測模型類似,省略).

5)使用市級房產(chǎn)面積增量時序,訓(xùn)練市級房產(chǎn)面積增量預(yù)測模型(與套數(shù)預(yù)測模型類似,省略).

6)應(yīng)用圖4所示的預(yù)測過程對2018–2023年的房產(chǎn)套數(shù)進行預(yù)測,輸出規(guī)定格式的數(shù)據(jù).

7)對2018–2023年的房產(chǎn)面積進行預(yù)測,輸出規(guī)定格式的數(shù)據(jù)(與步驟6)類似,省略).

訓(xùn)練數(shù)據(jù)資源限于2018年之前的原始數(shù)據(jù).

2.3 時序預(yù)測模型設(shè)計

前節(jié)的總體處理框架設(shè)計關(guān)鍵在于圖4中的網(wǎng)格房產(chǎn)累計套數(shù)(或面積)預(yù)測模型和市級房產(chǎn)套數(shù)(或面積)增量預(yù)測模型設(shè)計—它們都是基于深度神經(jīng)網(wǎng)絡(luò)的時序預(yù)測模型設(shè)計.眾所周知,在人工智能深度學(xué)習(xí)算法中[7,8],正如卷積神經(jīng)網(wǎng)絡(luò)主要用于圖像數(shù)據(jù)建模,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)主要用于時序數(shù)據(jù)建模.但是,傳統(tǒng)的RNN 在長期依賴方面存在梯度消失的問題,也就是會遺忘時間序列距離比較遠的信息.1997年,Hochreiter和Schmidhuber提出了傳統(tǒng)RNN的一種變形:長短時記憶網(wǎng)絡(luò)(long short term memory,LSTM)[9].LSTM 通過引入3 種門限(遺忘門限、輸入門限和輸出門限)而獲得學(xué)習(xí)長期依賴的能力,即具有學(xué)習(xí)時間序列距離較遠信息的能力.盡管LSTM 相對于RNN 更加復(fù)雜,但因為它可以適應(yīng)更長的時間序列數(shù)據(jù),我們用LSTM對已知的過往年份房產(chǎn)熱力數(shù)據(jù)進行時序特征抽取,并對這些特征進行時序預(yù)測[10],然后用全連接層(fully connected layers,FC)[11]神經(jīng)網(wǎng)絡(luò)再將時序預(yù)測得到的特征數(shù)據(jù)回歸映射成房產(chǎn)指標(biāo)熱力數(shù)據(jù).

圖4中的網(wǎng)格房產(chǎn)累計套數(shù)(或面積)預(yù)測模型和市級房產(chǎn)套數(shù)(或面積)增量預(yù)測模型均采用如圖5所示的(LSTM→FC)房產(chǎn)數(shù)據(jù)時序預(yù)測模型設(shè)計:先用LSTM 對輸入的n年份時序數(shù)據(jù){X1,X2,···,Xn}進行特征抽取和預(yù)測,輸出該時序數(shù)據(jù)隱含的時序特征的抽象表達向量的預(yù)測值(不直接是房產(chǎn)指標(biāo)熱力值本身);然后,將LSTM 模型的輸出向量作為后面FC的輸入,經(jīng)由FC 做非線性變換后,輸出下一年份(第n+1年)的房產(chǎn)熱力值Xn+1的預(yù)測值.

圖5 房產(chǎn)數(shù)據(jù)時序預(yù)測模型

2.4 預(yù)測建模技術(shù)實現(xiàn)

(1)技術(shù)選型

我們選擇在谷歌公司的TensorFlow 開源機器學(xué)習(xí)平臺上實現(xiàn)預(yù)測建模[12].在TensorFlow 平臺上,我們使用 Keras[13]這種直觀的高階API 來構(gòu)建和訓(xùn)練機器學(xué)習(xí)模型,這樣能夠快速迭代模型并輕松地調(diào)試模型.

鑒于為省域房產(chǎn)大數(shù)據(jù)熱力圖預(yù)測而構(gòu)建和訓(xùn)練機器學(xué)習(xí)模型需要頻繁地進行大規(guī)模CPU-heavy的張量數(shù)值計算,一般CPU 難以承擔(dān).于是,我們配置強力的加速計算協(xié)處理器,即引入具有比CPU 更加強大密集數(shù)據(jù)計算能力的GPU 來參加計算.但是,傳統(tǒng)的訪問GPU 模式(如依賴圖像API 接口來實現(xiàn)GPU 訪問)無法將GPU 強大的密集數(shù)據(jù)計算能力用于圖像處理之外的用途.NVIDIA 發(fā)明的CUDA (compute unified device architecture)編程模型采用了一種全新的計算體系結(jié)構(gòu)來使用GPU 硬件資源,可讓軟件開發(fā)者在應(yīng)用程序中能充分地利用CPU和GPU 各自的優(yōu)點,特別是充分利用GPU 強大的計算能力加速大規(guī)模密集數(shù)據(jù)計算[14].NVIDIA 已將CUDA 實現(xiàn)成一套實用編程環(huán)境,并且可通過對應(yīng)的SDK 集成到更高級別的機器學(xué)習(xí)框架中.其中,cuDNN 就是CUDA的一個專門用于TensorFlow 神經(jīng)網(wǎng)絡(luò)運算加速的SDK[15].因此,我們采用TensorFlow+CUDA+cuDNN的開發(fā)環(huán)境來運行調(diào)試深度神經(jīng)網(wǎng)絡(luò).

(2)算法部署

TensorFlow 平臺選擇Python 作為表達和控制模型訓(xùn)練的語言.Python 是數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)專家用的最舒適的高級語言,籍用其NumPy[16]庫的豐富計算資源,可以很容易地在Python 中進行各種海量數(shù)據(jù)高性能預(yù)處理計算,然后輸送給TensorFlow 進行真正CPU-heavy 計算.所以我們采用Python 語言進行編程.具體環(huán)境部署上,使用Anaconda 安裝和管理Python相關(guān)包—Anaconda 提供最便捷的方式來使用Python進行數(shù)據(jù)科學(xué)計算和機器學(xué)習(xí)[17].算法部署主要包括模型訓(xùn)練和生成數(shù)據(jù)兩部分.

模型訓(xùn)練部分的目錄部署:data 文件夾:存放預(yù)處理后的數(shù)據(jù),model 文件夾:存放訓(xùn)練好的模型;Python可執(zhí)行代碼文件“網(wǎng)格累計(套數(shù)|面積)模型訓(xùn)練.py”用于網(wǎng)格累計(套數(shù)|面積)模型的訓(xùn)練,“登記單市模型訓(xùn)練.py”與“網(wǎng)簽單市模型訓(xùn)練.py”分別用于對單個城市的登記與網(wǎng)簽數(shù)據(jù)增量模型進行訓(xùn)練.

生成數(shù)據(jù)部分的目錄部署:Python 可執(zhí)行代碼文件“登記面積數(shù)據(jù)生成.py”“登記套數(shù)數(shù)據(jù)生成.py”“網(wǎng)簽面積數(shù)據(jù)生成.py”和“網(wǎng)簽套數(shù)數(shù)據(jù)生成.py”分別對登記數(shù)據(jù)面積、登記數(shù)據(jù)套數(shù)、網(wǎng)簽數(shù)據(jù)面積、網(wǎng)簽數(shù)據(jù)套數(shù)進行預(yù)測,并會將結(jié)果分別保存在dj_area(登記面積)、dj_count (登記套數(shù))、wq_area (網(wǎng)簽面積)、wq_count (網(wǎng)簽套數(shù))目錄下.

(3)訓(xùn)練預(yù)測模型

訓(xùn)練好的模型存放在model 文件夾下.如果一個市的數(shù)據(jù)發(fā)生大幅變動,則需重新訓(xùn)練.訓(xùn)練命令語法格式為:

Python+運行腳本名稱+argv1+argv2+argv3

其中,argv1 代表預(yù)處理后的數(shù)據(jù)集名,argv2 代表城市名稱,argv3 代表熱力指標(biāo)名稱(套數(shù)或面積).若訓(xùn)練過程誤差不下降,則需重新運行腳本—可能是模型參數(shù)隨機初始化或者訓(xùn)練樣本過少造成的.

(4)生成預(yù)測數(shù)據(jù)

在數(shù)據(jù)生成代碼所在目錄,使用Python 命令:

Python+運行腳本名稱+argv1

其中,argv1 代表預(yù)處理后的數(shù)據(jù)集名.運行結(jié)果除在指定的文件夾下生成套數(shù)|面積熱力圖預(yù)測數(shù)據(jù)的JSON 格式文件外,還在當(dāng)前目錄下生成相應(yīng)的CSV格式文件.JSON 格式的輸出數(shù)據(jù)可直接用于熱力圖渲染,CSV 格式的輸出數(shù)據(jù)便于做大數(shù)據(jù)分析.

3 預(yù)測模型應(yīng)用

3.1 處理模式和建模設(shè)定

3.1.1 數(shù)據(jù)壓縮落圖

原始房產(chǎn)數(shù)據(jù)極其龐大,難以全部在百度地圖上落圖顯示,必須先進行壓縮映射預(yù)處理并生成相應(yīng)的訓(xùn)練數(shù)據(jù)集后,才能應(yīng)用預(yù)測模型對網(wǎng)格區(qū)域累計房產(chǎn)熱力值(套數(shù)、面積)進行預(yù)測.

壓縮映射:將原始數(shù)據(jù)記錄的經(jīng)緯度坐標(biāo)精度降低(將經(jīng)緯度小數(shù)點后13 位有效數(shù)字四舍五入至小數(shù)點后僅保留5 位有效數(shù)字),然后去掉重復(fù)值.本課題所有房產(chǎn)地址的經(jīng)緯度坐標(biāo)均取自百度地圖公開數(shù)據(jù),原始精度為小數(shù)點后13 位有效數(shù)字.

“房產(chǎn)登記簿數(shù)據(jù)”共有12 476 111 條房屋建成年代記錄.壓縮映射得到353 464 條不同經(jīng)緯度坐標(biāo)的記錄,每條記錄包含聚集計算出來的熱力值屬性(套數(shù)|面積).

“房產(chǎn)網(wǎng)簽數(shù)據(jù)”共有6 076 778 條新建房屋年份記錄.壓縮映射得到50 242 條不同經(jīng)緯度坐標(biāo)的記錄.

3.1.2 數(shù)據(jù)網(wǎng)格映射

基于經(jīng)緯度網(wǎng)格的房產(chǎn)指標(biāo)數(shù)據(jù)熱力圖必須先將落在同一個網(wǎng)格中的各個房產(chǎn)原始數(shù)據(jù)記錄歸化成網(wǎng)格數(shù)據(jù):用網(wǎng)格中間點的經(jīng)緯度坐標(biāo)作為網(wǎng)格坐標(biāo),網(wǎng)格區(qū)域中所有房產(chǎn)的指標(biāo)統(tǒng)計值(如總建筑面積或總房產(chǎn)套數(shù))作為網(wǎng)格的房產(chǎn)指標(biāo)值.

再進一步將網(wǎng)格數(shù)據(jù)規(guī)范化,即,將所有網(wǎng)格數(shù)據(jù)映射成一個Y×M×M點的張量Z(Y為房屋建成年份的最大時間跨度,M為網(wǎng)格劃分?jǐn)?shù)):

對于任一條略去“城市”屬性的網(wǎng)格房產(chǎn)數(shù)據(jù)記錄(lonq,latq,yearq,countq)|1≤q≤m,m為網(wǎng)格數(shù)據(jù)記錄總數(shù),(lonq,latq)為對應(yīng)網(wǎng)格的經(jīng)緯度,countq為該網(wǎng)格區(qū)域在年份yearq的房產(chǎn)統(tǒng)計指標(biāo)增量值,則其到張量Z的映射由式(1)–式(3)計算:

張量Z的第1 維度坐標(biāo)k可通過式(1)求得:

其中,ymin代表所有記錄年份中的最小值.

張量Z的第2 維度橫坐標(biāo)i可通過式(2)求得:

其中,lonmin和lonmax分別代表廣東省經(jīng)度范圍(東沙群島除外)的最小值和最大值.

張量Z的第3 維度縱坐標(biāo)j可通過式(3)求得:

其中,latmin和latmax分別代表廣東省緯度范圍(東沙群島除外)的最小值和最大值.

最后,Z任意點(k,i,j)的數(shù)值Zk,i,j由下式計算:

這樣,Zk,i,j(0≤k≤Y,0≤i<M,0≤j<M)代表網(wǎng)格(i,j)里累計至第k年末的房產(chǎn)套數(shù)或面積統(tǒng)計值.

3.1.3 網(wǎng)格數(shù)目選擇

網(wǎng)格越細化(網(wǎng)格劃分M越大),網(wǎng)格化后的坐標(biāo)點越多,反之亦然.

首先,我們選定廣東省全域(東沙群島除外)經(jīng)、緯度范圍:

[lonmin,lonmax]=[110.177,116.885]

[latmin,latmax]=[20.334,25.313]

然后,就省域房產(chǎn)登記簿數(shù)據(jù)集,計算網(wǎng)格劃分?jǐn)?shù)M與房產(chǎn)數(shù)據(jù)集網(wǎng)格化后其坐標(biāo)點數(shù)目的關(guān)系,結(jié)果見圖6.

圖6 網(wǎng)格劃分M 與網(wǎng)格化后坐標(biāo)點數(shù)目的關(guān)系

由圖6可見,網(wǎng)格化后數(shù)據(jù)集經(jīng)緯度坐標(biāo)點數(shù)目隨著M的增大而增加,但當(dāng)M達到7 000 后,坐標(biāo)點數(shù)目增長逐漸減弱,說明:此后網(wǎng)格劃分繼續(xù)細化對于網(wǎng)格化近似精度的提高其作用逐漸趨無.若在獲得較高的網(wǎng)格化近似精度的同時,又兼顧算法的性能(網(wǎng)格化后坐標(biāo)點越少就越好),推薦M=7000的網(wǎng)格化.

3.1.4 滑窗切分處理

對于長的時序數(shù)據(jù)序列一般采用滑窗法進行數(shù)據(jù)切分預(yù)測,即限定一個滑動窗口,依次將其順時序向前移動一定步長來切取數(shù)據(jù)子序列用以預(yù)測后繼若干時序值:對于已知數(shù)據(jù)序列 (X1,X2,···,XN),取滑窗跨度L(LN.

鑒于要預(yù)測的年末實有房產(chǎn)套數(shù)和面積是不斷增長的數(shù)值,為降低解空間的取值范圍,我們將滑窗內(nèi)L個時點序列(X1,X2,···,XL)各項數(shù)據(jù)規(guī)范化為相對于其第1 時點的增量值:(X1?X1,X2?X1,···,XL?X1),以加快神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程收斂.

3.1.5 建模參數(shù)取值

根據(jù)以上設(shè)計建立模型后,我們針對本課題應(yīng)用實際進行優(yōu)化.經(jīng)測試后確定:

1)“網(wǎng)格房產(chǎn)累計預(yù)測模型”(參見圖4中的“網(wǎng)格房產(chǎn)套數(shù)累計預(yù)測模型)的參數(shù)如表1所示.

表1 網(wǎng)格房產(chǎn)累計數(shù)據(jù)建模參數(shù)

2)“市級房產(chǎn)增量預(yù)測模型”(參見圖4中的“市級房產(chǎn)套數(shù)增量預(yù)測模型)的參數(shù)如表2所示—只對全市域總增量值進行預(yù)測,不用做網(wǎng)格劃分.

表2 市級房產(chǎn)增量數(shù)據(jù)建模參數(shù)

3.2 房產(chǎn)數(shù)據(jù)預(yù)處理

通常不是所有的原始數(shù)據(jù)都可直接用于神經(jīng)網(wǎng)絡(luò)模型.在此數(shù)據(jù)預(yù)處理是必須的.

3.2.1 數(shù)據(jù)清洗

數(shù)據(jù)清洗過程包括對缺失值、異常值進行處理.

缺失值處理:對于缺失房屋建成年份、坐落地址或面積數(shù)值的數(shù)據(jù),直接舍棄,因為這些數(shù)據(jù)對于時序預(yù)測沒有意義;對于缺失城市屬性的數(shù)據(jù),可以根據(jù)房產(chǎn)坐落確定地理位置,不會對預(yù)測結(jié)果產(chǎn)生影響.

異常值處理:主要針對面積數(shù)值為零的原始數(shù)據(jù)—對此類數(shù)據(jù)記錄直接舍棄.

3.2.2 數(shù)據(jù)集準(zhǔn)備

深度學(xué)習(xí)算法需要切取歷史時序數(shù)據(jù)進行訓(xùn)練和測試.全部房產(chǎn)數(shù)據(jù)記錄經(jīng)網(wǎng)格數(shù)據(jù)映射存儲在三維張量Z中.令 ?c為城市c所有網(wǎng)格的集合,則從Z中切取:1)矩陣序列(Z1,Z2,···,ZY)|Zk={Zk,i,j|(i,j)∈?c}(1≤k≤Y),2)數(shù)據(jù)序列(Z1,i,j,Z2,i,j,···,ZV,i,j)|V=max(l),?Zl,i,j≠null(1≤l≤Y),? (i,j)∈?c作為預(yù)測模型訓(xùn)練與測試的候選數(shù)據(jù)集.

對于每一份數(shù)據(jù)集來說,均需要劃分訓(xùn)練集與測試集.訓(xùn)練集是模型學(xué)習(xí)時用的數(shù)據(jù)集,是確定模型參數(shù)用的;測試集則是檢驗?zāi)P托阅軙r用的數(shù)據(jù)集.在時序數(shù)據(jù)預(yù)測問題中,訓(xùn)練集與測試集不能交叉.訓(xùn)練集就類似考生平常做的習(xí)題,測試集類似考試的題目,后者是衡量一個模型泛化能力的數(shù)據(jù)集.

若測試集序列太短,將不足以評價和調(diào)校預(yù)測模型.結(jié)合各城市房產(chǎn)單元數(shù)據(jù)集的房屋建成年份時序范圍的實際(詳見表3),我們?nèi)∶總€市至少最后5 個年份的數(shù)據(jù)作為其評價模型的測試集,即要具備最近5+3年(加上3年滑窗跨度)的原始數(shù)據(jù).這樣絕大多數(shù)城市數(shù)據(jù)滿足要求,只有個別城市例外—在表3中用*標(biāo)注:佛山市房產(chǎn)登記簿僅有2012–2016年的數(shù)據(jù);梅州市、惠州市和茂名市的網(wǎng)簽數(shù)據(jù)分別只有6、7和6 個年份的.

表3 各市房屋建成年份數(shù)據(jù)范圍

具體以某市為例說明:

1)用最近1993–2017年數(shù)據(jù)進行預(yù)測評價:

輸入2012年以前數(shù)據(jù),預(yù)測2013年的環(huán)比增量.

輸入2013年以前數(shù)據(jù),預(yù)測2014年的環(huán)比增量.

輸入2014年以前數(shù)據(jù),預(yù)測2015年的環(huán)比增量.

輸入2015年以前數(shù)據(jù),預(yù)測2016年的環(huán)比增量.

輸入2016年以前數(shù)據(jù),預(yù)測2017年的環(huán)比增量.

2)然后,將預(yù)測結(jié)果與真實數(shù)據(jù)進行比較評價.

計算及評價結(jié)果見圖7.圖中,預(yù)測數(shù)據(jù)序列在2012年及之前的年份直接使用真實數(shù)據(jù).

圖7 某市房產(chǎn)登記預(yù)測示例

3.3 預(yù)測數(shù)據(jù)集生成

房產(chǎn)登記簿數(shù)據(jù):其落圖壓縮后得到的353 464 條不同經(jīng)緯度坐標(biāo)的數(shù)據(jù)記錄網(wǎng)格化后,落至81 240 個經(jīng)緯度網(wǎng)格上,用于生成其預(yù)測模型的訓(xùn)練數(shù)據(jù)集.

房產(chǎn)網(wǎng)簽數(shù)據(jù):其落圖壓縮后得到50 242 條不同經(jīng)緯度坐標(biāo)的數(shù)據(jù)記錄網(wǎng)格化后,落到3 514 個經(jīng)緯度網(wǎng)格上,用于生成其預(yù)測模型的訓(xùn)練數(shù)據(jù)集.

對于已知房產(chǎn)時序數(shù)據(jù)seq=(X1,X2,···,XL),將其規(guī)范為(G1,G2,···,GL)|Gk=Xk?X1(1≤k≤L)后,放入房產(chǎn)數(shù)據(jù)預(yù)測模型預(yù)測出L+1年份相對于時序首年的熱力值增量GL+1,即可預(yù)測出至L+1年份的全量值:

XL+1=X1+GL+1

將XL+1加入已知序列得seq:=seq+(XL+1).再從新的seq最后面切取長度為L的子序列,并對此子序列重復(fù)上述過程,就可逐年推進預(yù)測未知年份的數(shù)據(jù).我們將一個年份的預(yù)測數(shù)據(jù)存儲成一個文件,以(經(jīng)度,緯度,年份,預(yù)測全量值)格式輸出到JSON和CSV 文件中.其中,“預(yù)測全量值”代表直到該“年份”年末,(經(jīng)度,緯度)所標(biāo)識區(qū)域的房產(chǎn)統(tǒng)計指標(biāo)的歷史累計值.

4 誤差評價與學(xué)習(xí)校正

預(yù)測模型的評價指標(biāo)采用平均絕對百分誤差(mean absolute percentage error,MAPE):

其中,n表示序列樣本的個數(shù),yi表示真實值,yi′表示預(yù)測值.平均絕對百分誤差反映了預(yù)測值對真實值的偏離程度.優(yōu)化方法采用Adam (adaptive moment estimation)算法[18].Adam 是一種自適應(yīng)調(diào)節(jié)學(xué)習(xí)率的方法.它利用梯度的一階矩估計和二階矩估計動態(tài)調(diào)整預(yù)測模型每個參數(shù)的學(xué)習(xí)率.Adam的優(yōu)點主要在于經(jīng)過偏置校正后,每一次迭代學(xué)習(xí)率都有個確定范圍,使得參數(shù)比較平穩(wěn).我們設(shè)定學(xué)習(xí)率 α=0.001,取每個市最后5年真實數(shù)據(jù)作為評價模型的測試集.

誤差評價可按以下指標(biāo)衡量:

1)預(yù)測增量相對于真實增量的誤差MAPE-I.

2)預(yù)測全量相對于真實全量的誤差MAPE-T.

對于深度學(xué)習(xí)過程校正:增量和全量預(yù)測模型分別使用MAPE-I和MAPE-T進行偏置校正.

對于最終預(yù)測結(jié)果評價:考慮到本課題是以預(yù)測各市年末實有房產(chǎn)數(shù)(累計全量數(shù))為目標(biāo),我們使用MAPE-T進行誤差評價.

測試評價表明,不同市的訓(xùn)練樣本的數(shù)量和質(zhì)量、環(huán)比變化梯度對于預(yù)測誤差的影響是不同的,詳見表4.表中佛山市的登記簿和梅州、惠州、茂名3 市的網(wǎng)簽數(shù)據(jù)因真實數(shù)據(jù)序列太短無法進行深度學(xué)習(xí),不能進行預(yù)測,誤差評價不適用(標(biāo)記為NA).此外,個別市的訓(xùn)練數(shù)據(jù)樣本較小,年份實際增量波動較大,預(yù)測效果相比其他市較差(例如,湛江、茂名兩市的登記簿數(shù)據(jù)預(yù)測,以及韶關(guān)和汕尾兩市的網(wǎng)簽數(shù)據(jù)預(yù)測),甚至出現(xiàn)極端誤差情況(例如云浮市的網(wǎng)簽數(shù)據(jù)預(yù)測).但從整體結(jié)果來看,我們的模型還是能捕捉到各市的房產(chǎn)指標(biāo)數(shù)據(jù)的基本變化,平均誤差大多數(shù)在5%以下,絕大多數(shù)在10%以下.這說明,針對性建立和訓(xùn)練的預(yù)測模型是有效的,達到預(yù)期的目的.

表4 各市房產(chǎn)套數(shù)和面積預(yù)測的平均絕對百分誤差(%)

5 圖效展示

以廣州市房屋登記簿時序數(shù)據(jù)預(yù)測為例.我們用已知的1958–2017年歷史數(shù)據(jù)記錄,對其各網(wǎng)格單元區(qū)域未知的2018–2023年各年年末房屋套數(shù)熱力值進行預(yù)測.然后將廣州市各網(wǎng)格區(qū)域所有年份的年末實有房屋套數(shù)熱力值在百度地圖落圖呈現(xiàn)—調(diào)用百度地圖LBS 服務(wù),渲染成市域房屋統(tǒng)計指標(biāo)數(shù)據(jù)地理分布熱力值圖[19],并在此基礎(chǔ)上提供正反時序的各年度熱力圖播放,供觀察比較.為簡便起見,我們僅取廣州市房屋套數(shù)分布熱力圖局部情況為例進行前后兩兩環(huán)比,限于篇幅,僅以圖8和圖9例示.目測可見,隨著預(yù)測年份推延,全市實有累計房屋套數(shù)的地理分布熱力值增加趨勢具有如下特征:開始變化明顯,后來逐漸減弱.這里的一個原因是隨著預(yù)測年份的增長,模型的預(yù)測值準(zhǔn)確度下降,預(yù)測結(jié)果趨同;另一個原因是每當(dāng)熱力圖圖斑開始呈現(xiàn)高亮度色時,后來的熱力值增加對于圖斑的增強作用會顯著減弱.圖示目測效果大體與我們對廣州市近年城市建設(shè)區(qū)域發(fā)展的直觀預(yù)期相符.

圖8 2017 與2018年房屋套數(shù)熱力圖環(huán)比

圖9 2022 與2023年房屋套數(shù)熱力圖環(huán)比

6 結(jié)束語

(1)應(yīng)用集成方面,本文基于深度神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)的廣東省域房產(chǎn)大數(shù)據(jù)熱力圖人工智能預(yù)測系統(tǒng),與廣東省域“(房產(chǎn))行業(yè)數(shù)據(jù)云同步樞紐平臺系統(tǒng)”[20]、“HBDP 省房屋大數(shù)據(jù)計算集群及作業(yè)調(diào)度系統(tǒng)”和“熱力圖播放系統(tǒng)”配合使用,全面實現(xiàn)了可從過往已知的至后來未知的廣東省域房產(chǎn)登記和交易大數(shù)據(jù)指標(biāo)的熱力圖年時序播放展示,有助于從時空維度俯瞰城市建設(shè)演化過程,為城市資源和區(qū)劃經(jīng)濟規(guī)劃等相關(guān)的宏觀管理活動提供歷史和前瞻性的大數(shù)據(jù)參考,也可作為滿足人們對城市具體屬性未來演變的預(yù)見愿望的行業(yè)大數(shù)據(jù)直觀應(yīng)用的實踐范例.

(2)技術(shù)創(chuàng)新方面,本文提出“網(wǎng)格累計量預(yù)測+市域增量預(yù)測修正”的總體預(yù)測建模計算框架,相對于常規(guī)直接應(yīng)用深度神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)模型,不但在建模前期引入了網(wǎng)格粒度調(diào)選環(huán)節(jié),為簡化計算量提供選項,更重要的是有效地將細化的局部預(yù)測與全局宏觀預(yù)測修正結(jié)合,較好地化解了因各地網(wǎng)格單元源數(shù)據(jù)樣本質(zhì)量參差不齊而引起的模型訓(xùn)練預(yù)測誤差過大問題,創(chuàng)造條件來調(diào)優(yōu)應(yīng)用長短時記憶與全連接層網(wǎng)絡(luò)AI 深度學(xué)習(xí)模型.這樣,即使在網(wǎng)格單元樣本時間和空間數(shù)據(jù)質(zhì)量不理想情況下,仍然實現(xiàn)了課題的技術(shù)目標(biāo):系統(tǒng)產(chǎn)生的預(yù)測數(shù)據(jù)可直接應(yīng)用于百度熱力圖呈現(xiàn),預(yù)測模型的可評測應(yīng)用誤差總體囿于合理范疇,相應(yīng)數(shù)據(jù)結(jié)果可視化符合人們目測預(yù)期.

猜你喜歡
熱力時序年份
顧及多種弛豫模型的GNSS坐標(biāo)時序分析軟件GTSA
熱力工程造價控制的影響因素及解決
清明
基于GEE平臺與Sentinel-NDVI時序數(shù)據(jù)江漢平原種植模式提取
熱力站設(shè)備評測分析
特殊的一年
電廠熱力系統(tǒng)穩(wěn)態(tài)仿真軟件開發(fā)
你不能把整個春天都搬到冬天來
什么是閏年?
一樣的年份
红原县| 同心县| 龙游县| 忻城县| 井冈山市| 霍林郭勒市| 霍山县| 手机| 泾阳县| 舞阳县| 蓬安县| 静乐县| 鹤壁市| 苍溪县| 济南市| 城固县| 永年县| 静乐县| 临漳县| 青冈县| 南通市| 莱阳市| 隆安县| 泗阳县| 正镶白旗| 永清县| 夹江县| 丰城市| 普洱| 万年县| 克什克腾旗| 博野县| 高唐县| 且末县| 利辛县| 格尔木市| 汕尾市| 昌吉市| 尼勒克县| 塘沽区| 中卫市|