周安發(fā),金 群,王 韋
(1. 湖北省測繪成果檔案館,湖北·武漢 430072;2. 湖北省自然資源廳信息中心,湖北·武漢 430070;3. 湖北省地圖院,湖北·武漢 430072)
自然資源業(yè)務(wù)審批既要滿足各部門業(yè)務(wù)的關(guān)聯(lián)聯(lián)動,又要便捷易操作,信息化程度的高低直接關(guān)系到審批辦件的效率[1-2]。近幾年來,湖北省自然資源廳先后承擔了湖北省自然資源“一張圖”修改為“湖北省不動產(chǎn)登記信息管理基礎(chǔ)平臺”國土空間基礎(chǔ)信息平臺、自然資源政務(wù)云平臺等省級信息化工作,形成了較為完善的應用支撐體系,建立了涵蓋土地、地質(zhì)、礦產(chǎn)、基礎(chǔ)測繪等數(shù)據(jù)庫,形成了自然資源“一張圖”,部分行政許可和審查事項實現(xiàn)了電子化申報和全流程網(wǎng)上辦理,并初步構(gòu)建了國土資源綜合信息監(jiān)管體系,實現(xiàn)了部分業(yè)務(wù)的動態(tài)監(jiān)管[3-4],較好支撐了各類業(yè)務(wù)管理和監(jiān)管決策工作。當前,對自然資源業(yè)務(wù)審查和審批的建設(shè)研究多以系統(tǒng)建設(shè)[5-7]和數(shù)據(jù)指標關(guān)聯(lián)研究為主[8-9],對審查和審批過程中涉及空間圖形自動分析結(jié)果提取及分析效率的研究較少。如何利用大數(shù)據(jù)、GIS空間分析、人工智能等技術(shù),開展審批項目地塊屬性的關(guān)聯(lián)性和規(guī)律性研究,實現(xiàn)最優(yōu)地理空間信息分析調(diào)度方法,對維護系統(tǒng)穩(wěn)定和提高業(yè)務(wù)審批效率具有重要意義。因此,本文提出多場景下地理空間分析任務(wù)智能調(diào)度技術(shù),以提高自然資源業(yè)務(wù)審批空間分析能力。
針對湖北省自然資源業(yè)務(wù)審批存在的地塊大小不均、圖層多樣、坐標點數(shù)目差異性大等特點,建立一種多場景條件下的復合式智能分析機制,解決單一空間分析方式存在的問題,減少業(yè)務(wù)空間審查平均分析時間,提高空間審查系統(tǒng)的分析效率??傮w技術(shù)流程如圖1。
圖1 總體技術(shù)流程Fig.1 Overall technical process
研究內(nèi)容包括以下兩個方面:
(1)建立湖北省自然資源業(yè)務(wù)審批多場景分析樣本庫,針對多個審批項目分別進行頁面分析、地理處理服務(wù)、要素分析中間件三種分析模式下耗時計算,最后采用人工標注方式建立樣本庫,利用分層采樣方式建立訓練集和測試集。
(2)開展基于梯度增強決策樹算法的多場景地理空間分析任務(wù)分類技術(shù)研究,以CART TREE為弱分類器,通過多次迭代訓練,根據(jù)湖北省各類建設(shè)用地審批、礦業(yè)權(quán)審批項目特點,實現(xiàn)空間審查過程最優(yōu)分析方法的自動調(diào)度過程。
地理空間分析方法包括頁面分析、地理處理服務(wù)分析和要素中間件分析三種方法,不同分析方法具有各自特點。頁面分析簡單快速,消耗系統(tǒng)資源少,對小型地塊分析迅速,排隊等待時間較少,但對復雜型超大地塊的分析時間過慢,分析效率降低;地理處理服務(wù)數(shù)據(jù)標準統(tǒng)一、覆蓋規(guī)則,但靈活性適應性較差,消耗資源大,當業(yè)務(wù)量大時,容易對整套系統(tǒng)產(chǎn)生阻塞效應;要素中間件分析對超大型超復雜型項目分析速度較快,缺點是系統(tǒng)啟動時間慢、響應時間慢。根據(jù)自然資源業(yè)務(wù)審批項目多地塊、多圖層、多界址點等不同分析應用場景特點,建立頁面分析、地理處理服務(wù)、要素分析中間件三種不同的空間分析服務(wù),以審批效率和審批時長為優(yōu)化目標,實現(xiàn)多場景境下空間分析模型的智能化匹配和調(diào)度。
頁面分析使用地理信息軟件提供的各種基礎(chǔ)的空間計算服務(wù),通過組合后封裝為空間分析服務(wù)。頁面分析的優(yōu)點在于體量較輕,可以部署在任何一臺服務(wù)器上,由于其使用的是基礎(chǔ)的空間計算服務(wù),從軟件層面上更容易處理服務(wù)器的負載均衡,如可以對請求做排隊處理,或者多線程處理。其對簡單圖形處理的速度非???,消耗資源較少。適合處理簡單小型項目,少排隊等待時間。頁面分析原理如圖2。
圖2 頁面分析原理圖Fig.2 Web page analysis principle diagram
地理處理服務(wù)是采用地理信息軟件建立簡單的輔助分析處理模型,并發(fā)布成服務(wù),如土地規(guī)劃分析模型,基本農(nóng)田壓覆分析模型等。地理處理服務(wù)的優(yōu)點是處理大型項目空間或者復雜型項目分析時較快,缺點是過于依賴地理信息軟件,并且分析規(guī)則組合單一,也比較消耗系統(tǒng)資源。當處理并發(fā)業(yè)務(wù)過多時必須依靠地理信息軟件服務(wù)器自身的負載均衡來減輕服務(wù)器的計算壓力,適合處理中型規(guī)模的項目。當自然資源業(yè)務(wù)繁忙時,很容易造成系統(tǒng)阻塞,而導致業(yè)務(wù)排隊積壓。地理處理分析示意如圖3。
圖3 地理處理分析示意圖Fig.3 Geoprocessing analysis of schematic diagram
要素中間件分析是使用中間件將固定的圖層和分析方案封裝成定制模型,提供完整的分析結(jié)果,分析的優(yōu)點是對超大型超復雜型項目進行分析時速度較快,缺點是系統(tǒng)啟動時間較慢,對小型項目分析時間反而速度沒有前兩種方案快。另外要素分析中間件的消費系統(tǒng)資源比較大,對項目的并行處理不強,不能同時展開多個項目的分析,必須排隊處理,處理方式不靈活。要素分析中間件示意如圖4。
圖4 要素分析中間件Fig.4 Element Analysis Middleware
湖北省自然資源業(yè)務(wù)審批類項目多樣,包括小型建設(shè)項目,城市批次類建設(shè)項目,跨城域鐵路公路類建設(shè)項目,水利工程,風電項目等,各種項目的面積、地塊數(shù)及界址點數(shù)目相差很大,從幾百平方米到幾十平方公里,從一個地塊到數(shù)千個地塊,坐標點數(shù)從數(shù)個到數(shù)十萬個不等,不同審批項目其分析耗時和項目本身屬性有具備強相關(guān)性,因此,在進行空間分析任務(wù)智能調(diào)度研究之前,需針對不同空間分析方法建立多場景分析樣本庫,樣本庫采用日志文件自動抓取后,結(jié)合人工標注方式產(chǎn)生。
審批過程包括圖層加載、空間疊加分析計算、分析結(jié)果匯總(入庫)等,通過對審批過程中的日志文件進行分析,能夠獲得不同場景下的分析耗時分布圖。通過對審批日志的自動分析,共抽取9684個審批項目分別進行頁面分析、地理處理服務(wù)、要素分析中間件三種分析模式下耗時統(tǒng)計,結(jié)合人工標注結(jié)合方式建立樣本庫,利用分層采樣方式建立訓練集和測試集,其中訓練集樣本為6456個,測試集樣本為3228個。
圖5和表1為針對地塊、面積、坐標點數(shù)目、分析耗時等不同屬性條件下建立的分析樣本庫。
圖5 不同場景項目圖形Fig.5 Different scene project graphics
表1 項目信息及分析情況Table 1 Project information and analysis
在已生成的空間分析樣本庫基礎(chǔ)上,采用梯度提升決策樹方法,針對審批項目的地塊大小、地塊數(shù)目以及坐標點數(shù)目的屬性值,對樣本數(shù)據(jù)進行多次迭代計算形成決策樹,形成多環(huán)境下的針對頁面分析、地理處理服務(wù)分析和要素中間件三種不同分析模式下的審批項目智能化匹配調(diào)度機制。
梯度提升決策樹通過構(gòu)建并結(jié)合多個機器學習器來完成任務(wù)[10-11],本文以CART樹為基本分類器,在基本分類器生成過程中,窮舉以地塊數(shù)、地塊大小和坐標數(shù)目為節(jié)點的閾值,得到以(大于和小于)該屬性值兩個分支的最大熵,并以此為依據(jù)得到新的節(jié)點,直至所有樣本被分配至唯一葉節(jié)點,完成本次一次基本決策樹的生成,然后將每次迭代計算過程得到弱分類器加權(quán)求和,得到一個以梯度方向損失函數(shù)減少為優(yōu)化策略的強分類器,最終實現(xiàn)三分類決策樹的生成。梯度提升決策樹計算原理如圖6。
圖6 梯度提升決策樹計算原理圖Fig.6 Calculation principle diagram of gradient boosting decision tree
本文采用優(yōu)化后的梯度提升學習算法—XGBoost,該算法是一個優(yōu)化的分布式梯度提升算法庫,其特點是針對傳統(tǒng)的梯度增強算法,在并行計算、防止過擬合、提高學習率等方面進行了優(yōu)化。XGBoost是對梯度提升算法的改進,求解損失函數(shù)極值時使用了牛頓法,將損失函數(shù)泰勒展開到二階,另外損失函數(shù)中加入了正則化項。訓練時的目標函數(shù)由兩部分構(gòu)成,第一部分為梯度提升算法損失,第二部分為正則化項。損失函數(shù)定義為:
其中:n為訓練函數(shù)樣本數(shù),K為樹的總個數(shù),fk表示第K顆樹,l是對單個樣本的損失,假設(shè)它為凸函數(shù),為模型對訓練樣本的預測值,為訓練樣本的真實標簽值。正則化項定義了模型的復雜程度:
其中:λ為設(shè)置的參數(shù),ω為決策樹所有葉子節(jié)點值形成的向量,T為葉子節(jié)點數(shù)。
經(jīng)1000次迭代計算后生成的決策樹結(jié)構(gòu)如圖7。
圖7 多場景下地理空間分析任務(wù)智能調(diào)度決策樹Fig.7 Intelligent scheduling decision tree for geospatial analysis tasks in multiple scenarios
經(jīng)過對生成決策樹模型進行評估,其查準率為87.4%,查全率為82.1%,表2為多場景下地理空間分析任務(wù)智能調(diào)度體系應用效果采樣匯總,圖8為在湖北省自然資源政務(wù)云平臺中“一張圖”訪問圖層統(tǒng)計與圖層調(diào)用耗時分析。
圖8 省市重點訪問圖層統(tǒng)計與圖層調(diào)用耗時分析Fig.8 Key access layer statistics and layer call time-consuming analysis of Provincial and municipal
經(jīng)在湖北省自然資源政務(wù)云平臺中測試應用,取得如下應用效果:
(1)系統(tǒng)穩(wěn)定性增強,計算效率顯著提升:目前整個平臺共有地圖服務(wù)1099層,其中各地市州地圖服務(wù)中現(xiàn)狀類服務(wù)和規(guī)劃類服務(wù)使用頻率最高,此兩類圖層分析服務(wù)平均每日使用達到610次,所有圖層分析使用平均每日達到1300多次,系統(tǒng)穩(wěn)定性明顯增強,計算資源使用率得到顯著提升。
表2 空間智能分析結(jié)果采樣表Table 2 Sampling table of spatial intelligent analysis results
(2)空間分析速度得到極大提升:在自然資源行政審批的空間審查工作中,單個圖層的平均分析時長由原來的17.3秒縮短至3.5秒以下;針對面積、地塊數(shù)及界址點數(shù)目相差很大的各種項目,審批分析耗時由原來的幾十秒上百秒縮短至10秒左右,空間分析速度得到了極大的提升。
本文通過歸納業(yè)務(wù)審查和審批涉及的空間分析方法,探索采用集成學習技術(shù)對業(yè)務(wù)審批樣本數(shù)據(jù)進行監(jiān)督學習,形成梯度增強決策樹模型,自動將業(yè)務(wù)根據(jù)復雜度進行分類,進而快速選擇相應的空間分析方法,并使用新生成樣本數(shù)據(jù)持續(xù)學習完善模型,提升業(yè)務(wù)審查和審批速度。
(1)針對湖北全省域自然資源特性多樣、項目地理特征復雜及利用不均衡等特點,結(jié)合審批日志自動抽取與人工標注方式,建立了集頁面分析、地理處理服務(wù)及要素分析中間件一體的湖北省地理空間信息分析樣本庫,含訓練樣本6456個、測試樣本3228個,為多地塊、多圖層、多界址點的地理空間要素精準適配分析與應用提供統(tǒng)計學依據(jù)。
(2)研究了基于梯度增強決策樹集成學習技術(shù)的地理空間信息分析任務(wù)分類方法,建立了梯度增強決策分類樹模型,通過對樣本訓練學習,實現(xiàn)了項目空間特征的自動分類識別與最佳分析方案的精準匹配,空間分析審查平均耗時大大縮短,計算資源利用率和業(yè)務(wù)審批效率提升顯著。