張桂英
(遼寧省檢驗檢測認證中心,遼寧沈陽 110034)
大數據是指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。
基礎性地理信息數據是大數據地理信息數據生產的基石,通過計算機技術,自動識別、篩選、歸類,形成專題性、針對性的新型測繪地理信息成果服務于各行各業(yè)。
當前,基礎性測繪地理信息數據中具有基礎性、現勢性、可靠性的國家基本比例尺的3D(DLG, DEM,DOM)成果基本已經建成,省級負責的1:1萬比例尺3D成果在各行各業(yè)得到了廣泛的應用,其得天獨厚資源是生產大數據地理信息數據的基礎性數據。
挖掘、綜合信息,使信息更真實,決策符合預期或是趨勢的同時,地理信息數據演變得體量越來越大,承載信息越來越豐富,質量控制隨之面臨挑戰(zhàn)。
控制大數據地理信息數據質量,充分發(fā)揮基礎性地理信息數據的優(yōu)勢,是將優(yōu)質數據質量延伸至數據行業(yè)應用,從而為更加彰顯利用基礎測繪數據生產大數據地理信息數據質量控制的重要性。以坡度圖生產和質量控制為例,思考測繪地理信息大數據質量控制所面臨的問題及解決方案。
坡度圖是表示地面傾斜率的地圖。用圖上某點的切平面與水平地面的夾角表示某點的傾斜程度即為坡度。用坡度值表示地勢的變化,坡度值低就表示地勢平坦,坡度值高就意味地勢陡峭。
坡度圖生產是第三次全國國土調查的子項目,所用的數據源是各省基礎測繪成果DEM柵格數據和縣域界線矢量數據。坡度圖為計算耕地坡度,精準丈量國土起到重要作用。
“坡度圖生產是使用ArcGIS軟件,利用符合要求的最新1:10000 DEM數據,經數據預處理、DEM拼接、坡度計算、生成柵格坡度圖,對柵格坡度圖進行分級后,將數據轉為坡度分級矢量數據,再對坡度分級矢量數據按照設計要求進行圖斑綜合、拓撲檢查、數據裁切,最終形成以縣級為單位的坡度分級圖。
(1)坡度計算采用三階反距離平方權差分(Horn 算法)。
(2)坡度分為5級:1級≤2°,2級為2°~6°,3級為6°~15°,4級 為15°~25°,5級 為>25°,范圍值上含下不含。
(3)利用ArcGIS軟件對坡度分級柵格數據進行矢量化處理,建立數據結構。
(4)對矢量化數據進行圖斑綜合、界線平滑、拓撲重建、數據裁切等處理:將圖上面積小于30平方毫米的坡度分級圖斑按坡度級就低不就高原則并入鄰近圖斑;將寬度小于或等于1個格網尺寸的線狀坡度圖斑按平均配賦原則合并至相鄰圖斑中;坡度分級矢量數據的圖斑界線與坡度分級柵格數據空間位置偏移一般不超過1個格網,最大偏移量不得超過2個格網;分縣、分區(qū)處理的坡度分級矢量數據,須進行接邊處理,接邊限差不得超過2個格網;對綜合后的圖斑進行平滑處理,最后進行拓撲重建,使之屬性結構同標準一致;用外擴1千米后的縣界對光滑后的矢量數據進行裁剪,生成以縣為基本單位的坡度分級矢量數據圖。
大數據地理信息應用成果與常規(guī)的測繪成果質量檢查是有區(qū)別的,首先大數據生產中允許不精確,接受混雜性,包容同類性。精確對于大數據地理信息數據來說是不存在的,當前測繪地理信息的生產模式沒有絕對精確的數據,在成果質量檢查實踐中,追求和所關注的是數據成果質量整體性上移的可靠性,通過檢查動作更多的是對數據成果的符合性判斷,如坡度分級矢量化中任意一條技術處理都沒有一個具體固定的答案,只是要求在一定的“動作 ”范圍內就可以判斷為符合要求?,F階段測繪成果質量控制手段為自查、互查、小組查、院級檢查、檢查驗收,檢查實踐中每一道檢查,甚至到了“檢查驗收”數據仍然存在有問題,所謂“撒網千層,網網有魚”,但數據整體質量在一定的限差或范圍內呈上升趨勢,成果質量的可靠性便可得到保證。
有效判定大數據地理信息數據成果的質量,是大數據數據成果應用的要求,因此質量控制要圍繞項目成果的需求進行開展。
數據源(Data Source)顧名思義,數據的來源,盡可能采用1:1萬DEM數據更新省級坡度圖。1:1萬比例尺數字高程模型(Digital Elevation Model),簡稱DEM,是省級基礎性測繪地理信息數字成果之一,具有統(tǒng)一的空間參考、均勻的位置精度,具有相同的裁切原則和一致的格網尺寸,且具有生產“三調”所要求的時間精度,數據成果為柵格數據,只有具備邏輯上一致特點,才能符合坡度圖數據加工要求。
覆蓋完整的DEM數據成果是數據源質量控制的另一個方面,只有區(qū)域DEM成果覆蓋完整性得到保障,才不至于形成“無米之炊”現象發(fā)生。
“三調”項目成果所要求的“坡度圖”為計算耕地坡度,精準丈量國土所用,項目要求坡度圖應為矢量數據,充分挖掘數據源柵格數據(GRID)與成果數據(GDB)的矢量數據之間內在聯系,選擇適合的生產的平臺,流程化地實現數據的轉換。其生產實施方案質量是衡量數據質量依據的前提條件。任何大數據地理信息數據成果生產前,必須經過充分論證實施方案,包括:項目概況、數據源、主要技術指標、總體技術流程、項目成果、組織實施、質量管理、安全與保密等,形成生產技術流,為能夠高效、批量生產乃至符合要求的成果質量做好充分的理論基礎。
大數據地理信息數據生產要實行全流程質量控制。坡度圖生產的每個節(jié)點由前至后呈遞進關系,前一節(jié)點是后一節(jié)點的前提,后一節(jié)點可以成為前一節(jié)點的質量檢查,節(jié)點之間形成大數據生產的技術流,對于數據成果來說,每個節(jié)點都至關重要,質量控制要貫穿于數據生產的始終。
(1)首件成果驗證
大數據測繪地理信息數據成果在概念上早已不再稱為測繪產品了。為了驗證數據生產的流程是否符合項目成果的要求,以便能夠展開批量生產,選取區(qū)域內以縣區(qū)為單位的坡度圖成果進行的驗證工作稱為首件成果驗證。質量驗證主要采取符合性驗證,必要時需要通過三方軟件驗證,如坡度圖生產“坡度計算”和“坡度分級”便采用了Excel軟件驗證了技術的正確性。
坡度圖主要關注的是根據設計要求,依據圖上高程不同而進行的分級、圖斑合并、區(qū)域間接邊等,因此首件成果選取相鄰兩個縣區(qū)成果作為首件成果。驗證后對不符合要求的生產工藝、成果形式提出修正意見,為后期批量生產打牢基礎,最終要編寫首件成果驗證報告。
(2)首件成果驗證主要內容
選擇合適的數據源、生產平臺后,首件成果主要是從坡度圖數據成果驗證工藝、流程的適應性、合理性。適應性是指坡度圖的生產工藝流程是否符合大數據地理信息數據生產的要求;合理性是指生產過程中經人工在軟件平臺下,對數據整理如圖斑合并、縣區(qū)接邊等,處理后數據表達是否合理。
(3)大數據地理信息數據成果質量評價
大數據地理信息數據成果質量評價的指標,要根據項目要求達到普遍性的預期或趨勢,因此利用“差異率”來評價成果質量是一項重要指標。
差異率:當坡度圖坡度與DEM計算坡度不一致,綜合考慮坡度圖進行了圖斑綜合、以及不同坡度級管理重要性不同等因素,依據坡度圖坡度與DEM計算坡度的相應情況進行加權計算,統(tǒng)計出問題圖斑總面積和面積占比,以面積占比作為差異率。對差異率低于3%的,認定為成果合格,否則認定為不合格。
加權系數和計算公式為:
問題圖斑總面積=(圖斑面積×加權系數)的總和
差異率=(問題圖斑總面積/全部圖斑總面積)×100%
對首件成果檢查發(fā)現,技術性要求中“對綜合后的圖斑進行平滑處理,最后進行拓撲重建,使之屬性結構同標準一致”,通過首件成果驗證,發(fā)現DEM柵格數據轉為矢量數據后,經歷“平滑處理”,造成了數據單條曲線數據量呈幾何數量級增大,縣域面積在平方千米,計算實踐太長且人工處理“小圖斑”時,計算機運行每一個動作,都存在“卡頓”現象,無法想象6000平方千米的縣域如何操作;且經過“平滑處理”后,每一點都不在柵格數據的角點,成果數據無法進行“差異率”計算。
(1)提高人工合并圖斑的準確性,避免圖斑合并錯誤。如將1級平坦地勢的大圖斑合并到5級陡峭小圖斑,造成地勢表達錯誤,如果錯誤面積過大,也可能“差異率”超過3%,數據成果質量不能合格。
(2)將寬度小于或等于1個格網尺寸的線狀坡度圖斑合并至相鄰圖斑中。
(3)線狀坡度圖斑處理時由原設計的按平均配賦原則與相鄰圖斑合并,變更為與相鄰圖斑合并。
依據實際情況調整和優(yōu)化生產工藝流程:
(1)刪除“坡度分級矢量數據的圖斑界線與坡度分級柵格數據空間位置偏移一般不超過1個格網,最大偏移量不得超過2個格網。”
(2)“對綜合后的圖斑進行平滑處理,最后進行拓撲重建,使之屬性結構同標準一致。”中“平滑處理”,不符合大數據地理信息數據成果質量要求,因此調整了生產工藝為“對綜合后的圖斑后拓撲重建,使之屬性結構同標準一致?!保龍D斑合并外不再進行“平滑處理”。
盡管坡度圖是地圖其中的一種,對于“三調”項目坡度圖卻不能完全套用傳統(tǒng)方式制成地圖,這是大數據地理系信息數據的需要。實踐中要從需求的實際出發(fā)合理制定質量控制實施方案。
為提高大數據地理信息數據整體質量,優(yōu)化計算機法,提高自動化程度,盡量減少人工干預,應是大數據地理信息數據生產的趨勢。