李志盛,周曉光, 任常青
(1.中南大學(xué) 地球科學(xué)與信息物理學(xué)院,湖南 長(zhǎng)沙 410083;2.國(guó)家測(cè)繪地理信息局 第一航測(cè)遙感院,陜西 西安 710054)
我國(guó)于2014年完成了全球陸表30 m分辨率的遙感制圖產(chǎn)品的研制,現(xiàn)在迫切需要解決其持續(xù)更新問(wèn)題。目前,獲取地表覆蓋增量信息的主要途徑包括:①?gòu)倪b感影像中獲取;②整合利用網(wǎng)絡(luò)化公開數(shù)據(jù)。利用遙感影像數(shù)據(jù)獲取地表覆蓋增量信息存在工作量大等問(wèn)題[1-4],而網(wǎng)絡(luò)化公開數(shù)據(jù)存在更新速度快、數(shù)據(jù)豐富、獲取便利等優(yōu)點(diǎn),是獲取地表覆蓋變化信息的理想數(shù)據(jù)源。近年來(lái),VGI發(fā)展迅速。其中OSM、Wikimapia等項(xiàng)目收集了豐富的空間數(shù)據(jù)。由于OSM提供免費(fèi)的全球矢量數(shù)據(jù),且其數(shù)據(jù)豐富[5-8],因此,本文選取OSM數(shù)據(jù)作為獲取地表覆蓋增量信息的數(shù)據(jù)源。
OSM數(shù)據(jù)包括26種基本類型,全球地表覆蓋數(shù)據(jù)包括10種基本類型,OSM數(shù)據(jù)不能直接獲得各類地表覆蓋數(shù)據(jù),因此需要對(duì)OSM數(shù)據(jù)進(jìn)行類型轉(zhuǎn)換才能得到。這就需要建立一套從OSM數(shù)據(jù)到地表覆蓋數(shù)據(jù)的類型轉(zhuǎn)換規(guī)則,并通過(guò)此規(guī)則從OSM數(shù)據(jù)中提取出10類地表覆蓋數(shù)據(jù)。OSM部分?jǐn)?shù)據(jù)存在多層重疊拓?fù)溴e(cuò)誤,此類數(shù)據(jù)在后期更新過(guò)程中會(huì)導(dǎo)致同一位置的數(shù)據(jù)被多次進(jìn)行更新操作,增大數(shù)據(jù)處理工作量;由于數(shù)據(jù)過(guò)于碎片化,直接使用也會(huì)大大增加處理的工作量。鑒于以上原因,類型轉(zhuǎn)換后的數(shù)據(jù)還需進(jìn)一步聚類綜合才能得到適合用于更新的地表覆蓋數(shù)據(jù)。
根據(jù)上文分析,首先利用OSM網(wǎng)站中提供的Primary features建立類型轉(zhuǎn)換規(guī)則,根據(jù)規(guī)則從OSM數(shù)據(jù)提取出每個(gè)類別的地表覆蓋數(shù)據(jù);然后基于要素聚類提取聚集范圍并柵格化獲得地表覆蓋數(shù)據(jù);最后與GlobeLand30數(shù)據(jù)進(jìn)行柵格運(yùn)算得到地表覆蓋增量數(shù)據(jù)。詳細(xì)流程如圖1所示。
圖1 利用OSM數(shù)據(jù)提取地表覆蓋增量信息的整體思路圖Fig.1 The general idea of incremental data extraction for land cover data using OSM data
從OSM數(shù)據(jù)中提取地表覆蓋增量數(shù)據(jù)包括OSM到地表覆蓋數(shù)據(jù)的類型轉(zhuǎn)換、轉(zhuǎn)換目標(biāo)聚集范圍提取和增量信息提取3個(gè)步驟。
類型轉(zhuǎn)換是將OSM數(shù)據(jù)的26類轉(zhuǎn)換為10類地表覆蓋數(shù)據(jù),其主要通過(guò)建立映射規(guī)則來(lái)實(shí)現(xiàn)。地表覆蓋類型選擇的是國(guó)家基礎(chǔ)地理信息中心發(fā)布的10個(gè)類型,分別是:耕地、森林、草地、灌木地、濕地、水體、苔原、人造地表、裸地、冰川和永久積雪。然而OSM數(shù)據(jù)沒(méi)有采用傳統(tǒng)的專題分層管理,只是通過(guò)tag標(biāo)簽中的key_value值描述地物屬性[6]。根據(jù)tag標(biāo)簽中的key_value可以確定數(shù)據(jù)對(duì)應(yīng)地表覆蓋的類型。OSM數(shù)據(jù)中心提供了基本數(shù)據(jù)特征描述(Primary features),包含key_value值和對(duì)應(yīng)的文字與圖片描述。收集Primary features中所有的key_value值并確定所對(duì)應(yīng)的地表覆蓋類型,得到類型轉(zhuǎn)換的規(guī)則。建立的部分規(guī)則實(shí)例見(jiàn)表1,表1中key、value值分別對(duì)應(yīng)OSM數(shù)據(jù)中tag標(biāo)簽內(nèi)的key、value值,target?layer則表示key,value值對(duì)應(yīng)的地表覆蓋類型。
表1 OSM數(shù)據(jù)到地表覆蓋數(shù)據(jù)類型轉(zhuǎn)換規(guī)則實(shí)例Tab.1 Instance of type conversion rules for OSM data to land cover data
OSM原始數(shù)據(jù)入庫(kù)后得到點(diǎn)(point)、線(polyline)、面(polygon)3個(gè)表。根據(jù)收集的規(guī)則從point、polyline 、polygon3個(gè)表提取出地表覆蓋各個(gè)類型的數(shù)據(jù),并存入相應(yīng)的表中。類型轉(zhuǎn)換規(guī)則如下:
If data.tag.key = rule.key && data.tag.value = rule.value then data ∈rule.targetlayer
式中,data表示入庫(kù)后的數(shù)據(jù),rule則表示表1規(guī)則中的1條規(guī)則。
具體處理流程如下:
1) 讀取規(guī)則表中第i種地表覆蓋類型對(duì)應(yīng)的key、value值存入數(shù)組。
2) 遍歷數(shù)組獲得每一對(duì)key、value值,根據(jù)從point、polyline 、polygon3個(gè)總表中提取key、value字段與其相同的數(shù)據(jù)存入第i種地表覆蓋類型對(duì)應(yīng)的點(diǎn)、線、面表中,并在point、polyline 、polygon表中對(duì)此部分?jǐn)?shù)據(jù)進(jìn)行標(biāo)記。
3) 返回第1)步獲取下一種地表覆蓋類型對(duì)應(yīng)的轉(zhuǎn)換規(guī)則,直到所有地表覆蓋類型的數(shù)據(jù)都被提取完。
類型轉(zhuǎn)換后得到的地表覆蓋面數(shù)據(jù)仍存在碎片化、多層重疊等現(xiàn)象,用其直接提取地表覆蓋增量數(shù)據(jù)會(huì)導(dǎo)致效率低、后期處理難度大等問(wèn)題,因此,需要對(duì)該數(shù)據(jù)進(jìn)行聚類處理。常見(jiàn)的空間聚類主要有以下幾類:基于層次的方法[9-12]、基于格網(wǎng)的方法[13-14]、基于劃分的方法[15-16]、基于密度的方法[17-23]和基于四叉樹的方法[24-25]。其中,基于四叉樹的方法和基于格網(wǎng)的方法相比其他幾類聚類方法具有處理速度快的優(yōu)點(diǎn),同時(shí)此類方法的效率與數(shù)據(jù)量的關(guān)系不大,主要受空間劃分單元個(gè)數(shù)的影響,聚類結(jié)果以單元格表示容易合并得到聚集范圍[13-14,24-25]。因?yàn)榛谒牟鏄涞姆椒ㄏ啾然诟窬W(wǎng)的方法效率更高[24-25],本文選擇前者作為OSM數(shù)據(jù)聚集范圍提取的方法。
1)聚類要素的四叉樹剖分
設(shè)給定的聚類區(qū)域A有n個(gè)元素,記為F={f1,f2, f3…,fn}。首先將區(qū)域A平均分為4個(gè)單元格z0、z1、z2、z3,每個(gè)單元格都與F中元素進(jìn)行相交計(jì)算,對(duì)與F元素相交的單元格繼續(xù)剖分,并將剖分得到的單元格繼續(xù)做相交計(jì)算。以此類推,直到單元格的邊長(zhǎng)小于期望的閾值。此時(shí)與F中元素相交的單元格存入集合G中。圖2為剖分次數(shù)為1、3、5時(shí)的結(jié)果圖。
圖2 聚類要素的四叉樹剖分Fig.2 Quadtree partition of clustering elements
2)單元格合并
四叉樹剖分后,還需對(duì)最小劃分的所有單元格進(jìn)行合并得到目標(biāo)多邊形,其中最小單元格在集合G中的存儲(chǔ)索引如圖3所示。
圖3 集合G存儲(chǔ)索引Fig.3 Storage index of set G
為了提高效率,單元格合并分兩步進(jìn)行:第一步將相鄰的單元格進(jìn)行粗略合并,第二步將第一步合并得到的多邊形進(jìn)行精確合并。
第一步的合并流程如下:
1)設(shè)集合G中有m個(gè)單元格,記為G={g1,g2,g3…,gm},讀取集合G中第i(i從0開始)個(gè)未被標(biāo)記的單元格gi,首先將gi標(biāo)記為merged,然后令多邊形p等于gi。
2) 讀取存儲(chǔ)在其后的單元格gj(i 3) 直到遍歷完存儲(chǔ)在gi后的所有單元格gi+1,gi+2…,gm,將最后合并的多邊形存儲(chǔ)在集合D中。 4) 重復(fù)步驟1),2)和3),直到i=m停止。 第一步能將大部分相鄰的單元格進(jìn)行合并,合并的結(jié)果會(huì)有一些相鄰的多邊形未合并的情況出現(xiàn)。如圖4(b)所示,但是由于每次得到一個(gè)最終多邊形只需要遍歷一次存儲(chǔ)在首個(gè)單元格gi之后的所有單元格,較大地提高了合并的效率。 第二步的合并和第一步很相似,不同之處在于每次兩個(gè)多邊形合并后繼續(xù)遍歷所有未標(biāo)記的多邊形,而不只是遍歷存儲(chǔ)在其后的多邊形,以保證所有滿足條件的多邊形都能進(jìn)行合并得到一個(gè)最終多邊形,由于此時(shí)集合D中多邊形的個(gè)數(shù)遠(yuǎn)遠(yuǎn)少于之前集合G單元格的個(gè)數(shù),所以判斷或者合并的工作量已經(jīng)大大減少。合并的結(jié)果如圖4(c)所示。 圖4 單元格合并結(jié)果Fig.4 Cell merge result 單元格合并后可得到每個(gè)類型的地表覆蓋矢量數(shù)據(jù),分別柵格化后得到對(duì)應(yīng)類型的柵格數(shù)據(jù)。將所有柵格數(shù)據(jù)進(jìn)行疊加處理,重疊區(qū)域選擇最大值,從而得到OSM地表覆蓋數(shù)據(jù)。由于OSM數(shù)據(jù)的不完整性會(huì)導(dǎo)致部分區(qū)域無(wú)數(shù)據(jù),如圖5中的黑色區(qū)域,因此在與GlobeLand30數(shù)據(jù)做疊加運(yùn)算之前,需先將GlobeLand30數(shù)據(jù)對(duì)應(yīng)OSM地表覆蓋數(shù)據(jù)中無(wú)數(shù)據(jù)區(qū)域的值設(shè)置為零。然后將兩張柵格圖像做差的柵格運(yùn)算得到兩張圖像的不同區(qū)域,最后提取OSM地表覆蓋數(shù)據(jù)中同一區(qū)域的數(shù)據(jù)得到增量數(shù)據(jù)。 圖5 OSM地表覆蓋數(shù)據(jù)Fig.5 OSM land cover data 為驗(yàn)證本文方法的可行性,以O(shè)SM網(wǎng)站于2016年7月23日發(fā)布的愛(ài)沙尼亞區(qū)域的數(shù)據(jù)做驗(yàn)證。數(shù)據(jù)入庫(kù)后,利用收集的規(guī)則進(jìn)行類型轉(zhuǎn)換,統(tǒng)計(jì)結(jié)果見(jiàn)表2。 表2 愛(ài)沙尼亞OSM地表覆蓋數(shù)據(jù)分類統(tǒng)計(jì)Tab.2 Classification statistics of OSM land cover data in Estonia 由表2可知,在OSM地表覆蓋數(shù)據(jù)中,人造地表類型數(shù)據(jù)最多,同時(shí)耕地、森林、水體地表覆蓋類型也擁有較多的數(shù)據(jù),不同類型數(shù)據(jù)量差別較大。 圖6 OSM地表覆蓋、GlobeLand30和谷歌影像對(duì)比Fig.6 Comparison of OSM land cover data, GlobeLand30 and Google image 選取愛(ài)沙尼亞部分區(qū)域的轉(zhuǎn)換后數(shù)據(jù)進(jìn)行聚類、柵格化等處理得到的地表覆蓋分類數(shù)據(jù)如圖6(a)所示,通過(guò)與2010年的GlobeLand30數(shù)據(jù)做疊加運(yùn)算得到地表覆蓋增量數(shù)據(jù)如圖6(d)所示,其中,黑色代表無(wú)數(shù)據(jù)的區(qū)域。截取圖6(a)、(b)、(c)、(d)中的黃色矩形區(qū)域放大得到圖7(a)、(b)、(c)、(d),其中,圖7(b)GlobeLand30數(shù)據(jù)與谷歌影像進(jìn)行對(duì)比可以發(fā)現(xiàn)GlobeLand30錯(cuò)把人造地表和草地分類到了耕地,而本文方法提取的地表覆蓋數(shù)據(jù)更符合真實(shí)現(xiàn)狀。繼而可以得出結(jié)論基于OSM數(shù)據(jù)提取地表覆蓋增量信息具有一定的可行性。 圖7 OSM地表覆蓋、GlobeLand30和谷歌影像局部對(duì)比Fig.7 Local comparison of OSM land cover data,GlobeLand30 and Google image 為了滿足全球地表覆蓋數(shù)據(jù)不斷更新的需求,本文提出了一種基于OSM的地表覆蓋增量數(shù)據(jù)提取方法。建立了一套OSM數(shù)據(jù)到地表覆蓋數(shù)據(jù)的類型轉(zhuǎn)換規(guī)則,然后針對(duì)類型轉(zhuǎn)換后數(shù)據(jù)存在的目標(biāo)零散等問(wèn)題,采用聚類方法對(duì)轉(zhuǎn)換數(shù)據(jù)進(jìn)行聚集整合;繼而對(duì)整合后的數(shù)據(jù)柵格化并與GlobeLand30數(shù)據(jù)進(jìn)行疊加運(yùn)算得到地表覆蓋增量數(shù)據(jù)。最后使用愛(ài)沙尼亞區(qū)域的OSM數(shù)據(jù),驗(yàn)證了本文方法的可行性。利用本文方法提取的地表覆蓋增量數(shù)據(jù)具有現(xiàn)勢(shì)性強(qiáng)、類別豐富和獲取成本低等優(yōu)點(diǎn)。在以下方面還需進(jìn)一步研究:①OSM數(shù)據(jù)分布不均勻,要獲得更加完整的增量數(shù)據(jù),還需結(jié)合其他VGI數(shù)據(jù)一起處理;②OSM數(shù)據(jù)質(zhì)量參差不齊,要排除質(zhì)量較差的數(shù)據(jù),還需計(jì)算出數(shù)據(jù)的信譽(yù)度作為過(guò)濾的依據(jù)[26-27]。2.3 增量信息提取
3 實(shí) 驗(yàn)
4 結(jié)束語(yǔ)