海洋底質(zhì)類型圖矢量化智能制作技術(shù)研究

2023-11-28 10:08:10王風(fēng)帆孔敏余佳韓璐遙

海洋信息技術(shù)與應(yīng)用 2023年4期

王風(fēng)帆，孔敏，余佳，韓璐遙

（國家海洋信息中心，天津 300171）

海洋底質(zhì)類型圖是開展海洋環(huán)境研究的基礎(chǔ)圖件之一，常用于海洋工程、沉積環(huán)境研究等領(lǐng)域[1-2]。傳統(tǒng)底質(zhì)制圖方法依賴于制圖人員的專業(yè)知識(shí)，主觀性強(qiáng)且效率不高[3]。隨著計(jì)算機(jī)技術(shù)的發(fā)展，空間插值技術(shù)的引入大大提高了底質(zhì)類型圖制作的效率。張立華等[4]和王濤等[5]引入了Voronoi圖生成技術(shù)；楊康等[3]利用反距離加權(quán)和克里金法進(jìn)行網(wǎng)格點(diǎn)粒級(jí)組分插值，然后采用柵格疊合法計(jì)算底質(zhì)類型。Jerosch[6]改進(jìn)了柵格疊合法，利用協(xié)同克里金法引入地形信息，并證明該方法適用于不含礫石的謝帕德分類。Lark等[7]直接利用協(xié)同克里金法進(jìn)行底質(zhì)類型預(yù)測，但只針對簡化的?？朔诸悾ê[），且實(shí)現(xiàn)過程復(fù)雜，對統(tǒng)計(jì)學(xué)知識(shí)要求較高。由于克里金法對數(shù)據(jù)在空間平穩(wěn)性和統(tǒng)計(jì)分布上的要求較高，限制了其在底質(zhì)類型圖制作中的應(yīng)用。劉付程等[8-9]和袁瑋等[10]提出了一種基于概率測度的底質(zhì)類型制圖法，降低了對數(shù)據(jù)的要求，且能夠?qū)Σ逯到Y(jié)果的不確定性進(jìn)行評價(jià)，但對空間統(tǒng)計(jì)相關(guān)知識(shí)要求較高。上述海洋底質(zhì)類型圖制作方法均需要準(zhǔn)確的沉積物組分信息，無法應(yīng)用于組分信息缺失的場景，且其目標(biāo)產(chǎn)品均為網(wǎng)格或位圖數(shù)據(jù)，不利于后續(xù)圖件修改工作的開展。

本文針對傳統(tǒng)底質(zhì)類型圖制作中存在的問題，基于隨機(jī)森林算法分類功能，研究海洋底質(zhì)類型網(wǎng)格數(shù)據(jù)智能制作方法，設(shè)計(jì)了底質(zhì)類型分布矢量圖的制作與平滑流程，能夠獲取準(zhǔn)確的底質(zhì)類型分布矢量數(shù)據(jù)，使底質(zhì)類型邊界光滑美觀，最終利用渤海區(qū)域底質(zhì)數(shù)據(jù)進(jìn)行應(yīng)用試驗(yàn)，結(jié)果與柵格疊合法進(jìn)行對比分析，證明了該方法的有效性。

1 數(shù)據(jù)情況

本文選用渤海區(qū)域歷史調(diào)查獲取的表層沉積物樣品粒度數(shù)據(jù)，共790 站，包含經(jīng)度、緯度、各組分比例（礫石、砂、粉砂、黏土）信息，數(shù)據(jù)完整且較為規(guī)范（組分比例之和為100%±1%）[11]，可精準(zhǔn)確定底質(zhì)類型并用于后期方法驗(yàn)證。站位數(shù)空間分布如圖1所示。

圖1 底質(zhì)數(shù)據(jù)站位數(shù)空間分布圖

依據(jù)?？朔诸惙╗7]，將數(shù)據(jù)劃分為11 種底質(zhì)類型。從數(shù)量上看（圖2），以砂質(zhì)粉砂、粉砂質(zhì)砂、泥質(zhì)砂和粉砂為主，黏土、礫質(zhì)泥質(zhì)砂、含礫泥、礫質(zhì)砂十分稀少。

圖2 底質(zhì)類型站位數(shù)量分布圖

2 技術(shù)方法

2.1 隨機(jī)森林算法

考慮到海洋底質(zhì)歷史數(shù)據(jù)中，沉積物組分信息經(jīng)常存在缺失的情況，因此對于一些缺少詳細(xì)數(shù)據(jù)的區(qū)域只能利用已知的底質(zhì)類型直接成圖。而底質(zhì)類型屬于離散數(shù)據(jù)，大部分插值方法不適用該場景，因此本文利用機(jī)器學(xué)習(xí)隨機(jī)森林算法的分類功能，通過學(xué)習(xí)底質(zhì)數(shù)據(jù)的空間自相關(guān)性來預(yù)測未采樣位置的底質(zhì)類型。

2.1.1 算法原理

隨機(jī)森林算法是指為增強(qiáng)決策樹的多樣性而在決策樹構(gòu)建過程中對樣本和特征進(jìn)行隨機(jī)化選擇的集成化學(xué)習(xí)方法（圖3），即具有隨機(jī)化決策樹的Bagging 集成，屬于非參數(shù)統(tǒng)計(jì)方法與決策樹算法的結(jié)合[12]。隨機(jī)森林算法不需要先驗(yàn)假設(shè)，可以充分利用輸入信息，能夠處理樣本不平衡問題且不容易出現(xiàn)過擬合，具有較高的運(yùn)算速度和穩(wěn)健性，易于操作和使用，因而在數(shù)據(jù)分類中廣泛應(yīng)用。

圖3 隨機(jī)森林算法原理圖

隨機(jī)森林算法首先對具有K個(gè)特征的訓(xùn)練數(shù)據(jù)集進(jìn)行有放回隨機(jī)采樣，形成m個(gè)子訓(xùn)練集，針對每個(gè)子訓(xùn)練集隨機(jī)抽取k個(gè)特征（k≤K）來建立m個(gè)決策樹，然后在測試或?qū)嶋H分類時(shí)，采用投票作為結(jié)合策略，以決策樹預(yù)測最多（票數(shù)最高）的類別作為最終結(jié)果。這種通過隨機(jī)抽取部分樣本來生成決策樹的方法稱為Bagging 集成。決策樹建立需要確定分裂方法，常用的是不純度度量法，包括Gini 系數(shù)法、信息增益法、增益比率法等。這里采用應(yīng)用最廣泛的Gini 系數(shù)，其公式為：

式中：pl為輸入樣本屬于第l個(gè)類別（共L個(gè)類別）的概率。Gini系數(shù)越小代表樣本純度越高。

2.1.2 模型評估指標(biāo)

評估分類模型性能的指標(biāo)有準(zhǔn)確率、精準(zhǔn)率、召回率和F1 值等[13]。其中，準(zhǔn)確率是常用的模型評價(jià)指標(biāo)：

式中：TP為真正類，指一個(gè)正類實(shí)例被預(yù)測為正類；TN為真負(fù)類，指一個(gè)負(fù)類被預(yù)測為負(fù)類；FP為假正類，指一個(gè)負(fù)類被預(yù)測為正類；FN為假負(fù)類，指一個(gè)正類被預(yù)測為負(fù)類。

在數(shù)據(jù)不均衡的情況下，準(zhǔn)確率對模型性能的反映存在很大缺陷，因此需要從不同角度去評價(jià)分類效果。

精準(zhǔn)率Pre為真正類與預(yù)測為正類的數(shù)量之比。

召回率Rec為真正類與實(shí)際為正類的數(shù)量之比。

F1 值是精準(zhǔn)率與召回率的結(jié)合，能夠?qū)δＰ瓦M(jìn)行整體評價(jià)。

考慮到本文數(shù)據(jù)中各底質(zhì)類型數(shù)量并不均衡，雖然算法構(gòu)建過程中采取了一定措施，但為了進(jìn)一步減小數(shù)據(jù)不均衡帶來的影響，最終采用F1 值作為建模過程中的評價(jià)指標(biāo)。

2.1.3 類型編碼

將輸入數(shù)據(jù)中的經(jīng)度和緯度作為特征變量，底質(zhì)類型為標(biāo)簽變量。底質(zhì)類型為字符型數(shù)據(jù)，算法無法識(shí)別，需要將其轉(zhuǎn)換為離散化數(shù)值[12]（表1）。

表1 底質(zhì)類型編碼

將數(shù)據(jù)輸入模型進(jìn)行訓(xùn)練，決策樹數(shù)量設(shè)置為100，完成后將成圖網(wǎng)格點(diǎn)處坐標(biāo)輸入模型，以預(yù)測坐標(biāo)點(diǎn)處的坐標(biāo)類型編碼，然后利用表1進(jìn)行反編碼，即可獲取底質(zhì)類型的網(wǎng)格數(shù)據(jù)。根據(jù)數(shù)據(jù)空間分布范圍，設(shè)置網(wǎng)格步長為0.6'。

2.2 矢量圖制作

獲取網(wǎng)格數(shù)據(jù)后，便可進(jìn)行底質(zhì)類型圖的制作。底質(zhì)類型圖不同于等值線及等值線填充圖，其以多邊形面為主體，內(nèi)部的底質(zhì)類型一致。常規(guī)作圖法采用網(wǎng)格填充或者最近鄰插值方式，但在網(wǎng)格步長較大時(shí)會(huì)產(chǎn)生明顯的鋸齒狀邊界。而等值線生成法雖然能夠產(chǎn)生光滑的邊界，但由于其將輸入編碼作為連續(xù)數(shù)值，最終會(huì)產(chǎn)生連續(xù)疊加的“厚”邊界甚至不正確的面要素，需要后期進(jìn)行手工編輯修正，增加了工作量[14]。

為了改善這一問題，本文利用ArcGIS 的矢量數(shù)據(jù)操作功能[15-16]，提出了一種底質(zhì)類型邊界平滑方法。具體如下：

采用最近鄰插值獲取底質(zhì)類型面要素，利用Data Management Tools -> Feature -> Feature to Point 功能提取面要素的代表點(diǎn)，并利用Spatial Analyst Tools -> Extraction -> Extract Values to Points功能將底質(zhì)類型信息添加到代表點(diǎn)中。

將面要素轉(zhuǎn)換為線要素（邊界線），利用Cartography Tools -> Generalization -> Smooth Line功能對邊界線進(jìn)行光滑。這里平滑算法選用Peak，容差為1°。

利用Data Management Tools -> Feature ->Feature to Polygon 將邊界線與研究區(qū)多邊形結(jié)合生成具有光滑邊界的面要素。

利用Analysis Tools -> Overlay -> Spatial Join功能，將代表點(diǎn)的底質(zhì)類型信息賦給面要素。

最終，對面要素進(jìn)行顏色填充等操作，完成底質(zhì)類型圖的編制?？傮w技術(shù)路線如圖4所示。

圖4 技術(shù)路線圖

3 試驗(yàn)與分析

為了測試模型的有效性，需要將數(shù)據(jù)集劃分成兩個(gè)部分，分別用于模型構(gòu)建與測試。考慮到含礫泥質(zhì)砂等5 種沉積物數(shù)量過少（<10），無法開展測試，因此將其剔除，然后按6∶4 的比例將數(shù)據(jù)集劃分為訓(xùn)練集與測試集，利用訓(xùn)練集建立底質(zhì)類型空間預(yù)測模型，并利用測試集對模型進(jìn)行評估。分析評估結(jié)果（表2）發(fā)現(xiàn)，模型總體加權(quán)平均F1 值為60%，其中對泥質(zhì)砂的預(yù)測性能較好，F(xiàn)1 值達(dá)到了71%，但對砂和砂質(zhì)泥的預(yù)測性能很差，F(xiàn)1 值為0%。這里影響模型性能的因素主要有兩個(gè)，一個(gè)是樣本數(shù)量，另一個(gè)則是樣本的分布情況。樣本數(shù)量越少，算法挖掘其規(guī)律的效果就越差；而分布零散，會(huì)導(dǎo)致某一種沉積物的分布區(qū)內(nèi)沒有樣本用于模型建立，也會(huì)影響測試結(jié)果。因此除了量化分析結(jié)果外，還需要通過繪制底質(zhì)類型圖并與已有方法制作的圖件相比較進(jìn)行驗(yàn)證分析。

表2 隨機(jī)森林模型測試結(jié)果

將渤海沉積物粒度數(shù)據(jù)按照本文建立的智能制圖方法進(jìn)行網(wǎng)格化與圖件制作，即假設(shè)研究區(qū)內(nèi)底質(zhì)數(shù)據(jù)僅有底質(zhì)類型信息，沉積物組分信息缺失，在該情形下制作獲取底質(zhì)類型圖（圖5（a））。為了分析圖件的有效性，需對比底質(zhì)數(shù)據(jù)中沉積物組分信息完整的場景，即采用柵格疊合法制作底質(zhì)類型圖進(jìn)行比較（圖5（b））。面要素顏色填充均依據(jù)國家標(biāo)準(zhǔn)《海洋要素圖示圖例及符號(hào)》（GB/T 32067-2015）[16]。

圖5 不同方法制作的底質(zhì)分類圖

首先，隨機(jī)森林與柵格疊合的制圖結(jié)果十分接近，整體趨勢基本一致。柵格疊合的結(jié)果可靠性較高，但也是基于詳細(xì)的組分信息，在許多收集的海洋底質(zhì)類型圖等資料中并不包含這些信息，因此隨機(jī)森林方法在一定情形下作為常規(guī)制圖法的補(bǔ)充是比較可靠的。

其次，柵格疊合比隨機(jī)森林結(jié)果多出3 個(gè)底質(zhì)類型，砂質(zhì)黏土（sC）、礫質(zhì)泥（gM）和含礫砂（（g）S），這是由于柵格疊合是基于組分進(jìn)行插值，疊合后需要重新進(jìn)行類型劃分。沉積物的空間分布具有一定的漸變性特征，不同底質(zhì)類型之間的邊界具有模糊性（不確定性）[10]，因此出現(xiàn)這種現(xiàn)象是合理的。但這些類型占比非常小，對結(jié)果影響不是很大，因此隨機(jī)森林結(jié)果可用性還是很高的。

最后，柵格疊合法產(chǎn)生的底質(zhì)類型邊界由于最近鄰插值呈鋸齒狀，一般為了消除這種現(xiàn)象需要設(shè)計(jì)更小的網(wǎng)格間距，會(huì)加大計(jì)算量。而本文提出的邊界平滑方法可以解決這個(gè)問題，并能夠獲取易于編輯的矢量數(shù)據(jù)，有利于后期的圖件修改。此外，該平滑方法也可應(yīng)用于柵格疊合法邊界平滑，效果明顯（圖5（c））。

4 結(jié)語

本文針對底質(zhì)類型數(shù)據(jù)，提出基于隨機(jī)森林算法的底質(zhì)類型圖網(wǎng)格制作方法，并利用ArcGIS的矢量數(shù)據(jù)操作功能構(gòu)建底質(zhì)類型邊界平滑方法，開發(fā)了底質(zhì)類型矢量圖智能制作技術(shù)，最終利用渤海沉積物粒度數(shù)據(jù)進(jìn)行應(yīng)用試驗(yàn)，并與柵格疊合技術(shù)進(jìn)行了對比，得出結(jié)論如下：

（1）本文提出的底質(zhì)類型智能預(yù)測方法能夠?qū)ξ床蓸游恢玫牡踪|(zhì)類型進(jìn)行有效預(yù)測。

（2）利用本文提出的底質(zhì)類型邊界平滑方法可以獲得平滑的底質(zhì)類型邊界，制作出的圖件較為美觀。

（3）本文提出的底質(zhì)類型矢量圖智能制作方法，是對傳統(tǒng)底質(zhì)類型圖制作方法的補(bǔ)充與改進(jìn)，能夠有效提高圖件制作效率，有利于后續(xù)研究工作的開展。