王風(fēng)帆,孔敏,余佳,韓璐遙
(國家海洋信息中心,天津 300171)
海洋底質(zhì)類型圖是開展海洋環(huán)境研究的基礎(chǔ)圖件之一,常用于海洋工程、沉積環(huán)境研究等領(lǐng)域[1-2]。傳統(tǒng)底質(zhì)制圖方法依賴于制圖人員的專業(yè)知識(shí),主觀性強(qiáng)且效率不高[3]。隨著計(jì)算機(jī)技術(shù)的發(fā)展,空間插值技術(shù)的引入大大提高了底質(zhì)類型圖制作的效率。張立華等[4]和王濤等[5]引入了Voronoi圖生成技術(shù);楊康等[3]利用反距離加權(quán)和克里金法進(jìn)行網(wǎng)格點(diǎn)粒級(jí)組分插值,然后采用柵格疊合法計(jì)算底質(zhì)類型。Jerosch[6]改進(jìn)了柵格疊合法,利用協(xié)同克里金法引入地形信息,并證明該方法適用于不含礫石的謝帕德分類。Lark等[7]直接利用協(xié)同克里金法進(jìn)行底質(zhì)類型預(yù)測,但只針對簡化的??朔诸悾ê[),且實(shí)現(xiàn)過程復(fù)雜,對統(tǒng)計(jì)學(xué)知識(shí)要求較高。由于克里金法對數(shù)據(jù)在空間平穩(wěn)性和統(tǒng)計(jì)分布上的要求較高,限制了其在底質(zhì)類型圖制作中的應(yīng)用。劉付程等[8-9]和袁瑋等[10]提出了一種基于概率測度的底質(zhì)類型制圖法,降低了對數(shù)據(jù)的要求,且能夠?qū)Σ逯到Y(jié)果的不確定性進(jìn)行評價(jià),但對空間統(tǒng)計(jì)相關(guān)知識(shí)要求較高。上述海洋底質(zhì)類型圖制作方法均需要準(zhǔn)確的沉積物組分信息,無法應(yīng)用于組分信息缺失的場景,且其目標(biāo)產(chǎn)品均為網(wǎng)格或位圖數(shù)據(jù),不利于后續(xù)圖件修改工作的開展。
本文針對傳統(tǒng)底質(zhì)類型圖制作中存在的問題,基于隨機(jī)森林算法分類功能,研究海洋底質(zhì)類型網(wǎng)格數(shù)據(jù)智能制作方法,設(shè)計(jì)了底質(zhì)類型分布矢量圖的制作與平滑流程,能夠獲取準(zhǔn)確的底質(zhì)類型分布矢量數(shù)據(jù),使底質(zhì)類型邊界光滑美觀,最終利用渤海區(qū)域底質(zhì)數(shù)據(jù)進(jìn)行應(yīng)用試驗(yàn),結(jié)果與柵格疊合法進(jìn)行對比分析,證明了該方法的有效性。
本文選用渤海區(qū)域歷史調(diào)查獲取的表層沉積物樣品粒度數(shù)據(jù),共790 站,包含經(jīng)度、緯度、各組分比例(礫石、砂、粉砂、黏土)信息,數(shù)據(jù)完整且較為規(guī)范(組分比例之和為100%±1%)[11],可精準(zhǔn)確定底質(zhì)類型并用于后期方法驗(yàn)證。站位數(shù)空間分布如圖1所示。
圖1 底質(zhì)數(shù)據(jù)站位數(shù)空間分布圖
依據(jù)??朔诸惙╗7],將數(shù)據(jù)劃分為11 種底質(zhì)類型。從數(shù)量上看(圖2),以砂質(zhì)粉砂、粉砂質(zhì)砂、泥質(zhì)砂和粉砂為主,黏土、礫質(zhì)泥質(zhì)砂、含礫泥、礫質(zhì)砂十分稀少。
圖2 底質(zhì)類型站位數(shù)量分布圖
考慮到海洋底質(zhì)歷史數(shù)據(jù)中,沉積物組分信息經(jīng)常存在缺失的情況,因此對于一些缺少詳細(xì)數(shù)據(jù)的區(qū)域只能利用已知的底質(zhì)類型直接成圖。而底質(zhì)類型屬于離散數(shù)據(jù),大部分插值方法不適用該場景,因此本文利用機(jī)器學(xué)習(xí)隨機(jī)森林算法的分類功能,通過學(xué)習(xí)底質(zhì)數(shù)據(jù)的空間自相關(guān)性來預(yù)測未采樣位置的底質(zhì)類型。
2.1.1 算法原理
隨機(jī)森林算法是指為增強(qiáng)決策樹的多樣性而在決策樹構(gòu)建過程中對樣本和特征進(jìn)行隨機(jī)化選擇的集成化學(xué)習(xí)方法(圖3),即具有隨機(jī)化決策樹的Bagging 集成,屬于非參數(shù)統(tǒng)計(jì)方法與決策樹算法的結(jié)合[12]。隨機(jī)森林算法不需要先驗(yàn)假設(shè),可以充分利用輸入信息,能夠處理樣本不平衡問題且不容易出現(xiàn)過擬合,具有較高的運(yùn)算速度和穩(wěn)健性,易于操作和使用,因而在數(shù)據(jù)分類中廣泛應(yīng)用。
圖3 隨機(jī)森林算法原理圖
隨機(jī)森林算法首先對具有K個(gè)特征的訓(xùn)練數(shù)據(jù)集進(jìn)行有放回隨機(jī)采樣,形成m個(gè)子訓(xùn)練集,針對每個(gè)子訓(xùn)練集隨機(jī)抽取k個(gè)特征(k≤K)來建立m個(gè)決策樹,然后在測試或?qū)嶋H分類時(shí),采用投票作為結(jié)合策略,以決策樹預(yù)測最多(票數(shù)最高)的類別作為最終結(jié)果。這種通過隨機(jī)抽取部分樣本來生成決策樹的方法稱為Bagging 集成。決策樹建立需要確定分裂方法,常用的是不純度度量法,包括Gini 系數(shù)法、信息增益法、增益比率法等。這里采用應(yīng)用最廣泛的Gini 系數(shù),其公式為:
式中:pl為輸入樣本屬于第l個(gè)類別(共L個(gè)類別)的概率。Gini系數(shù)越小代表樣本純度越高。
2.1.2 模型評估指標(biāo)
評估分類模型性能的指標(biāo)有準(zhǔn)確率、精準(zhǔn)率、召回率和F1 值等[13]。其中,準(zhǔn)確率是常用的模型評價(jià)指標(biāo):
式中:TP為真正類,指一個(gè)正類實(shí)例被預(yù)測為正類;TN為真負(fù)類,指一個(gè)負(fù)類被預(yù)測為負(fù)類;FP為假正類,指一個(gè)負(fù)類被預(yù)測為正類;FN為假負(fù)類,指一個(gè)正類被預(yù)測為負(fù)類。
在數(shù)據(jù)不均衡的情況下,準(zhǔn)確率對模型性能的反映存在很大缺陷,因此需要從不同角度去評價(jià)分類效果。
精準(zhǔn)率Pre為真正類與預(yù)測為正類的數(shù)量之比。
召回率Rec為真正類與實(shí)際為正類的數(shù)量之比。
F1 值是精準(zhǔn)率與召回率的結(jié)合,能夠?qū)δP瓦M(jìn)行整體評價(jià)。
考慮到本文數(shù)據(jù)中各底質(zhì)類型數(shù)量并不均衡,雖然算法構(gòu)建過程中采取了一定措施,但為了進(jìn)一步減小數(shù)據(jù)不均衡帶來的影響,最終采用F1 值作為建模過程中的評價(jià)指標(biāo)。
2.1.3 類型編碼
將輸入數(shù)據(jù)中的經(jīng)度和緯度作為特征變量,底質(zhì)類型為標(biāo)簽變量。底質(zhì)類型為字符型數(shù)據(jù),算法無法識(shí)別,需要將其轉(zhuǎn)換為離散化數(shù)值[12](表1)。
表1 底質(zhì)類型編碼
將數(shù)據(jù)輸入模型進(jìn)行訓(xùn)練,決策樹數(shù)量設(shè)置為100,完成后將成圖網(wǎng)格點(diǎn)處坐標(biāo)輸入模型,以預(yù)測坐標(biāo)點(diǎn)處的坐標(biāo)類型編碼,然后利用表1進(jìn)行反編碼,即可獲取底質(zhì)類型的網(wǎng)格數(shù)據(jù)。根據(jù)數(shù)據(jù)空間分布范圍,設(shè)置網(wǎng)格步長為0.6'。
獲取網(wǎng)格數(shù)據(jù)后,便可進(jìn)行底質(zhì)類型圖的制作。底質(zhì)類型圖不同于等值線及等值線填充圖,其以多邊形面為主體,內(nèi)部的底質(zhì)類型一致。常規(guī)作圖法采用網(wǎng)格填充或者最近鄰插值方式,但在網(wǎng)格步長較大時(shí)會(huì)產(chǎn)生明顯的鋸齒狀邊界。而等值線生成法雖然能夠產(chǎn)生光滑的邊界,但由于其將輸入編碼作為連續(xù)數(shù)值,最終會(huì)產(chǎn)生連續(xù)疊加的“厚”邊界甚至不正確的面要素,需要后期進(jìn)行手工編輯修正,增加了工作量[14]。
為了改善這一問題,本文利用ArcGIS 的矢量數(shù)據(jù)操作功能[15-16],提出了一種底質(zhì)類型邊界平滑方法。具體如下:
采用最近鄰插值獲取底質(zhì)類型面要素,利用Data Management Tools -> Feature -> Feature to Point 功能提取面要素的代表點(diǎn),并利用Spatial Analyst Tools -> Extraction -> Extract Values to Points功能將底質(zhì)類型信息添加到代表點(diǎn)中。
將面要素轉(zhuǎn)換為線要素(邊界線),利用Cartography Tools -> Generalization -> Smooth Line功能對邊界線進(jìn)行光滑。這里平滑算法選用Peak,容差為1°。
利用Data Management Tools -> Feature ->Feature to Polygon 將邊界線與研究區(qū)多邊形結(jié)合生成具有光滑邊界的面要素。
利用Analysis Tools -> Overlay -> Spatial Join功能,將代表點(diǎn)的底質(zhì)類型信息賦給面要素。
最終,對面要素進(jìn)行顏色填充等操作,完成底質(zhì)類型圖的編制??傮w技術(shù)路線如圖4所示。
圖4 技術(shù)路線圖
為了測試模型的有效性,需要將數(shù)據(jù)集劃分成兩個(gè)部分,分別用于模型構(gòu)建與測試。考慮到含礫泥質(zhì)砂等5 種沉積物數(shù)量過少(<10),無法開展測試,因此將其剔除,然后按6∶4 的比例將數(shù)據(jù)集劃分為訓(xùn)練集與測試集,利用訓(xùn)練集建立底質(zhì)類型空間預(yù)測模型,并利用測試集對模型進(jìn)行評估。分析評估結(jié)果(表2)發(fā)現(xiàn),模型總體加權(quán)平均F1 值為60%,其中對泥質(zhì)砂的預(yù)測性能較好,F(xiàn)1 值達(dá)到了71%,但對砂和砂質(zhì)泥的預(yù)測性能很差,F(xiàn)1 值為0%。這里影響模型性能的因素主要有兩個(gè),一個(gè)是樣本數(shù)量,另一個(gè)則是樣本的分布情況。樣本數(shù)量越少,算法挖掘其規(guī)律的效果就越差;而分布零散,會(huì)導(dǎo)致某一種沉積物的分布區(qū)內(nèi)沒有樣本用于模型建立,也會(huì)影響測試結(jié)果。因此除了量化分析結(jié)果外,還需要通過繪制底質(zhì)類型圖并與已有方法制作的圖件相比較進(jìn)行驗(yàn)證分析。
表2 隨機(jī)森林模型測試結(jié)果
將渤海沉積物粒度數(shù)據(jù)按照本文建立的智能制圖方法進(jìn)行網(wǎng)格化與圖件制作,即假設(shè)研究區(qū)內(nèi)底質(zhì)數(shù)據(jù)僅有底質(zhì)類型信息,沉積物組分信息缺失,在該情形下制作獲取底質(zhì)類型圖(圖5(a))。為了分析圖件的有效性,需對比底質(zhì)數(shù)據(jù)中沉積物組分信息完整的場景,即采用柵格疊合法制作底質(zhì)類型圖進(jìn)行比較(圖5(b))。面要素顏色填充均依據(jù)國家標(biāo)準(zhǔn)《海洋要素圖示圖例及符號(hào)》(GB/T 32067-2015)[16]。
圖5 不同方法制作的底質(zhì)分類圖
首先,隨機(jī)森林與柵格疊合的制圖結(jié)果十分接近,整體趨勢基本一致。柵格疊合的結(jié)果可靠性較高,但也是基于詳細(xì)的組分信息,在許多收集的海洋底質(zhì)類型圖等資料中并不包含這些信息,因此隨機(jī)森林方法在一定情形下作為常規(guī)制圖法的補(bǔ)充是比較可靠的。
其次,柵格疊合比隨機(jī)森林結(jié)果多出3 個(gè)底質(zhì)類型,砂質(zhì)黏土(sC)、礫質(zhì)泥(gM)和含礫砂((g)S),這是由于柵格疊合是基于組分進(jìn)行插值,疊合后需要重新進(jìn)行類型劃分。沉積物的空間分布具有一定的漸變性特征,不同底質(zhì)類型之間的邊界具有模糊性(不確定性)[10],因此出現(xiàn)這種現(xiàn)象是合理的。但這些類型占比非常小,對結(jié)果影響不是很大,因此隨機(jī)森林結(jié)果可用性還是很高的。
最后,柵格疊合法產(chǎn)生的底質(zhì)類型邊界由于最近鄰插值呈鋸齒狀,一般為了消除這種現(xiàn)象需要設(shè)計(jì)更小的網(wǎng)格間距,會(huì)加大計(jì)算量。而本文提出的邊界平滑方法可以解決這個(gè)問題,并能夠獲取易于編輯的矢量數(shù)據(jù),有利于后期的圖件修改。此外,該平滑方法也可應(yīng)用于柵格疊合法邊界平滑,效果明顯(圖5(c))。
本文針對底質(zhì)類型數(shù)據(jù),提出基于隨機(jī)森林算法的底質(zhì)類型圖網(wǎng)格制作方法,并利用ArcGIS的矢量數(shù)據(jù)操作功能構(gòu)建底質(zhì)類型邊界平滑方法,開發(fā)了底質(zhì)類型矢量圖智能制作技術(shù),最終利用渤海沉積物粒度數(shù)據(jù)進(jìn)行應(yīng)用試驗(yàn),并與柵格疊合技術(shù)進(jìn)行了對比,得出結(jié)論如下:
(1)本文提出的底質(zhì)類型智能預(yù)測方法能夠?qū)ξ床蓸游恢玫牡踪|(zhì)類型進(jìn)行有效預(yù)測。
(2)利用本文提出的底質(zhì)類型邊界平滑方法可以獲得平滑的底質(zhì)類型邊界,制作出的圖件較為美觀。
(3)本文提出的底質(zhì)類型矢量圖智能制作方法,是對傳統(tǒng)底質(zhì)類型圖制作方法的補(bǔ)充與改進(jìn),能夠有效提高圖件制作效率,有利于后續(xù)研究工作的開展。