劉翼,王譜佐,胡翔云,修林冉
(1.中國(guó)石油西氣東輸管道公司 科技信息中心,武漢 430000;2.武漢大學(xué) 遙感信息工程學(xué)院,武漢 430079;3.中國(guó)石油西氣東輸管道公司 管道處,上海 200000)
隨著城市化的快速發(fā)展,如何在城市規(guī)劃中有效管理資源成為決策者的難題,而掌握精確的土地覆蓋數(shù)據(jù)能極大地幫助管理城市。由于機(jī)載激光雷達(dá)數(shù)據(jù)能夠快速提供高精度三維信息,己成為一種重要的遙感數(shù)據(jù)源,在城市遙感、森林遙感、石油管理信息化等領(lǐng)域發(fā)揮著重要作用[1]。目前,將三維點(diǎn)云用于城市遙感信息提取任務(wù)己經(jīng)成為熱門研究。機(jī)器學(xué)習(xí)方法可利用提取出的數(shù)據(jù)特征組合[2],通過(guò)數(shù)學(xué)模型自動(dòng)學(xué)習(xí)分類判別規(guī)則并有效分類城市復(fù)雜場(chǎng)景的不同地物。提取三維點(diǎn)云數(shù)據(jù)中的特征信息是區(qū)分不同地物的關(guān)鍵。Chehata等[3]總結(jié)了21種機(jī)載點(diǎn)云數(shù)據(jù)常見特征;Weinmann等[4]設(shè)計(jì)了一系列結(jié)合2D和3D的點(diǎn)云特征;Blomley等[5]使用了從不同鄰域類型和多個(gè)尺度中提取的互補(bǔ)型幾何特征。在機(jī)器學(xué)習(xí)模型的使用上,不同學(xué)者結(jié)合了不同的分類器方法[6-11]包括決策樹、支持向量機(jī)(support vector machine,SVM)、隨機(jī)森林等。極限梯度算法(eXtreme gradient boosting,XGBoost)分類模型[12]因?yàn)槠鋬?yōu)異的性能在數(shù)據(jù)挖掘中使用廣泛。然而,這些分類器通常獨(dú)立地使用局部特征標(biāo)記每個(gè)點(diǎn),通常會(huì)導(dǎo)致噪聲結(jié)果。為此,一些學(xué)者提出了幾種基于上下文特征的分類方法,這些方法可以考慮其相鄰點(diǎn)之間的語(yǔ)義標(biāo)簽分布來(lái)改善分類結(jié)果[13-14]。本文提出了一種機(jī)載激光點(diǎn)云的自動(dòng)分類方法,通過(guò)XGBoost訓(xùn)練從點(diǎn)云數(shù)據(jù)中抽取的特征信息,并結(jié)合全連接條件隨機(jī)場(chǎng)優(yōu)化初始分類模型,得到城市地區(qū)點(diǎn)云的精細(xì)分類結(jié)果。
本文方法首先從機(jī)載激光點(diǎn)云中提取分類判別特征,考慮高度、形狀和物理屬性3個(gè)方面;然后采用XGBoost分類模型對(duì)激光點(diǎn)云數(shù)據(jù)進(jìn)行分類,并使用網(wǎng)格搜索方法確定較優(yōu)的模型超參數(shù);最后利用全連接條件隨機(jī)場(chǎng)語(yǔ)義標(biāo)簽平滑方法,加入點(diǎn)云顏色特征信息作為約束并結(jié)合初始分類標(biāo)簽信息,在后處理步驟中提高點(diǎn)云分類精度。實(shí)驗(yàn)數(shù)據(jù)選取了國(guó)際攝影測(cè)量和遙感學(xué)會(huì)(international society for photogrammetry and remote sensing,ISPRS)三維語(yǔ)義標(biāo)注競(jìng)賽公開數(shù)據(jù)集[15]。
從高度、形狀特征、物理屬性3個(gè)方面挖掘數(shù)據(jù)的特征信息,并針對(duì)不同的特征信息設(shè)計(jì)了不同的鄰域大小選擇方法。
1)高度特征。提取原始點(diǎn)云數(shù)據(jù)的歸一化數(shù)字表面模型(normalized digital surface model,nDSM)作為一維高度特征,地表濾波過(guò)程使用了Zhang等[16]提出的布料模擬Lidar數(shù)據(jù)濾波算法。nDSM可以排除地形起伏的影響,獲取地物真實(shí)的離地高度,其表達(dá)如式(1)所示。
nDSM=DSM-DEM
(1)
此外,使用一組計(jì)算單點(diǎn)與位于其所在鄰域內(nèi)其他點(diǎn)的高度關(guān)系而產(chǎn)生的高度特征。①單點(diǎn)與所在鄰域內(nèi)最低點(diǎn)的高程差Z-Zmin。②單點(diǎn)局部鄰域內(nèi)所有點(diǎn)的高程值標(biāo)準(zhǔn)差σ2。③單點(diǎn)與所在鄰域內(nèi)最高點(diǎn)的高程差Zmax-Z。④單點(diǎn)所在鄰域內(nèi)最高點(diǎn)與最低點(diǎn)的高程差Zmax-Zmin。
3)物理特征。點(diǎn)云數(shù)據(jù)的物理特性與點(diǎn)云自身所表示的地物特性有關(guān)。直接使用點(diǎn)云數(shù)據(jù)內(nèi)包含的強(qiáng)度數(shù)據(jù),并針對(duì)少數(shù)點(diǎn)強(qiáng)度值遠(yuǎn)大于其他點(diǎn)的現(xiàn)象,通過(guò)直方圖均衡方法,減少異常數(shù)據(jù)的影響。另一方面,通過(guò)激光點(diǎn)云數(shù)據(jù)與對(duì)應(yīng)區(qū)域的遙感影像數(shù)據(jù)相結(jié)合,計(jì)算單點(diǎn)在影像中的對(duì)應(yīng)像素,通過(guò)影像提供的光譜信息輔助點(diǎn)云進(jìn)行信息提取。
4)鄰域選擇。不同的鄰域類型由提取特征的需求所決定。在抽取高度特征時(shí),需要考慮一點(diǎn)在高程值Z上的空間分布,因此圓柱體形的鄰域類型適應(yīng)于高度特征的提取,并考慮了3種不同的鄰域大小(2.0 m、4.0 m、6.0 m),對(duì)高度特征進(jìn)行了多尺度提取。而在計(jì)算點(diǎn)云表面特征時(shí),需要關(guān)注該點(diǎn)與在一定距離內(nèi)點(diǎn)云的空間關(guān)系并獲取幾何形態(tài),本文選擇聚集于單點(diǎn)的球面鄰域(2.0 m)。
XGBoost屬于提升式系列的分類器,在梯度提升樹(gradient boosting decision tree,GBDT)的基礎(chǔ)上做了一些改進(jìn),得到了一個(gè)更高效準(zhǔn)確的機(jī)器學(xué)習(xí)模型,因此在數(shù)據(jù)挖掘應(yīng)用中得到廣泛使用。其主要特點(diǎn)有:在模型中加入了正則項(xiàng),用于控制模型的復(fù)雜度;對(duì)代價(jià)損失函數(shù)進(jìn)行了二階泰勒展開,同時(shí)用到了一階和二階導(dǎo)數(shù);收縮和列取樣,可增大迭代生成的樹模型的影響,并在一定程度上防止過(guò)擬合;在樹模型分割點(diǎn)的特征值上實(shí)行并行,大幅度提高運(yùn)行效率;對(duì)決策樹最佳分裂點(diǎn)的改進(jìn)。
本文在使用XGBoost分類器的過(guò)程中,為了使模型更適應(yīng)于點(diǎn)云數(shù)據(jù)的分類工作,采用了超參數(shù)設(shè)計(jì)方法對(duì)模型參數(shù)進(jìn)行調(diào)優(yōu),另外使用了網(wǎng)格搜索的功能,逐步搜索確定最佳參數(shù)值。
針對(duì)機(jī)器學(xué)習(xí)方法在特征空間中單獨(dú)標(biāo)記每個(gè)點(diǎn)的標(biāo)簽而造成的分類結(jié)果不連續(xù)性的問(wèn)題,使用全連接條件隨機(jī)場(chǎng)融入了點(diǎn)云之間的語(yǔ)義信息[17]。應(yīng)用在點(diǎn)云模型中,每2個(gè)點(diǎn)間的邊是由高斯核在任意特征空間的線性組合定義的,而算法基于條件隨機(jī)場(chǎng)分布的平均場(chǎng)近似,通過(guò)聚合來(lái)自所有其他變量的信息進(jìn)行迭代優(yōu)化。
(2)
式中:i和j表示從1到N的每個(gè)點(diǎn);?u(xi)是一元項(xiàng)能量函數(shù),用于約束優(yōu)化結(jié)果與初始結(jié)果的差異,定義為?u(xi)=-log(p(xi));?p(xi,xj)是二元項(xiàng)能量函數(shù),用于提取點(diǎn)云的鄰域信息,如式(3)所示。
(3)
式中:Wθ1表示為標(biāo)準(zhǔn)差為θ1的高斯函數(shù)。核函數(shù)中的參數(shù)采用訓(xùn)練的方式,通過(guò)L-BFGS方法優(yōu)化得到。一個(gè)簡(jiǎn)單的標(biāo)簽兼容性函數(shù)μ由Potts模型給出:
μ(xi,xj)=[xi≠xj]
(4)
具體實(shí)施參考了Wang等[18]對(duì)點(diǎn)云分類優(yōu)化的處理,利用XGBoost得到的初始分類概率作為?u,用于保證優(yōu)化結(jié)果位于初始分類概率的一定區(qū)間內(nèi);將?p設(shè)置為點(diǎn)云與影像匹配生成的顏色信息與強(qiáng)度信息,考慮到顏色與強(qiáng)度特征在同一類別中一般是連續(xù)的,這樣更符合平滑分類結(jié)果的要求。通過(guò)能量函數(shù)的最小化求解,得到優(yōu)化后的分類結(jié)果。
本文選用了ISPRS三維語(yǔ)義標(biāo)注比賽提供的公開數(shù)據(jù)集作為激光點(diǎn)云分類的基準(zhǔn)。激光點(diǎn)云數(shù)
表1 數(shù)據(jù)類別分布
據(jù)集包含使用Leica ALS50系統(tǒng)獲得的ALS數(shù)據(jù),點(diǎn)密度在4~7點(diǎn)/m2。此外,激光雷達(dá)的多次回波信號(hào)和強(qiáng)度值被記錄下來(lái)。數(shù)據(jù)集一共包含9類地物,包括電力線、低矮植被、不透水面、汽車、柵欄、建筑屋頂、建筑立面、灌木和樹木。整個(gè)區(qū)域都位于建筑物密集的城市中心。相對(duì)應(yīng)的遙感影像包含整個(gè)地區(qū)范圍,地面采樣距離為8 cm,為假彩色合成影像。
圖1 實(shí)驗(yàn)數(shù)據(jù)集
特征提取過(guò)程中,基于圓柱形的鄰域采用了規(guī)則格網(wǎng)的方法進(jìn)行簡(jiǎn)化,而基于最近鄰的鄰域采用了KD樹建立索引。XGBoost的超參數(shù)選擇中通過(guò)網(wǎng)格搜索功能,逐步搜索每個(gè)超參數(shù)在一定范圍內(nèi)的最優(yōu)值。本文對(duì)模型最大樹深度、子節(jié)點(diǎn)最小權(quán)重和、最小損失下降值、樣本采樣比例和分裂列采樣比例進(jìn)行了區(qū)域最優(yōu)搜索,通過(guò)設(shè)置一定范圍內(nèi)的典型值,獲取更優(yōu)模型。本文采用的精度評(píng)價(jià)指標(biāo)包括混淆矩陣、總精度和F1分?jǐn)?shù)。
圖2(a)為分類結(jié)果,用不同顏色表示。圖2(b)中綠色表示正確分類,藍(lán)色表示錯(cuò)誤分類。
圖2 分類結(jié)果
混淆矩陣表示不同類別的相互錯(cuò)分情況,每一行代表真實(shí)數(shù)據(jù)的歸屬類別分布。從表2可以看出,在點(diǎn)云數(shù)量較多的低矮植被、不透水面、建筑屋頂和樹木4大類別中,該分類器取得了較好的分類效果;而對(duì)于一些小型地物的分類效果不佳,特別是對(duì)于柵欄這一類地物,召回率很低,這與點(diǎn)云數(shù)據(jù)集中柵欄的數(shù)量較少有關(guān)。另外,在數(shù)據(jù)集中柵欄這類地物本身就由植被組成,并在城市中通常位于其他植被附近,因此出現(xiàn)了較嚴(yán)重的錯(cuò)分現(xiàn)象。
為評(píng)價(jià)該模型的有效性,本文將分類結(jié)果與該實(shí)驗(yàn)數(shù)據(jù)集競(jìng)賽中的其他方法做了比較。從表3可以看出,本文方法在總體精度上有較大的優(yōu)勢(shì),在幾個(gè)點(diǎn)數(shù)多的大類上取得了較好的分類精度。對(duì)比4種機(jī)器學(xué)習(xí)模型,LUH方法在F1分?jǐn)?shù)上表現(xiàn)較好,在多個(gè)類別上取得了最佳的效果。文本方法在低矮植被和不透水面的類別精度上取得了最好的結(jié)果,在電力線、汽車和建筑屋頂3類地物中取得了和最佳值相近的效果。
另外,與數(shù)據(jù)競(jìng)賽上一些基于深度學(xué)習(xí)方法相比,本文方法與其中一些相比具有優(yōu)勢(shì),但與其中2個(gè)最佳的分類精度模型相比,文本方法在F1分?jǐn)?shù)和總體精度均有劣勢(shì)。其中,WhuY4方法平均F1=69.2%,總體精度=84.9%;NANJ2方法(將點(diǎn)云插值圖像并通過(guò)多尺度卷積神經(jīng)網(wǎng)絡(luò)(MCNN)模型分類)平均F1=69.3%,總體精度=85.2%??紤]到深度學(xué)習(xí)在處理三維點(diǎn)云所需的高性能計(jì)算顯卡,經(jīng)典機(jī)器學(xué)習(xí)模型只需要CPU就能運(yùn)行,本文方法在一定程度上不受計(jì)算機(jī)性能的約束。
表2 分類混淆矩陣 %
表3 不同方法比較 %
本文總結(jié)了一些高效的機(jī)載激光點(diǎn)云特征描述方法,并結(jié)合機(jī)器學(xué)習(xí)XGBoost分類模型和全連接條件隨機(jī)場(chǎng)后處理優(yōu)化方法,提出了一套機(jī)載激光點(diǎn)云分類方法。在未來(lái)的工作中,對(duì)于復(fù)雜的城市場(chǎng)景,需要采用更多新的特征提取方法,從多層次、多尺度來(lái)深度挖掘點(diǎn)云信息。另外,需要結(jié)合特征選擇的功能,通過(guò)分析特征之間的關(guān)系抽取有效的特征信息。