馬文++耿貞偉++張小波
摘 要:本文主要討論一種基于隨機(jī)森林的輸電線路點(diǎn)云數(shù)據(jù)自動(dòng)分類方法。首先,基于點(diǎn)的鄰域提取點(diǎn)的局部特征,然后,選取隨機(jī)森林作為分類模型,采用Gini系數(shù)作為節(jié)點(diǎn)分裂的標(biāo)準(zhǔn),使用手工分類的點(diǎn)云數(shù)據(jù)訓(xùn)練模型,成功地實(shí)現(xiàn)了輸電線路走廊內(nèi)桿塔、電力線路、地物等的自動(dòng)分類,為處理機(jī)載激光雷達(dá)在輸電線路巡視中產(chǎn)生的點(diǎn)云數(shù)據(jù)提供了一種數(shù)據(jù)處理方案。
關(guān)鍵詞:隨機(jī)森林;自動(dòng)分類;輸電巡線;激光雷達(dá);LiDAR;點(diǎn)云
中圖分類號:TP391.41 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-2064(2017)19-0147-02
1 引言
激光雷達(dá)技術(shù)(LiDAR)是一種主動(dòng)式的對地觀察和測量的技術(shù),從上世紀(jì)70年代出現(xiàn)至今,發(fā)展迅速,在電力、公路、鐵路、林業(yè)、礦山、城市規(guī)劃等眾多領(lǐng)域都有廣泛地應(yīng)用。機(jī)載LiDAR,就是將LiDAR系統(tǒng)掛載于機(jī)載平臺(飛機(jī)、直升機(jī)以及無人機(jī)等),沿機(jī)載平臺的飛行軌跡對地物進(jìn)行掃描以獲取空間信息。由于機(jī)載LiDAR可以完整地記錄飛行路線及其兩側(cè)走廊范圍內(nèi)的三維信息,具有安全、高效、快速等優(yōu)點(diǎn),因此逐漸被引入到輸電線路巡線中,特別是在地形復(fù)雜、條件惡劣的地區(qū)[1-3]。
機(jī)載LiDAR在進(jìn)行輸電巡線作業(yè)時(shí)會(huì)產(chǎn)生大量的掃描數(shù)據(jù)(點(diǎn)云數(shù)據(jù)),對點(diǎn)云數(shù)據(jù)的分析和應(yīng)用主要包括:電力線路走廊點(diǎn)云分類、輸電線路缺陷分析、輸電走廊三維重建及可視化等多個(gè)方面。其中,電力線路走廊點(diǎn)云分類是其他應(yīng)用的基礎(chǔ),只要在完成了點(diǎn)云分類以后,才能繼續(xù)進(jìn)行深入的分析和研究。傳統(tǒng)的分類方法主要采用手動(dòng)分類,即以人工方式選取點(diǎn)云,手動(dòng)設(shè)置類別。同時(shí),國內(nèi)外也有眾多的關(guān)于自動(dòng)分類的研究,如K Zhang[4]等提取地面的方法;VU T[5]提出的將點(diǎn)云數(shù)據(jù)轉(zhuǎn)化為圖像后,利用圖像學(xué)的方法采用K均值聚類法將數(shù)據(jù)分割成高層建筑物、地面點(diǎn)及其他地物三大類。而在輸電巡線的點(diǎn)云自動(dòng)分類領(lǐng)域,梁靜[6]等提出的基于KD樹聚類的提取方法;Kim等[7]使用回波和點(diǎn)的局部信息為特征,基于隨機(jī)森林模型實(shí)現(xiàn)了電力線路的提取。
2 點(diǎn)云特征提取
本文所述的方法只使用點(diǎn)的空間信息,不使用回波、顏色等其他信息,逐個(gè)點(diǎn)地進(jìn)行特征提取。對于任意點(diǎn)Pi及其鄰域N,可知存在鄰域N的協(xié)方差矩陣C,求解矩陣C的特征向量(λ1≥λ2≥λ3≥0)及其對應(yīng)的特征值(e1,e2,e3),而特征向量能表達(dá)出每個(gè)點(diǎn)的局部幾何特征[8],如下圖1所示。
在此基礎(chǔ)上,對Weinmann[9-10],Hackel等[11]所定義的特征進(jìn)行分析,結(jié)合輸電線路桿塔和導(dǎo)線所具有的空間特性,選取以下特征:表1所示。
3 隨機(jī)森林
3.1 隨機(jī)森林學(xué)習(xí)器
集成學(xué)習(xí)(ensemble learning)是通過構(gòu)建多個(gè)學(xué)習(xí)器來進(jìn)行學(xué)習(xí),可獲得比單一學(xué)習(xí)器更顯著的泛化性能,這對“弱學(xué)習(xí)器(weak learner)”來說尤為明顯。其中,Bagging是并行式集成學(xué)習(xí)方法的最著名的代表,它采用自主采樣方法,最終得到T個(gè)采樣集,每個(gè)采樣集包含m個(gè)樣本的。然后,基于每個(gè)采樣集形成一個(gè)“基學(xué)習(xí)器”,再將這些基學(xué)習(xí)器進(jìn)行結(jié)合,以取得更好的泛化結(jié)果。
隨機(jī)森林(Random Forest,簡稱RF)是Bagging的一個(gè)擴(kuò)展變體,RF以決策樹為基學(xué)習(xí)器構(gòu)建Bagging,并且還引入了隨機(jī)屬性選擇。而且,隨著基學(xué)習(xí)器數(shù)量的增加,RF通常會(huì)收斂到更低的泛化誤差,且RF的訓(xùn)練效率通常優(yōu)于Bagging[12]。
3.2 隨機(jī)森林的構(gòu)建
隨機(jī)森林由T棵決策樹構(gòu)成,每一棵決策樹在構(gòu)造時(shí),選擇節(jié)點(diǎn)的分裂屬性有很多種方法,如:信息增益、信息增益比、Gini系數(shù)等等,本文采用Gini系數(shù)作為節(jié)點(diǎn)分裂的選擇標(biāo)準(zhǔn)。而對于隨機(jī)森林中決策樹的數(shù)量,根據(jù)文獻(xiàn)[13]所述,建議其設(shè)置在64~128之間,可以取得計(jì)算性能和分類效果的最佳平衡。因此,本文選擇128棵決策樹。
4 實(shí)驗(yàn)結(jié)果
本文實(shí)驗(yàn)數(shù)據(jù)為某輸電線路LiDAR數(shù)據(jù),從#1~#4,共三檔,所有數(shù)據(jù)都已經(jīng)過人工分類。用#1~#3前兩檔作為訓(xùn)練集,#3~#4作為驗(yàn)證集。
按照上述定義的特征,計(jì)算特征值后,部分特征值的可視化效果如下圖2-4所示。
使用隨機(jī)森林進(jìn)行模型訓(xùn)練后,在驗(yàn)證集上泛化性能評估混淆矩陣如表2所示,總體分類精度為90%。
5 結(jié)語
本文主要討論了一種對輸電巡線點(diǎn)云數(shù)據(jù)進(jìn)行自動(dòng)分類的方法,基于點(diǎn)的鄰域提取每個(gè)點(diǎn)的局部特征,選取128棵決策樹構(gòu)建隨機(jī)森林,采用Gini系數(shù)作為節(jié)點(diǎn)分裂的標(biāo)準(zhǔn),并通過一系列試驗(yàn)過程實(shí)現(xiàn)了輸電線路走廊內(nèi)桿塔、電力線路、地物等的自動(dòng)分類,為處理輸電線路巡視中產(chǎn)生的點(diǎn)云數(shù)據(jù)提供了一種數(shù)據(jù)處理方案。
參考文獻(xiàn)
[1]林昀,吳敦,李丹農(nóng).基于機(jī)載激光雷達(dá)的高精度電力巡線測量[J].城市勘測,2011,(5):71-74.
[2]孫曉云,王曉冬.應(yīng)用 LiDAR 數(shù)據(jù)中提取電網(wǎng)信息方法初探[J].測繪技術(shù)裝備,2010,(1):27-29.
[3]徐祖艦,王滋政,陽鋒.機(jī)載激光雷達(dá)測量技術(shù)及工程應(yīng)用實(shí)踐[M].武漢:武漢大學(xué)出版社,2009.
[4]K Zhang,SC Chen,D Whitman,ML Shyu. A progressive morphological filter for removing nonground measurements from airborne LIDAR data[J].IEEE Transactions on Geoscience & Remote Sensing,2003,(4):872-882.
[5]VU T. Thuy,M Tokunaga,WAVELET AND SCALE-SPACE THEORY IN SEGMENTATION OF AIRBORNE LASER SCANNER DATA[J].Robotica.ipleiria.pt,2001,(3):53-57.endprint
[6]梁靜,張繼賢,鄧喀中,劉正軍.基于KD樹聚類的機(jī)載LiDAR數(shù)據(jù)輸電線提取方法[EB/OL].北京:中國科技論文在線,2012.
[7]HB Kim,G Sohn. 3D CLASSIFICATION OF POWER-LINE SCENE FROM AIRBORNE LASER SCANNING DATA USING RANDOM FORESTS[C].PCV,2010.
[8]G Guy,G Medioni,rard. Inference of Surfaces, 3D Curves, and Junctions from Sparse, Noisy, 3D Data[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,1995,(11):1265-1277.
[9]M Weinmann, B Jutzi , C Mallet. Feature relevance assessment for the semantic interpretation of 3D point cloud data[C].Isprs Annals of Photogrammetry,2013, (II-5/W2):313-318.
[10]M. Weinmann, S. Urban, S. Hinz, B. Jutzi, and C. Mallet. Distinctive 2D and 3D features for automated large-scale scene analysis in urban areas[J] . Computers & Graphics, Vol. 49, pp. 47-57
[11]T Hackel,JD Wegner,K Schindler. Fast Semantic Segmentation of 3d Point Clouds with Strongly Varying Density[C].Isprs Annals of Photogrammetry Remote Sensing & Spatial Informa, 2016,(III-3):177-184.
[12]周志華.機(jī)器學(xué)習(xí)[M].清華大學(xué)出版社,2016.
[13]Thais Mayumi Oshiro, Pedro Santoro Perez, and Jose Augusto Baranauskas. How Many Trees in a Random Forest?[J].Lecture Notes in Computer Science,2012,(4):154-168.endprint