徐婷,戴文伯,張晴波,周雨淼
(中交疏浚技術(shù)裝備國家工程研究中心有限公司,上海 201208)
耙吸挖泥船具有挖泥效率高、抗風能力強、施工避讓靈活等優(yōu)點,是港口航道、吹填造地、海洋資源開發(fā)及海域國家重點工程不可替代的工程機械[1]。耙吸挖泥船分布廣泛,傳統(tǒng)的監(jiān)控管理模式大多是船岸分離的,無法做到實時監(jiān)控、歷史查看、智能報警[2]。在大數(shù)據(jù)技術(shù)和人工智能技術(shù)高速發(fā)展的背景下,基于大數(shù)據(jù)及人工智能技術(shù)從公開的航跡數(shù)據(jù)辨識出耙吸挖泥船的施工行為模式,有助于實現(xiàn)耙吸挖泥船全方位監(jiān)控、有效防范施工風險[3]。
在交通船領(lǐng)域關(guān)于船舶軌跡識別的研究已經(jīng)取得一些成果,如江玉玲等[4]利用船位轉(zhuǎn)向角和航速變化量作為信息度量對船舶軌跡進行分段,采取Frechet距離衡量船舶軌跡相似度,基于類似DBSCAN聚類方法對軌跡段進行聚類,得出船舶運動典型軌跡。Zhao等[5]基于原始樸素DP算法和DBSCAN算法實現(xiàn)船舶軌跡模式的快速分類辨識。張春瑋等[6]將位置、航速、航向等多個運動參量進行加權(quán)求和來度量船舶行為,基于行為相似度利用無監(jiān)督DBSCAN算法進行聚類實現(xiàn)了航道內(nèi)船舶異常行為的識別。在疏浚船領(lǐng)域,徐婷等[7]基于DBSCAN聚類算法和局部異常因子算法(Local Outlier Factor,LOF)辨識出絞吸挖泥船的施工區(qū)和施工軌跡,但該文章僅對絞吸挖泥船進行論述,并未對耙吸船的航行軌跡進行探討。但是耙吸船與絞吸式挖泥船及其他船舶作業(yè)模式差距較大,耙吸船的施工區(qū)有明確的挖泥區(qū)域和拋泥區(qū)域,且施工過程包含“挖、運、卸、返”4個關(guān)鍵階段,需要頻繁地改變施工行為模式,故不能將上述方法直接應用在耙吸船領(lǐng)域。
針對上述背景,考慮到耙吸船的作業(yè)特征,提出一種基于航跡聚類的耙吸船施工行為辨識方法,該方法基于分層多次聚類的思想,融合了位置、航速、航向等多個變量信息,通過3次逐層遞進式聚類,解決多變量單次聚類過程中變量參數(shù)權(quán)重設置困難的問題,也提升了模型的適用性和魯棒性。
耙吸船的施工過程可以概括為:維持低速“挖泥”、提速“運泥”、低速“拋泥”、提速“返回”4個過程,并形成一個密度不均勻的軌跡密集區(qū)域。為此,本文提出一種耙吸船行為識別框架,依據(jù)耙吸船施工過程的特性,設計出一種分層多次聚類算法,逐步識別出耙吸船的行為。該框架如圖1所示,首先對軌跡進行預處理,得到清洗后的軌跡;然后基于經(jīng)緯度信息建立DBSCAN聚類模型,識別出施工區(qū);再對施工區(qū)軌跡,基于速度信息建立GMM聚類模型,識別出“挖泥”、“拋泥”、“往返”軌跡;最后對“往返”軌跡,基于航向信息建立GMM聚類模型,識別出“運泥”、“返回”軌跡。
對瞬時速度(大于20 kn)或者航向(小于0°或大于360°)異常航跡點直接過濾。而對異常位置點會根據(jù)情況選擇合適的操作,如圖2所示,如果兩個相鄰軌跡點A、B構(gòu)成的軌跡線段L1的平均速度超過最大速度閾值20 kn,那么B判定為異常位置軌跡點。
圖2 異常位置軌跡點處理Fig.2 Processing of abnormal position track points
處理異常軌跡點B的方法有:若A點與C點相連構(gòu)成新的軌跡線段L2的平均速度沒有超過速度閾值20 kn,則認為B點的異常位置可以彌補,直接過濾即可;反之,則認為B點的異常無法彌補,將軌跡從A點與C點之間切斷,并且刪除B點。
DBSCAN算法是一種很典型的密度聚類算法,無須事先設定簇個數(shù),非常適合形狀不確定的空間聚類。DBSCAN算法過程如下:
1)設置的鄰域半徑ε和簇內(nèi)元素最小數(shù)目MinPts;
2)隨機選擇一個未訪問的軌跡點p,標記p為“未訪問”,并檢查p的ε鄰域是否至少包含MinPts個對象。如果不是,則p被標記為噪聲點,否則為p創(chuàng)建一個新的簇c,并將軌跡點p的鄰域范圍內(nèi)所有點加入“候選集N”;
3)對“候選集N”中所有尚未處理的軌跡點q進行判斷,檢查其在半徑為r的鄰域范圍內(nèi)是否包含至少MinPts個軌跡點,如果是則將軌跡點q的r鄰域中未歸入任何一簇的軌跡點加入簇c,如果不是則從“候選集N”中移除;重復此步驟,直至所有軌跡點被處理;
4)重復步驟2)、3)直至所有的軌跡點歸入了某個簇或者標記為噪聲。
高斯混合模型(GMM)是一種混合概率分布模型,其概率密度由多個單高斯分布加權(quán)平均得到,數(shù)學形式如下:
式中:gk(x;μk,σk)為單高斯分布;πk代表混合權(quán)重;c代表該模型中高斯成分數(shù)量,其實每個高斯模型就代表了一個類(cluster),將樣本數(shù)據(jù)在這c個高斯模型上投影,就得到樣本屬于各個類上的概率,選取概率最大的類所為判決結(jié)果。
本文以1月1日—12月31日為期1 a的某耙吸挖泥船的AIS數(shù)據(jù)為例,總樣本點數(shù)為104 220個,運動軌跡圖如圖3所示,有3個密集區(qū)域。
圖3 某耙吸挖泥船的運動軌跡Fig.3 Trajectory of TSHD
表1是按照2.1節(jié)軌跡預處理技術(shù)處理后得到的7個有效軌跡片段。圖4為7個有效軌跡片段的運動軌跡??梢钥闯鲕壽E片段1和4屬于同一區(qū)域,可以合并分析。軌跡片段2、3、6無施工特征,無需聚類分析,軌跡片段1、4、5、7需要進一步聚類分析。
表1 某耙吸船有效軌跡片段Table 1 Effective trajectory segments of TSHD
圖4 有效軌跡片段運動軌跡Fig.4 Effective trajectory segments of trajectory
1)經(jīng)緯度聚類
有效軌跡片段1和4合并后,樣本量為46 273個,利用DBSCAN算法進行第1層次聚類,根據(jù)KNN算法確定DBSCAN參數(shù),取k=6,計算全部點的k-distance并遞增排序,發(fā)現(xiàn)k-distance在0.04附近急劇變大。因此最少點數(shù)目MinPts設置為6,鄰域半徑設置為0.04,聚類結(jié)果如表2所示,將區(qū)域聚為2類,cluster=0表示為異常值點,一共有124個點。
表2 DBSCAN聚類結(jié)果表Table 2 Table of DBSCAN clustering results
圖5為利用ggplot2將聚類結(jié)果可視化,透明度(alpha)設置為0.2,更清晰看出點的重疊情況。
圖5 DBSCAN聚類結(jié)果Fig.5 DBSCAN clustering results
根據(jù)速度特征辨識3個區(qū)域,如圖6所示,cluster=0區(qū)域速度主要集中在10~14 kn,又是異常值,識別為航行軌跡,無需二次聚類;cluster=2航速維持在0.15 kn附近,識別為拋錨區(qū)域,無需二次聚類;cluster=1,該區(qū)域有3種速度特征0~0.15 kn,2~5 kn,10~15 kn,識別施工區(qū)軌跡。
圖6 速度概率密度分布圖Fig.6 Velocity probability density distribution
2)速度聚類
將已識別出的施工區(qū)軌跡,利用GMM算法基于速度信息進行第2層次聚類。因施工區(qū)軌跡包含“挖泥”、“拋泥”、“往返”軌跡,因此高斯成分個數(shù)c設置為3。聚類結(jié)果如表3所示,classification=1的速度均值為0.134 1 kn,識別為拋泥軌跡;classification=2的速度均值為3.089 9 kn,識別為裝艙軌跡;classification=3的速度均值為10.706 7 kn,識別為“往返”軌跡。
表3 基于速度GMM聚類算法結(jié)果Table 3 Results of speed-based GMM clustering algorithm
3)航向聚類
將已識別出的“往返”軌跡,利用GMM算法基于航向信息進行第3層次聚類,可進一步識別出“運泥”和“拋泥”軌跡。高斯成分個數(shù)設置為2,得到聚類結(jié)果如表4所示,由上文耙吸船施工周期部分分析可知,classification2=1的航向均值為100.386 6°,識別為返回軌跡,classification2=2的航向均值為284.396 9°,識別為運泥軌跡。聚類可視化結(jié)果如圖7所示。
表4 基于航向GMM聚類算法結(jié)果Table 4 Results of heading-based GMM clustering algorithm
圖7 速度時序聚類結(jié)果圖Fig.7 Speed sequence clustering results
1)運用人工觀察打標方法和模型結(jié)果對比
將施工區(qū)軌跡類別辨識結(jié)果重新打上標簽,隨機挑選一段速度聚類結(jié)果的時序圖,如圖7所示,雖然聚類過程中并未考慮時間因素,但是速度時序圖像被精準的貼上標簽,且周期性特征明顯,聚類效果顯著。
2)運用企業(yè)施工管理的記錄報告和模型結(jié)果對比
如表5所示,算法計算的施工時間與生產(chǎn)單位統(tǒng)計報表數(shù)據(jù)偏差很小,基本上控制在5%以內(nèi)。說明聚類效果很好。
表5 施工時間對比Table 5 Comparison of construction time
1)分層多次聚類算法,解決了一次聚類多參數(shù)權(quán)重設置的難題,提高了模型的魯棒性。
2)分層多次聚類算法可以有效地挖掘耙吸船施工周期性模式,對耙吸船施工狀態(tài)的辨識效果顯著。
3)研究成果運用公開數(shù)據(jù)挖掘分析耙吸船施工狀態(tài),為耙吸船安全狀態(tài)分析、經(jīng)濟分析提供新的依據(jù)。