姚晨明,姚磊
(長江重慶航道工程局,重慶 400010)
航道的船舶適航水深的維護需要對口門浮泥進行清淤,但是這些浮泥受潮波流影響堆積位置是不斷變化的,需要從清淤和適航水深兩個方面入手,歷史的疏浚數(shù)據(jù)包含了疏浚數(shù)據(jù)的變化特征,預測口門段清淤時機及清淤部位對于保證航道的通航能力,以合理調(diào)配清淤船舶和時段,節(jié)約工程成本有著重要的工程意義。
港口的疏浚數(shù)據(jù)特征具有一定的規(guī)律性,根據(jù)施工日報表的數(shù)據(jù)項,及現(xiàn)場施工的經(jīng)驗判斷,對于主航道和回淤嚴重的口門區(qū)域會進行周期性疏浚,疏浚工作涉及接移管線的操作,船舶在相隔工作日期內(nèi)不會有較大的位置變化,開挖標高也在一定的范圍內(nèi)變動,本研究的目標即根據(jù)歷史清淤記錄進行未來的疏浚地點預測及提醒。
因疏浚工作的周期性及規(guī)律性,潮汐等水文環(huán)境、泥沙淤積也具有季節(jié)性和周期性,具有時序特征,因此采用時間序列模型進行數(shù)據(jù)預測,預測目標為經(jīng)緯度和開挖標高。本研究選擇擅長提取時序特征的長短期記憶網(wǎng)絡LSTM(Long Short Term Memory)模型進行預測任務。本技術(shù)的研究依托于鹽城港濱海港區(qū)中電投煤炭碼頭疏浚工程,以施工日報表提取的數(shù)據(jù)作為數(shù)據(jù)集,利用前一天或幾天的零點坐標、開挖標高數(shù)據(jù)預測下一個(當前)時刻的對應數(shù)據(jù)。采用時間序列模型,經(jīng)緯度和開挖標高作為輸入項,
根據(jù)調(diào)研結(jié)果,本研究可獲得的數(shù)據(jù)主要是施工日報表和相關(guān)CAD 文件,因此本研究分析主要依托施工日報表、施工進度圖來獲取原始數(shù)據(jù)??紤]到需要根據(jù)歷史的數(shù)據(jù)來預測當下時刻的值,因此可以將這個任務視作監(jiān)督學習問題并對輸入變量進行歸一化處理??紤]歷史數(shù)據(jù)表示上一個時間段的經(jīng)緯度位置和開挖標高,所以在數(shù)據(jù)的使用方式上本研究用t-5,t-4,t-3,t-2,t-1,t次的施工數(shù)據(jù)通過模型進行特征分析和提取,然后對輸出的t+1 結(jié)果與其真實數(shù)據(jù)進行對比來分析誤差。數(shù)據(jù)的分布形式如圖1所示。
圖1 數(shù)據(jù)集樣本示例
由于初始數(shù)據(jù)中存在一些異常數(shù)據(jù)和缺失數(shù)據(jù),因此需要進一步對數(shù)據(jù)進行清洗以確保數(shù)據(jù)的合理性。在選取全部施工日報字段后,獲得2018年10月13日-2022年1月31日區(qū)間有效的數(shù)據(jù)共639 條,因部分數(shù)據(jù)存在多個零點坐標和開挖標高的情況,經(jīng)過分析處理后形成1438 條數(shù)據(jù)。對于異常值處理,異常值集中在施工時間、零點坐標、浚前標高、開挖標高字段,當出現(xiàn)多個值的情況,標點括號半角全角混用的問題,全部分割后再做處理。由于數(shù)據(jù)庫端浚前標高、開挖標高錄入多值情況,所以數(shù)據(jù)拆分為多獨立值處理。對于缺失值處理,刪除缺失值較多的數(shù)據(jù),并清理冗余數(shù)據(jù),這里采用KNN 方法和中值插值方法對數(shù)據(jù)進行填充,對比后發(fā)現(xiàn)中值插值方法進行浚前標高和開挖標高的數(shù)據(jù)填充。剔除異常值以及填充缺失值之后,處理后的數(shù)據(jù)分布如圖2所示,港池區(qū)域數(shù)據(jù)集中度符合預期,便可進行下一步的模型訓練。
圖2 數(shù)據(jù)清洗后的分布
在網(wǎng)絡結(jié)構(gòu)方面,本文設計了一個三層的LSTM 網(wǎng)絡,如圖3所示,其結(jié)構(gòu)基于python 的keras 框架,分別由LSTM 層,dropout 層,dense 層以及activation 層依次構(gòu)成。數(shù)據(jù)維度從初始的時序的240 維度降維為最終的時刻的3 維輸出,也就是利用前15 天經(jīng)緯度坐標和開挖標高數(shù)據(jù)預測下一個(當前)時刻的對應數(shù)據(jù)。
圖3 網(wǎng)絡模型結(jié)構(gòu)
模型搭建完后,對于網(wǎng)絡的訓練過程所涉及參數(shù)的調(diào)整,確定網(wǎng)絡模型的激活函數(shù)為relu 函數(shù)。每一層網(wǎng)絡節(jié)點的舍棄率默認值設定為0.3。對于訓練的誤差計算方式使用均方誤差(mean squared error)。網(wǎng)絡參數(shù)的迭代更新方式采用RMSprop(Root Mean Square propagation)算法。權(quán)衡實驗環(huán)境的內(nèi)存效率和內(nèi)存容量后,本文設置模型訓練的輪次數(shù)為1000,數(shù)據(jù)批次數(shù)為64。
接著進一步開始在數(shù)據(jù)集基礎上對模型進行訓練,由于訓練時輸入LSTM 網(wǎng)絡的數(shù)據(jù)維度關(guān)系到LSTM 層的參數(shù),本文以15 個時間節(jié)點所對應的特征數(shù)據(jù)作為輸入預測后續(xù)1 個時間點。訓練過程的中的損失函數(shù)值變化曲線如圖4(a)所示,模型驗證集的在1000 輪次內(nèi)達到收斂,訓練集的函數(shù)值穩(wěn)定在0.0008 附近,這表明模型訓練達到預期效果。
當模型訓練采用經(jīng)度、緯度、開挖標高3 個維度數(shù)據(jù)作為輸入時,對應的模型測試準確率為96.13%,這表明本研究提出的方法能夠?qū)崿F(xiàn)在歷史疏浚數(shù)據(jù)上進行較高精度的疏浚標高參數(shù)的預測。在項目實際應用過程中,為達到更長時間的預測效果,當采用預測6 個后續(xù)時刻坐標和標高方式來訓練模型時,其預測值和真實值的誤差值在0.0011 附近,如圖4(b)所示,實現(xiàn)了更長時刻的預測應用效果。此外,本文將預測數(shù)值在GIS系統(tǒng)中可視化顯示,其效果如圖5所示,實現(xiàn)了較好的應用效果。
圖4 模型訓練過程指標曲線
圖5 預測位置GIS 平臺展示
本研究通過對疏浚數(shù)據(jù)收集和清洗做成數(shù)據(jù)集,構(gòu)建了LSTM 網(wǎng)絡模型后,模型的訓練誤差降到了0.0008,這模型能夠充分提取分析歷史疏浚數(shù)據(jù)的時序特征,并在此基礎上通過歷史時刻的數(shù)據(jù)預測當前時刻的疏浚位置和標高,實現(xiàn)了96%的預測準確率,這對于港區(qū)疏浚施工參數(shù)預測有著較好的應用價值。