劉詩學(xué),王收軍,陳松貴,欒英妮,劉 路,彭 程
(1.天津理工大學(xué) 天津市先進(jìn)機(jī)電系統(tǒng)設(shè)計與智能控制重點(diǎn)實驗室,天津 300384;2.交通運(yùn)輸部天津水運(yùn)工程科學(xué)研究所 港口水工建筑技術(shù)國家工程實驗室 工程泥沙交通行業(yè)重點(diǎn)實驗室,天津 300456)
防波堤作為沿海地區(qū)重要的工程設(shè)施,可以有效的阻擋海浪潮汐的襲擊危害。越浪量是防波堤設(shè)計的重要指標(biāo),同時也是造成防波堤破壞的重要因素[1]。因此,如果可以在設(shè)計防波堤過程中合理的估算越浪量,就能方便的兼顧工程安全性和經(jīng)濟(jì)性。
傳統(tǒng)的越浪量評估方法主要通過大量的物理模型試驗,總結(jié)出相應(yīng)的評估公式。例如我國《港口與航道水文規(guī)范》[2]中采用的公式是基于王紅等人[3-4]的研究成果。同時,大連理工大學(xué)的俞聿修等人[5-6]針對不規(guī)則波在無胸墻斜坡堤和直立堤上的越浪情況,提出了相應(yīng)的越浪量計算公式。英國海岸工程設(shè)計手冊中采用了Owen等人[7-9]的研究成果,其公式考慮了單坡式和復(fù)合式斜坡堤兩種不同情況。Van der Meer等人[10-13]對斜坡堤越浪進(jìn)行了系統(tǒng)的實驗,他提出的越浪爬高公式和平均越浪量公式被歐洲許多國家采用。日本學(xué)者合田良實[14]對不規(guī)則波越浪進(jìn)行了一系列試驗研究,其所著《港工建筑物的防浪設(shè)計》中的越浪量公式被日本設(shè)計人員所使用。美國《海岸工程手冊》中的越浪量公式采納了Ward等人[15]的試驗研究成果。俞聿修[16]對多種計算平均越浪量的方法進(jìn)行了分析比較,并針對不同情況提出各種計算方法的適用性,但由于公式考慮的參數(shù)有限,對同一斷面結(jié)構(gòu)型式,不同計算公式的計算結(jié)果差別較大。
以神經(jīng)網(wǎng)絡(luò)為代表的人工智能發(fā)展為越浪量的評估提供了新的解決途徑。人工智能評估方法具有參數(shù)適應(yīng)性強(qiáng)、評估快速、通過自學(xué)習(xí)不斷完善的特點(diǎn)。歐洲CLASH項目很早便開展了越浪量數(shù)據(jù)庫的建立,目前已經(jīng)建立了基于人工智能的評估方法。而我國由于缺少統(tǒng)籌,還未開展相關(guān)數(shù)據(jù)庫的建立和人工智能越浪量評估方法的研究。本文將根據(jù)CLASH數(shù)據(jù)庫以及收集到的越浪量試驗數(shù)據(jù),建立基于人工智能的單坡式防波堤越浪量評估方法,并利用交通運(yùn)輸部天津水運(yùn)工程科學(xué)研究院的實驗結(jié)果進(jìn)行驗證分析。文章主要有如下幾部分:首先,第一部分介紹了數(shù)據(jù)的來源和處理方法;第二部分對人工智能算法進(jìn)行了介紹,并對相關(guān)參數(shù)的選擇進(jìn)行了分析;第三部分給出了人工智能算法的評估結(jié)果,并對該方法的有效性進(jìn)行了討論;最后,對研究結(jié)果進(jìn)行了總結(jié)和展望。
2002年1月~2004年10月,歐盟啟動了一項名為“CLASH”的項目計劃。該項目收集了大量的國內(nèi)外越浪量實驗數(shù)據(jù),包含了大多數(shù)常見的防波堤結(jié)構(gòu),共計17 942條實驗記錄。每條實驗記錄包含40個參數(shù),其中普通變量有3個,波要素參數(shù)14個,描述防波堤結(jié)構(gòu)參數(shù)23個,圖示化說明如下圖1所示。
圖1 CLASH項目實驗參數(shù)圖示Fig.1 The diagram of CLASH project experimental parameters
本文挑選出單坡式防坡堤結(jié)構(gòu)實驗數(shù)據(jù)作為算法模型的訓(xùn)練集。在這些數(shù)據(jù)的基礎(chǔ)上,研究單坡式防波堤越浪量的模擬和預(yù)測。
1.2.1 數(shù)據(jù)清洗
數(shù)據(jù)清洗是指將重復(fù)多余的數(shù)據(jù)篩選清除,將缺失的數(shù)據(jù)補(bǔ)充完整,將錯誤的數(shù)據(jù)糾正或者刪除,最后整理成為我們可以進(jìn)一步加工、使用的數(shù)據(jù)。按照如下條件刪除錯誤和缺失的試驗數(shù)據(jù)。
(1)刪除數(shù)據(jù)行標(biāo)簽為Non-core data; not used for the ANN的數(shù)據(jù)行。
(2)刪除越浪量Q<10-6m3/s/m的數(shù)據(jù)行。
(3)刪除缺失參數(shù)數(shù)據(jù)的數(shù)據(jù)行。
(4)刪除RF=4或者CF=4的數(shù)據(jù)行。
其中,RF代表實驗的可信度,其取值范圍從1~4,RF=1代表實驗結(jié)果可信度很高,RF=4代表實驗結(jié)果可信度很低,即RF值越高代表實驗的可信度越低;CF代表實驗斷面的復(fù)雜度,其取值范圍同樣從1~4,CF=1代表實驗?zāi)P秃唵?,CF=4代表實驗?zāi)P蛷?fù)雜,即CF值越高代表實驗?zāi)P驮綇?fù)雜。
1.2.2 數(shù)據(jù)無量綱化處理
為了消除模型比尺的影響和數(shù)據(jù)之間的量綱,同時也便于對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,需要進(jìn)一步對數(shù)據(jù)進(jìn)行無量綱化處理。針對每條實驗記錄,本文統(tǒng)一把堤前有效波高放縮到Hmo,toe=1 m,并記其放縮比例為λ。根據(jù)弗洛伊德定理。
(2)所有與長度相關(guān)的參數(shù)均乘以λ。
(3)所有與角度和地貌相關(guān)的參數(shù)均保持不變。
(1)
BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋網(wǎng)絡(luò),采用誤差逆向傳播算法訓(xùn)練。它的學(xué)習(xí)規(guī)則為梯度下降法,即通過反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,從而使網(wǎng)絡(luò)的誤差平方和最小。BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)包括輸入層、隱含層和輸出層。BP算法(反向傳播算法)的學(xué)習(xí)過程,由信息的正向傳播和誤差的反向傳播兩個過程組成。構(gòu)建一個BP神經(jīng)網(wǎng)絡(luò)首先需要確定網(wǎng)絡(luò)的層數(shù)和每層的神經(jīng)元數(shù)量。之后,還需要根據(jù)訓(xùn)練樣本集來確定各層之間的權(quán)值系數(shù)。
圖2 單坡式斜坡堤參數(shù)圖示Fig.2 Parameters of straight slopes
表1 訓(xùn)練集輸入?yún)?shù)數(shù)據(jù)分布特征Tab.1 Distribution characteristics of input parameter data of training set
2.2.1 輸入層
根據(jù)單坡式防坡堤結(jié)構(gòu)特點(diǎn),選取10個參數(shù)作為網(wǎng)絡(luò)的輸入?yún)?shù),包括波要素、防波堤結(jié)構(gòu)參數(shù)等。如圖2所示,分別為堤前有效波高Hmo,t、平均周期Tm-1,0、堤前水深h、堤腳浸沒水深ht、堤腳寬度Bt、坡度正切值cotα、護(hù)面塊體粗糙度γf、擋浪墻頂與靜水位之間的高度差Rc、堤頂與靜水位之間的高度差A(yù)c、肩臺寬度Gc。將實驗數(shù)據(jù)預(yù)處理后,各個參數(shù)的統(tǒng)計分布特征如表1所示。
圖3 隱含層節(jié)點(diǎn)數(shù)對網(wǎng)絡(luò)性能的影響Fig.3 Influence of nodal number of hidden layers on network performance
2.2.2 隱含層
隱含層節(jié)點(diǎn)數(shù)量對于神經(jīng)網(wǎng)絡(luò)性能有著較大的影響。本文利用逐步試驗法來確定隱含層節(jié)點(diǎn)數(shù)。即將隱含層節(jié)點(diǎn)數(shù)從某一初始值逐漸增加,比較每次網(wǎng)絡(luò)的預(yù)測性能,最終選擇性能最好的對應(yīng)節(jié)點(diǎn)數(shù)作為隱含層神經(jīng)元節(jié)點(diǎn)數(shù)。比較結(jié)果如圖3所示,隨著隱含層節(jié)點(diǎn)數(shù)的逐步增加,網(wǎng)絡(luò)的性能指標(biāo)均方誤差MSE逐漸減小。但是當(dāng)節(jié)點(diǎn)數(shù)從16個再繼續(xù)增加的時候,MSE值反而增大,這是因為節(jié)點(diǎn)數(shù)的增加會增加模型的復(fù)雜度從而引起過擬合,因此選擇隱含層節(jié)點(diǎn)數(shù)為16個。
激活函數(shù)選取tanh函數(shù),它是一種非線性函數(shù),可以將數(shù)據(jù)變換到[-1,1]之間。即
(2)
2.2.3 輸出層
網(wǎng)絡(luò)輸出為1個參數(shù),即越浪量的數(shù)值。傳遞函數(shù)選擇線性函數(shù)pure()函數(shù)。即
f(x)=pure(x)=x
(3)
2.2.4 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
將神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)置好,損失函數(shù)為均方誤差MSE,即
(4)
上式中,QMi為實驗記錄中第i個數(shù)據(jù)的實驗值,而QNNi為神經(jīng)網(wǎng)絡(luò)給出的預(yù)測值。訓(xùn)練函數(shù)選為trainlm(),即采用levenberg marquardt算法。
2.3.1 bootstrap重采樣
bootstrap重采樣是指從一個原始樣本中進(jìn)行有放回的重復(fù)采樣,采樣次數(shù)與原始樣本的數(shù)量相同。原始數(shù)據(jù)集有N條實驗記錄,采樣次數(shù)即為N次,每條實驗記錄被抽到的概率為1/N。在N次的抽取中,某條實驗記錄始終沒有被抽中的概率為(1-1/N)N,當(dāng)N趨于無窮大時,該式的值等于1/e,約為0.37。因此,當(dāng)樣本數(shù)據(jù)很大時,大約有63%的樣本數(shù)據(jù)被選擇過,可作為訓(xùn)練集。大約有37%的樣本數(shù)據(jù)從來未被選擇過,可作為驗證集。
2.3.2 集成學(xué)習(xí)模型
圖4 集成學(xué)習(xí)模型圖示Fig.4 Sketch of integrated learning model
集成學(xué)習(xí),是指通過將多個單個學(xué)習(xí)器集成或組合在一起,使它們共同完成學(xué)習(xí)任務(wù)。該方法基于這樣一種思想:對于一個復(fù)雜任務(wù)來說,將多個專家的判斷進(jìn)行適當(dāng)?shù)木C合所得出的判斷,要比其中任何一個專家單獨(dú)的判斷好。它的一般結(jié)構(gòu)是:先產(chǎn)生一組個體學(xué)習(xí)器,再用某種策略將它們結(jié)合起來。
按照集成學(xué)習(xí)的一般結(jié)構(gòu),首先產(chǎn)生500組神經(jīng)網(wǎng)絡(luò)預(yù)測模型,之后采用平均法的組合策略,將它們組合起來綜合預(yù)測。這樣相較于單個模型通常能夠獲得更好的預(yù)測結(jié)果。用于越浪量預(yù)測的集成學(xué)習(xí)結(jié)合策略示意圖如圖4所示。
具體的集成學(xué)習(xí)算法流程如下:
Step1:確定基學(xué)習(xí)器的個數(shù)L=500。
Step2:在訓(xùn)練數(shù)據(jù)集中,根據(jù)bootstrap重采樣方法有放回抽樣N次(N為訓(xùn)練數(shù)據(jù)集實驗記錄總數(shù))。
Step3:重復(fù)Step2,一共重復(fù)L次,得到L個訓(xùn)練集。(L個訓(xùn)練集之間是相互獨(dú)立的)。
Step4:基于L個訓(xùn)練集,訓(xùn)練產(chǎn)生L個越浪量神經(jīng)網(wǎng)絡(luò)預(yù)測模型,每一個模型都會預(yù)測出一個Qi值。
為了評估人工智能越浪量預(yù)測模型的性能,我們將實驗數(shù)據(jù)輸入網(wǎng)絡(luò)中,得到網(wǎng)絡(luò)的預(yù)測值。通過比較預(yù)測值和實驗值來分析網(wǎng)絡(luò)的預(yù)測性能。同時我們采用評價指標(biāo)Pearson相關(guān)系數(shù)R來定量的評價網(wǎng)絡(luò)的預(yù)測性能和精度。相關(guān)系數(shù)R越接近于1或-1,相關(guān)度越強(qiáng),相關(guān)系數(shù)越接近于0,相關(guān)度越弱。該評價指標(biāo)的定義如下
(5)
將訓(xùn)練集數(shù)據(jù)輸入到網(wǎng)絡(luò)中,預(yù)測越浪量的值,并將得到的預(yù)測值和實驗值進(jìn)行比較,如圖5所示。圖中中間的斜線為45度理想線,理想線兩側(cè)的斜線之間是5倍誤差區(qū)間帶。由于防波堤越浪現(xiàn)象非常復(fù)雜,與波要素、防波堤結(jié)構(gòu)形式等諸多因素有關(guān)。因此,準(zhǔn)確的預(yù)測越浪量的值很困難。各家的越浪量計算公式一般控制在10倍誤差,即一個量級以內(nèi)。另外,即使在實驗室中對越浪量進(jìn)行重復(fù)測試,通常也會產(chǎn)生5倍的誤差。預(yù)測結(jié)果表明,對于單坡式斜坡堤,該網(wǎng)絡(luò)預(yù)測的越浪量與實驗結(jié)果具有較好的相關(guān)性,相關(guān)系數(shù)R=0.86,極少出現(xiàn)大的預(yù)測偏差,預(yù)測結(jié)果很可靠。
圖5 訓(xùn)練集數(shù)據(jù)預(yù)測比較Fig.5 Comparison of prediction and experimental values in the training dataset圖6 不同WF值實驗數(shù)據(jù)預(yù)測圖Fig.6 Different WF value data prediction
令WF=(4-CF),(4-CF)代表實驗可靠度和模型復(fù)雜度的綜合指標(biāo),WF值越高,代表數(shù)據(jù)本身的可靠性越高,WF值越低,代表數(shù)據(jù)本身的可靠性越低。由圖6可以進(jìn)一步發(fā)現(xiàn),WF的值越高,數(shù)據(jù)點(diǎn)越集中分布在45度理想線的附近。相反,WF值低的數(shù)據(jù)因為本身可信度比較低,所以網(wǎng)絡(luò)預(yù)測的結(jié)果也會出現(xiàn)一定的偏差。
為了驗證該網(wǎng)絡(luò)的泛化能力,我們抽取出100條實驗記錄。這些實驗數(shù)據(jù)并未參與網(wǎng)絡(luò)的訓(xùn)練過程,但是他們的參數(shù)范圍仍然落在訓(xùn)練數(shù)據(jù)集的范圍內(nèi)。由圖7可以看到,對于新的實驗數(shù)據(jù),網(wǎng)絡(luò)的越浪量預(yù)測值與實驗值仍然非常接近,均分布在45度理想線附近,且全部落入5倍誤差帶范圍內(nèi)。預(yù)測值與實驗值具有很好的相關(guān)性,相關(guān)系數(shù)R=0.96,表明網(wǎng)絡(luò)具有很好的泛化性能。
圖7 測試集數(shù)據(jù)預(yù)測比較Fig.7 Comparison of prediction and experimental values in the testing dataset圖8 工程項目數(shù)據(jù)預(yù)測比較Fig.8 Comparison of prediction and experimental values in the project dataset
為了進(jìn)一步驗證該此模型在實際項目工程中的預(yù)測性能,本文利用交通運(yùn)輸部天津水運(yùn)工程科學(xué)研究所的實際工程項目實驗結(jié)果進(jìn)行驗證分析。具體工程為印尼公主港3×350 MW電廠項目的海工工程波浪斷面物理模型試驗、印尼KARANG TARAJE PORT工程防波堤斷面波浪物理模型試驗、三亞肖旗港游艇碼頭改擴(kuò)建工程波浪斷面模型試驗。結(jié)果如下圖8所示,通過比較發(fā)現(xiàn),網(wǎng)絡(luò)預(yù)測值與物理模型實驗值很接近,均分布在45度理想線附近,且全部落入5倍誤差帶范圍內(nèi)。預(yù)測值與實驗值具有很好的相關(guān)性,相關(guān)系數(shù)R=0.88,進(jìn)一步驗證了該網(wǎng)絡(luò)模型具有較好的預(yù)測性能。
本文在歐洲CLASH越浪量數(shù)據(jù)庫的基礎(chǔ)上,建立了人工智能斜坡堤越浪量評估方法。該方法不僅可以充分考慮影響單坡式斜坡堤越浪量的十個主要因素,而且具有評估快速、通過自學(xué)習(xí)不斷完善的特點(diǎn)。通過將模型預(yù)測的越浪量結(jié)果與數(shù)據(jù)庫自身的實驗記錄和交通運(yùn)輸部天津水運(yùn)工程科學(xué)研究所的實驗結(jié)果進(jìn)行對比分析,可以發(fā)現(xiàn)人工智能的預(yù)測結(jié)果和實驗結(jié)果具有很強(qiáng)的相關(guān)性。因此,該模型在設(shè)計防波堤過程中不僅可以考慮多種設(shè)計因素,也能夠在估算越浪量中起到很好的輔助作用,對實際工程中防波堤的允許越浪設(shè)計具有重要意義。此外,人工智能預(yù)測方法的準(zhǔn)確性與訓(xùn)練集有很大關(guān)系,該方法的適用范圍是指將單坡式防波堤的參數(shù)提取出來并經(jīng)過歸一化處理后,各個參數(shù)值應(yīng)位于相應(yīng)的參數(shù)區(qū)間內(nèi)。最后,建議我國盡快啟動相關(guān)越浪量數(shù)據(jù)的規(guī)范工作,建立更加適合我國海岸防護(hù)情況的人工智能模型。