李志鑫, 王 晶, 張 猛
基于機器學習的內孤立波波要素關系研究
李志鑫, 王 晶, 張 猛
(中國海洋大學 物理與光電工程學院, 山東 青島 266100)
內孤立波在海洋中的傳播會攜帶能量和動量, 不同振幅的內孤立波對海洋中的能量交換及海上工程等影響也不同, 因此, 研究內孤立波振幅與半波寬度、水深、分層條件、密度等水文特征參量之間的關系顯得尤為重要。以往在研究中建立內孤立波振幅與它們之間的關系時, 會受到不同理論有效適用范圍的限制。本文借助實驗室的水槽方法, 設計了不同的水深、分層及密度條件下的內孤立波系列綜合實驗, 發(fā)現內孤立波的振幅與半波寬度、水深、分層條件以及水體密度等參量之間并非簡單線性關系。因此, 利用機器學習的方法建立內孤立波振幅與上述參量之間的非線性關系, 建立了支持向量機(SVM)和隨機森林(RF)兩種機器學習模型。將1 266組實驗數據建立樣本庫, 其中包含訓練集970組, 測試集296組, 對模型進行參數調優(yōu), 最終通過測試集驗證, SVM模型的平均相對誤差為17.3%, RF模型的平均相對誤差為15.5%。該方法適用于多種不同的水文條件, 有效解決先前理論存在的適用性問題。
內孤立波; 振幅; 水槽實驗; 支持向量機; 隨機森林
在過去幾十年里現場實測和遙感觀測的結果表明, 內孤立波是海洋中的一種普遍現象[1], 通常由潮汐流過島嶼、海底山脊或大陸架造成密度躍層的重力塌陷產生[2]。內孤立波在海洋中可以傳播數百公里并且結構不會發(fā)生明顯變化, 它們的傳播伴隨著海洋中巨大的能量傳輸[3], 對洋流測量、海上工程、海洋航行等產生重要影響[4-5]。因此, 正確理解內孤立波的物理特性至關重要。
弱非線性的Korteweg–de Vries(KdV)方程[6]是描述內孤立波傳播的最簡單的模型, 由于其簡單的形式而被廣泛使用, 但其僅適用于小振幅內孤立波。Koop等[7]對兩層流體系統(tǒng)中有限振幅內孤立波的實驗進行研究, 表明淺水中KdV理論與實驗結果一致, 當水深條件改變, 理論會和實驗結果發(fā)生偏差, Grue等人[8]在實驗中固定水體分層比, 通過改變振幅進行實驗, 發(fā)現KdV理論適用的有效振幅范圍很小, 之后的大部分實驗表明KdV理論僅適用于小振幅內孤立波的情況, 當振幅與流體厚度之比超過0.1時, KdV理論不再適用[9-10]。eKdV理論作為KdV理論的一個擴展, 可以更好地描述中等振幅的內孤立波[11], 對于相對較小的振幅, eKdV與KdV之間的解存在顯著差異[1], 對于大振幅內孤立波, eKdV理論在上下兩層流體厚度差異較小時較為準確。為描述更大振幅的內孤立波, Miyata[12]與Choi等[13]對弱非線性兩層eKdV模型進行了擴展, 給出了完全非線性的內孤立波的解析解, 即Miyata–Choi–Camassa(MCC)理論, 研究表明, 對于大振幅的內孤立波, MCC理論的解與實驗室結果一致[14], 不同于eKdV的是, MCC理論在兩層流體厚度差異明顯時較為準確。Du等人[15]通過實驗得出特征頻率(相速度/內孤立波特征波長)與內孤立波振幅之間的關系是選擇以上哪種理論的最佳標準, 而特征頻率又與上下層水體的厚度及密度有關。適用于不同條件下的其他理論也大多是在KdV理論的基礎上進行擴展而得到的, 由此可見, 內孤立波振幅與上下層水體的厚度、密度及內孤立波的波形之間存在復雜的關系。
綜上所述, 在建立內孤立波振幅與其他參量之間的關系時, 要充分考慮各種理論的適用條件, 由于每種理論只能很好地在各自的有效范圍內對內孤立波進行描述, 超出有效范圍則會產生系統(tǒng)偏差, 因此, 通過各種理論給出的解析解來描述內孤立波振幅與半波寬度及水深、密度等水文參量之間的關系時, 其準確性會受到不同條件的限制。為解決該問題, 本文通過在實驗室水槽中設計不同的實驗, 對內孤立波的振幅、半波寬度、分層和密度差等進行提取并生成數據庫, 利用兩種大數據模型有效地建立內孤立波振幅與其他參量之間的關系, 并且該方法可適用于多種水文條件。
在水槽實驗中, 內孤立波通常利用分層流體的重力塌陷產生[17], 生成原理如圖1所示, 在水槽中垂直插入擋板至密度躍層下方并確保擋板與水槽底部留有部分空間, 擋板左側形成一個造波區(qū), 向造波區(qū)內緩慢注入一定量的淡水, 下層鹽水會通過擋板下方流向右側以保持流體靜力平衡, 隨上層淡水注入, 造波區(qū)一側的密度躍層下降, 與另一側形成高度差, 可通過設置不同的塌陷高度, 生成不同振幅的內孤立波。實驗時快速平穩(wěn)地抽離擋板, 兩側流體由于存在重力勢能差發(fā)生重力塌陷, 從而產生垂直剪切運動, 兩層水體迅速混合產生順時針方向的擾動, 生成第一模態(tài)下降型的內孤立波向右傳播, 同時利用計算機控制CCD進行拍攝。
圖1 實驗儀器示意圖
利用CCD拍攝內孤立波的傳播過程, 如圖2所示, 從圖中提取內孤立波的振幅和半波寬度, 在KdV方程的推導中, 非線性系數作為一個尺度參數, 意味著波振幅與總水深的比值/其大小代表了振幅的大小[18]。為研究內孤立波振幅與半波寬度及水深、分層條件和密度之間的關系, 設置了若干組對照實驗, 改變水深、密度差和分層等初始實驗條件, 由于我們需要分析內孤立波振幅與半波寬度之間的關系, 因此將半波寬度與總水深的比值/作為半波寬度的尺度。通過觀察振幅與總水深的比值/和半波寬度與總水深的比值/之間關系的變化來反映振幅與其他水文特征參量之間的關系。
圖2 內孤立波垂向剖面的時間序列圖
圖3 不同分層條件下內孤立波振幅與半波寬度散點圖
圖4 不同密度條件下內孤立波振幅與半波寬度散點圖
對所有實驗數據進行分析, 在全條件下, 振幅與半波寬度之間的關系如圖6所示, 結合以上3組對照實驗, 可以發(fā)現, 振幅與半波寬度之間的線性相關性很低, 改變某種水文條件,a 兩者關系會發(fā)生變化, 說明振幅與半波寬度之間存在的是一種復雜的非線性關系。針對不同初始條件下產生的內孤立波, 傳統(tǒng)的非線性理論給出了各自的穩(wěn)態(tài)解, 一旦超出適用的范圍, 會與實際波形產生偏差, 對于各種水文條件都包含的情況, 可以利用機器學習的方法建立內孤立波振幅與半波寬度及水文特征參量之間的非線性關系。
圖5 不同水深下內孤立波振幅與半波寬度散點圖
圖6 內孤立波振幅與半波寬度散點圖
目前, 機器學習領域的研究取得巨大進展, Warren Mcculloch和Walter Pitts在1943年提出了神經網絡的結構模型[19], 為機器學習的發(fā)展奠定了重要基礎。機器學習是從給定訓練樣本中尋找輸入與輸出之間的最優(yōu)關系, 使其能夠對無法觀測的輸出做出盡可能準確的預測[20], 20世紀90年代以來, 多種基于統(tǒng)計學習規(guī)律的淺層機器學習模型的出現, 使機器學習的研究取得很大的進展[21]。
支持向量機(support vector machine)是Cortes和Vapnik在1995年首次提出的一種基于統(tǒng)計學習理論的有監(jiān)督的機器學習方法[22], 廣泛用于處理統(tǒng)計分類和回歸分析問題, SVM具有很好的魯棒性和泛化能力, 能夠很好地建立數據之間的非線性關系。利用SVM處理回歸問題的基本思想如圖7a所示, 在處理回歸問題時, 我們希望能夠找到最優(yōu)超平面, 使得所有樣本點與超平面之間的偏差最小, 即讓更多的數據落在邊界內, 當數據足夠多時, 就可以將超平面作為回歸結果, 為防止模型過擬合, 通常采用-不敏感損失函數(見圖7b)來界定超平面與邊界的間隔距離, 當模型結果與真值之間差值的絕對值大于才計算損失[23]。在處理非線性回歸問題時, 由于低維空間無法進行處理, 需要將樣本空間的數據映射到高維特征空間(又稱希爾伯特空間)進行處理。由于非線性SVM在升維過程中會使計算量增大, 延長數據處理的時間, 且容易引發(fā)維度爆炸, 因此需要引入合適的核函數(x, x)使其在低維空間進行計算, 將實際效果映射到高維空間中, 避免了在高維空間對數據進行直接計算。SVM中不同的核函數會構造出不同的高維特征空間, 在處理此類問題時, 通常采用徑向基核函數(RBF), SVM的模型結構如圖8a所示。
圖7 SVM處理回歸問題原理圖
注:: 超平面與邊界的間隔距離
隨機森林(random forest, RF)是Breiman在2001年提出的一種基于分類樹的機器學習算法[24], 其基本原理是利用自助重抽樣方法從原始樣本中抽取多個樣本[25], 即多個決策樹分別從訓練集中抽取一部分樣本, 不同決策樹學習的樣本是有差別的, 關注的特征也是不同的, 決策樹之間沒有關聯, 體現了其樣本和屬性的雙重隨機性。這種方式也從一定程度上避免了過擬合, 每棵決策樹都會輸出一個結果,在處理回歸問題時, 最終結果由每棵決策樹給出的均值綜合而來, 是一種集成學習算法, 具有精確度高、調節(jié)參數少、訓練速度快的優(yōu)點, 是一種很好的非線性建模工具, 模型結構如圖8b所示。
圖8 SVM與RF模型結構圖
注:1: 上層水深,2: 下層水深,3: 上層水深與總水深的比值,4: 上層水體密度,5: 下層水體密度,6: 內孤立波半波寬度,(x, x): 核函數,ay: 權重,: 輸出振幅值。
表1 輸入-輸出設置
圖 9 模型結果與測試集擬合圖
RF是一種基于多棵決策樹進行優(yōu)化決策的算法,其參數調優(yōu)主要包括兩部分: 一是對RF框架的調優(yōu), 二是對RF決策樹的調優(yōu)。對于框架的調優(yōu)一般考慮調節(jié)決策樹的數量, 設置決策樹數量范圍為(0, 1 000],并以步長為10進行個數尋優(yōu)。關于RF決策樹調優(yōu)的重要參數是樹的最大深度和最大特征值, 當樣本數量和特征較多時, 可以對樹的最大深度進行限制, 最大特征值可以提高每個子模型的擬合性能。本文設置樹的最大深度范圍為[1, 50], 步長為1, 最大特征值范圍設為(0, 1), 步長為0.1。尋優(yōu)之后, 樹的數量為211, 最大深度為7, 最大特征值為0.706, 尋優(yōu)后的RF模型測試結果的平均相對誤差為15.5%。如圖9b所示, 模型結果與測試集數據的吻合程度較好, 當振幅較小時, 模型擬合精度較高, 在振幅較大時也表現出優(yōu)于SVM的能力。
本文利用機器學習的方法, 以SVM和RF模型建立內孤立波振幅與上下層水深、密度、半波寬度之間的非線性關系, 解決了傳統(tǒng)的非線性理論在實驗室中描述內孤立波時存在的適用性問題, 為實驗室中內孤立波振幅研究提供了一種新思路。
為獲取足夠的數據進行訓練, 借助實驗室的水槽方法, 設計了不同的水深、分層及密度條件下的內孤立波系列綜合實驗, 獲取不同條件下內孤立波的振幅。對CCD拍攝的照片以時間序列圖的形式輸出, 提取內孤立波的振幅和半波寬度。設置對照實驗分析實驗數據, 內孤立波的振幅與半波寬度并非簡單的線性關系, 其關系會隨水深、分層條件以及密度差的變化而發(fā)生改變, 說明兩者之間的非線性關系受初始實驗條件的影響。
[1] HELFRICH K R, MELVILLE W K. Long nonlinear internal waves[J]. Annual Review of Fluid Mechanics, 2006, 38(1): 395-425.
[2] NAKAMURA T, AWAJI T. A growth mechanism for topographic internal waves generated by an oscillatory flow[J]. Journal of Physical Oceanography, 2001, 31(8): 2511-2524.
[3] LAMB K G, FARMER D. Instabilities in an internal solitary-like wave on the oregon shelf[J]. Journal of Physical Oceanography, 2011, 41(1): 67-87.
[4] OSBORNE A R, BURCH T L. Internal solitons in the andaman sea[J]. Science, 1980, 208(4443): 451-460.
[5] CHEN L, ZHENG Q, XIONG X, et al. Dynamic and statistical features of internal solitary waves on the continental slope in the northern south china sea derived from mooring observations[J]. Journal of Geophysical Research: Oceans, 2019, 124(6): 4078-4097.
[6] DJORDJEVIC V D, REDEKOPP L G. The fission and disintegration of internal solitary waves moving over two-dimensional topography[J]. Journal of Physical Oceanography, 1978, 8(6): 1016-1024.
[7] KOOP C G, BUTLER G. An investigation of internal solitary waves in a two-fluid system[J]. Journal of Fluid Mechanics, 1981, 112: 225.
[8] GRUE J, JENSEN A, RUSS P O, et al. Properties of large-amplitude internal waves[J]. Journal of Fluid Mechanics, 1999, 380: 257-278.
[9] WALKER S A, MARTIN A J, EASSON W J. Comparison of laboratory and theoretical internal solitary wave kinematics[J]. Journal of Waterway, Port, Coastal, and Ocean Engineering, 2003, 129: 210-218.
[10] HELFRICH K R, MELVILLE W K. On interfacial solitary waves over slowly varying topography[J]. Journal of Fluid Mechanics, 1984, 149: 305-317.
[11] KAKUTANI T, YAMASAKI N. Solitary waves on a two-layer fluid[J]. Journal of the Physical Society of Japan, 2007, 45(2): 674-679.
[12] MIYATA M. An internal solitary wave of large amplitude[J]. Deep Sea Research Part B Oceanographic Literature Review, 1985, 23(2): 43-48.
[13] CHOI W, CAMASSA R. Fully nonlinear internal waves in a two-fluid system[J]. Journal of Fluid Mechanics, 1999, 396: 1-36.
[14] MICHALLET H, BARTHéLEMY E. Experimental study of interfacial solitary waves[J]. Journal of Fluid Mechanics, 1998, 366: 159-177.
[15] DU H, WEI G, WANG S D, et al. Experimental study of elevation- and depression-type internal solitary waves generated by gravity collapse[J]. Physics of Fluids, 2019, 31(10): 102-104.
[16] OSTROVSKY L A, STEPANYANTS Y A. Do internal solitions exist in the ocean?[J]. Reviews of Geophysics, 1989, 27(3): 293-310.
[17] WU J. Mixed region collapse with internal wave generation in a density-stratified medium[J]. Journal of Fluid Mechanics, 2006, 35(3): 531-544.
[18] QIAN M A, CHUNXIN Y, XIAOPEI L, et al. The investigation of internal solitary waves over a continental shelf-slope[J]. Journal of Oceanology and Limnology, 2020, 38(3): 695-706.
[19] MCCULLOCH W S, PITTS W H. A logical calculus of the ideas immanent in nervous activity[J]. The Bulletin of Mathematical Biophysics, 1988, 5: 115-133.
[20] 祁亨年. 支持向量機及其應用研究綜述[J]. 計算機工程, 2004, 30(10): 6-9.
QI Hengnian. Support vector machines and application research overview[J]. Computer Engineering, 2004, 30(10): 6-9.
[21] 張潤, 王永濱. 機器學習及其算法和發(fā)展研究[J]. 中國傳媒大學學報: 自然科學版, 2016, 23(2): 10- 18.
ZHANG Run, WANG Yongbin. Research on machine learning with algorithm and development[J]. Journal of Communication University of China(Science and Tech-nology), 2016, 23(2): 10-18.
[22] CORTES C, VAPNIK V N. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297.
[23] 陳永義, 俞小鼎, 高學浩, 等. 處理非線性分類和回歸問題的一種新方法(Ⅰ)——支持向量機方法簡介[J]. 應用氣象學報, 2004, 15(3): 345-354.
CHEN Yongyi, YU Xiaoding, GAO Xuehao, et al. A new method to deal with nonlinear classification and regression problems (Ⅰ) ——Introduction to support vector machine method[J]. Journal of Applied Meteorological Science, 2004, 15(3): 345-354.
[24] BREIMAN L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.
[25] 方匡南, 吳見彬, 朱建平, 等. 隨機森林方法研究綜述[J]. 統(tǒng)計與信息論壇, 2011, 26(3): 32-38.
FANG Kuangnan, WU Jianbin, ZHU Jianping, et al. A review of technologies on random forests[J]. Stats & Information Forum, 2011, 26(3): 32-38.
[26] 周志華. 機器學習[M]. 北京: 清華大學出版社, 2016: 24-26.
ZHOU Zhihua. Machine learning[M]. Beijing: Tsinghua University Press, 2016: 24-26.
[27] 牛興霞, 楊奎河. 基于支持向量機的多類分類研究[J]. 信息技術, 2006(11): 27-31.
NIU Xingxia, YANG Kuihe. Research on multi-classification based on support vector machine[J]. Information Technology, 2006(11): 27-31.
[28] WANG J, ZHANG M, MEI Y, et al. Study on inversion amplitude of internal solitary waves applied to shallow sea in the laboratory[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18 (4): 577-581.
Relationship between wave elements of internal solitary waves based on machine learning
LI Zhi-xin, WANG Jing, ZHANG Meng
(Physics and Optoelectronic Engineering, Ocean University of China, Qingdao 266100, China)
The internal solitary waves that propagate in the ocean carry enormous energy and momentum. Internal solitary waves of varying amplitudes have a different impact on energy exchange and offshore engineering in the ocean. Therefore, it is essential to study the relationship between the amplitude of internal solitary waves, half-wave width, and hydrological characteristic parameters such as depth, stratification, and density. Previously, the relationship between the amplitude of an internal solitary wave and these parameters was constrained by multiple theories. In this paper, a series of comprehensive experiments under different depth, stratification, and density were designed using flume in the laboratory. The relationship between the amplitude of internal solitary waves, half-wave width, depth, stratification, and density is found to be nonlinear. Thus, the machine learning method can be used to establish a nonlinear relationship between the above parameters. We developed a sample database of 1 266 sets, including 970 training sets and 296 test sets using two models, support vector machine (SVM) and random forest (RF). The parameters of the model have been optimized. Finally, the average relative error of the SVM model is 17.3%, whereas that of the RF model is 15.5%. The results show that the machine learning method is effective and feasible. This method can be applied to various hydrological conditions, which effectively solve applicability issues in the previous theory.
internal solitary wave; amplitude; flume experiment; support vector machine; random forest
Nov. 5, 2020
P733.1
A
1000-3096(2021)05-0113-08
10.11759/hykx20201105008
2020-11-05;
2021-02-03
國家重點研發(fā)項目(2017YFC1405600); 國家自然科學基金(61871353)
[National Key Research and Development Project, No. 2017YFC1405600; National Natural Science Foundation of China, No. 61871353]
李志鑫(1996—), 男, 山東青島人, 碩士研究生, 研究方向為海洋內波, E-mail: lizhixin_ouc@163.com; 王晶(1962—),通信作者, 教授, 主要從事光纖光學和海洋遙感研究, E-mail: wjing@ouc.edu.cn
(本文編輯: 楊 悅)