李昭穎, 王厚杰
(中國海洋大學(xué)海洋地球科學(xué)學(xué)院,山東 青島 266100)
作為河流攜帶的陸源物質(zhì)向海洋輸送的關(guān)鍵通道,河口羽狀流(Plume)由自河口入海并浮于鹽水上的低密度淡水形成,其在近場(Near-field)內(nèi)的擴(kuò)散狀態(tài)作為河流動(dòng)力學(xué)中的關(guān)鍵參數(shù),決定著淡水、陸源沉積物、營養(yǎng)鹽等在河口附近的分布狀況和輸運(yùn)范圍,對(duì)河口和近海物質(zhì)輸運(yùn)與環(huán)境有重要影響[1-2]。特別是羽狀流擴(kuò)散角(Plume spreading angle)作為近場羽狀流的關(guān)鍵特征將直接影響河流的回水過程,并決定了河口附近沉積物的堆積狀態(tài)[3-4]。然而,囿于數(shù)據(jù)限制和技術(shù)手段,目前的研究多集中于理想條件下的定性分析[2],數(shù)據(jù)來源以實(shí)驗(yàn)室數(shù)據(jù)和現(xiàn)場調(diào)查為主[1,5],數(shù)據(jù)獲取成本高、數(shù)量少,難以獲得長期連續(xù)實(shí)際河口處羽狀流擴(kuò)散角的變化趨勢,也無法就羽狀流的動(dòng)力因素進(jìn)行顯著性分析。鑒于此,衛(wèi)星遙感數(shù)據(jù)以其大批量數(shù)據(jù)及長時(shí)間尺度的特征,為解譯河口羽狀流擴(kuò)散趨勢提供了新的方法。然而,針對(duì)遙感數(shù)據(jù)開展的傳統(tǒng)人工處理方法存在效率低、誤差大的缺陷,難以對(duì)海量數(shù)據(jù)開展批處理,亦無法提取數(shù)據(jù)背后隱含的規(guī)律性信息。因此,作為能夠自動(dòng)從數(shù)據(jù)中提取信息的方法,數(shù)據(jù)挖掘技術(shù)(Data mining)為解決這類傳統(tǒng)難題提供了新思路,并已經(jīng)在地球科學(xué),特別是沉積學(xué)中獲得了廣泛的利用。以線性回歸法為代表的數(shù)學(xué)算法在針對(duì)湖泊沉積物內(nèi)有機(jī)碳的礦化程度以及周邊環(huán)境因素的相關(guān)性開展分析[6],針對(duì)沉積物的粒度、地球化學(xué)組分和物源分析中均取得了不錯(cuò)的效果[7-9]。概率算法主要包括最近興起的機(jī)器學(xué)習(xí)技術(shù),其中代表性的回歸算法為隨機(jī)森林(Random forest,RF)法[10]。作為統(tǒng)計(jì)學(xué)中新興的、高度靈活的機(jī)器學(xué)習(xí)算法,隨機(jī)森林在地球科學(xué)中的應(yīng)用驗(yàn)證了其高效的分析能力,近年來在建立沉積物分布模型、推測河流流量等河口沉積動(dòng)力學(xué)問題上初步展現(xiàn)了其強(qiáng)大的分析作用[11-14]。
然而,數(shù)據(jù)挖掘算法的加入在解決的問題同時(shí)也產(chǎn)生了新的問題。由于數(shù)據(jù)量和數(shù)據(jù)精度的約束,數(shù)據(jù)挖掘算法在解決地學(xué)問題時(shí)的表現(xiàn)效果尚待評(píng)估。同時(shí),經(jīng)典的數(shù)學(xué)算法和新興的概率算法在不同數(shù)據(jù)集上的表現(xiàn)存在不一致性,我們需要根據(jù)數(shù)據(jù)集特點(diǎn)對(duì)數(shù)據(jù)挖掘算法的適用范圍進(jìn)行深入討論。因此,在利用數(shù)據(jù)分析方法的基礎(chǔ)上對(duì)其特點(diǎn)進(jìn)行評(píng)估,對(duì)基于地學(xué)數(shù)據(jù)的數(shù)據(jù)挖掘算法的推廣應(yīng)用具有重要的意義。
本文以馬格達(dá)萊納河河口羽狀流近場數(shù)據(jù)和周圍環(huán)境因素為例,使用分屬數(shù)學(xué)算法和概率算法的三種不同的數(shù)據(jù)挖掘方法,討論方法結(jié)果之間的差異和產(chǎn)生原因并總結(jié)了其方法特征及應(yīng)用范圍,從而能夠評(píng)估方法的表現(xiàn)效果、對(duì)模型輸出結(jié)果作合理取舍。同時(shí),基于對(duì)算法擬合效果及分析結(jié)果的探究,建立近場羽狀流擴(kuò)散角模型,探討其長期變化趨勢,分析擴(kuò)散角的環(huán)境影響因素,從而進(jìn)一步探討現(xiàn)實(shí)河口下可能存在的沉積物分布與堆積趨勢。
針對(duì)河口羽狀流主控因素這一回歸問題,本文主要使用基于最小二乘法(Ordinary Least Squares,OLS)的多元線性回歸(Multiple Linear Regression),套索回歸(Lasso Regression)以及基于決策樹CART算法(Classification and Regression Trees,又稱分類回歸樹)開展的隨機(jī)森林算法對(duì)問題進(jìn)行研究,前兩種屬數(shù)學(xué)模型,后一種為概率模型。
多元線性回歸(簡稱MLR法)指對(duì)于因變量的預(yù)測中,具有兩個(gè)以上的自變量對(duì)其存在影響。針對(duì)可以表示為式(1)的多元線性回歸問題:
Y=BX+ε。
(1)
Lasso是一種采用了L1正則化(L1-regularization)的線性回歸方法[15],即滿足最小二乘法的同時(shí),通過L1范數(shù)t使得回歸系數(shù)總體偏小,從而保證參數(shù)前的回歸系數(shù)為較小值,而相關(guān)性較低因素的回歸系數(shù)趨于甚至等于零。該方法能夠有效的減小模型擬合結(jié)果的波動(dòng)性,防止模型過擬合,并有效的對(duì)低相關(guān)性參數(shù)進(jìn)行篩選。
基于CART算法的隨機(jī)森林(簡稱RF算法)[10]是一種決策樹的集成方法。令決策樹為二叉樹,依照決策節(jié)點(diǎn)劃分為有限部分后在每部分上確定終端節(jié)點(diǎn)的概率分布,并采用系數(shù)[16]作為最優(yōu)特征選擇法。在決策樹的基礎(chǔ)上,RF算法使用Bagging算法(Bootstrap aggregating,引導(dǎo)聚集算法)進(jìn)行重采樣,并建立若干互相獨(dú)立的分類器,最終以分類器的投票結(jié)果返回預(yù)測值,從而有效的改進(jìn)了決策樹所具有的問題。圖1是RF算法的工作流程示意圖。從數(shù)據(jù)集中有放回的隨機(jī)抽取n個(gè)樣本訓(xùn)練形成分類器,并利用其余數(shù)據(jù)對(duì)此時(shí)形成的樹進(jìn)行泛化性能測試。基于此,隨機(jī)森林算法將反復(fù)執(zhí)行此過程獲取m個(gè)互相獨(dú)立的分類器。針對(duì)第i個(gè)樣本,分類器將分別從n類分類中給出預(yù)測結(jié)果。針對(duì)回歸問題,該n個(gè)預(yù)測結(jié)果的平均值為最終預(yù)測結(jié)果。
圖1 隨機(jī)森林算法的主要結(jié)構(gòu)示意圖[10]Fig.1 The main structure of random forest algorithm
針對(duì)河口羽狀流近場擴(kuò)散角的動(dòng)力影響因素問題,本文將基于Landsat衛(wèi)星圖片數(shù)據(jù)和海洋模型數(shù)據(jù),就馬格達(dá)萊納河及其河口周邊的環(huán)境條件開展分析。
馬格達(dá)萊納河是哥倫比亞最大的河流系統(tǒng),年際輸沙量位于全球前十[17]。圖2是馬格達(dá)萊納河附近的環(huán)境因素方向示意圖。本文選擇馬格達(dá)萊納河作為范例河流,主要是出于以下幾點(diǎn)考慮。首先,馬格達(dá)萊納河位于南美洲北部,屬于高含沙量河流,具有清晰的高含沙量羽狀流,羽狀流顏色與周邊海域有明顯區(qū)別,便于開展識(shí)別和探索;其次,該河流處云層遮蓋較少,大部分Landsat衛(wèi)星圖像能觀測到較為完整的河口羽狀流形狀,能夠提供大量的連續(xù)的長期觀測資料;最后,該河流為單一河道河流,河道經(jīng)由人工介入后能夠長期保持穩(wěn)定,在研究時(shí)間內(nèi)無出汊、改道現(xiàn)象,河道向海伸出,河口附近開闊,周圍無岬灣遮擋,羽狀流形狀及擴(kuò)散幾乎不受周圍地形影響。
(河道向外突出,為河流唯一的出???,周圍的海岸地形對(duì)羽狀流無影響。圖片來自于Landsat衛(wèi)星2015年4月1日?qǐng)D像。 The channel protrudes outwards and is the only outlet of the river. The surrounding coastal geomorphology has no effect on plume. Image is from Landsat 8 satellite in April 1st, 2015.)
本文研究中,羽狀流近場數(shù)據(jù)來自于1984—2018年間的Landsat衛(wèi)星數(shù)據(jù),主要針對(duì)羽狀流在河口附近的擴(kuò)散角進(jìn)行提取?;谇叭搜芯縖18],考慮到河口的實(shí)際情況,環(huán)境因素主要使用河流流量(Discharge),風(fēng)(Wind),海流(Current),波浪(主要指波高,Wave height)和潮汐(主要指潮高,Tide height)作為基本的邊界條件進(jìn)行分析,數(shù)據(jù)來源見表1附注。邊界條件的時(shí)間跨度從1982—2018年,均基于馬格達(dá)萊納河所處位置進(jìn)行提取,并對(duì)數(shù)據(jù)進(jìn)行了日平均處理。為建立羽狀流擴(kuò)散角與環(huán)境因素的關(guān)系,選取可以使用數(shù)據(jù)挖掘方法進(jìn)行分析的動(dòng)力參數(shù),圖3是環(huán)境因素與羽狀流擴(kuò)散角之間的對(duì)比示意圖。
在開展數(shù)據(jù)分析之前,為了滿足回歸模型的要求,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理?;貧w模型中,自變量數(shù)據(jù)要求與因變量之前存在弱相關(guān)以上的關(guān)系,且不具有多重共線性,無異常值。皮爾森相關(guān)系數(shù)(Pearson correlation coefficient, 簡稱PCC)是統(tǒng)計(jì)學(xué)中常用的參數(shù),可以用于計(jì)算兩個(gè)變量之間的線性相關(guān)性。羽狀流與相關(guān)環(huán)境變量的具體信息見表1。由于多因素混雜的原因,相關(guān)性普遍處于較弱到中等相關(guān)的程度,但是這些環(huán)境因素與羽狀流仍具有可見的相關(guān)性,可以用于下一步分析。值得指出的是,在兩兩比較的過程中,發(fā)現(xiàn)風(fēng)速與波高之間的PCC達(dá)到了0.89,屬于強(qiáng)相關(guān),違反了不具多重共線性的原則??紤]到河口附近以風(fēng)浪為主,風(fēng)與浪一般屬于共同作用,在下文的分析中,本文只選取風(fēng)作為代表因素進(jìn)行分析。除了風(fēng)與浪之外的其他變量對(duì)之間相關(guān)性很弱,這表明他們對(duì)于羽流的控制和影響是相互獨(dú)立的。為去除數(shù)據(jù)中的異常值,本文對(duì)所有的數(shù)據(jù)取Z-score值,并將Z-score大于3.5的值認(rèn)為是異常值,并從數(shù)據(jù)集中刪去[19]。同時(shí),對(duì)數(shù)據(jù)取Z-score的做法,能夠完成對(duì)數(shù)據(jù)的中心化和歸一化,取消由于量綱不同、自身變異或者數(shù)值相差較大所引起的誤差,并得到均值為0,標(biāo)準(zhǔn)差為1的服從標(biāo)準(zhǔn)正態(tài)分布的數(shù)據(jù)。
(從上至下分別為海流流速、波高、潮高、風(fēng)速和河流流量。 From top to bottom are the current speed, wave height, tide height, wind speed and river discharge.)
同時(shí),需要說明的是,在人工河道的限制和干預(yù)下[20],除去河道口的東側(cè)出現(xiàn)了沙壩堆積體,使得河口處逐漸發(fā)生轉(zhuǎn)向之外,馬格達(dá)萊納河的河道在近40年內(nèi)沒有出現(xiàn)出汊、偏轉(zhuǎn)的情況,始終指向北偏西的方向??紤]到該地形變化難以提取,且沙壩的堆積具有隨時(shí)間不斷增長的趨勢,在進(jìn)行數(shù)據(jù)分析的時(shí)候,酌情引入“年”(Year)作為參數(shù)之一。該參數(shù)與其他變量進(jìn)行對(duì)比后發(fā)現(xiàn),PCC最高的為河流流量,為,仍處于中等相關(guān),不構(gòu)成強(qiáng)相關(guān)關(guān)系,可以引入作為變量。同樣的,在進(jìn)行季節(jié)分析的時(shí)候,各因素的季節(jié)性變化并不一致。為了對(duì)羽狀流進(jìn)行季節(jié)性變化的控制作用,“月”(month)作為參數(shù)將被引入到下一步的分析之中。與其他參數(shù)對(duì)比之后發(fā)現(xiàn),PCC最高的為風(fēng)速,為,也處于處于中等相關(guān),可以引入作為變量。
表1 羽狀流及相關(guān)環(huán)境變量參數(shù)Table 1 The parameters of plumes and related environmental variables
最終,具有所有邊界條件、能夠參與下一步分析的數(shù)據(jù)組共計(jì)128組,且都進(jìn)行了中心化,以確保參與模型訓(xùn)練時(shí)得到的參數(shù)結(jié)果能夠代表該因素的貢獻(xiàn)值。據(jù)被隨機(jī)分為兩個(gè)子集,分別是訓(xùn)練集(75%,包括 96 組數(shù)據(jù))和測試集(25%,包括 32 組數(shù)據(jù)),兩個(gè)子集具有相似的自變量和因變量分布。
將進(jìn)行預(yù)處理之后的訓(xùn)練組適用MLR線性回歸法進(jìn)行分析,針對(duì)羽狀流擴(kuò)散角得到了下述的方程(2):
θ=-0.169 0×Uc-0.067 0×Q-0.227 6×Uw-
0.216 3×Ht+0.082 4×Month-0.405 0×Year。
(2)
之后,將訓(xùn)練組投入Lasso線性回歸法進(jìn)行分析。本文Lasso回歸模型中參數(shù)t的取值為0.01,針對(duì)羽狀流擴(kuò)散角度得到了下述方程(3):
θ=-0.138 3×Uc-0.060 6×Q-0.229 8×Uw-
0.182 5×Ht+0.056 3×Month-0.363 5×Year。
(3)
最后,將訓(xùn)練集用于RF概率回歸法進(jìn)行進(jìn)一步分析。在本文的訓(xùn)練中,決策樹數(shù)量為300。作為黑箱算法,RF只能根據(jù)算法內(nèi)的決策樹給出最終的擬合結(jié)果,而無法像線性模型一樣得到具體的參數(shù)表達(dá)式??紤]到很多情況下仍然需要衡量各自變量與因變量之間的控制作用,Breiman于2001年提出了一種方法[7],可以對(duì)進(jìn)行過中心化和歸一化之后的變量重要性進(jìn)行排名,一般來說,在該分?jǐn)?shù)中具有較大值的要素被認(rèn)為對(duì)因變量具有更重要的控制因素。針對(duì)羽狀流擴(kuò)散角度的分?jǐn)?shù)結(jié)果如下方程(4)所示:
RFmodel-θ:Year>Wind>Discharge≈
Current>Tide≈Month。
(4)
其中,重要性占比分別為,Year=0.25,Wind=0.23,Discharge=0.15,Current=0.15,Tide=0.09,Month=0.09。
根據(jù)以上三種模型,圖4是三種方法所獲的預(yù)測結(jié)果與測試集相比對(duì)得到的結(jié)果??梢?,三種方法獲得的結(jié)果類似,線性法與概率法的擬合結(jié)果雖然存在一定區(qū)別,但均能相對(duì)完整的擬合出測試集的變化趨勢。然而,三種方法對(duì)于羽狀流擴(kuò)散角的分析結(jié)果及對(duì)動(dòng)力因素的權(quán)重卻存在很大區(qū)別,主要在于河流流量和潮汐的作用,即RF法結(jié)果中認(rèn)為河流流量是緊隨風(fēng)速的第三重要的變量組成,而潮汐的重要性小于海流流速,與季節(jié)影響程度相當(dāng)。考慮到評(píng)價(jià)效果的前提是結(jié)合問題背景,而近場環(huán)境的具體定義是河流初始動(dòng)量大于外界動(dòng)力影響的區(qū)域,因此在該區(qū)域內(nèi)繼承了河流動(dòng)力學(xué)特征的羽狀流會(huì)展現(xiàn)出明顯的河流效應(yīng)[18]。相比較而言,隨機(jī)森林回歸法認(rèn)為無論是羽狀流擴(kuò)散角還是羽狀流方向中流量都是排名第三的重要控制組分,其結(jié)果更具有說服力。同時(shí),這也指示著流量對(duì)擴(kuò)散角、方向的影響可能不是一元線性的,而是以多元線性或非線性關(guān)系相關(guān)。
圖4 利用MLR,Lasso和RF回歸模型對(duì)羽狀流擴(kuò)散角進(jìn)行擬合后與測試集的對(duì)比結(jié)果Fig.4 Comparison of fitting the plume spreading angle test set with MLR, Lasso and RF regression models results
出現(xiàn)上述情況的主要原因是線性法與概率法回歸思路的區(qū)別。線性回歸中,預(yù)測結(jié)果的主要思路是利用已有數(shù)據(jù)計(jì)算均方誤差,并將均方誤差最小值時(shí)的估計(jì)值作為結(jié)果,并給出此時(shí)各變量的回歸系數(shù)。以隨機(jī)森林為代表的概率法,則是針對(duì)各變量影響下的節(jié)點(diǎn)概率值作分析,最終得到的并非各變量的回歸系數(shù),而是其在森林中每棵樹內(nèi)的重要性。換言之,線性回歸強(qiáng)調(diào)的是自變量和因變量之間的線性關(guān)系,最終能得到完整的數(shù)學(xué)結(jié)果,而隨機(jī)森林側(cè)重的是自變量對(duì)因變量的影響程度,單純的只從形成結(jié)果概率上進(jìn)行推算結(jié)果。
然而,僅從擬合結(jié)果上出發(fā)時(shí),三種方法與測試集的擬合結(jié)果均具有可信性,甚至隨機(jī)森林的結(jié)果略弱于線性回歸:這體現(xiàn)了隨機(jī)森林等新發(fā)展的機(jī)器學(xué)習(xí)技術(shù)的局限性,即數(shù)據(jù)量要求高。一般的線性模型僅需要十倍于變量的樣本,而隨機(jī)森林等新興方法的數(shù)據(jù)集可能需要百倍于變量的數(shù)據(jù)集進(jìn)行訓(xùn)練。本文的數(shù)據(jù)挖掘模型應(yīng)用中,模型測試集的數(shù)量大概在100~115個(gè)左右,變量數(shù)目則在5~6個(gè)左右,這種較小的數(shù)據(jù)集對(duì)于線性模型而言更容易取得好的擬合結(jié)果,而隨機(jī)森林方法雖然得到的結(jié)果更貼近前人已有研究,得到的模型擬合結(jié)果卻弱于兩個(gè)線性模型的擬合結(jié)果。
本文討論的羽狀流問題中,河口附近環(huán)境因素復(fù)雜,易受突發(fā)性因素影響產(chǎn)生變化。特別是針對(duì)某一時(shí)刻羽狀流擴(kuò)散情況的衛(wèi)星數(shù)據(jù),與囿于數(shù)據(jù)精度而多為日平均的環(huán)境因素相比,其控制作用受外界影響較大、精度較低。這也凸顯了地學(xué)數(shù)據(jù)的特征:數(shù)據(jù)量小,數(shù)據(jù)精度低,噪音多。此時(shí),基于概率的方法由于能夠挖掘數(shù)據(jù)之間的控制趨勢而效果更好,因此導(dǎo)致了隨機(jī)森林算法具有擬合精度略低但擬合結(jié)果更符合實(shí)際的特點(diǎn)。從另一方面,同樣作為機(jī)器學(xué)習(xí)方法,兩種模型的適用條件存在區(qū)別。線性回歸法更適合針對(duì)噪點(diǎn)少的小數(shù)據(jù)集開展應(yīng)用,如實(shí)驗(yàn)室環(huán)境下產(chǎn)生的數(shù)據(jù)集,或者針對(duì)獲取數(shù)據(jù)較不方便的環(huán)境下產(chǎn)生的少量數(shù)據(jù),以分析自變量與因變量之間的數(shù)值關(guān)系,為進(jìn)一步提取數(shù)值模擬模型作準(zhǔn)備。而以隨機(jī)森林為代表的概率算法系列,由于不需要考慮變量之間的線性關(guān)系,更適合針對(duì)較大量數(shù)據(jù)下的復(fù)雜環(huán)境開展分析,以獲取自變量對(duì)因變量的總影響趨勢,衡量變量的重要性。因此,當(dāng)針對(duì)回歸問題選擇處理方法時(shí),需要綜合考慮數(shù)據(jù)質(zhì)量和數(shù)據(jù)數(shù)量兩方面的影響。對(duì)于以本文問題為代表的大部分地學(xué)數(shù)據(jù)而言,以隨機(jī)森林為代表的概率法可能是更好的選擇。同時(shí),需要說明的是,無論哪種數(shù)據(jù)挖掘方法都無法避免由于數(shù)據(jù)精度和分辨率等問題帶來的噪點(diǎn),因此在進(jìn)行討論時(shí)必須注意到數(shù)據(jù)本身可能造成的誤差。
綜上所述,在近場地區(qū)羽狀流擴(kuò)散角的環(huán)境因素中,年際變化、風(fēng)速、河流流量可能是最為主要的控制因素,隨機(jī)森林模型的結(jié)果更適用于對(duì)以本問題為代表的地學(xué)數(shù)據(jù)進(jìn)行討論。
基于上文得到的結(jié)果和方法對(duì)比情況,可以對(duì)羽狀流擴(kuò)散角的影響因素進(jìn)行分析,并開展進(jìn)一步模擬。對(duì)于馬格達(dá)萊納河羽狀流的近場擴(kuò)散角而言,年際變化、風(fēng)速、河流流量為最主要控制因素,文中得到的結(jié)論與前人的研究結(jié)果能夠互相對(duì)應(yīng)。
羽狀流擴(kuò)散角主要指羽狀流在河口附近向兩側(cè)擴(kuò)散的范圍,該擴(kuò)散過程通常不改變羽狀流底部的湍流混合過程,但會(huì)在表面顯著增加羽狀流與下層水體的混合面積,降低羽狀流的平均密度,增加河水的凈稀釋度,從而加強(qiáng)近場內(nèi)的混合過程[5]。需要說明的是,此處的年際變化,主要指馬格達(dá)萊納河口處逐漸出現(xiàn)的沙壩沉積,迫使河流的入射流量方向逐漸由北向西北偏移。河流流量及河流指向方向?qū)τ馉盍鞯臄U(kuò)散角所具的負(fù)相關(guān)影響與文獻(xiàn)[1]和[21]的研究結(jié)果類似,河流流量及其入射角會(huì)對(duì)羽狀流擴(kuò)散速率產(chǎn)生明顯影響。如圖5所示,在河流流量較低或者河口堆積體較少的情況下,羽狀流具有更大的擴(kuò)散角,此時(shí)河流的河道和近海羽流區(qū)域均趨向沉積;而在河流流量增大或河口堆積體增多的情況下,羽狀流擴(kuò)散角小,河道發(fā)生沖刷,在近海的羽流區(qū)域出現(xiàn)自通道化,并趨于形成堤岸。相比之下,以風(fēng)速和海流為代表的海洋動(dòng)力所產(chǎn)生的外應(yīng)力在近場內(nèi)對(duì)羽狀流同樣具有重要控制作用。Xia等[22]的研究中指出,在強(qiáng)烈的風(fēng)應(yīng)力下,河口流出的淡水進(jìn)入沿岸流的量顯著增加,而Kakoulaki等[23]認(rèn)為風(fēng)應(yīng)力在近場內(nèi)是排名第二的重要因素。同時(shí),必須要注意到的是,馬格達(dá)萊納河處平均風(fēng)速高達(dá)6 m/s,屬于絕對(duì)的高風(fēng)速地區(qū)。Xia等[22]的研究表明,在風(fēng)速大于5 m/s時(shí),隨風(fēng)力增加,羽狀流的擴(kuò)散面積必定減小,這也會(huì)造成羽狀流擴(kuò)散角的進(jìn)一步降低。圖5顯示,在強(qiáng)烈的側(cè)向應(yīng)力作用下,羽狀流更傾向于沿風(fēng)速方向輸運(yùn),大部分淡水會(huì)進(jìn)入沿岸流,造成其東側(cè)出現(xiàn)明顯的空白,在馬格達(dá)萊納河口的環(huán)境下即為羽狀流逐漸向左偏轉(zhuǎn)從而造成其擴(kuò)散角變小。本質(zhì)上,河口羽狀流的擴(kuò)散狀態(tài)是初始動(dòng)量與外界環(huán)境因素競爭的結(jié)果,因此河流流量較大時(shí),羽狀流的初始動(dòng)量高,在離開河口時(shí)具有更強(qiáng)的徑向速度,因此傾向于維持本身的狀態(tài);而在河流轉(zhuǎn)向后,其入射角方向會(huì)與風(fēng)速、海流等趨同,反向增加了外力的作用。
(從上到下分別是河流流量/海流、風(fēng)速、年份變化時(shí)對(duì)應(yīng)的擴(kuò)散角示意圖以及相對(duì)應(yīng)的羽狀流衛(wèi)星圖片。 From up to down are discharge/current, wind, year and satellite images.)
根據(jù)計(jì)算發(fā)現(xiàn),羽狀流在近場擴(kuò)散中,羽狀流寬度與距離河口的徑向距離成比例[24]。換言之,我們可以以等腰三角形作為羽狀流的模擬,以高度抽象的方式展示羽狀流擴(kuò)散角的變化趨勢,并討論羽狀流對(duì)于河口-海岸帶的影響。圖5同時(shí)展示了馬格達(dá)萊納河羽狀流在21年內(nèi)的羽狀流擴(kuò)散角變化所作的示意圖,為保證穩(wěn)定條件,環(huán)境因素取平均值,季節(jié)統(tǒng)一為春季。圖中的模型結(jié)果顯示,羽狀流的擴(kuò)散角隨年份變化不斷減小,這一趨勢與衛(wèi)星圖片所展示的河口衛(wèi)星圖像是一致的,這也會(huì)影響河流的回水面積,從而影響河口的沉積過程。在羽狀流擴(kuò)散角不斷減小的過程中,如果不存在人工疏浚等外界影響,馬格達(dá)萊納河河口將由大范圍的水下三角洲沉積逐漸轉(zhuǎn)變?yōu)楹拥莱练e體,進(jìn)一步形成向外延伸的鳥嘴狀河道,渠道化更加明顯。同時(shí),河口西側(cè)的羽狀流擴(kuò)散面積,即淡水和沉積物的主要影響范圍,在研究時(shí)間內(nèi)處于不斷下降的趨勢,但下降幅度不高;相比之下,河口東側(cè)的羽狀流擴(kuò)散范圍隨時(shí)間變化產(chǎn)生了顯著的降低。衛(wèi)星圖片顯示,產(chǎn)生這一變化的主要原因在于,隨時(shí)間變化河口右側(cè)逐漸出現(xiàn)明顯的沙壩堆積??紤]到馬格達(dá)萊納河附近的海洋動(dòng)力,包括風(fēng)、海流等均呈現(xiàn)自東-東北向西-西南方向的趨勢,當(dāng)高含沙量的淡水水體自河口排出后,會(huì)在河口右側(cè)迅速混合、減速,并產(chǎn)生沉積,這可能是沙壩產(chǎn)生的原因之一。隨著羽狀流擴(kuò)散角度的不斷減小,河口右側(cè)逐漸脫離羽狀流的影響區(qū)域,沙壩的沉積速率可能會(huì)顯著降低。
根據(jù)模型結(jié)果可以對(duì)馬格達(dá)萊納河河口的未來變化趨勢作一定推測。當(dāng)河口進(jìn)一步向左偏向,羽狀流的擴(kuò)散范圍進(jìn)一步降低時(shí),河口東側(cè)的沙壩可能會(huì)逐漸停止沉積,使得河流流量保持相同的方向而沒有明顯的變化。此時(shí),羽狀流的年際變化會(huì)收到明顯的影響。同時(shí),在Wright[2]的研究中,曾對(duì)羽狀流的最小擴(kuò)散角進(jìn)行過計(jì)算,即河口羽狀流的擴(kuò)散角不會(huì)小于24.5°,因此范例河流處的羽狀流擴(kuò)散角度模型應(yīng)以24.5°作為另一個(gè)限制條件。
需要說明的是,模型中所使用的“年”作為變量,主要代表河口的方向變化。但馬格達(dá)萊納河及其附近環(huán)境受厄爾尼諾-南方濤動(dòng)現(xiàn)象(ENSO)影響顯著,因此不排除年際變化中可能包含全球氣候變化的可能性[20]。而模型中顯示的季節(jié)差異除環(huán)境因素本身所具有的季節(jié)性變化效應(yīng)外,可能與海洋中的溫鹽變化等因素相關(guān)。
根據(jù)馬格達(dá)萊納河的結(jié)果可知,羽狀流在真實(shí)河口處的擴(kuò)散角明顯受環(huán)境因素影響。因此,在綜合建立馬格達(dá)萊納河口及海岸附近的沉積物分布模式、討論河流的具體變化趨勢時(shí),可以依照本文所得到的環(huán)境參數(shù),針對(duì)不同環(huán)境因素賦予不同權(quán)重,從而實(shí)現(xiàn)該研究區(qū)域內(nèi)更精確的推斷和模擬。同時(shí),在針對(duì)其他具有明顯羽狀流的大型河流開展研究時(shí),可以有針對(duì)性的根據(jù)河口位置獲取數(shù)據(jù),依照上文中的分析過程和具體步驟進(jìn)行環(huán)境因素權(quán)重分析,并探討其隨時(shí)間和季節(jié)變化呈現(xiàn)的羽狀流特征。
針對(duì)真實(shí)河口下近場羽狀流擴(kuò)散角的影響因素和變化趨勢,本文利用馬格達(dá)萊納河羽狀流及周邊環(huán)境因素?cái)?shù)據(jù)使用數(shù)據(jù)挖掘方法進(jìn)行分析,并根據(jù)兩種線性回歸法和隨機(jī)森林法的具體表現(xiàn)提出了根據(jù)數(shù)據(jù)來源、數(shù)據(jù)量和數(shù)據(jù)特征選擇不同挖掘模型的思路,最終對(duì)馬格達(dá)萊納河羽狀流擴(kuò)散角的動(dòng)力因素進(jìn)行權(quán)重分析,并建立了羽狀流擴(kuò)散角時(shí)間序列模式。主要得到了以下結(jié)論:
(1)數(shù)據(jù)挖掘算法在河口環(huán)境下能夠就復(fù)雜因素開展高效而準(zhǔn)確的分析。在使用時(shí),需要保證變量間不具有多重共線性,數(shù)據(jù)無異常值,并對(duì)數(shù)據(jù)進(jìn)行中心化和歸一化的預(yù)處理。最終得到的結(jié)果能夠?yàn)檫M(jìn)一步探究河口羽狀流控制因素、建立羽狀流擴(kuò)散模型提供參考。
(2)作為數(shù)據(jù)挖掘技術(shù)的不同分支,線性回歸法和隨機(jī)森林法在數(shù)據(jù)分析上各具優(yōu)勢,需要根據(jù)數(shù)據(jù)集的特點(diǎn)進(jìn)行選擇。線性回歸模型更適合針對(duì)噪點(diǎn)少的小數(shù)據(jù)集開展應(yīng)用,而以隨機(jī)森林為代表的概率回歸模型更適合針對(duì)較大量數(shù)據(jù)下的復(fù)雜環(huán)境開展分析。針對(duì)類似問題選擇方法時(shí),需要綜合考慮數(shù)據(jù)質(zhì)量和數(shù)據(jù)數(shù)量兩方面的影響。
(3)對(duì)馬格達(dá)萊納河的羽狀流擴(kuò)散角而言,最重要的影響因素為河流指向方向,其次為風(fēng)速,再次為河流流量大小和海流流速,在進(jìn)行針對(duì)該河流的沉積物分析時(shí)需要注意按不同權(quán)重增加環(huán)境因素的影響。同時(shí),羽狀流的變化趨勢表明,隨時(shí)間增長羽狀流的擴(kuò)散角度減小,河口物質(zhì)的影響范圍逐漸減弱,該河流在研究時(shí)間段內(nèi)存在由大范圍的水下三角洲沉積向渠道化的河道沉積變化的趨勢。