国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LightGBM的南太平洋長鰭金槍魚漁場預報模型研究

2021-09-22 07:12王德興袁紅春陳冠奇吳若有
水產(chǎn)科學 2021年5期
關鍵詞:漁場金槍魚因子

宮 鵬,王德興,袁紅春,陳冠奇,吳若有

( 上海海洋大學 信息學院,上海 201306 )

長鰭金槍魚(Thunnusalalunga)是一種溫帶大洋性魚類,主要分布于太平洋、大西洋和印度洋。在太平洋遠洋漁業(yè)中,金槍魚因其高經(jīng)濟效益及豐富的資源量位居捕撈量首位,其中長鰭金槍魚占每年漁獲量的1/3,并且近年來產(chǎn)量還在日益增加。目前,長鰭金槍魚已經(jīng)成為我國在南太平洋延繩釣漁業(yè)中的主要目標魚種之一[1]。因此,提高長鰭金槍魚漁場預報的準確率成為漁業(yè)研究的熱點。

根據(jù)長鰭金槍魚的生活習性,目前對其漁場的預報主要是結合海洋環(huán)境因子來進行。楊嘉樑等[2]采用分位數(shù)回歸方法分析各水層以及整個水體各個環(huán)境因子與長鰭金槍魚漁獲率的關系,得到了長鰭金槍魚棲息地綜合指數(shù)(IHI)分布較高的海域。魏聯(lián)等[3]采用BP神經(jīng)網(wǎng)絡方法對西北太平洋柔魚(Ommastrephesbartramii)漁場進行預報,以海洋環(huán)境因子作為輸入因子,得到了擬合殘差最小的最優(yōu)預報模型。陳雪忠等[4]采用一種隨機森林模型,以海洋環(huán)境因子作為預測變量進行長鰭金槍魚的漁場預報,在高單位捕撈努力量漁獲量漁區(qū)達到了最佳精度,但是隨機森林得出的預測結果無法解釋其具體原因,還需使用其他方法配合來分析漁場分布的具體情況。范永超等[5]使用一元非線性回歸方法對南太平洋長鰭金槍魚中心漁場進行預測,預報準確率接近70%。

海洋環(huán)境因子是進行漁場預報的重要指標,但是日益增加的漁業(yè)數(shù)據(jù)規(guī)模,使得大量的環(huán)境信息更為復雜多變,變量間的關系難以描述[6]。輕度量化梯度促進機(LightGBM)模型[7]針對這種復雜的數(shù)據(jù),提出了兩種解決方法:梯度單邊采樣(GOSS)和獨立特征合并(EFB),大大降低了處理樣本數(shù)據(jù)的時間復雜度。針對可能影響漁場預報準確率的海洋環(huán)境因子和現(xiàn)有的觀察數(shù)據(jù),筆者選取了3個環(huán)境因子:海表溫度(SST)、葉綠素a質量濃度(Chl-a)和海面高度(SSH)及3個時空因子:月份、經(jīng)度和緯度,旨在利用LightGBM模型建立南太平洋長鰭金槍魚漁場預報模型。

1 材料與方法

1.1 數(shù)據(jù)來源與處理

本研究海域為南太平洋,經(jīng)、緯度范圍為W 135°~E 110°,S 5°~S 40°,漁業(yè)數(shù)據(jù)為中西太平洋漁業(yè)委員會(WCPFC)(http:∥www.wcpfc.int)提供的2000—2015年的南太平洋延繩釣數(shù)據(jù)。數(shù)據(jù)包括年份、月份、經(jīng)度、緯度和捕獲量,其中時間分辨率為月,空間分辨率為5°×5°。海表溫度和葉綠素a質量濃度數(shù)據(jù)來源于美國國家海洋和大氣管理局(NOAA)環(huán)境數(shù)據(jù)庫(http:∥www.noaa.gov)。海面高度數(shù)據(jù)來源于哥白尼海洋環(huán)境監(jiān)測服務中心(CMEMS)(http:∥marine.copernicus.eu),該數(shù)據(jù)集中包含的數(shù)據(jù)空間分辨率為1°×1°,對其進行網(wǎng)格化處理,變成與漁業(yè)數(shù)據(jù)統(tǒng)一的5°×5°空間分辨率,便于后續(xù)計算單位捕撈努力量漁獲量。

單位捕撈努力量漁獲量(CPUE)作為漁業(yè)資源評估中的重要指標[8],在一個漁區(qū)(5°×5°)內(nèi)的計算公式如下:

(1)

式中,i為經(jīng)度,j為緯度,CPUE(i,j)表示(i,j)漁區(qū)內(nèi)每1000鉤的漁獲尾數(shù),F(xiàn)fish(i,j)表示(i,j)漁區(qū)內(nèi)長鰭金槍魚總漁獲尾數(shù),F(xiàn)hook(i,j)表示(i,j)漁區(qū)內(nèi)投放的的延繩釣釣鉤總數(shù)。

三分位數(shù)是統(tǒng)計學研究中最常用的方法之一[9],筆者也采用三分位數(shù)對漁區(qū)進行劃分[4]。由于金槍魚的生存習性導致在不同月份的單位捕撈努力量漁獲量出現(xiàn)顯著的差異,因此以整年的單位捕撈努力量漁獲量進行漁區(qū)劃分并不合適,而是以月為單位,以33.3%和66.7%分位點為界將每月單位捕撈努力量漁獲量劃分為高、中、低三類。

1.2 預測變量的選擇

已有的研究結果顯示,海表溫度對長鰭金槍魚漁場分布的影響極為重要。樊偉等[10]對單位捕撈努力量漁獲量分布和海表溫度等數(shù)據(jù)進行分析,結果表明,高單位捕撈努力量漁獲量漁區(qū)主要分布在海表溫度為16~22 ℃以及25~30 ℃之間的區(qū)域。閆敏等[11]通過對南太平洋長鰭金槍魚漁場附近的葉綠素a質量濃度進行分析,結果表明,漁場最適葉綠素a質量濃度為0.02~0.08 mg/m3。范江濤[12]總結了各個月份單位捕撈努力量漁獲量與海面高度的關系。由于長鰭金槍魚的生活習性,漁場單位捕撈努力量漁獲量呈現(xiàn)明顯的季節(jié)性變化。綜合考慮上述因素,本研究選取了3個環(huán)境因子:海表溫度、葉綠素a質量濃度和海面高度及3個時空因子:月份、經(jīng)度和緯度作為預測變量。

1.3 LightGBM漁場預報模型的建立

LightGBM屬于自適應提升(Boosting)模型[13]的一種,是對梯度下降樹(GBDT)的高效實現(xiàn)。隨著科學技術的發(fā)展,漁業(yè)數(shù)據(jù)和海洋環(huán)境數(shù)據(jù)規(guī)模變得更加巨大,傳統(tǒng)的自適應提升模型(如XGBoost[14], pGBRT[15]等)在效率上已經(jīng)逐漸不能滿足需求,導致這種情況的最主要原因是傳統(tǒng)算法的實現(xiàn)需要遍歷所有的樣本數(shù)據(jù),這個操作使得時間成本變得非常高。LightGBM針對數(shù)據(jù)的復雜性問題提出了兩種算法:梯度單邊采樣算法和獨立特征合并算法。

1.3.1 梯度單邊采樣算法

傳統(tǒng)的自適應提升算法使用所有的樣本點來計算梯度,但是根據(jù)文獻[7],梯度大的樣本點在信息增益的計算中往往起著最主要的作用,也就是說這類樣本點會貢獻更多的信息增益,因此為保證信息增益評估的精度,梯度單邊采樣算法在進行下采樣時保留梯度大的樣本點,對于小梯度樣本點進行隨機采樣。梯度單邊采樣算法步驟如下:

(1)降序排列所有的樣本點;

(2)按比例選取靠前的樣本生成一個大梯度樣本點集合;

(3)對第(2)步后剩下的樣本按比例進行隨機采樣,生成一個小梯度樣本點集合;

(4)將兩個集合合并成一個樣本集合;

(5)為小梯度樣本引入一個常量乘數(shù);

(6)使用上述得到的樣本,學習一個新的弱學習器;

(7)重復(1)~(6)步驟直到達到規(guī)定的迭代次數(shù)或者收斂為止。

這樣梯度單邊采樣算法在不改變數(shù)據(jù)分布的情況下大大提高了模型的學習速率。

1.3.2 獨立特征合并算法

在漁場預報中,漁業(yè)數(shù)據(jù)和海洋環(huán)境數(shù)據(jù)往往有著特征量多且特征空間稀疏的特點,尤其是在稀疏的特征空間中,存在著大量互斥的特征(例如one-hot),LightGBM使用直方圖(Histogram)算法對互斥特征進行合并,其基本思想是先將連續(xù)的特征值離散化成M個整數(shù),并構建一個寬度為M的直方圖(圖1),根據(jù)直方圖的離散值遍歷數(shù)據(jù),尋找決策樹最優(yōu)的分割點。相較于XGBoost模型的排序算法,直方圖算法極大降低了時間復雜度,并且由于決策樹屬于弱模型,這種模糊的分割方法往往能達到更好的效果。

圖1 直方圖算法Fig.1 Histogram algorithm

1.4 模型精度檢驗

漁場預報精度是由模型的預報結果和真實的漁場情況對比得到的,根據(jù)文獻[16],假設南太平洋長鰭金槍魚漁場的實際漁區(qū)集合為C1,非漁區(qū)集合為C2,漁場預報模型預測得到的漁區(qū)集合為C1′,非漁區(qū)集合為C2′,則漁場預報精準率(Rp)如下:

(2)

同時使用召回率(Rr)和F1_Score作為模型評估的參考標準,具體計算如下:

(3)

(4)

1.5 試驗設計

1.5.1 試驗環(huán)境

本試驗電腦的顯卡為NVIDIA GTX 1060,CPU型號為Intel Core i7-7700HQ,操作系統(tǒng)為Windows 10,同時搭建了基于Python 3.6的scikit-learn機器學習庫。

1.5.2 試驗過程

試驗過程見圖2,試驗數(shù)據(jù)為2000—2015年南太平洋環(huán)境數(shù)據(jù)和長鰭金槍魚的延繩釣數(shù)據(jù),其中2000—2014年的9860條數(shù)據(jù)按照數(shù)量比4∶1劃分為訓練集和驗證集,2015年的數(shù)據(jù)作為測試集。

圖2 試驗過程Fig.2 The experimental procedure

對數(shù)據(jù)集進行預處理,將每月單位捕撈努力量漁獲量按照三分位點劃分為0、1、2三類,分別對應高、中、低產(chǎn)區(qū),將處理好的數(shù)據(jù)輸入到LightGBM模型。為加快模型的收斂速度,先設置一個較大的學習率Plearning=0.1,初始迭代次數(shù)ne=100,由于LightGBM模型使用的是帶深度限制的Leaf-wise葉子生長策略,為了防止過擬合,葉子節(jié)點數(shù)nleaves應當小于2d,其中d為樹的深度,同時使用早停策略中斷迭代,設置early_stopping_rounds=5。在對參數(shù)進行初始設定后,調(diào)用sklearn中的GridSearchCV。

函數(shù)對參數(shù)組合進行網(wǎng)格搜索,并使用交叉驗證的方式來減少偶然性。在運行多個參數(shù)組合后,得到了最優(yōu)參數(shù),部分參數(shù)組合見表1。

表1 參數(shù)列表Tab.1 The parameter list

在不同參數(shù)組合下,LightGBM模型均取得較好的結果,其中第3組為網(wǎng)格搜索后所得到的最優(yōu)組合。為驗證模型的有效性,筆者使用樸素貝葉斯、XGBoost算法和BP神經(jīng)網(wǎng)絡在相同的數(shù)據(jù)集和試驗環(huán)境下做了同樣的試驗,并與LightGBM模型作對比。

2 結果與分析

2.1 不同模型的預測結果與分析

LightGBM模型在精準率、召回率和F1_Score上相較于其他模型均取得了較好的效果(表2),而且因為使用了直方圖算法,時間復雜度僅為O(#M),其中M為特征值離散后的整數(shù)數(shù)量,相較于XGBoost的時間復雜度O(#data),獲得了極大的提升,XGBoost在分裂特征時,通過遍歷所有分割點來獲得最優(yōu)分割點,雖然能夠很精確地找到最優(yōu)分割點,但是在空間和時間的花銷上產(chǎn)生了極大的損耗。

表2 不同模型試驗結果對比Tab.2 The comparison of results in different model tests

樸素貝葉斯模型以數(shù)學理論為基礎,通過先驗概率,計算出某一對象所屬的類別,即后驗概率,計算過程中不考慮海洋環(huán)境因子和時空因子之間的相關性,雖然減少了計算開銷,但是由于每個輸入

因子都是獨立的,因此無法獲得輸入因子的重要性指標。LightGBM模型通過調(diào)用sklearn中的feature_importances_方法對決策樹分裂過程中每個節(jié)點的分裂增益進行統(tǒng)計,得到每個特征的重要性指標,能夠對漁場的形成原理做出準確的解釋,為捕撈業(yè)提供理論基礎。BP神經(jīng)網(wǎng)絡作為一種“黑盒模型”[17],雖然實現(xiàn)簡單,但是其權重具有無法解釋性,無法分析環(huán)境因子和時空因子對漁場形成的貢獻關系。

2.2 輸入因子重要性分析

借助sklearn中的feature_importances_方法,得到了海洋環(huán)境因子和時空因子等輸入因子對南太平洋長鰭金槍魚漁場預報的重要性(圖3)。由圖3可見,海面高度是影響長鰭金槍魚漁場分布的主要因素,其次依次為葉綠素a質量濃度、經(jīng)度、海面溫度、月份和緯度,根據(jù)文獻[18],海面高度與海流密切相關,是一種反映流場的特征指標,因此海面高度是影響漁場分布的重要環(huán)境因子。目前許多研究表明,海面溫度對于金槍魚這種大洋性魚類的影響至關重要[19-20],在XGBoost模型中以同樣的輸入因子計算特征重要性(圖4),海面溫度處于首位,其變化通常與海流邊界和鋒面相關,海面溫度通過影響長鰭金槍魚的生長、覓食以及洄游對漁場分布和變動有著直接的聯(lián)系。在實際研究中,海面高度和海面溫度息息相關,兩者共同作用下充分指示了南太平洋長鰭金槍魚漁場的分布和變動。

圖3 LightGBM模型輸入因子重要性Fig.3 The input factor importance in LightGBM model

圖4 XGBoost模型輸入因子重要性Fig.4 The input factor importance in XGBoost Model

3 討 論

3.1 單位捕撈努力量漁獲量與環(huán)境因子的關系

本研究結果表明,海面溫度和海面高度是影響漁場分布的重要因子,文獻[10-11,19-20]也得到了相同的研究結果,兩者共同作用下對金槍魚種群分布起到了關鍵性作用,根據(jù)以往研究,南太平洋長

鰭金槍魚漁場最適溫度為16~22 ℃以及25~30 ℃[9,21],最適高度受季節(jié)影響,在不同月份呈現(xiàn)波動,但主要分布在0.8 m左右[11]。除了這兩種關鍵因子外,葉綠素a質量濃度對漁場分布的影響同樣至關重要[22],其原理主要是通過控制浮游生物數(shù)量的變化來影響金槍魚種群數(shù)量和漁場變動[22]。研究表明,單位捕撈努力量漁獲量高產(chǎn)區(qū)多分布在葉綠素a質量濃度0.02~0.08 mg/m3的海域中[11]。從漁場的形成機制來看,漁場分布主要受海流流場的影響,而海面高度和溫度正是一種反映流場的特征指標,間接證明了本研究結果的準確性。

3.2 中產(chǎn)區(qū)不確定性

對于漁場分類,筆者采用按月對單位捕撈努力量漁獲量進行三分位劃分,但是在實際的預測中,由于各種復雜因素的影響(政策、大尺度海洋事件、溶解氧[22]、洄游路線[23]等),處于高—中、中—低漁區(qū)邊界的漁場可能會被誤分類從而導致中產(chǎn)區(qū)預測精準率明顯降低。

3.3 預報模型的可行性

本研究基于LightGBM模型提出了一種南太平洋長鰭金槍魚漁場預報方法,并利用2000—2014年漁業(yè)數(shù)據(jù)和時空數(shù)據(jù)訓練得到的模型對2015年的長鰭金槍魚漁場分布進行預測。預測結果見圖5,預測的漁場位置與真實漁場位置存在少量誤差,相較于其他模型,預報結果準確率與可信度較高。但是由于筆者所選取的環(huán)境因子多為海洋表層因子,無法從垂直空間上對金槍魚漁場分布進行描述[24],在后續(xù)的工作中,需要獲得更多的時空因子和環(huán)境因子來補充漁場環(huán)境信息,進一步提高漁場預報準確率。另外,利用LightGBM模型,可以得到不同輸入因子的重要性指標,在以后的工作中可以依據(jù)重要性指標,對環(huán)境因子進行預處理以提高漁場預報精度。

圖5 漁場預測結果Fig.5 Fishing ground forecast results

4 結 論

筆者針對傳統(tǒng)的漁情預報方法無法對環(huán)境因子重要性進行分析的缺陷,提出一種基于LightGBM模型的南太平洋長鰭金槍魚漁場預報方法,并利用2015年的數(shù)據(jù)進行預報測試。測試結果表明,預測的漁場與真實漁場具體位置較為一致,相較于其他模型,預報結果準確率與可信度較高。同時結合XGBoost模型的預測結果,對各個輸入因子間的重要性進行了分析,在隨后的試驗中,可以根據(jù)重要性指標進行參數(shù)的優(yōu)化以及輸入因子的替換等,進一步提高模型的性能和實用性。

猜你喜歡
漁場金槍魚因子
進博會的金槍魚王
可以加速的金槍魚機器人
金槍魚與海豚
埃及超大規(guī)模養(yǎng)魚場
山藥被稱“長壽因子”
基于北斗船位數(shù)據(jù)的漁具分析方法淺析
網(wǎng)
直徑不超過2的無爪圖的2—因子
巧解難題二則
金槍魚
永康市| 通州市| 安乡县| 裕民县| 明星| 佛山市| 栖霞市| 乐亭县| 肃南| 霍林郭勒市| 彰化县| 济宁市| 大埔县| 南川市| 额敏县| 焉耆| 疏勒县| 深泽县| 文山县| 莱西市| 永年县| 荆州市| 永清县| 湘潭市| 中卫市| 双辽市| 临高县| 田阳县| 舒兰市| 理塘县| 桐梓县| 那坡县| 大同县| 青龙| 房产| 东乌珠穆沁旗| 万源市| 拉孜县| 彭泽县| 循化| 永济市|