俞國燕,左仁意,嚴 俊,羅櫻桐,朱琪珩
(1.南方海洋科學與工程廣東省實驗室,廣東 湛江 524013;2.廣東海洋大學機械與動力工程學院,廣東 湛江 524088)
水產(chǎn)養(yǎng)殖過程中,養(yǎng)殖成本占比最大的是飼料成本[1]。為降低養(yǎng)殖成本,需搭建科學的精準投喂模型,環(huán)境、魚群、飼料營養(yǎng)等均是影響模型性能的重要因素[2-3]。在工船養(yǎng)殖模式下,水溫、pH等環(huán)境因素趨于平穩(wěn),飼料種類在養(yǎng)殖開始時已被確定,但不同生長階段的魚群投喂飼料規(guī)格隨著魚體質(zhì)量變化而有所改變。魚群平均體質(zhì)量是搭建精準投喂模型的關(guān)鍵要素[4],然而養(yǎng)殖過程中的魚群十分活躍,這給魚群體質(zhì)量測量帶來巨大的困擾?,F(xiàn)有學者憑借圖像處理技術(shù)在水下完成了魚的尺寸測量[5],但如何將獲取到的尺寸信息轉(zhuǎn)換為體質(zhì)量信息是亟待解決的關(guān)鍵問題,故魚群體態(tài)特征及其體質(zhì)量關(guān)系研究不可或缺。
魚群體態(tài)特征(體長、體寬)及其與體質(zhì)量的關(guān)系是一種重要的生物差異指標[6-7],也是魚類研究者們進行生長狀態(tài)判斷以及生態(tài)系統(tǒng)建模的重要依據(jù)[8-9],還對魚群生長狀態(tài)及生物量的判斷有較大的幫助[6]。在關(guān)于魚群體態(tài)特征(體長、體寬)與體質(zhì)量關(guān)系研究中,相關(guān)性系數(shù)R2常常被用來驗證模型性能,如Sepa P等[10]研究了在厄瓜多爾海洋水域的4種深海軟骨魚的體長、體質(zhì)量關(guān)系,使用冪指數(shù)模型(Y=aXb)完成體長、體質(zhì)量關(guān)系擬合,相關(guān)性系數(shù)R2達到0.940;Najmudeen T M等[11]為獲取3種遠洋鯊魚體長、體質(zhì)量關(guān)系及其相關(guān)系數(shù),在阿拉伯海東南部采集了525組數(shù)據(jù)完成擬合,相關(guān)性系數(shù)R2達到0.901;陳鋒等[12]完成察隅河及其支流貢日嘎布弧唇裂腹魚體長、體質(zhì)量關(guān)系對比研究,計算相關(guān)系數(shù)后確定其體長、體質(zhì)量關(guān)系符合W=2.72×105SL2.888方程,相關(guān)性系數(shù)R2達到0.972。除使用傳統(tǒng)數(shù)學模型的方法描述魚體長-體質(zhì)量關(guān)系外,新的研究方法也層出不窮,如林雅蓉等[13]利用繪圖求積法完成中華哲水虱體長、體質(zhì)量測定及其關(guān)系擬合等。此外,還有大量學者致力于尋求適用性更強、擬合度更高的新型回歸方法,如張志偉等[14]使用神經(jīng)網(wǎng)絡(luò)模型對數(shù)據(jù)進行回歸,搭建了具有外延性(即預測能力)、擬合性能良好的模型。然而上述擬合方法大多需要大量樣本數(shù)據(jù)支撐,僅采集數(shù)據(jù)就需好幾年的連續(xù)記錄[11]。
隨著中國深遠海養(yǎng)殖事業(yè)的發(fā)展,大量企業(yè)開始著力構(gòu)建新型養(yǎng)殖模式[15],與此同時大量適養(yǎng)于深海的魚類開始出現(xiàn)在公眾視野[16]。高體鰤(Serioladumerili)又名章紅魚,是一種生活在水深20~70 m的海洋魚類,具有較高的食用價值,并且生長速度快、養(yǎng)殖周期短,是一種名貴的經(jīng)濟魚類[17]。中國從1991年開始高體鰤養(yǎng)殖技術(shù)的研究[18],至今對高體鰤的人工養(yǎng)殖技術(shù)研究仍未停止[19-20]。2022年6月,南方海洋科學與工程實驗室為驗證工船養(yǎng)殖高體鰤的可行性,開展了高體鰤養(yǎng)殖實驗。為降低養(yǎng)殖過程的飼料成本,需構(gòu)建一種適用于工船養(yǎng)殖的精準投喂模型,而平均體質(zhì)量是搭建精準投喂模型的關(guān)鍵要素。通過圖像視頻數(shù)據(jù)判斷魚體質(zhì)量,可以大大地降低魚群平均體質(zhì)量獲取難度,然而視頻圖像僅可獲悉魚群體態(tài)特征,因此搭建基于魚群體態(tài)特征的魚體質(zhì)量預測模型十分必要。使用傳統(tǒng)數(shù)學模型或神經(jīng)網(wǎng)絡(luò)模型搭建體態(tài)特征與體質(zhì)量關(guān)系模型時,其對數(shù)據(jù)集體量要求較高[21]。因此,本研究采用有別于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的LSSA-XGBOOST優(yōu)化樹模型完成體質(zhì)量預測,在保留了決策提升樹(XGBOOST)算法處理小樣本數(shù)據(jù)的優(yōu)良性能前提下,優(yōu)化了模型結(jié)構(gòu),使LSSA-XGBOOST模型在僅有少量樣本數(shù)據(jù)的情況下?lián)碛懈叩臄M合精度,為搭建精準投喂模型提供重要的支撐。
2022年6月22日,第一批高體鰤苗放入養(yǎng)殖倉,初始平均體質(zhì)量為90 g。2022年8月25日,養(yǎng)殖周期為64 d,共取314條高體鰤,測量其體長、體寬和體質(zhì)量數(shù)據(jù)。在數(shù)據(jù)采集過程中,分別使用直尺和電子秤進行樣本魚的體長、體寬和體質(zhì)量測量,并使用棉手套擦去魚表面水分,長度精確到1 mm,體質(zhì)量精確到1 g。
實驗地點為廣西北海市銀海區(qū)福成鎮(zhèn)西村至營盤南部海域的廣西精工深水網(wǎng)箱養(yǎng)殖區(qū)。實驗平臺為中國船舶集團廣西公司負責改裝修理的“銀漁養(yǎng)0039”游弋式實驗船(圖1),該船總長48.3 m,型寬9.5 m,型深2.9 m,設(shè)計吃水1.4 m,并配備雙機雙槳。養(yǎng)殖實驗期間,實驗船始終沿養(yǎng)殖區(qū)固定航線游弋,從而保證實驗期間循環(huán)水系統(tǒng)始終能夠從外界獲取優(yōu)質(zhì)海水。
為保證養(yǎng)殖艙內(nèi)水體質(zhì)量,艙內(nèi)四角分別設(shè)有進水口,進水流量由艙底電磁流量閥操控,并配備全套水質(zhì)檢測傳感器。艙底中心位置為出水口,進出水時可將雜質(zhì)、死魚、殘餌等養(yǎng)殖廢料匯集,再利用出水口渦流的帶動排出艙外。
在實驗過程中,往往會產(chǎn)生小部分異常數(shù)據(jù)點,這些異常數(shù)據(jù)點常常會造成整體數(shù)據(jù)集質(zhì)量下降,不利于數(shù)據(jù)可靠性等多種負面影響[22],也對神經(jīng)網(wǎng)絡(luò)模型訓練造成影響,因此參照文獻[23]對異常點數(shù)據(jù)進行預處理。
1.2.1 極端學生化偏差(Extreme studentized deviate,ESD)數(shù)據(jù)降噪方法
在實際水質(zhì)監(jiān)測工作中,通常有多個異常數(shù)據(jù)點,ESD方法將單個異常數(shù)據(jù)檢測 (Grubbs test)方法擴展,使其能進行多個異常值檢測,為了將Grubbs’ test擴展到k個異常值檢測,需要在數(shù)據(jù)集中逐步刪除與均值偏離最大的值(最大值或最小值),同步更新對應(yīng)的t分布臨界值,檢驗原假設(shè)是否成立。算法流程如下:
計算與均值偏離最遠的殘差Rj:
(1)
計算臨界值λj:
(2)
式(2)中:n為數(shù)據(jù)量;j為預去除的第j個量;tp,n-j-1表示t分布臨界值。
1.2.2 傳統(tǒng)數(shù)學模型
1)Gauss曲線
Gauss曲線是一種常用的擬合曲線模型,滿足正態(tài)分布的高斯函數(shù)如下:
(3)
式(3)中:μ為數(shù)學期望;σ2為標準方差。常見應(yīng)用數(shù)學模型擬合魚類體質(zhì)量與體態(tài)特征關(guān)系時,大多選擇體長和體質(zhì)量兩項參數(shù)。
2)Logistic曲線
Logistic曲線是一種典型的S型函數(shù),又名Sigmoid函數(shù),常常被用來描述生物量增長狀態(tài),生物數(shù)量增長本身應(yīng)當符合指數(shù)型增長,受環(huán)境阻力(生存空間、天敵數(shù)量等)的影響,在其增長至一定數(shù)量后,達到極限數(shù)量K值并維持穩(wěn)定。從整體曲線變化來看,前期爆炸增長及后期環(huán)境阻力減緩其增長,使曲線整體呈S型,即增長速率先增大后減小。其數(shù)學方程表示為:
(4)
式(4)中:P0為初始狀態(tài);K為終值;參數(shù)r用于衡量變化速度。
3)冪函數(shù)曲線
冪函數(shù)曲線即指數(shù)函數(shù),屬于初等函數(shù)之一,常用于描述微生物增長狀態(tài),即擁有所有生長所需資源且無環(huán)境阻力下的生物量增長形式。方程結(jié)構(gòu)調(diào)整如下:
(5)
式(5)中:K、t為常數(shù);F(0)為初始狀態(tài)。
目前常用的體長、體質(zhì)量關(guān)系擬合方法為Von Bertalanffy方程[24]:
W=aLb
(6)
式(6)中:W表示體質(zhì)量;L表示體長;a、b均為實數(shù),可使用SPSS軟件計算得出。
1.2.3 LSSA-XGBOOST擬合模型
1)麻雀搜索算法(Sparrow search algorithm,SSA)及其改進
麻雀搜索算法是東華大學的薛建凱[25]于2020年提出的一種新型群智能尋優(yōu)算法,在鳥群覓食過程中,優(yōu)先找尋到食物的個體稱之為發(fā)現(xiàn)者,發(fā)現(xiàn)者會向其他個體即加入者傳遞信息,而加入者與發(fā)現(xiàn)者相互競爭、搶奪資源。麻雀算法按此模式多次群體尋優(yōu),最終選出獲得最高適應(yīng)度個體,即算法得出的最優(yōu)解。
初始化種群個體可表示為:
(7)
式(7)中:d表示待優(yōu)化參數(shù)量;n為種群數(shù)量。
種群適應(yīng)度為F(X),形式為個體適應(yīng)度f(x)組成的N行矩陣:
(8)
發(fā)現(xiàn)者位置隨搜尋范圍變化不斷更新,公式如下:
(9)
式(9)中:p為迭代次數(shù);i、j分別表示個體與種群數(shù)(Xi,j表示第i個種群第j個個體);pmax表示最大迭代次數(shù);α為(0,1]區(qū)間內(nèi)的隨機數(shù);R2表示預警值,范圍取[0,1];ST表示安全值;范圍取[0.5,1.0];Q為隨機數(shù);L為維度1×d的全1矩陣。
加入者通過觀察發(fā)現(xiàn)者位置,并隨之完成位置更新:
(10)
式(10)中:XP是目前發(fā)現(xiàn)者所占據(jù)的最優(yōu)位置;Xworst為全局最差位置;A表示所有值隨機為1或-1的1×d矩陣;A+=AT(AAT)-1;i>n/2時,第i個加入者未獲得食物,需重新選擇覓食位置。
警覺者初始位置在群體中隨機產(chǎn)生,其位置表示為:
(11)
式(11)中:Xbest是當前的全局最優(yōu)解;β為步長控制系數(shù),其特征服從(0,1)間的正態(tài)分布;K是區(qū)間[-1,1]下的隨機數(shù);fi表示當前個體適應(yīng)度;fg表示最佳適應(yīng)度;fw為最差適應(yīng)度;ε為常數(shù)。
(1)混沌優(yōu)化(LSSA)
麻雀算法(SSA)初始種群產(chǎn)生方法為構(gòu)成種群數(shù)量(pop)×目標參數(shù)(dim)的均勻分布的隨機矩陣,這種方法在群體檢索過程中會生成均勻分布在一片區(qū)域內(nèi)的點,如圖2所示。
(2)混沌隨機矩陣優(yōu)化
麻雀算法初始種群優(yōu)化方法有多種方式,實驗所用混沌隨機數(shù)發(fā)生器基于Logistic方程,其表現(xiàn)形式為:
X(n+1)=μX(n)[1-X(n)]
(12)
式(12)中:參數(shù)u≥3.569 946后,X的值不再發(fā)生震蕩,隨后進入混沌狀態(tài)。
混沌SSA基于該原理隨機產(chǎn)生的隨機值分布更加分散,如圖3所示。
作為一種群體尋優(yōu)算法,初始種群分布均勻的程度直接關(guān)系到算法的全局搜索能力[26],對比LSSA初始種群和SSA初始種群在各范圍內(nèi)的分布直方圖(圖4)可知,LSSA初始種群在[0,1]區(qū)間范圍內(nèi)分布的數(shù)量更為平均,這將降低初始化種群時因初始化個體過于集中而漏掉關(guān)鍵信息的幾率,提高了算法全局搜索能力。
2)XGBOOST極端梯度提升樹
XGBOOST算法于2014年由Chen T Q等[27]提出,其算法核心在于將多個低準確率分類器組合成一個高準確率模型,針對問題,將對象進行不斷分類判斷并打分,最終某個對象的分數(shù)是所有XGBOOST樹評分之和。XGBOOST算法在處理分類和回歸問題中均具有十分良好的表現(xiàn)。
對于XGBOOST而言,其輸出F是由多個評分樹結(jié)果相加,表示方法如下:
(13)
式(13)中:F={f(x)=wq(x)}(q:Rm→T,?∈RT),F(xiàn)表示單個回歸樹空間(CART),其中q表示樹結(jié)構(gòu),將訓練集中的單組數(shù)據(jù)映射到樹結(jié)構(gòu)中。T表示葉結(jié)點數(shù)量,每個回歸樹空間包含樹結(jié)構(gòu)以及其權(quán)重w。除此之外,每個樹節(jié)點中都包含有評分,表示為Wi。樹的結(jié)構(gòu)q根據(jù)實際案例設(shè)定,以常見大小判斷為例:
由圖5可知,若目標是搜尋處于[0,1]的數(shù),樹模型設(shè)置了兩層結(jié)構(gòu),在數(shù)據(jù)輸入后對其進行打分,觀察圖5(左),當輸入1.6時,第一次判斷根據(jù)其大于1.5直接評分為-1.0,而輸入0.5和1.1時,則分別獲得1.0和0.1的評分。若運算過程涉及多個樹結(jié)構(gòu),以圖5為例,0.5、1.1和1.6三個數(shù)的最終結(jié)果由左、右兩側(cè)樹各末端評分分別加權(quán)求得,若兩側(cè)權(quán)重相等,則3個數(shù)最終評分結(jié)果為2.0、0.2和-1.9,可以得出0.5在區(qū)間[0,1]內(nèi),1.1在區(qū)間邊緣,而1.6在搜索區(qū)間之外。為了模擬這個運算過程,需用到下述公式:
(14)
在實際運算中,很多關(guān)系無法通過簡單累加公式擬合得出,為提高提升樹的漸進能力,方程增加了二次項函數(shù),簡化后的正則公式為:
(15)
樹結(jié)構(gòu)搭建完成后,需對其結(jié)構(gòu)質(zhì)量進行評估,公式為:
(16)
式(16)中:q為待評估的結(jié)構(gòu);hi、gi及Ij分別表示損失函數(shù)二階、一階統(tǒng)計量、葉節(jié)點實例集。
模型在正常運算時,由于葉節(jié)點繁多、結(jié)構(gòu)的評估驗證是一層一層循序推進的,單層若有左右兩個節(jié)點(表示為IL和IR),那么該層的損失函數(shù)計算將以下列公式表示:
(17)
式(17)中:I表示左右兩個實例集IL、IR的并集。
3)LSSA優(yōu)化XGBOOST模型
使用決策提升樹(XGBOOST)模型進行高體鰤體態(tài)和體質(zhì)量的預測是一個不斷調(diào)整樹模型各節(jié)點權(quán)值的過程,旨在使樹模型函數(shù)持續(xù)逼近體態(tài)和體質(zhì)量之間的關(guān)系。類似于常規(guī)的有監(jiān)督學習,XGBOOST模型的預測過程需要根據(jù)訓練集(體長和體寬數(shù)據(jù))預測目標變量(體質(zhì)量數(shù)據(jù))。由于模型無法一次性預測成功,因此每次預測結(jié)束后,XGBOOST模型會新增一棵決策樹,根據(jù)誤差函數(shù)對前一棵樹的預測結(jié)果進行調(diào)整和糾正,直至最終預測結(jié)果達到精度要求。傳統(tǒng)XGBOOST模型最佳樹深度、最佳學習率以及最佳迭代次數(shù)等3項超參數(shù)由用戶隨機定義,導致模型效果無法保證。為提高XGBOOST擬合精度,使用混沌SSA算法對其3個主要參數(shù)進行尋優(yōu),獲取最佳樹深度、最佳學習率以及最佳迭代次數(shù)(圖6)。
ESD數(shù)據(jù)降噪結(jié)果如圖7、圖8所示。采用ESD方法識別出5項異常數(shù)據(jù),剔除了4個異常數(shù)據(jù)點(圖中紅色數(shù)據(jù)點),有效提高了模型訓練精度。
注:紅色點為剔除數(shù)據(jù)。圖8同此。Notes:The red dot represented excluded data.The same as in figure 8.
將獲取到的314組數(shù)據(jù)分別繪制體長-體質(zhì)量、體寬-體質(zhì)量散點圖,從散點圖(圖7、圖8)可以看出體長-體質(zhì)量、體寬-體質(zhì)量基本呈現(xiàn)正相關(guān)關(guān)系。樣本魚平均體長為219 mm(標準差σ=2.0 mm),最大體長為265 mm,最小體長為155 mm;平均體寬為62 mm(σ=0.7 mm),最大體寬為80 mm,最小體寬40 mm;平均體質(zhì)量為199 g(σ=59.0 g),最大體質(zhì)量為370 g,最小體質(zhì)量僅60 g。養(yǎng)殖2個月的單條高體鰤平均增重約109 g。
2.2.1 常規(guī)數(shù)學模型擬合結(jié)果
1)Gauss曲線
使用Gauss曲線擬合高體鰤體長-體質(zhì)量關(guān)系,擬合效果見圖9,整體數(shù)據(jù)集呈正相關(guān)趨勢,數(shù)據(jù)點均勻分布在曲線兩側(cè),曲線終點尚未達到峰值,未呈現(xiàn)完整的山峰形Gauss曲線。
2)Logistic曲線
使用Logistic曲線進行高體鰤的體長、體質(zhì)量關(guān)系擬合,擬合效果見圖10,整體增長較為平穩(wěn),增長速率變化不大,未呈現(xiàn)較為明顯的S型曲線。
3)冪函數(shù)曲線
利用冪函數(shù),選擇體長和體質(zhì)量兩項因素完成高體鰤體態(tài)特征與體質(zhì)量關(guān)系的擬合,擬合曲線見圖11。
4)Von Bertalanffy方程
Von Bertalanffy方程擬合效果如圖12所示。體長、體質(zhì)量的關(guān)系式為W=0.028L2.896 2,R2=0.771 0。
2.2.2 LSSA-XGBOOST模型擬合結(jié)果
開始實驗后,將XGBOOST的3項參數(shù)作為待優(yōu)化量輸入SSA模型,SSA模型參數(shù)設(shè)置如下:
fun=@getObjValue;%目標函數(shù)
dim=3;%優(yōu)化參數(shù)個數(shù)
lb=[0.001,0.001,0.01];
% 優(yōu)化參數(shù)目標下限(最大迭代次數(shù),深度,學習率)
ub=[100,20,1];
% 優(yōu)化參數(shù)目標上限(最大迭代次數(shù),深度,學習率)
pop=60;%麻雀數(shù)量
Max_iteration=10;%最大迭代次數(shù)
params.objective=′reg:linear′;
% 回歸函數(shù)
種群初始化參數(shù)設(shè)置如下:
Pop=60;%種群規(guī)模
Dim=3;%優(yōu)化參數(shù)個數(shù)
Seed=0.5;%起始位置
U=3.8;
%u混沌序列參數(shù),u取[3.569 9,4]
SSA群體適應(yīng)度隨迭代次數(shù)變化曲線如圖13所示,從第三代開始,群體適應(yīng)不再下降,即種群已達到最佳適應(yīng)度。
此次實驗以體長、體寬兩項參數(shù)為輸入值預測體質(zhì)量,這是由于在實驗過程中發(fā)現(xiàn)使用體長或體寬單一參數(shù)輸入預測體質(zhì)量時,LSSA-XGBOOST模型擬合度分別為0.795 56和0.824 06,僅略高于部分數(shù)學模型,而使用雙參數(shù)輸入時擬合度有較大提升,擬合度R2達到0.944 16。預測值與真實值的擬合效果對比見圖14,在100個樣本點的擬合跟蹤中表現(xiàn)良好,僅丟失少量目標點。
注:RMSE為均方根誤差;MSE為均方誤差;RPD為相對百分比差異。Notes:RMSE is root mean square error;MSE is mean square error;RPD is the relative percentage difference.
由上述數(shù)學模型擬合效果可知,針對此次高體鰤養(yǎng)殖實驗測量數(shù)據(jù)的常規(guī)數(shù)學模型擬合并非最優(yōu)方法。神經(jīng)網(wǎng)絡(luò)模型屬于自適應(yīng)非線性模型,大量數(shù)據(jù)表明,人工神經(jīng)網(wǎng)絡(luò)在處理常見回歸擬合問題時有優(yōu)異表現(xiàn)[28],除傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)外,多種優(yōu)化BP模型如遺傳算法優(yōu)化BP(GA-BP)、粒子群優(yōu)化BP(PSO-BP)等都具有處理回歸擬合問題的能力,這些優(yōu)化算法大多在BP神經(jīng)網(wǎng)絡(luò)初始化時采用尋優(yōu)算法獲取最佳的權(quán)值、閾值等初始參數(shù),從而有效提高BP神經(jīng)網(wǎng)絡(luò)擬合精度。PSO-BP是較為常見的群體尋優(yōu)算法,在解決回歸預測問題時常常優(yōu)于GA-BP和傳統(tǒng)BP[29]。本文選用傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)以及PSO-BP神經(jīng)網(wǎng)絡(luò)與LSSA-XGBOOST算法對比,結(jié)果如圖15所示,傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)擬合度R2為0.877 5,粒子群優(yōu)化BP為0.910 5,而本文所用LSSA-XGBOOST模型相關(guān)性系數(shù)R2為0.947 9。以圖15中第11個點擬合效果為例,BP和PSO-BP神經(jīng)網(wǎng)絡(luò)的擬合誤差已經(jīng)接近其最佳誤差,而LSSA-XGBOOST每棵樹模型的預測都使用shrinkage,削弱其對結(jié)果的影響,從而提升整體模型的泛化能力,為后續(xù)訓練留出更多的學習空間,有效地防止過擬合。此外,常見神經(jīng)網(wǎng)絡(luò)算法需要大量數(shù)據(jù)以支撐其算法模型的深度和訓練量,從而提高預測精度,而XGBOOST則不需要太過龐大的數(shù)據(jù)集,這是由于決策提升樹模型在訓練過程中遵循確定性原則,而確定性原則使其更容易記住簡單的數(shù)據(jù)變化規(guī)律,一旦規(guī)律過于復雜,其學習效果便會弱于神經(jīng)網(wǎng)絡(luò)模型。
為使算法擬合效果對比更加直觀,整理上述7種模型擬合度及模型輸入、輸出值,結(jié)果如表1所示。常規(guī)數(shù)學模型僅探討單一參數(shù)輸入與輸出關(guān)系,故分別以體長、體寬為輸入,擬合體質(zhì)量關(guān)系;神經(jīng)網(wǎng)絡(luò)和改進樹模型則以體長、體寬兩項參數(shù)輸入擬合體質(zhì)量。實驗對比各模型相關(guān)性系數(shù)R2,結(jié)果發(fā)現(xiàn)雙參數(shù)輸入的神經(jīng)網(wǎng)絡(luò)模型比單一輸入數(shù)學模型的R2值更高,其中優(yōu)化樹模型LSSA-XGBOOST相關(guān)性系數(shù)最高,達到0.947 9,與BP神經(jīng)網(wǎng)絡(luò)和PSO-BP相比,其平均絕對誤差(Mean absolute error,MAE)、均方誤差(MSE)和均方根誤差(RMSE)都有所降低,具體誤差對比結(jié)果見表2。
表1 7種擬合模型擬合度R2對比Tab.1 Comparison of fitting degree R2 of 7 fitting models
表2 LSSA-XGBOOST模型與神經(jīng)網(wǎng)絡(luò)算法各項誤差對比Tab.2 Comparison of errors between LSSA- XGBOOST model and neural network algorithm
1)本文提出的LSSA-XGBOOST模型以決策提升樹模型(XGBOOST)為基礎(chǔ)進行改進,最終使得LSSA-XGBOOST模型在小樣本數(shù)據(jù)集下有優(yōu)于其他傳統(tǒng)及改進神經(jīng)網(wǎng)絡(luò)的表現(xiàn)。
2)與常規(guī)數(shù)學模型擬合相比,LSSA-XGBOOST模型擬合度相關(guān)性系數(shù)R2(0.947 9)提高了約10%;與傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)和PSO-BP相比,LSSA-XGBOOST模型相關(guān)性系數(shù)R2提升約3%,且MAE、MSE和RMSE三項誤差都有明顯降低。在處理小樣本數(shù)據(jù)集的回歸擬合工作時,LSSA-XGBOOST模型優(yōu)于傳統(tǒng)數(shù)學模型和常規(guī)神經(jīng)網(wǎng)絡(luò)模型,能為工船養(yǎng)殖高體鰤精準投喂提供理論依據(jù),后續(xù)建議在養(yǎng)殖過程中擴充樣本數(shù)據(jù)集,并提高混沌隨機數(shù)發(fā)生器性能,將有效提高高體鰤體質(zhì)量的預測精度,為飼料投喂、成魚出倉時機判斷及市場預估提供參考。