国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機森林的循環(huán)水養(yǎng)殖氨氮預測模型研究

2021-05-12 04:34巫莉莉黃志宏何斌斌
關鍵詞:決策樹氨氮水體

巫莉莉,黃志宏,何斌斌,曾 鳴

(華南農業(yè)大學 現(xiàn)代教育技術中心,廣州 510642)

水產養(yǎng)殖在人類的生產和生活中扮演著重要的角色,既能提供人體所需的優(yōu)質蛋白,也能為工業(yè)提供重要原料,維持生態(tài)平衡。我國水產養(yǎng)殖歷史悠久,產量連續(xù)多年位居全球首位[1]。工廠化循環(huán)水養(yǎng)殖作為一種高密度、高產量、高投入、高效益的集約化養(yǎng)殖模式[2],具有養(yǎng)殖設施設備先進、養(yǎng)殖環(huán)境可控、養(yǎng)殖生產不受地域空間限制及生態(tài)效益高等特點,已成為現(xiàn)代海水養(yǎng)殖產業(yè)發(fā)展的方向[3]。隨著我國養(yǎng)殖集約化規(guī)模的擴大,養(yǎng)殖水體的污染也日益嚴重。高產、高密度養(yǎng)殖模式加重了養(yǎng)殖水體環(huán)境中有機氮物質分解轉化的負擔,使微生物分解過程受到嚴重阻礙,進而導致水體系統(tǒng)循環(huán)過程受到制約,引起水體富營養(yǎng)化,引發(fā)養(yǎng)殖生物發(fā)病甚至死亡等問題[4]。養(yǎng)殖水體中氨氮的過度積累會直接影響?zhàn)B殖生物生長,阻礙水產養(yǎng)殖的發(fā)展。

養(yǎng)殖水體中的氨氮以游離氨(NH3)和銨離子(NH+4)存在,主要來源于以下3方面:① 養(yǎng)殖對象排泄物、飼料的殘餌、動植物尸體等;② 氧氣含量不足導致的水體反硝化反應;③養(yǎng)殖自身通過鰓和尿液排出體內氨氮避免氨中毒[5-6]。我國《漁業(yè)水質標準(GB 11607—1989)》中規(guī)定,氨氮質量濃度小于0.02 mg/L時,對魚類的生命活動沒有影響。當非離子氨濃度處于0.02~0.2 mg/L時,仍在魚類可忍受的安全范圍內。養(yǎng)殖水體中銨離子(NH+4)的質量濃度不允許超過 5 mg/L[4,7-9]。

水中氨氮的含量作為衡量水體受污染程度的重要評價指標,實現(xiàn)其有效控制是水質控制的關鍵,對養(yǎng)殖水體中的氨氮進行準確測定,將有助于對水體被污染情況和自凈能力進行有效評價[10]。目前,養(yǎng)殖水體氨氮檢測方法主要有高精度實驗室檢測、便攜式測試儀和試紙檢測、傳感器檢測、智能算法預測。實驗室最為常用的是納氏試劑法、水楊酸-次氯酸鹽法及靛酚藍等分光光度法,納氏試劑法是測定氨氮的國家標準方法之一,但存在對顯色劑的配制要求高、測試范圍有限、成本高、操作相對復雜等問題[11-13],且封閉式循環(huán)水養(yǎng)殖系統(tǒng)中的水質參數(shù)是動態(tài)變化的,需要持續(xù)計算這些參數(shù)對水產生物生長的影響,采用傳統(tǒng)的測量方法難以實現(xiàn)對養(yǎng)殖水體水質的實時預測[14]。便攜式測試儀和試紙在檢測低濃度水體時容易產生較大誤差,且受人工操作不當?shù)挠绊懸矔a生誤差[15-16]。使用傳感器檢測,雖能解決實時性問題,但同樣存在精度和使用壽命問題[17]。近些年,也有學者逐步將智能算法應用到水體氨氮的預測中,其中喬俊飛等[19,33]利用神經(jīng)網(wǎng)絡算法進行水體氨氮預測,但該方法對樣本數(shù)量有很大的依賴性,且運算速度慢、成本高;居錦武等[8,34]利用最小二乘支持向量機算法進行水體氨氮預測,但該方法在進行參數(shù)選擇時,主要依靠人的經(jīng)驗,對預測精度影響較大,且運算速度慢;崔雪梅等[22,35]則使用組合智能算法克服單一算法的缺陷,但該方法仍存在編程復雜、耗時長等問題。此外,以上學者使用智能算法多是應用在江河湖泊或是工業(yè)、農業(yè)、生活污水的氨氮含量預測中,水產養(yǎng)殖水體中氨氮含量預測比較少,用于海水工廠化循環(huán)水養(yǎng)殖環(huán)境中氨氮的預測就更少了[18-21]。

對養(yǎng)殖環(huán)境中水質參數(shù)進行及時、準確地預測已成為水產品集約化、精準化養(yǎng)殖的一項重要的基礎性工作,其對預防水質惡化及水產品疾病暴發(fā)具有十分重要的意義和價值[22]。本研究根據(jù)地下深井海水工廠化循環(huán)水養(yǎng)殖中室內大氣壓強、溫度、濕度,水體溫度、鹽度、pH值變化不大,氨氮含量受以上因素影響較小的特點[23-24],通過分析和建立氨氮含量與養(yǎng)殖對象數(shù)量、均重、飼料投喂量之間的非線性關系,基于小樣本,采用隨機森林回歸的機器學習方法對氨氮含量進行預測,為實現(xiàn)養(yǎng)殖水體氨氮含量的精準預測和精細化養(yǎng)殖建立基礎,并對改善水質、提高成活率和生長率、保護環(huán)境等具有重要意義。

1 材料和方法

1.1 實驗數(shù)據(jù)

實驗數(shù)據(jù)來自于山東東方海洋地下海水養(yǎng)殖場東7車間D組養(yǎng)殖池,養(yǎng)殖池水來自地下100 m以下深井海水,水溫常年保持在12~16℃,pH值保持在7.2~7.5,鹽度保持在28~31,溶氧含量控制在8~12 mg/L。養(yǎng)殖模式為工廠化循環(huán)水養(yǎng)殖,養(yǎng)殖品種為大西洋鮭(salmo salar),隸屬于鮭科(salmonoidea)鮭屬(salmon),入池質量均約0.1 kg,養(yǎng)成商品魚規(guī)格約6.0 kg,養(yǎng)殖周期為18個月,采用鮭鱒魚專用飼料養(yǎng)殖,每日投餌4次(每6 h投喂1次)。每隔7 d人工采集后通過納氏試劑分光光度法測量養(yǎng)殖水體中的氨氮含量。本研究選取2017年1月至2018年12月間32組大西洋鮭平均質量、尾數(shù)、飼料投喂量的養(yǎng)殖數(shù)據(jù)和養(yǎng)殖水體中氨氮含量作為實驗數(shù)據(jù)。

1.2 氨氮含量預測模型

本研究基于小樣本數(shù)據(jù)進行,主要選用隨機森林回歸的機器學習方法對養(yǎng)殖水體中氨氮含量進行分析和預測。隨機森林回歸作為一種監(jiān)督學習的算法,是以決策樹為基學習器的集成學習算法。通過集成學習可解決單個模型或某一組參數(shù)的模型所固有的缺陷,利用多個模型的組合,取長補短,避免局限性。將其應用到養(yǎng)殖水體氨氮含量的預測中,會帶來兩方面的好處:一是由于養(yǎng)殖水體氨氮含量學習任務的假設空間很大,可能會發(fā)生多個假設在訓練集上達到同樣性能的情況,通過多個基學習器的結合使用,可減少誤判,并減少由此而導致的算法泛化性能不佳的風險;二是由于有些養(yǎng)殖水體氨氮含量學習任務的真實假設可能不在當前學習算法考慮的假設空間中,通過多個基學習器的結合使用可避免無效性,可增加相應的假設空間。

使用隨機森林回歸算法[25]構建養(yǎng)殖水體中的氨氮含量預測模型,共經(jīng)歷3個步驟:

步驟1使用隨機抽樣的方式產生多個訓練集。

步驟2以回歸決策樹作為學習器,依據(jù)最小方差作為分裂規(guī)則,對數(shù)據(jù)集進行分裂操作,不斷生成二叉樹結構的“是”和“否”的判斷,將特征空間劃分成若干單元,每個劃分單元都有一個特定的輸出,并通過對多個訓練集分別進行分裂操作訓練出多個回歸決策樹基模型,生成許多棵沒有關聯(lián)的樹。

步驟3將許多棵回歸決策樹整合成森林,將所有回歸決策樹的結果綜合起來,結合平均法策略得到預測最終結果。具體流程如圖1所示。

圖1 氨氮含量預測模型構建流程框圖

1.2.1 生成訓練集

本研究利用有放回的Bootstrap方法能夠很好地應用于抽樣比例較小的分層抽樣調查的特點[26],從原始訓練集中使用該方法隨機有放回采樣取出20組樣本,共進行50次采樣,生成50個訓練集。

1.2.2 生成回歸決策樹

回歸決策樹[25]對輸入空間的劃分采用一種啟發(fā)式的方法,通過遍歷所有輸入變量,對比不同的劃分誤差,找到最優(yōu)的切分變量j和最優(yōu)的切分點s,即選擇第j個特征xj和它的取值s將輸入空間劃分為2部分,然后重復這個操作,直至滿足停止條件。一個輸入空間的劃分的誤差是用真實值和劃分區(qū)域的預測值的最小二乘來衡量,具體計算公式如下:

式中,f(xi)是每個劃分單元的預測值,這個預測值是該單元內每一個樣本點的均值,具體計算公式如下:

故每個分支的求解可以表達為

式中,R1(j,s)和 R2(j,s)是被劃分的 2個區(qū)間。

因此,回歸決策樹的算法流程可以總結為:

1)選擇最優(yōu)的切分變量和對應最優(yōu)的切分點,求解式(3),遍歷所有特征變量j,對固定的切分變量采用啟發(fā)式掃描切分點s,找出使上式達到最小值的對(j,s)。

2)使用選定的對(j,s)劃分區(qū)域,并確定該區(qū)域的預測值:

3)繼續(xù)對子區(qū)域調用上述步驟1和2,當回歸樹的深度達到預設深度或者整個回歸樹的預測準確度(誤差)低于閾值時,停止區(qū)域劃分。

4)將輸入空間劃分為 M個區(qū)域 R1、R2、R3、…、RM,生成一棵回歸決策樹:

1.2.3 生成隨機森林

重復生成T棵回歸決策樹,將生成的多棵決策樹組成隨機森林[25],結合平均法策略,由多棵樹預測值的均值決定最終預測結果,具體公式如下。

式中:T是基學習器個數(shù);fi(x)是第i個基學習器的預測值。

2 實驗與結果分析

2.1 實驗數(shù)據(jù)采集

本實驗養(yǎng)殖池水來自地下100 m以下深井海水,水溫常年保持在12~16℃,pH值保持在7.2~7.5,溶氧含量控制在8~12 mg/L,鹽度保持在28~31。經(jīng)過分析地下海水工廠化循環(huán)水養(yǎng)殖的特點、水體中氨氮產生的過程、影響氨氮產生的因素,選取魚的平均質量、魚的尾數(shù)、當前預測時間點的上兩個時刻投喂量,作為模型的輸入變量,養(yǎng)殖水體氨氮含量作為模型輸出變量,通過歸一化處理,獲取4項32組樣本數(shù)據(jù),其中20組作為訓練集,12組作為測試集,用于開展氨氮含量的預測研究。

2.2 數(shù)據(jù)預處理

本研究在預測模型構建的過程中,為了便于模型的訓練,消除各變量之間的差別,平滑樣本數(shù)據(jù)的波函數(shù),更容易正確地收斂到最優(yōu)解,在生成訓練集和測試集之前對樣本數(shù)據(jù)進行離差歸一化處理[27],對樣本數(shù)據(jù)進行線性變化,將其結果落到[0,1]區(qū)間上,使有量綱的表達式,經(jīng)過變換,化為無量綱的表達式,成為純量。該過程不會改變原始數(shù)據(jù)的數(shù)值排序,對數(shù)據(jù)改變后不會造成“數(shù)據(jù)失效”。其對應的公式如下:

式中:xi為歸一化前的樣本數(shù)據(jù)值;xmax為樣本數(shù)據(jù)的最大值;xmin為樣本數(shù)據(jù)的最小值;xscale為歸一化后的樣本數(shù)據(jù)值。

2.3 氨氮含量預測

本研究中使用隨機森林回歸算法構建的模型對養(yǎng)殖水體中的氨氮含量預測,共經(jīng)歷3個步驟:

步驟1使用有放回的Bootstrap方法產生50個訓練集。

步驟2對50個訓練集分別進行分裂操作訓練出50個回歸決策樹基模型,生成50棵沒有關聯(lián)的樹。

步驟3將50棵回歸決策樹整合成森林,將所有回歸決策樹的結果綜合起來,結合平均法策略得到預測最終結果。

2.4 實驗結果分析

為了證明本研究所提算法在對大西洋鮭循環(huán)水養(yǎng)殖環(huán)境中氨氮含量進行小樣本預測的優(yōu)越性,選取最小二乘線性回歸、支持向量機回歸預測方法與本研究使用的預測方法進行對比分析。實驗的誤差評價體系采用均方根誤差(RMSE)和平均絕對誤差(MAE)作為評價指標[28-29],公式如下所示:

將數(shù)據(jù)按照比例切分為訓練集和測試集,然后分別對訓練集采用隨機森林回歸(RFR)、最小二乘線性回歸(LSR)和支持向量機回歸(SVR)進行訓練,并對殘差(真實值與預測值的差)進行分析,得到結果如圖2所示。

圖2 殘差對比圖

由圖2可知,分別采用隨機森林回歸、最小二乘線性回歸和支持向量機回歸3種方法對訓練集進行訓練,3個算法構建的模型效果在6號、18號和19號訓練樣本上殘差都較大,此外,隨機森林回歸和支持向量機回歸在其他樣本的殘差大都控制在0.2以下,而最小二乘線性回歸另外在4號和15號訓練樣本也出現(xiàn)精度不高的情況。從整體效果上看,訓練集采用隨機森林回歸的殘差比支持向量機回歸和最小二乘線性回歸小,預測值更加接近真實值,訓練效果更好。

分別將訓練模型保存下來,并應用到測試集上,得到效果如圖3所示。

圖3 模型預測效果曲線

由圖3可知,3個模型對養(yǎng)殖水體氨氮含量進行預測時,在2、5、7號測試樣本出現(xiàn)預測不準的情況,其他測試樣本預測效果較好。其中,在2號樣本上,RFR有較好的預測效果。7號樣本上,SVR能有較好的預測效果,這可能是由于樣本量不足而導致的模型的泛化性差、適應新數(shù)據(jù)能力不足等缺陷造成的。而在5號點上,3個模型的預測效果都出現(xiàn)了較大的誤差,若排除當天養(yǎng)殖實驗沒出現(xiàn)異常情況,導致氨氮含量出現(xiàn)波動,則可能由于算法自身的泛化性不足導致的。

2.5 誤差分析及算法對比

本研究通過計算RMSE和MAE 2種評價指標值得到預測誤差,如表1所示。

表1 RMSE和MAE評價指標值

在模型的比較上,隨機森林回歸的均方根誤差和平均絕對誤差不管在訓練集還是測試集都比最小二乘線性回歸和支持向量機回歸算法的小,其原因是RFR集合多個單學習器的算法策略,提高了模型的泛化性能,能適應更多的假設空間,對氨氮含量預測有更好的效果。

3個模型在測試集的應用上誤差都增加,其中,RFR訓練集均方根誤差為0.005 6,測試集均方根誤差為0.072 7,誤差提高了0.06,SVR訓練集的均方根誤差為0.060 1,測試集的均方根誤差為0.130 7,誤差提高了0.07,LSR訓練集的均方根誤差為0.034 6,測試集的均方根誤差為0.222 9,誤差提高了0.19,出現(xiàn)這一現(xiàn)象的原因是3個模型都出現(xiàn)了過擬合的情況,而其中LSR和SVR的過擬合現(xiàn)象更為嚴重,RFR由于算法基于集成學習的思想,減少了部分過擬合的影響,在模型應用上有更好的表現(xiàn)。

2.6 模型選擇

在實際的模型訓練中,由于訓練結果對初始設置的條件比較敏感,故對于訓練集的擬合程度通常較好,但對于訓練集之外的數(shù)據(jù)擬合程度通常不太好,因此會將樣本數(shù)據(jù)分出一部分生成測試集,不參加模型訓練,以便對訓練集生成的模型進行測試,相對客觀的判斷模型對訓練集之外的數(shù)據(jù)的預測能力,但簡單的通過一次對樣本數(shù)據(jù)按比例劃分出訓練集和測試集,會產生模型選擇不嚴謹?shù)膯栴}。本研究針對以上問題,對3種算法引入交叉驗證,如圖4所示,將數(shù)據(jù)集D隨機劃分成S個大小相同的的互斥子集,每次隨機選擇S-1份作為訓練集,剩下的1份做測試集。完成一輪訓練后,重新選擇S-1份來訓練。經(jīng)過若干輪(小于S)的訓練后,使用此方法的若干次結果作為模型效果的評價更具有穩(wěn)定性[30]。

圖4 交叉驗證過程

對于本研究所進行的氨氮預測,考慮到數(shù)據(jù)集的大小,分別采用5折交叉驗證和8折交叉驗證,并采用絕對均值誤差作為評價函數(shù)[31-32],得到結果如表2所示。

表2 交叉驗證結果

表2為5折交叉驗證和8折交叉驗證的結果,當S=5時,最小二乘線性回歸模型的絕對均值誤差為0.220 4,支持向量機回歸模型的絕對均值誤差為0.189 5,隨機森林回歸模型的絕對均值誤差為0.135 5,隨機森林算法在整體上有更好的表現(xiàn),同理,在8折交叉驗證的過程中,隨機森林回歸模型仍有較好的表現(xiàn),由此得出:隨機森林模型相對于最小二乘線性回歸模型和支持向量機回歸模型更適合氨氮預測。

3 結論

針對實驗室測量成本高、操作復雜、難推廣便攜式儀器、試紙、傳感器檢測精度不高等問題。根據(jù)深井海水工廠化循環(huán)水養(yǎng)殖特色,建立氨氮含量與養(yǎng)殖對象生物信息及養(yǎng)殖作業(yè)數(shù)據(jù)之間的非線性關系,提出一種基于隨機森林回歸的集成機器學習方法的海水工廠化循環(huán)水養(yǎng)殖水體氨氮預測模型。研究結果表明:在地下深井海水工廠化循環(huán)水養(yǎng)殖中,該模型預測絕對均值誤差為0.135 5,與線性回歸和支持向量機回歸模型相比,其誤差分別減少62.66%和39.85%。所提方法具有實時性、檢測時間短、誤差小等優(yōu)點,將其應用到基于小樣本數(shù)據(jù)的海水工廠化循環(huán)水養(yǎng)殖水體氨氮的預測中,效果良好。在后續(xù)的研究中,可通過增加樣本數(shù)量和構建模型的特征變量,進一步提高模型預測精度。

猜你喜歡
決策樹氨氮水體
懸浮物對水質氨氮測定的影響
農村黑臭水體治理和污水處理淺探
多源污染水體水環(huán)境質量提升技術應用
生態(tài)修復理念在河道水體治理中的應用
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
廣元:治理黑臭水體 再還水清岸美
氧化絮凝技術處理高鹽高氨氮廢水的實驗研究
基于決策樹的出租車乘客出行目的識別
微生物燃料電池陽極氨氮去除的影響因素