謝雨茜,李路 ,2,朱明,2,譚鶴群,3,李家慶,宋均琦
1.華中農(nóng)業(yè)大學(xué)工學(xué)院,武漢 430070;2.長江經(jīng)濟(jì)帶大宗水生生物產(chǎn)業(yè)綠色發(fā)展教育部工程研究中心,武漢 430070;3.農(nóng)業(yè)農(nóng)村部水產(chǎn)養(yǎng)殖設(shè)施工程重點(diǎn)實(shí)驗(yàn)室,武漢 430070
溶解氧(dissolved oxygen,DO)含量(簡稱溶氧量)是衡量水質(zhì)的最重要指標(biāo)之一,不僅反映了水中生物產(chǎn)氧過程和耗氧過程之間的動(dòng)態(tài)平衡,還直接影響?zhàn)B殖對(duì)象的產(chǎn)量和品質(zhì)。目前水產(chǎn)養(yǎng)殖中大多是根據(jù)當(dāng)前溶氧量決定增氧設(shè)備的啟停[1],但水體環(huán)境系統(tǒng)具有較大慣性,如果僅根據(jù)當(dāng)前數(shù)據(jù)進(jìn)行調(diào)節(jié),不僅難以及時(shí)改善惡化的水質(zhì),還會(huì)加重水質(zhì)指標(biāo)的震蕩,不利于水產(chǎn)養(yǎng)殖對(duì)象的健康。因此,及時(shí)準(zhǔn)確地進(jìn)行池塘溶氧量預(yù)測,對(duì)提高水質(zhì)調(diào)控精度、增加水產(chǎn)養(yǎng)殖效益具有重要意義。
近年來國內(nèi)外很多學(xué)者對(duì)水體溶氧量預(yù)測方法進(jìn)行了研究。其中,神經(jīng)網(wǎng)絡(luò)預(yù)測方法是運(yùn)用最廣泛的溶氧量預(yù)測方法,其包括反向傳播神經(jīng)網(wǎng)絡(luò)、極限學(xué)習(xí)機(jī)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。反向傳播神經(jīng)網(wǎng)絡(luò)容易得到局部最優(yōu)解,因此一般與遺傳算法[2]或者粒子群優(yōu)化相結(jié)合[3]使用。極限學(xué)習(xí)機(jī)結(jié)構(gòu)簡單,易獲得全局最優(yōu)解,且學(xué)習(xí)速度快、泛化性能好,若將其與K-means聚類結(jié)合,則能提高預(yù)測精度[4]。循環(huán)神經(jīng)網(wǎng)絡(luò)算法適合處理時(shí)間序列,它強(qiáng)調(diào)研究對(duì)象時(shí)間上的相關(guān)性。常用的循環(huán)神經(jīng)網(wǎng)絡(luò)是長短期記憶神經(jīng)網(wǎng)絡(luò)(long short-time memory,LSTM)與它的變體門控神經(jīng)網(wǎng)絡(luò)模型,特別適合預(yù)測溶氧量這種受多因素影響且時(shí)間依賴性強(qiáng)的數(shù)據(jù),但若輸入因素間關(guān)系復(fù)雜或預(yù)測時(shí)長過長,易導(dǎo)致預(yù)測結(jié)果滯后、誤差增大的問題[5]。
本研究針對(duì)上述問題,提出一種基于經(jīng)驗(yàn)?zāi)B(tài)分 解(empirical mode decomposition,EMD)與 K-means 的改進(jìn)長短期記憶神經(jīng)網(wǎng)絡(luò)(improved long short-time memory neural network model based on empirical modal decomposition with K-means clustering,EMD-KILSTM)對(duì)池塘溶氧量進(jìn)行預(yù)測。首先利用皮爾森相關(guān)性分析與主成分分析結(jié)合的方法對(duì)原始數(shù)據(jù)進(jìn)行特征選擇,然后利用EMD 算法對(duì)溶氧量時(shí)間序列進(jìn)行分解。之后,將選出的環(huán)境參數(shù)與溶氧量各分量一起生成樣本集,并對(duì)其進(jìn)行K-means聚類,最后對(duì)同類中不同分解分量建立相應(yīng)ILSTM預(yù)測模型,并用網(wǎng)格搜索、五折交叉驗(yàn)證與早停法進(jìn)行超參數(shù)選取。以期減少LSTM 模型預(yù)測延遲現(xiàn)象、提高預(yù)測精度。
為了精準(zhǔn)預(yù)測溶氧量,必須明確與其相關(guān)的環(huán)境參數(shù),因此需要盡量全面地收集該池塘的水質(zhì)與氣象信息,使用相關(guān)性分析提取對(duì)溶氧量影響較大的參數(shù)。本研究根據(jù)相關(guān)文獻(xiàn)[6],選出10 個(gè)影響溶氧量的環(huán)境參數(shù),并使用基于物聯(lián)網(wǎng)的遠(yuǎn)程監(jiān)測系統(tǒng)采集池塘的水質(zhì)數(shù)據(jù)與氣象數(shù)據(jù)。
每種水質(zhì)傳感器都自帶溫度測量功能,相應(yīng)的類型及詳細(xì)參數(shù):(1)熒光溶氧量傳感器(NS-120ZGS)精度為±2.0%;(2)pH 傳感 器(NPH-1000Z)精度為±1.7%;(3)氨氮傳感器(NHNG-5000Z)精度為±4.0%。
氣象傳感器類型及詳細(xì)參數(shù)如下:
(1)空氣溫濕度傳感器(HMP155A-L),當(dāng)溫度為-80~20 ℃時(shí),其精度為±(0.226-0.0028×溫度)℃;當(dāng)溫度為20~60 ℃時(shí),其精度為±(0.055+0.0057×溫度)℃。(2)風(fēng)速風(fēng)向傳感器(034B),當(dāng)風(fēng)速<10.14 m/s 時(shí),精度為 0.1 m/s;當(dāng)風(fēng)速>10.14 m/s 時(shí),精度為±1.1%。(3)氣壓傳感器(CS100),量程為600~1 100 hPa,精度為±1.5 hPa。(4)太陽輻射計(jì)(LI200X-L),量程為0~3 000 W/m2,精度為±5%。(5)雨量計(jì)(TE525-L),精度為1%。
以湖北省武漢市華中農(nóng)業(yè)大學(xué)水產(chǎn)學(xué)院實(shí)驗(yàn)基地的8 號(hào)圈養(yǎng)池塘[7]為試驗(yàn)場地。該池塘面積約為1 166.66 m2,水深約2.8 m,在池塘內(nèi)搭建了8 個(gè)直徑為4 m、高3.1 m 的圈養(yǎng)桶,用以圈養(yǎng)魚類。水質(zhì)與氣象傳感器位置分布俯視圖如圖1。水質(zhì)傳感器在池塘正中心水深1 m 處,氣象傳感器位于池塘西北角。水質(zhì)傳感器采樣周期為0.5 min,采集4 個(gè)參數(shù)分別為水溫、氨氮、pH、溶氧量。氣象傳感器采樣周期為5 min,采集7 個(gè)參數(shù)分別為氣溫、大氣壓強(qiáng)、濕度、雨量、太陽輻射強(qiáng)度(solar radiation intensity,SRI)、風(fēng)速、風(fēng)向。數(shù)據(jù)采集時(shí)間為 2021年 6 月 26 日-8 月17日。
圖1 水質(zhì)與氣象傳感器的分布圖Fig.1 Distribution of water quality and weather sensors
水質(zhì)數(shù)據(jù)需要進(jìn)行填充、修正、濾波、合并、歸一化。而氣象數(shù)據(jù)已經(jīng)進(jìn)行過降噪處理,只需對(duì)其進(jìn)行合并、歸一化即可。
1)數(shù)據(jù)的填充與修正。由于水質(zhì)傳感器自身的測量原理的局限性,造成在天然水域中容易產(chǎn)生異常值。同時(shí)水質(zhì)傳感器需要定期擦拭與校準(zhǔn),其間產(chǎn)生空缺值。針對(duì)這些問題,對(duì)采集水質(zhì)數(shù)據(jù)進(jìn)行填充與修正。因?yàn)樗|(zhì)數(shù)據(jù)在時(shí)間上具有連續(xù)性且采樣周期是0.5 min,在短時(shí)間內(nèi)池塘水質(zhì)數(shù)據(jù)發(fā)生劇烈變化的可能性小,所以采用線性插值法填補(bǔ)丟失的數(shù)據(jù),采用均值法修正異常值[8]。
2)移動(dòng)平均濾波。在復(fù)雜的池塘養(yǎng)殖環(huán)境中,因水流波動(dòng)、藻類附著等原因,導(dǎo)致采集的水質(zhì)數(shù)據(jù)存在一定噪聲干擾,因此要對(duì)水質(zhì)數(shù)據(jù)進(jìn)行濾波降噪。由于水質(zhì)數(shù)據(jù)中的噪聲頻率相對(duì)穩(wěn)定,可用移動(dòng)平均濾波器來實(shí)現(xiàn)數(shù)據(jù)降噪。
3)數(shù)據(jù)合并。因氣象數(shù)據(jù)與水質(zhì)數(shù)據(jù)采集周期不一樣,需要將兩者在時(shí)間軸上與氣象數(shù)據(jù)合并成采用周期5 min的數(shù)據(jù)。
4)歸一化。利用Z-score標(biāo)準(zhǔn)化方法對(duì)數(shù)據(jù)進(jìn)行歸一化處理,使模型輸入?yún)?shù)介于[0,1]之間,從而提升預(yù)測模型收斂速度與精度。
將本文“1.2 中所述”11 個(gè)參數(shù)全部輸入預(yù)測模型中,會(huì)增加模型訓(xùn)練時(shí)間、結(jié)構(gòu)復(fù)雜程度與預(yù)測誤差,所以需要在建模前進(jìn)行特征提取。本研究選擇皮爾森相關(guān)性分析與主成分分析[9]相結(jié)合的方法進(jìn)行特征提取,具體步驟為:
①對(duì)經(jīng)過預(yù)處理后的環(huán)境參數(shù)進(jìn)行皮爾森相關(guān)性分析,將與溶氧量相關(guān)性最大的參數(shù)選為除溶氧量外第一個(gè)特征參數(shù),相關(guān)性過小的參數(shù)淘汰。
②將其余m個(gè)參數(shù)組成一個(gè)特征空間,得到相關(guān)系數(shù)矩陣R=[rij]m×m,并計(jì)算其對(duì)應(yīng)的特征值及特征向量。
③計(jì)算各個(gè)主成分貢獻(xiàn)率τi如式(1),貢獻(xiàn)率τi表示第i個(gè)主成分表征特征空間的程度。
而累計(jì)貢獻(xiàn)率ηi由多個(gè)主成分貢獻(xiàn)率τi疊加而成,計(jì)算公式如式(2):
④原始參數(shù)線性組合成主成分的系數(shù)求法如式(3):
式(3)中,ωi為第i個(gè)主成分的系數(shù),λi為該主成分對(duì)應(yīng)的特征值,ξi為該主成分對(duì)應(yīng)的特征向量。
選取特征值大于1 且累計(jì)貢獻(xiàn)率大于70%的主成分來表征原始參數(shù)特征空間。在對(duì)應(yīng)主成分的成分矩陣(特征向量表)中,篩選出最能解釋樣本空間數(shù)據(jù)的原始參數(shù),從而完成特征提取。
1)改進(jìn)的長短期記憶神經(jīng)網(wǎng)絡(luò)。傳統(tǒng)的LSTM神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果曲線與實(shí)測值曲線有一定滯后。原因在于,當(dāng)采樣間隔為step,時(shí)間窗長為d=3*step時(shí),傳統(tǒng)LSTM 模型樣本形式如式(4):
式(4)中,虛線左側(cè)為輸入樣本,右側(cè)為輸出樣本。y(t+step)表示t+step 時(shí)刻溶氧量,x( )t為t時(shí)刻環(huán)境參數(shù)(溶氧量及其相關(guān)參數(shù))。而當(dāng)輸入樣本導(dǎo)入模型時(shí),由于t時(shí)刻溶氧量與t+step 時(shí)刻預(yù)測目標(biāo)高度相似,導(dǎo)致LSTM 神經(jīng)網(wǎng)絡(luò)給t時(shí)刻溶氧量分配過高的權(quán)重,最后使模型主要學(xué)習(xí)到時(shí)間序列的一階自相關(guān)性,造成預(yù)測曲線的滯后。
解決滯后現(xiàn)象,有2 種思路:①將預(yù)測目標(biāo)從未來時(shí)刻數(shù)值改成未來時(shí)刻數(shù)值和當(dāng)前時(shí)刻數(shù)值的差分,直接預(yù)測一階差分,防止模型學(xué)習(xí)到一階相關(guān)性;②對(duì)目標(biāo)時(shí)間序列進(jìn)行分解,將其簡化為若干簡單波形再導(dǎo)入不同預(yù)測模型,分解形成的新波形因自身規(guī)律簡單,更容易被預(yù)測模型學(xué)習(xí)。針對(duì)思路①,提出一種改進(jìn)的LSTM 模型。將預(yù)測目標(biāo)變?yōu)槿苎趿康囊浑A差分,并使用滑動(dòng)窗口法生成更多樣本。ILSTM 神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu)如圖2。
圖2 ILSTM的整體結(jié)構(gòu)圖Fig.2 The overall structure of ILSTM
圖2 中,wx,bx為輸入層到隱含層的權(quán)重與偏置向量;wh,bh為隱含層內(nèi)部單元的權(quán)重與偏置向量;w0,b0為隱含層到輸出層的權(quán)重與偏置向量。圖2中帶入ILSTM 模型的輸入輸出為式(5):
式(5)中,step為樣本間隔時(shí)間步數(shù),單個(gè)時(shí)間步長為5 min;d為滑動(dòng)窗口大??;f為預(yù)測未來時(shí)間步數(shù)為一個(gè)樣本的輸入?yún)?shù)向量為一個(gè)樣本的預(yù)測目標(biāo);x(t-d+step),x(t-d+2step),...,x(t)為(td+step),...,t時(shí)刻的環(huán)境參數(shù);y(t+f),y(t)為t+f,t時(shí)刻溶氧量。
該模型將預(yù)測目標(biāo)從y(t+f)變成y(t+f)-y(t),直接消除訓(xùn)練模型過程中t時(shí)刻環(huán)境參數(shù)對(duì)t+f時(shí)刻預(yù)測的溶氧量影響大的問題,緩解預(yù)測結(jié)果的滯后現(xiàn)象。ILSTM 神經(jīng)網(wǎng)絡(luò)的隱含層內(nèi)部單元結(jié)構(gòu)與LSTM 神經(jīng)網(wǎng)絡(luò)一致[10]。
2)EMD 算法。該算法不像傳統(tǒng)分解算法需要設(shè)定基函數(shù),可直接根據(jù)數(shù)據(jù)在時(shí)間尺度上的特征進(jìn)行分解[11],因此它非常適合像溶氧量這樣的非平穩(wěn)時(shí)間序列。本研究用EMD 將復(fù)雜的溶氧量時(shí)間序列分解為若干個(gè)單一頻率的本征模函數(shù)(intrinsic mode function,IMF)與 殘 余 分 量(residual,RES)如式(6):
每個(gè)IMF 蘊(yùn)含溶氧量時(shí)間序列在不同時(shí)間尺度的局部特征信息,并且具有如下特性:①IMF 極值點(diǎn)數(shù)與過零點(diǎn)數(shù)最多相差1;②局部最大值與局部最小值形成的上下包絡(luò)線的均值等于0。EMD 分解流程,如圖3所示。
圖3 EMD算法流程Fig.3 EMD algorithm flow
3)K-means 聚類算法。該算法屬于無監(jiān)督學(xué)習(xí)[12],適合分類未知類別的數(shù)據(jù),缺點(diǎn)是需人工確定聚類數(shù)K。由于溶氧量受其環(huán)境影響大,可以利用K-means聚類來對(duì)環(huán)境參數(shù)生成的樣本集進(jìn)行分類,將具有相似歷史環(huán)境的樣本分為一類。
4)超參數(shù)優(yōu)化細(xì)節(jié)如下:①網(wǎng)格搜索。設(shè)定各個(gè)超參數(shù)調(diào)節(jié)范圍,利用網(wǎng)格搜索算法對(duì)其排列組合。
②交叉驗(yàn)證。用5 折交叉驗(yàn)證對(duì)選取的超參數(shù)組進(jìn)行評(píng)價(jià)。本研究設(shè)定的評(píng)價(jià)指標(biāo)為平均絕對(duì)誤差(mean absolute error,MAE),其值越低,說明模型在訓(xùn)練集中表現(xiàn)得越優(yōu)秀。
③早停法。為了縮短模型每次訓(xùn)練時(shí)間,本研究使用早停法提前退出迭代輪回。設(shè)定步數(shù)為5,即如果連續(xù)迭代5輪,驗(yàn)證集的損失函數(shù)都沒下降即退出迭代。該方法可能會(huì)導(dǎo)致5 次交叉驗(yàn)證的迭代輪數(shù)不同,所以選擇5次中最大輪數(shù)代表該組超參數(shù)的輪數(shù)。
5)EMD-KILSTM 預(yù)測模型。流程如圖4 所示,具體步驟如下:①溶氧量時(shí)間序列分解。其簡化了溶氧量時(shí)間序列復(fù)雜度,得到n個(gè)IMF和1個(gè)RES。
圖4 EMD-KILSTM模型流程圖Fig.4 Flow chart of EMD-KILSTM model
②對(duì)分解分量與環(huán)境因素進(jìn)行K-means 聚類,導(dǎo)入聚類分析的樣本形式如公式(7)。然后評(píng)估聚類算法的優(yōu)劣,選出最優(yōu)聚類情況。
③在聚類得到的同類中對(duì)不同分解分量建立相應(yīng)ILSTM 預(yù)測模型,進(jìn)行超參數(shù)優(yōu)化,然后將各分量的差分預(yù)測結(jié)果與該分量當(dāng)前時(shí)刻值IMF(t)相加得到一個(gè)該分量未來值預(yù)測結(jié)果最后將每個(gè)分量相疊加成最終預(yù)測結(jié)果
采用戴維森堡丁指數(shù)(Davies-Bouldin index,DBI)來衡量聚類數(shù)K值的合理性,其定義如式(8)。DBI越小,說明類內(nèi)距離越小、相似度越高,且類間距離越大、相似度越低[13]。
式(8)中,Di,Dj分別為第i,j類內(nèi)平均距離;dij為第i類與第j類的質(zhì)心距離。
采用均方根誤差(root mean square error,RMSE)、MAE、平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)[14]3 個(gè)指標(biāo)來衡量各預(yù)測模型的性能。
本研究采用SPSS 軟件做主成分分析。用Python3.6語言編寫模型主要程序,詳情見表1。
表1 Python編程信息Table 1 Python programming information
對(duì)2021年06月26日-2021年08月17日共53 d所采集的140 000 條水質(zhì)數(shù)據(jù)進(jìn)行缺失值填補(bǔ)、異常值剔除與降噪的預(yù)處理,再與氣象數(shù)據(jù)在時(shí)間維度上合并,最后得到15 264 條有效數(shù)據(jù)。各水質(zhì)參數(shù)預(yù)處理結(jié)果(不包括歸一化)如圖5 所示。從圖5A、圖5C 的方框可見,預(yù)處理方法使數(shù)據(jù)抖動(dòng)顯著變小,噪聲與異常值被有效剔除。預(yù)處理后各參數(shù)數(shù)據(jù)描述性統(tǒng)計(jì)見表2。
表2 參數(shù)描述性統(tǒng)計(jì)Table 2 Parameter descriptive statistics
圖5 溶氧量(A)、pH(B)、氨氮(C)、水溫(D)預(yù)處理對(duì)比Fig.5 Dissolved oxygen(A),pH(B),ammonia nitrogen(C),water temperature(D)pretreatment comparison
皮爾森相關(guān)性分析結(jié)果顯示,溶氧量與雨量、風(fēng)速、風(fēng)向、SRI、氣壓、水溫、氨氮、濕度、氣溫、pH 這10個(gè)參數(shù)的皮爾森相關(guān)性系數(shù)分別為0.046、0.128、0.134、0.241、-0.335、0.454、-0.538、-0.657、0.666、0.926。可見,pH 與溶氧量相關(guān)性最高,確定其為特征參數(shù)。而風(fēng)速、風(fēng)向、雨量相關(guān)性均低于0.2,因此將它們淘汰。剩下的6 個(gè)環(huán)境參數(shù)進(jìn)行主成分分析,主成分貢獻(xiàn)率與特征值見表3。從中可見有2 個(gè)特征值大于1 的主成分,并且貢獻(xiàn)率高達(dá)74.095%。由主成分的成分矩陣(表4)可見,氣溫與濕度對(duì)第一個(gè)主成分影響較大,SRI對(duì)第二個(gè)主成分影響較大,最終選擇的參數(shù)為DO、pH、氣溫、濕度、SRI。
表3 主成分貢獻(xiàn)率與特征值Table 3 Principal component contribution rate and eigenvalue
表4 成分矩陣Table 4 Component matrix
利用EMD 算法對(duì)溶氧量進(jìn)行時(shí)間尺度上的分解,結(jié)果如圖6 所示。由圖6 可知,該算法將溶氧量分解為9個(gè)IMF 和1個(gè)RES。整體來看,池塘溶氧量具有明顯的時(shí)間多尺度特點(diǎn)。其中IMF 具有一定周期性,能反映外部環(huán)境因素對(duì)溶解氧的周期性影響。IMF1~I(xiàn)MF4頻率較高,體現(xiàn)了隨機(jī)因素對(duì)溶解氧的影響。RES 變化較平穩(wěn),反映了池塘溶解氧的總體變化趨勢。
圖6 EMD分解溶氧量的結(jié)果Fig.6 Results of EMD decomposition of dissolved oxygen
選前51 d 數(shù)據(jù)生成訓(xùn)練集,最后2 d 數(shù)據(jù)生成測試集,用于對(duì)比不同類型模型性能,預(yù)測目標(biāo)為未來1 h 溶氧量。樣本間隔時(shí)間步數(shù)step=12,單個(gè)時(shí)間步長為5 min;滑動(dòng)窗口長度d=24×step;預(yù)測未來時(shí)間步數(shù)f=12,因此15 264 條有效數(shù)據(jù)可生成14 976 個(gè)樣本集,前14 400 個(gè)樣本用于模型訓(xùn)練,后576 個(gè)樣本用于測試模型性能。樣本輸入?yún)?shù)形式如式(7),代入K-means 聚類中,不同的聚類數(shù)K的樣本分類與其性能評(píng)價(jià)如表5??梢娋垲悢?shù)K為2時(shí),分類效果最好,每個(gè)樣本點(diǎn)類別分布如圖7所示,將圖7 與圖5A 對(duì)比,發(fā)現(xiàn)低溶氧量波形被分為了一類,高溶氧量波形為一類。
圖7 每個(gè)樣本點(diǎn)類別分布Fig.7 Distribution of categories per sample point
表5 不同的聚類數(shù)K的樣本分類與其性能評(píng)價(jià)Table 5 Sample classification with different number of clusters K and its performance evaluation
將經(jīng)過分解與分類的數(shù)據(jù)導(dǎo)入ILSTM 模型進(jìn)行預(yù)測,此處輸入?yún)?shù)的僅有溶氧量的分解分量,輸入樣本形式為(24,1),由于EMD 將溶氧量時(shí)間序列分解為10 個(gè)分量,K-means 聚類算法將每個(gè)分量都分為2類,因此需要得出20個(gè)不同情況的預(yù)測模型。
在超參數(shù)優(yōu)化方面,網(wǎng)格搜索的信息見表6。有64 種超參數(shù)組合用于模型訓(xùn)練,20 個(gè)預(yù)測模型最優(yōu)超參數(shù)與交叉驗(yàn)證評(píng)價(jià)見表7。從表7 中可知,頻率越高的分解分量交叉驗(yàn)證的誤差越大,這是因?yàn)轭l率越高,對(duì)應(yīng)的IMF中的隨機(jī)噪聲成分越多。
表6 網(wǎng)格搜索的信息Table 6 Information about grid search
表7 20個(gè)預(yù)測模型最優(yōu)超參與交叉驗(yàn)證評(píng)價(jià)Table 7 Evaluation of cross-validation and optimal super-reference for 20 prediction models
將本研究提出的EMD-KILSTM模型與LSTM、ILSTM、LSTM-SVR、EMD-LSTM、EMD-ILSTM等進(jìn)行對(duì)比,各模型預(yù)測曲線如圖8 所示,模型性能對(duì)比見表8,其中的時(shí)間復(fù)雜度與空間復(fù)雜度是對(duì)測試集使用時(shí)的復(fù)雜度;EMD-LSTM 模型、EMD-ILSTM 模型、EMD-KILSTM 模型均為單變量(僅分解分量)導(dǎo)入LSTM 模型中預(yù)測。其他模型是多變量輸入LSTM 模型中預(yù)測。從圖8A 方框可知LSTM預(yù)測有一定滯后現(xiàn)象,從圖8B 與表8 可知,ILSTM與 LSTM 模型相比,RMSE、MAE 與 MAPE 分別下降了50.46%、63.20%與68.96%,說明ILSTM 模型能減少傳統(tǒng)LSTM 模型預(yù)測滯后現(xiàn)象。從8C 可見ILSTM-SVR 比ILSTM 預(yù)測效果更好,但從其方框可看出,它在測試集的第2天,預(yù)測誤差較大。圖8D中,EMD-LSTM 模型比 EMD-LSTM5 模型精度高,說明溶氧量序列經(jīng)過EMD 分解后的各分解分量在時(shí)間相關(guān)性上與其他參數(shù)不匹配,所以進(jìn)行EMD 分解后的各分量僅能單獨(dú)導(dǎo)入LSTM 模型。從表8 可得EMD-ILSTM 模型預(yù)測效果優(yōu)于ILSTM 模型,RMSE、MAE 與 MAPE 分別下降了53.22%、46.74%與38.19%,說明EMD 算法能提高預(yù)測精度。從表8和圖8 可知,EMD-KILSTM 模型是7 個(gè)預(yù)測模型中精度最高的,說明K-means 聚類能提高預(yù)測精度。EMD-ILSTM 模型預(yù)測未來1 h 溶氧量的RMSE、MAE、MAPE 分別為0.109 9 mg/L、0.074 9 mg/L、9.327 8%,其中MAPE 較大的原因是測試集屬于低溶氧量時(shí)段,分母數(shù)值太小,MAPE 較敏感。EMD-KILSTM 與其他6 個(gè)模型的誤差下降率見表9。
表8 模型性能對(duì)比Table 8 Comparisons of model performance
圖8 LSTM模型(A)、ILSTM模型(B)、ILSTM-SVR模型(C)、EMD-LSTM模型與EMD-LSTM5模型(D)、EMD-ILSTM模型(E)、EMD-KILSTM模型(F)的預(yù)測結(jié)果Fig.8 Prediction results of LSTM model(A),ILSTM model(B),ILSTM-SVR model(C),EMD-LSTM model and EMD-LSTM5 model(D),EMD-ILSTM model(E),EMD-KILSTM model(F)
表9 EMD-KILSTM 與其他模型誤差下降率Table 9 Error decline ratio of EMD-KILSTM to other models %
EMD-KILSTM 模型是一種通過精細(xì)分類來預(yù)測溶氧量的方法。它能讓養(yǎng)殖人員提前了解未來1 h池塘的溶氧量,更精確地調(diào)控增氧系統(tǒng)工作狀態(tài),對(duì)減小溶氧量波動(dòng),提升養(yǎng)殖對(duì)象環(huán)境舒適度并減少病害,提高養(yǎng)殖效益具有重要意義。
本研究提出的EMD-KILSTM 池塘溶氧量預(yù)測模型與自回歸移動(dòng)平均模型[15]相比,能同時(shí)考慮環(huán)境因素與歷史溶氧量對(duì)未來溶氧量的影響,而自回歸移動(dòng)平均模型僅根據(jù)溶氧量線性自相關(guān)關(guān)系進(jìn)行預(yù)測;與灰色預(yù)測模型[16]相比,EMD-KILSTM 池塘溶氧量預(yù)測模型能對(duì)溶氧量進(jìn)行精準(zhǔn)預(yù)測,而灰色預(yù)測模型只能估計(jì)溶氧量趨勢;與支持向量機(jī)回歸[17]相比,EMD-KILSTM 池塘溶氧量預(yù)測模型考慮了溶氧量在時(shí)間軸上的自相關(guān)性和各個(gè)環(huán)境參數(shù)的互相關(guān)性,而支持向量機(jī)回歸只能考慮其中一種相關(guān)性;與LSTM 模型相比[18],本模型不僅減輕了傳統(tǒng)LSTM 模型預(yù)測結(jié)果滯后的情況,還能將溶氧量依據(jù)時(shí)間尺度特征與歷史環(huán)境情況自動(dòng)分類,從而提高預(yù)測精度。后續(xù)擁有若干年數(shù)據(jù)時(shí),也可以運(yùn)用該方法,自動(dòng)將類似環(huán)境的數(shù)據(jù)分為一類,從而做到在春夏秋冬、晴陰雨雪等各種天氣模式下都能精準(zhǔn)預(yù)測池塘溶氧量。
但EMD-KILSTM 模型也存在一些缺點(diǎn)需要改進(jìn):(1)雖然本研究提出的超參數(shù)優(yōu)化方法涉及的超參數(shù)類型全面,但需要人為設(shè)定網(wǎng)格范圍,尋找最優(yōu)超參數(shù)組合速度慢,后續(xù)可能會(huì)與粒子群優(yōu)化算法結(jié)合,提高模型訓(xùn)練速度;(2)僅用一種聚類算法進(jìn)行分類,后續(xù)對(duì)多種聚類算法進(jìn)行對(duì)比,擇優(yōu)確定最佳分類方案。