遲 殿 委,黃 琪,劉 麗 貞,方 朝 陽(yáng)
(1.煙臺(tái)理工學(xué)院 人工智能學(xué)院,山東 煙臺(tái) 264005; 2.江西師范大學(xué) 鄱陽(yáng)湖濕地與流域研究教育部重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330022; 3.江西省科學(xué)院,江西 南昌 330096)
水質(zhì)預(yù)測(cè)是對(duì)水質(zhì)進(jìn)行評(píng)價(jià)、管理和保護(hù)的一項(xiàng)基礎(chǔ)工作。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、智能傳感器等技術(shù)的發(fā)展及其在水質(zhì)監(jiān)測(cè)中的應(yīng)用,可實(shí)現(xiàn)實(shí)時(shí)快速監(jiān)測(cè)水體指標(biāo),并以此為基礎(chǔ)數(shù)據(jù),來準(zhǔn)確預(yù)測(cè)湖泊水質(zhì)變化趨勢(shì),這對(duì)于構(gòu)建水質(zhì)環(huán)境預(yù)警機(jī)制具有重要意義[1]。湖泊水環(huán)境是一個(gè)易受氣候變化、流域生態(tài)變化和人類活動(dòng)影響的不確定系統(tǒng)。通過對(duì)水質(zhì)指標(biāo)特征進(jìn)行分析并建立預(yù)測(cè)模型,可以促進(jìn)對(duì)水環(huán)境內(nèi)在機(jī)理的理解,這對(duì)于湖泊水質(zhì)管理和保護(hù)、水污染防治具有重要意義。湖泊水質(zhì)變化具有漸變性、非線性和不確定性等特點(diǎn)[2],從宏觀上又表現(xiàn)出季節(jié)性、周期性等特點(diǎn),這使得傳統(tǒng)機(jī)理和經(jīng)典數(shù)學(xué)理論模型難以模擬其過程。
近年來,隨著水質(zhì)數(shù)據(jù)的在線監(jiān)測(cè)獲取能力和計(jì)算能力的發(fā)展,數(shù)據(jù)驅(qū)動(dòng)模型在水質(zhì)預(yù)測(cè)中受到了廣泛的關(guān)注。水體溶解氧能夠調(diào)節(jié)生物多樣性[3],影響營(yíng)養(yǎng)鹽生物地球化學(xué)特征[4-5]、溫室氣體排放[6]和飲用水水質(zhì)[7],并能指示水體污染狀況[8],因此,溶解氧是評(píng)價(jià)湖泊生態(tài)系統(tǒng)健康的重要指標(biāo)[9]。然而,受氣候變化和人類活動(dòng)的影響,溫帶區(qū)域的湖泊溶解氧普遍呈現(xiàn)下降趨勢(shì)[9],已嚴(yán)重威脅到湖泊生態(tài)系統(tǒng)服務(wù)功能。因此,長(zhǎng)期監(jiān)測(cè)并能很好預(yù)測(cè)湖泊水體溶解氧(DO)的濃度,對(duì)水質(zhì)監(jiān)控管理具有重要的作用。
目前,國(guó)內(nèi)外學(xué)者針對(duì)湖泊、河流和池塘等地表水體DO濃度預(yù)測(cè)方法,已經(jīng)開展了大量的研究[10-18]。由于水體的區(qū)域性和類型的差異性,各學(xué)者選用的模型方法都各不相同,主要包括支持向量機(jī)、多元自適應(yīng)樣條回歸法、神經(jīng)網(wǎng)絡(luò)法(長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)Long Short Term Memory Network,LSTM;廣義回歸神經(jīng)網(wǎng)絡(luò)法和后向傳播神經(jīng)網(wǎng)絡(luò))、多項(xiàng)式混沌法等方法。其中,支持向量回歸法和循環(huán)神經(jīng)網(wǎng)絡(luò)法應(yīng)用于DO濃度預(yù)測(cè)較為廣泛。有學(xué)者發(fā)現(xiàn),支持向量機(jī)比后向傳播神經(jīng)網(wǎng)絡(luò)、廣義回歸神經(jīng)網(wǎng)絡(luò)、多元自適應(yīng)樣條回歸法以及M5模型樹等更能預(yù)測(cè)水體的DO濃度[11-12,16]。羅學(xué)科等[17]提出了基于差分自回歸移動(dòng)平均與支持向量回歸組合模型,主要通過SVR模型來補(bǔ)償其中的非線性變化,將巢湖水域2004~2015年間的pH和溶解氧監(jiān)測(cè)數(shù)據(jù)作為試驗(yàn)樣本進(jìn)行模型訓(xùn)練和預(yù)測(cè),取得了較高的預(yù)測(cè)精度;Li等[14]基于最大信息系數(shù)(MIC)的特征選取與支持向量回歸法(SVR)分析結(jié)合,很好地預(yù)測(cè)了珠江潮汐河流網(wǎng)水體中的DO濃度,其確定系數(shù)大于0.90,并發(fā)現(xiàn)與MIC法相結(jié)合能顯著降低誤差率和提高擬合度。Antanasijevi等[10]通過比較不同人工神經(jīng)網(wǎng)絡(luò)法,預(yù)測(cè)了塞爾維亞北部的多瑙河中溶解氧的濃度,并得出循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)要優(yōu)于廣義回歸神經(jīng)網(wǎng)絡(luò)和后向傳播神經(jīng)網(wǎng)絡(luò)的結(jié)論。由于溶解氧在線監(jiān)測(cè)數(shù)據(jù)具有時(shí)間序列特征,因此使用深度學(xué)習(xí)中的RNN法能處理好時(shí)間序列問題。然而在處理長(zhǎng)時(shí)間序列問題時(shí),容易造成梯度消失或爆炸[19]。LSTM[20-21]是RNN算法的一個(gè)變種,具有選擇記憶的特點(diǎn),其神經(jīng)元受控于輸入門、輸出門、遺忘門3個(gè)門控,克服了傳統(tǒng)RNN梯度消失的問題,可以更加精細(xì)地預(yù)測(cè)時(shí)間序列變量。進(jìn)一步地,有很多學(xué)者嘗試將LSTM模型進(jìn)一步優(yōu)化,比如結(jié)合主成分分析(PCA)法[22]、粒子群優(yōu)化算法[23]、添加自適應(yīng)白噪聲的完備集成經(jīng)驗(yàn)?zāi)B(tài)分解法和人工蜂群算法[24]、K-相似度法[25]、小波變換法[26-27]等處理方式,可以顯著提高預(yù)測(cè)效果。
鄱陽(yáng)湖是中國(guó)第一大淡水湖,其承接流域來水又與長(zhǎng)江直接相通,水位變化具有季節(jié)性變化規(guī)律,孕育了面積巨大的淡水湖泊濕地,分布著數(shù)量眾多的碟形湖,特殊的地貌特征和水文等特征,使得碟形湖在鄱陽(yáng)湖濕地及流域生態(tài)系統(tǒng)扮演著愈加重要的角色[28]。碟形湖在夏秋季高水位時(shí)與鄱陽(yáng)湖主湖相連,在冬春季枯水時(shí)形成獨(dú)立的小湖泊,獨(dú)特的環(huán)境使得水體溶解氧受環(huán)境影響的因素更為復(fù)雜,表現(xiàn)為不確定性和不穩(wěn)定性。溶解氧是直接指示自然水體生態(tài)系統(tǒng)健康水平的重要指標(biāo),而已有研究多關(guān)注于養(yǎng)殖水體DO[22-23,29-32],受限于維護(hù)工作繁瑣等因素的影響,野外部署高頻、自動(dòng)的水質(zhì)監(jiān)測(cè)設(shè)備較少,研究不夠深入,尤其是對(duì)于復(fù)雜多變的碟形湖天然水體中DO濃度變化方面的研究則相對(duì)更少。此外,由于監(jiān)測(cè)數(shù)據(jù)具有長(zhǎng)時(shí)間序列、不穩(wěn)定和非線性特征,且容易受到設(shè)備、天氣等因素影響,存在一定的噪音數(shù)據(jù),影響了模型的訓(xùn)練速度和性能,模型輸入?yún)?shù)的復(fù)雜性也容易使建立的預(yù)測(cè)模型出現(xiàn)過擬合。
綜上所述,本文提出了基于PCA降噪處理、MIC的特征選取與LSTM模型相結(jié)合的方法,來預(yù)測(cè)鄱陽(yáng)湖南磯濕地保護(hù)區(qū)碟形湖湖泊水體溶解氧含量。首先,數(shù)據(jù)預(yù)處理階段采用PCA對(duì)數(shù)據(jù)進(jìn)行降噪處理;然后利用MIC來計(jì)算各特征與分類標(biāo)簽之間的關(guān)聯(lián)程度,并選擇相關(guān)度高的部分特征作為最終的訓(xùn)練特征;最后用LSTM進(jìn)行訓(xùn)練建模。本文模型通過清洗降噪實(shí)現(xiàn)了樣本數(shù)據(jù)的可靠性,通過特征提取簡(jiǎn)化了預(yù)測(cè)模型,不僅提高了模型的訓(xùn)練速度和準(zhǔn)確度,而且有效地防止了過擬合,提高了模型的泛化能力,可為鄱陽(yáng)湖及其流域水質(zhì)監(jiān)測(cè)管理和維護(hù)提供科學(xué)決策的依據(jù)。
本文所采用的數(shù)據(jù)集,來自江西師范大學(xué)與鄱陽(yáng)湖南磯濕地國(guó)家級(jí)自然保護(hù)區(qū)共建的鄱陽(yáng)湖南磯自然保護(hù)區(qū)野外綜合試驗(yàn)站中戰(zhàn)備湖的實(shí)時(shí)在線監(jiān)測(cè)數(shù)據(jù)。鄱陽(yáng)湖南磯濕地國(guó)家級(jí)自然保護(hù)區(qū)所處的贛江口與鄱陽(yáng)湖交匯的河口三角洲濕地,是典型的內(nèi)陸河口濕地,處于東亞-澳大利亞水鳥遷飛線路之中,位于鄱陽(yáng)湖南部,在全球具有代表性,2020年2月3日被國(guó)家林業(yè)和草原局根據(jù)《濕地公約》指定為國(guó)際重要濕地。戰(zhàn)備湖位于保護(hù)區(qū)西南部,受流域水文交互作用影響,夏秋豐水期(星子站水位超過17.00 m時(shí))成為鄱陽(yáng)湖水域一部分,冬春枯水期(星子站水位低于14.00 m時(shí)),四周圍灘完全出露,水域與鄱陽(yáng)湖大湖面分割,形成典型淺碟形子湖泊,面積約 2.7 km2。2016年11月在戰(zhàn)備湖內(nèi)投放和運(yùn)行了一個(gè)浮體,搭載了水質(zhì)、小型氣候站等自動(dòng)監(jiān)測(cè)設(shè)備[33]。監(jiān)測(cè)指標(biāo)包括大氣溫度、風(fēng)向、風(fēng)速、大氣壓強(qiáng)、相對(duì)濕度、水溫、pH、電導(dǎo)率、氧化還原電位和溶解氧等10個(gè)指標(biāo)。本文數(shù)據(jù)集的監(jiān)測(cè)時(shí)間范圍為2017年4~11月(共8個(gè)月),每隔2 min采集一次數(shù)據(jù),共采集到7 803條數(shù)據(jù)。數(shù)據(jù)集信息如表1所列。由表1可以看出:碟形湖的溶解氧存在極大的不穩(wěn)定性,其極差值可達(dá)13.06 mg/L,高于已報(bào)道的深水湖泊及淺水湖泊的極差值[34-35]。這意味著需要特定的模型來針對(duì)獨(dú)特的碟形湖,以預(yù)測(cè)湖口溶解氧的含量。
表1 樣本數(shù)據(jù)信息Tab.1 Samples information
數(shù)據(jù)預(yù)處理包括2個(gè)部分的工作:樣本特征數(shù)據(jù)歸一化和基于PCA的數(shù)據(jù)降噪處理。
(1) 數(shù)據(jù)歸一化處理。由于所選取的水質(zhì)特征指標(biāo)范圍較大,數(shù)據(jù)樣本由10個(gè)不同指標(biāo)特征變量組成,這些特征變量有不同的量綱,而且差異較大,為了消除水質(zhì)各特征單位和尺度差異的影響,以對(duì)每個(gè)特征同等看待,需要對(duì)特征進(jìn)行歸一化,就是將每個(gè)特征調(diào)整到一個(gè)特定的范圍。這里選用最大值最小值歸一化方法,將所有特征值轉(zhuǎn)換到區(qū)間[0,1]中,以減少數(shù)據(jù)的波動(dòng)性和復(fù)雜性。最大值最小值歸一化公式如式(1)所示:
(1)
(2) 基于PCA的數(shù)據(jù)降噪處理??紤]監(jiān)測(cè)采集周期較長(zhǎng),在水中放置太久容易被污染物附著以及天氣的變化,都會(huì)造成采集數(shù)據(jù)存在一定偏差,而且特征之間存在冗余。因此,首先對(duì)樣本數(shù)據(jù)進(jìn)行PCA降維降噪處理[36]。本文在保留樣本中有效信息的前提下,通過將樣本數(shù)據(jù)集先降維,然后再升到原來的維度,達(dá)到減少噪聲的效果。因?yàn)樵O(shè)備采集的數(shù)據(jù)噪聲數(shù)據(jù)比例不大,這里設(shè)置PCA算法保留樣本中98%的有效信息。PCA算法的主要步驟如下[37-38]:
步驟1,首先對(duì)樣本數(shù)據(jù)矩陣y(nxm)={y1,y2,…,ym}進(jìn)行中心化處理,得到中心化的矩陣y′。
步驟2,對(duì)y′的協(xié)方差矩陣分解特征值。
步驟3,將前t個(gè)最大特征值對(duì)應(yīng)的特征向量經(jīng)過標(biāo)準(zhǔn)化之后組成特征矩陣W={W1,W2,…,Wt}。
步驟4。最終降維后的數(shù)據(jù)為ynew=WTy′。
PCA的作用除了降維,也能夠?qū)颖緮?shù)據(jù)進(jìn)行噪聲過濾。因?yàn)橹鞒煞种腥魏我粋€(gè)成分的變化影響都遠(yuǎn)大于噪聲的影響,各成分相對(duì)不受影響,可以使用主成分來重構(gòu)帶噪聲的原始樣本數(shù)據(jù)。主要思路是在保留原數(shù)據(jù)集主要信息的前提下,將數(shù)據(jù)集降維,然后將低維數(shù)據(jù)升為高維數(shù)據(jù),即還原到原始數(shù)據(jù)集的維度,其升維步驟描述如下:
步驟1,首先取包含t個(gè)最大特征值的矩陣W的轉(zhuǎn)置矩陣WT。
步驟2,然后用降維后的矩陣ynew與WT相乘,將降維后的矩陣升高到原來的維度,結(jié)果矩陣記為yr。
步驟3,求矩陣每一列的均值,得到n維向量V。
步驟4,將矩陣yr與均值向量V相加反構(gòu)出原始維度的數(shù)據(jù)矩陣。
本文基于MIC法對(duì)多個(gè)特征變量進(jìn)一步篩選。該方法于 2011年由Reshef等[39]提出,是用于檢測(cè)變量之間非線性相關(guān)程度的最新方法。MIC使用最大歸一化互信息來度量特征與目標(biāo)類別的關(guān)聯(lián)程度,并將信息論和概率的概念應(yīng)用于連續(xù)型數(shù)據(jù)。MIC以2個(gè)特征變量間的聯(lián)合概率密度來衡量其相關(guān)程度[40],該值能夠度量隨機(jī)變量之間的線性關(guān)系和非線性關(guān)系,從而可以深度挖掘變量之間的內(nèi)在關(guān)系。MIC不僅可以用于標(biāo)記特征取值離散的情況,也可以用于標(biāo)記取值是連續(xù)的情況。
如果2個(gè)變量之間存在關(guān)聯(lián),它們對(duì)應(yīng)的數(shù)據(jù)點(diǎn)的集合分布在二維空間中;如果使用m乘以n的網(wǎng)格劃分?jǐn)?shù)據(jù)空間,總能找到一種能夠?qū)?個(gè)變量的散點(diǎn)圖進(jìn)行網(wǎng)格劃分的辦法,變量x與y的MIC定義如下:
(2)
式中:I(X;Y)為X與Y的互信息,nx與ny分別為在網(wǎng)格劃分過程中變量X與變量Y被劃分的段數(shù)。
本文湖泊水體和相關(guān)氣象數(shù)據(jù)樣本特征變量與溶解氧之間并不一定呈線性關(guān)系,而且所有指標(biāo)特征的取值均為定量的、連續(xù)的,故采用MIC法來計(jì)算溶解氧與各特征之間的相關(guān)度,將最終選取關(guān)聯(lián)程度高的特征作為L(zhǎng)STM預(yù)測(cè)模型的輸入特征。設(shè)溶解氧特征為預(yù)測(cè)目標(biāo)Y,分別將各特征設(shè)為X。MIC計(jì)算主要步驟如下:
(1) 給定i,j,X,Y構(gòu)成的散點(diǎn)圖進(jìn)行i列j行網(wǎng)格化,并求出最大的互信息值;
(2) 對(duì)最大的互信息值進(jìn)行歸一化處理;
(3) 選擇不同尺度下互信息的最大值作為MIC值。
LSTM模型是將隱藏層替換成LSTM細(xì)胞單元,使其具有長(zhǎng)期記憶的能力。LSTM的關(guān)鍵是細(xì)胞狀態(tài),它穿過整個(gè)隱藏網(wǎng)絡(luò),LSTM通過門結(jié)構(gòu)控制細(xì)胞狀態(tài)添加或者刪除信息,門結(jié)構(gòu)是一種選擇性讓信息通過的方法,是為了保證LSTM 網(wǎng)絡(luò)記憶較長(zhǎng)時(shí)間周期的上下文信息,解決了普通RNN模型中的梯度消失問題。LSTM模型使用Adam算法[41]進(jìn)行優(yōu)化,通過設(shè)置學(xué)習(xí)率進(jìn)行權(quán)重更新,最后使用測(cè)試集來測(cè)試模型的性能。LSTM門控模塊結(jié)構(gòu)如圖1所示。
圖1 LSTM門控模塊結(jié)構(gòu)Fig.1 Gating module structure of LSTM model
為了提高預(yù)測(cè)速度和精度,結(jié)合以上算法,本文提出了基于PCA-MIC-LSTM的碟形湖水體溶解氧預(yù)測(cè)模型,即基于鄱陽(yáng)湖碟形湖戰(zhàn)備湖的在線監(jiān)測(cè)數(shù)據(jù)(7 803條)。首先,將所有特征數(shù)據(jù)取值均被歸一無量綱化和PCA降噪處理;然后,基于MIC最大信息系數(shù)的特征選取;最終,選用MIC相關(guān)系數(shù)不小于0.30[14]的指標(biāo)特征用于溶解氧的預(yù)測(cè),即作為L(zhǎng)STM模型的輸入。算法相關(guān)設(shè)置如下:LSTM時(shí)間步長(zhǎng)設(shè)置為3,隱層單元數(shù)設(shè)置為32,批量大小設(shè)置為100,學(xué)習(xí)率為0.001,迭代次數(shù)設(shè)置為50。針對(duì)采集的數(shù)據(jù)樣本,將前67%的數(shù)據(jù)用于訓(xùn)練數(shù)據(jù),其余33%的樣本數(shù)據(jù)作為模型驗(yàn)證數(shù)據(jù)用于預(yù)測(cè)。具體預(yù)測(cè)流程如圖2所示。
圖2 PCA-MIC-LSTM模型流程Fig.2 Flowchart of PCA-MIC-LSTM model
(3)
為了驗(yàn)證預(yù)測(cè)模型的精確度和擬合效果,采用了MAPE和R2作為評(píng)價(jià)指標(biāo)。MAPE即平均絕對(duì)比例誤差,反映了所有樣本的誤差絕對(duì)值占實(shí)際值的比例,該指標(biāo)越接近0,得到的模型越準(zhǔn)確,其計(jì)算公式如式(4)所示:
(4)
(5)
基于最大信息系數(shù)(MIC),計(jì)算出溶解氧與各特征值的相關(guān)度,如表2所列。
表2 基于MIC算法的各特征值與溶解氧的相關(guān)度Tab.2 Correlation between each eigenvalue and dissolved oxygen concentrations based on MIC algorithm
由表2可以看出:pH和相對(duì)濕度與溶解氧相關(guān)度較高,分別是0.53和0.49,對(duì)溶解氧的預(yù)測(cè)影響較大。而氧化還原電位與溶解氧相關(guān)度很低,這與該特征本身取值變動(dòng)不大有關(guān),從表1中看到其標(biāo)準(zhǔn)差為0.04,特征取值基本不變化,對(duì)預(yù)測(cè)模型的影響可以忽略。為了進(jìn)一步簡(jiǎn)化LSTM模型的運(yùn)算量,提高其泛化能力和訓(xùn)練速度,將MIC相關(guān)系數(shù)閾值設(shè)置為0.3[14],將與溶解氧相關(guān)程度較小的特征變量(即MIC<0.3)去掉,最終用于模型訓(xùn)練的特征變量精簡(jiǎn)為大氣溫度、相對(duì)濕度、pH、電導(dǎo)率。
為了驗(yàn)證本文提出模型的有效性,將本文提出的基于PCA降噪處理、MIC特征選取與LSTM結(jié)合的方法,與SVR、傳統(tǒng)LSTM等預(yù)測(cè)模型做對(duì)比實(shí)驗(yàn)。SVR算法選擇RBF函數(shù)作為核函數(shù),懲罰系數(shù)C是通過設(shè)定一個(gè)數(shù)值范圍尋優(yōu)得到,本文采用C=7000。各預(yù)測(cè)模型結(jié)果如表3所列。
表3 與其他模型溶解氧預(yù)測(cè)結(jié)果的比較Tab.3 Comparison results with other models for predicting DO concentrations
從表3中的數(shù)據(jù)可以看出:傳統(tǒng)的LSTM算法比SVR算法具有更好的預(yù)測(cè)精度,確定系數(shù)R2由0.431顯著提高至0.954。其均方根誤差RMSE減少了0.692,即DO濃度的預(yù)測(cè)精度平均提高了59.5%,MAPE由22.644%下降至1.495%,說明LSTM算法的預(yù)測(cè)精度和擬合效果明顯好于SVR模型。因?yàn)闃颖緮?shù)據(jù)具有時(shí)序性,某樣本的溶解氧濃度與該樣本時(shí)間前后樣本有較大關(guān)聯(lián),SVR算法無法在模型預(yù)測(cè)時(shí)保留之前樣本的信息,而LSTM算法非常適合對(duì)時(shí)序數(shù)據(jù)的建模。LSTM改變網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu),通過細(xì)胞狀態(tài)中的信息遺忘和記憶新信息來影響后續(xù)時(shí)刻信息的傳遞[42],可以有效發(fā)掘序列間的非線性關(guān)系,從而得到的預(yù)測(cè)精度更高的模型。
基于PCA-MIC-LSTM的組合方法與傳統(tǒng)的LSTM算法相比,確定系數(shù)R2進(jìn)一步提高,擬合系數(shù)高達(dá)0.999。其均方根誤差減少了0.432,即DO的預(yù)測(cè)精度比傳統(tǒng)LSTM平均提高了91.72%。這就表明:本文提出的方法在湖泊DO預(yù)測(cè)精度方面具有非常明顯的提高,經(jīng)PCA和MIC法處理后,MAPE有大幅度降低,由1.495%進(jìn)一步降低至0.301%,說明本文提出的方法無論是精度還是擬合效果都是相對(duì)最優(yōu)的。
從總體樣本中選取33%的數(shù)據(jù)作為測(cè)試樣本數(shù)據(jù)集,然后根據(jù)測(cè)試樣本數(shù)據(jù)的預(yù)測(cè)值與真實(shí)值進(jìn)行曲線繪圖。其中,橫坐標(biāo)表示測(cè)試樣本點(diǎn)的序號(hào),縱坐標(biāo)表示DO濃度值,傳統(tǒng)的LSTM模型預(yù)測(cè)值與真實(shí)值的比較曲線圖和散點(diǎn)圖分別如圖3(a)和圖3(b)所示。
圖3 傳統(tǒng)LSTM溶解氧預(yù)測(cè)結(jié)果Fig.3 Dissolved oxygen prediction results by traditional LSTM
采用PCA-MIC-LSTM模型所得的預(yù)測(cè)值與真實(shí)值,其擬合曲線圖和散點(diǎn)圖如圖4所示。
圖4 PCA-MIC-LSTM溶解氧預(yù)測(cè)結(jié)果Fig.4 Dissolved oxygen prediction results by PCA-MIC-LSTM model
通過對(duì)圖3和圖4進(jìn)行對(duì)比可以看出:PCA-MIC-LSTM預(yù)測(cè)結(jié)果的擬合精度相對(duì)于沒有進(jìn)行降噪處理及特征選取的傳統(tǒng)LSTM模型來說,有了很大的提高,擬合效果更佳。
綜上所述,本文提出的PCA-MIC-LSTM模型能有效避免數(shù)據(jù)樣本中噪聲的影響,獲得較為理想的預(yù)測(cè)精度。同時(shí),基于MIC,選擇與溶解氧相關(guān)度較高的特征作為L(zhǎng)STM模型的輸入,降低了模型的運(yùn)算復(fù)雜度,取得了理想的擬合效果。
為了進(jìn)一步分析PCA降噪處理和MIC特征選擇對(duì)預(yù)測(cè)精度的影響,本文將兩者作了對(duì)比分析,即將未進(jìn)行數(shù)據(jù)降噪處理和特征提取的傳統(tǒng)LSTM方法記為L(zhǎng)STM;將只進(jìn)行PCA降噪處理后的樣本使用LSTM模型進(jìn)行訓(xùn)練,標(biāo)記為PCA-LSTM;將只基于MIC法進(jìn)行特征提取后使用LSTM模型預(yù)測(cè)標(biāo)記為MIC-LSTM;對(duì)數(shù)據(jù)進(jìn)行PCA降噪處理和MIC特征提取后再進(jìn)行LSTM模型預(yù)測(cè),記為PCA-MIC-LSTM。模型預(yù)測(cè)結(jié)果具體如表4所列。
表4 PCA和MIC對(duì)LSTM模型的影響Tab.4 Effects of PCA and MIC on LSTM model
從評(píng)價(jià)指標(biāo)可以看出:MIC-LSTM預(yù)測(cè)模型相比LSTM模型降低了59.24%,PCA-LSTM模型相比LSTM模型降低了81.95%??梢钥闯觯槍?duì)數(shù)據(jù)進(jìn)行前處理,顯著提高了溶解氧的預(yù)測(cè)穩(wěn)定性和準(zhǔn)確性。其中,將數(shù)據(jù)進(jìn)行PCA降噪處理對(duì)訓(xùn)練結(jié)果影響更大。這表明樣本數(shù)據(jù)中存在一定的噪聲,會(huì)對(duì)預(yù)測(cè)模型的準(zhǔn)確率產(chǎn)生一定的影響,采用PCA提取特征主成分,由于噪聲與提取目標(biāo)本身不相關(guān),從而達(dá)到降噪效果,提高了預(yù)測(cè)模型的準(zhǔn)確率和擬合效果。為了更好地改進(jìn)預(yù)測(cè)模型,今后可以考慮為采集數(shù)據(jù)的設(shè)備配備專門的清洗裝備,以保證數(shù)據(jù)從根源上減少噪聲和冗余等。PCA-MIC-LSTM模型,即本文提出的模型,無論是從穩(wěn)定性、精度和擬合效果方面預(yù)測(cè)效果都是相對(duì)最優(yōu)的,是預(yù)測(cè)碟形湖水體DO濃度的有效方法。
本文針對(duì)碟形湖水體溶解氧的影響因子較多且復(fù)雜的情況,結(jié)合其時(shí)序性和非線性的特點(diǎn),提出了PCA-MIC-LSTM預(yù)測(cè)碟形湖泊水體溶解氧濃度的模型。基于戰(zhàn)備湖氣象和物化因子數(shù)據(jù)集來預(yù)測(cè)DO濃度,通過與SVR和LSTM模型對(duì)比,本文提出的PCA-MIC-LSTM模型顯著提高了DO濃度的預(yù)測(cè)精度。其中,PCA降噪及MIC特征提取處理能夠顯著提高模型的穩(wěn)定性和準(zhǔn)確性,有助于開展和完善該類湖泊水體的水質(zhì)監(jiān)控和保護(hù)工作。