黃昕 姜春濤 任紫薇 潘淑儀 凌逸文 曹穎 肖浩鳴 邱文浩
摘要:傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)并不能做到長期記憶,存在“長期依賴”問題。但長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型擅長處理可變長度的時(shí)間序列的數(shù)據(jù)輸入,且網(wǎng)絡(luò)具有自連接的隱層,可以有效解決長期依賴問題。標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)算法收斂速度慢、局部極值、難以確定隱層數(shù)和隱層的節(jié)點(diǎn)個(gè)數(shù)。由于收集的水體數(shù)據(jù)中有許多屬性相關(guān)性較大,如果將所有屬性都用C4.5算法進(jìn)行計(jì)算,則會造成一定的資源浪費(fèi),降低計(jì)算效率。而改進(jìn)的C4.5算法則增加了去除相關(guān)性大的幾個(gè)屬性這一環(huán)節(jié),從而有效地減少了不必要的計(jì)算。該文主要融合長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)以及決策樹兩種算法,來進(jìn)行水產(chǎn)養(yǎng)殖病害預(yù)測。
關(guān)鍵詞:長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò);C4.5算法;水產(chǎn)病害預(yù)測
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)08-0194-02
每年水產(chǎn)養(yǎng)殖病害影響面積占全國總水產(chǎn)養(yǎng)殖面積10%以上,直接經(jīng)濟(jì)損失高達(dá)上百億元,已經(jīng)成為我國水產(chǎn)養(yǎng)殖健康發(fā)展的主要障礙之一。根據(jù)水產(chǎn)養(yǎng)殖動植物疾病監(jiān)測預(yù)報(bào),2017年,我國水產(chǎn)養(yǎng)殖因病害造成的經(jīng)濟(jì)損失約361億元,其中魚類占33.8%,甲殼類占40.7%,貝類占13.2%,其他占12.4%。因此對水產(chǎn)病害進(jìn)行預(yù)測分析對我國水產(chǎn)養(yǎng)殖具有極其重要的意義。
現(xiàn)有技術(shù)大都采用灰色預(yù)測模型、BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測分析。但灰色預(yù)測模型對時(shí)間序列平滑性要求較高,有快速衰減和遞增的屬性,所以他的時(shí)效性有限,不適合做長期的預(yù)測或者分析。標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)算法收斂速度慢、局部極值、難以確定隱層數(shù)和隱層的節(jié)點(diǎn)個(gè)數(shù)。長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型擅長處理可變長度的時(shí)間序列的數(shù)據(jù)輸入,也可以有效解決長期依賴問題。本文主要融合長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)以及決策樹兩種算法,來進(jìn)行水產(chǎn)養(yǎng)殖病害預(yù)測。
1 C4.5-LSTM模型建立
1.1數(shù)據(jù)采集
收集水體m個(gè)因素x1,x2,...xm的數(shù)據(jù)及對應(yīng)的病害數(shù)據(jù)將數(shù)據(jù)導(dǎo)入Excel表格中,對數(shù)據(jù)進(jìn)行預(yù)處理。
1.2決策樹的生成
隨機(jī)抽取其中的80%組數(shù)據(jù)作為決策樹的訓(xùn)練集,剩余的20%組數(shù)據(jù)作為決策樹的測試集。采取改進(jìn)的C4.5算法生成決策樹。
1.2.1去除相關(guān)性大的屬性
1.2.3剪枝
采用PEP(Pessimistic Error Pruning)剪枝法進(jìn)行因素的選擇最終確定因素個(gè)數(shù)v。
1.3數(shù)據(jù)處理
1.3.1數(shù)據(jù)標(biāo)準(zhǔn)化處理
收集上一步驟中的n個(gè)因素y1,y2...yn的數(shù)據(jù)將數(shù)據(jù)導(dǎo)入Excel表格中并將數(shù)據(jù)進(jìn)行預(yù)處理。利用min-max標(biāo)準(zhǔn)化公式分別將y1,y2...yn的r行數(shù)據(jù)歸一化。
1.3.2數(shù)據(jù)劃分
將上一步驟中處理好的數(shù)據(jù)隨機(jī)選取80%組數(shù)據(jù)作為訓(xùn)練集,剩余20%組數(shù)據(jù)作為測試集。將每個(gè)因素的數(shù)據(jù)分別依次輸入模型中。
1.4模型建立
步驟一:設(shè)置輸入、輸出層。設(shè)置網(wǎng)絡(luò)輸入為每次每個(gè)因
步驟四:長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練。將數(shù)據(jù)代人模型進(jìn)行訓(xùn)練過程中,由小批量梯度下降法尋找使預(yù)測值與真實(shí)值相差最小的值,提高模型的精確度。確定先決條件即確定優(yōu)化模型的假設(shè)函數(shù)及損失函數(shù)見公式(9),通過計(jì)算找出最合適的LSTM神經(jīng)網(wǎng)絡(luò)中的權(quán)重。
步驟五:將預(yù)測出的各因素的數(shù)據(jù)組合成一組一組的數(shù)據(jù),代入建立好的決策樹中進(jìn)行分類預(yù)測水產(chǎn)病害的爆發(fā)。
2 總結(jié)
長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型擅長處理可變長度的時(shí)間序列的數(shù)據(jù)輸入,也可以有效解決長期依賴問題。改進(jìn)的C4.5算法增加了去除相關(guān)性大的因素這一環(huán)節(jié),從而有效地減少了不必要的計(jì)算,節(jié)省了計(jì)算資源。先利用長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測,再利用決策樹進(jìn)行分類,可有效、精準(zhǔn)地對水產(chǎn)病害進(jìn)行預(yù)測,讓養(yǎng)殖戶們及時(shí)采取措施,減小由此帶來的巨大損失。
參考文獻(xiàn):
[1]于家斌,尚方方,王小藝,等,基于GF-LSTM網(wǎng)絡(luò)的藍(lán)藻水華預(yù)測方法[Jl.計(jì)算機(jī)應(yīng)用,2018:1-6.
【通聯(lián)編輯:代影】
收稿日期:2019-11-25
作者簡介:姜春濤(1985-),男,山東煙臺人,講師,博士,計(jì)算機(jī)學(xué)會(CCF)會員,主要研究方向?yàn)橛?jì)算機(jī)微體系結(jié)構(gòu)模擬、大數(shù)據(jù)系統(tǒng)優(yōu)化;黃昕(1999-),女,江西贛州人,本科,主要研究方向?yàn)閿?shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù);任紫薇(1998-),女,安徽宿州人,本科,主要研究方向?yàn)閿?shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù)。