王輝,付虹雨,王繼龍,劉婕儀,崔丹丹,蘇小慧,崔國(guó)賢*
(1.湖南農(nóng)業(yè)大學(xué)苧麻研究所,湖南 長(zhǎng)沙 410128;2.保險(xiǎn)職業(yè)學(xué)院,湖南 長(zhǎng)沙 410114)
農(nóng)業(yè)是國(guó)民經(jīng)濟(jì)的重要組成部分,農(nóng)作物生產(chǎn)對(duì)于社會(huì)的穩(wěn)定具有重要作用。農(nóng)作物產(chǎn)量是政府部門(mén)進(jìn)行農(nóng)業(yè)決策和宏觀調(diào)控的重要依據(jù),預(yù)估農(nóng)作物產(chǎn)量具有重要意義[1]。由于影響農(nóng)作物產(chǎn)量的因素較多,長(zhǎng)期以來(lái),如何快速、準(zhǔn)確估測(cè)農(nóng)作物產(chǎn)量一直是農(nóng)業(yè)發(fā)展中面臨的難題?,F(xiàn)有的估產(chǎn)辦法主要包括統(tǒng)計(jì)方法、遙感術(shù)、水肥測(cè)量、一元或多元回歸分析等方法[2-4],這些方法通常存在成本高、周期長(zhǎng)、精確度不高等缺點(diǎn),同時(shí)僅使用產(chǎn)量信息的預(yù)測(cè)方法無(wú)法得到更加準(zhǔn)確的預(yù)測(cè)結(jié)果,而B(niǎo)P神經(jīng)網(wǎng)絡(luò)具有逼近復(fù)雜函數(shù)的良好能力,特別適用于分析產(chǎn)量與影響產(chǎn)量的眾多因素之間復(fù)雜的線性和非線性關(guān)系,因此,在產(chǎn)量估測(cè)方面神經(jīng)網(wǎng)絡(luò)得到了廣泛的應(yīng)用[5-6]。
當(dāng)前,國(guó)內(nèi)學(xué)者主要在苧麻生理生化和栽培方面研究較多,而對(duì)于苧麻產(chǎn)量估測(cè)的研究較少。胡立勇等[7]結(jié)合多年實(shí)踐對(duì)苧麻纖維產(chǎn)量計(jì)算方法進(jìn)行總結(jié)分析,發(fā)現(xiàn)單位面積纖維產(chǎn)量與有效莖數(shù)、單株鮮莖重和鮮莖出麻率相關(guān),且苧麻的株高、莖粗、鮮皮厚度對(duì)單株原麻產(chǎn)量有直接影響;陳坤梅等[8]通過(guò)相關(guān)分析法對(duì)幾十份苧麻的產(chǎn)量和構(gòu)成因子進(jìn)行研究,指出苧麻株高、葉片數(shù)和分株數(shù)是苧麻育種可選擇的重要指標(biāo),并構(gòu)建了生物產(chǎn)量與主要影響因子的回歸方程;孫叢葦?shù)龋?]基于降雨量和濕度數(shù)據(jù),結(jié)合苧麻產(chǎn)量分別采用回歸、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等方法建立模型,結(jié)果發(fā)現(xiàn)模型除在產(chǎn)量預(yù)測(cè)方面具有較大實(shí)用性外,還可對(duì)病蟲(chóng)害進(jìn)行預(yù)測(cè)。隨著3S技術(shù)與精準(zhǔn)農(nóng)業(yè)的不斷發(fā)展和推進(jìn),利用苧麻田間與產(chǎn)量相關(guān)的農(nóng)藝性狀數(shù)據(jù),建立苧麻產(chǎn)量估測(cè)模型并驗(yàn)證,對(duì)苧麻高產(chǎn)提質(zhì)意義重大。本文基于定位點(diǎn)苧麻(中苧1號(hào))多年產(chǎn)量及其主要產(chǎn)量構(gòu)成因素?cái)?shù)據(jù),采用多元回歸和BP神經(jīng)網(wǎng)絡(luò)方法,分別建立產(chǎn)量估測(cè)模型,并驗(yàn)證和比較模型精度,旨在為定量估測(cè)苧麻產(chǎn)量提供一定的理論和技術(shù)依據(jù)。
試驗(yàn)所用苧麻種植于“湖南農(nóng)業(yè)大學(xué)國(guó)家麻類(lèi)長(zhǎng)期定位試驗(yàn)基地”(113°04′E,28°10′N(xiāo)),該區(qū)氣候?qū)賮啛釒Ъ撅L(fēng)性濕潤(rùn)氣候。試驗(yàn)品種為中苧1號(hào)(Zhongzhu No.1),由湖南農(nóng)業(yè)大學(xué)苧麻研究所提供。2009年6月7日將育好的麻苗移栽到長(zhǎng)期定位試驗(yàn)小區(qū),設(shè)1個(gè)處理,4次重復(fù),小區(qū)面積約20.00 m2(小區(qū)長(zhǎng)、寬分別為7.50、2.67 m),其中每小區(qū)定56穴,每穴2株秧苗。經(jīng)測(cè)定,供試基地土壤含全氮 1.3 g/kg、堿解氮 81.7 mg/kg、速效鉀 148.0 mg/kg、速效磷 83.4 mg/kg、有機(jī)質(zhì)25.0 g/kg。
以中苧1號(hào)產(chǎn)量及其主要農(nóng)藝性狀數(shù)據(jù)為研究對(duì)象,品種4次重復(fù),測(cè)定項(xiàng)目和方法見(jiàn)下表1,每年收獲3次,數(shù)據(jù)詳情如表2所示。長(zhǎng)期以來(lái)專(zhuān)家和學(xué)者將株高、莖粗、皮厚、有效分株數(shù)、出麻率一起稱為苧麻的五大產(chǎn)量構(gòu)成因素[10]。孫學(xué)兵[11]通過(guò)對(duì)苧麻主要農(nóng)藝性狀和纖維產(chǎn)量與品質(zhì)的分析和研究,發(fā)現(xiàn)株高、莖粗、出麻率3個(gè)因素是構(gòu)成纖維產(chǎn)量的關(guān)鍵因子,其中株高對(duì)產(chǎn)量和品質(zhì)表現(xiàn)出最大正向或負(fù)向貢獻(xiàn),但鮮皮厚度則剛好與之相反。結(jié)合領(lǐng)域?qū)<乙庖?jiàn)和生產(chǎn)經(jīng)驗(yàn),本文選取了苧麻株高、莖粗、分株數(shù)、有效株率和鮮皮厚度5個(gè)產(chǎn)量構(gòu)成因素來(lái)構(gòu)建苧麻的BP神經(jīng)網(wǎng)絡(luò)產(chǎn)量估測(cè)模型。由于部分年份遭遇極端天氣造成部分小區(qū)苧麻倒伏,導(dǎo)致減產(chǎn),因此出現(xiàn)同一季麻中不同小區(qū)的產(chǎn)量數(shù)據(jù)存在較大差異的情況。
表1 測(cè)定項(xiàng)目及方法Table 1 Determination items and methods
表2 2010~2019年中苧1號(hào)產(chǎn)量及其產(chǎn)量構(gòu)成因素Table 2 The yield and yield components of Zhongzhu No.1 during 2010-2019
續(xù)表2
續(xù)表2
續(xù)表2
采用Excel 2010和DPS(v7.05)軟件對(duì)數(shù)據(jù)進(jìn)行處理。
多元線性回歸分析是基于現(xiàn)實(shí)數(shù)據(jù)獲取各相關(guān)變量間聯(lián)系的統(tǒng)計(jì)方法,常被應(yīng)用于通過(guò)已有數(shù)據(jù)構(gòu)建線性回歸模型,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)變化趨勢(shì)的預(yù)測(cè)[14-15]。該模型在農(nóng)作物產(chǎn)量預(yù)測(cè)方面得到了廣泛的應(yīng)用[16],是一種較為成熟的預(yù)測(cè)模型。由于苧麻產(chǎn)量的主要構(gòu)成因素有株高、莖粗、分株數(shù)、有效株率、鮮皮厚度,所以將上述5個(gè)產(chǎn)量構(gòu)成因素納入建立的苧麻產(chǎn)量回歸模型中,結(jié)合表2的中苧1號(hào)9年間(2010~2018年)27個(gè)收獲期(每年3季)108組原始樣本數(shù)據(jù),為增加樣本量,將各收獲期數(shù)據(jù)綜合一起進(jìn)行回歸,得到苧麻產(chǎn)量與產(chǎn)量構(gòu)成因素之間的線性回歸模型如下:
式中:Y為苧麻產(chǎn)量,文中涉及的苧麻產(chǎn)量有2個(gè),一個(gè)是鮮皮產(chǎn)量Y1(103kg/hm2),另一個(gè)是原麻產(chǎn)量 Y2(102kg/hm2),分別建立兩個(gè)產(chǎn)量與產(chǎn)量構(gòu)成因素(X1,X2,…,X5)的多元回歸方程;其中:X1,X2,…,X5分別表示株高(m)、莖粗(cm)、分株數(shù)(104株/hm2)、有效株率(%)和鮮皮厚度(mm),α為隨機(jī)參數(shù),β1,β2…,β5為待定系數(shù)。
1.5.1 BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),該算法即稱BP算法[17-18]。BP神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成,含多層神經(jīng)元。
1.5.2 BP神經(jīng)網(wǎng)絡(luò)運(yùn)行原理
三層神經(jīng)元的BP神經(jīng)網(wǎng)絡(luò)運(yùn)行步驟如圖1所示。
(1)網(wǎng)絡(luò)權(quán)值與閾值的初始化
在數(shù)據(jù)進(jìn)行歸一化處理后,對(duì)神經(jīng)元的各權(quán)值wij和 νij,閾值 θj和 γj賦予區(qū)間(-1,1)內(nèi)的隨機(jī)值,其中:wij,I=1 2,…,p,j=1,2,…,p:輸入層至中間層的連接權(quán);νij,I=1,2,…,p,t=1,2,…,p:中間層至輸入層的連接權(quán);θj,j=1,2,…,p:中間層各單元的輸出閾值;γj,j=1,2,…,p:輸出層各單元的輸出閾值。
(2)給定試驗(yàn)樣本
結(jié)合樣本數(shù)據(jù)向量X1,X2,… Xn和Y1,Y2,… Ym,隨機(jī)選取一組輸入和目標(biāo)樣本,記作:
(3)中間層輸入/輸出計(jì)算
圖1 BP神經(jīng)網(wǎng)絡(luò)算法流程Fig.1 The algorithm flow of BP neural network
式中,sk=(s1,s2,…,sp):中間層單元輸入向量;Bk=(b1,b2,…,bp):輸出向量,j=l,2,…,p。
(4)輸出層輸入/輸出計(jì)算
利用中間層的輸出bj、連接權(quán)νij和閾值γj計(jì)算輸出層各單元的輸入Lt,然后通過(guò)傳遞函數(shù)計(jì)算輸出層各單元的響應(yīng)Ct。
式中,Lk=(l1,l2,…,lq):輸出層單元輸入向量,Ck=(c1,c2,…,cq):輸出向量,t=l,2,…,q。
(5)輸出層一般化目標(biāo)計(jì)算
式中,t=1,2,…,q。
(6)中間層一般化目標(biāo)計(jì)算
(7)連接權(quán)與閾值計(jì)算
利用輸出層各單元的一般化誤差dkt與中間層各單元的輸出bj來(lái)修正連接權(quán)νij和閾值γj。
其中t=1,2,…,q;j=l,2,…,p;0<a<1。這樣,輸出層連接權(quán)和閾值便在中間層各單元的輸出和輸出層一般化目標(biāo)的作用下得到一次修正。
(8)連接權(quán)與閾值修正
其中i=1,2,…,q;j=1,2,…,p;0<β<1。這樣,中間層連接權(quán)和閾值便在中間層輸出和中間層各單元的一般化目標(biāo)的作用下得到一次修正。
(9)學(xué)習(xí)樣本的選取
當(dāng)數(shù)據(jù)樣本學(xué)習(xí)完成后,網(wǎng)絡(luò)將隨機(jī)對(duì)其他樣本按照上述(3)步驟進(jìn)行學(xué)習(xí),直至所有樣本結(jié)束。
(10)全局誤差E的判斷
重新從m個(gè)學(xué)習(xí)樣本中隨機(jī)選取一組輸入和目標(biāo)樣本,返回步驟(3),直到網(wǎng)絡(luò)全局誤差E小于預(yù)先設(shè)定的一個(gè)極小值,即網(wǎng)絡(luò)收斂。
(11)學(xué)習(xí)訓(xùn)練完成[19]。
1.5.3 BP神經(jīng)網(wǎng)絡(luò)產(chǎn)量估測(cè)模型構(gòu)建
運(yùn)用MATLAB軟件編程,以定位點(diǎn)試驗(yàn)10年數(shù)據(jù)構(gòu)建苧麻產(chǎn)量與對(duì)應(yīng)收獲期內(nèi)產(chǎn)量構(gòu)成因素的BP神經(jīng)網(wǎng)絡(luò)產(chǎn)量估測(cè)模型。通過(guò)隱含層節(jié)點(diǎn)數(shù)的比對(duì),結(jié)合數(shù)據(jù)變量和研究目標(biāo)的特點(diǎn),設(shè)定神經(jīng)網(wǎng)絡(luò)模型的隱含層為2層,各層節(jié)點(diǎn)數(shù)為5個(gè),神經(jīng)網(wǎng)絡(luò)的具體結(jié)構(gòu)如圖2所示。隱含與輸出層的傳遞函數(shù)選定tansig和pureline函數(shù),學(xué)習(xí)函數(shù)為traingd函數(shù),訓(xùn)練次數(shù)為6000次,以此作為預(yù)測(cè)苧麻產(chǎn)量的最優(yōu)模型,由于BP神經(jīng)網(wǎng)絡(luò)需要較大樣本量,所以,為增加樣本容量,將歷年各收獲期的108組原始樣本數(shù)據(jù)(見(jiàn)表2)綜合在一起作為訓(xùn)練數(shù)據(jù)。
圖2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意Fig.2 Schematic diagram of neural network structure
通過(guò)DPS軟件對(duì)表2數(shù)據(jù)進(jìn)行多元回歸分析,得到中苧1號(hào)鮮皮產(chǎn)量和原麻產(chǎn)量回歸模型為:
式中:
Y1—鮮皮產(chǎn)量,103kg/hm2;
Y2—原麻產(chǎn)量,102kg/hm2。
通過(guò)網(wǎng)絡(luò)學(xué)習(xí)和訓(xùn)練,當(dāng)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)次數(shù)Epoch為6000次,學(xué)習(xí)速率lr為0.05時(shí),中苧1號(hào)的MSE值最小,收斂于0.0119,如下圖3所示,說(shuō)明此時(shí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的效果較好,獲得了較為穩(wěn)定和理想的結(jié)果。通過(guò)BP神經(jīng)網(wǎng)絡(luò)模型對(duì)樣本數(shù)據(jù)訓(xùn)練,得到中苧1號(hào)鮮皮產(chǎn)量和原麻產(chǎn)量預(yù)測(cè)模型訓(xùn)練的各項(xiàng)誤差指標(biāo),具體如表3所示。
圖3 中苧1號(hào)神經(jīng)網(wǎng)絡(luò)訓(xùn)練圖Fig.3 Neural network trainingmap of three ramie varieties
表3 BP神經(jīng)網(wǎng)絡(luò)產(chǎn)量估測(cè)模型誤差Table 3 Fitting error of ramie yield and prediction value based on BP neural network model
為進(jìn)一步驗(yàn)證產(chǎn)量預(yù)測(cè)模型的模擬效果,在MATLAB程序編寫(xiě)中,選用表2中苧1號(hào)2010~2018年27個(gè)收獲期共計(jì)108組原始樣本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),同時(shí)以2019年不同收獲期的12組真實(shí)產(chǎn)量作為驗(yàn)證數(shù)據(jù),根據(jù)訓(xùn)練好的模型對(duì)2019年苧麻產(chǎn)量進(jìn)行估測(cè),將得到的估測(cè)產(chǎn)量與真實(shí)產(chǎn)量進(jìn)行比對(duì),效果如圖5所示。從圖中可以看出,神經(jīng)網(wǎng)絡(luò)模型下獲取的中苧1號(hào)鮮皮產(chǎn)量和原麻產(chǎn)量的估測(cè)值與真實(shí)值擬合效果整體較好。
圖4 2019年中苧1號(hào)產(chǎn)量預(yù)測(cè)擬合情況Fig.4 The forecast of the yield of Zhongzhu No.1 in 2019
通過(guò)構(gòu)建的回歸模型和BP神經(jīng)網(wǎng)絡(luò)獲取中苧1號(hào)2019年的12組估測(cè)產(chǎn)量,將其與當(dāng)年實(shí)際產(chǎn)量進(jìn)行對(duì)比,結(jié)果如下表4、5所示。整體來(lái)看,基于BP神經(jīng)網(wǎng)絡(luò)方法估測(cè)的中苧1號(hào)產(chǎn)量,在誤差差異和穩(wěn)定性方面明顯優(yōu)于多元線性回歸方法。回歸方法中,中苧1號(hào)鮮皮產(chǎn)量和原麻產(chǎn)量估測(cè)值與真實(shí)值間的絕對(duì)系數(shù)R2分別為0.40和0.47,相對(duì)誤差分別在5.05%~46.60%和1.18%~39.69%范圍內(nèi)波動(dòng),平均相對(duì)誤差分別為15.03%和14.52%;鮮皮產(chǎn)量和原麻產(chǎn)量中均有多組估測(cè)數(shù)據(jù)誤差超過(guò)20%以上,回歸模型估測(cè)的整體效果均較差且波動(dòng)都較大。
BP神經(jīng)網(wǎng)絡(luò)方法中,中苧1號(hào)鮮皮產(chǎn)量和原麻產(chǎn)量估測(cè)值與真實(shí)值間的擬合系數(shù)R2分別為0.93和0.97,相對(duì)誤差分別在0.80%~17.23%和1.14%~11.54%范圍內(nèi)波動(dòng),平均相對(duì)誤差分別為5.78%和4.88%?;贐P神經(jīng)網(wǎng)絡(luò)方法估測(cè)獲取的中苧1號(hào)產(chǎn)量相對(duì)誤差值絕大部分都低于6%,且波動(dòng)較小,其中鮮皮產(chǎn)量?jī)H有2019年頭麻和二麻中各有一組數(shù)據(jù)超出10%,原麻產(chǎn)量?jī)H二麻中有一組數(shù)據(jù)超出10%,說(shuō)明BP神經(jīng)網(wǎng)絡(luò)模型估產(chǎn)的穩(wěn)定性和精度都較好,估測(cè)效果明顯優(yōu)于多元回歸模型,該BP神經(jīng)網(wǎng)絡(luò)估測(cè)模型適用于苧麻產(chǎn)前的產(chǎn)量估測(cè)。
表4 中苧1號(hào)鮮皮產(chǎn)量估測(cè)結(jié)果對(duì)比Table 4 Comparison of prediction results of fresh skin yield of Zhongzhu No.1
表5 中苧1號(hào)原麻產(chǎn)量估測(cè)結(jié)果對(duì)比Table 5 Comparison of prediction results of yield of Zhongzhu No.1
苧麻堪稱我國(guó)服用麻纖維當(dāng)中的“國(guó)寶”,苧麻的增產(chǎn)提質(zhì)對(duì)我國(guó)苧麻產(chǎn)業(yè)的穩(wěn)定發(fā)展有著重要意義[20]。通過(guò)對(duì)苧麻產(chǎn)量和產(chǎn)量構(gòu)成因素的相關(guān)性進(jìn)行分析,建立苧麻的產(chǎn)量估測(cè)模型,提前估測(cè)苧麻產(chǎn)量,對(duì)苧麻田間管理和種植效益的提升都有著積極促進(jìn)作用。本文分別采用多元線性回歸和BP神經(jīng)網(wǎng)絡(luò)兩種方法,利用多年定位試驗(yàn)下中苧1號(hào)的產(chǎn)量和產(chǎn)量構(gòu)成因素相關(guān)數(shù)據(jù)構(gòu)建產(chǎn)量估測(cè)模型,并對(duì)其2019年鮮皮產(chǎn)量和原麻產(chǎn)量進(jìn)行了估測(cè),通過(guò)對(duì)兩種方法估測(cè)的結(jié)果進(jìn)行對(duì)比分析發(fā)現(xiàn):利用多元回歸方法建立的苧麻產(chǎn)量估測(cè)模型得到的估測(cè)值誤差值整體偏大,且波動(dòng)較大,穩(wěn)定性不強(qiáng),有多組數(shù)據(jù)的絕對(duì)誤差值均超過(guò)20%以上;而B(niǎo)P神經(jīng)網(wǎng)絡(luò)方法獲取的苧麻產(chǎn)量估測(cè)值在精度和穩(wěn)定性方面明顯優(yōu)于多元線性回歸模型,模型整體預(yù)測(cè)效果較好,擬合值R2均在0.93以上,且均方誤差(MSE)均低于0.14,優(yōu)于孫叢葦?shù)龋?]研究中支持向量機(jī)(SVR)、多元回歸和BP神經(jīng)網(wǎng)絡(luò)獲取的最高精度,R2分別為0.73、0.66和0.83,MSE分別為0.21、0.26和0.27;也優(yōu)于付虹雨[21]等利用無(wú)人機(jī)遙感圖像估產(chǎn)精度,R2為0.85,證明利用BP神經(jīng)網(wǎng)絡(luò)方法構(gòu)建產(chǎn)量估測(cè)模型的方法比多元回歸方法更適用于苧麻的產(chǎn)量估測(cè),且估測(cè)的精準(zhǔn)度和穩(wěn)定性較好,這與梁姝娜等[22]、高亮亮等[23]和李蓬勃等[24]研究結(jié)果一致。
從BP神經(jīng)網(wǎng)絡(luò)模型估測(cè)的苧麻產(chǎn)量與實(shí)際產(chǎn)量對(duì)比結(jié)果來(lái)看,整體估測(cè)的相對(duì)誤差均值不高,基本在5%上下波動(dòng),但存在一些相對(duì)誤差較大的數(shù)值,導(dǎo)致該結(jié)果的原因很可能是因?yàn)槟P蜆?gòu)建時(shí)選取了苧麻株高、莖粗、分株數(shù)、有效株率等5個(gè)主要產(chǎn)量構(gòu)成因素作為變量,雖然他們是苧麻產(chǎn)量的主要決定因素,但外界因素對(duì)苧麻產(chǎn)量和產(chǎn)量構(gòu)成因素也有一定的影響[25-27],而B(niǎo)P神經(jīng)網(wǎng)絡(luò)估測(cè)模型中未將這些外界影響因素納入,從而使得估測(cè)結(jié)果出現(xiàn)部分?jǐn)?shù)據(jù)誤差較大的情況;另外,在選取BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練和學(xué)習(xí)樣本數(shù)據(jù)時(shí),雖然樣本數(shù)據(jù)量達(dá)到108組,但是真正跨年度的樣本量?jī)H有9年,從年度來(lái)看樣本數(shù)據(jù)量仍偏少,因此在BP神經(jīng)網(wǎng)絡(luò)產(chǎn)量模型進(jìn)行訓(xùn)練時(shí)會(huì)帶來(lái)一定影響,使得模型在產(chǎn)量預(yù)測(cè)時(shí)出現(xiàn)誤差的可能性增大。