王笑娟 孟泉山 肖杰
摘要 利用神經網絡模型研究了品種產量與其他性狀的關系,發(fā)現(xiàn)神經網絡模型在不同次訓練結果中的平均絕對誤差和平均絕對相對誤差的變異系數(shù)較小,但在不同次訓練結果中的各個自變量相對重要性的變異系數(shù)較大。因此,神經網絡較適合用于產量的預測,在用于研究各個性狀對產量的相對重要性時,應采取多次重復求平均值的方法,以減少分析結果的誤差。在所有的性狀中,穗粗、穗長對產量的相對重要性最大,隨后是百粒重、株高和生育期等。同時,還分析了使產量最大時各個性狀的最佳組合。該研究結果對黃淮海地區(qū)玉米育種目標的制定具有一定的參考價值。
關鍵詞 玉米;性狀;神經網絡模型
中圖分類號 S126 文獻標識碼 A
文章編號 0517-6611(2019)08-0228-03
doi:10.3969/j.issn.0517-6611.2019.08.060
Abstract In order to solve the problems of low level of information and lack of depth mining of experimental data in maize breeding, the relation of yield and other characters was conducted in this study by using neural network model. It was showed that the CV (the coefficient of variation) of the mean absolute error and the mean absolute relative error was small, and the CV of relative importance of each independent variable was larger. Therefore, the neural network model was suitable for production forecast. When applying in the researches on relative importance of each trait to yield, we should calculate the average by repetition, in order to to reduce the error of results. Among all the traits, ear diameter and ear length showed the greatest relative importance to yield, followed with 100grain weight, plant height and growth period. Meanwhile, the optimal combination of the traits for the maximum yield was studied. The research results had certain reference value for the formulation of maize breeding targets in Huanghuaihai Area.
Key words Maize;Trait;Neural network model
神經網絡模型是一個簡單通用的可模擬復雜非線性關系的計算機模型,只需要訓練樣木,不需要建模或任何假定,因而彌補了傳統(tǒng)的回歸模型缺乏對非線性問題研究能力的問題,并在很多領域得到廣泛的應用。提高產量是作物育種的首要目標。在玉米育種中,了解產量及其相關性狀之間的關系是十分必要的。但各種相關性狀對產量的貢獻大小不一,因子間還存在著復雜的相互聯(lián)系和影響,這就給育種工作帶來了許多困難。研究人員從利用相關、回歸、通徑、灰色關聯(lián)等不同方法對影響玉米產量的因素和性狀進行了探討[1-3],但由于所在地區(qū)或所用玉米品種的不同,以及研究方法的不同,研究結果很不一致。同時,目前在其他領域逐步得到廣泛應用的計算機神經網絡等分析方法,在玉米育種試驗數(shù)據(jù)的分析中應用不夠。為了解決目前玉米育種試驗數(shù)據(jù)得不到有效分析的實際問題,該研究將應用各種計算機模型對玉米品種產量與其他性狀之間的關系進行模擬,探討不同性狀對產量的相對重要性,以及在最高產量水平下各種性狀的最佳組合,以期為玉米育種目標和育種策略的制定提供指導和幫助。
1 材料與方法
1.1 試驗數(shù)據(jù)
試驗數(shù)據(jù)為2015年黃淮海地區(qū)26個試驗點的玉米區(qū)試的各種性狀數(shù)據(jù)資料,包括來自不同育種單位的80個玉米品種。品種的選取兼顧了不同的育種單位和不同種質基礎,試驗點則涵蓋了黃淮海地區(qū)的各種生態(tài)類型,因此試驗材料和種植地點都具有較好的代表性。數(shù)據(jù)共計1 420組,每組包括生育期性狀,株高、穗位等植株性狀,倒折株數(shù)、空稈株數(shù)、病指數(shù)等抗逆性性狀,以及穗粗、穗長、禿尖、穗行數(shù)、百粒重和產量等相關性狀。
1.2 分析方法
以產量為因變量,其他性狀為協(xié)變量,利用SPSS 22.0進行多層感知器神經網絡模型的分析。由于各個性狀的原始數(shù)據(jù)的量綱和級別不同,首先要進行標準化處理。多層感知器神經網絡模型的實際應用效果受訓練樣本數(shù)量、模型結構等因素影響較大。因此,首先還要進行隱藏層數(shù)和訓練樣本/檢驗樣本比例的優(yōu)選。隱藏層數(shù)一般設置為1或2層,訓練樣本/檢驗樣本的比例設置9∶1、8∶2、7∶3、6∶4、5∶5、4∶6、3∶7、2∶8、1∶9共9個處理。由于神經網絡存在多解問題,因此有必要對不同次訓練結果之間預測精度的變異性以及各個自變量相對重要性的變異性進行研究。最后分析不同性狀對產量的相對重要性,以及在最高產量水平下各種性狀的最佳組合。
2 結果與分析
2.1 神經網絡模型結構的優(yōu)選
隱藏層數(shù)和訓練與檢驗樣本分區(qū)比率對預測誤差的影響見圖1。從圖1可以看出,當訓練與檢驗樣本分區(qū)比率≥7∶3時,預測誤差較小,而且此時隱藏層數(shù)對預測誤差影響不大。若訓練與檢驗樣本分區(qū)比率<7∶3,隨著比率的減小,誤差逐漸增大,而且此時2層隱藏層比1層隱藏層的預測誤差要大??梢?,訓練分區(qū)樣本的數(shù)量較少會影響訓練的效果。因此,該試驗選用訓練、檢驗和預測樣本分區(qū)比率為5∶2∶3和1層隱藏層的網絡結構進行模擬。建立的多重傳感器神經網絡模型含有1個隱藏層,輸入層有10個神經元節(jié)點,即自變量個數(shù),輸出層有1個節(jié)點,隱藏層自動設置7個節(jié)點,構成一個10-7-1的神經網絡模型。模型的基本情況見表1,系統(tǒng)自動生成的各個節(jié)點的權重系數(shù)見表2。
2.2 不同次訓練結果的變異度分析
模擬結果中預測誤差和自變量重要性的變異度比較見表3。從表3可以看出,不同次訓練結果的平均絕對誤差和平均絕對相對誤差的變異系數(shù)較小,但不同次訓練結果中各個自變量相對重要性的變異系數(shù)較大。因此,神經網絡較適合用于進行產量的預測,在用于研究各個性狀對產量的相對重要性時,應采取多次重復求平均值的方法,以減少分析結果的誤差。
2.3 各個性狀的相對重要性
神經網絡模型預測的各種性狀的相對重要性見圖2。從圖2可以看出,穗粗和穗長的相對重要性最高,其次是百粒重、株高和生育期,穗位和倒折株數(shù)的相對重要性中等,而禿尖、傾斜株數(shù)、病指數(shù)和穗行數(shù)的相對重要性較低。
2.4 各個性狀的最佳組合
3種模型的預測結果中,產量最大時各個性狀的最佳組合的結果基本一致,除了禿尖、倒折株數(shù)和空桿株數(shù)等性狀的變異系數(shù)較大之外,其他性狀的變異系數(shù)均較小,而這3個性狀的取值都很小。產量最大時的各個性狀的取值分別為生育期103 d左右、株高300 cm左右、穗位120 cm左右、倒折株數(shù)2~3株、空桿株數(shù)接近0株、穗粗5.6 cm、穗長20 cm、禿尖0.5 cm、穗行數(shù)16行、百粒重39 cm、病指數(shù)1.0。在該合下,預測的最高產量為9 750 kg/hm2左右。
3 結論與討論
神經網絡模型是近年來發(fā)展起來的一種變量關系模擬和預測方法,由于它具有良好的非線性映射能力和很強的自學習適應能力,因而為解決未知不確定性非線性關系問題提供了有效的方法[4]。這些模型對育種家確定不同環(huán)境下的育種目標、比較不同育種方法的優(yōu)劣、設計育種的選擇方案和優(yōu)化策略開展分子輔助選擇育種研究提供了強有力的輔助工具。然而,作物育種學是一門實踐科學,育種方法的研究來源于育種實踐的需要。在以后的研究中,計算機模擬應與育種實踐緊密結合,不斷發(fā)現(xiàn)并解決育種工作中存在的問題,才能真正為育種家服務。
玉米產量除受自然環(huán)境影響外,遺傳因素也具有很重要地位,在玉米育種工作中,通過研究主要農藝性狀及其與產量的相互關系,找出影響產量的主要因素,可以為優(yōu)良雜交種的選育提供選擇依據(jù)[5]。玉米產量是各農藝性狀綜合作用的結果,影響產量的因素很多,有些與產量關系密切,而有些作用較小[6-7]。對玉米雜交種主要農藝性狀的遺傳相關及其與產量的關系已有很多報道,前人大多利用各自不同的育種材料,基于一種方法進行研究,因此結果各不相同[8-9]。該研究發(fā)現(xiàn),在所有的性狀中,穗粗、穗長對產量的相對重要性最大,隨后是百粒重、株高和生育期等,這與張澤民等[10] 、丁山等[11]和卓德眾等[12]的研究結果基本一致。其次,研究還發(fā)現(xiàn),產量最大時各個性狀的最佳組合為生育期103 d左右、株高300 cm左右、穗位120 cm左右、倒折株數(shù)2~3株、空桿株數(shù)接近0株、穗粗5.6 cm、穗長20 cm、禿尖0.5 cm、穗行數(shù)16行、百粒重39 cm、病指數(shù)1.0等,這較符合玉米育種目標的常規(guī)認識和思路。劉帆等[13]、陳發(fā)波等[14]、閆海霞等[15]的結果與該研究也基本一致。針對特定的原始材料和黃淮海地區(qū)特殊的生態(tài)條件,對該玉米育種項目和黃淮海地區(qū)的玉米育種目標和育種策略的制定具有一定的參考價值。
參考文獻
[1] 魯珊,肖荷霞,毛彩云,等.玉米雜交種主要農藝性狀的相關和通徑分析[J].安徽農業(yè)科學,2017,45(21):26-27,58.
[2] 史新海,李可敬,孫為森,等.山東省不同年代玉米雜交種主要農藝性狀演變規(guī)律的研究[J].玉米科學,2000,8(2):33-35.
[3] 李曉花,林永明,謝淑芳,等.玉米產量與主要農藝性狀的灰色關聯(lián)度分析[J].云南農業(yè)科技,2016(1):13-15.
[4] 焦李成,楊淑媛,劉芳,等.神經網絡七十年:回顧與展望[J].計算機學報,2016,39(8):1697-1716.
[5] 佟屏亞.中國玉米生產的發(fā)展方向——質疑“超級玉米”“超高產”[J].農業(yè)科技通訊,2005(8):11-13.
[6] 崔俊明.新編玉米育種學[M].北京:中國農業(yè)科學技術出版社,2007:12-57.
[7] 周得寶,王娟,王五洲,等.夏玉米品系(種)的產量比較及主要農藝性狀的關聯(lián)度分析[J].安徽農業(yè)科學,2017,45(26):48-51,78.
[8] 何文昭.玉米產量和主要農藝性狀雜種優(yōu)勢遺傳分析[D].北京:中國農業(yè)科學院,2017.
[9] 史新海,趙格.山東省緊湊型玉米雜交種主要農藝性狀對產量的影響及其演變規(guī)律的研究[J].玉米科學,2003,11(2):59-61,85.
[10] 張澤民,劉豐明,李雪英.河南省1963~1993年玉米雜交種籽粒產量及其組成性狀的遺傳增益[J].作物學報,1998,24(2):182-186.
[11] 丁山,郭去,宋軍,等.玉米主要性狀與產量的回歸模型及相關分析[J].西南農業(yè)學報,2008,21(5):1226-1230.
[12] 卓德眾,劉啟華,郭紅甫.灰色關聯(lián)度分析法在玉米育種中的應用[J].玉米科學,1996,4(3):31-34.
[13] 劉帆,石海春,余學杰.玉米果穗主要性狀與產量間的相關與通徑分析[J].玉米科學,2005,13(3):17-20.
[14] 陳發(fā)波,楊克誠,榮廷昭,等.西南及四川區(qū)試玉米組合主要性狀分析及育種對策探討[J].玉米科學,2007,15(4):41-45.
[15] 閆海霞,柳家友,吳偉華,等.含非洲血緣玉米雜交種主要穗部性狀與單株產量的相關及通徑分析[J].雜糧作物,2007,27(6):379-381.