吳建忠
(黑龍江省農(nóng)業(yè)科學(xué)院經(jīng)濟作物研究所,哈爾濱 150086)
主成分回歸法對亞麻纖維產(chǎn)量的綜合評價
吳建忠
(黑龍江省農(nóng)業(yè)科學(xué)院經(jīng)濟作物研究所,哈爾濱 150086)
研究通過對亞麻12個農(nóng)藝性狀的相關(guān)性分析,確定亞麻纖維產(chǎn)量相關(guān)顯著的農(nóng)藝性狀,利用主成分分析原理進行相關(guān)性狀的降維處理,消除亞麻纖維產(chǎn)量綜合評價中存在的性狀間多重共線性影響,對亞麻纖維產(chǎn)量進行綜合評價。結(jié)果表明,主成分回歸法可以有效消除亞麻纖維產(chǎn)量綜合評價中出現(xiàn)的性狀間多重相關(guān)性問題,該法可對亞麻纖維產(chǎn)量進行綜合評價,為作物產(chǎn)量的綜合評價提供新思路。
亞麻;纖維產(chǎn)量;主成分回歸;綜合評價
亞麻(Linum usitatissimumL.)是亞麻科亞麻屬,一年生草本長日照經(jīng)濟植物,是主要韌皮纖維作物之一,在紡織、化工、建材、裝飾、醫(yī)藥等行業(yè)中有廣泛應(yīng)用,具有高經(jīng)濟附加值[1]。亞麻產(chǎn)業(yè)發(fā)展前景廣闊,如何對亞麻前端產(chǎn)業(yè)(亞麻纖維產(chǎn)量)進行合理評價一直是亞麻育種工作者探索方向。
纖維亞麻育種目標(biāo)是培育原莖產(chǎn)量高、出麻率高、纖維品質(zhì)好、種子產(chǎn)量高、抗逆性強、適應(yīng)性廣、抗倒伏的新品種,以滿足工農(nóng)業(yè)生產(chǎn)需要。中國亞麻育種工作開始于19世紀(jì)50年代,主要是農(nóng)家品種整理及種質(zhì)資源引進,目前我國亞麻育種重點是高纖育種,抓緊吸收和利用國內(nèi)外優(yōu)良品種資源,選育出我國高纖品種[2]。纖維含量性狀具有廣泛遺傳多樣性,吳廣文等研究發(fā)現(xiàn),育成全麻率40%品種可能性大,但獲得高麻率的同時,經(jīng)常出現(xiàn)纖維質(zhì)量下降現(xiàn)象[3],育種者需要可靠、有效的方法確定纖維含量。
主成分回歸法應(yīng)用于農(nóng)作物產(chǎn)量綜合評價報道較少,亞麻纖維產(chǎn)量綜合評價是育種工作亟待解決的問題之一,目前亞麻纖維評估方法僅見利用亞麻莖中段出麻率快速估算單株出麻率,提高亞麻纖維估測效率[4]。本研究旨在提出一種快速而簡單的亞麻纖維產(chǎn)量綜合評價方法,通過對亞麻纖維產(chǎn)量相關(guān)性狀進行深入分析,采用主成分回歸分析,探討纖維產(chǎn)量性狀間相關(guān)性及影響亞麻纖維產(chǎn)量主成分因子,為亞麻纖維產(chǎn)量的綜合評價提供技術(shù)支持和理論依據(jù),為選育高纖亞麻新品種提供科學(xué)依據(jù)。
1.1 試驗時間、地點
本研究供試的亞麻材料來源于黑龍江省農(nóng)業(yè)科學(xué)院經(jīng)濟作物研究所亞麻育種研究室育種圃品種(系),分別于2012年和2013年在黑龍江省農(nóng)業(yè)科學(xué)院國家高新技術(shù)產(chǎn)業(yè)示范園區(qū)(民主鄉(xiāng))種植并取樣考種收集數(shù)據(jù)。
1.2 試驗材料
通過隨機取樣方法,從試驗地育種圃抽取樣本52份,3次重復(fù)進行數(shù)據(jù)測量,收集12個亞麻性狀。
1.3 試驗方法
1.3.1 試驗設(shè)計
在試驗地塊隨機播種,2 m×1 m區(qū)設(shè)置,小區(qū)3次重復(fù),行距為15 cm,播種均勻不斷條,田間管理按常規(guī)方式進行,收獲考種盡量保持一致。
1.3.2 性狀考查及數(shù)據(jù)處理
亞麻農(nóng)藝性狀調(diào)查參照文獻[5]。
利用DPS-v9.50數(shù)據(jù)處理系統(tǒng)[6]和Microsoft Ex?cel 2003數(shù)據(jù)分析軟件進行數(shù)據(jù)整理及分析,具體分析如下:取各性狀考種結(jié)果項2年3次重復(fù)的平均值進行一般統(tǒng)計量描述及分析,對性狀指標(biāo)進行相關(guān)性分析,對亞麻纖維產(chǎn)量相關(guān)性狀進行主成分分析,對所得公因子進行多重共線性回歸分析,探討各相關(guān)性狀對亞麻纖維產(chǎn)量的影響作用,進行亞麻纖維產(chǎn)量的綜合評價。
2.1 試驗材料的一般統(tǒng)計量表現(xiàn)
田間測量及室內(nèi)考種所得12個亞麻性狀(見表1),分別以代號(X1~X12)表示,由其一般統(tǒng)計量描述可見,生育期(X1)約74 d,變異方差較小,其變異系數(shù)只有2.94%,表明該性狀變化較小;出苗數(shù)(X2)和收獲株數(shù)(X3)變化范圍及方差均較大,其變異系數(shù)分別達16.44%和19.40%,屬于人工改良空間較大的性狀;株高(X4)和工藝長度(X5)變幅也較大,但其變異系數(shù)較小,表明該性狀在低世代選育可起關(guān)鍵作用;分枝數(shù)(X6)和蒴果數(shù)(X7)變異方差均較小,但其變異系數(shù)都較大,分別達16.78%和25.39%,應(yīng)此這兩個性狀可考慮在低世代適當(dāng)放寬選擇強度,在高世代進行嚴(yán)格選育;干莖制成率(X8)是干莖產(chǎn)量占原莖產(chǎn)量的百分?jǐn)?shù),其變異方差較小,但反應(yīng)干莖產(chǎn)量和原莖產(chǎn)量雙重影響,因原莖產(chǎn)量(X10)變異方差最大,達1 400 520.98,其變異系數(shù)也較大,達15.50%,而干莖制成率(X8)變異系數(shù)卻較小,表明干莖和原莖變化趨勢較一致,均可反映纖維的物質(zhì)積累情況,因此亞麻纖維育種在一定程度上應(yīng)注重高世代對原莖產(chǎn)量(X10)的選育;全麻率(X9)反映纖維重量占干莖重量的比重,其平均值為27.72%,變異方差及系數(shù)分別為9.71和11.24%,是纖維產(chǎn)量重要評價因素;種子產(chǎn)量(X11)和纖維產(chǎn)量(X12)變幅、方差及變異系數(shù)較大。
2.2 性狀相關(guān)分析
將亞麻各性狀進行遺傳相關(guān)分析,結(jié)果見表2,可見,與纖維產(chǎn)量X12遺傳相關(guān)比較密切的性狀有:原莖產(chǎn)量(X10)、全麻率(X9)、出苗數(shù)(X2)、收獲株數(shù)(X3)、干莖制成率(X8)、株高(X4)、工藝長度(X5)和種子產(chǎn)量(X11),相關(guān)性狀間關(guān)系見圖1,其中與纖維產(chǎn)量直接相關(guān)的有全麻率(X9)和原莖產(chǎn)量(X10),且都達極顯著水平,與纖維產(chǎn)量二級相關(guān)表現(xiàn)顯著的有出苗數(shù)(X2)、收獲株數(shù)(X3)和干莖制成率(X8),其中干莖制成率(X8)與原莖產(chǎn)量(X10)呈顯著負(fù)相關(guān),表現(xiàn)三級相關(guān)的性狀有株高(X4)、工藝長度(X5)和種子產(chǎn)量(X11),種子產(chǎn)量(X11)通過與出苗數(shù)(X2)及收獲株數(shù)(X3)的極顯著負(fù)相關(guān)作用于原莖產(chǎn)量(X10)從而影響纖維產(chǎn)量(X12),株高(X4)、工藝長度(X5)和干莖制成率(X8)呈極顯著負(fù)相關(guān),從而間接作用于原莖產(chǎn)量(X10)影響到纖維產(chǎn)量(X12)。
表1 性狀一般描述統(tǒng)計量Table 1 Character description statistics in general
表2 亞麻性狀相關(guān)分析Table 2 Correlation analysis of characters in flax
圖1 纖維產(chǎn)量相關(guān)性狀Fig.1 Fibre yield related traits
2.3 性狀間共線性分析
通過對纖維產(chǎn)量相關(guān)分析,在其余11個性狀中選出與纖維產(chǎn)量相關(guān)的8個性狀,相關(guān)系數(shù)分析(見表2)顯示,部分性狀間的相關(guān)性較高,如果直接進行回歸分析可能會產(chǎn)生嚴(yán)重共線性問題。為揭示這一問題的存在,對所選8個性狀進行線性回歸分析(見表3),得到回歸方程式:
其中,出苗數(shù)(X2)、收獲株數(shù)(X3)、株高(X4)及工藝長度(X5)對纖維產(chǎn)量(X12)的影響水平不顯著(顯著水平值均大于0.05),同時該回歸模型殘差分析結(jié)果:R=0.997,決定系數(shù)R2=0.995,調(diào)整相關(guān)R2=0.997,Durbin-Watson值為2.280,接近于2,提示殘差間無明顯相關(guān)性。對相關(guān)性狀進行亞麻纖維產(chǎn)量的多重共線性分析(見表4),各性狀值方差膨脹因子(VIF)均在10以下,但出苗數(shù)(X2)、收獲株數(shù)(X3)、株高(X4)及工藝長度(X5)的膨脹因子均接近于10,說明這些性狀間的多重共線性關(guān)系顯著。綜合以上分析,經(jīng)對這些性狀作一步主成分分析,以消除性狀間的多重共線性關(guān)系。
表3 相關(guān)性狀的線性回歸分析Table 3 Linear regression analysis of related properties
表4 性狀間多重共線性分析Table 4 Multicollinearity analysis of traits
2.4 主成分分析
2.4.1 主成分提取
對纖維產(chǎn)量相關(guān)性狀進行主成分特征值進行累積分析(見表5)。
由表5可知,前3個特征因子的特征值都大于1.8,而且3個主成分的累積貢獻率達到75.89%,且均在20%以上。因此,宜提取前3個特征因子作為主因子進行主成分分析,可以概括亞麻生物學(xué)性狀的絕大部分信息,其中第一主成分的貢獻率最大,達33.66%,第二、三主成分貢獻率分別為21.36%和20.87%。
表5 主成分特征值累計百分率Table 5 Cumulative rate of principal component characteristic value
為驗證亞麻纖維產(chǎn)量相關(guān)性狀間多重共線性分析結(jié)果的真實性,對所選因子進行載荷矩陣分析,結(jié)果見表6,共同度的大小衡量所提取因子包含原始數(shù)據(jù)的信息量,顯然分析結(jié)果中大部分變量的共同度均高于0.7,說明提取的公共因子可反映原變量的基本情況,因此選擇主因子數(shù)M=3,總貢獻率達75.89%。
2.4.2 計算主成分載荷矩陣和特征向量
一般用某一原始變量在主成分上的載荷值表示主成分與原始變量指標(biāo)之間的相關(guān)程度,載荷值越高,表明該主成分包含原始指標(biāo)的信息量越多[7]。從選出的8個主要性狀在各個主成分上的特征向量可以表明,主成分1的特征向量中,載荷較高且為正值的性狀有出苗數(shù)(X2)、收獲株數(shù)(X3)、株高(X4)、工藝長度(X5)和原莖產(chǎn)量(X10),只有種子產(chǎn)量(X11)為負(fù)值,且載荷值較高,表明亞麻出苗數(shù)(X2)、收獲株數(shù)(X3)、株高(X4)、工藝長度(X5)、原莖產(chǎn)量(X10)和種子產(chǎn)量(X11)是亞麻纖維積累的主要影響因子,而除種子產(chǎn)量(X11)外其余5個性狀是纖維物質(zhì)積累的正向影響因素,只有種子產(chǎn)量(X11)越大,則纖維積累量越小。
表6 性狀間因子載荷矩陣Table 6 Loading matrix of traits factor
主成分2特征向量中,只有全麻率(X9)的載荷較高,達到0.69,而全麻率是纖維占干莖重量的比值,結(jié)合性狀相關(guān)分析可見,全麻率是由亞麻品種特性決定的亞麻纖維產(chǎn)量表現(xiàn)的一個方面,受栽培措施影響較小,因此全麻率不是亞麻纖維產(chǎn)量的作用因子。
主成分3特征向量中,載荷較高且為正值的性狀有株高(X4)和工藝長度(X5),其特征向量分別為0.62和0.53,而株高和工藝長度表現(xiàn)極顯著正相關(guān),表明株高越高,工藝長度越長;載荷較高且為負(fù)值的性狀有出苗數(shù)(X2)和收獲株數(shù)(X3),出苗數(shù)和收獲株數(shù)表現(xiàn)極顯著正相關(guān),這一特征向量中可合理解釋亞麻田間性狀的實際分布。
通過對亞麻性狀的主成分分析,可以認(rèn)為主成分1反映亞麻纖維物質(zhì)積累的基本情況,對主成分1相關(guān)性狀進行方差分析,回歸方差達到極顯著水平,進一步多元線性回歸分析,得到回歸方程式:
2.4.3 多元線性驗證
為驗證線性模型進行亞麻纖維產(chǎn)量綜合評價的合理性,將7份亞麻品系的田間實測值與多元回歸計算值進行比較(見表7),誤差E為差值占實測值的百分比。結(jié)果顯示,多元回歸值誤差均在6%以內(nèi),相對于亞麻纖維產(chǎn)量實測值而言,多元回歸結(jié)果可以在一定程度上代表實際纖維產(chǎn)量。因此,可以利用便于測量的田間及考種數(shù)據(jù)進行亞麻纖維實際產(chǎn)量的綜合評估,從而減少纖維測量的漚麻環(huán)節(jié),提高纖維育種效率。
表7 纖維產(chǎn)量實測值與計算值比較Table 7 Measured values of fiber yield compared with the calculated value
本試驗結(jié)果表明,亞麻性狀中X2、X3、X6、X7、X9、X10和X11變異系數(shù)較大,說明可以通過良種選配和改善栽培措施等方法使這些性狀得到較大程度提高。X4和X5變異系數(shù)次之,說明通過良種選配和改善栽培措施等方法可能使這些性狀獲得一定程度的改善;X1和X8性狀間差異不大,其變異系數(shù)均較小,表明這兩種性狀通過良種選配和改善栽培措施等方法改進難度較大。
相關(guān)農(nóng)藝性狀間具有制約關(guān)系,即某一性狀的提高有可能使得另外一個或幾個性狀下降,因此在選擇育種中只有達到平衡才能培育出高優(yōu)品種。在作物相關(guān)性狀綜合評價中提出利用主成分回歸進行各相關(guān)性狀分析,目的在于消除變量間的相關(guān)性,使得最終回歸模型的參數(shù)更加可信,并建立相關(guān)性狀評價的合理模型,實現(xiàn)對作物某一性狀的綜合評價[8-9]。主成分回歸法是將主成分與多元共線性回歸結(jié)合使用的方法,在多元線性回歸中,若自變量之間存在較強共線性,則得出的回歸模型不穩(wěn)定,這時,可用少數(shù)幾個主成分與應(yīng)變量建立回歸方程,避免上述情況發(fā)生。由于主成分之間互不相關(guān),保證回歸方程穩(wěn)定性,因此該法可處理多重共線性問題[10]。
在主成分分析中,如果大部分變量的共同度都高于0.7,說明提取的公共因子已經(jīng)反映原變量的80%。共同度的大小衡量因子分析中提取的因子包含原始數(shù)據(jù)的信息量,因此本研究對相關(guān)性狀主成分提取最終得到合理解釋。
本研究通過3種判別方法確定亞麻部分性狀間存在較嚴(yán)重的多重共線性關(guān)系,分別為亞麻部分性狀的相關(guān)系數(shù)接近于1,可認(rèn)為性狀間存在多重共線性;在亞麻相關(guān)性狀的多元線性回歸分析中,決定系數(shù)很大(R2=0.99),但部分偏回歸系數(shù)檢驗不顯著,此時性狀間可認(rèn)為存在多重共線性;最后采用方差膨脹因子VIF判別分析得到,出苗數(shù)(X2)、收獲株數(shù)(X3)、株高(X4)及工藝長度(X5)的膨脹因子VIF均接近10,說明這些性狀間的多重共線性關(guān)系顯著。因此,本研究確定亞麻相關(guān)性狀存在顯著多重共線性關(guān)系,有必要進行相關(guān)性狀的主成分分析。
通常在作物性狀分析中,采用多元線性回歸方法分析結(jié)果較合理,性狀間關(guān)系與現(xiàn)代農(nóng)業(yè)理論相吻合。但亞麻性狀存在關(guān)聯(lián),受到外界環(huán)境影響,大多多元線性回歸分析的結(jié)果難以采用。多元線性回歸分析結(jié)果不合理性可用主成分回歸分析方法加以校正[11],這種方法能在一定程度上糾正不合理分析結(jié)果。但在少數(shù)情況下,試用主成分回歸分析方法也難以改變不合理結(jié)果。本研究中通過多元線性回歸分析法解釋亞麻纖維積累的影響因素,對亞麻纖維產(chǎn)量進行合理綜合評價。因此,主成分回歸法可作為亞麻纖維產(chǎn)量綜合方法。
本研究將亞麻12個農(nóng)藝性狀進行較全面深層次分析,表明主成分回歸分析能有效解決影響亞麻纖維產(chǎn)量綜合評價各相關(guān)性狀間存在多重共線性問題。當(dāng)亞麻纖維產(chǎn)量相關(guān)性狀明確后,即可用主成分回歸分析法進行亞麻纖維產(chǎn)量綜合評價。
[1]Wróbel-Kwiatkowska M,Kulma A,Starzycka E,et al.Improving retting of fiber through genetic modification of flax to express pec?tinases[J].Transgenic Research,2008,17(1):133-147.
[2]康慶華,關(guān)鳳芝,王玉富,等.中國亞麻分子育種研究進展[J].中國農(nóng)業(yè)科學(xué),2006,39(12):2428-2434.
[3]吳廣文.俄羅斯亞麻資源研究現(xiàn)狀和進展[J].黑龍江農(nóng)業(yè)科學(xué),2008(2):148-149.
[4]李明,楊學(xué).一種估測亞麻出麻率的簡便方法[J].中國麻作,2001,23(1):9-10.
[5]王玉富,粟建光.亞麻種質(zhì)資源描述規(guī)范和數(shù)據(jù)標(biāo)準(zhǔn)[M].北京:中國農(nóng)業(yè)出版社,2006.
[6]唐啟義,馮明光.使用統(tǒng)計分析及其DPS數(shù)據(jù)處理系統(tǒng)[M].北京:科學(xué)出版社,2002.
[7]Roweis S T,Saul L K.Nonlinear dimensionality reduction by lo?cally linear embedding[J].Science,2000,290:2323-2326.
[8]白志英,李存東,孫紅春,等.小麥代換系抗旱性生理指標(biāo)的主成分分析及綜合評價[J].中國農(nóng)業(yè)科學(xué),2008,41(12):4264-4272.
[9]朱宗河,鄭文寅,張學(xué)昆.甘藍型油菜耐旱相關(guān)性狀的主成分分析及綜合評價[J].中國農(nóng)業(yè)科學(xué),2011,44(9):1775-1787.
[10]顏虹.醫(yī)學(xué)統(tǒng)計學(xué)[M].北京:人民衛(wèi)生出版社,2005.
[11]陳鋒.主成分回歸分析[J].中國衛(wèi)生統(tǒng)計,1991,8(1):20-22.
Comprehensive evaluation of fiber yield in flax with principal compo?nent regression
WU Jianzhong
(Institute of Industrial Crops,Heilongjiang Academy of Agricultur- al Sciences,Harbin 150086,China)
The correlation analysis between the 12 agronomic traits of flax in this study,and the flax fiber production related significant agronomic traits are determined.Comprehensive evaluation for flax fiber production based on the principle of using principal component analysis to reduce the dimension related traits,yield-related traits of flax fiber multivariate linear regression analysis.The results showed that the principal component regression method ccould effectively eliminate the multiple correlation among characters of flax production in the comprehensive evaluation.The method can be integrated assessment of flax fiber production.This study provides a new idea and method for the comprehensive evaluation of crop yield.
flax;fiber yield;principal component regression analysis;comprehensive evaluation
S563.2
A
1005-9369(2014)11-0022-06
2014-07-10
國家麻類產(chǎn)業(yè)技術(shù)體系建設(shè)專項資金(CARS-19);國家農(nóng)業(yè)部科技支撐計劃基金(2013BAD01B03);國家自然科學(xué)青年基金(31401451);黑龍江省農(nóng)科創(chuàng)新青年基金(2012QN009);哈爾濱市科技創(chuàng)新工程青年基金(2013RFQYJ010)
吳建忠(1983-),男,助理研究員,博士研究生,研究方向為亞麻遺傳育種。E-mail:wujianzhong176@163.com
時間2014-11-21 16:40:03[URL]http://www.cnki.net/kcms/detail/23.1391.S.20141121.1640.009.html
吳建忠.主成分回歸法對亞麻纖維產(chǎn)量的綜合評價[J].東北農(nóng)業(yè)大學(xué)學(xué)報,2014,45(11):22-27.
Wu Jianzhong.Comprehensive evaluation of fiber yield in flax with principal component regression[J].Journal of Northeast Agricultural University,2014,45(11):22-27.(in Chinese with English abstract)