楊錦忠,宋希云
青島農(nóng)業(yè)大學(xué)/山東省旱作農(nóng)業(yè)技術(shù)重點實驗室,青島 266109
統(tǒng)計分析專欄
多元統(tǒng)計分析及其在煙草學(xué)中的應(yīng)用
楊錦忠,宋希云
青島農(nóng)業(yè)大學(xué)/山東省旱作農(nóng)業(yè)技術(shù)重點實驗室,青島 266109
比較全面系統(tǒng)地介紹了多元統(tǒng)計分析方法。在闡述多元統(tǒng)計在煙草學(xué)中應(yīng)用重要性、必要性和可行性的基礎(chǔ)上,介紹了以下方法及其在煙草學(xué)中的應(yīng)用:(1)直觀分析和判讀數(shù)據(jù)的多元作圖可視化;(2)把數(shù)據(jù)化繁為簡的主成分分析;(3)將數(shù)據(jù)分門別類的聚類分析;(4)診斷識別新樣品的判別分析;(5)解析兩組變量之間關(guān)聯(lián)的典型相關(guān)分析。用一句話概述特點的方式,列出了典型變量分析、多元方差分析、對應(yīng)分析等經(jīng)典方法,以及空間統(tǒng)計學(xué)、支持向量機、投影尋蹤、分類與回歸樹、偏最小二乘法、結(jié)構(gòu)方程模型等新型方法。強調(diào)了Bootstrap重抽樣對于增強多元統(tǒng)計分析結(jié)論說服力的重要性。
多元統(tǒng)計分析;煙草學(xué);應(yīng)用案例;新技術(shù)新方法
統(tǒng)計學(xué)研究對于煙草研究與應(yīng)用的重要性不言而喻。作者曾分別以“煙草學(xué)術(shù)論文的統(tǒng)計學(xué)表達(dá)與展示”和“單一響應(yīng)變量統(tǒng)計分析在煙草學(xué)中應(yīng)用的若干問題”為題,與煙草學(xué)同仁進(jìn)行了交流。隨著煙草科技的進(jìn)步,數(shù)據(jù)分析方法及計算機軟件的快速發(fā)展與普及,多元統(tǒng)計方法在煙草學(xué)中的應(yīng)用正在從深度與廣度兩個方向快速發(fā)展。本文旨在為廣大煙草學(xué)研究、應(yīng)用和管理人員打開一個全面系統(tǒng)了解多元統(tǒng)計的窗口。
多元統(tǒng)計在煙草學(xué)中應(yīng)用的重要性體現(xiàn)在兩個方面:第一、煙草學(xué)具有客觀多元性。煙草的種植系統(tǒng)、加工系統(tǒng)、消費系統(tǒng)都是復(fù)雜的多組分系統(tǒng)。生態(tài)環(huán)境、煙草品種、種植措施、工藝等諸多因素,共同影響煙草產(chǎn)品的產(chǎn)量與質(zhì)量;經(jīng)濟的、管理的、醫(yī)學(xué)的諸多因素,共同影響煙草產(chǎn)品的營銷和經(jīng)營水平。多元統(tǒng)計恰恰就是專門面向多組分系統(tǒng)的數(shù)據(jù)分析方法。另外,當(dāng)今科學(xué)方法論的發(fā)展趨勢之一是更加重視科學(xué)研究的整體性和全面性,為了展現(xiàn)一個多組分系統(tǒng)中變量之間錯綜復(fù)雜的關(guān)系模式與格局,新型多元統(tǒng)計分析方法不斷涌現(xiàn)。第二、多元統(tǒng)計優(yōu)于一元統(tǒng)計。與一元統(tǒng)計相比,多元統(tǒng)計分析易于發(fā)現(xiàn)處理間細(xì)微判別,對事物的認(rèn)識更深刻,更接近事物本來面目。
多元統(tǒng)計在煙草學(xué)中應(yīng)用的必要性也體現(xiàn)在兩個方面。一方面,數(shù)據(jù)采集手段與方法(環(huán)境因子傳感器技術(shù)、數(shù)字圖像處理和遙感等波譜技術(shù)、DNA測序及基因芯片技術(shù)等)進(jìn)展迅速,自動化與半自動化測量儀器應(yīng)用越來越廣泛,多元數(shù)據(jù)的獲取更加便利,數(shù)據(jù)量日益增多,這已成為煙草學(xué)理論研究和技術(shù)開發(fā)的常態(tài),客觀上要求采用多元統(tǒng)計的數(shù)據(jù)分析方法。另一方面,煙草營銷和經(jīng)營領(lǐng)域與農(nóng)學(xué)等領(lǐng)域不同,通常無法開展控制條件下的隨機化試驗研究,只有“流水帳”式的事實數(shù)據(jù)。對于此類數(shù)據(jù),只有采用多元統(tǒng)計方法,才能在錯綜復(fù)雜的大量數(shù)據(jù)礦產(chǎn)中挖掘出有價值的信息,闡明不同變量之間的關(guān)系,評價各個變量對營銷和經(jīng)營的重要性,探尋變量間作用模式和分布格局。
從現(xiàn)在往前推二三十年,在煙草學(xué)中應(yīng)用多元統(tǒng)計遭遇以下障礙:受到研究手段和儀器設(shè)備限制,試驗重復(fù)次數(shù)少或者樣品數(shù)目小,測定項目少,難以獲得大樣本數(shù)據(jù);計算復(fù)雜,憑借人工方式或者計算器輔助方式難以完成,必須使用計算機軟件,而軟件數(shù)量少且價格高;分析結(jié)果有時不易解讀,基本假定時常難以驗證。目前形勢已發(fā)生了很大變化。經(jīng)典多元統(tǒng)計分析方法在生物學(xué)、生態(tài)學(xué)和農(nóng)學(xué)中的應(yīng)用已經(jīng)是常態(tài),而且,隨著數(shù)據(jù)分析新方法的不斷出現(xiàn),各種商用和免費的計算機多元統(tǒng)計軟件也同步推出,互聯(lián)網(wǎng)突破了統(tǒng)計新技術(shù)傳播的時間和空間限制,大大方便了推廣應(yīng)用。統(tǒng)計軟件的多元作圖和可視化功能增強,在很大程度上增加了原始數(shù)據(jù)和分析結(jié)果的易讀性和直觀性。重抽樣技術(shù)的興起和普及,在較大程度上突破了一些基本假定的限制。除傳統(tǒng)時間序列統(tǒng)計分析領(lǐng)域繼續(xù)進(jìn)步外,生態(tài)系統(tǒng)固有的空間變異屬性受到了前所未有的重視,短短幾十年內(nèi),空間統(tǒng)計學(xué)自誕生以來就一直飛速發(fā)展。所有這些都為我國煙草學(xué)領(lǐng)域廣泛應(yīng)用多元統(tǒng)計創(chuàng)造了良好條件,我們應(yīng)該與時俱進(jìn),主動認(rèn)識它,了解它,這對提升煙草學(xué)研究和生產(chǎn)水平具有重要意義。
二維和三維的散點圖和密度圖有助于識別離群點、極端點和聚合點,初步判斷關(guān)聯(lián)走向[1]。由兩兩變量散點圖組成的陣列圖能夠展示諸多變量之間關(guān)聯(lián)的分布模式和格局。具有動畫的散點圖軟件還可以任意變換視角,選擇展示變量關(guān)聯(lián)的最佳角度。值得指出,圖中坐標(biāo)點既可以是原始數(shù)據(jù),也可以是多元統(tǒng)計的分析結(jié)果。
統(tǒng)計臉譜圖[1-2],也稱Chernoff臉譜圖,是多元作圖的一種經(jīng)典方法,能在平面上直觀、形象地展示多變量數(shù)據(jù)的特征,它有多個變種。其中一種可以繪制最多36個變量的數(shù)據(jù),一個變量對應(yīng)面部的一個特征,左右半臉各對應(yīng)18個變量。應(yīng)用此技術(shù)有兩個關(guān)鍵點,一是變量的歸一化變換(最小值對應(yīng)0,最大值對應(yīng)1),二是面部特征與變量的對照表。利用人類對面部特征細(xì)微變化敏感的心理特質(zhì),借助臉譜圖,既可以同時依據(jù)多個變量對樣品進(jìn)行相似性或者相異性的綜合直觀辨別,也可以識別離群點(例如兩個以上變量取值異常生成極端臉形,又如某個變量取值異常,對應(yīng)面部特征有顯著變化)。
平行坐標(biāo)圖[3]是多元作圖的又一種經(jīng)典方法。平行坐標(biāo)圖與臉譜圖一樣,突破了笛卡兒坐標(biāo)系只能表示二維和三維數(shù)據(jù)的限制,特別適合展示變量數(shù)目超過3個的多元數(shù)據(jù)。其技術(shù)原理很簡單,首先對每個變量進(jìn)行歸一化變換,在橫坐標(biāo)軸上依次排列全部變量,變量值為縱坐標(biāo),一個樣品的各點依次連接為一條折線。離群點看起來是離群的多邊形。變量順序?qū)D形易讀性有重要影響,一種順序可能比另一種順序更能反映數(shù)據(jù)變化的態(tài)勢。使用顏色表示樣品類別可以改善圖的易讀性。
雙標(biāo)圖能夠在圖中同時顯示由多個樣品多個變量(離散型和連續(xù)型)組成的數(shù)據(jù),可以展示主成分、典型相關(guān)、多維尺度分析、各種對應(yīng)分析的結(jié)果[4]。
通俗地講,主成分分析就是將復(fù)雜的多元數(shù)據(jù)進(jìn)行簡化,把多個相互關(guān)聯(lián)的指標(biāo)化簡成少數(shù)幾個相互獨立的綜合指標(biāo),而且,這些綜合指標(biāo)最大程度地保留了原來數(shù)據(jù)的信息。一個變量的信息量常用其方差表示,全部變量的方差總和就是多元數(shù)據(jù)的信息總量。用最簡單的統(tǒng)計語言描述基本原理就是,首先尋找變量的線性組合中最大方差的那一個,稱為第一主成分;接著,在剩余信息中尋找方差最大的、并且與第一主成分獨立的變量線性組合,稱為第二主成分;如此反復(fù),直到剩余信息等于零為止??梢允褂脜f(xié)方差矩陣或者相關(guān)系數(shù)矩陣計算主成分,這兩種計算方法獲得的結(jié)果并不相同。使用協(xié)方差矩陣意味著變量的信息量大小完全取決于其方差大小,而且,當(dāng)變量量綱不同時,產(chǎn)生分析結(jié)果不易解釋問題;使用相關(guān)系數(shù)矩陣則意味著不同變量的信息量相同,并且消除了量綱不同的干擾。主成分的主要用途如下:作為一種化簡即所謂降維技術(shù),構(gòu)造綜合指標(biāo);在二維或者三維空間中實現(xiàn)多元數(shù)據(jù)的可視化;作為其它多元統(tǒng)計分析的數(shù)據(jù)源,例如主成分回歸、主成分聚類、主成分判別等。
主成分的簡化能力取決于原始變量之間的線性相關(guān)性,相關(guān)性越強,簡化效果越明顯。例如,汪顯國等[6]利用主成分方法綜合評價煙絲產(chǎn)品中6種加香物質(zhì)含量的均勻性,前兩個主成分的累計方差和達(dá)到總方差的98.8%,這意味著已經(jīng)把6個變量化簡為2個新變量,同時幾乎保留了原來6個變量的全部信息。
主成分分析最早根據(jù)多元聯(lián)合正態(tài)分布推導(dǎo)而來,顯然,連續(xù)性、正態(tài)性和線性相關(guān)成為基本假定。趙杰宏等人[7]的研究中煙葉變量(外觀質(zhì)量指標(biāo)和評吸質(zhì)量指標(biāo))都是有序變量而非連續(xù)變量,明顯不符合主成分分析的連續(xù)性和正態(tài)性假定,顯然不能使用普通相關(guān)系數(shù),而應(yīng)該使用Polychoric相關(guān)系數(shù)[5]。隨著新型統(tǒng)計技術(shù)的出現(xiàn),主成分分析正在突破早期的假定限制,如投影尋蹤主成分等方法解決了主成分對離群點敏感的問題,提供了所謂的穩(wěn)健主成分,又如核主成分等方法解決了經(jīng)典主成分無法處理變量間非線性關(guān)系的問題,拓展了主成分的應(yīng)用范圍。
鑒于試驗或者調(diào)查研究的結(jié)果總是樣本結(jié)果,人們就用樣本的主成分近似總體的主成分。樣本結(jié)果的偶然性必然引起樣本主成分的偶然性,這時,如何確定合理的主成分?jǐn)?shù)目和如何準(zhǔn)確計算主成分的標(biāo)準(zhǔn)誤就成為影響主成分實際應(yīng)用效果的重要問題。目前看來,Bootstrap等統(tǒng)計重抽樣技術(shù)提供了一種切實可行的解決方案[8]。
聚類分析是根據(jù)“物以類聚”的思路,對樣品或者指標(biāo)(即變量)進(jìn)行分類的一種多元統(tǒng)計分析方法。聚類分析屬于數(shù)值分類的范疇,是一種探索性數(shù)據(jù)挖掘技術(shù)。樣品聚類分析是在事先不知道應(yīng)分多少類的情況下,進(jìn)行探索性分析,對觀察對象即樣品依據(jù)某些數(shù)量特征適當(dāng)分類。變量聚類分析是在事先不知道應(yīng)分多少類的情況下,進(jìn)行探索性分析,對觀察對象的數(shù)量特征直接分類。樣品分類的常用距離有:歐氏距離,馬氏距離,閔可夫斯基距離等,樣品間距離越小則劃入同一類的可能性越大,反之亦然。指標(biāo)分類的常用相似系數(shù)有:夾角余弦,相關(guān)系數(shù),指標(biāo)間相似性越大則劃入同一類的可能性越大[9]。上述情形只限于連續(xù)型變量,對于二值變量組成的多元數(shù)據(jù),最好構(gòu)造特殊的距離或者相似系數(shù)[1]。為消去變量量綱不同或者變異幅度不同的影響,樣品聚類時,要對變量進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化或者極差標(biāo)準(zhǔn)化變換,而變量聚類時,同樣要對樣品進(jìn)行標(biāo)準(zhǔn)化變換。
聚類分析的功能在于發(fā)現(xiàn)多元數(shù)據(jù)中自然存在的分組或者類型,廣泛用于煙草基因型分類[10]、產(chǎn)地生態(tài)分類[11]、產(chǎn)品生理生化指標(biāo)分類、作物性狀分類[12]等領(lǐng)域。聚類分析基本步驟有兩個:一是選擇距離或者相似系數(shù)的計算方法,二是選擇合并子類的計算方法。二者都沒有公認(rèn)的選擇標(biāo)準(zhǔn),主要根據(jù)聚類結(jié)果與專業(yè)領(lǐng)域經(jīng)驗的吻合程度加以判斷。經(jīng)典的聚類分析不考慮分類結(jié)果的穩(wěn)定性,沒有確定最終分類數(shù)目的準(zhǔn)則,使應(yīng)用效果受到較大影響。針對這些問題,Bootstrap等統(tǒng)計重抽樣技術(shù)在一定程度上給出較好的解決方案,幫助確定最終分類數(shù)目,剖析分類結(jié)果的穩(wěn)定性等[13],統(tǒng)計軟件的較新版本都具有這種功能[14-15]。聚類結(jié)果通過實踐檢驗以后,就可以進(jìn)一步付諸判別分析,以解決新樣品的歸類問題。
判別分析是在多元數(shù)據(jù)中全部樣品分類明確的條件下,建立判別函數(shù)和判別準(zhǔn)則的一種多元統(tǒng)計分析方法。它的終極目標(biāo)是根據(jù)一個新樣品的多指標(biāo)測量結(jié)果,即多變量觀測值,判斷它歸屬于已知類型中的哪一類。判別分析在煙草上有廣泛應(yīng)用,例如,根據(jù)遭受病害或者蟲害的煙草植株或者器官或者組織的多個癥狀,診斷病害或者蟲害的種類。根據(jù)煙葉或者煙絲的多個理化特性,識別其產(chǎn)地或者產(chǎn)品類別。根據(jù)煙草DNA指紋,識別其基因型身份。
判別分析的基本原理是按照一定的判別準(zhǔn)則,建立一個或多個判別函數(shù),用研究對象的大量資料即多元數(shù)據(jù)確定判別函數(shù)中的待定系數(shù),并計算判別指標(biāo)。據(jù)此即可確定某一新樣品屬于何類。目前常用的判別準(zhǔn)則為極大似然法和貝葉斯法。經(jīng)典的費雪線性判別函數(shù)適用于線性可分的分類和識別問題,并且要求不同類別具有同質(zhì)的協(xié)方差矩陣。當(dāng)協(xié)方差矩陣不同質(zhì)時,可以使用二次判別函數(shù)以完成分類和識別任務(wù)[9]。使用核判別函數(shù)則可以解決更復(fù)雜的非線性分類與識別問題,已經(jīng)成功應(yīng)用于植物的種子識別和花朵識別[16]。
通過評價判別分析結(jié)果的穩(wěn)定性,可以提高分析結(jié)論的說服力,因此,應(yīng)該在判別分析時使用Bootstrap等統(tǒng)計重抽樣技術(shù),協(xié)助從全部變量中篩選穩(wěn)健的變量子集,估計誤判概率等[17-18]。
典型相關(guān)分析是研究兩組變量之間線性相關(guān)的一種多元統(tǒng)計方法,通常用于研究初級階段的探索性簡化分析。用于典型相關(guān)分析的多元數(shù)據(jù),事先必須將測定指標(biāo)即變量,按照自然屬性劃分為兩組。若兩組變量地位相同,則可以把典型相關(guān)看作是研究它們之間相互關(guān)聯(lián)的一種分析方法。若兩組變量有依賴關(guān)系,則可以認(rèn)為典型相關(guān)能夠通過自變量組解釋依變量組的變化。煙草學(xué)的不少實際問題可歸結(jié)為典型相關(guān)研究,如煙草性狀與環(huán)境因素之間的相關(guān),育種目標(biāo)性狀和選擇性狀之間的關(guān)系[9],煙草兩組性狀,如物理性狀和化學(xué)性狀之間的相關(guān)等[19-20]。
典型相關(guān)基本原理是構(gòu)造互不相關(guān)的若干配對的典型變量,每對典型變量分別來自兩組原始變量的線性組合。它把復(fù)雜的組內(nèi)變量相關(guān)和組間變量相關(guān),化簡為配對內(nèi)典型變量間的相關(guān)。第一對典型變量間相關(guān)性最強,第二對次之,以此類推,典型變量配對數(shù)目的最大值等于兩組變量數(shù)目的最小值,實際應(yīng)用中只使用前面少數(shù)幾對重要的典型變量[21]。從數(shù)學(xué)角度看,兩個變量之間直線相關(guān),以及一個依變量和多個自變量之間的復(fù)(線性)相關(guān)都是典型相關(guān)的特例。
和主成分分析一樣,典型相關(guān)分析基于總體的聯(lián)合正態(tài)分布假定,利用試驗或者調(diào)查得到的樣本數(shù)據(jù),開展有關(guān)總體參數(shù)的估計和顯著性檢驗。它對非正態(tài)數(shù)據(jù)或者抽樣誤差的敏感性超過其它多元統(tǒng)計方法。為提高分析結(jié)論的說服力,應(yīng)該采用Bootstrap重抽樣技術(shù)對典型相關(guān)、典型系數(shù)、典型結(jié)構(gòu)等進(jìn)行統(tǒng)計檢驗[22]。
還有很多其它多元統(tǒng)計方法可以應(yīng)用于煙草學(xué)理論研究與技術(shù)開發(fā),限于篇幅無法一一介紹。例如,典型變量分析用于剖析多個變量對類別間差異的作用格局[12,23],多元方差分析用于檢驗試驗處理間的多變量綜合差異[23],對應(yīng)分析在卡平方獨立性檢驗的基礎(chǔ)上深入解析行變量和列變量的相互依存格局[1,9],因子分析用于發(fā)現(xiàn)對現(xiàn)有觀測變量起到制約或者主導(dǎo)作用的一組潛變量[24-25]。
除上述那些經(jīng)典方法外,還有一些值得關(guān)注的新型多元統(tǒng)計方法,諸如空間統(tǒng)計學(xué)用于描述作物各種特性的地理分布模式與格局[26-27],支持向量機回歸突破了傳統(tǒng)非線性回歸只能擬合顯式方程的限制[28],投影尋蹤用于判別分析、聚類分析和回歸分析,拓寬了這些經(jīng)典多元統(tǒng)計技術(shù)的適用條件[29],分類與回歸樹巧妙利用簡易的二叉樹來解決變量數(shù)目多、彼此關(guān)系復(fù)雜條件下的分類與預(yù)測問題[30-31],偏最小二乘回歸用于解決自變量數(shù)目多于樣品數(shù)目時的多個依變量預(yù)測問題[32-33],結(jié)構(gòu)方程模型用于一次性構(gòu)建多個多層次因果關(guān)系模型[4,21,34],如此等等。
強烈推薦在多元統(tǒng)計分析時使用Bootstrap等統(tǒng)計重抽樣技術(shù),以增加分析結(jié)果的說服力。不過,在多元統(tǒng)計分析中使用統(tǒng)計重抽樣技術(shù),效果雖然優(yōu)于不使用,但是,仍然不如直接進(jìn)行驗證性的實際重復(fù)試驗更有說服力。
[1]沃爾夫?qū)す吕?利奧波德·西馬.應(yīng)用多元統(tǒng)計分析[M].陳詩一,譯.北京:北京大學(xué)出版社,2011.
[2]李紹石.農(nóng)民能學(xué)會用的簡單圖示統(tǒng)計分析第四講臉譜圖示統(tǒng)計分析方法[J].植保技術(shù)與推廣,2003(02):39-40.
[3]徐永紅,高直,金海龍,等.平行坐標(biāo)原理與研究現(xiàn)狀綜述[J].燕山大學(xué)學(xué)報,2008(05):389-392.
[4]Johnson R A,Wichern D W.Applied multivariate statistical analysis.[M].5thed.New Jersey:Prentice-Hall,2002.
[5]Kolenikov S,Angeles G.The use of discrete data in PCA:theory,simulations,and applications to socioeconomic indices[J].Chapel Hill:Carolina Population Center,University of North Carolina,2004.
[6]汪顯國,申曉鋒,劉澤,等.基于主成分分析法的煙絲加香均勻性評價[J].中國煙草學(xué)報,2013,19(5):33-42.
[7]趙杰宏,謝升東,王軼,等.GGE雙標(biāo)圖在中間香型煙葉特色彰顯度分析中的應(yīng)用[J].中國煙草學(xué)報,2013,19(4):28-34.
[8]Babamoradi H,Frans van den Berg,?smund Rinnan.Bootstrap based confidence limits in principal component analysis — A case study[J].Chemometrics and Intelligent Laboratory Systems,2013,120:97-105.
[9]袁志發(fā),宋世德.多元統(tǒng)計分析[M].北京:科學(xué)出版社,2009.
[10]劉雷,馬炎,梁宇,王勇,等.四川地方晾曬煙品種葉面形狀分析[J].中國煙草學(xué)報,2011,17(03):53-57.
[11]董賢春,王軍,吳東,等.宜昌興山煙區(qū)土壤主要養(yǎng)分變化分析及用肥分區(qū)研究[J].中國煙草學(xué)報,2012,18(06):65-68.
[12]李娜娜,楊錦忠,郝建平.逆境下玉米果穗形狀及其與產(chǎn)量的關(guān)系[J].應(yīng)用生態(tài)學(xué)報,2011(07):1782-1788.
[13]Kerr M K,Churchill G A.Bootstrapping cluster analysis:assessing the reliability of conclusions from microarray experiments[J].Proceedings of the National Academy of Sciences,2001,98(16):8961-8965.
[14]Suzuki R.Pvclust:An R package for assessing the uncertainty in hierarchical clustering[J].Bioinformatics,2006,22(12):1540-1542.
[15]Hampl V,Pavlícek A,Flegr J.Construction and bootstrap analysis of DNA fingerprinting-based phylogenetic trees with a freeware program FreeTree:Application to trichomonad parasites[J].International Journal of Systematic and Evolutionary Microbiology,2001,51:731-735.
[16]Baudat G,Anouar F.Generalized discriminant analysis using a kernel approach[J].Neural Computation,2000,12(10):2385–2404.
[17]Chernick M R.Bootstrap Methods:A Guide for Practitioners and Researchers[M].2nd Edition.New York:Wiley,2007.
[18]陳友義,涂冬生.判別分析中誤判概率的展開估計、Jackknife估計和Bootstrap估計[J].應(yīng)用概率統(tǒng)計,1987,03:203-210.
[19]鄧小華,周清明,周冀衡,等.煙葉質(zhì)量評價指標(biāo)間的典型相關(guān)分析[J].中國煙草學(xué)報,2011,17(03):17-22.
[20]Li D,XU Z,CHEN J.Canonical Correlation Analysis between Main Chemical Components and Physical Properties in Flue-Cured Tobacco Leaves [J].Journal of Henan Agricultural University,2007,5:4.
[21]Lattin J M,Carroll J D,Green P E.Analyzing multivariate data[M].Pacific Grove,CA:Thomson Brooks/Cole,2003.
[22]Oslund E L.Canonical Correlation Analysis:A Step-by-Step Example in Commonly Available Software[J].Multiple Linear Regression Viewpoints,2010,36(2):29-39.
[23]Vu?eti? A,Petrovi?-Obradovi? O,Stanisavljevi? L ?.The morphological variation of Myzuspersicae(Hemiptera:Aphididae)from peach and tobacco in Serbia and Montenegro[J].Archives of Biological Sciences,2010,62(3):767-774.
[24]林琳,曲亞玲,沈鳳蘭,等.真?zhèn)尉頍熤髁鳠煔庵笜?biāo)的因子分析和聚類分析[J].中國煙草學(xué)報,2010,16(04):5-8.
[25]Radzius A,Epstein D H,Gorelick D A,et al.A factor analysis of the Fagerstr?m Test for Nicotine Dependence(FTND)[J].Nicotine & Tobacco Research,2003,5(2):255-260.
[26]劉愛利 ,王培法 ,丁園圓.地統(tǒng)計學(xué)概論[M].北京:科學(xué)出版社,2012.
[27]Fischer M,Leung Y.Geocomputational Modelling:Techniques and Applications [M]/ Advances in Spatial Science.Berlin:Springer-Verlag,2010.
[28]張勇,叢茜,謝云飛,等.煙草組分的近紅外光譜和支持向量機分析[J].高等學(xué)?;瘜W(xué)學(xué)報,2009(04):697-700.
[29]成平,李國英.投影尋蹤——一類新興的統(tǒng)計方法[J].應(yīng)用概率統(tǒng)計,1986,03:267-276.
[30]趙萍,傅云飛,鄭劉根,等.基于分類回歸樹分析的遙感影像土地利用/覆被分類研究[J].遙感學(xué)報,2005(06):708-716.
[31]張松林.CART-分類與回歸樹方法介紹[J].火山地質(zhì)與礦產(chǎn),1997(01):67-75.
[32]Shao Y,He Y,Wang Y.A new approach to discriminate varieties of tobacco using vis/near infrared spectra[J].European Food Research and Technology,2007,224(5):591-596.
[33]Wang F,Chen D,Shao X G.Application of Wavelet Transform and Partial Least Square in Prediction of Common Chemical Compositions in Tobacco Samples[J].Tobacco Science & Technology/Inspection & standard,2004(3):31-34.
[34]王酉石,儲誠進(jìn).結(jié)構(gòu)方程模型及其在生態(tài)學(xué)中的應(yīng)用[J].植物生態(tài)學(xué)報,2011(03):337-344.
Multivariate statistical analysis methods and their application in tobacco science
YANG Jinzhong,SONG Xiyun
Qingdao Agricultural University / Shandong Provincial Key Laboratory of Dry Farming Techniques,Qingdao 266109
The paper was intended to open a multivariate statistical analysis(MSA)window where researchers,practitioners and managers capture some systemic pictures of MSA from a view of comprehensibility.Importance,essentiality and feasibility were analyzed of MSA application to tobacco science.Five MSA methods and their applications in applied botany including tobacco were introduced in a concise way,plus advances in the methods.These methods include(1) graphs and visualization of multivariate data;(2)principle component analysis for dimension reduction;(3)cluster analysis for classification and categorization;(4)discrimination analysis for identification and diagnosis;(5)canonical correlation analysis for interdependence and dependence between 2 sets of variables.Three additional traditional MSA methods of canonical variate analysis,multivariate variance analysis and correspondence analysis were listed by means of one sentence summary of their functions.New MSA methods were also mentioned of geo-statistics,support vector machine,projection pursuit,classification and regression trees,partial least square and structural equation modeling.Bootstrap resampling technique was strongly recommended to use together with MSA in order to enhance the reliability of results.
multivariate statistical analysis; tobacco science; statistical application cases; new statistical techniques
10.3969/j.issn.1004-5708.2014.05.022
O212 文獻(xiàn)標(biāo)志碼:A 文章編號:1004-5708(2014)05-0134-05
泰山學(xué)者崗位(20090510);山東省旱地作物水分高效利用創(chuàng)新團(tuán)隊(20121025)
楊錦忠(1963—),男,教授,從事數(shù)字農(nóng)業(yè)研究,Email:jzyang@qau.edu.cn
宋希云(1963—),男,教授,從事作物遺傳育種研究,Tel:0532-86080009,E-mail:songxy@qau.edu.cn
2013-10-12 Epub:2014-10-20