宋 釗, 張白鴿, 曹 健
(廣東省農(nóng)業(yè)科學(xué)院蔬菜研究所 廣東省蔬菜新技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,廣州 510640)
SAS的英文全名是Statistical Analysis System,即統(tǒng)計(jì)分析系統(tǒng),從20世紀(jì)60年代末期由美國北卡羅來納州立大學(xué)兩位教授開始發(fā)展的,是當(dāng)今國際上最著名的數(shù)據(jù)分析軟件之一,目前已經(jīng)與SPSS(Statistical product and service solutions)和BMDP(Bio Medical Data Processing)并駕齊驅(qū)[1],在國際上被譽(yù)為數(shù)據(jù)處理和統(tǒng)計(jì)分析的標(biāo)準(zhǔn)軟件系統(tǒng),在國內(nèi)廣泛用于農(nóng)業(yè)試驗(yàn)統(tǒng)計(jì)分析[2]。
對于SAS,SPSS和EXCEL等幾個(gè)數(shù)據(jù)統(tǒng)計(jì)軟件的使用已經(jīng)有多篇報(bào)道從各方面進(jìn)行了較多研究[3-5],比較各個(gè)軟件在實(shí)際使用過程的優(yōu)缺點(diǎn)。由于SAS系統(tǒng)為全英文界面,對于英語基礎(chǔ)比較薄弱的使用者存在一定困難,并且程序模塊化,對于沒有計(jì)算機(jī)程序語言編程基礎(chǔ)的人員來說不易掌握[5],所以很長一段時(shí)間內(nèi)國內(nèi)研究者在進(jìn)行單因素或者多因素方差分析時(shí)大多使用在農(nóng)業(yè)生物統(tǒng)計(jì)中得到廣泛應(yīng)用的Excel[6-7]。但是Excel只能給出方差分析表,不能進(jìn)行平均數(shù)的多重比較和字母標(biāo)記差異顯著性結(jié)果[5],不能同時(shí)對多組觀察值一次性全部進(jìn)行方差分析,如果樣本數(shù)較多將費(fèi)時(shí)費(fèi)力并且容易出錯(cuò)。本文介紹利用SAS統(tǒng)計(jì)軟件同時(shí)對20組辣椒品種在3個(gè)不同脅迫條件下辣椒葉片葉綠素含量數(shù)據(jù)進(jìn)行方差分析,檢測同一個(gè)品種在不同澇漬脅迫條件葉片葉綠素含量差異顯著性,同時(shí)對20個(gè)品種間的葉綠素含量差異進(jìn)行比較。
總計(jì)20份辣椒材料,為辣椒屬一年生種(CapsicumannuumL.),按照果實(shí)形狀可以分為尖椒、甜椒、美人椒和線椒4個(gè)類型,均為在華南地區(qū)栽培較廣,具有一定代表性的栽培種。
試驗(yàn)在廣州市天河區(qū)五山路廣東省農(nóng)業(yè)科學(xué)院蔬菜研究所旁邊科研基地大棚中進(jìn)行,2015年4月15號播種,5月12間苗,5月15號開始脅迫處理。試驗(yàn)設(shè)置1個(gè)對照和澇漬脅迫3、6和9 d等3個(gè)處理,然后恢復(fù)3 d,每個(gè)處理3個(gè)重復(fù),每個(gè)重復(fù)每個(gè)品種10株,穴盤1孔放1株,品種隨機(jī)排序。對照進(jìn)行正常田間管理,缺水后即澆水。澇漬脅迫方法參照尹冬梅等[8]的方法加以改進(jìn),水層高于辣椒植株根部2~3 cm,用帶體積刻度的量杯倒入等體積水量開始脅迫處理。
使用日本柯尼卡美能達(dá)(Konica Minolta)SPAD-502 PLUS葉綠素?zé)晒鈨x對葉片的葉綠素含量進(jìn)行測定,該儀器通過測量葉子對兩個(gè)波長段里的吸收率,來評估當(dāng)前葉子中的葉綠素的相對含量,用SPAD值表示目前葉子中葉綠素含量相對應(yīng)的參數(shù)。
The SAS System for Windows Version 8.01 TS Level 01M0;SAS Institute,Cary,NC,USA(美國北卡羅來納州SAS研究所出品)。本試驗(yàn)為平衡試驗(yàn)設(shè)計(jì),采用過程步PROC的ANOVA進(jìn)行方差分析,同時(shí)進(jìn)行Duncan′s multiple-range test多重比較。
表1為澇漬脅迫處理后對照和3個(gè)處理的植株葉片葉綠素SPAD值,每個(gè)品種每個(gè)處理測量15個(gè)數(shù)據(jù),20個(gè)品種4組數(shù)據(jù)總計(jì)1200個(gè)數(shù)據(jù)。限于篇幅表1每個(gè)品種只列出了5個(gè)重復(fù)數(shù)據(jù),省去了小數(shù)點(diǎn)后面數(shù)值。
表1 20份辣椒材料澇漬脅迫下葉片葉綠素?zé)晒釹PAD值Table 1 Chlorophyll SPAD values of leaves of 20 pepper varieties under waterlogging stress
2.2.1 建立SAS數(shù)據(jù)集
如表1數(shù)據(jù)在SAS系統(tǒng)中是不能直接使用的,需要轉(zhuǎn)換成SAS的格式,也就是建立數(shù)據(jù)集,我們通過SAS語言的數(shù)據(jù)步DATA中的INPUT函數(shù)和CARDS選項(xiàng)建立數(shù)據(jù)集。
核心代碼及說明如下:
DATA Work.yelvsu; /*輸入20個(gè)辣椒品種葉綠素?cái)?shù)據(jù)*/
DO trt=1 TO 4; /*4個(gè)處理數(shù)序號,保留*/
DO t=1 TO 15;
INPUT brd1-brd20@@;
OUTPUT;
END;
END;
DROP t; /*15個(gè)重復(fù)數(shù)序號,丟棄*/
CARDS;
38 32 32 42 37 34 29 32 32 38 37 37 35 44 40 35 28 30 37 30
40 35 33 38 40 36 37 29 39 38 36 36 38 41 42 39 31 33 37 34
40 34 35 39 32 36 27 27 43 34 39 35 37 38 35 39 38 33 33 33
39 39 29 35 37 39 31 29 36 33 42 36 34 36 38 39 39 37 34 31
41 36 38 37 32 33 33 29 31 25 38 37 39 37 37 40 28 28 36 34
……(省略部分類似數(shù)據(jù))
;
RUN;
“DATA Work.yelvsu;”語句建立臨時(shí)庫Work的數(shù)據(jù)集yelvsu;“DO trt=1 TO 4;”語句表示在最外層進(jìn)行4次循環(huán),因?yàn)橛?組數(shù)據(jù);“DO t=1 TO 15;”語句表示連續(xù)寫入15個(gè)重復(fù)值;“DROP t;”語句則表示重復(fù)次數(shù)1到15不需要寫入數(shù)據(jù)集,只寫入相對應(yīng)的SPAD值;“INPUT brd1-brd20@@;”語句表示一行寫入20個(gè)品種的SPAD值;“OUTPUT;”語句表示將過程步中的數(shù)據(jù)輸出到數(shù)據(jù)集中保存起來;“CARDS;”語句則列出INPUT所有變量對應(yīng)的數(shù)據(jù),以“;”表示數(shù)據(jù)的結(jié)束。執(zhí)行之后自動(dòng)建立trt和brd1,brd2,brd3…,brd20等21列數(shù)據(jù)。只有當(dāng)原始數(shù)據(jù)排列格式如表1時(shí),使用上述SAS程序語句就可以直接建立適合SAS進(jìn)行統(tǒng)計(jì)分析的數(shù)據(jù)集。
2.2.2 對20個(gè)辣椒品種同時(shí)進(jìn)行方差分析
在Excel中只能對20組辣椒澇漬脅迫實(shí)驗(yàn)數(shù)據(jù)逐個(gè)進(jìn)行方差分析,在SAS中可以一次性對20組數(shù)據(jù)同時(shí)進(jìn)行分析。使用SAS的過程步PROC對數(shù)據(jù)進(jìn)行分析,同時(shí)進(jìn)行DUNCAN多重比較,顯著性水平0.05。
核心代碼及注釋如下:
PROC ANOVA data=WORK.Yelvsu; /*調(diào)用上一步建立的數(shù)據(jù)集Yelvsu*/
class TRT;
model BRD1 BRD2 BRD3 BRD4 BRD5 BRD6 BRD7 BRD8 BRD9 BRD10 BRD11 BRD12 BRD13
BRD14 BRD15 BRD16 BRD17 BRD18 BRD19 BRD20=TRT; /*對20個(gè)品種進(jìn)行方差分析*/
means TRT / HOVTEST=LEVENE; /*進(jìn)行方差齊性檢驗(yàn)*/
means trt / DUNCAN alpha=0.05; /*進(jìn)行DUNCAN多重比較*/
RUN;
對本試驗(yàn)而言,辣椒葉片葉綠素SPAD值是因變量,進(jìn)行澇漬脅迫使得辣椒葉片葉綠素含量在處理間出現(xiàn)差異,那么脅迫處理為“因素”,加上對照,此“因素”具有4個(gè)“水平”,在單因素方差分析中該“因素”為自變量,自變量是唯一的。在SAS語句中,通過“class TRT;”語句將TRT設(shè)置為水平,對4個(gè)水平進(jìn)行方差分析和比較。按照蓋鈞鎰[9]對實(shí)驗(yàn)統(tǒng)計(jì)方法的描述,本試驗(yàn)中對1個(gè)辣椒品種進(jìn)行4個(gè)水平方差分析為“組內(nèi)觀察值數(shù)目相等的單向分組資料的方差分析”,那么上述SAS語句“model BRD1 BRD2 BRD3 BRD4 BRD5 BRD6 BRD7 BRD8 BRD9 BRD10 BRD11 BRD12 BRD13 BRD14 BRD15 BRD16 BRD17 BRD18 BRD19 BRD20=TRT; ”可以一次性完成20組單向分組資料的方差分析,這樣就一次性對20個(gè)品種在澇漬脅迫3、6和9 d后葉片的葉綠素含量差異進(jìn)行了顯著性分析,而不用重復(fù)20次相同的工作?!癿eans TRT / HOVTEST=LEVENE;”表示在方差分析之前先進(jìn)行方差的齊性檢驗(yàn)?!癿eans trt / DUNCAN alpha=0.05;”表示執(zhí)行唐肯氏多范圍檢定(Duncan’s Multiple-Range Test),當(dāng)進(jìn)行顯著性水平為0.05的多重比較時(shí),“alpha=0.05”參數(shù)可以省略。
2.3.1 建立數(shù)據(jù)集
比較20個(gè)辣椒品種在3個(gè)處理與對照之間的葉片葉綠素SPAD含量差異顯著性,需要重新建立數(shù)據(jù)集。
核心語句及注釋如下:
DATA Work.yelvsu1; /*輸入所有品種葉綠素?cái)?shù)據(jù)*/
DO trt=1 TO 4; /*4個(gè)處理數(shù),保留*/
DO t=1 TO 15; /*15個(gè)重復(fù)數(shù),不寫入數(shù)據(jù)庫*/
DO brd=1 TO 20; /*20個(gè)品種數(shù),保留*/
INPUT spad@@;
OUTPUT;
END;
END;
END;
DROP t;
CARDS;
38 32 32 42 37 34 29 32 32 38 37 37 35 44 40 35 28 30 37 30
40 35 33 38 40 36 37 29 39 38 36 36 38 41 42 39 31 33 37 34
40 34 35 39 32 36 27 27 43 34 39 35 37 38 35 39 38 33 33 33
39 39 29 35 37 39 31 29 36 33 42 36 34 36 38 39 39 37 34 31
41 36 38 37 32 33 33 29 31 25 38 37 39 37 37 40 28 28 36 34
……(省略部分類似數(shù)據(jù))
;
RUN;
由于是比較品種間在不同澇漬脅迫條件下葉片葉綠素含量的差異,那么這里可以把20個(gè)品種看成一個(gè)因素的20個(gè)水平,所以需要將所有20個(gè)品種葉片葉綠素SPAD值放到SAS數(shù)據(jù)集單獨(dú)一列中,以便進(jìn)行處理間的方差比較,在SAS語句中通過添加一個(gè)循環(huán)來實(shí)現(xiàn),具體語句為“DO brd=1 TO 20;”。執(zhí)行之后數(shù)據(jù)集yelvsu1會(huì)產(chǎn)生trt,brd和spad共3列數(shù)據(jù)。
2.3.2進(jìn)行方差分析
比較澇漬脅迫下辣椒品種間葉片葉綠素含量差異,并進(jìn)行DUNCAN多重比較。
核心代碼和注釋如下:
PROC anova data=Work.yelvsu1; /*調(diào)用上一步建立的數(shù)據(jù)集Yelvsu1*/
class BRD;
model spad=BRD;
means BRD / HOVTEST=LEVENE;
means brd / DUNCAN; /*默認(rèn)顯著性水平為0.05*/
RUN;
“class BRD;”語句是把所有20個(gè)辣椒品種看作一個(gè)因素的20個(gè)水平,比較20個(gè)辣椒品種間在澇漬脅迫下葉綠素含量是否存在差異顯著性。如果把所有的辣椒品種看成一個(gè)整體,比較4個(gè)處理之間在澇漬脅迫下葉片葉綠素含量是否有差異,在程序中把class的值修改為TRT即可。在進(jìn)行多重比較時(shí),不寫alpha參數(shù)值則默認(rèn)顯著性水平為0.05。如果想同時(shí)比較不同品種間和不同處理間辣椒葉片SPAD值差異,按照蓋鈞鎰[9]對實(shí)驗(yàn)統(tǒng)計(jì)方法的描述,此類分析屬于“組內(nèi)有重復(fù)觀察值的兩向分組資料的方差分析”[9],即多因素方差分析。與楊孔雀等[10]使用的方法不同,SAS系統(tǒng)PROC步的anova分析主要研究單個(gè)因素對因變量的影響[11],多因素方差分析建議使用PROC步的GLM模型進(jìn)行參數(shù)估計(jì)。
在SAS數(shù)據(jù)集的建立方法上,除了本文所述采用DATA步的input函數(shù)方法外,還可以使用從外部導(dǎo)入數(shù)據(jù)文件的方法,但是在導(dǎo)入數(shù)據(jù)之前需要將數(shù)據(jù)整理成SAS所需要的格式。在農(nóng)業(yè)生物統(tǒng)計(jì)中常常需要對大量的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,在本篇文章中有1500個(gè)葉綠素SPAD值數(shù)據(jù),在將該數(shù)據(jù)在Excel中整理成SAS所需格式時(shí),由于數(shù)據(jù)超長,1500個(gè)數(shù)據(jù)就需要占用1500行,超過一個(gè)屏幕的高度,這樣在整理數(shù)據(jù)容易造成數(shù)據(jù)的丟失、重疊等問題。當(dāng)使用SAS分析較大數(shù)量的數(shù)據(jù)時(shí)建議使用DATA步來建立數(shù)據(jù)集,盡量不要采用人工整理數(shù)據(jù)然后導(dǎo)入SAS的方式,避免人為錯(cuò)誤導(dǎo)致分析結(jié)果的失真。
使用SAS同時(shí)對20個(gè)辣椒品種進(jìn)行差異顯著性分析,明顯比用Excel逐個(gè)進(jìn)行方差分析更為方便快捷,并且能用字母標(biāo)注法顯示各個(gè)品種在各處理間的顯著性差異。在SAS系統(tǒng)中Work數(shù)據(jù)庫是一個(gè)臨時(shí)庫,當(dāng)SAS系統(tǒng)關(guān)閉時(shí),臨時(shí)數(shù)據(jù)庫中的內(nèi)容會(huì)被自動(dòng)清空,所以在實(shí)際使用過程中建議單獨(dú)建立一個(gè)永久庫,這樣避免每次進(jìn)行數(shù)據(jù)分析時(shí)都要重新建立數(shù)據(jù)集的麻煩。DATA步INPUT語句中的“@@”符號表示順序依次連續(xù)讀入數(shù)據(jù),如果沒有此符號則按照行讀入數(shù)據(jù)。在實(shí)際SAS分析數(shù)據(jù)時(shí)我們往往遇到組內(nèi)觀察值數(shù)據(jù)不完整的情況,這時(shí)我們可以將空格數(shù)據(jù)用英文狀態(tài)的“.”來代替,但是過程步PROC這里不能使用ANOVA,ANOVA主要對平衡實(shí)驗(yàn)設(shè)計(jì)的數(shù)據(jù)執(zhí)行變異數(shù)分析,對于不平衡試驗(yàn)設(shè)計(jì)數(shù)據(jù)則建議用一般線性模型GLM進(jìn)行變異數(shù)分析。
[1]彭紹英.世界統(tǒng)計(jì)與分析全才 SAS 系統(tǒng)應(yīng)用指南[M].北京: 希望電子出版社, 2000: 1-868.
[2]顏亭玉, 杜曉林.SAS聚類分析過程在農(nóng)業(yè)試驗(yàn)統(tǒng)計(jì)分析中的應(yīng)用[J].北京農(nóng)學(xué)院學(xué)報(bào), 2009,24(1): 73-75.
[3]周 倩, 張晉昕.含缺失值的重復(fù)測量資料分析在SPSS和SAS中的實(shí)現(xiàn)[J].循證醫(yī)學(xué), 2013,13(2): 120-123.
[4]林 潔, 孫志明.SAS、PASS、Stata三種常用軟件樣本量計(jì)算方法及結(jié)果差異的比較[J].中國醫(yī)藥導(dǎo)報(bào), 2015,12(18): 133-137.
[5]詹秋文.Excel和SAS在生物統(tǒng)計(jì)學(xué)的應(yīng)用比較[J].生物學(xué)雜志, 2009,26(1): 74-76.
[6]霍志軍, 李菊艷, 潘曉琳.Excel在農(nóng)業(yè)生物統(tǒng)計(jì)分析中的應(yīng)用[J].現(xiàn)代化農(nóng)業(yè), 2003(9): 28-30.
[7]范 平, 崔黨群, 詹克慧, 等.Excel軟件在生物統(tǒng)計(jì)實(shí)驗(yàn)教學(xué)中的綜合開發(fā)應(yīng)用[J].實(shí)驗(yàn)技術(shù)與管理, 2003,20(2): 65-69.
[8]尹冬梅, 管志勇, 陳素梅, 等.菊花及其近緣種屬植物耐澇評價(jià)體系建立及耐澇性鑒定[J].植物遺傳資源學(xué)報(bào), 2009, 10(3): 399-404.
[9]蓋鈞鎰.試驗(yàn)統(tǒng)計(jì)方法[M].北京: 中國農(nóng)業(yè)出版社, 2000: 100-127.
[10]楊孔雀, 孫占育, 蒙惠軍.用SAS軟件進(jìn)行組內(nèi)有重復(fù)的兩向分組資料的方差分析[J].河北農(nóng)業(yè)科學(xué), 2010,14(10): 165-166.
[11]阮 敬.SAS統(tǒng)計(jì)分析從入門到精通[M].北京: 人民郵電出版社, 2009: 99-122.