楊書林
[摘 要]我國(guó)高等院校生物統(tǒng)計(jì)學(xué)課程多使用SPSS統(tǒng)計(jì)軟件作為課堂配合軟件使用。由于該軟件是商業(yè)軟件,功能繁多,遠(yuǎn)超入門生物統(tǒng)計(jì)課程所需的基本數(shù)據(jù)分析功能。對(duì)SPSS統(tǒng)計(jì)軟件進(jìn)行安裝配置并使用其作為入門生物統(tǒng)計(jì)課程教學(xué)軟件增加了教學(xué)復(fù)雜程度及成本。相較而言GNU PSPP基本上滿足入門生物統(tǒng)計(jì)課程教學(xué)軟件的要求,可作為教學(xué)軟件使用。
[關(guān)鍵詞]描述性統(tǒng)計(jì) t檢驗(yàn) 單因素方差分析 多因素方差分析 線性回歸
[中圖分類號(hào)] G40-057 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 2095-3437(2015)08-0110-04
現(xiàn)今高等院校非統(tǒng)計(jì)專業(yè)開設(shè)生物統(tǒng)計(jì)學(xué)基礎(chǔ)課程時(shí)多使用IBM SPSS Statistics(以下簡(jiǎn)稱SPSS)配合課程上機(jī)實(shí)習(xí)。SPSS因其可以完全使用菜單操作無(wú)需學(xué)習(xí)編程以進(jìn)行數(shù)據(jù)分析而得到廣泛使用。然而對(duì)于大學(xué)本科二、三年級(jí)學(xué)生學(xué)習(xí)生物統(tǒng)計(jì)學(xué)基礎(chǔ)課程而言,通常僅涉及基本的統(tǒng)計(jì)方法,僅需使用SPSS的一小部分功能。SPSS是一個(gè)功能完善的商業(yè)軟件,將其安裝配置于學(xué)校機(jī)房作為入門統(tǒng)計(jì)課程的配套軟件,無(wú)疑會(huì)增加學(xué)校的管理設(shè)置難度及學(xué)生學(xué)習(xí)的復(fù)雜程度。筆者自從事生物統(tǒng)計(jì)學(xué)課程教學(xué)以來(lái),一直致力于尋找及嘗試使用免費(fèi)、易用的統(tǒng)計(jì)軟件進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析以降低學(xué)習(xí)復(fù)雜程度,一款完全免費(fèi)的名為GNU PSPP的自由軟件包,界面與SPSS的基本相同,但包含基本的統(tǒng)計(jì)方法,且無(wú)需像SAS統(tǒng)計(jì)軟件或另一免費(fèi)的R統(tǒng)計(jì)語(yǔ)言那樣涉及大量編程以進(jìn)行數(shù)據(jù)分析,簡(jiǎn)單易用且具有圖形使用界面,完全可以滿足一般入門生物統(tǒng)計(jì)學(xué)課程的需要。筆者對(duì)GNU PSPP的軟件界面語(yǔ)言進(jìn)行了漢化以便用于教學(xué)。以下介紹GNU PSPP的特點(diǎn)及功能并與SPSS作比較以供廣大師生參考。
一、GNU PSPP簡(jiǎn)介
GNU PSPP(以下簡(jiǎn)稱PSPP)是一款以代替SPSS為目的用于數(shù)據(jù)分析的完全免費(fèi)的自由軟件。該軟件具有與SPSS類似的圖形操作界面、輸出界面及語(yǔ)法輸入界面,可與SPSS一樣通過(guò)圖形界面操作或編寫語(yǔ)法文件進(jìn)行數(shù)據(jù)分析。PSPP是一個(gè)多平臺(tái)運(yùn)行軟件,在類Linux及Windows視窗操作系統(tǒng)上均可安裝運(yùn)行。目前其版本為0.8.5,可從其主頁(yè)(https://www.gnu.org / software / pspp)獲取相應(yīng)版本進(jìn)行安裝。在PSPP的各項(xiàng)菜單中,文件、編輯、視圖、窗口及幫助等與常見的視窗軟件菜單及功能類似。其核心的數(shù)據(jù)分析操作集中于數(shù)據(jù)、變換、工具及分析菜單中。前三項(xiàng)菜單下為各項(xiàng)數(shù)據(jù)相關(guān)的操作,如匯總、加權(quán)、變換等。而分析菜單是數(shù)據(jù)分析的核心功能所在,該菜單結(jié)構(gòu)如下(表1):
表1 GNU PSPP的分析菜單結(jié)構(gòu)
分析—描述性統(tǒng)計(jì)—頻率
| |-描述統(tǒng)計(jì)
| |-數(shù)據(jù)探索
| |-交叉表
|-比較均值—均值
| |-單樣本T檢驗(yàn)
| |-獨(dú)立樣本T檢驗(yàn)
| |-成對(duì)樣本T檢驗(yàn)
| |-單因素方差分析
|-單變量分析
|-二元相關(guān)性
|-K均值聚類分析
|-因子分析
|-信度分析
|-回歸—線性回歸
| |-二元Logistic回歸分析
|-非參數(shù)統(tǒng)計(jì)—卡方
| |-二項(xiàng)分布檢驗(yàn)
| |-游程檢驗(yàn)
| |-單樣本Kolmogorov?鄄Smirnov檢驗(yàn)
| |-兩個(gè)樣本相關(guān)性檢驗(yàn)
| |-K個(gè)樣本相關(guān)性檢驗(yàn)
|-ROC曲線
由該列表可知,PSPP的分析功能基本涵蓋了生物統(tǒng)計(jì)學(xué)入門課程(以教育部“十二五”國(guó)家級(jí)規(guī)劃教材中的兩本生物統(tǒng)計(jì)教材[1] [2]為例)所需的基礎(chǔ)統(tǒng)計(jì)分析方法:描述性統(tǒng)計(jì)、t檢驗(yàn)、單因素方差分析、多因素方差分析、交叉表、卡方檢驗(yàn)、二元相關(guān)、線性回歸等。
二、GNU PSPP與SPSS基礎(chǔ)數(shù)據(jù)分析方法比較
(一)比較的分析方法及數(shù)據(jù)源
筆者以數(shù)據(jù)實(shí)例對(duì)PSPP與SPSS數(shù)據(jù)分析進(jìn)行直觀平行比較以探索PSPP替代SPSS的可行性。比較過(guò)程使用PSPP 0.8.5版和SPSS 22.0版(IBM SPSS網(wǎng)站獲取的14天試用版本)進(jìn)行。對(duì)如下常用的數(shù)據(jù)分析方法進(jìn)行比較:描述性統(tǒng)計(jì)(此項(xiàng)選擇“頻率”操作以繪制直方圖)、獨(dú)立樣本t檢驗(yàn)、單因素方差分析、多因素方差分析和線性回歸。使用的數(shù)據(jù)源自The Data and Story Library(http://lib.stat.cmu.edu / DASL,詳見表2)。軟件使用方法參考PSPP使用手冊(cè)[3]及SPSS使用手冊(cè)。[4]截取二者的操作對(duì)話框屏幕展現(xiàn)分析過(guò)程,而分析結(jié)果的呈現(xiàn)方式為屏幕截圖,若SPSS的輸出結(jié)果為格式化的文本,則拷貝粘貼并調(diào)整大小及字號(hào)等以能適合顯示。
表2 分析方法及數(shù)據(jù)來(lái)源
■
*:鏈接前綴均為:http://lib.stat.cmu.edu / DASL / Datafiles /
(二)比較結(jié)果
1.描述性統(tǒng)計(jì)
該操作在PSPP和SPSS下均位于菜單“分析→描述統(tǒng)計(jì)→頻率”下,均使用默認(rèn)設(shè)置,結(jié)果見圖1。二者均可繪制直方圖、餅狀圖及條形圖并可選擇輸出均值、方差等描述性統(tǒng)計(jì)量(PSPP須使用語(yǔ)法子命令: / BAR?鄄CHART以繪制條形圖);SPSS支持Bootstrap。PSPP繪制直方圖時(shí),按照Freedman?鄄Diaconis規(guī)則(2*IQR(x)*n-1 / 3)對(duì)數(shù)據(jù)進(jìn)行分組繪制。SPSS默認(rèn)的分組數(shù)量較少,但可以通過(guò)雙擊輸出窗口中的直方圖,激活直方圖后,在直方圖柱條屬性窗口的“分箱化”選項(xiàng)卡中調(diào)整。
■ ■
圖1 直方圖的操作界面及結(jié)果輸出
(a、c為PSPP操作對(duì)話框和結(jié)果;b、d為SPSS的操作對(duì)話框和結(jié)果)
2.獨(dú)立樣本t檢驗(yàn)
獨(dú)立樣本t檢驗(yàn)在PSPP和SPSS兩個(gè)軟件下的界面可見圖2,結(jié)果可見圖3及表3。此項(xiàng)分析功能兩個(gè)軟件從操作到結(jié)果幾乎完全相同。
■
圖2 獨(dú)立樣本t檢驗(yàn)操作界面
(a為PSPP操作對(duì)話框;b為SPSS的操作對(duì)話框) ■
圖3 PSPP獨(dú)立樣本t檢驗(yàn)結(jié)果
表3 SPSS獨(dú)立樣本t檢驗(yàn)結(jié)果
■
3.單因素方差分析
二者的單因素方差分析功能均位于菜單“分析→比較平均值→單因素方差分析”下,操作對(duì)話框見圖4。分析結(jié)果見圖5(PSPP結(jié)果)及表4、表5(SPSS結(jié)果)。操作過(guò)程相似,不同之處在于:PSPP的圖形界面單因素方差分析對(duì)話框中,沒有可以設(shè)置方差分析后進(jìn)行多重比較的可視化設(shè)置界面,在圖4a中設(shè)置好變量及分組后運(yùn)行只得到圖5上半部分的方差分析表。圖5下半部分的多重比較結(jié)果通過(guò)運(yùn)行語(yǔ)法命令(ONEWAY Length BY Type / POSTHOC=TUKEY)獲得(命令中ONEWAY為單因素方差分析命令,Length為所用數(shù)據(jù)中的測(cè)試變量:長(zhǎng)度,Type為分組變量:種類, / POSTHOC=TUKEY指定TUKEY HSD法;該命令與SPSS語(yǔ)法完全兼容)。除此之外,過(guò)程到結(jié)果基本相同。
■
圖4 單因素方差分析操作界面
(a為PSPP操作對(duì)話框;b為SPSS的操作對(duì)話框)
■
圖5 PSPP單因素方差分析結(jié)果(多重比較只截取了第一組結(jié)果)
表4 SPSS單因素方差分析結(jié)果
■
表5 SPSS單因素方差分析多重比較
■
4.多因素方差分析
PSPP的多因素方差分析功能位于分析菜單“單變量分析”子菜單下,而SPSS的多因素方差分析功能為菜單:分析→一般線性模型→單變量。操作對(duì)話框見圖6。分析結(jié)果見圖7(PSPP結(jié)果)及表6(SPSS結(jié)果)。與單因素方差分析類似,PSPP圖形界面下無(wú)法指定多因素方差分析采用的模型,須在語(yǔ)法窗口下運(yùn)行如下指令:
GLM HR BY Block Height Frequency
/ DESIGN Block Height Frequency Height*Frequency
PSPP當(dāng)前版本中多因素方差分析功能處于測(cè)試階段,未包含方差分析后的多重比較功能,只能通過(guò)手動(dòng)或其他手段計(jì)算來(lái)進(jìn)行多重比較。而SPSS可通過(guò)圖形界面設(shè)置模型、對(duì)比、繪圖及事后多重比較等。但單就方差分析結(jié)果而言,兩者的結(jié)果基本相同。
■ 圖6 多因素方差分析操作界面(a為PSPP操作對(duì)話框;b為SPSS的操作對(duì)話框)
■
圖7 PSPP多因素方差分析結(jié)果
表6 SPSS多因素方差分析多重比較
■
a.R平方=.929(調(diào)整后的R平方=.891)
5.線性回歸(一元線性回歸)
二者的線性回歸界面見圖8,分析結(jié)果見圖9 (PSPP)和表7 (SPSS)。與多因素方差分析類似,PSPP回歸分析的可設(shè)置選項(xiàng)不如SPSS的豐富,而分析結(jié)果基本相同。
■ 圖8 一元線性回歸操作界面(a為PSPP操作對(duì)話框;b為SPSS的操作對(duì)話框)
■
圖9 PSPP一元線性回歸分析結(jié)果
表7 SPSS一元線性回歸分析結(jié)果
■
6.小結(jié)
在進(jìn)行對(duì)比的PSPP的分析功能中,其操作過(guò)程和設(shè)置與SPSS極為相似,只是可選設(shè)置及輸出的細(xì)調(diào)不如SPSS靈活多樣,PSPP的圖形輸出功能不足,但可通過(guò)編寫語(yǔ)法語(yǔ)句使用EXAMINE及GRAPH命令來(lái)繪制更多圖形,如箱形圖、正態(tài)概率圖、散點(diǎn)圖等。而二者的分析結(jié)果高度一致(注:PSPP結(jié)果輸出為默認(rèn)只保留兩位小數(shù)的設(shè)置,這點(diǎn)可以通過(guò)語(yǔ)法命令,如SET FORMAT F22.6來(lái)設(shè)置為具6位小數(shù)點(diǎn)的寬度為22的浮點(diǎn)數(shù),本文所顯示的輸出均為此格式)。
三、結(jié)語(yǔ)
GNU PSPP作為一款模仿并致力于替代SPSS的免費(fèi)自由軟件,雖然在實(shí)現(xiàn)功能及完善程度上與后者尚有差距,但PSPP分析結(jié)果精確度及可靠性完全不亞于SPSS,已有不少科學(xué)研究采用PSPP作為分析軟件使用,如Walter等。[5]而且PSPP所實(shí)現(xiàn)的功能已基本涵蓋一門生物統(tǒng)計(jì)學(xué)入門課程所需涉及的統(tǒng)計(jì)分析方法。GNU PSPP完全可以作為生物統(tǒng)計(jì)學(xué)入門課程上機(jī)實(shí)習(xí)軟件使用,越來(lái)越多的統(tǒng)計(jì)學(xué)教師正在考慮將PSPP作為統(tǒng)計(jì)學(xué)入門課程的作業(yè)軟件配合使用。
至于PSPP幾個(gè)分析中的一些不足之處,如輸出小數(shù)點(diǎn)位數(shù)、單因素方差分析中設(shè)定事后多重比較及多因素方差分析中指定模型等均可通過(guò)輸入一到兩行語(yǔ)法命令進(jìn)行。其圖形輸出功能也可通過(guò)編寫數(shù)行簡(jiǎn)單語(yǔ)法指令使用EXAMINE及GRAPH命令或與其他軟件配合使用來(lái)彌補(bǔ)。而且PSPP完全免費(fèi),安裝設(shè)置簡(jiǎn)便,無(wú)需設(shè)置授權(quán),圖形界面簡(jiǎn)單易用,與SPSS極為相似且具有基本相同的語(yǔ)法命令,在學(xué)生的后續(xù)深入學(xué)習(xí)中必要使用SPSS時(shí),其PSPP經(jīng)驗(yàn)可與SPSS使用操作無(wú)縫結(jié)合。
筆者在使用PSPP作為生物統(tǒng)計(jì)學(xué)課程教學(xué)軟件的經(jīng)驗(yàn)已證明使用該軟件切實(shí)可行,值得推廣。筆者在進(jìn)一步查閱更多其他類專業(yè)的統(tǒng)計(jì)教材后認(rèn)為PSPP也可作為其他基礎(chǔ)統(tǒng)計(jì)課程的教學(xué)軟件。在教育部印發(fā)第一批和第二批“十二五”普通高等教育本科國(guó)家級(jí)規(guī)劃教材書目中,共收列各類專業(yè)相關(guān)50余本統(tǒng)計(jì)教材(不含學(xué)習(xí)指導(dǎo)、習(xí)題集及SPSS軟件分析教材)。除三本多元統(tǒng)計(jì)分析教材外,PSPP的統(tǒng)計(jì)分析功能幾乎涵蓋了所有統(tǒng)計(jì)教材的基本分析功能,包括在部分專業(yè)中使用較多的方法,如教育學(xué)、心理學(xué)、體育學(xué)等常用的因子分析和聚類分析(表1)。雖然PSPP沒有實(shí)現(xiàn)一些分析方法,如經(jīng)濟(jì)及金融類專業(yè)常用的時(shí)間序列分析、醫(yī)藥衛(wèi)生相關(guān)專業(yè)的元(Meta)分析等,但這些分析一般使用專業(yè)軟件或另一個(gè)自由軟件R統(tǒng)計(jì)語(yǔ)言編程進(jìn)行分析。有些方法如結(jié)構(gòu)方程模型等涉及多元統(tǒng)計(jì)分析,已超出基礎(chǔ)統(tǒng)計(jì)課程重點(diǎn)內(nèi)容。就基礎(chǔ)統(tǒng)計(jì)學(xué)課程而言,GNU PSPP完全可以勝任該類課程的教學(xué)軟件這一角色。
[ 注 釋 ]
[1] 李春喜,姜麗娜,邵云,張黛靜.生物統(tǒng)計(jì)學(xué)(第五版)[M].北京:科學(xué)出版社,2013.
[2] 劉來(lái)福,程書肖,李仲來(lái).生物統(tǒng)計(jì)(第二版)[M].北京:北京師范大學(xué)出版社,2007.
[3] GNU PSPP Statistical Analysis Software.PSPP Usersguide[EB / OL].2014[2015-2-8].http://www.gnu.org / software / pspp / manual / pspp.html.
[4] International Business Machines Corporation. IBM SPSS Statistics Base 22[EB / OL].2015[2015-2-8].ftp://public.dhe.ibm.com / software / analytics / spss / documentation / statistics / 22.0 / zh_CN / client / Manuals / IBM_SPSS_Statistics_Base.pdf.
[5] Walter,C., Bell, L., Parsons,S., Jackson, C., Borley,N.,and Wheeler,J.Prevalence and significance of anaemia in patients receiving long-course neoadjuvant chemoradiotherapy for rectal carcinoma[J].Colorectal Disease,2013(1).
[責(zé)任編輯:覃侶冰]