曹遠(yuǎn)紅
(湖南師范大學(xué)體育學(xué)院,湖南 長沙 410012)
對體育統(tǒng)計中假設(shè)檢驗有關(guān)問題的詮釋
曹遠(yuǎn)紅
(湖南師范大學(xué)體育學(xué)院,湖南 長沙 410012)
目前我國體育院校常用的體育統(tǒng)計教材對假設(shè)檢驗問題論述存在籠統(tǒng)性和論述不清的問題,針對這一問題,對假設(shè)檢驗中單雙側(cè)檢驗的應(yīng)用、原假設(shè)的確立、檢驗統(tǒng)計量的確定等問題進(jìn)行了較深入的闡述,為了增加可讀性,文中采用較通俗而不是數(shù)學(xué)化語言進(jìn)行了論述。
體育統(tǒng)計;假設(shè)檢驗;單雙側(cè)檢驗;統(tǒng)計量
統(tǒng)計學(xué)一個重要的任務(wù)就是以樣本特征推斷總體特征,假設(shè)檢驗,尤其是參數(shù)假設(shè)檢驗是統(tǒng)計推斷中重要組成部分,在體育科研中有著廣泛的應(yīng)用,基于此,本文對參數(shù)檢驗中有關(guān)問題的原理和方法進(jìn)行了闡述。所謂假設(shè)檢驗就是對總體分布的參數(shù)或總體分布的性質(zhì)提出某種假設(shè),然后根據(jù)樣本信息對提出的假設(shè)進(jìn)行檢驗,判斷該假設(shè)是否成立。[1]假設(shè)檢驗分為參數(shù)檢驗和非參數(shù)檢驗,前者是對總體分布的某個參數(shù)提出某種假設(shè),利用來自總體的樣本檢驗假設(shè)是否成立;后者是總體分布的性質(zhì)提出假設(shè),用來自總體的樣本檢驗該假設(shè)是否成立。參數(shù)檢驗主要有U檢驗(也叫Z檢驗)、T檢驗、檢驗等,非參數(shù)檢驗主要有秩和檢驗、符號檢驗等。
在參數(shù)檢驗中,單、雙側(cè)檢驗的稱呼主要是依據(jù)其拒絕域的形式來命名的,把拒絕域分布兩側(cè)的檢驗叫雙側(cè)檢驗,把拒絕域分布一側(cè)的檢驗叫單側(cè)檢驗。在實際應(yīng)用中到底用單側(cè)檢驗還是用雙側(cè)檢驗,需要根據(jù)研究目的確定,如果要檢驗?zāi)辰y(tǒng)計量是否來自某一總體,或者檢驗?zāi)骋恢凳欠竦扔谝阎?,這時的任務(wù)只需檢驗是否等于,>或<都將拒絕原假設(shè),所以雙側(cè)檢驗的拒絕域分布在兩側(cè)。至于誰大誰小我們是不需要考慮的,這種情況通常用雙側(cè)檢驗。在另外一些情況,我們要檢驗的問題帶有方向性,即要檢驗?zāi)骋恢凳谴笥谶€是小于已知的值,這時需要采用單側(cè)檢驗。單側(cè)檢驗又分為左單側(cè)檢驗和右單側(cè)檢驗。至于究竟是左單側(cè)還右單側(cè)檢驗,這需要根據(jù)原假設(shè)確定,因為原假設(shè)一旦設(shè)立,則拒絕域就確定了,這個問題在下文中論述。
在體育科研的實踐中,往往是用單側(cè)檢驗較多,比如說采用了某種新的訓(xùn)練方法成績是否有提高,某地區(qū)青少年的平均身高是否有所增長,通過實驗條件的改變,某指標(biāo)是否變低還是變高等,諸如此類的問題都是帶有方向性,需要采用單側(cè)檢驗。不管是單側(cè)還是雙側(cè)檢驗,至于值都是不知道的,而是根據(jù)已有的樣本信息對進(jìn)行檢驗。
例[2],已知普通成年人安靜時的心率服從正態(tài)分布,其平均心率是72次/min?,F(xiàn)從某體院隨機抽測36名男生,測得安靜時心率平均數(shù)為68 次/min,標(biāo)準(zhǔn)差為6.6次/min。試問該體院男生安靜時心率與普通成年人的心率有無差異(a= 0.05)
原解法:該問題采用單側(cè)檢驗,如果原假設(shè)不同,則會出現(xiàn)兩種不同的結(jié)果。第一種情況,原假設(shè)72,備擇假設(shè)拒絕原假設(shè),接受備擇假設(shè),則認(rèn)為該體院男生安靜時平均心率低于普通成年人安靜時平均心率。第二種情況,原假設(shè)備擇假設(shè)拒絕原假設(shè),接受備擇假設(shè),則認(rèn)為某體院男生安靜時平均心率高于普通成年人安靜時平均心率,得出了截然相反的結(jié)論。
在上述例題中,這種解法存在什么問題,為什么會得出截然相反的結(jié)論?其實這個例題屬于雙側(cè)檢驗,因為問題是“兩者有無差異”,如果問題是“能否認(rèn)為該體院男生的心率低于普通成年人心率”則用單側(cè)檢驗。這個例題用單側(cè)檢驗也不會得出相反結(jié)論的,題中之所以得出了相反結(jié)論,是其判斷標(biāo)準(zhǔn)有問題,具體說是拒絕域界定不清,其依據(jù)是有些體育統(tǒng)計教材中給出的判斷標(biāo)準(zhǔn),即則拒絕北京體育大學(xué)祁國鷹教授在《體育統(tǒng)計簡明教程》一書中對單側(cè)檢驗拒絕域的界定是這樣的的否定域為的否定域為t≥這是正確的,但沒有說明為什么,不便于讀者理解。那么拒絕域是怎么確定?在雙側(cè)檢驗中很容易理解,原假設(shè)備擇假設(shè)U檢驗拒絕域為:T檢驗的拒絕域為:和在上面的例題中,如果原假設(shè)備擇假設(shè)則可以確定其拒絕域為:屬于左單側(cè)檢驗。原理如下:在正態(tài)分布和t分布的圖形中,我們知道左側(cè)是小于平均值的區(qū)間,右側(cè)是大于平均值的區(qū)間,那么,如果原假設(shè)成立的話,在一次抽樣中,樣本均值落入左側(cè)小數(shù)值區(qū)間的概率是很小的,具體說是落入小于的區(qū)間概率很小,如果落入這個區(qū)間,則發(fā)生了小概率事件,就拒絕,正如說A公司宣稱職工的平均工資比B公司高,如果從A公司隨機抽取部分職工作為樣本,其平均工資比B公司最低工資水平都還低的話,我們就自然認(rèn)為A公司的宣稱是不屬實的。同理,如果原假設(shè)備擇假設(shè)其拒絕域為屬于右單側(cè)檢驗,原理同左單側(cè)檢驗一樣。從中我們看出,原假設(shè)實際上是一種作為讓步的假設(shè),所以左單側(cè)檢驗和右單側(cè)檢驗也分別叫下限檢驗和上限檢驗[5]。
對于這個例題,拒絕域界定清楚了,雖然得出一樣的結(jié)論,但事實上還是有差別的,對有些問題進(jìn)行檢驗時有可能由于原假設(shè)不同而得出相反結(jié)論,這與假設(shè)檢驗中的兩類錯誤有關(guān)。在上文中我們談到假設(shè)檢驗的邏輯是概率反證法,但做檢驗時是根據(jù)抽樣得到的樣本值作出拒絕還是接受的決定,由于樣本具有隨機性,假設(shè)檢驗有可能犯錯誤,這種錯誤分為“棄真”錯誤和“取偽”錯誤,也即“第一類錯誤”和“第二類錯誤”。假設(shè)檢驗中顯著性水平α就是犯“棄真”錯誤的概率,“取偽”錯誤的概率用β表示。我們都希望在假設(shè)檢驗中這兩類錯誤的概率越小越好,但對于一定的樣本量,當(dāng)α增加時,β減小,反之當(dāng)α減小時,將導(dǎo)致β的增加。就像在區(qū)間估計中,要想增大估計的可靠性,就會使區(qū)間變寬而降低精度;要想提高精度就會要求估計區(qū)間變窄,從而使可靠性下降。也就是說,我們在實際操作中根本無法找到一個能使α與β同時減小的臨界域,除非增大抽樣容量,但是無限增大樣本容量并非抽樣的本意。
在檢驗中,α的概率是可以人為控制的,通過控制α而改變β,α的含義是當(dāng)原假設(shè)正確時卻被拒絕的概率或風(fēng)險,α通常取值0.05或0.01,但在使用時究竟取多大,應(yīng)視具體情況和根據(jù)專業(yè)知識判斷?!耙话銇碚f,哪一類錯誤所帶來的后果越嚴(yán)重、危害越大就把哪一類錯誤作為首要的控制目標(biāo)。[6]”需要衡量兩類錯誤所付出代價的大小,如果“取偽”代價大,則取較大α。如“棄真”代價大, 則取較小α,容忍較大β。從假設(shè)檢驗的過程和兩類錯誤來看,當(dāng)拒絕原假設(shè)時,我就有1-α的把握認(rèn)為原假設(shè)為偽,如果接受原假設(shè)時,則只表明沒有充足的理由證明原假設(shè)是錯的,只能接受原假設(shè);反過來也就是說要拒絕原假設(shè)則需要較充足的理由,接受原假設(shè)則是“被迫”接受。可見,原假設(shè)往往是處于受保護(hù)地位的,一般是根據(jù)已有的知識和經(jīng)驗把不能輕易否定的東西作為原假設(shè),比如在檢驗?zāi)钞a(chǎn)品的質(zhì)量時,商家希望把“質(zhì)量合格”作為原假設(shè),因為這樣容易得出接受原假設(shè)的結(jié)論,而要拒絕原假設(shè)是需要充足理由的。
在體育科研的實踐中往往將希望證實的反面作為原假設(shè),將希望證實的問題作為備擇假設(shè),這樣一旦拒絕原假設(shè),不僅具有充足的理由,而且往往意味科研成功,符合科學(xué)研究要嚴(yán)謹(jǐn)?shù)牧?xí)慣。比如說要檢驗一種新的訓(xùn)練方法是否有效,就把新的訓(xùn)練方法無效作為原假設(shè)。于是,文中的例題應(yīng)該把作為原假設(shè)。由此可見第一種解法更準(zhǔn)確,有足夠的理由認(rèn)為該體院男生安靜時平均心率低于普通成年人安靜時平均心率。
現(xiàn)有的體育統(tǒng)計教材里參數(shù)檢驗中的判斷結(jié)論還存在不規(guī)范的問題,一般都是這種模式:某統(tǒng)計量≥某臨界值,P≤α,拒絕原假設(shè),接受備擇假設(shè);某統(tǒng)計量≤某臨界值,P≥α,接受原假設(shè),拒絕備擇假設(shè)。這種表達(dá)模式存在的問題是把臨界值和P值沒有區(qū)分開來,實際上把統(tǒng)計量與臨界值比較是一種檢驗方法,而P值檢驗又是另一種方法,兩種方法原理一樣,但檢驗所提供的信息是有差別的。在統(tǒng)計軟件能方便地計算出P值以前,一般用臨界值檢驗方法,這時無需描述P值與α的大小。當(dāng)然,借助現(xiàn)代統(tǒng)計軟件,我們能快捷地計算出統(tǒng)計量,也能具體地體現(xiàn)P值的大小。“P值就是當(dāng)原假設(shè)為真時,所得樣本觀察結(jié)果或更為極端結(jié)果的概率。”[7]P值越小則拒絕原假設(shè)的理由越充分。利用P值進(jìn)行檢驗的決策準(zhǔn)則是:確定小概率的標(biāo)準(zhǔn)即α,在雙側(cè)檢驗中,P≤,拒絕原假設(shè),P>,則不能拒絕原假設(shè);在單側(cè)檢驗中,P≤α,拒絕原假設(shè),P>α,則不能拒絕原假設(shè)。在檢驗中,P值將犯棄真錯誤的概率予以具體的顯示,這就給我們提供了更多的信息,有助于我們在檢驗中作出更恰當(dāng)、更精細(xì)的決策。
假設(shè)檢驗是統(tǒng)計推斷的重要內(nèi)容,正確理解、掌握其原理和方法對體育統(tǒng)計的教學(xué)、體育科研都有著重要作用,希望能對體育統(tǒng)計教師和在體育科研中應(yīng)用假設(shè)檢驗的同仁提供有益的參考。
[1]叢湖平.體育統(tǒng)計學(xué)[M].北京:高等教育出版社,2007.
[2]權(quán)德慶.體育統(tǒng)計學(xué)科現(xiàn)狀與發(fā)展趨勢[J].西安體育學(xué)院學(xué)報,2008(1).
[3]費宇.應(yīng)用數(shù)理統(tǒng)計[M].北京:科學(xué)出版社,2007.
[4]金曉峰.體育統(tǒng)計假設(shè)檢驗中幾個問題的探討[J].北京體育大學(xué)學(xué)報,2004(9).
[5]陳及治.體育統(tǒng)計[M].北京:人民體育出版社,2002.
[6]祁國鷹.體育統(tǒng)計簡明教程[M].北京:北京體育大學(xué)出版社,2004.
[7]賈俊平.統(tǒng)計學(xué)[M].北京:中國人民大學(xué)出版社,2004.
G80-3
A
1674-151X(2011)02-108-03
投稿日期:2010-11-15
曹遠(yuǎn)紅(1977~),講師,博士。研究方向:體育統(tǒng)計的原理和應(yīng)用、體育人文。
10.3969/j.issn.1674-151x.2011.02.055