劉文麗, 呂書龍
(福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 福建 福州 350116)
假設(shè)檢驗(yàn)是統(tǒng)計(jì)中常見的一種解決問題的手段.很多的實(shí)際問題要通過非參數(shù)假設(shè)檢驗(yàn)加以解決.眾所周知,非參數(shù)假設(shè)檢驗(yàn)的一個(gè)核心問題是構(gòu)造與秩有關(guān)的統(tǒng)計(jì)量,如檢驗(yàn)對(duì)稱性的符號(hào)秩統(tǒng)計(jì)量W+,揭示非線性相關(guān)性的Spearman和Kendall相關(guān)系數(shù)等.一般的教材會(huì)給出固定的分位數(shù)表來確定檢驗(yàn)臨界值,進(jìn)而對(duì)檢驗(yàn)作出判斷[1-4],但極少會(huì)涉及這些統(tǒng)計(jì)量的構(gòu)造、分位點(diǎn)和概率的計(jì)算問題.文獻(xiàn)[5]提出了計(jì)算W+概率的一種多項(xiàng)式方法.但是隨著樣本量n的增大,這些秩統(tǒng)計(jì)量的概率和分位點(diǎn)的計(jì)算變得極為困難,目前常見的做法是通過統(tǒng)計(jì)量的漸進(jìn)正態(tài)分布來取得所需的近似結(jié)果[1].
本文從秩統(tǒng)計(jì)量的構(gòu)造出發(fā),導(dǎo)出秩統(tǒng)計(jì)量與排列組合的等價(jià)關(guān)系,進(jìn)而提出秩統(tǒng)計(jì)量概率分布的一種遞推公式.遞推公式很容易轉(zhuǎn)成遞歸函數(shù),因此容易編程實(shí)現(xiàn),也便于教學(xué)上的理解和實(shí)際應(yīng)用.
假設(shè)x1,x2,…,xn是來自總體X的一個(gè)樣本,為討論方便,設(shè)總體X服從某一連續(xù)分布.
定義1設(shè)xi各不相等,從小到大排序成x(1) 定義2設(shè)|xi|各不相等,以絕對(duì)值從小到大排序成|x(1)|<|x(2)|<…<|x(n)|. 若|xi|=|x(Ri)|, 則稱xi的絕對(duì)秩為Ri,其中Ri=1,2,…,n. (1) (2) 其中tn(d)表示從1,2,…,n這n個(gè)數(shù)中任取若干個(gè)數(shù)(包括0個(gè)),其和恰為d的取法種數(shù). 對(duì)于假設(shè)檢驗(yàn)問題,H0:總體X的對(duì)稱中心為原點(diǎn).當(dāng)H0成立時(shí),W+的分布關(guān)于n(n+1)/4對(duì)稱,且當(dāng)n充分大時(shí),W+服從N(n(n+1)/4,n(n+1)(2n+1)/24)的漸進(jìn)正態(tài)分布. 定義3設(shè)樣本x1,x2,…,xn來自總體X,樣本y1,y2,…,ym來自總體Y,記N=n+m,并記xi在合樣本x1,x2,…,xn,y1,y2,…,ym中的秩(依定義1)為R(i),R(i)=1,2,…,N.稱總體X的樣本的秩和 (3) 為Wilcoxon秩和統(tǒng)計(jì)量. 性質(zhì)2對(duì)于假設(shè)檢驗(yàn)問題,H0:FX(x)=FY(y).當(dāng)H0成立時(shí),Wx的分布律的等價(jià)形式為 (4) 其中tN,n(d)表示從1,2,…,N這N個(gè)數(shù)中任取n(n -n(n-1)/2≤d≤n(n-1)/2, sign(·)為通常的符號(hào)函數(shù). 性質(zhì)3Sn(d)取值滿足對(duì)稱性,即Sn(d)=Sn(-d). 顯然任意一種排列r1,r2,…,rn都存在其逆序排列rn,rn-1,…,r1,則自然有Sn(d)=Sn(-d). 關(guān)于W+和Wx的漸進(jìn)分布和近似計(jì)算以及檢驗(yàn)分位點(diǎn)表,可參考文獻(xiàn)[1,4].通過上述W+,Wx和Kendall-τ秩相關(guān)系數(shù)的構(gòu)造和性質(zhì)分析,本文給出求解其精確概率分布的遞推公式,便于通過手工推導(dǎo)或編寫程序得到精確的概率分布和檢驗(yàn)分位點(diǎn)表. 由(2)式知tn(d)表示從1,2,…,n這n個(gè)數(shù)中任取若干個(gè)數(shù)(包括0個(gè))其和恰為d的取法種數(shù).由遞推思路可將tn(d)分解成兩部分之和: (a) 從1,2,…,n-1這n-1個(gè)數(shù)中任取若干個(gè)數(shù)(包括0個(gè)),其和恰為d的取法種數(shù); (b) 固定含有n時(shí),從1,2,…,n-1中任取若干個(gè)數(shù)(包括0個(gè))的和恰為d-n. 由此可得tn(d)的遞推公式 tn(d)=tn-1(d)+tn-1(d-n). (5) 若令N=n(n+1)/2,結(jié)合對(duì)稱性質(zhì)和d的特殊取值情況,將(5)式細(xì)化如下: 上述細(xì)化描述很容易編程實(shí)現(xiàn),下面以求解t6(d)為例,給出手工推導(dǎo)過程,見表1. 表1 t6(d)的遞推表格 當(dāng)n=6時(shí),易知d∈[0,1,2,…,21],由上述遞推公式可以容易算出所有可能取值的取法種數(shù),以d=10為例,有 t6(10)=t5(10)+t5(4)=t4(10)+t4(5)+t4(4)=t3(0)+t3(1)+t3(4)+t3(5)+t3(6)=5. tn(d)的推導(dǎo)層層遞歸,執(zhí)行效率低,速度慢.因此在n較大時(shí),P(W+≤d)宜采用漸進(jìn)正態(tài)分布來實(shí)現(xiàn).此處n多大算較大呢?這可從精確算法和近似算法的計(jì)算結(jié)果加以比較得到,參見表2. 表2 P(W+≤d) 從表2看出,遞推公式較正態(tài)近似計(jì)算的精度要高許多.當(dāng)n≥50時(shí),基于正態(tài)分布和遞推公式計(jì)算的結(jié)果雖然在數(shù)量級(jí)上偏差較大,但在實(shí)際應(yīng)用中這個(gè)偏差基本全可以忽略.因此,我們認(rèn)為在非參數(shù)檢驗(yàn)的實(shí)際應(yīng)用中,如果n≥50則可認(rèn)為樣本量較大,宜采用漸進(jìn)正態(tài)分布進(jìn)行近似計(jì)算,而當(dāng)n<50時(shí),宜采用精確分布進(jìn)行計(jì)算. 由性質(zhì)2知tN,n(d)表示從1,2,…,N這N個(gè)數(shù)中任取n個(gè)數(shù),其和恰為d的取法種數(shù).由遞推思路可將tN,n(d)分解成兩部分之和: (a) 從1,2,…,N-1這N-1個(gè)數(shù)中任取n個(gè)數(shù),其和恰為d的取法種數(shù); (b) 固定含有N時(shí),從1,2,…,N-1中任取的n-1個(gè)數(shù)的和恰為d-N. 由此可得tN,n(d)的遞推公式 tN,n(d)=tN-1,n(d)+tN-1,n-1(d-N). (6) 類似3.1,遞推公式(6)很容易編成遞歸程序,進(jìn)而求解P(Wx=d),P(Wx≤d)和分位點(diǎn)等.同樣當(dāng)n較大時(shí),宜采用漸進(jìn)正態(tài)分布來實(shí)現(xiàn)近似計(jì)算.表3給出遞推公式和漸進(jìn)分布的計(jì)算結(jié)果,同樣看出當(dāng)N,n較小時(shí),兩者存在明顯的偏差. 表3 P(Wx≤d) 由性質(zhì)3知Sn(d)表示對(duì)1,2,…,n這n個(gè)數(shù)隨機(jī)排列后任意兩個(gè)前后位置對(duì)應(yīng)的數(shù)值差的符號(hào)和恰為d的排列種數(shù).由遞推思路可將Sn(d)等價(jià)成: 將n這個(gè)數(shù)插入到1,2,…,n-1這n-1個(gè)數(shù)任意排列后留出的n個(gè)位置中.對(duì)于n-1個(gè)數(shù)的排列,由于n這個(gè)數(shù)的插入位置不同,其滿足的符號(hào)和的條件也不同. 例如n插入到第i個(gè)位置,則其對(duì)符號(hào)和的貢獻(xiàn)中,前i-1為正,后n-i個(gè)為負(fù),即貢獻(xiàn)和為2i-n-1,即只要這n-1個(gè)數(shù)的排列滿足符號(hào)和為d-2i+n+1就可實(shí)現(xiàn)遞推.由此得Sn(d)的遞推公式為 (7) 本文從排列組合角度將非參數(shù)秩統(tǒng)計(jì)量轉(zhuǎn)化為等價(jià)的離散數(shù)列分布的研究,推導(dǎo)了秩統(tǒng)計(jì)量的精確概率分布的遞推公式,給出了計(jì)算三類常用秩統(tǒng)計(jì)量概率的一種方法.遞推結(jié)構(gòu)清晰,實(shí)現(xiàn)方便,不足之處在于遞歸實(shí)現(xiàn)的時(shí)空復(fù)雜度較高.如何快速精確地計(jì)算秩統(tǒng)計(jì)量的概率分布,有待進(jìn)一步研究. [參 考 文 獻(xiàn)] [1] 王靜龍,梁小筠. 非參數(shù)統(tǒng)計(jì)分析[M]. 北京:高等教育出版社, 2006. [2] 吳喜之,王兆軍. 非參數(shù)統(tǒng)計(jì)方法[M]. 北京:高等教育出版社, 1996. [3] 陳希孺,方兆本,李國(guó)英,等. 非參數(shù)統(tǒng)計(jì)[M]. 上海:上??茖W(xué)技術(shù)出版社,1989. [4] Conover W J.實(shí)用非參數(shù)統(tǒng)計(jì)[M]. 崔恒建譯.北京:人民郵電出版社,2006. [5] 羅劍鋒,趙耐青. 配對(duì)符號(hào)秩檢驗(yàn)確切概率的遞推算法[J]. 復(fù)旦學(xué)報(bào)(醫(yī)學(xué)版),2004,3(31):274-276.3 遞推公式的構(gòu)造
3.1 關(guān)于tn(d)的遞推公式
3.2 關(guān)于tN,n(d)的遞推公式
3.3 關(guān)于Sn(d)的遞推公式
4 結(jié) 論