李光輝,滕凱敏,趙海清
(1.凱里學(xué)院 理學(xué)院,貴州 凱里 556011;2.凱里市統(tǒng)計(jì)局,貴州 凱里 556001;3.嶺南師范學(xué)院,廣東 湛江 524048)
由樣本推斷總體是統(tǒng)計(jì)學(xué)的主要工作,通常我們通過抽樣調(diào)查的方式來收集數(shù)據(jù),所獲得的這批數(shù)據(jù)稱之為一手?jǐn)?shù)據(jù),或原始數(shù)據(jù).將這些數(shù)據(jù)經(jīng)過整理歸納分析之后得到的各類統(tǒng)計(jì)報(bào)表稱之為二手?jǐn)?shù)據(jù),其中最為常見的統(tǒng)計(jì)報(bào)表就是列聯(lián)表.列表不僅能夠顯示出一批數(shù)據(jù)的總體特征,還能探索多個(gè)指標(biāo)之間的相互關(guān)系,發(fā)掘數(shù)據(jù)之間內(nèi)部的聯(lián)系,直觀地體現(xiàn)數(shù)據(jù)分布的情況.
關(guān)于列聯(lián)表分析的文獻(xiàn)有很多,特別是關(guān)于獨(dú)立性檢驗(yàn)方面的研究可見文獻(xiàn)[1-4],并且列聯(lián)表在實(shí)際中應(yīng)用也很廣泛,例如文獻(xiàn)[5-6]都是基于列聯(lián)表研究了實(shí)際的問題.在列聯(lián)表分析中也有諸多有趣的問題,例如Simpson悖論[7]等.列聯(lián)表表現(xiàn)直觀,應(yīng)用廣泛,我們也使用列聯(lián)表研究了關(guān)于試驗(yàn)設(shè)計(jì)方面的問題,特別是構(gòu)造格點(diǎn)剖分下的均勻設(shè)計(jì)與均勻性檢驗(yàn)方面的問題[8-10].
很多情形下,我們無法獲得統(tǒng)計(jì)調(diào)查的原始數(shù)據(jù),而收集到的資料都是零散的各類統(tǒng)計(jì)報(bào)表.我們希望能從現(xiàn)有的資料中發(fā)掘出原始數(shù)據(jù)的更多信息,或者更進(jìn)一步,希望通過已有的列聯(lián)表推斷出原始的數(shù)據(jù).這樣不僅可以基于原始數(shù)據(jù)進(jìn)行深層次的分析,而且可以推斷出總體的特征,這就是我們希望實(shí)現(xiàn)的工作.
常見的列聯(lián)表主要有2維與3維的列表,3維以上的列聯(lián)表在各類統(tǒng)計(jì)報(bào)表中是比較少見的.在一手資料缺失的條件下,現(xiàn)有一批資料,其中共有若干張列表,我們可以看出數(shù)據(jù)中各項(xiàng)指標(biāo)之間的關(guān)系,而在很多情形下,我們更希望通過現(xiàn)有的列表發(fā)掘出更多的信息.這就需要基于現(xiàn)有的列聯(lián)表對(duì)樣本數(shù)據(jù)進(jìn)行推斷,這里就涉及到三個(gè)重要的問題:
(1)如何由已知的列聯(lián)表推斷出樣本的信息?
(2)如何評(píng)價(jià)推斷結(jié)果的優(yōu)劣?
(3)如何進(jìn)一步調(diào)整推斷結(jié)果,使之更接近于真值?
本文就圍繞這三個(gè)問題展開討論,首先我們定義幾個(gè)尺度來衡量參數(shù)估計(jì)的優(yōu)劣,然后討論如何求解參數(shù)的估計(jì)值,由已知的列聯(lián)表推斷出樣本的總體信息;進(jìn)一步以實(shí)際的例子來分析討論.最后提出可進(jìn)一步研究的問題以及需要改進(jìn)的地方.
假設(shè)我們研究的數(shù)據(jù)涉及p個(gè)指標(biāo),稱這些指標(biāo)為p個(gè)因子,并將其記為X1,X2,…,Xp.設(shè)因子Xi具有l(wèi)i個(gè)水平,為方便記,將各水平記作1,2,…,li,i=1,2,…,p.
統(tǒng)計(jì)工作者收集到一批樣本容量為n的樣本,這批數(shù)據(jù)可以用下表來表示.
表1 原始數(shù)據(jù)集
(1)
其中:ni=(1,2,…,li)T,i=1,2,…,p,“?”表示Kronecker積,1k是元素全部為1的k維列向量.可見,這里的矩陣
是一個(gè)l×p階矩陣.X中的各行就是因子(X1,X2,…,Xp)在不同水平下的組合,稱之為一個(gè)“處理”.
由形如表1的原始數(shù)據(jù)經(jīng)過整理得到若干張列聯(lián)表.最為常見的是2維列聯(lián)表具有如下的形式.
表2 2維列聯(lián)表(ls×lt列聯(lián)表)
形如表2的2維列聯(lián)表,我們也記作ls×lt列聯(lián)表.在2維列聯(lián)表中,記
(2)
表示由Xs與Xt形成的2維列聯(lián)表頻數(shù)矩陣,我們用記號(hào)
表示這批數(shù)據(jù)中,第s個(gè)因子和第t個(gè)因子在組合水平a,b下的的頻率,也就是
表示的是樣本中(Xs,Xt)在水平組合(a,b)下的頻數(shù).
C2={T12,T13,…,Tp-1,p}
稱為完整的2維列聯(lián)表集,否則稱為不完整的2維列聯(lián)表集.
對(duì)于3維列聯(lián)表形如以下的形式.
表3 3維列聯(lián)表(li×lj×ls列聯(lián)表)
我們將3維列聯(lián)表記為li×lj×lk列聯(lián)表.并令
(3)
表示由Xi,Xj與Xk形成的3維列聯(lián)表矩陣,其中元素如表3所示.同理,用
C3={T123,T124,…,Tp-2,p-1,p}.
由2維和3維列聯(lián)表可見,樣本容量
一批資料中有若干張不同的列聯(lián)表,將這些列聯(lián)表構(gòu)成的集合記為C′,并稱其為初始列聯(lián)表集.如果C′中既有2維列聯(lián)表,也有3維列聯(lián)表.我們知道,由高維列聯(lián)表可以推導(dǎo)出低維的列聯(lián)表和各因子在各水平下的頻率.由一張3維列聯(lián)表可以生成3張2維列聯(lián)表,以及3張單因子的分布列.單因子分布列可由
得到.3維列聯(lián)表還可以推導(dǎo)出3張2維列聯(lián)表
現(xiàn)在的目的是要從現(xiàn)有的資料估計(jì)出樣本的信息,也就是通過現(xiàn)有的列聯(lián)表集推斷出樣本的信息.首先要在C′中剔除多余的列聯(lián)表.
例如,如果C′中含有3維列聯(lián)表Tijk,因?yàn)門ijk包含了Tij,Tik,Tjk的全部信息,即由3維列聯(lián)表Tijk可以推導(dǎo)出2維列聯(lián)表,此時(shí),我們將C′中的Tij,Tik,Tjk剔除(如果有的話),將此過程描述為以下的定義.
定義1 對(duì)于初始列聯(lián)表集C′,若Tijk∈C′,且{Tij,Tik,Tjk}?C′,則將Tij,Tik,Tjk從C′中剔除.經(jīng)過清理后得到的列聯(lián)表集記作C,稱之為列聯(lián)表集.
在此,我們定義兩個(gè)測(cè)度,用于度量還原列聯(lián)表數(shù)據(jù)的難易程度與精準(zhǔn)程度.
為這批列聯(lián)表集合的完整度.
列聯(lián)表集的完整度僅僅是定義了2維和3維列聯(lián)表的完整性,需要注意以下幾點(diǎn).
其次,由前面的討論可以知道,高維列聯(lián)表可以推導(dǎo)出低維的列聯(lián)表,而有的情況下,由若干張低維列聯(lián)表也可以推導(dǎo)出高維的列聯(lián)表.最理想的狀態(tài)是由現(xiàn)有的列聯(lián)表集推斷出表1中的頻數(shù)值Θ=(θ1,θ2,…,θl)T,這一過程就稱之為列聯(lián)表的數(shù)據(jù)還原.即使列聯(lián)表集的完整度α=1,并不一定就能推斷出所有組合的準(zhǔn)確頻數(shù).
的值.
雖然我們無法度量參數(shù)估計(jì)值與真值之間的偏差,但是希望盡可能的保證估計(jì)值的準(zhǔn)確度.于是給出下面的定義.
為還原度偏差.
下面我們將介紹求解參數(shù)估計(jì)的方法.
設(shè)(xr1,xr2,…,xrp)是(1)式中的矩陣X的第r行,xri∈{1,2,…,li},令yr表示在第r個(gè)處理下的頻數(shù),它是未知的.這里的行數(shù)r可以按照以下方式來確定.
(4)
再設(shè)xi=(x1i,x2i,…,xli)T(i=1,2,…,p)是矩陣X的第i列.現(xiàn)在需要根據(jù)已有的資料求解出y1,y2,…,yl的值.在列聯(lián)表集C中,由2維列聯(lián)表Tst可以確定lslt-1個(gè)方程
(5)
由3維列聯(lián)表Tijk可以確定liljlk-1個(gè)方程
(6)
在(5)和(6)中,I(·)為示性函數(shù),且示性函數(shù)中的數(shù)值與下標(biāo)滿足以下條件
(7)
在條件(7)中有幾點(diǎn)是需要說明的.
首先,由于列聯(lián)表集的不完整性,在方程組中的下標(biāo)s,t,i,j,k中,僅是標(biāo)注了它們的值范圍,而不表示取遍在此范圍內(nèi)的所有整數(shù).除非列聯(lián)表集的完整度α=1.
其次,由于列聯(lián)表集T是由定義1經(jīng)過整理而得的,所以(7)中任意的(s,t)?σ(i,j,k),其中σ(i,j,k)={i,j,k,(i,j),(i,k),(j,k),(i,j,k)}是由元素i,j,k生成數(shù)對(duì)構(gòu)成的集合.
最后,在這些方程中,之所以要剔除最后一個(gè)方程,即(5)中有(a,b)≠(ls,lt),(6)中有(a,b,c)≠(li,lj,lk),這是因?yàn)?維列聯(lián)表和3維列聯(lián)表的自由度分別是lslt-1和liljlk-1.
若令y=(y1,y2,…,yl)T是未知數(shù)向量,定義示性函數(shù)向量
I(xi,a)=(I(x1i=a),I(x2i=a),…,I(xli=a))T.
方程組(5)和(6)可以記作
(8)
其中“⊙”表示Hadamard積,方程組(8)中的各參數(shù)滿足條件(7).
進(jìn)一步,我們對(duì)方程組(8)中的每個(gè)方程進(jìn)行編號(hào).
列聯(lián)表集C中共有n0張不同的列聯(lián)表,設(shè)由C={T1,T2,…,Tn0}中的列聯(lián)表Tm生成的方程組具有矩陣的形式
Amy=bm,m=1,2,…,n0.
(9)
若Tm是2維列聯(lián)表,不失一般性,設(shè)若Tm對(duì)應(yīng)的是列聯(lián)表Tst,矩陣Am是(lslt-1)×l階矩陣,bm是可表示為lslt-1維列向量,即
(10)
若Tm是3維列聯(lián)表,不失一般性,設(shè)若Tm對(duì)應(yīng)的是列聯(lián)表Tijk,矩陣Am是(liljlk-1)×l階矩陣,bm是可表示為liljlk-1維列向量,即
(11)
聯(lián)立兩類方程組(10)和(11),將(8)式記作矩陣的形式,得
Ay=b,
(12)
在極少情形下y=(y1,y2,…,yl)T的解是唯一的.并且因?yàn)橛擅總€(gè)列聯(lián)表生成的方程組中,我們都剔除了最后一個(gè)方程,所以矩陣A的最后一列都是0.也就是說,在大多數(shù)情形下,不完整的列聯(lián)表集推斷出的頻數(shù)估計(jì)是不唯一的.在(8)式中,如果
(1)當(dāng)N=l,且rank(A)=l時(shí),方程(8)有唯一解,但是這種情況非常少,多數(shù)情況下是多張列聯(lián)表推斷多因子的數(shù)據(jù).例如一張2×2×2列聯(lián)表恰好還原3因子2水平的數(shù)據(jù).
(2)當(dāng)N>l時(shí),且rank(A)=l,此時(shí)求解超定方程(8),有唯一解,此時(shí)方程(8)有唯一解,但不一定能準(zhǔn)確的還原數(shù)據(jù)表1,但是還原度偏差β=0.這種情況也是比較少的.
(3)當(dāng)N ①AA+A=A;②A+AA+=A+;③(AA+)T=AA+;④(A+A)T=A+A, 并且A+是唯一的.在此我們使用矩陣A的加號(hào)廣義逆來求解y,y的解可以表示為 y=A+b+(I-A+A)μ, (13) 由此得到頻數(shù)的估計(jì),解出y值,令 (14) 例1 一批3因子2水平的數(shù)據(jù),假設(shè)各個(gè)處理的頻數(shù)向量為 Θ=(θ1,θ2,…,θ8)T=(2,16,14,10,25,17,25,9)T, 如表4的第5列所示,這些頻數(shù)值是未知的.如果現(xiàn)有3張2×2的列聯(lián)表如下 定義未知量向量y=(y1,y1,…,y8)T,根據(jù)(9),(10),(11)式可以寫出矩陣A與向量b分別為: 表4 3張2×2的列聯(lián)表的估計(jì)結(jié)果 現(xiàn)在有6張2維列聯(lián)表分別是 有的情形下,當(dāng)列聯(lián)表中的因子與對(duì)應(yīng)的水平都較多時(shí),計(jì)算大型矩陣的廣義逆是存在困難的.對(duì)比例1與例2就可以發(fā)現(xiàn),隨著水平數(shù)的增大,計(jì)算的精度會(huì)隨之驟降.如果我們關(guān)心的是重要的處理下的頻數(shù)估計(jì),根據(jù)文獻(xiàn)[12]中更新的正交表,計(jì)算在對(duì)應(yīng)處理下的頻數(shù)估計(jì).文獻(xiàn)[13-15]中涉及到了正交表的應(yīng)用,可以事先將(12)中對(duì)應(yīng)的列聯(lián)表集中未包含的處理剔除,估計(jì)出正交表中對(duì)應(yīng)的處理的頻數(shù)即可. 由于本文是基于原始數(shù)據(jù)缺失的情形下,通過現(xiàn)有的列聯(lián)表來推斷原始數(shù)據(jù)的結(jié)構(gòu)分布,因此對(duì)實(shí)際情況來說,還存在著許多有待進(jìn)一步研究的問題. 首先,由于沒有參照標(biāo)準(zhǔn),我們推斷出來的頻數(shù)估計(jì)值,要想評(píng)價(jià)其優(yōu)劣,也只能通過現(xiàn)有的列表來評(píng)價(jià)即還原度.而且盡管還原度偏差β=0也不能說明數(shù)據(jù)還原無誤. 其次,由現(xiàn)有的列聯(lián)表來推斷出的各種處理的頻數(shù),然后在此基礎(chǔ)上分析樣本其他的特征,也肯定是會(huì)失真的,如何控制偏差的范圍也是有待研究的問題. 再次,由列聯(lián)表的Pearsonχ2性檢驗(yàn)與Fisher精確獨(dú)立性檢驗(yàn)的知識(shí)可知,由列聯(lián)表中的頻率值構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量具有近似的分布.那么我們自然會(huì)想到,能否構(gòu)造出關(guān)于各個(gè)處理下頻數(shù)的樞軸量,以此得到各頻數(shù)的置信區(qū)間. 最后,本文所討論的問題是理想化的情形,但這類問題卻有著很好的實(shí)用價(jià)值,在實(shí)際統(tǒng)計(jì)工作中經(jīng)常會(huì)遇到類似的問題.如果能很好解決這一問題,對(duì)諸多統(tǒng)計(jì)工作將會(huì)有實(shí)質(zhì)性的幫助.5 實(shí)例分析
6 討論
青海師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年3期