列聯(lián)表的數(shù)據(jù)還原算法

2023-01-10 10:48:58李光輝滕凱敏趙海清

青海師范大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年3期

李光輝，滕凱敏，趙海清

(1.凱里學(xué)院理學(xué)院，貴州凱里 556011；2.凱里市統(tǒng)計(jì)局，貴州凱里 556001；3.嶺南師范學(xué)院，廣東湛江 524048)

1 引言

由樣本推斷總體是統(tǒng)計(jì)學(xué)的主要工作，通常我們通過抽樣調(diào)查的方式來收集數(shù)據(jù)，所獲得的這批數(shù)據(jù)稱之為一手?jǐn)?shù)據(jù)，或原始數(shù)據(jù).將這些數(shù)據(jù)經(jīng)過整理歸納分析之后得到的各類統(tǒng)計(jì)報(bào)表稱之為二手?jǐn)?shù)據(jù)，其中最為常見的統(tǒng)計(jì)報(bào)表就是列聯(lián)表.列表不僅能夠顯示出一批數(shù)據(jù)的總體特征，還能探索多個(gè)指標(biāo)之間的相互關(guān)系，發(fā)掘數(shù)據(jù)之間內(nèi)部的聯(lián)系，直觀地體現(xiàn)數(shù)據(jù)分布的情況.

關(guān)于列聯(lián)表分析的文獻(xiàn)有很多，特別是關(guān)于獨(dú)立性檢驗(yàn)方面的研究可見文獻(xiàn)[1-4]，并且列聯(lián)表在實(shí)際中應(yīng)用也很廣泛，例如文獻(xiàn)[5-6]都是基于列聯(lián)表研究了實(shí)際的問題.在列聯(lián)表分析中也有諸多有趣的問題，例如Simpson悖論[7]等.列聯(lián)表表現(xiàn)直觀，應(yīng)用廣泛，我們也使用列聯(lián)表研究了關(guān)于試驗(yàn)設(shè)計(jì)方面的問題，特別是構(gòu)造格點(diǎn)剖分下的均勻設(shè)計(jì)與均勻性檢驗(yàn)方面的問題[8-10].

很多情形下，我們無法獲得統(tǒng)計(jì)調(diào)查的原始數(shù)據(jù)，而收集到的資料都是零散的各類統(tǒng)計(jì)報(bào)表.我們希望能從現(xiàn)有的資料中發(fā)掘出原始數(shù)據(jù)的更多信息，或者更進(jìn)一步，希望通過已有的列聯(lián)表推斷出原始的數(shù)據(jù).這樣不僅可以基于原始數(shù)據(jù)進(jìn)行深層次的分析，而且可以推斷出總體的特征，這就是我們希望實(shí)現(xiàn)的工作.

常見的列聯(lián)表主要有2維與3維的列表，3維以上的列聯(lián)表在各類統(tǒng)計(jì)報(bào)表中是比較少見的.在一手資料缺失的條件下，現(xiàn)有一批資料，其中共有若干張列表，我們可以看出數(shù)據(jù)中各項(xiàng)指標(biāo)之間的關(guān)系，而在很多情形下，我們更希望通過現(xiàn)有的列表發(fā)掘出更多的信息.這就需要基于現(xiàn)有的列聯(lián)表對(duì)樣本數(shù)據(jù)進(jìn)行推斷，這里就涉及到三個(gè)重要的問題：

(1)如何由已知的列聯(lián)表推斷出樣本的信息？

(2)如何評(píng)價(jià)推斷結(jié)果的優(yōu)劣？

(3)如何進(jìn)一步調(diào)整推斷結(jié)果，使之更接近于真值？

本文就圍繞這三個(gè)問題展開討論，首先我們定義幾個(gè)尺度來衡量參數(shù)估計(jì)的優(yōu)劣，然后討論如何求解參數(shù)的估計(jì)值，由已知的列聯(lián)表推斷出樣本的總體信息；進(jìn)一步以實(shí)際的例子來分析討論.最后提出可進(jìn)一步研究的問題以及需要改進(jìn)的地方.

2 列聯(lián)表數(shù)據(jù)的矩陣形式

假設(shè)我們研究的數(shù)據(jù)涉及p個(gè)指標(biāo)，稱這些指標(biāo)為p個(gè)因子，并將其記為X1，X2，…，Xp.設(shè)因子Xi具有l(wèi)i個(gè)水平，為方便記，將各水平記作1，2，…，li，i=1，2，…，p.

統(tǒng)計(jì)工作者收集到一批樣本容量為n的樣本，這批數(shù)據(jù)可以用下表來表示.

表1 原始數(shù)據(jù)集

(1)

其中：ni=(1，2，…，li)T，i=1，2，…，p，“?”表示Kronecker積，1k是元素全部為1的k維列向量.可見，這里的矩陣

是一個(gè)l×p階矩陣.X中的各行就是因子(X1，X2，…，Xp)在不同水平下的組合，稱之為一個(gè)“處理”.

由形如表1的原始數(shù)據(jù)經(jīng)過整理得到若干張列聯(lián)表.最為常見的是2維列聯(lián)表具有如下的形式.

表2 2維列聯(lián)表(ls×lt列聯(lián)表)

形如表2的2維列聯(lián)表，我們也記作ls×lt列聯(lián)表.在2維列聯(lián)表中，記

(2)

表示由Xs與Xt形成的2維列聯(lián)表頻數(shù)矩陣，我們用記號(hào)

表示這批數(shù)據(jù)中，第s個(gè)因子和第t個(gè)因子在組合水平a，b下的的頻率，也就是

表示的是樣本中(Xs，Xt)在水平組合(a，b)下的頻數(shù).

C2={T12，T13，…，Tp-1，p}

稱為完整的2維列聯(lián)表集，否則稱為不完整的2維列聯(lián)表集.

對(duì)于3維列聯(lián)表形如以下的形式.

表3 3維列聯(lián)表(li×lj×ls列聯(lián)表)

我們將3維列聯(lián)表記為li×lj×lk列聯(lián)表.并令

(3)

表示由Xi，Xj與Xk形成的3維列聯(lián)表矩陣，其中元素如表3所示.同理，用

C3={T123，T124，…，Tp-2，p-1，p}.

由2維和3維列聯(lián)表可見，樣本容量

3 列聯(lián)表的還原測(cè)度

一批資料中有若干張不同的列聯(lián)表，將這些列聯(lián)表構(gòu)成的集合記為C′，并稱其為初始列聯(lián)表集.如果C′中既有2維列聯(lián)表，也有3維列聯(lián)表.我們知道，由高維列聯(lián)表可以推導(dǎo)出低維的列聯(lián)表和各因子在各水平下的頻率.由一張3維列聯(lián)表可以生成3張2維列聯(lián)表，以及3張單因子的分布列.單因子分布列可由

得到.3維列聯(lián)表還可以推導(dǎo)出3張2維列聯(lián)表

現(xiàn)在的目的是要從現(xiàn)有的資料估計(jì)出樣本的信息，也就是通過現(xiàn)有的列聯(lián)表集推斷出樣本的信息.首先要在C′中剔除多余的列聯(lián)表.

例如，如果C′中含有3維列聯(lián)表Tijk，因?yàn)門ijk包含了Tij，Tik，Tjk的全部信息，即由3維列聯(lián)表Tijk可以推導(dǎo)出2維列聯(lián)表，此時(shí)，我們將C′中的Tij，Tik，Tjk剔除(如果有的話)，將此過程描述為以下的定義.

定義1 對(duì)于初始列聯(lián)表集C′，若Tijk∈C′，且{Tij，Tik，Tjk}?C′，則將Tij，Tik，Tjk從C′中剔除.經(jīng)過清理后得到的列聯(lián)表集記作C，稱之為列聯(lián)表集.

在此，我們定義兩個(gè)測(cè)度，用于度量還原列聯(lián)表數(shù)據(jù)的難易程度與精準(zhǔn)程度.

為這批列聯(lián)表集合的完整度.

列聯(lián)表集的完整度僅僅是定義了2維和3維列聯(lián)表的完整性，需要注意以下幾點(diǎn).

其次，由前面的討論可以知道，高維列聯(lián)表可以推導(dǎo)出低維的列聯(lián)表，而有的情況下，由若干張低維列聯(lián)表也可以推導(dǎo)出高維的列聯(lián)表.最理想的狀態(tài)是由現(xiàn)有的列聯(lián)表集推斷出表1中的頻數(shù)值Θ=(θ1，θ2，…，θl)T，這一過程就稱之為列聯(lián)表的數(shù)據(jù)還原.即使列聯(lián)表集的完整度α=1，并不一定就能推斷出所有組合的準(zhǔn)確頻數(shù).

的值.

雖然我們無法度量參數(shù)估計(jì)值與真值之間的偏差，但是希望盡可能的保證估計(jì)值的準(zhǔn)確度.于是給出下面的定義.

為還原度偏差.

下面我們將介紹求解參數(shù)估計(jì)的方法.

4 頻數(shù)的估計(jì)方法

設(shè)(xr1，xr2，…，xrp)是(1)式中的矩陣X的第r行，xri∈{1，2，…，li}，令yr表示在第r個(gè)處理下的頻數(shù)，它是未知的.這里的行數(shù)r可以按照以下方式來確定.

(4)

再設(shè)xi=(x1i，x2i，…，xli)T(i=1，2，…，p)是矩陣X的第i列.現(xiàn)在需要根據(jù)已有的資料求解出y1，y2，…，yl的值.在列聯(lián)表集C中，由2維列聯(lián)表Tst可以確定lslt-1個(gè)方程

(5)

由3維列聯(lián)表Tijk可以確定liljlk-1個(gè)方程

(6)

在(5)和(6)中，I(·)為示性函數(shù)，且示性函數(shù)中的數(shù)值與下標(biāo)滿足以下條件

(7)

在條件(7)中有幾點(diǎn)是需要說明的.

首先，由于列聯(lián)表集的不完整性，在方程組中的下標(biāo)s，t，i，j，k中，僅是標(biāo)注了它們的值范圍，而不表示取遍在此范圍內(nèi)的所有整數(shù).除非列聯(lián)表集的完整度α=1.

其次，由于列聯(lián)表集T是由定義1經(jīng)過整理而得的，所以(7)中任意的(s，t)?σ(i，j，k)，其中σ(i，j，k)={i，j，k，(i，j)，(i，k)，(j，k)，(i，j，k)}是由元素i，j，k生成數(shù)對(duì)構(gòu)成的集合.

最后，在這些方程中，之所以要剔除最后一個(gè)方程，即(5)中有(a，b)≠(ls，lt)，(6)中有(a，b，c)≠(li，lj，lk)，這是因?yàn)?維列聯(lián)表和3維列聯(lián)表的自由度分別是lslt-1和liljlk-1.

若令y=(y1，y2，…，yl)T是未知數(shù)向量，定義示性函數(shù)向量

I(xi，a)=(I(x1i=a)，I(x2i=a)，…，I(xli=a))T.

方程組(5)和(6)可以記作

(8)

其中“⊙”表示Hadamard積，方程組(8)中的各參數(shù)滿足條件(7).

進(jìn)一步，我們對(duì)方程組(8)中的每個(gè)方程進(jìn)行編號(hào).

列聯(lián)表集C中共有n0張不同的列聯(lián)表，設(shè)由C={T1，T2，…，Tn0}中的列聯(lián)表Tm生成的方程組具有矩陣的形式

Amy=bm，m=1，2，…，n0.

(9)

若Tm是2維列聯(lián)表，不失一般性，設(shè)若Tm對(duì)應(yīng)的是列聯(lián)表Tst，矩陣Am是(lslt-1)×l階矩陣，bm是可表示為lslt-1維列向量，即

(10)

若Tm是3維列聯(lián)表，不失一般性，設(shè)若Tm對(duì)應(yīng)的是列聯(lián)表Tijk，矩陣Am是(liljlk-1)×l階矩陣，bm是可表示為liljlk-1維列向量，即

(11)

聯(lián)立兩類方程組(10)和(11)，將(8)式記作矩陣的形式，得

Ay=b，

(12)

在極少情形下y=(y1，y2，…，yl)T的解是唯一的.并且因?yàn)橛擅總€(gè)列聯(lián)表生成的方程組中，我們都剔除了最后一個(gè)方程，所以矩陣A的最后一列都是0.也就是說，在大多數(shù)情形下，不完整的列聯(lián)表集推斷出的頻數(shù)估計(jì)是不唯一的.在(8)式中，如果

(1)當(dāng)N=l，且rank(A)=l時(shí)，方程(8)有唯一解，但是這種情況非常少，多數(shù)情況下是多張列聯(lián)表推斷多因子的數(shù)據(jù).例如一張2×2×2列聯(lián)表恰好還原3因子2水平的數(shù)據(jù).

(2)當(dāng)N>l時(shí)，且rank(A)=l，此時(shí)求解超定方程(8)，有唯一解，此時(shí)方程(8)有唯一解，但不一定能準(zhǔn)確的還原數(shù)據(jù)表1，但是還原度偏差β=0.這種情況也是比較少的.

(3)當(dāng)N

①AA+A=A；②A+AA+=A+；③(AA+)T=AA+；④(A+A)T=A+A，

并且A+是唯一的.在此我們使用矩陣A的加號(hào)廣義逆來求解y，y的解可以表示為

y=A+b+(I-A+A)μ，

(13)

由此得到頻數(shù)的估計(jì)，解出y值，令

(14)

5 實(shí)例分析

例1 一批3因子2水平的數(shù)據(jù)，假設(shè)各個(gè)處理的頻數(shù)向量為

Θ=(θ1，θ2，…，θ8)T=(2，16，14，10，25，17，25，9)T，

如表4的第5列所示，這些頻數(shù)值是未知的.如果現(xiàn)有3張2×2的列聯(lián)表如下

定義未知量向量y=(y1，y1，…，y8)T，根據(jù)(9)，(10)，(11)式可以寫出矩陣A與向量b分別為:

表4 3張2×2的列聯(lián)表的估計(jì)結(jié)果

現(xiàn)在有6張2維列聯(lián)表分別是

有的情形下，當(dāng)列聯(lián)表中的因子與對(duì)應(yīng)的水平都較多時(shí)，計(jì)算大型矩陣的廣義逆是存在困難的.對(duì)比例1與例2就可以發(fā)現(xiàn)，隨著水平數(shù)的增大，計(jì)算的精度會(huì)隨之驟降.如果我們關(guān)心的是重要的處理下的頻數(shù)估計(jì)，根據(jù)文獻(xiàn)[12]中更新的正交表，計(jì)算在對(duì)應(yīng)處理下的頻數(shù)估計(jì).文獻(xiàn)[13-15]中涉及到了正交表的應(yīng)用，可以事先將(12)中對(duì)應(yīng)的列聯(lián)表集中未包含的處理剔除，估計(jì)出正交表中對(duì)應(yīng)的處理的頻數(shù)即可.

6 討論

由于本文是基于原始數(shù)據(jù)缺失的情形下，通過現(xiàn)有的列聯(lián)表來推斷原始數(shù)據(jù)的結(jié)構(gòu)分布，因此對(duì)實(shí)際情況來說，還存在著許多有待進(jìn)一步研究的問題.

首先，由于沒有參照標(biāo)準(zhǔn)，我們推斷出來的頻數(shù)估計(jì)值，要想評(píng)價(jià)其優(yōu)劣，也只能通過現(xiàn)有的列表來評(píng)價(jià)即還原度.而且盡管還原度偏差β=0也不能說明數(shù)據(jù)還原無誤.

其次，由現(xiàn)有的列聯(lián)表來推斷出的各種處理的頻數(shù)，然后在此基礎(chǔ)上分析樣本其他的特征，也肯定是會(huì)失真的，如何控制偏差的范圍也是有待研究的問題.

再次，由列聯(lián)表的Pearsonχ2性檢驗(yàn)與Fisher精確獨(dú)立性檢驗(yàn)的知識(shí)可知，由列聯(lián)表中的頻率值構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量具有近似的分布.那么我們自然會(huì)想到，能否構(gòu)造出關(guān)于各個(gè)處理下頻數(shù)的樞軸量，以此得到各頻數(shù)的置信區(qū)間.

最后，本文所討論的問題是理想化的情形，但這類問題卻有著很好的實(shí)用價(jià)值，在實(shí)際統(tǒng)計(jì)工作中經(jīng)常會(huì)遇到類似的問題.如果能很好解決這一問題，對(duì)諸多統(tǒng)計(jì)工作將會(huì)有實(shí)質(zhì)性的幫助.