国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

列聯(lián)表的數(shù)據(jù)還原算法

2023-01-10 10:48:58李光輝滕凱敏趙海清
關(guān)鍵詞:原始數(shù)據(jù)頻數(shù)方程

李光輝,滕凱敏,趙海清

(1.凱里學(xué)院 理學(xué)院,貴州 凱里 556011;2.凱里市統(tǒng)計(jì)局,貴州 凱里 556001;3.嶺南師范學(xué)院,廣東 湛江 524048)

1 引言

由樣本推斷總體是統(tǒng)計(jì)學(xué)的主要工作,通常我們通過抽樣調(diào)查的方式來收集數(shù)據(jù),所獲得的這批數(shù)據(jù)稱之為一手?jǐn)?shù)據(jù),或原始數(shù)據(jù).將這些數(shù)據(jù)經(jīng)過整理歸納分析之后得到的各類統(tǒng)計(jì)報(bào)表稱之為二手?jǐn)?shù)據(jù),其中最為常見的統(tǒng)計(jì)報(bào)表就是列聯(lián)表.列表不僅能夠顯示出一批數(shù)據(jù)的總體特征,還能探索多個(gè)指標(biāo)之間的相互關(guān)系,發(fā)掘數(shù)據(jù)之間內(nèi)部的聯(lián)系,直觀地體現(xiàn)數(shù)據(jù)分布的情況.

關(guān)于列聯(lián)表分析的文獻(xiàn)有很多,特別是關(guān)于獨(dú)立性檢驗(yàn)方面的研究可見文獻(xiàn)[1-4],并且列聯(lián)表在實(shí)際中應(yīng)用也很廣泛,例如文獻(xiàn)[5-6]都是基于列聯(lián)表研究了實(shí)際的問題.在列聯(lián)表分析中也有諸多有趣的問題,例如Simpson悖論[7]等.列聯(lián)表表現(xiàn)直觀,應(yīng)用廣泛,我們也使用列聯(lián)表研究了關(guān)于試驗(yàn)設(shè)計(jì)方面的問題,特別是構(gòu)造格點(diǎn)剖分下的均勻設(shè)計(jì)與均勻性檢驗(yàn)方面的問題[8-10].

很多情形下,我們無法獲得統(tǒng)計(jì)調(diào)查的原始數(shù)據(jù),而收集到的資料都是零散的各類統(tǒng)計(jì)報(bào)表.我們希望能從現(xiàn)有的資料中發(fā)掘出原始數(shù)據(jù)的更多信息,或者更進(jìn)一步,希望通過已有的列聯(lián)表推斷出原始的數(shù)據(jù).這樣不僅可以基于原始數(shù)據(jù)進(jìn)行深層次的分析,而且可以推斷出總體的特征,這就是我們希望實(shí)現(xiàn)的工作.

常見的列聯(lián)表主要有2維與3維的列表,3維以上的列聯(lián)表在各類統(tǒng)計(jì)報(bào)表中是比較少見的.在一手資料缺失的條件下,現(xiàn)有一批資料,其中共有若干張列表,我們可以看出數(shù)據(jù)中各項(xiàng)指標(biāo)之間的關(guān)系,而在很多情形下,我們更希望通過現(xiàn)有的列表發(fā)掘出更多的信息.這就需要基于現(xiàn)有的列聯(lián)表對(duì)樣本數(shù)據(jù)進(jìn)行推斷,這里就涉及到三個(gè)重要的問題:

(1)如何由已知的列聯(lián)表推斷出樣本的信息?

(2)如何評(píng)價(jià)推斷結(jié)果的優(yōu)劣?

(3)如何進(jìn)一步調(diào)整推斷結(jié)果,使之更接近于真值?

本文就圍繞這三個(gè)問題展開討論,首先我們定義幾個(gè)尺度來衡量參數(shù)估計(jì)的優(yōu)劣,然后討論如何求解參數(shù)的估計(jì)值,由已知的列聯(lián)表推斷出樣本的總體信息;進(jìn)一步以實(shí)際的例子來分析討論.最后提出可進(jìn)一步研究的問題以及需要改進(jìn)的地方.

2 列聯(lián)表數(shù)據(jù)的矩陣形式

假設(shè)我們研究的數(shù)據(jù)涉及p個(gè)指標(biāo),稱這些指標(biāo)為p個(gè)因子,并將其記為X1,X2,…,Xp.設(shè)因子Xi具有l(wèi)i個(gè)水平,為方便記,將各水平記作1,2,…,li,i=1,2,…,p.

統(tǒng)計(jì)工作者收集到一批樣本容量為n的樣本,這批數(shù)據(jù)可以用下表來表示.

表1 原始數(shù)據(jù)集

(1)

其中:ni=(1,2,…,li)T,i=1,2,…,p,“?”表示Kronecker積,1k是元素全部為1的k維列向量.可見,這里的矩陣

是一個(gè)l×p階矩陣.X中的各行就是因子(X1,X2,…,Xp)在不同水平下的組合,稱之為一個(gè)“處理”.

由形如表1的原始數(shù)據(jù)經(jīng)過整理得到若干張列聯(lián)表.最為常見的是2維列聯(lián)表具有如下的形式.

表2 2維列聯(lián)表(ls×lt列聯(lián)表)

形如表2的2維列聯(lián)表,我們也記作ls×lt列聯(lián)表.在2維列聯(lián)表中,記

(2)

表示由Xs與Xt形成的2維列聯(lián)表頻數(shù)矩陣,我們用記號(hào)

表示這批數(shù)據(jù)中,第s個(gè)因子和第t個(gè)因子在組合水平a,b下的的頻率,也就是

表示的是樣本中(Xs,Xt)在水平組合(a,b)下的頻數(shù).

C2={T12,T13,…,Tp-1,p}

稱為完整的2維列聯(lián)表集,否則稱為不完整的2維列聯(lián)表集.

對(duì)于3維列聯(lián)表形如以下的形式.

表3 3維列聯(lián)表(li×lj×ls列聯(lián)表)

我們將3維列聯(lián)表記為li×lj×lk列聯(lián)表.并令

(3)

表示由Xi,Xj與Xk形成的3維列聯(lián)表矩陣,其中元素如表3所示.同理,用

C3={T123,T124,…,Tp-2,p-1,p}.

由2維和3維列聯(lián)表可見,樣本容量

3 列聯(lián)表的還原測(cè)度

一批資料中有若干張不同的列聯(lián)表,將這些列聯(lián)表構(gòu)成的集合記為C′,并稱其為初始列聯(lián)表集.如果C′中既有2維列聯(lián)表,也有3維列聯(lián)表.我們知道,由高維列聯(lián)表可以推導(dǎo)出低維的列聯(lián)表和各因子在各水平下的頻率.由一張3維列聯(lián)表可以生成3張2維列聯(lián)表,以及3張單因子的分布列.單因子分布列可由

得到.3維列聯(lián)表還可以推導(dǎo)出3張2維列聯(lián)表

現(xiàn)在的目的是要從現(xiàn)有的資料估計(jì)出樣本的信息,也就是通過現(xiàn)有的列聯(lián)表集推斷出樣本的信息.首先要在C′中剔除多余的列聯(lián)表.

例如,如果C′中含有3維列聯(lián)表Tijk,因?yàn)門ijk包含了Tij,Tik,Tjk的全部信息,即由3維列聯(lián)表Tijk可以推導(dǎo)出2維列聯(lián)表,此時(shí),我們將C′中的Tij,Tik,Tjk剔除(如果有的話),將此過程描述為以下的定義.

定義1 對(duì)于初始列聯(lián)表集C′,若Tijk∈C′,且{Tij,Tik,Tjk}?C′,則將Tij,Tik,Tjk從C′中剔除.經(jīng)過清理后得到的列聯(lián)表集記作C,稱之為列聯(lián)表集.

在此,我們定義兩個(gè)測(cè)度,用于度量還原列聯(lián)表數(shù)據(jù)的難易程度與精準(zhǔn)程度.

為這批列聯(lián)表集合的完整度.

列聯(lián)表集的完整度僅僅是定義了2維和3維列聯(lián)表的完整性,需要注意以下幾點(diǎn).

其次,由前面的討論可以知道,高維列聯(lián)表可以推導(dǎo)出低維的列聯(lián)表,而有的情況下,由若干張低維列聯(lián)表也可以推導(dǎo)出高維的列聯(lián)表.最理想的狀態(tài)是由現(xiàn)有的列聯(lián)表集推斷出表1中的頻數(shù)值Θ=(θ1,θ2,…,θl)T,這一過程就稱之為列聯(lián)表的數(shù)據(jù)還原.即使列聯(lián)表集的完整度α=1,并不一定就能推斷出所有組合的準(zhǔn)確頻數(shù).

的值.

雖然我們無法度量參數(shù)估計(jì)值與真值之間的偏差,但是希望盡可能的保證估計(jì)值的準(zhǔn)確度.于是給出下面的定義.

為還原度偏差.

下面我們將介紹求解參數(shù)估計(jì)的方法.

4 頻數(shù)的估計(jì)方法

設(shè)(xr1,xr2,…,xrp)是(1)式中的矩陣X的第r行,xri∈{1,2,…,li},令yr表示在第r個(gè)處理下的頻數(shù),它是未知的.這里的行數(shù)r可以按照以下方式來確定.

(4)

再設(shè)xi=(x1i,x2i,…,xli)T(i=1,2,…,p)是矩陣X的第i列.現(xiàn)在需要根據(jù)已有的資料求解出y1,y2,…,yl的值.在列聯(lián)表集C中,由2維列聯(lián)表Tst可以確定lslt-1個(gè)方程

(5)

由3維列聯(lián)表Tijk可以確定liljlk-1個(gè)方程

(6)

在(5)和(6)中,I(·)為示性函數(shù),且示性函數(shù)中的數(shù)值與下標(biāo)滿足以下條件

(7)

在條件(7)中有幾點(diǎn)是需要說明的.

首先,由于列聯(lián)表集的不完整性,在方程組中的下標(biāo)s,t,i,j,k中,僅是標(biāo)注了它們的值范圍,而不表示取遍在此范圍內(nèi)的所有整數(shù).除非列聯(lián)表集的完整度α=1.

其次,由于列聯(lián)表集T是由定義1經(jīng)過整理而得的,所以(7)中任意的(s,t)?σ(i,j,k),其中σ(i,j,k)={i,j,k,(i,j),(i,k),(j,k),(i,j,k)}是由元素i,j,k生成數(shù)對(duì)構(gòu)成的集合.

最后,在這些方程中,之所以要剔除最后一個(gè)方程,即(5)中有(a,b)≠(ls,lt),(6)中有(a,b,c)≠(li,lj,lk),這是因?yàn)?維列聯(lián)表和3維列聯(lián)表的自由度分別是lslt-1和liljlk-1.

若令y=(y1,y2,…,yl)T是未知數(shù)向量,定義示性函數(shù)向量

I(xi,a)=(I(x1i=a),I(x2i=a),…,I(xli=a))T.

方程組(5)和(6)可以記作

(8)

其中“⊙”表示Hadamard積,方程組(8)中的各參數(shù)滿足條件(7).

進(jìn)一步,我們對(duì)方程組(8)中的每個(gè)方程進(jìn)行編號(hào).

列聯(lián)表集C中共有n0張不同的列聯(lián)表,設(shè)由C={T1,T2,…,Tn0}中的列聯(lián)表Tm生成的方程組具有矩陣的形式

Amy=bm,m=1,2,…,n0.

(9)

若Tm是2維列聯(lián)表,不失一般性,設(shè)若Tm對(duì)應(yīng)的是列聯(lián)表Tst,矩陣Am是(lslt-1)×l階矩陣,bm是可表示為lslt-1維列向量,即

(10)

若Tm是3維列聯(lián)表,不失一般性,設(shè)若Tm對(duì)應(yīng)的是列聯(lián)表Tijk,矩陣Am是(liljlk-1)×l階矩陣,bm是可表示為liljlk-1維列向量,即

(11)

聯(lián)立兩類方程組(10)和(11),將(8)式記作矩陣的形式,得

Ay=b,

(12)

在極少情形下y=(y1,y2,…,yl)T的解是唯一的.并且因?yàn)橛擅總€(gè)列聯(lián)表生成的方程組中,我們都剔除了最后一個(gè)方程,所以矩陣A的最后一列都是0.也就是說,在大多數(shù)情形下,不完整的列聯(lián)表集推斷出的頻數(shù)估計(jì)是不唯一的.在(8)式中,如果

(1)當(dāng)N=l,且rank(A)=l時(shí),方程(8)有唯一解,但是這種情況非常少,多數(shù)情況下是多張列聯(lián)表推斷多因子的數(shù)據(jù).例如一張2×2×2列聯(lián)表恰好還原3因子2水平的數(shù)據(jù).

(2)當(dāng)N>l時(shí),且rank(A)=l,此時(shí)求解超定方程(8),有唯一解,此時(shí)方程(8)有唯一解,但不一定能準(zhǔn)確的還原數(shù)據(jù)表1,但是還原度偏差β=0.這種情況也是比較少的.

(3)當(dāng)N

①AA+A=A;②A+AA+=A+;③(AA+)T=AA+;④(A+A)T=A+A,

并且A+是唯一的.在此我們使用矩陣A的加號(hào)廣義逆來求解y,y的解可以表示為

y=A+b+(I-A+A)μ,

(13)

由此得到頻數(shù)的估計(jì),解出y值,令

(14)

5 實(shí)例分析

例1 一批3因子2水平的數(shù)據(jù),假設(shè)各個(gè)處理的頻數(shù)向量為

Θ=(θ1,θ2,…,θ8)T=(2,16,14,10,25,17,25,9)T,

如表4的第5列所示,這些頻數(shù)值是未知的.如果現(xiàn)有3張2×2的列聯(lián)表如下

定義未知量向量y=(y1,y1,…,y8)T,根據(jù)(9),(10),(11)式可以寫出矩陣A與向量b分別為:

表4 3張2×2的列聯(lián)表的估計(jì)結(jié)果

現(xiàn)在有6張2維列聯(lián)表分別是

有的情形下,當(dāng)列聯(lián)表中的因子與對(duì)應(yīng)的水平都較多時(shí),計(jì)算大型矩陣的廣義逆是存在困難的.對(duì)比例1與例2就可以發(fā)現(xiàn),隨著水平數(shù)的增大,計(jì)算的精度會(huì)隨之驟降.如果我們關(guān)心的是重要的處理下的頻數(shù)估計(jì),根據(jù)文獻(xiàn)[12]中更新的正交表,計(jì)算在對(duì)應(yīng)處理下的頻數(shù)估計(jì).文獻(xiàn)[13-15]中涉及到了正交表的應(yīng)用,可以事先將(12)中對(duì)應(yīng)的列聯(lián)表集中未包含的處理剔除,估計(jì)出正交表中對(duì)應(yīng)的處理的頻數(shù)即可.

6 討論

由于本文是基于原始數(shù)據(jù)缺失的情形下,通過現(xiàn)有的列聯(lián)表來推斷原始數(shù)據(jù)的結(jié)構(gòu)分布,因此對(duì)實(shí)際情況來說,還存在著許多有待進(jìn)一步研究的問題.

首先,由于沒有參照標(biāo)準(zhǔn),我們推斷出來的頻數(shù)估計(jì)值,要想評(píng)價(jià)其優(yōu)劣,也只能通過現(xiàn)有的列表來評(píng)價(jià)即還原度.而且盡管還原度偏差β=0也不能說明數(shù)據(jù)還原無誤.

其次,由現(xiàn)有的列聯(lián)表來推斷出的各種處理的頻數(shù),然后在此基礎(chǔ)上分析樣本其他的特征,也肯定是會(huì)失真的,如何控制偏差的范圍也是有待研究的問題.

再次,由列聯(lián)表的Pearsonχ2性檢驗(yàn)與Fisher精確獨(dú)立性檢驗(yàn)的知識(shí)可知,由列聯(lián)表中的頻率值構(gòu)造的檢驗(yàn)統(tǒng)計(jì)量具有近似的分布.那么我們自然會(huì)想到,能否構(gòu)造出關(guān)于各個(gè)處理下頻數(shù)的樞軸量,以此得到各頻數(shù)的置信區(qū)間.

最后,本文所討論的問題是理想化的情形,但這類問題卻有著很好的實(shí)用價(jià)值,在實(shí)際統(tǒng)計(jì)工作中經(jīng)常會(huì)遇到類似的問題.如果能很好解決這一問題,對(duì)諸多統(tǒng)計(jì)工作將會(huì)有實(shí)質(zhì)性的幫助.

猜你喜歡
原始數(shù)據(jù)頻數(shù)方程
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
方程的再認(rèn)識(shí)
方程(組)的由來
受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
圓的方程
全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
汽車零部件(2017年4期)2017-07-12 17:05:53
中考頻數(shù)分布直方圖題型展示
學(xué)習(xí)制作頻數(shù)分布直方圖三部曲
頻數(shù)和頻率
盜汗病治療藥物性味歸經(jīng)頻數(shù)分析
临夏市| 沧州市| 武汉市| 合江县| 峨眉山市| 吉首市| 汽车| 恩平市| 灵丘县| 浮梁县| 华蓥市| 龙里县| 云林县| 榆树市| 慈溪市| 无锡市| 五大连池市| 临武县| 蕉岭县| 凌云县| 抚州市| 白山市| 巴彦县| 吉木萨尔县| 浑源县| 双流县| 安远县| 天镇县| 蒙山县| 博野县| 湘潭市| 托里县| 邵阳县| 黄大仙区| 北碚区| 海阳市| 多伦县| 临沭县| 汉川市| 松滋市| 宁陵县|