国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Energy distance 的配對(duì)樣本分布差異檢驗(yàn)法

2019-03-23 03:17陳敏瓊
關(guān)鍵詞:檢驗(yàn)法向量定義

陳敏瓊

中山大學(xué)新華學(xué)院, 廣東 廣州 510520

配對(duì)樣本的同分布檢驗(yàn)是統(tǒng)計(jì)理論及實(shí)際中常見(jiàn)的一個(gè)基本問(wèn)題, 通常用于比較同一對(duì)象上的兩種不同處理或某一處理前后各指標(biāo)的分布差異. 如對(duì)同一研究對(duì)象分別給予A,B兩種不同處理,記X為處理A下的記錄,Y為處理B下的記錄,此時(shí)要比較兩種不同處理的效果差異,就需要對(duì)X與Y的分布差異進(jìn)行顯著性檢驗(yàn).再如,如果我們對(duì)某個(gè)研究對(duì)象進(jìn)行某一處理,若X是未加處理的記錄,而Y是施加該處理后的記錄, 此時(shí)要判斷處理是否有效,同樣需要對(duì)X與Y的分布差異進(jìn)行顯著性檢驗(yàn).

對(duì)于配對(duì)樣本的同分布檢驗(yàn)問(wèn)題,經(jīng)典的方法有一元t檢驗(yàn)法、多元Hotelling T2檢驗(yàn)法、符號(hào)檢驗(yàn)法與Wilcoxcon 符號(hào)秩檢驗(yàn)法等.一元t檢驗(yàn)法與多元Hotelling T2檢驗(yàn)法適用于(X,Y)聯(lián)合分布為二維或多維正態(tài)分布情形,且僅是對(duì)X,Y的均值差異進(jìn)行顯著性檢驗(yàn).當(dāng)(X,Y)不滿足聯(lián)合正態(tài)的假設(shè),通常我們可用符號(hào)檢驗(yàn)或Wilcoxcon符號(hào)秩檢驗(yàn)等非參數(shù)檢驗(yàn),但符號(hào)檢驗(yàn)事實(shí)上是檢驗(yàn)X-Y分布是否以0為中位數(shù),而Wilcoxcon符號(hào)秩檢驗(yàn)則檢驗(yàn)X-Y分布是否關(guān)于0對(duì)稱顯然X與Y同分布并不等價(jià)于X-Y分布對(duì)稱,更不等價(jià)于X-Y分布以0為中位數(shù),因而對(duì)于配對(duì)樣本同分布檢驗(yàn)而言,符號(hào)檢驗(yàn)與Wilcoxon檢驗(yàn)并不是一致性檢驗(yàn).同時(shí)我們應(yīng)該注意到這些經(jīng)典方法基本只適用于X與Y為一元隨機(jī)變量的情形.

Energy distance的概念最早于Székely 與 Rizzo 在文獻(xiàn)[1]中提出,它是度量?jī)蓚€(gè)獨(dú)立隨機(jī)變量分布差異的一個(gè)很好的測(cè)度,它本質(zhì)上是兩個(gè)獨(dú)立隨機(jī)向量的分布的特征函數(shù)之差的模,但巧妙之處在于通過(guò)選取適當(dāng)?shù)哪iL(zhǎng)定義后它可以表示成距離函數(shù)的期望形式,而樣本估計(jì)只涉及兩點(diǎn)之間的距離的計(jì)算.因此,作為檢驗(yàn)獨(dú)立樣本是否同分布這一基本統(tǒng)計(jì)問(wèn)題,Energy distance提供了一種突破性的方法,它檢驗(yàn)的對(duì)象可以是任意具有有限維數(shù)的隨機(jī)向量,只需滿足有限一階矩的條件即可.Székely 與Rizzo 在文獻(xiàn)[2~6]中分別展示了他們將Energy distance用于處理諸如獨(dú)立樣本同分檢驗(yàn)、單樣本分布檢驗(yàn)、聚類分析、獨(dú)立性檢驗(yàn)、方差分析等一系列經(jīng)典統(tǒng)計(jì)問(wèn)題的結(jié)果[7],對(duì)這些方法進(jìn)行了總結(jié),指出與經(jīng)典方法相比,這些方法計(jì)算簡(jiǎn)便、適用于更廣泛分布類型的數(shù)據(jù),且能處理多變量情況.而將 Energy distance 的概念用于配對(duì)樣本分布的檢驗(yàn)則未見(jiàn)有文獻(xiàn)提及過(guò).

本文基于獨(dú)立變量 Energy distance 距離的概念,提出了相關(guān)變量的 Energy distance 距離的定義,由此給出一種新的檢驗(yàn)配對(duì)樣本分布差異的檢驗(yàn)統(tǒng)計(jì)量,并討論了該檢驗(yàn)統(tǒng)計(jì)量在兩變量同分布的假設(shè)下的漸近分布,該檢驗(yàn)方法適用于任意有限維數(shù)的具有有限一階矩的隨機(jī)向量.

1 主要方法與結(jié)果

我們先回顧一下文獻(xiàn)[1]提出的兩個(gè)獨(dú)立的隨機(jī)變量的Energy distance的定義及主要結(jié)果.

定義1[1]設(shè)X、Y為取值于Rd的兩個(gè)獨(dú)立的隨機(jī)向量, 并且E|X|+E|Y|<∞,則X與Y的Energy distance 定義為

ε(X,Y):=2E|X-Y|-E|X-X′|-E|Y-Y′|

其中,|.|表示歐氏距離,X′為與X獨(dú)立同分布的隨機(jī)變量,Y′為與Y獨(dú)立同分布的隨機(jī)變量.

文獻(xiàn)[1]給出了命題1的證明, 主要利用到重要的積分等式

(1)

從定義1可以看出, 雖然Energy distance的概念是針對(duì)獨(dú)立變量提出, 但事實(shí)上這個(gè)概念對(duì)于相關(guān)變量也可以類似定義. 下面,我們給出相關(guān)變量的Energy distance定義,并討論有關(guān)性質(zhì).

定義2 設(shè)X、Y為取值于Rd的兩個(gè)相關(guān)的隨機(jī)變量, 假設(shè)(X,Y)有聯(lián)合分布H,邊緣分布分別為F,G.假定X,Y都具有有限的一階矩,即E|X|+E|Y|<∞ 則可定義X,Y之間的Energy distance為

ε(X,Y):=E|X-Y′|+E|Y-X′|-E|X-X′|-E|Y-Y′|

(2)

其中,(X′,Y′)與(X,Y)獨(dú)立同分布.

與命題1類似,我們有如下等式成立.

(3)

因此,同樣有ε(X,Y)≥0并且等號(hào)成立當(dāng)且僅當(dāng)X與Y同分布.

=EeitTXEe-itTX′+EeitTYEe-itTY′-EeitTXEe-itTY′-Ee-itTX′EeitTY

=EeitT(X-X′)+EeitT(Y-Y′)-EeitT(X-Y′)-EeitT(Y-X′)

=1-EeitT(X-Y′)+1-EeitT(Y-X′)-(1-eitT(X-X′))-(1-EeitT(Y-Y′))

等式兩邊取積分,依據(jù)積分等式(1)便可得

因此可得ε(X,Y)≥0并且等號(hào)成立當(dāng)且僅當(dāng)X與Y具有相同的分布.

推論1 設(shè)X與X′為取值為Rd的兩個(gè)獨(dú)立同分布的隨機(jī)向量, 則E|X+X′|≥E|X-X′|且

E|X+X′|=E|X-X′|成立當(dāng)且僅當(dāng)X的分布為對(duì)角對(duì)稱.

證明 文獻(xiàn)[8,9]分別給出了X為一元隨機(jī)變量情形的證明, 這里, 我們給出一般性證明,事實(shí)上在定義2中令Y=-X可得

ε(X,Y) =ε(X,-X)

=E|X-(-X′)|+E|X′-(-X)|-E|X-X′|-E|-X-(-X′)|

=2(E|X+X′|-E|X-X′|)

因此, 根據(jù)命題2的結(jié)論, 我們有E|X+X′|≥E|X-X′|,并且E|X+X′|=E|X-X′|成立當(dāng)且僅當(dāng)X與-X分布相同,即X的分布為對(duì)角對(duì)稱.

下面我們給出相關(guān)變量Energy distance 的樣本估計(jì).

定義3 令Wi=(Xi,Yi),i=1,2,…,n為來(lái)自(X,Y)的一個(gè)樣本, 記(X,Y)={W1,W2,…,Wn}, 則X與Y的Energy distance 的樣本估計(jì)為

(4)

若記

h(w1,w2):=h((x1,y1),(x2,y2))=|x1-y2|+|y1-x2|-|x1-x2|-|y1-y2|

(5)

則εn(X,Y)是一個(gè)以h為核的U統(tǒng)計(jì)量

(6)

顯然εn(X,Y)為ε(X,Y)的無(wú)偏估計(jì).

利用U統(tǒng)計(jì)量的大樣本性質(zhì),我們可以得到下面兩個(gè)關(guān)于εn(X,Y)的重要結(jié)論.

證明 對(duì)于h(W1,W2),在E|X|+E|Y|<∞條件下有,E|h(W1,W2)|≤4(E|X1|+E|Y1|)<∞.同時(shí),由于E[h(W1,W2)]=ε(X,Y),根據(jù)文獻(xiàn)[10]的結(jié)論, 我們有

(7)

定理2 設(shè)X、Y為取值于Rd的兩個(gè)相關(guān)的隨機(jī)變量,(X,Y)有聯(lián)合分布H,且E|X|+E|Y|<∞,則有

i)若X與Y同分布,則

(8)

證明 i)若X與Y同分布,則

E[h(W1,W2)]=E|X1-Y2|+E|X2-Y1|-E|X1-X2|-E|Y1-Y2|=0

=E|x1-Y2|+E|X2-y1|-E|x1-X2|-E|y1-Y2|=0

這說(shuō)明εn(X,Y)為一階退化的U統(tǒng)計(jì)量,因此有

ii)由于當(dāng)X與Y不同分布時(shí)有

2 數(shù)值模擬

從上面的結(jié)論可知,分布Q依賴于λv,v=1,2,…,而λv一般是不可能得到的,因此我們選用bootstrap 抽樣技術(shù)來(lái)獲得檢驗(yàn)的p值.注意到H0當(dāng)成立時(shí),即X,Y同分布時(shí),(X,Y)與(Y,X)具有相同的分布,因此,我們可從樣本

Dn={(X1,Y1),…,(Xn,Yn),(Y1,X1),…,(Yn,Xn)}

(9)

其中,εn是原始樣本{(X1,Y1),…,(Xn,Yn)}計(jì)算得到的檢驗(yàn)統(tǒng)計(jì)量.

我們考慮以下8個(gè)模型:

模型2:X~U(0,3),Y=3-X.

模型3:X~B(8,0.5),Y=8-X.

模型7:X~U(0,1),Z~N(0,1),Y=X-Z.

為了說(shuō)明我們方法的有效性,利用R軟件對(duì)每個(gè)模型分別產(chǎn)生容量為n=30,50,150,100,200的隨機(jī)樣本,對(duì)每個(gè)模型分別用t檢驗(yàn)、Wilcoxon符號(hào)秩檢驗(yàn)及我們提出的檢驗(yàn)方法做比較.表1給出了8個(gè)模型的不同容量下三種檢驗(yàn)方法的功效,其中p.test指的是本文所提出的檢驗(yàn)方法,每次檢驗(yàn)基于199次bootstrap重抽樣計(jì)算p值,三種檢驗(yàn)方法的功效是基于1 000次重復(fù)試驗(yàn)計(jì)算得到.

從模型1到4的模擬結(jié)果可以看出,在X,Y同分布的情況下,本文所提出的p.test方法跟經(jīng)典的t檢驗(yàn)法與Wilcoxon符號(hào)秩檢驗(yàn)法的結(jié)果相近,t 檢驗(yàn)法與 Wilcoxon 符號(hào)秩檢驗(yàn)法的第一類錯(cuò)誤在 0.05 左右,p.test 的第一類錯(cuò)誤在 0.025 附近,因此三種方法都能很好地控制第一類錯(cuò)誤.模型4至模型7的結(jié)果說(shuō)明對(duì)于X,Y均值相同或X-Y分布對(duì)稱但X,Y分布不同的情形經(jīng)典的t檢驗(yàn)法與Wilcoxon符號(hào)秩檢驗(yàn)法都失去了檢驗(yàn)功效,而本文所提出的p.test檢驗(yàn)法則具有很高的功效.

3 總結(jié)

本文基于獨(dú)立隨機(jī)向量的Energy distance的概念提出了相關(guān)變量的Energy distance 距離的定義,由此給出了一種新的檢驗(yàn)配對(duì)樣本分布差異的檢驗(yàn)統(tǒng)計(jì)量. 數(shù)值模擬結(jié)果說(shuō)明該方法比經(jīng)典的t檢驗(yàn)法與Wilcoxon符號(hào)秩檢驗(yàn)法能更有效地鑒別出配對(duì)變量的分布差異. 該檢驗(yàn)方法的檢驗(yàn)統(tǒng)計(jì)量只涉及兩點(diǎn)間的歐氏距離的計(jì)算,因此計(jì)算非常簡(jiǎn)便,且適用于任意有限維的具有有限一階矩的隨機(jī)向量.

表1 8個(gè)模型不同樣本容量下三種檢驗(yàn)方法的功效(α=0.05)Tab.1 Power of the three kinds of test methods for eight models under different sample size (α= 0.05)

猜你喜歡
檢驗(yàn)法向量定義
向量的分解
聚焦“向量與三角”創(chuàng)新題
國(guó)際法中的“反事實(shí)推理”:作用與局限
混合χ2檢測(cè)法在組合導(dǎo)航系統(tǒng)故障檢測(cè)中的應(yīng)用
論TRIPS協(xié)議中“三步檢驗(yàn)法”存廢之爭(zhēng)和解決途徑
向量垂直在解析幾何中的應(yīng)用
成功的定義
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
修辭學(xué)的重大定義
山的定義