趙志文,于 月,姜 珊
(吉林師范大學(xué) 數(shù)學(xué)與計算機學(xué)院,吉林 四平 136000)
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)也變得更加多元化,對于一些實際問題,所獲得的觀測數(shù)據(jù)通常只能用某一取值范圍來表示,例如某城市一天的氣溫和濕度的變化范圍、股票的漲幅情況等,該數(shù)據(jù)稱之為區(qū)間數(shù)據(jù).區(qū)間數(shù)據(jù)的統(tǒng)計推斷一直也是統(tǒng)計學(xué)家關(guān)心的熱點問題之一.
針對區(qū)間型數(shù)據(jù)的建模及模型的統(tǒng)計推斷問題,尹遜汝[1]研究了區(qū)間數(shù)據(jù)下線性模型的參數(shù)估計問題,同時證明了估計量的相合性;王金嬋等[2]針對區(qū)間數(shù)據(jù)建立了區(qū)間數(shù)據(jù)回歸模型并給出了模型參數(shù)的估計方法;鄧文麗等[3]討論了區(qū)間數(shù)據(jù)下指數(shù)分布參數(shù)的矩估計問題,通過矩方法得到了區(qū)間截斷情況下參數(shù)的兩個矩估計,并通過這兩個矩估計的關(guān)系得到了一個更優(yōu)的估計,最后利用矩估計的漸近性質(zhì),進一步得到了兩種區(qū)間截斷情況在大樣本下參數(shù)的置信區(qū)間;Blanco-Fernández等[4]討論了自變量和因變量均為區(qū)間值數(shù)據(jù)時簡單線性回歸模型的參數(shù)估計問題,并給出了模型參數(shù)的最小二乘估計,同時證明了估計量的強相合性;Calcagnì等[5]基于符號回歸分析方法,提出用新的回歸模型來對區(qū)間值變量進行分析;2012年,Blanco-Fernández等[6]基于最小二乘估計的漸近分布,討論了區(qū)間值線性回歸模型參數(shù)置信集的構(gòu)造問題;此外,Sinova等[7]基于區(qū)間值數(shù)據(jù)的運算性質(zhì)建立了區(qū)間值回歸模型,并且利用最小二乘方法考慮模型參數(shù)的估計問題.
由于在實際觀測中經(jīng)常存在數(shù)據(jù)缺失,因此缺失數(shù)據(jù)的估計和檢驗問題一直是統(tǒng)計學(xué)家們關(guān)心的熱點問題之一.田萍等[8-9]利用EM算法,研究了缺失數(shù)據(jù)條件下零均值A(chǔ)R(p)模型和ARMA(1,1)模型的參數(shù)估計問題;馬明月等[10]討論了部分缺失數(shù)據(jù)兩個雙參數(shù)指數(shù)總體的參數(shù)估計問題;趙志文等[11]研究了具有部分缺失數(shù)據(jù)的兩個幾何分布總體中的參數(shù)估計問題以及兩總體參數(shù)相等的假設(shè)檢驗問題;陳菲等[12]討論了部分數(shù)據(jù)缺失時兩個Weibull總體的參數(shù)估計和關(guān)于總體相同的似然比檢驗問題;龍兵等[13]研究了在樣本數(shù)據(jù)缺失下Pareto分布的參數(shù)估計和假設(shè)檢驗問題;劉銀萍等[14]針對于缺失數(shù)據(jù)情形下兩個泊松總體的參數(shù)估計問題以及兩總體參數(shù)相等的假設(shè)檢驗問題進行了進一步的討論;徐圣楠等[15-16]利用矩估計的方法,研究在缺失部分數(shù)據(jù)的情況下混合瑞利分布總體及混合拉普拉斯分布中總體參數(shù)的估計問題;王敏會[17]在此基礎(chǔ)上,討論了具有部分缺失數(shù)據(jù)混合幾何分布總體的參數(shù)估計問題.本文進一步考慮數(shù)據(jù)存在缺失并且缺失概率未知時的區(qū)間數(shù)據(jù)均值的估計與檢驗問題.
設(shè)X是隨機區(qū)間總體,{X1,…,Xn}是獨立同分布的隨機樣本,令
證明由獨立同分布的大數(shù)定律可知
(1)
同理可證
(2)
下面的引理給出了證明極限分布為正態(tài)分布的隨機向量函數(shù)依分布收斂于正態(tài)分布的方法.
E(Wi)=(P,PμC,PμR).
由獨立同分布的多元中心極限定理可知
記
其中
易知
令
θ=(θ1,θ2,θ3)=(p,pμC,pμR),
注意到
進而可得
利用引理1,經(jīng)過簡單的代數(shù)運算可知
檢驗ⅢH0:μ=μ0?H1:μ≠μ0,
檢驗Ⅰ和檢驗Ⅱ分別考慮區(qū)間中心和區(qū)間半徑是否等于某一常數(shù)的檢驗問題,檢驗Ⅲ則是同時考慮區(qū)間中心和區(qū)間半徑是否等于某一常數(shù)的檢驗問題.
利用Cramer-wold定理易知推論1、推論2和推論3成立.為對上述檢驗問題構(gòu)造檢驗統(tǒng)計量,考慮C的估計,令
首先考慮區(qū)間中心是否等于某一常數(shù)的檢驗問題Ⅰ.構(gòu)造檢驗統(tǒng)計量
其次考慮區(qū)間半徑是否等于某一常數(shù)的檢驗問題Ⅱ.構(gòu)造檢驗統(tǒng)計量
最后同時考慮區(qū)間中心和區(qū)間半徑是否等于某一常數(shù)的檢驗問題Ⅲ.構(gòu)造檢驗統(tǒng)計量
對于檢驗問題Ⅰ,表1給出了原假設(shè)為真時接受原假設(shè)的概率,表2給出了備擇假設(shè)為真時拒絕原假設(shè)的概率.對于檢驗問題Ⅱ,表3給出了原假設(shè)為真時接受原假設(shè)的概率,表4給出了備擇假設(shè)為真時拒絕原假設(shè)的概率.對于檢驗問題Ⅲ,表5給出了原假設(shè)為真時接受原假設(shè)的概率,表6給出了備擇假設(shè)為真時拒絕原假設(shè)的概率.
表1 缺失概率為0.1時原假設(shè)成立的條件下接受原假設(shè)的概率
表2 缺失概率為0.1時備擇假設(shè)為真時拒絕原假設(shè)的概率
表3 缺失概率為0.1時原假設(shè)成立的條件下接受原假設(shè)的概率
表4 缺失概率為0.1時備擇假設(shè)成立的條件下拒絕原假設(shè)的概率
表5 缺失概率為0.1時原假設(shè)成立的條件下接受原假設(shè)的概率
表6 缺失概率為0.1時備擇假設(shè)成立的條件下拒絕原假設(shè)的概率
從表1—6的模擬結(jié)果可以看出,隨著參數(shù)取值的變化,無論原假設(shè)成立的條件下接受原假設(shè)的概率還是備擇假設(shè)成立的條件下拒絕原假設(shè)的概率都是接近1的,因此說明上述三個檢驗方法具有可行性.此外,從模擬結(jié)果可以看出,模擬結(jié)果不受參數(shù)變化的影響,這說明所給出的檢驗方法具有一定的穩(wěn)健性.
本文討論了缺失數(shù)據(jù)下區(qū)間數(shù)據(jù)均值的估計與檢驗問題,利用矩估計方法給出區(qū)間中心和半徑均值的估計,在此基礎(chǔ)上進一步對區(qū)間中心均值、區(qū)間半徑均值相關(guān)的檢驗問題進行研究,與以往研究不同的是該統(tǒng)計推斷方法可以在數(shù)據(jù)存在缺失的條件下使用.該研究結(jié)果進一步豐富和發(fā)展了區(qū)間數(shù)據(jù)的統(tǒng)計推斷理論,為進一步研究缺失數(shù)據(jù)下區(qū)間數(shù)據(jù)的統(tǒng)計推斷問題奠定了基礎(chǔ).