狄曉園 張琴芳
摘要:本文參照國家統(tǒng)計(jì)年鑒和重慶統(tǒng)計(jì)信息網(wǎng)的數(shù)據(jù),采用簡單隨機(jī)抽樣估計(jì)、分層抽樣估計(jì)和PPS抽樣估計(jì)方法對我國電力消耗量進(jìn)行估計(jì),并且三種估計(jì)方法進(jìn)行比較分析,最后得出采用分層隨機(jī)抽樣估計(jì)方法的效果是最好的。
關(guān)鍵詞:簡單隨機(jī)抽樣;分層抽樣;PPS抽樣;電力消耗量
一、原理介紹
(一)簡單隨機(jī)抽樣
簡單隨機(jī)抽樣就是從總體的N個(gè)單元中,以此整批抽取n個(gè)單元,使任何一個(gè)單元被抽中的概率都相等,任何n個(gè)不同單元組成的組合被抽中的概率也都相等。當(dāng)總體單元之間差異不大時(shí),簡單隨機(jī)抽樣簡便、有效。
(二)分層抽樣
分層抽樣又稱為類型抽樣或分類抽樣,即在每一層中獨(dú)立進(jìn)行抽樣,總的樣本由各層樣本組成,總體參數(shù)則根據(jù)各層樣本參數(shù)的匯總做出估計(jì),這種抽樣就稱為分層抽樣,所得樣本稱為分層樣本。當(dāng)總體規(guī)模N與樣本容量n都較大,總體單元之間的差異也較大時(shí),可以采取滿足組內(nèi)差異小、組間差異大的分組原則進(jìn)行分層抽樣。
(三)PPS抽樣
按規(guī)模大小成比例的概率抽樣,簡稱為PPS抽樣,它是一種使用輔助信息,從而使每個(gè)單位均有按其規(guī)模大小成比例的被抽中概率的一種抽樣方法。當(dāng)抽樣單元規(guī)模差異很大時(shí),經(jīng)常采用不等概抽樣,即每個(gè)單元入樣的概率不相等。
二、抽樣估計(jì)方法在全國電力消耗量估計(jì)中的應(yīng)用
(一)簡單隨機(jī)抽樣估計(jì)
1、樣本容量的確定。調(diào)查全國電力消耗是以省(市)為抽樣單元,從我國31省(市)去掉西藏自治區(qū)按照30%的比例抽取10個(gè)樣本單元先做一個(gè)小型試驗(yàn)來估計(jì)樣本容量,具體步驟如下:由于此次調(diào)查的目的是用2013的全國各地區(qū)電力消耗估計(jì)2013年全國電力消耗總量,因此先用簡單隨機(jī)抽樣方法,利用SPSS統(tǒng)計(jì)軟件直接抽出2012年10個(gè)樣本單元計(jì)算出S2,Δ2,其中S2=1N-1∑Ni=1Yi-Y2,Δ=zα2ν(y),最后利用樣本容量公式n =S2z2α2Δ 2計(jì)算出所要抽取樣本單元的個(gè)數(shù),其中S2代表2012年電力消費(fèi)的總體方差,Δ代表極限誤差。最后計(jì)算得n=12。
2、抽樣框。樣本容量確定之后再次利用SPSS直接抽取樣本單元分別是北京、天津、河北、山東、浙江、福建、湖南、廣西、四川、陜西、甘肅、寧夏。
3、估計(jì)方法。本篇論文中采用了三種估計(jì)量,分別是簡單估計(jì)、比率估計(jì)和回歸估計(jì),具體計(jì)算過程只列舉了比率估計(jì),但后面對三種估計(jì)量進(jìn)行了對比。
對全國電力消耗量進(jìn)行估計(jì)時(shí),選取工業(yè)增加值為輔助變量,經(jīng)過計(jì)算檢驗(yàn)二者相關(guān)程度較高,兩者的相關(guān)系數(shù)為0.937,適合做比率估計(jì)。
由表一可以看出,比率估計(jì)和回歸估計(jì)的精度要高于簡單估計(jì)的精度,前兩者估計(jì)精度相差不大但回歸估計(jì)要略好于比率估計(jì)。
(二)分層隨機(jī)抽樣
1、樣本容量的確定。首先根據(jù)各地區(qū)電力消耗量繪出折線圖發(fā)現(xiàn)各地區(qū)電力消費(fèi)差異比較大,因此可以根據(jù)電力消耗多少將30個(gè)地區(qū)劃分為三層。第一層包括河北、江蘇、浙江、山東、河南、廣東六個(gè)城市;第二層包括山西、內(nèi)蒙古、遼寧、上海、安徽、福建、湖北、湖南、廣西、四川、云南十一個(gè)城市;第三層包括北京、天津、吉林、黑龍江、江西、海南、重慶、貴州、陜西、甘肅、青海、寧夏、新疆十三個(gè)城市 。
然后按照比例分配確定每一層的樣本單元數(shù):利用公式nh=n×NhN;接著用隨機(jī)數(shù)表在每一層里面生成樣本單元:其中第一層樣本單元分別是河北、山東;第二層樣本單元分別是山西、遼寧、上海、安徽;第三層樣本單元分別是北京、吉林、黑龍江、海南、甘肅。
2、估計(jì)方法。點(diǎn)估計(jì)
lrs=∑Lh=1Whlrh=∑Lh=1Whh+βhh-h=1508.302
方差估計(jì)(不能事先設(shè)定各層的回歸系數(shù)βh)
將βh取為第h層回歸系數(shù)Bh的最小二乘估計(jì)bh,bh即為樣本回歸系數(shù):
bh=∑nhi=1yhi-hxhi-h∑nhi=1xhi-h2
v(lrs ) = ∑Lh = 1W2h 1-fh nh nh -2(nh -1)s2yh (1-r2h )= 3109.784
3、精度比較。將分層抽樣三種估計(jì)方法所得出的結(jié)果總結(jié)于表二中進(jìn)行比較。從表二可以看出,對于全國電力消耗量抽樣估計(jì)方法中,比率估計(jì)的效果最差。
(三)PPS抽樣估計(jì)
1、樣本容量的確定。在PPS抽樣中最常用的是按照總體單元的規(guī)模大小來確定單元每次入樣的概率。在對全國電力消費(fèi)抽樣估計(jì)中選取各地區(qū)工業(yè)生產(chǎn)總值Mi來度量規(guī)模,總體的總規(guī)模為M0=∑Ni=1Mi,每次抽樣中第i個(gè)單元被抽中的概率用Zi表示,Zi=MiM0。
根據(jù)簡單隨機(jī)抽樣確定的樣本容量n=12來確定PPS抽樣中樣本單元,根據(jù)k=M0n來確定樣本間距k,在1~k用隨機(jī)數(shù)表產(chǎn)生一個(gè)隨機(jī)數(shù),并確定相應(yīng)的初始地區(qū),以后在總體中每隔k個(gè)地區(qū)抽出一個(gè)地區(qū)作為樣本單元。在對全國電力消耗進(jìn)行PPS抽樣中賦予每個(gè)地區(qū)與Mi相等的代碼數(shù),將代碼數(shù)累加到M0,每次抽樣都產(chǎn)生一個(gè)[1,M0]之間的隨機(jī)數(shù),設(shè)為m,則代碼所對應(yīng)的地區(qū)被抽中。
根據(jù)公式k=M0n計(jì)算得k=7034949,在1~k之間利用隨機(jī)數(shù)表生成6642828時(shí)所抽到的城市無重復(fù),且它處于河北的代碼范圍,因此河北作為抽中的第一個(gè)樣本,以后每隔k個(gè)單元抽出一個(gè)作為樣本單元。最后抽得樣本分別是:河北、遼寧、上海、江蘇、浙江、福建、山東、河南、湖南、廣東、四川、新疆。
2、計(jì)算估計(jì)值
(1)總值估計(jì)。根據(jù)所抽出來的這12各地區(qū)的工業(yè)生產(chǎn)總值作為輔助變量,來估計(jì)2013年全國電力消耗量。采用漢森—赫維茨估計(jì)量,由公式HH=1n∑ni=1YiZi計(jì)算得HH=47997.211,由此可以得2013年全國電力消耗的估計(jì)總值為47997.211。
(2)方差估計(jì)??傮w總量的抽樣方差由公式(HH)=1n(n-1)∑ni=1(yiZi-HH)2計(jì)算可得(HH)=33662680.22。
三、不同抽樣估計(jì)方法效果比較
通過采用簡單隨機(jī)抽樣、分層抽樣和PPS抽樣分別對全國電力消耗總值、均值、方差及電力消耗區(qū)間估計(jì),不同的方法估計(jì)出的效果有所不同,精度比較如表三:
從表三可以看出,選取不同的方法對全國電力消耗量進(jìn)行估計(jì)效果略有不同,用分層隨機(jī)抽樣估計(jì)方法估計(jì)的結(jié)果最好,簡單隨機(jī)抽樣估計(jì)和PPS抽樣估計(jì)結(jié)果相差不大,后者略好于前者。
四、結(jié)論
本文通過采用簡單隨機(jī)抽樣估計(jì)、分層隨機(jī)抽樣估計(jì)和PPS抽樣估計(jì)方法對我國電力消耗量進(jìn)行估計(jì),計(jì)算并分析比較最后得到分層隨機(jī)抽樣估計(jì)效果是最好的,因?yàn)楹唵坞S機(jī)抽樣估計(jì)是一種最基本的抽樣估計(jì)方法,當(dāng)總體單元差異不大時(shí)效果較好;PPS抽樣估計(jì)適用于抽樣單元規(guī)模差異很大的估計(jì),而本文案例所估計(jì)的電力消耗量,地區(qū)之間有差異很大的,也有差異很小的,所以采用分層隨機(jī)抽樣估計(jì)方法,滿足組內(nèi)差異小、組間差異大的原則,因此可以得到較好的估計(jì)效果。但是它也有一定的局限性,分層抽樣抽樣框較復(fù)雜,費(fèi)用較高,誤差分析也較為復(fù)雜。(作者單位:重慶工商大學(xué))
參考文獻(xiàn):
[1]金勇進(jìn),杜子芳,蔣妍.抽樣技術(shù)[M].中國人民大學(xué)出版社
[2]李金昌,蘇為華.統(tǒng)計(jì)學(xué)[M].機(jī)械工業(yè)出版社