李林蔓
(重慶第二師范學院 旅游與服務管理系,重慶 400067)
分層抽樣是在概率抽樣中非常常用的樣本抽樣方法。分層抽樣中所采取第一種方法是按比例縮小來確定樣本單位數結構,這是最簡單可行的分配方式。但大多數人認為除遵循樣本與總體單位數結構一致性外。還必須考慮總體不同層次方差的差異。滿足抽樣估計量方差的最小化要求,簡而言之,就是指在有限資金、時間或其他與每層的樣本分配量相關的條件限制下,分配每層的樣本量使估計量方差最小。
統(tǒng)計抽樣檢驗的理論自1924年由美國貝爾實驗室的羅米格博士和道吉博士提出后,多年來在實踐中不斷完善和發(fā)展,而且還在發(fā)展之中。我國學者對分層抽樣方法的研究有很多。王曉燕[1]等借助了非線性規(guī)劃和非線性目標規(guī)劃等最優(yōu)化方法,試圖解決實際中遇到的問題,以解決簡單分層抽樣的不足。范雯雯[2]利用分層方法,通過選擇適當的期權,對使用方差減縮技術和沒有使用方差減縮技術的期權價格進行比較,發(fā)現(xiàn)使用方差減縮技術期權的精度更高,并且使用方差差減縮技術后,標準差更小,那么模擬出的期權價格可信度就更高了。邱賽兵[3]等為多項選擇敏感性問題提供科學的、精度更高的隨機抽樣調查方法及其統(tǒng)計量的計算公式,設計出多項選擇敏感問題分層抽樣下的隨機抽樣調查模型,并推導出在此模型下總體比例的估計量及其估計方差的計算公式,計算出敏感屬性比例95%的置信區(qū)間。分層抽樣需將研究總體組合成一個個層,然后再在每一層選取一個隨機樣本。使用分層抽樣的目的不外乎以下幾個:確保每一層的比例有代表性;降低抽樣變異性;使較小的子總體能從而使分析更為可靠。
綜上文獻發(fā)現(xiàn),對分層抽樣的研究集中在樣本選擇的方法和置信區(qū)間的空政等,比例分層抽樣和非比例分層抽樣只作為一種工具被大家使用,還沒有學者對比例分層抽樣和非比例分層抽樣進行具體的分析比較。比例分層抽樣是指按各個層的單位數量占調查總體單位數量的比例分配各層的樣本數量的。在分層抽樣中,采用分層比例抽樣可以提高樣本的代表性,及對總體數量指標的估計值的確定,避免出現(xiàn)簡單隨機抽樣中的集中于某些特性或遺漏掉某些特性。但是在現(xiàn)實樣本收集的過程中,樣本并不規(guī)范,并不是所有的樣本都能使用比例分層抽樣。本文將以母親文化程度分層的考試分數比例分層樣本為實例介紹比例分層抽樣和不成比例分層抽樣的方法。
分層抽樣可以是成比例的,也可以不是成比例的。成比例的分層抽樣的目的在于在每一層中用相同的抽樣分數來保證層的比例的代表性。本文調查了某高校的15名學生,以研究母親文化程度對學生成績的影響。將母親文化程度分為高中以下、高中和大學肄業(yè)和大學三個層次,抽樣后統(tǒng)計學生的成績,如表1所示。這一變量被認為是知識技巧的一個重要的預測變量,因而保證樣本能在這一變量上按比例地代表三個組是很重要的。
表1 按母親文化程度分層的考試分數比例分層樣本
在使用比例分層抽樣時,因為每一層包含的成員數目不同,所以每一層的樣本的容量,如表1所示也不同。對于比例分層抽樣來講,每一層的抽樣分數都是相同的。它的均值、比例和其他統(tǒng)計量的計算公式與簡單隨機抽樣都是一樣的。
表2 分層抽樣標準差計算法:以比例分成樣本為例
分層可以減少標準誤差,這一點可以用這一例子的未作分層數據,且使用用于簡單隨機樣本公式計算的標準誤差得到證明。分層樣本的標準誤差與簡單隨機樣本的標準誤差的比率就是設計效應(deft)的平方根,設計效應的值列在了該表的底部。就這一例子而言,精度的相對增益是21%(100%一79%)。
表4將備擇的分層變量班級用于與表2表3相同的總體。這一分層的增益為2%,它等于設計效應的平方根,小于用母親的文化程度分層的增益。班級分層的設計效應的平方根為98%,而用母親的文化程度分層的是79%。母親的文化程度較之學生就讀的班級解釋了更多的學生考試成績的方差。比較這兩個例子,我們不難發(fā)現(xiàn),用母親文化程度分層的各層均值的間距(30.7),大于用班級分層的均值間距(16.0)。不僅如此,我們還可以看到,用母親文化程度分層的層內變差或標準差(s)都比較小。
表4 分層樣本標準誤差計算法:以備擇比例分層為例
從以上可以得出,層所占比例的大小(刪)會對相對增益有所影響。增加某一小子總體的樣本量,不論它與總體的其余部分有多么大的不同,也不會顯著改善估計的精度。在百分比或比例是分析的主要目標時,分層的增益一般都不會太大。在層內的變差較小(同質)和層間的差別比較大的時候,分層就會有比較大的斬獲。一般講,在層與層之間的大小比例差別很大時,很難通過分層來提高估計值的精度。
當在遇到整個樣本的精度,或某個子總體的精度不夠這樣的情況的時候,可以改而采用不成比例的分層。不成比例的分層源于對不同的層使用不同的抽樣分數。采用不同的抽樣分數將導致選擇的不等概及最終樣本中的代表性不成比例。為了修正選擇的偏倚,加權是必不可少的。
不成比例的分層好處在于增加某一有較高的標準差的層的抽樣數,而使該層的抽樣變異有所降低。理解這一做法為什么能降低變差這一點,將對理解和掌握標準差的計算公式不無幫助。
除了每一層的標準差已經計算出來之外,這一公式都與上面介紹的比例分層的公式相同。這兩個公式的任何一個,既可用于比例分層,也可以用于不成比例的分層。
首先計算每層的標準差,然后再把它們合并成一個加權平均數,所以標準差最大和權數最大的層對標準差的影響最大。用不成比例的分層增加具有最大的抽樣誤差的層的層內樣本量,將會降低該層的抽樣誤差,從而使整個樣本的抽樣誤差也有所降低。表5用不成比例分層對這一性質做了闡述。該表的分層與表2~表4中的例子相同。用設計效應的平方根這一指標,測得抽樣誤差降低了將近2%,每一種不成比例的分層的抽樣誤差都小于對應的每一種比例分層抽樣誤差。例如按母親教育程度分層的高效單元分配的標準誤差為3.48,而以同一變量作比例分層的則為3.56。前者略低于后者,并不是特別顯著。
表5 分層樣本量高效分配:層樣本量變動的結果
為了最大限度地提高總體估計值的精確度,樣本量應與標準差和層的大小成比例:
式中,nk是層的樣本量;n是總樣本量;Nk是總體的層的樣本量;Sk是層的標準差。
雖然這一公式看起來似乎是合乎邏輯的,但實際上總體和層的標準差幾乎都是未知的。所以,分配給每一層的抽樣單元不是那么精確,
但是在標準差,或在更多的時候是它們的相對大小可以以被估計的時候,對層的抽樣單位數進行分配將會使估計值的精確度有所提高。在表4所列的兩個例子中,對第一個例子中的15個抽樣單位中的2個做了重新分配,對第二個例子中的一個抽樣單位作了重新分配。在第一個例子中,我們將A1層中的抽樣單位減少2個,給A2和A3分別增加了1個。在第二個例子中,我們從B2層中取走了一個抽樣單位,加到了B3層??梢杂门c估計高效樣本量的標準差相同的方法來估計每一層的變差。
比例分層抽樣的優(yōu)點在于能提高估計值的精度和確保分層的群體的比例的代表性。分層本身并不需要什么額外的費用。但研究總體的每一成員都必須列出,并按用于分層的變量分類。而要得到有關整個總體的諸如這樣的信息的費用則可能十分昂貴。有時得到與我們期望的分層的變量有關的信息的費用則可能不那么昂貴。例如,從成本效益的角度看,收集有關整個學生總體母親文化程度的信息可能得不償失。但是我們卻有學生居住的地區(qū)的信息,可作為社會經濟地位的信息的指標加以利用,而這一指標可能與母親的文化程度相關。
如有需要對子群體進行分析,而按比例選取產生的子樣本的標準差又過于大的時候,要采用不成比例分層抽樣。這時不成比例的分層抽樣使我們得以在不必成比例地加大總樣本量的前提下,加大子總體的樣本量。要能這樣做,我們要以能使子總體的成員與這一特定層次聯(lián)系在一起的方式來定義這個層。實現(xiàn)這一目的的理想分層都發(fā)生在層是由互斥的子總體的成員組成的時候。在子總體的成員是高度集中的時,不成比例抽樣也同樣可以使用。
不成比例分層的主要缺點是在計算標準差的時候必須要加權。這樣標準差的計算勢必會更加復雜。此外,保存的數據集中不僅必須有專門用來識別層的編碼,還必須包括分層賴以生成的權數。許多統(tǒng)計軟件都有用于設置總體估計值和標準差計算的權數的程序或命令。抽樣中最為常見的錯誤是在樣本選擇時采用的是不成比例的抽樣,但卻在估計過程中沒有加權,因而未能對總體估計值中的這一偏倚進行修正。
[1]加里·T.亨利著.實用抽樣方法[M].重慶:重慶大學出版社,2008.
[2]劉愛琴,吳玉香.分層抽樣中樣本量的分配方法研究[J].山東財政學院學報,2007(04)
[3]劉紅英.關于多目標分層抽樣方法及其應用研究[D].西安:西安財政學院,2010
[4]范雯雯.利用蒙特卡羅方法模擬期權價格的實證分析——基于方差減縮技術中的分層抽樣方法[J].時代金融,2013,(5).
[5]邱賽兵,唐波.分層抽樣下多項選擇敏感問題隨機抽樣調查方法及應用[J].湖南人文科技學院學報,2013,(2).
[6]戴林送,林金官.廣義泊松回歸模型的統(tǒng)計診斷[J].統(tǒng)計與決策,2013,(11).
[7]王戰(zhàn)偉.非線性數據擬合的遞推法及程序實現(xiàn)[J].統(tǒng)計與決策,2013,(12).
[8]周慶元.PPS和簡單隨機抽樣估計效率的實證檢驗[J].統(tǒng)計與決策,2014,(1).
[9]郝楓.價格體系對中國要素收入分配影響研究——基于三角分配模型之政策模擬[J].經濟學(季刊),2013,(10).
[10]魏志華,林亞清等.家族企業(yè)研究:一個文獻計量分析[J].經濟學(季刊),2014,(1).
[11]朱勝,劉錦揚,成美純.當前抽樣調查工作存在的幾個問題及解決途徑[J],經濟學(季刊),2014,(1).