王曉暉 風(fēng)笑天 田維緒
(貴州民族大學(xué) 民族學(xué)與社會學(xué)學(xué)院,貴州 貴陽 550025;南京大學(xué) 社會學(xué)院,江蘇 南京 210093)
論樣本代表性的評估
王曉暉 風(fēng)笑天 田維緒
(貴州民族大學(xué) 民族學(xué)與社會學(xué)學(xué)院,貴州 貴陽 550025;南京大學(xué) 社會學(xué)院,江蘇 南京 210093)
關(guān)于如何評估樣本代表性,存在“概率樣本說”和“結(jié)構(gòu)相似說”兩類觀點和方法。前者認為評估樣本代表性的關(guān)鍵是判斷該樣本是不是概率樣本,后者認為應(yīng)依據(jù)變量在樣本中的分布與在總體中的分布是否相似來評估樣本代表性。兩類觀點和方法各有優(yōu)缺點。明智的做法是,取長補短,將兩類觀點和方法結(jié)合起來,共同確保和提高樣本的代表性。
樣本代表性;概率樣本說;結(jié)構(gòu)相似說
抽樣調(diào)查始終面臨如何評估樣本代表性的問題。關(guān)于如何評估樣本代表性,存在兩種主要觀點:第一種觀點認為,評估樣本代表性的關(guān)鍵是判斷它是不是概率樣本,本文稱該觀點為“概率樣本說”;第二種觀點認為,評估樣本代表性的基本方法是考察部分變量在樣本中的分布與在總體中的分布是否相近,本文稱該觀點為“結(jié)構(gòu)相似說”。由于第一種觀點的關(guān)注點是抽樣設(shè)計和抽樣方案實施環(huán)節(jié),也就是樣本被抽出之前的環(huán)節(jié),而第二種觀點的關(guān)注點是樣本被實際抽取之后的問題,故宋子軒、冷夑、陳瑤瑤等人將前者稱為“事前保證方法”,將后者稱為“事后評估方法”。①宋子軒、冷夑、陳瑤瑤:《概率抽樣條件下樣本代表性事后評估方法探討》,《統(tǒng)計研究》2012年第7期。本文的觀點是,無論是“概率樣本說”還是“結(jié)構(gòu)相似說”,皆有其缺陷,應(yīng)同時結(jié)合兩類方法,才能更好地評估和確保樣本的代表性。為論證該觀點,本文將分別考察兩類方法的特征和缺陷,并探討如何將兩類方法結(jié)合起來。在展開論證之前需指出的是,樣本代表性是一個程度問題,不是“有”或“無”代表性的問題。本文贊同這種觀點,即樣本的代表性是指樣本反映總體特性的能力及基于樣本構(gòu)造的統(tǒng)計量的優(yōu)良程度。②俞純權(quán)、王曰人:《論樣本的代表性》,《統(tǒng)計與信息論壇》2003年第2期。樣本代表性有多高,最終體現(xiàn)在抽樣誤差的大小上。抽樣誤差越小,樣本代表性越高;抽樣誤差越大,樣本代表性則越低。
支持“概率樣本說”的學(xué)者們的基本觀點,可以概括為三個:第一個觀點是,概率抽樣的樣本即“概率樣本”就是對總體有很好代表性的樣本。其理由是概率抽樣能完全避免人為干擾,消除人為誤差。因此,評估樣本代表性的關(guān)鍵,是依據(jù)對概率抽樣方案和具體抽樣程序的考察,判斷該樣本是否是一個概率樣本;③參見俞純權(quán):《關(guān)于樣本代表性的理解》,《江蘇統(tǒng)計》2000年第10期;李文華:《社會調(diào)查研究中樣本的代表性問題探討》,《決策與統(tǒng)計》2006年第17期;游正林:《應(yīng)該如何評估樣本的代表性》,《華中師范大學(xué)學(xué)報》(人文社會科學(xué)版)2009年第3期。第二個觀點是,樣本代表性的比較,是關(guān)于不同抽樣設(shè)計的抽樣效果的比較,比較采用同一種抽樣設(shè)計抽取的不同樣本是無意義的。④參見俞純權(quán):《關(guān)于樣本代表性的理解》,《江蘇統(tǒng)計》2000年第10期;李文華:《社會調(diào)查研究中樣本的代表性問題探討》,《決策與統(tǒng)計》2006年第17期。其理由是,樣本代表性的評估歸根結(jié)底要看統(tǒng)計量(也即是總體參數(shù)的估計值)的性質(zhì)(如無偏性、有效性、一致性⑤關(guān)于無偏性、有效性、一致性的詳細論述,參見盧淑華編著:《社會統(tǒng)計學(xué)》,北京大學(xué)出版社2009年版。),而同一抽樣設(shè)計下的統(tǒng)計量的性質(zhì)是確定的,因此需要比較的是不同抽樣設(shè)計下的統(tǒng)計量的性質(zhì);第三個觀點是,不能依據(jù)實際抽取的樣本的特征來判斷其代表性,具體說,不能通過考察部分變量在樣本中的分布與在總體中的分布是否相近來評估某個具體樣本的代表性。也即是說,他們反對“結(jié)構(gòu)相似說”。他們或者認為依據(jù)“結(jié)構(gòu)相似說”來抽取樣本,研究者可能因懷疑樣本代表性不佳而人為地更換構(gòu)成樣本的元素,①俞純權(quán):《關(guān)于樣本代表性的理解》,《江蘇統(tǒng)計》2000年第10期。或者認為“結(jié)構(gòu)相似說”不可行、不科學(xué)。②參見俞純權(quán)、王曰人:《論樣本的代表性》,《統(tǒng)計與信息論壇》2003年第2期;游正林:《應(yīng)該如何評估樣本的代表性》,《華中師范大學(xué)學(xué)報》(人文社會科學(xué)版)2009年第3期。上述三個觀點相互聯(lián)系,構(gòu)成“概率樣本說”的基本內(nèi)容,其中第一個觀點是核心。為便于討論,本文首先以簡單隨機抽樣為例子來回應(yīng)前兩個觀點,同時將在文章第二部分回應(yīng)第三個觀點,并通過對第三個觀點的批判來論證“結(jié)構(gòu)相似說”。
概率樣本的突出優(yōu)點是能夠確定抽樣分布和抽樣誤差,從而能對總體特征進行統(tǒng)計推斷。抽樣分布是樣本統(tǒng)計量(如樣本均值、樣本成數(shù)、樣本方差S2等)的分布,是指從規(guī)模為N的總體中抽出的規(guī)模為n的“所有樣本”的某個統(tǒng)計量的分布。比如就樣本均值而言,從規(guī)模為N的總體中抽取規(guī)模為n的樣本,若采取可放回的簡單隨機抽樣方法,可以抽出Nn個樣本,而樣本均值的分布,就是指依據(jù)Nn個樣本計算出的Nn個樣本均值的分布。而依據(jù)中心極限定理,在樣本規(guī)模n很大時,樣本均值的分布接近于以總體均值μ為數(shù)學(xué)期望、δ2/n(其中δ2是總體方差)為方差的正態(tài)分布,δ2/n開平方根即為抽樣均值的標準誤差SE=δ/。同時,統(tǒng)計學(xué)已經(jīng)論證過,根據(jù)簡單隨機樣本所構(gòu)造的樣本均值=∑x/n、樣本方差S2=∑(x -)/(n-1)、樣本成數(shù)=∑x/n(此時x為虛擬變量,取值為0或1),分別是總體均值μ、總體方差δ2、總體成數(shù)P的無偏估計值,且滿足有效性、一致性的要求。
總體而言,受控核聚變反應(yīng)需要的條件異??量蹋枰诟哌_1億度的高溫下方可進行,可謂是一大技術(shù)難關(guān)。由于目前仍存在諸多技術(shù)限制,受控核聚變技術(shù)仍有待完善,不僅如此,建造核聚變電站自身的基建成本及建設(shè)周期也是一大重要問題。
但是,我們必須注意的事實是,統(tǒng)計學(xué)關(guān)于抽樣分布、估計值的無偏性、有效性和一致性等的討論,都是基于“從總體中抽出Nn個樣本”這樣一個理論前提來展開的;而在實際的研究中,我們并沒有把Nn個樣本都抽出來,只是從中抽出一個特定的樣本,并依據(jù)這個特定樣本的信息來推斷總體。由于樣本具有隨機性,在實際抽樣之前,我們根本不知道我們將抽中Nn個樣本中的哪一個樣本。而且,這Nn個樣本的抽樣誤差是有所不同的,有的樣本抽樣誤差很大,有的抽樣誤差很小甚至為零。如果我們抽中的那個特定樣本的抽樣誤差較大,則該樣本的樣本均值、樣本成數(shù)、樣本方差S2與總體均值μ、總體方差δ2、總體成數(shù)P的差值相應(yīng)的也會比較大。例如某個總體包括6戶人,6戶人的家庭人口規(guī)模分別是1、2、3、4、5、6人,則6戶人的戶均人口數(shù)μ=3.5人?,F(xiàn)從6戶人中抽2戶人構(gòu)成的樣本,若采用重復(fù)抽樣,可以抽出36個樣本,從而可以計算出36個樣本均值。若其中一個樣本是由家庭人口數(shù)為1和6的這兩戶構(gòu)成的,則樣本均值=3.5= μ,我們可用該樣本推斷總體均值。然而,如果我們抽中一個由家庭人口數(shù)為1和2的這兩戶構(gòu)成的樣本=1.5,與μ=3.5相差較大,此時用該樣本推斷總體就會出現(xiàn)偏差。這個例子說明,從規(guī)模為N的總體中抽出的規(guī)模為n的Nn個樣本中,有的樣本的抽樣誤差比較大,有的樣本的抽樣誤差比較小。就連贊同“概率樣本說”的俞純權(quán)教授自己也曾指出:“在概率抽樣下,由于樣本的抽取帶有隨機性,因此依據(jù)不同的具體樣本得到的目標量估計值是不同的,從而實際誤差依不同的具體樣本而異”。③俞純權(quán)、王曰人:《論樣本的代表性》,《統(tǒng)計與信息論壇》2003年第2期??傊?,樣本所固有的隨機性,可能會使我們在實際調(diào)查中抽出的那個樣本是嚴重偏離總體的樣本,④Firestone,William A.“Alternative Arguments for Generalizing from Data as Applied to Qualitative Research.”Educational Research,1993,No.22.或者說是抽樣誤差很大的樣本,該樣本對總體的代表性很低,用它去推斷總體,有可能會得到錯誤的結(jié)論。
突破基督教教義所賦予的神圣婚姻,這在一個宗教信仰者看來是必須接受懲罰的。安娜·卡列尼娜既是可愛的,富有生氣的,又是罪惡的,但似乎是一種純潔的罪惡。托翁曾說:“我選用這個題詞,正如我曾解釋過的,只不過是為了表達一種思想:人們所做的壞事有其痛苦的后果,這不來自于人,而是來自于上帝,安娜·卡列尼娜就親自體驗了這一點⑥?!弊髡弑救怂坪醪⒉幌嘈派鐣纤餍械淖诮绦叛?,但是對于安娜違背宗教教義這一條,他顯然也是不贊同的。由此得出,安娜之死是列夫·托爾斯泰刻意為之,讀者也就能進一步體會到作者內(nèi)心的痛苦、矛盾和掙扎。
隨著我國科技的不斷發(fā)展,移動互聯(lián)網(wǎng)技術(shù)已經(jīng)不斷走向成熟,被廣泛應(yīng)用到各個領(lǐng)域。特別是在廣播電視領(lǐng)域,更是得到了廣泛的應(yīng)用。在網(wǎng)絡(luò)傳輸?shù)幕A(chǔ)上,運用了4k技術(shù),與原來的視頻傳輸效果相比較,在很大程度上提升了視頻傳輸?shù)馁|(zhì)量以及效率。本篇文章主要討論了基于4k網(wǎng)絡(luò)的視頻傳輸在電視臺的應(yīng)用,并結(jié)合實例進行分析,希望通過4k技術(shù)的應(yīng)用,視頻的傳輸效果更加安全可靠。綜上所述,在4k技術(shù)電視時代背景下,4k技術(shù)電視播放實踐一體化已經(jīng)成為主流,為了達到這一目標,必須對電視制作和播出的各項內(nèi)容進行整合,構(gòu)建播放實踐一體化網(wǎng)絡(luò)系統(tǒng),并制定統(tǒng)一的管理平臺、設(shè)計合理的制作方式,如此才能促進4k技術(shù)電視的持續(xù)發(fā)展。
總之,從上面的論述我們可以得出一個結(jié)論,那就是并非所有概率樣本都具有代表性,依據(jù)同一抽樣設(shè)計所抽出的不同樣本也由于其抽樣誤差不同而具有不同的代表性。其原因就在于樣本具有隨機性,該隨機性可能導(dǎo)致我們在特定一次抽樣中恰好抽中一個有很大偏差的樣本。這也說明,單純依據(jù)對實際抽樣方法和抽樣程序的考察來判斷特定樣本是不是概率樣本的方法,不足以確保我們在實際研究中抽中的那個特定樣本能夠具有較好的代表性。
呂溫出生于文學(xué)世家,少年時從陸質(zhì)學(xué)習(xí)《春秋》,從梁肅學(xué)習(xí)文章,與同時代的劉禹錫、柳宗元等文人互為好友,科舉進士及第后,呂溫受到王叔文集團的器重,曾經(jīng)參與了“永貞革新”前期的計劃工作。王叔文集團失敗后,呂溫奉使在外而免遭貶黜。貞元二十一年(805年)九月,呂溫得以回到朝庭。憲宗元和三年(808年),呂溫與竇群一起彈劾宰相李吉甫,為此觸怒當朝權(quán)貴,被貶為道州刺史。呂溫在道州期間,為百姓發(fā)展農(nóng)業(yè)、減免賦稅,以其政績卓著,被調(diào)往衡州做刺史。元和六年(811年)呂溫因染肺病,卒于任所,年僅四十歲。
依據(jù)“結(jié)構(gòu)相似說”對樣本代表性進行“事后評估”的具體操作方法目前有兩類:第一類是逐項評估方法,也就是依據(jù)單個變量來比較樣本與總體,計算“平均數(shù)代表性檢驗系數(shù)”或“結(jié)構(gòu)代表性檢查差異率”。前者的測算公式是:平均數(shù)代表性檢驗系數(shù)=[(μ-)]×100%,樣本平均數(shù)與總體平均數(shù)差值越小越好;后者的測算公式是:結(jié)構(gòu)代表性檢查差異率=[(P-)/P]×100%,樣本成數(shù)與總體成數(shù)差值越小越好。有多少個變量,就可以計算出多少個“平均數(shù)代表性檢驗系數(shù)”或“結(jié)構(gòu)代表性檢查差異率”,并依據(jù)每個計算結(jié)果分別評估樣本代表性。一般規(guī)定,平均數(shù)的代表性檢驗要求檢驗系數(shù)控制在±2%或±3%以內(nèi),結(jié)構(gòu)的代表性檢查要求差異率控制在±5%以內(nèi)。①李文華:《社會調(diào)查研究中樣本的代表性問題探討》,《決策與統(tǒng)計》2006年第17期。第二類是綜合評估方法,即同時依據(jù)多個變量來評估樣本的代表性,并且最終計算出一個樣本與總體的“整體差異率”。具體做法是,將樣本與總體的各個屬性變量之間的差異率加權(quán)匯總成一個確切的指數(shù)。計算綜合值時,每個屬性變量被賦予不同的權(quán)重。權(quán)重的設(shè)計從屬性變量相對于抽樣調(diào)查的目標變量(即研究變量)之間的相關(guān)關(guān)系入手,相關(guān)程度越高則表明該屬性相對于調(diào)查目的的重要性就越高,就賦予較大的權(quán)重。②宋子軒、冷夑、陳瑤瑤:《概率抽樣條件下樣本代表性事后評估方法探討》,《統(tǒng)計研究》2012年第7期。兩類方法的差別,主要在于前者用多個單變量逐項評估樣本代表性,后者則把樣本與總體在每個變量上的差異綜合成一個指數(shù)。
關(guān)于樣本隨機性可能會導(dǎo)致我們抽中嚴重偏離總體的樣本,我們還可以用假設(shè)檢驗邏輯和假設(shè)檢驗中的“棄真錯誤”來說明。假設(shè)檢驗的基本邏輯是直接檢驗原假設(shè)(H0),間接檢驗研究假設(shè)(H1),目的是排除抽樣誤差的可能性。假設(shè)已有的數(shù)據(jù)顯示,某地青年的平均初婚年齡是23歲(即總體均值μ=23),現(xiàn)統(tǒng)計局從當?shù)厍嗄曛胁捎煤唵坞S機抽樣抽取100人,發(fā)現(xiàn)他們的平均初婚年齡為26歲(即樣本均值=26)。那么,我們能否可以就此下結(jié)論,認為該地青年的平均初婚年齡已經(jīng)推遲呢?顯然不能。這是因為出現(xiàn)樣本均值=26這樣一個結(jié)果,有兩種可能的原因:第一種原因是,平均初婚年齡并沒有推遲,而是因為此次調(diào)查剛好抽中一個有偏差的樣本(即代表性低的樣本),該樣本的抽樣誤差使得≠μ;第二種原因是平均初婚年齡已經(jīng)推遲,所以抽樣調(diào)查的結(jié)果=26≠23。那么,究竟是什么原因?qū)е铝?26這個結(jié)果呢?我們可成立兩個相互矛盾的假設(shè)來解決這個問題:原假設(shè)(H0)μ=23,研究假設(shè)(H1)μ≠23。原假設(shè)的意思是,青年平均初婚年齡仍為23歲,100人抽樣調(diào)查的平均初婚年齡之所以是26歲,是因為我們抽中了誤差較大的樣本;研究假設(shè)的意思是,青年的平均初婚年齡已經(jīng)推遲,因此樣本均值為26歲。顯然,這兩個假設(shè)是相互矛盾的,否定其中之一,就需承認另外一個。統(tǒng)計學(xué)的基本做法是,直接檢驗原假設(shè)(H0),如果原假設(shè)被否定了,也就是抽樣誤差導(dǎo)致樣本均值不等于總體均值的可能性被排除了,就可以接受研究假設(shè)(H1)。
支持“結(jié)構(gòu)相似說”的學(xué)者們的基本觀點是,通過考察部分變量在樣本中的分布與在總體中的分布是否相近可以評判特定樣本的代表性。很多知名的研究方法專家都贊同“結(jié)構(gòu)相似說”。艾爾·巴比認為,一個樣本的質(zhì)量,是指某些特征在樣本中的分布與在總體中的分布相同,如果樣本的綜合特征與總體的同類綜合特征相近,則該樣本具有代表性。比如,如果總體中女性的比例為50%,有代表性的樣本中女性所占的比例應(yīng)接近50%。①[美]艾爾·巴比:《社會研究方法》,邱澤奇譯,清華大學(xué)出版社2007年版,第189頁。袁芳和王漢生等認為,在依據(jù)事先確定了的樣本規(guī)模和抽樣方法抽出樣本后,應(yīng)先對抽出的樣本進行評估,其目的是初步檢查樣本對于總體的代表性,以剔除那些偏差太大的樣本,重新抽取代表性高的樣本。評估的方法是依據(jù)若干容易得到的資料例如年齡、性別、文化程度等,比較樣本與總體在這些特征上的相似程度。②袁方、王漢生:《社會研究方法教程》,北京大學(xué)出版社1997年版,第208頁。風(fēng)笑天指出,將可得到的、反映總體某些重要特征及其分布的資料與樣本中同類指標的資料進行比較,若二者之間差別很小,我們對樣本的代表性就有較大的信心;若二者之間差別十分明顯,則樣本的質(zhì)量和代表性就不一定會很高。用來比較的指標越多越好,而各種指標對比結(jié)果越近越好。③風(fēng)笑天:《現(xiàn)代社會調(diào)查方法》,華中科技大學(xué)出版社2009年版,第66-67頁。王寧也認為,問卷調(diào)查中所謂樣本的代表性,指的是樣本的特征與總體的特征的一致性問題,④王寧:《個案研究的代表性問題與抽樣邏輯》,《甘肅社會科學(xué)》2007年第5期。而他所說的特征一致性,就是樣本分布與總體分布相似。
檢驗原假設(shè)的方法是“概率反證法”,而其基本原理是“小概率事件實際不可能發(fā)生的假設(shè)”(又稱“小概率原理”)?!靶「怕适录嶋H不可能發(fā)生的假設(shè)”有兩個含義:第一,若某事件是小概率事件,則在一次觀察中它不應(yīng)該發(fā)生;第二,若在某次觀察中我們假設(shè)的小概率事件發(fā)生了,則我們應(yīng)該否定認為它是小概率事件的這個假設(shè)。在實際的運用中,我們首先假設(shè)原假設(shè)(H0)是真的,然后根據(jù)這個前提推導(dǎo)出這樣一個結(jié)果,即“在H0為真的情況下,我們抽中一個有很大抽樣誤差的樣本,從而使得=26≠23”這一隨機事件是一個小概率事件,并根據(jù)“小概率事件實際不可能發(fā)生的假設(shè)”認為它不會發(fā)生。小概率的大小是人為確定的,通常選擇1%、5%、10%。選擇小概率值之后,就可以確定小概率事件發(fā)生的標準,即確定接受域與拒絕域。比如選擇了1%這個概率,則可將樣本均值分布范圍劃分為三段:[μ-2.58SE,μ+2.58SE]、(-∞,μ-2.58SE)、(μ+2.58SE,+∞)(其中SE是樣本均值的標準誤差)。平均而言,100個樣本均值中,有99個將落入[μ-2.58SE,μ+2.58SE]這個區(qū)間,只有一個會落入(-∞,μ-2.58SE)或(μ+2.58SE,+∞)這兩個區(qū)間。假設(shè)檢驗中的小概率事件,就是指在原假設(shè)為真的前提下,抽樣誤差使得樣本均值落入(-∞,μ -2.58SE)或(μ+2.58SE,+∞)這兩個區(qū)間。如果我們抽中的特定樣本的樣本均值落入了該區(qū)域,則應(yīng)否定“原假設(shè)為真”這個前提。然而,依據(jù)小概率事件的發(fā)生而否定原假設(shè)是有可能犯錯誤的,此錯誤就是所謂的“棄真錯誤”,也就是當原假設(shè)本來是真的而我們否定它的時候所犯的錯誤。之所以會犯“棄真錯誤”,就是因為我們在抽樣時,恰好抽中了一個有較大抽樣誤差的樣本。而導(dǎo)致我們犯“棄真錯誤”的樣本,對總體是缺乏較好代表性的。
如前所述,贊同“概率樣本說”的學(xué)者們反對“結(jié)構(gòu)相似說”。他們有兩個理由:一是認為依據(jù)“結(jié)構(gòu)相似說”來抽取樣本,研究者可能因懷疑樣本代表性不佳而人為地更換構(gòu)成樣本的元素,二是認為“結(jié)構(gòu)相似說”不可行、不科學(xué)。然而,這兩個理由都有問題。首先,以研究者可能更換樣本元素為由而拒斥“結(jié)構(gòu)相似說”是完全站不住腳的。人們在批判“結(jié)構(gòu)相似說”時,完全忽視“結(jié)構(gòu)相似說”的前提即概率抽樣?!敖Y(jié)構(gòu)相似說”的真正觀點是,在采用概率抽樣方法抽出一個特定樣本之后,還要考察部分變量在樣本和總體中的分布是否相近。如果相近,則可認為該樣本具有較好的代表性;如果不相近,則認為該樣本存在較大的偏差,并應(yīng)依照先前的抽樣方法重新抽出一個樣本,再評估新樣本的代表性。如果有研究者因特定樣本代表性不佳而人為地更換構(gòu)成樣本的元素,事實上他已經(jīng)不再遵循“結(jié)構(gòu)相似說”的要求了;若他仍然佯稱自己的抽樣是概率抽樣并按“結(jié)構(gòu)相似說”來評估樣本,此為研究者的學(xué)術(shù)不端。我們只能追究該研究者的學(xué)術(shù)道德,而不能追究“結(jié)構(gòu)相似說”本身。事實上,在實際的概率抽樣中,我們也??匆娔承┏闃訂T偷工減料未嚴格執(zhí)行概率抽樣方案的現(xiàn)象,難道我們也因此而否定“概率相似說”?其次,認為“結(jié)構(gòu)相似說”不可行、不科學(xué)的觀點同樣站不住腳。反對“結(jié)構(gòu)相似說”的學(xué)者指出,由于我們在實際調(diào)查之前并不知曉總體特征,因而無法對某些變量在樣本中的分布與其在總體中的分布予以比較。即使能比較某些變量在樣本中的分布和在總體中的分布,當兩者的分布差別很小時,我們亦無從判斷差別“很小”所代表的真正意義。③游正林:《應(yīng)該如何評估樣本的代表性》,《華中師范大學(xué)學(xué)報》(人文社會科學(xué)版)2009年第3期。確實,樣本代表性評估面臨一個先天的矛盾:我們是因為不了解總體特征才去開展抽樣調(diào)查、推斷總體特征,然而在未實際調(diào)查之前我們又需要依據(jù)總體特征來評估樣本代表性,也就是說,我們處于要依據(jù)我們正欲去推斷的未知特征來判斷樣本代表性的尷尬境地。但是,在信息已然發(fā)達、調(diào)查項目和數(shù)據(jù)庫眾多的今天,我們對很多總體并非完全不了解,我們或多或少掌握了一些基本數(shù)據(jù),這些基本數(shù)據(jù)通常被稱為輔助信息,④參見俞純權(quán):《輔助信息在抽樣調(diào)查中的應(yīng)用》,《浙江統(tǒng)計》2000年第4期;陳培培、金勇進:《輔助信息及其在抽樣設(shè)計中的應(yīng)用》,《中國統(tǒng)計》2014年第4期。筆者稱它們?yōu)椤拜o助變量”。我們可以利用這些輔助信息來比較樣本特征和總體特征,比如現(xiàn)在很多社會學(xué)研究者常依據(jù)人口普查數(shù)據(jù)中的性別、年齡、教育程度、婚姻等變量來評估樣本質(zhì)量。⑤郝大海:《應(yīng)答率的意義及其他——對中國“高”調(diào)查回收率的另一種解讀》,《社會學(xué)研究》2007年第6期。另外,變量在樣本中的分布與其在總體中的分布的差別“很小”的意義很明確。如果是實際調(diào)查之前就考察變量在樣本和總體中的分布,分布差別很小就是指樣本中的經(jīng)驗分布與總體中的概率分布相近,而分布相近意味著抽樣誤差較小,則我們更有把握用該樣本數(shù)據(jù)推斷總體特征。如果是在依據(jù)某樣本展開調(diào)查之后再用調(diào)查所收集的資料來比較變量在樣本和總體中的分布,兩種分布之間的差異除了包含抽樣誤差外,還包含非抽樣誤差。若此時經(jīng)驗分布與概率分布之間的差別仍然很小的話,同樣說明樣本對總體有較好的代表性??傊?,部分學(xué)者對“結(jié)構(gòu)相似說”的批判是站不住腳的。
本文認為,“結(jié)構(gòu)相似說”在理論上不存在問題,但在實踐中確實存在缺陷。在實際的研究項目中,所需考察的變量少則數(shù)十個,多則上千個。比如中國人民大學(xué)開展的“中國綜合社會調(diào)查”(CGSS)、中國社會科學(xué)院開展的“中國社會狀況綜合調(diào)查”(CSS)、中山大學(xué)開展的“中國勞動力狀況動態(tài)調(diào)查”(CLDS)等大型社會調(diào)查,其問卷問題通常比較多,包含近千個變量。為評估樣本代表性,我們必須擁有關(guān)于“研究變量”的信息,知曉它們在總體中的分布。①Firestone,William A..“Alternative Arguments for Generalizing from Data as Applied to Qualitative Research.”Educational Research,1993,No.22.然而,我們依據(jù)已有信息評估樣本質(zhì)量時,通常能獲得的是性別、年齡、文化程度、籍貫等人口統(tǒng)計信息,難于獲得關(guān)鍵的研究變量的信息。即使某樣本在人口統(tǒng)計信息方面與總體的分布相似,也僅說明該樣本在我們已掌握的這些信息上對總體有代表性。至于在關(guān)鍵的研究變量上是否有代表性,我們是沒有把握的。但若由于只能依據(jù)輔助變量、不能依據(jù)研究變量來評估樣本代表性而拒斥“結(jié)構(gòu)相似說”,是“將嬰兒與洗澡水一起倒掉”的不智之舉。畢竟,能夠依據(jù)某些輔助變量達到對樣本代表性一定程度的了解,總比完全不了解更令研究者寬心。因此,在依據(jù)“結(jié)構(gòu)相似說”評估樣本時,要盡量多收集更多輔助信息,掌握更多的輔助變量,尤其是那些與關(guān)鍵研究變量有較高統(tǒng)計相關(guān)性的變量,然后依據(jù)這些變量來評估樣本代表性。我們所掌握的輔助變量越多,樣本與總體在這些輔助變量上的分布越相近,我們對樣本代表性的信心就越大。
鑒于“概率樣本說”與“結(jié)構(gòu)相似說”各有其優(yōu)缺點,我們不應(yīng)該像贊同“概率樣本說”的學(xué)者那樣,固執(zhí)己見而片面地否定別的觀點和方法,而應(yīng)吸收兩類方法的優(yōu)點,將兩類方法結(jié)合起來,取長補短,以便更好地評估和確保樣本的代表性。在抽樣設(shè)計階段,應(yīng)盡量多地收集現(xiàn)有的有關(guān)研究總體的各類輔助信息,根據(jù)研究總體的實際情況,制定一套可行的、能盡量提高抽樣精度的抽樣方案。在實際抽樣階段,要盡可能地嚴格執(zhí)行既定的抽樣方案。在實際抽出樣本之后,既要對實際抽取樣本的具體方法和程序進行分析和檢查,也要依據(jù)已經(jīng)掌握的信息,考察變量在樣本中的分布和在總體中的分布,對樣本的代表性作初步的檢查和評估。
上述論述所勾畫的是兩類方法結(jié)合的理想狀態(tài)。現(xiàn)實的抽樣調(diào)查實踐非常復(fù)雜,存在眾多損害樣本代表性的因素。抽樣框是否完備或某些元素是否在抽樣框中重復(fù)出現(xiàn)、非住宅戶、無法找到地址、無法接觸、兩次或兩次以上訪問無人在家或無人應(yīng)答、無人符合訪問條件、家人或調(diào)查對象完全拒訪或中途拒訪、調(diào)查對象外出、生病、聾啞、語言不通等造成的無法接受訪問、回收率低時的樣本輪換、能夠被找到且愿意接受訪問的調(diào)查對象與不能找到或不愿接受訪問的調(diào)查對象之間可能存在的顯著差異等等這些原因,都將對整個抽樣程序和抽樣結(jié)果造成影響。尤其是降低調(diào)查回收率的因素、能夠接觸到的且愿意接受訪談的調(diào)查對象與不能接觸到或不愿意接受訪談的調(diào)查對象之間的差異,可能會增大我們抽中有系統(tǒng)性偏差樣本的可能性。②郝大海:《應(yīng)答率的意義及其他——對中國“高”調(diào)查回收率的另一種解讀》,《社會學(xué)研究》2007年第6期。更為糟糕的是,在抽樣程序復(fù)雜的社會研究中,各種造成概率抽樣淪落為非概率抽樣和降低樣本代表性因素的影響的性質(zhì)和大小往往難于評估。此時我們對樣本代表性的信心,恐怕只能來自樣本與總體的結(jié)構(gòu)相似了。而為了增加對評估結(jié)果的信心,我們除了依據(jù)性別、年齡、學(xué)歷、婚姻狀況、職業(yè)等基本人口統(tǒng)計信息來評估樣本代表性外,更要依據(jù)研究變量或與研究變量的相關(guān)性較強的樣本來評估樣本。
(責(zé)任編輯:陸影)
C915
A
1003-4145[2015]03-0088-05
2015-01-12
王曉暉(1973—),男,博士,貴州民族大學(xué)民族學(xué)與社會學(xué)學(xué)院副教授,主要研究方向為經(jīng)濟社會學(xué)、社會研究方法。風(fēng)笑天(1954—),男,博士,南京大學(xué)社會學(xué)院教授,主要研究方向為家庭社會學(xué)、社會學(xué)研究方法。田維緒(1973—),男,貴州民族大學(xué)民族學(xué)與社會學(xué)學(xué)院副教授,主要研究方向為消費社會學(xué)、社會研究方法。