孫玉環(huán)
(1.北京大學(xué)中國社會(huì)科學(xué)調(diào)查中心,北京 100871;2.東北財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院,遼寧 大連 116025)
無回答是指抽樣調(diào)查中由于種種原因沒有能夠?qū)Ρ怀橹械臉颖締卧娜炕虿糠诌M(jìn)行回答,從而沒有獲得有關(guān)這些單元的全部或部分?jǐn)?shù)據(jù)。按損失的信息范圍劃分,無回答可以分為單元無回答(unit non-response)和選項(xiàng)無回答(item non-response),前者指樣本單元沒有提供任何信息,后者指樣本單元雖然接受了調(diào)查,但是對(duì)其中某個(gè)或某些調(diào)查題目沒有回答[1],比如,被調(diào)查者對(duì)某些選項(xiàng)表示不知道或拒絕回答,訪員由于疏忽遺漏了某些選項(xiàng),由于某種原因調(diào)查被中斷等。
選項(xiàng)無回答率的高低,是評(píng)價(jià)問卷調(diào)查數(shù)據(jù)質(zhì)量、問卷題目難易程度以及訪問員調(diào)查工作質(zhì)量的重要標(biāo)準(zhǔn)。不過由于綜合性社會(huì)調(diào)查項(xiàng)目往往覆蓋范圍廣、樣本量大、調(diào)查內(nèi)容繁雜,而且選項(xiàng)無回答率的計(jì)算標(biāo)準(zhǔn)不統(tǒng)一,計(jì)算口徑多種多樣,在常用的SAS、SPSS、STATA等具有數(shù)據(jù)分析功能的軟件中,并沒有可以直接計(jì)算選項(xiàng)無回答率的過程。
本文將結(jié)合筆者從事大型社會(huì)調(diào)查項(xiàng)目數(shù)據(jù)質(zhì)量核查和數(shù)據(jù)整理的經(jīng)驗(yàn),首先給出選項(xiàng)無回答率的一般計(jì)算公式,然后借助于SAS系統(tǒng)靈活的編程功能,具體探討計(jì)算調(diào)查問卷選項(xiàng)無回答率的實(shí)現(xiàn)程序及技巧。
綜合性社會(huì)調(diào)查項(xiàng)目在數(shù)據(jù)采集、數(shù)據(jù)錄入和數(shù)據(jù)清理環(huán)節(jié),一般來說,對(duì)于受訪者表示不知道或拒絕回答、訪問員因疏忽等原因出現(xiàn)的應(yīng)填未填項(xiàng)以及因問題跳轉(zhuǎn)所產(chǎn)生的不適用等特殊情況,都會(huì)要求用一些特定的值來表示,比如,用“-1”表示不知道、“-2”表示拒絕回答、“-9”表示應(yīng)填未填答、“-8”表示不適用。匯總后的調(diào)查數(shù)據(jù)庫經(jīng)過上述處理后,理論上將不再存在空缺值。
在上述特殊情況中,受訪者表示不知道、拒絕回答以及因訪問員疏忽等原因出現(xiàn)的應(yīng)填未填項(xiàng),都屬于無回答的范疇。對(duì)于因問題跳轉(zhuǎn)所產(chǎn)生的不適用情況,雖然也表現(xiàn)為未回答,但這是由于受訪對(duì)象因不具備某些特征,而不再適合繼續(xù)回答某些問題。比如,當(dāng)受訪對(duì)象確定為未成年人時(shí),相應(yīng)的了解婚姻狀況、工作狀況的題目將不再適用,也就沒有必要繼續(xù)詢問(問卷設(shè)計(jì)時(shí),這種情況往往表現(xiàn)為題目的直接跳轉(zhuǎn)),因“不適用”而造成的數(shù)據(jù)空缺,不應(yīng)計(jì)入無回答的統(tǒng)計(jì)范圍。
基于上述對(duì)選項(xiàng)無回答情況的界定,選項(xiàng)無回答率的計(jì)算口徑應(yīng)為以去掉不適用情況后的全部樣本單元數(shù)為分母,以不知道、拒絕回答、應(yīng)填未填三種無回答情況的樣本單元數(shù)合計(jì)為分子的結(jié)構(gòu)相對(duì)數(shù)。記選項(xiàng)無回答率為p,樣本單元數(shù)為n,則選項(xiàng)無回答率的計(jì)算公式可定義如下:
選項(xiàng)無回答率的計(jì)算公式理解起來并不困難,在小規(guī)模調(diào)查項(xiàng)目中,依據(jù)計(jì)算公式,利用各個(gè)變量的頻數(shù)分布表,通過簡單計(jì)算即可得到。但在綜合性調(diào)查項(xiàng)目中,由于樣本量大、調(diào)查題目多、調(diào)查內(nèi)容繁雜,往往還需要從不同角度反映和監(jiān)測選項(xiàng)無回答率的高低,比如,既可能需要了解每一個(gè)選項(xiàng)在全部問卷中的平均無回答率,也可能需要了解每一份問卷在全部選項(xiàng)上的平均無回答率,有時(shí)出于比較和分析的目的,還可能需要計(jì)算按照訪員、地區(qū)等分組的各組選項(xiàng)無回答率,這時(shí)如果仍然直接依據(jù)公式來計(jì)算,就會(huì)變得十分困難。而綜合性社會(huì)調(diào)查項(xiàng)目中,計(jì)算選項(xiàng)無回答率是調(diào)查質(zhì)量核查和質(zhì)量控制的重要環(huán)節(jié),實(shí)時(shí)、高效地提供準(zhǔn)確、簡潔及具有可讀性的無回答率計(jì)算結(jié)果,是保證質(zhì)量核查環(huán)節(jié)順利實(shí)施的前提。
SAS(Statistical Analysis System)是由美國北卡羅來納州州立大學(xué)1966年開發(fā)的大型集成軟件系統(tǒng),由數(shù)十個(gè)專用模塊構(gòu)成,具有完備的數(shù)據(jù)訪問、管理、分析和呈現(xiàn)及應(yīng)用開發(fā)功能,尤其在數(shù)據(jù)處理和統(tǒng)計(jì)分析領(lǐng)域,SAS系統(tǒng)已經(jīng)成為國際上的標(biāo)準(zhǔn)軟件系統(tǒng)?;赟AS系統(tǒng)編寫計(jì)算選項(xiàng)無回答率的程序,具有計(jì)算過程靈活、運(yùn)算速度快、準(zhǔn)確程度高、程序可重復(fù)驗(yàn)證以及輸出結(jié)果可讀性強(qiáng)等優(yōu)勢。
假設(shè)test.family為某入戶調(diào)查項(xiàng)目以SAS格式存儲(chǔ)的數(shù)據(jù)庫,數(shù)據(jù)庫中共有15個(gè)變量,其中hhno為戶編碼變量,itvid為訪員編碼變量,x_a1,x_a2,x_a3,x_a4,x_b1,x_b2,x_b3,x_b4為8個(gè)數(shù)值變量,x_a5,x_b5,y_a1,y_a2,y_a3為5個(gè)字符變量,共有有效觀測1000條。
該調(diào)查項(xiàng)目在訪問員填寫問卷和錄入員錄入數(shù)據(jù)時(shí),對(duì)于拒絕回答等特殊情況已做了統(tǒng)一規(guī)定,即,不知道用“-1”表示、拒絕回答用“-2”表示、不適用用“-8”表示、應(yīng)填未填答用“-9”表示,數(shù)據(jù)庫中不再有其他形式的空缺值。下面的SAS程序中,將直接基于這種特殊值的表示方法進(jìn)行數(shù)據(jù)整理。
不同的研究目的,無回答率的計(jì)算口徑也會(huì)不同,具體可以分為問卷中選項(xiàng)的平均無回答率和選項(xiàng)在全部問卷上的平均無回答率。下面將具體探討這兩種計(jì)算口徑的無回答率的SAS實(shí)現(xiàn)程序。
2.2.1 問卷中選項(xiàng)的平均無回答率的計(jì)算
問卷中選項(xiàng)的平均無回答率,是指每一份問卷中有效回答選項(xiàng)占全部應(yīng)回答選項(xiàng)的比重,對(duì)每一份問卷所關(guān)注選項(xiàng)的總體無回答情況進(jìn)行實(shí)時(shí)測定和監(jiān)控,是評(píng)價(jià)調(diào)查數(shù)據(jù)質(zhì)量、評(píng)價(jià)訪員訪問工作質(zhì)量和核發(fā)勞務(wù)報(bào)酬的依據(jù)。
(1)實(shí)現(xiàn)程序
程序的實(shí)現(xiàn)目標(biāo)是計(jì)算test.family數(shù)據(jù)庫中每條觀測(每份問卷)在全部15個(gè)變量(選項(xiàng))上的無回答率并存儲(chǔ)成EXCEL格式的數(shù)據(jù)庫。具體SAS實(shí)現(xiàn)程序如下:
【程序1】
(2)程序編寫技巧解析
在該SAS程序中,主要應(yīng)用了以下編寫技巧:
①通過變量代換,將全部變量轉(zhuǎn)換成0/1變量。程序中首先通過變量值代換,把原始數(shù)據(jù)庫中的有效值代換為1,無回答情況代換為0(無回答情況包括不知道-1、拒絕回答-2和應(yīng)填未填項(xiàng)-9),不適用情況(-8)代換為缺失(數(shù)值變量賦值為“.”,字符變量賦值為空),即將全部數(shù)據(jù)轉(zhuǎn)換成是非標(biāo)志變量(0/1變量),該類變量的均值為n1/n,也就是取值為1的觀測數(shù)占全部觀測總數(shù)的比重。
②在對(duì)字符變量做變量值代換的過程中,利用y1(i)=y1(i)+0(即把字符型變量加上數(shù)值0),靈活地實(shí)現(xiàn)了把字符變量轉(zhuǎn)換成數(shù)值變量的過程。
③利用樣本統(tǒng)計(jì)函數(shù)中的均值函數(shù)mean,計(jì)算每一條觀測的全部非缺失0/1變量的均值,據(jù)此得到每一條觀測在全部選項(xiàng)上的回答率。SAS系統(tǒng)中均值函數(shù)的一般表達(dá)式為mean(of x1-xn)或mean(x1,x2,x3,…),用于計(jì)算列表變量中所有非缺失變量值的算術(shù)平均值[2]。在本程序中,由于不適用情況(-8)事先被賦值為缺失,并不參與函數(shù)運(yùn)算,即相當(dāng)于實(shí)現(xiàn)了選項(xiàng)無回答率計(jì)算公式中的分母(n全部-n不適用) 部分。對(duì)每一條觀測來說,全部非缺失0/1變量的均值為n1/n,即取值為1(選項(xiàng)有回答)的變量個(gè)數(shù)占全部變量總數(shù)(有回答和無回答選項(xiàng)數(shù)目的合計(jì))的比重,相當(dāng)于有回答率,用1減去有回答率即可得到無回答率。本程序中函數(shù)mean的靈活運(yùn)用,避免了簡單地利用“判斷+計(jì)數(shù)”方式直接計(jì)算無回答率的過程,大大提高了程序的運(yùn)行效率。
④利用樣本統(tǒng)計(jì)函數(shù)中的求和函數(shù)sum,計(jì)算每一條觀測的有效回答的選項(xiàng)個(gè)數(shù)。SAS系統(tǒng)中求和函數(shù)的一般表達(dá)式為sum(of x1-xn)或sum(x1,x2,x3,…),用于計(jì)算列表變量中所有非缺失變量值的合計(jì)[3]。在本程序中,由于已經(jīng)把有效值代換為1、無回答情況代換為0、不適用情況代換為缺失,不適用(-8)情況不參與函數(shù)運(yùn)算,此時(shí)求和的結(jié)果即等于有效值的個(gè)數(shù)。
⑤靈活應(yīng)用數(shù)組語句(array)完成對(duì)多個(gè)變量重復(fù)相同數(shù)據(jù)處理的過程,簡化了程序。
⑥利用SAS輸出傳送系統(tǒng)(ODS),將以戶編碼和訪員編碼為標(biāo)志變量的無回答率計(jì)算結(jié)果直接輸出為excel格式,便于后續(xù)質(zhì)量核查工作的開展。
2.2.2 選項(xiàng)在全部問卷上的平均無回答率的計(jì)算
選項(xiàng)在全部問卷上的平均無回答率,是指某一選項(xiàng)在全部問卷中的有效回答觀測數(shù)占全部應(yīng)回答觀測數(shù)的比重,用以反映受訪者回答該選項(xiàng)時(shí)的難易程度。無回答率過高的選項(xiàng),既可能是由于題目本身不好理解或過于敏感,也可能是題目表述存在疏忽,在調(diào)查實(shí)施進(jìn)程中,對(duì)于發(fā)現(xiàn)的無回答率總體平均水平特別高的選項(xiàng),應(yīng)該及時(shí)查找和分析原因,并采取補(bǔ)救措施,比如,更正問卷設(shè)計(jì)錯(cuò)誤、改進(jìn)提問技巧、提請(qǐng)?jiān)L問員關(guān)注等,盡可能提高每一個(gè)選項(xiàng)的回答率,從而提高調(diào)查數(shù)據(jù)質(zhì)量。
(1)實(shí)現(xiàn)程序
程序的實(shí)現(xiàn)目標(biāo)是計(jì)算test.family數(shù)據(jù)庫中 10個(gè)數(shù)值變量(選項(xiàng))在全部1000條觀測(問卷)上的無回答率,并存儲(chǔ)成EXCEL格式的數(shù)據(jù)庫。具體SAS實(shí)現(xiàn)程序如下:
【程序2】
(2)程序編寫技巧解析
在該SAS程序中,主要應(yīng)用了以下編寫技巧:
①讀入數(shù)據(jù)時(shí),直接利用篩選條件“where&var^=-8”,將不適用的情況過濾掉,然后利用條件語句“if&var in(-1,-2,-9)then&var=.”,把無回答情況賦值為缺失值。
②利用計(jì)算變量基本描述統(tǒng)計(jì)量的均值過程(means過程),得到有效值和缺失值的個(gè)數(shù),再依據(jù)選項(xiàng)無回答率的計(jì)算公式,構(gòu)造變量p=nmiss/(n+nmiss),直接得到無回答率。
③因?yàn)樾枰鹨挥?jì)算各個(gè)變量的無回答率,通過編寫和運(yùn)用宏noanswer,避免了程序文本的大量重復(fù)。
④利用賦值語句var="&var",增加一個(gè)新的字符型變量,該變量的取值即為所計(jì)算出的無回答率的對(duì)應(yīng)變量名,作為后續(xù)合并數(shù)據(jù)庫的標(biāo)志變量。
⑤把a(bǔ)ppend過程置于宏noanswer過程中,并在引用宏程序計(jì)算無回答率之前,首先建立一個(gè)空數(shù)據(jù)庫noanswer,作為執(zhí)行宏程序時(shí)直接追加的基礎(chǔ)數(shù)據(jù)庫。這樣做的好處是,直接在宏程序中完成了變量無回答率計(jì)算結(jié)果的逐一追加,避免了待全部變量的無回答率計(jì)算完成后再合并數(shù)據(jù)庫的過程,提高了程序的利用效率和準(zhǔn)確性。尤其是在綜合性調(diào)查項(xiàng)目中,出于不同的分析目的,往往可能需要不斷增加或減少某些分析變量,這時(shí)只需簡單的替換定義宏變量和引用宏程序過程中的文本即可完成,可以避免由于代換疏忽而出現(xiàn)漏合并或重復(fù)合并數(shù)據(jù)集的錯(cuò)誤。
⑥利用SAS輸出傳送系統(tǒng)(ODS),將以變量名稱為標(biāo)志變量的無回答率計(jì)算結(jié)果直接輸出為excel格式,便于后續(xù)質(zhì)量核查工作的開展。
2.2.3 補(bǔ)充說明
程序2中只是給出了計(jì)算數(shù)值型變量(選項(xiàng))在全部問卷上的平均無回答率的實(shí)現(xiàn)過程,如果需要計(jì)算字符型變量在全部問卷上的平均無回答率,可以仿照程序1中的方法,先把字符變量轉(zhuǎn)換為數(shù)值變量,然后再套用程序2即可。
除了上述兩種無回答率的計(jì)算口徑外,有時(shí)為了特定的分析和核查目的,還需要分訪員比較所完成問卷在全部變量(選項(xiàng))上的平均無回答率、分區(qū)域比較各變量(選項(xiàng))的平均無回答率等等,這時(shí)只要以上述兩個(gè)程序?yàn)榛A(chǔ),靈活地增加分組語句(by語句)即可實(shí)現(xiàn)。
本文給出的兩個(gè)分別計(jì)算問卷中選項(xiàng)的平均無回答率和選項(xiàng)在全部問卷上的平均無回答率的SAS實(shí)現(xiàn)程序,凸顯了SAS系統(tǒng)在處理大規(guī)模復(fù)雜數(shù)據(jù)時(shí)的優(yōu)勢,在樣本量大、調(diào)查題目多、調(diào)查內(nèi)容繁雜的綜合性調(diào)查項(xiàng)目中具有很強(qiáng)的實(shí)踐應(yīng)用價(jià)值。從中也可以看出,應(yīng)用SAS系統(tǒng)不應(yīng)只停留在對(duì)常用SAS過程語句的簡單運(yùn)用上,還應(yīng)該根據(jù)數(shù)據(jù)分析的需要,靈活地應(yīng)用各種SAS函數(shù)、數(shù)據(jù)管理技巧以及宏編程技術(shù)等,提高程序的簡潔性、運(yùn)算效率以及結(jié)果的可讀性和準(zhǔn)確性。
[1]嚴(yán)潔.政治敏感問題無回答的處理:多重插補(bǔ)法的應(yīng)用[J].華中師范大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2010,49(2).
[2]朱世武.SAS編程技術(shù)教程[M].北京:清華大學(xué)出版社,2007.