張 華
(山西財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,山西 太原 030006)
調(diào)查誤差是指抽樣調(diào)查指標(biāo)結(jié)果與總體指標(biāo)真實(shí)值之間的離差。抽樣調(diào)查與調(diào)查誤差如影隨形,抽樣技術(shù)的更新過程常常伴隨著調(diào)查誤差的減小。一項(xiàng)調(diào)查的好壞往往與成本、難易程度和質(zhì)量相聯(lián)系,其中調(diào)查質(zhì)量主要通過誤差衡量。不同于成本與難易程度這類顯性因素,誤差在調(diào)查中無法直觀判斷但是又貫穿在整個(gè)調(diào)查流程中,因此可將調(diào)查誤差形容為隱秘的、細(xì)節(jié)化的但是起決定性作用的質(zhì)量因素。
數(shù)字化信息技術(shù)的發(fā)展衍生出“大數(shù)據(jù)”(Big Data)概念,對(duì)該概念的直觀解讀為海量的、盈千累萬的數(shù)字信息,從直觀含義可引申出其定義,即“大數(shù)據(jù)”是指呈指數(shù)型爆發(fā)式增長(zhǎng)的、內(nèi)部結(jié)構(gòu)復(fù)雜的有機(jī)數(shù)據(jù)。Groves(2011)[1]指出有機(jī)數(shù)據(jù)是與設(shè)計(jì)數(shù)據(jù)相對(duì)應(yīng)的概念,前者是在不受控制的自然條件下產(chǎn)生的,后者則是通過向被調(diào)查者提出基于預(yù)先設(shè)定的目的和用途的問題收集而來的、由調(diào)查行業(yè)創(chuàng)造的數(shù)據(jù),相比之下,有機(jī)數(shù)據(jù)中冗余數(shù)據(jù)比較多,而設(shè)計(jì)數(shù)據(jù)的信息與數(shù)據(jù)比率則比較高?;谡{(diào)查的設(shè)計(jì)數(shù)據(jù)如何在有機(jī)數(shù)據(jù)豐富的背景下發(fā)揮作用,是目前學(xué)者們研究的熱點(diǎn)話題。
網(wǎng)絡(luò)調(diào)查形式的推廣為有機(jī)數(shù)據(jù)與設(shè)計(jì)數(shù)據(jù)的結(jié)合提供了載體。網(wǎng)絡(luò)調(diào)查獲取數(shù)據(jù)的作用機(jī)理是通過抽絲剝繭的方式將潛在的有機(jī)數(shù)據(jù)轉(zhuǎn)化為設(shè)計(jì)數(shù)據(jù),通過這種調(diào)查形式獲得的數(shù)據(jù)既擁有有機(jī)數(shù)據(jù)成本低、易獲取的優(yōu)點(diǎn),也符合調(diào)查數(shù)據(jù)信息與數(shù)據(jù)比率高的特點(diǎn)。研究人員對(duì)信息的出現(xiàn)是敏銳的,網(wǎng)絡(luò)硬件設(shè)施的建設(shè)和軟件的發(fā)展推動(dòng)了網(wǎng)絡(luò)普及化,設(shè)計(jì)數(shù)據(jù)的獲取逐漸由線下調(diào)查轉(zhuǎn)移到線上,網(wǎng)絡(luò)調(diào)查成為了調(diào)查界的“新星”。網(wǎng)絡(luò)調(diào)查形式區(qū)別于傳統(tǒng)的概率調(diào)查形式,實(shí)踐中常用的網(wǎng)絡(luò)調(diào)查屬于非概率調(diào)查,傳統(tǒng)概率調(diào)查已經(jīng)具備一套相對(duì)成熟的調(diào)查質(zhì)量衡量標(biāo)準(zhǔn),而非概率調(diào)查尤其是新興的網(wǎng)絡(luò)調(diào)查,由于出現(xiàn)時(shí)間較短、發(fā)展較快,其調(diào)查質(zhì)量衡量體系的構(gòu)建速度追不上調(diào)查形式的更新速度。針對(duì)調(diào)查誤差的討論是抽樣調(diào)查統(tǒng)計(jì)推斷亙古不變的話題,無論是概率抽樣還是非概率抽樣,不論是傳統(tǒng)調(diào)查形式還是新興調(diào)查形式,評(píng)價(jià)調(diào)查模式的好壞主要依靠質(zhì)量衡量體系,因此在網(wǎng)絡(luò)調(diào)查快速發(fā)展的今天,針對(duì)其誤差的討論迫在眉睫。本研究以開放式Web調(diào)查為例,提出新形勢(shì)下網(wǎng)絡(luò)抽樣樣本選擇機(jī)制,依據(jù)樣本的選擇過程給出網(wǎng)絡(luò)調(diào)查的非抽樣誤差構(gòu)成,以期為非概率網(wǎng)絡(luò)調(diào)查數(shù)據(jù)質(zhì)量指標(biāo)體系構(gòu)建與統(tǒng)計(jì)推斷問題提供解決思路。
對(duì)網(wǎng)絡(luò)調(diào)查誤差進(jìn)行討論前,需對(duì)網(wǎng)絡(luò)調(diào)查概念及分類進(jìn)行界定。相關(guān)研究指出,現(xiàn)階段有關(guān)網(wǎng)絡(luò)調(diào)查概念的使用情況較為混亂,不同行業(yè)、不同領(lǐng)域的研究人員對(duì)網(wǎng)絡(luò)調(diào)查內(nèi)涵的理解不同(Bethlehem and Biffignandi,2012;牛成英,2019;Kiera,2020)[2-4],根據(jù)具體應(yīng)用場(chǎng)景和研究領(lǐng)域?qū)⒕W(wǎng)絡(luò)調(diào)查的概念分為兩種。一種是通訊信息領(lǐng)域針對(duì)互聯(lián)網(wǎng)使用情況的調(diào)查。這類調(diào)查一般只做描述性統(tǒng)計(jì),主要任務(wù)是通過收集調(diào)查數(shù)據(jù)了解互聯(lián)網(wǎng)當(dāng)期使用情況,測(cè)量網(wǎng)站流量,統(tǒng)計(jì)分析用戶的數(shù)量和特征。例如,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心每年發(fā)布的《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》統(tǒng)計(jì)了網(wǎng)絡(luò)使用者(或稱網(wǎng)民)的來源、人口學(xué)信息等。另一種是將互聯(lián)網(wǎng)絡(luò)作為調(diào)查信息發(fā)布與數(shù)據(jù)收集的平臺(tái),這種網(wǎng)絡(luò)調(diào)查形式改變了傳統(tǒng)調(diào)查的統(tǒng)計(jì)工具,將之前的線下紙筆問卷調(diào)查轉(zhuǎn)化為線上自填式問卷調(diào)查,這類調(diào)查數(shù)據(jù)不僅可用于描述性分析,部分還適用于統(tǒng)計(jì)推斷研究,主要是為實(shí)際項(xiàng)目服務(wù),目前已在生物、醫(yī)藥、教育、社會(huì)等領(lǐng)域得到了廣泛應(yīng)用。
根據(jù)文章主題,本研究是以互聯(lián)網(wǎng)絡(luò)為媒介,借助網(wǎng)絡(luò)平臺(tái)發(fā)布調(diào)查信息和收集數(shù)據(jù),主要為社會(huì)民生及市場(chǎng)調(diào)查項(xiàng)目服務(wù),因此,本文將在第二種網(wǎng)絡(luò)調(diào)查范疇下進(jìn)行研究和分析。
根據(jù)調(diào)查模式的不同,調(diào)查可分為兩種,一種是訪談?wù)吖芾砟J剑硗庖环N是自我管理模式。前者是傳統(tǒng)紙筆調(diào)查所屬的調(diào)查模式,在調(diào)查中調(diào)查管理者主導(dǎo)整個(gè)訪問過程,包括尋訪樣本單元、口述問卷問題以期獲取答案信息、對(duì)問卷問題的釋義答疑等;后者則是以互聯(lián)網(wǎng)絡(luò)為媒介的網(wǎng)絡(luò)調(diào)查所屬的調(diào)查模式,這種模式的調(diào)查過程不需要調(diào)查管理者的存在,沒有相應(yīng)的訪問員的口頭釋義和填寫引導(dǎo),整個(gè)數(shù)據(jù)收集過程基本依靠被調(diào)查者自己完成。
根據(jù)調(diào)查抽樣方式不同,具體的抽樣方式分為兩種,即概率抽樣與非概率抽樣。概率抽樣的抽樣機(jī)制更為嚴(yán)格,以隨機(jī)理論為基礎(chǔ),符合隨機(jī)原則,統(tǒng)計(jì)推斷理論符合大數(shù)定律,總體中的每個(gè)樣本單元都有一個(gè)已知的入樣概率,并且概率抽樣的抽樣誤差是可控的。理論發(fā)展較為成熟的概率抽樣方式有簡(jiǎn)單隨機(jī)抽樣、分層抽樣、系統(tǒng)抽樣、整群抽樣等。非概率抽樣是調(diào)查者依據(jù)主觀判斷或者方便原則獲取樣本,與概率抽樣相比抽樣機(jī)制顯得較為隨意,且樣本的入樣概率未知,不能精確計(jì)算、控制抽樣誤差,這種抽樣方式不符合大數(shù)定律存在的假設(shè)前提,無法進(jìn)行統(tǒng)計(jì)推斷。較為常用的非概率抽樣方式有方便抽樣、滾雪球抽樣、配額抽樣等。
以互聯(lián)網(wǎng)為媒介的網(wǎng)絡(luò)調(diào)查也可分為概率網(wǎng)絡(luò)調(diào)查與非概率網(wǎng)絡(luò)調(diào)查(Couper,2000)[5]。概率網(wǎng)絡(luò)調(diào)查方式主要為預(yù)先招募互聯(lián)網(wǎng)用戶小組(離線招募),具體是指調(diào)查管理者提前在線下選擇出需要被調(diào)查的樣本單元,前期階段的招聘可以采用面對(duì)面、郵寄或發(fā)送電子郵件的方式,并要求這些單元在互聯(lián)網(wǎng)上對(duì)調(diào)查做出響應(yīng),必要時(shí)調(diào)查者需要為這些樣本單元提供上網(wǎng)設(shè)備,后續(xù)還需不定期對(duì)這些樣本單元進(jìn)行維護(hù)避免流失。這種網(wǎng)絡(luò)調(diào)查方式對(duì)現(xiàn)實(shí)條件要求較為苛刻,招募階段所需成本較高,但其保證了網(wǎng)絡(luò)調(diào)查的持續(xù)性和概率性。前期招聘階段的樣本單元屬于概率抽樣,是從給定的抽樣框中選擇的,每個(gè)單元都有一個(gè)已知的非零入樣概率,憑借調(diào)查管理者掌握的抽樣框、招聘方式等信息使其能夠測(cè)量無響應(yīng)誤差,可在推斷過程中用來加權(quán)或調(diào)整數(shù)據(jù)參數(shù)。
非概率網(wǎng)絡(luò)調(diào)查方式主要有三種,即娛樂性網(wǎng)絡(luò)調(diào)查、志愿者小組調(diào)查和開放式Web調(diào)查。首先是娛樂性網(wǎng)絡(luò)調(diào)查。浦國(guó)華和徐金強(qiáng)(2003)[6]將其描述為,為了娛樂目的而在網(wǎng)絡(luò)上進(jìn)行的調(diào)查。調(diào)查只是將問卷簡(jiǎn)單地發(fā)布在網(wǎng)絡(luò)上,并不對(duì)響應(yīng)人群做任何限制,這種調(diào)查通常不追求科學(xué)性與代表性,僅僅是將調(diào)查作為一個(gè)交換意見的平臺(tái)。最具代表性的娛樂性網(wǎng)絡(luò)調(diào)查當(dāng)屬美國(guó)有線電視新聞網(wǎng)(簡(jiǎn)稱“CNN”)進(jìn)行的快速調(diào)查,該調(diào)查的結(jié)果只反映了參與調(diào)查的上網(wǎng)者的意見,不具有推斷性,不能推廣到全體網(wǎng)民與全體人民。其次是志愿者小組調(diào)查,又稱志愿固定樣本調(diào)查、網(wǎng)絡(luò)訪問固定樣本調(diào)查等(劉展和金勇進(jìn),2017)[7]。調(diào)查管理者通過在熱門網(wǎng)站上發(fā)布調(diào)查信息招募網(wǎng)絡(luò)調(diào)查小組成員,通過注冊(cè)環(huán)節(jié)收集成員個(gè)人特征信息(一般為人口學(xué)信息),為日后調(diào)查提供一個(gè)大型的網(wǎng)絡(luò)潛在樣本數(shù)據(jù)庫(kù)。若要參與以后的調(diào)查需要是受到邀請(qǐng)的個(gè)體,并且若被選中參與調(diào)查,他們一般愿意參與并積極響應(yīng),這些小組成員通常參與過多項(xiàng)調(diào)查。小組成員招募的群體屬于上網(wǎng)且自愿響應(yīng)并加入調(diào)查的人群,并不是調(diào)查的目標(biāo)總體,即使從中抽選樣本,樣本各單元的入樣概率同樣不可知,本質(zhì)上屬于非概率調(diào)查,并不能通過傳統(tǒng)的概率方法直接進(jìn)行總體推斷研究。最著名的采用此方法的機(jī)構(gòu)是美國(guó)民意調(diào)查機(jī)構(gòu)Harris Poll Online。最后是開放式Web調(diào)查,又稱自選式網(wǎng)絡(luò)調(diào)查或不嚴(yán)格的自選調(diào)查,具體指在沒有任何限制的條件下,調(diào)查問卷依托載體發(fā)布在網(wǎng)絡(luò)上,常用載體一般是專門的調(diào)查公司、社交網(wǎng)絡(luò)用戶、門戶網(wǎng)站等,瀏覽到該問卷的上網(wǎng)者自主選擇是否參與此次調(diào)查,選擇過程并不受調(diào)查管理者控制,因此這種調(diào)查方式并沒有選擇樣本的過程,所有自愿響應(yīng)調(diào)查的單元共同組成一個(gè)樣本。此時(shí),由于該樣本中各單元的入樣概率不可知,從概率的角度看,開放式Web調(diào)查獲得的樣本屬于非概率樣本,同樣不能直接進(jìn)行統(tǒng)計(jì)推斷。
在網(wǎng)絡(luò)普及率提高和傳統(tǒng)調(diào)查響應(yīng)率不斷下降的雙重影響下,網(wǎng)絡(luò)調(diào)查開始走進(jìn)人們的視野,逐漸成為市場(chǎng)調(diào)研、商業(yè)調(diào)查等領(lǐng)域的首選調(diào)查方式。米子川(2001)[8]在其文章中指出,網(wǎng)絡(luò)調(diào)查受到市場(chǎng)調(diào)查者的厚愛不僅因?yàn)槠鋾r(shí)髦,更是因?yàn)檫@種調(diào)查方式具有快捷、低成本、高反饋率等優(yōu)勢(shì)。本文僅針對(duì)非概率網(wǎng)絡(luò)調(diào)查的一種基礎(chǔ)形式即開放式Web調(diào)查的誤差展開研究,在網(wǎng)絡(luò)快速發(fā)展的新形勢(shì)下根據(jù)樣本選擇機(jī)制討論網(wǎng)絡(luò)調(diào)查非抽樣誤差的來源與分類,以期為解決非概率形式的開放式Web調(diào)查數(shù)據(jù)可推斷問題提供思路。
統(tǒng)計(jì)調(diào)查誤差分為抽樣誤差和非抽樣誤差,抽樣調(diào)查畢竟不是對(duì)目標(biāo)總體所有個(gè)體的調(diào)查,難免會(huì)產(chǎn)生因選擇的代表性樣本不同而產(chǎn)生調(diào)查偏差,因此抽樣誤差是調(diào)查本身自有的、因抽樣方法產(chǎn)生的隨機(jī)性誤差。關(guān)于抽樣誤差,已有大量的權(quán)威研究理論與方法,本文重點(diǎn)討論以開放式Web調(diào)查為例的網(wǎng)絡(luò)調(diào)查的非抽樣誤差。
計(jì)算機(jī)最早作為調(diào)查的輔助工具被使用,主要通過計(jì)算機(jī)輔助電話采訪(CATI)作用在數(shù)據(jù)收集階段,F(xiàn)reeman和Shanks(1983)[9]表示這種輔助方式最早應(yīng)用在商業(yè)調(diào)查領(lǐng)域。隨著電信技術(shù)的發(fā)展,人們似乎開始追求“不被打擾”的生活方式,電話答錄機(jī)、電話來電顯示、電話自動(dòng)屏蔽等功能的出現(xiàn)為CATI帶來了很大的挑戰(zhàn),使本就降低的響應(yīng)率越發(fā)低迷,為調(diào)查帶來一系列困難,造成調(diào)查成本上升。之后,隨著移動(dòng)電話的普及和固定電話逐漸被淘汰,以居民固定電話為抽樣框的調(diào)查逐漸產(chǎn)生抽樣框覆蓋誤差。在Couper(2000)[5]有關(guān)網(wǎng)絡(luò)調(diào)查的綜述中曾提到,由于互聯(lián)網(wǎng)普及率有限和低回復(fù)率而造成的覆蓋率不足是互聯(lián)網(wǎng)調(diào)查的主要缺點(diǎn)。Grandcolas等(2003)[10]認(rèn)為與傳統(tǒng)調(diào)查一樣,網(wǎng)絡(luò)調(diào)查也可分為概率網(wǎng)絡(luò)調(diào)查與非概率網(wǎng)絡(luò)調(diào)查,因此網(wǎng)絡(luò)調(diào)查的誤差與傳統(tǒng)調(diào)查應(yīng)一致,分為覆蓋誤差、抽樣誤差、無響應(yīng)誤差和測(cè)量誤差。同樣,Kalton(2019)[11]認(rèn)為網(wǎng)絡(luò)抽樣可分為概率和非概率兩種類型,針對(duì)每種類型的網(wǎng)絡(luò)非抽樣誤差來源也不盡相同。Bozman等(2005)[12]表示人們最初將網(wǎng)絡(luò)調(diào)查非抽樣誤差的目光集中在完整的、準(zhǔn)確的抽樣框與目標(biāo)總體的確定上,并表示電子郵件地址不能作為一項(xiàng)確定的依據(jù)。在此之前就有研究如Cobanoglu等(2011)[13]指出,互聯(lián)網(wǎng)用戶的概況越來越符合美國(guó)和一些國(guó)家的人口特征,因此人們對(duì)互聯(lián)網(wǎng)調(diào)查方法的關(guān)注開始轉(zhuǎn)向回復(fù)率。Bozman等(2005)[12]的觀點(diǎn)是準(zhǔn)確理解與在線調(diào)查方法相關(guān)的總誤差是困難的??傉{(diào)查誤差由抽樣誤差和非抽樣誤差組成。抽樣誤差顯式明顯,控制其大小的方法也較為簡(jiǎn)單,即增加樣本量和(或)嚴(yán)謹(jǐn)?shù)刈裱闃釉O(shè)計(jì)。非抽樣誤差卻很難預(yù)測(cè),同時(shí)也是總調(diào)查誤差的主要來源。非抽樣誤差由響應(yīng)誤差和無響應(yīng)誤差共同組成,響應(yīng)誤差包括不規(guī)范的響應(yīng)情況等,無響應(yīng)誤差是指無響應(yīng)樣本單元的缺失導(dǎo)致總的響應(yīng)單元不代表目標(biāo)群體,調(diào)查研究人員通常無法聯(lián)系無響應(yīng)者,因此沒有辦法評(píng)估響應(yīng)單元是否與無響應(yīng)單元或目標(biāo)人群的響應(yīng)行為一致。因此無響應(yīng)誤差的經(jīng)典定義是:無響應(yīng)者的答案在某些方面可能與完成問卷的響應(yīng)者提供的答案不同。文章中還舉出了一個(gè)通俗易懂的例子,如飲料購(gòu)買調(diào)查,不購(gòu)買飲料的消費(fèi)者并沒有響應(yīng)調(diào)查,此時(shí)響應(yīng)調(diào)查的人群可能大部分是消費(fèi)飲料的群體,這導(dǎo)致對(duì)人均飲料消費(fèi)量的過高估計(jì)。Kunz和Fuchs(2019)[14]指出網(wǎng)絡(luò)調(diào)查的誤差可能來自被調(diào)查者本身、調(diào)查工具或其相關(guān)因素之間的相互作用,認(rèn)為測(cè)量誤差的重要性僅次于無響應(yīng)誤差,但測(cè)量誤差可采取手段將其減小。與之看法相同的還有Kolbas(2019)[15],其同樣認(rèn)為在研究網(wǎng)絡(luò)調(diào)查的非抽樣誤差過程中不可忽視被調(diào)查者、設(shè)計(jì)和設(shè)備的作用。
Bethlehem(2009)[16]在《應(yīng)用調(diào)查方法》一書中將網(wǎng)絡(luò)誤差總結(jié)為覆蓋誤差、選擇誤差和無響應(yīng)誤差三部分。覆蓋誤差主要是指欠覆蓋引起的誤差,當(dāng)目標(biāo)總體中的單元在抽樣框中沒有相對(duì)應(yīng)的單元時(shí),就會(huì)發(fā)生欠覆蓋,這些單元可能永遠(yuǎn)不會(huì)被聯(lián)系到,如果使用互聯(lián)網(wǎng)作為抽樣框,而目標(biāo)人群中卻包含了無法接入互聯(lián)網(wǎng)的人,那么欠覆蓋將是一個(gè)很嚴(yán)重的問題,因?yàn)榇嬖诓糠钟肋h(yuǎn)不可能被選中參加調(diào)查的單元。當(dāng)樣本是基于自我選擇時(shí),網(wǎng)絡(luò)在線調(diào)查就可能出現(xiàn)選擇誤差,調(diào)查問卷只是簡(jiǎn)單地放在網(wǎng)上,被調(diào)查者是那些碰巧有互聯(lián)網(wǎng)接入、訪問網(wǎng)站并決定參與調(diào)查的人,調(diào)查研究者并不控制響應(yīng)者的選擇過程,因此選擇概率是未知的,傳統(tǒng)的無偏估計(jì)幾乎不能獲得。網(wǎng)絡(luò)在線調(diào)查中也會(huì)出現(xiàn)無響應(yīng)情況。原因之一是在線調(diào)查問卷是一種自我管理的問卷,因此在線調(diào)查也可能出現(xiàn)較高的無響應(yīng)率;另一個(gè)原因是被調(diào)查者必須與互聯(lián)網(wǎng)互動(dòng)的技術(shù)問題,緩慢的網(wǎng)絡(luò)速度、不可靠的連接、低端的瀏覽器和不明確的導(dǎo)航指令都有可能讓被調(diào)查者感到沮喪,從而放棄參與調(diào)查。與Bethlehem(2009)[16]的觀點(diǎn)略有不同的是Wetzel(2010)[17],其直接描述了網(wǎng)絡(luò)調(diào)查的三種非抽樣誤差,即覆蓋誤差、無響應(yīng)誤差和測(cè)量誤差。隨后Fan和zhao(2011)[18]綜合了Bethlehem和Wetzel的觀點(diǎn),認(rèn)為網(wǎng)絡(luò)調(diào)查屬于調(diào)查的一種特殊形式,因此非抽樣誤差包含四種,分別為覆蓋誤差、選擇誤差、無響應(yīng)誤差和測(cè)量誤差。Edith(2013)[19]在其文章中詳細(xì)闡明了網(wǎng)絡(luò)調(diào)查非抽樣誤差產(chǎn)生的根本原因,皮尤互聯(lián)網(wǎng)和美國(guó)生活項(xiàng)目分析顯示,在2010年79%的美國(guó)成年人使用互聯(lián)網(wǎng),然而,互聯(lián)網(wǎng)的使用并不是平均分布在所有群體中,非西班牙裔黑人、老年人和收入較低、受教育程度較低、生活在農(nóng)村地區(qū)的人的代表不足。
除了傳統(tǒng)的覆蓋誤差、選擇誤差、無響應(yīng)誤差和測(cè)量誤差四種外,隨著智能移動(dòng)設(shè)備的發(fā)展,研究的一部分關(guān)注點(diǎn)開始轉(zhuǎn)向網(wǎng)絡(luò)調(diào)查的設(shè)備效應(yīng)。Mavletova(2013)[20]認(rèn)為智能移動(dòng)設(shè)備數(shù)量的增長(zhǎng)為調(diào)查研究人員帶來了新的挑戰(zhàn),其研究采用網(wǎng)絡(luò)志愿者小組調(diào)查,通過對(duì)比PC端與Mobile端兩種調(diào)查模式的數(shù)據(jù)質(zhì)量認(rèn)為,與預(yù)期一致,Mobile Web調(diào)查與較低的完成率、較強(qiáng)的響應(yīng)順序效應(yīng)以及較短的開放式問題的答案相關(guān)。Toninelli和Revilla(2016)[21]對(duì)Mavletova的試驗(yàn)進(jìn)行了復(fù)現(xiàn),Mavletova通過兩波實(shí)驗(yàn)比較了俄羅斯志愿者小組調(diào)查中相同被調(diào)查者的PC和Mobile結(jié)果,Toninelli和Revilla則專注于西班牙的志愿者小組調(diào)查,涉及1 800名小組成員,其結(jié)果支持Mavletova和Couper的大部分發(fā)現(xiàn),并證實(shí)了它們對(duì)兩個(gè)國(guó)家研究的穩(wěn)健性。Christopher等(2017)[22]的研究表明,同樣是網(wǎng)絡(luò)調(diào)查,Mobile Web調(diào)查數(shù)據(jù)質(zhì)量可能優(yōu)于PC Web,因此網(wǎng)絡(luò)調(diào)查非抽樣誤差的來源可能包括模式效應(yīng)。但也有部分學(xué)者對(duì)此持不同意見,Tourangeau等(2018)[23]通過在美國(guó)八個(gè)縣進(jìn)行的一項(xiàng)實(shí)地試驗(yàn),比較了智能手機(jī)、平板電腦和筆記本電腦獲得的響應(yīng)數(shù)據(jù)質(zhì)量,研究結(jié)果表明設(shè)備類型對(duì)數(shù)據(jù)質(zhì)量的影響很小。Ha和Zhang(2019)[24]通過整群抽樣的方法對(duì)美國(guó)公立大學(xué)所有學(xué)生進(jìn)行了兩次實(shí)地試驗(yàn),結(jié)果發(fā)現(xiàn)僅在使用計(jì)算機(jī)輔助自我訪談時(shí)設(shè)備對(duì)響應(yīng)質(zhì)量具有影響,并且Mobile端的優(yōu)點(diǎn)表現(xiàn)在即時(shí)響應(yīng)速度方面,因此建議使用Mobile Web端展開調(diào)查。
在網(wǎng)絡(luò)調(diào)查非抽樣誤差的研究范式方面,最近的一些研究都建議在總誤差框架下展開。Plutzer(2019)[25]認(rèn)為在網(wǎng)絡(luò)調(diào)查中敏感性問題和被調(diào)查者同意作答的過程都會(huì)造成代表性誤差和測(cè)量誤差,不僅如此,相同被調(diào)查者對(duì)同一調(diào)查的多次參與也是造成非抽樣誤差的重要原因,并強(qiáng)調(diào)網(wǎng)絡(luò)調(diào)查質(zhì)量研究也應(yīng)該在總調(diào)查誤差(TSE)框架下展開。Mcclain等(2019)[26]在其最新研究中表明,有并行數(shù)據(jù)參與的網(wǎng)絡(luò)調(diào)查也應(yīng)在總誤差(TSE)范式下進(jìn)行。雖然TSE范式尚未直接應(yīng)用于網(wǎng)絡(luò)調(diào)查并行數(shù)據(jù)的分類,但這種范式能夠刺激調(diào)查方法的分析和創(chuàng)新,它定義了可能被引入調(diào)查估計(jì)的誤差,同時(shí)認(rèn)識(shí)到誤差和成本之間具有重要關(guān)系。
國(guó)內(nèi)的網(wǎng)絡(luò)調(diào)查起步較晚,但發(fā)展十分迅速。王菲和曾五一(2003)[27]、曾五一等(2008)[28]認(rèn)為在互聯(lián)網(wǎng)時(shí)代進(jìn)行網(wǎng)上調(diào)查存在的非調(diào)查誤差主要分為以下三類:一是抽樣框誤差,二是無回答誤差,三是測(cè)量誤差。抽樣框誤差是指目標(biāo)總體與抽樣框不一致,盡管我國(guó)互聯(lián)網(wǎng)發(fā)展速度極快,但中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(以下簡(jiǎn)稱CNNIC)的調(diào)查報(bào)告顯示,截至2021年6月我國(guó)網(wǎng)絡(luò)覆蓋率還未達(dá)到100%,因此不能直接用網(wǎng)絡(luò)抽樣調(diào)查的結(jié)果對(duì)全國(guó)總體特征值進(jìn)行推斷。經(jīng)驗(yàn)研究表明網(wǎng)絡(luò)調(diào)查同樣具有不可忽略的無響應(yīng)率,網(wǎng)絡(luò)調(diào)查中的無響應(yīng)產(chǎn)生原因是多方面的,包括因無接觸產(chǎn)生的激勵(lì)手段失效、網(wǎng)絡(luò)技術(shù)問題、網(wǎng)絡(luò)調(diào)查方式等。在網(wǎng)絡(luò)環(huán)境中,訪問員的缺失和問卷的模糊表達(dá)往往會(huì)產(chǎn)生調(diào)查內(nèi)容與被調(diào)查者理解偏差,從而形成測(cè)量誤差。孫伶莉(2003)[29]同樣將誤差分為抽樣框誤差、無回答誤差和測(cè)量誤差,但是誤差內(nèi)容更加細(xì)化。抽樣框誤差細(xì)化為三種,即欠覆蓋、過覆蓋和復(fù)合聯(lián)接;無回答誤差概括為兩種,一種是有意識(shí)無回答,另一種是無意識(shí)無回答;傳統(tǒng)紙筆調(diào)查在統(tǒng)計(jì)中的登記、匯總和計(jì)算過程產(chǎn)生的誤差被統(tǒng)稱為測(cè)量誤差,在網(wǎng)絡(luò)調(diào)查中計(jì)算機(jī)代替了人工,在強(qiáng)大的科技面前這種誤差幾乎可以忽略不計(jì),但在新形式下測(cè)量誤差被賦予了新的內(nèi)涵,即調(diào)查者誤差和被調(diào)查者誤差,也可以稱之為問卷誤差和顧慮誤差。杜婷(2006)[30]則認(rèn)為網(wǎng)絡(luò)調(diào)查的非抽樣誤差多形成于對(duì)問卷的重復(fù)作答。方國(guó)斌和陳年紅(2009)[31]認(rèn)為網(wǎng)絡(luò)調(diào)查給予了被調(diào)查者最大的自由度,因此非抽樣誤差主要來源于被調(diào)查者的回答和無回答。馬慧敏(2011)[32]將網(wǎng)絡(luò)調(diào)查非抽樣誤差按照調(diào)查的各個(gè)階段進(jìn)行劃分,如調(diào)查設(shè)計(jì)階段的抽樣框誤差、數(shù)據(jù)收集階段的回答和無回答誤差以及調(diào)查處理階段產(chǎn)生的誤差。王華民(2014)[33]將網(wǎng)絡(luò)調(diào)查非抽樣誤差的來源分為登記性誤差和代表性誤差兩方面。傳統(tǒng)調(diào)查的登記性誤差主要來源于調(diào)查組織設(shè)計(jì)者、調(diào)查訪問者、被調(diào)查者和其他參與者,在網(wǎng)絡(luò)調(diào)查形式下,計(jì)算機(jī)的存在使得調(diào)查訪問者和其他參與者造成的登記性誤差可以忽略不計(jì),但是問卷設(shè)計(jì)和被調(diào)查者造成的誤差依舊存在,由代表性產(chǎn)生的非調(diào)查誤差則是抽樣框誤差和無回答誤差。余富強(qiáng)等(2019)[34]從問卷設(shè)計(jì)、抽樣、數(shù)據(jù)收集、資料處理等維度集中探討了非抽樣誤差的來源和控制措施。
綜上所述,國(guó)內(nèi)外對(duì)網(wǎng)絡(luò)非抽樣誤差的研究主要圍繞信息技術(shù)的應(yīng)用和調(diào)查實(shí)際的發(fā)展情況兩方面展開。國(guó)外針對(duì)網(wǎng)絡(luò)調(diào)查非抽樣誤差的研究重點(diǎn)主要集中在覆蓋誤差、響應(yīng)誤差、測(cè)量誤差和選擇誤差四個(gè)方面,這與網(wǎng)絡(luò)技術(shù)的發(fā)展息息相關(guān)。最開始使用網(wǎng)絡(luò)調(diào)查時(shí),居民網(wǎng)絡(luò)接入率很低,此時(shí)使用網(wǎng)絡(luò)調(diào)查最嚴(yán)重的誤差是覆蓋誤差。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)覆蓋率逐步提高,后來學(xué)者將研究重點(diǎn)轉(zhuǎn)移到網(wǎng)絡(luò)調(diào)查的響應(yīng)誤差。在通過科學(xué)手段提升響應(yīng)率之后,非概率網(wǎng)絡(luò)調(diào)查的樣本選擇誤差開始進(jìn)入研究視野。網(wǎng)絡(luò)調(diào)查作為一種典型的“自我管理模式”調(diào)查,測(cè)量誤差貫穿整個(gè)誤差研究的始終,隨著智能設(shè)備應(yīng)用的普及,學(xué)者開始思考調(diào)查設(shè)備或模式對(duì)網(wǎng)絡(luò)調(diào)查數(shù)據(jù)質(zhì)量的影響,最新研究開始建議網(wǎng)絡(luò)調(diào)查的非抽樣誤差研究應(yīng)該在總誤差(TSE)范式下展開。國(guó)內(nèi)針對(duì)網(wǎng)絡(luò)調(diào)查非抽樣誤差的研究起步較晚,但研究?jī)?nèi)容呈現(xiàn)多樣化,除了將網(wǎng)絡(luò)調(diào)查非抽樣誤差分為覆蓋誤差、響應(yīng)誤差、測(cè)量誤差和選擇誤差這四種經(jīng)典類型外,部分學(xué)者開始分階段分解網(wǎng)絡(luò)調(diào)查的非抽樣誤差以及分角色討論網(wǎng)絡(luò)調(diào)查非抽樣誤差的來源。通過對(duì)國(guó)內(nèi)外相關(guān)經(jīng)典文獻(xiàn)的閱讀不難總結(jié)出,網(wǎng)絡(luò)調(diào)查非抽樣誤差的來源是隨著網(wǎng)絡(luò)發(fā)展進(jìn)程和被調(diào)查者行為變化而變化的,不同時(shí)代、不同科技程度和被調(diào)查者性格都會(huì)影響調(diào)查非抽樣誤差的大小。
本文在網(wǎng)絡(luò)快速普及的新形勢(shì)下,以開放式Web調(diào)查為例對(duì)網(wǎng)絡(luò)調(diào)查的非抽樣誤差展開研究,研究?jī)?nèi)容區(qū)別于傳統(tǒng)非抽樣誤差之處在于:(1)以開放式Web調(diào)查為例,從樣本選擇機(jī)制角度給出網(wǎng)絡(luò)調(diào)查非抽樣誤差的分類及內(nèi)涵;(2)在滿足假設(shè)前提下給出開放式Web調(diào)查的參數(shù)估計(jì);(3)在非抽樣誤差分類研究基礎(chǔ)上提出開放式Web調(diào)查的研究展望。
研究調(diào)查誤差來源的前提是對(duì)調(diào)查步驟的清晰認(rèn)識(shí),傳統(tǒng)的概率調(diào)查已經(jīng)形成了統(tǒng)一的調(diào)查步驟,各步驟都有明確的定義。
第一步,確定調(diào)查主題,明確調(diào)查所要達(dá)到的目的。
第二步,明確定義目標(biāo)總體,根據(jù)調(diào)查目的確定相對(duì)應(yīng)的特定人群。
第三步,問卷設(shè)計(jì)。問卷質(zhì)量直接關(guān)系到調(diào)查數(shù)據(jù)的質(zhì)量,應(yīng)遵循基本的設(shè)計(jì)原則(李林梅,2000)[35]。
第四步,抽樣設(shè)計(jì)。這一步是調(diào)查過程中的核心內(nèi)容,主要包括確定抽樣框、選擇抽樣方法、計(jì)算樣本量。
第五步,收集數(shù)據(jù)。該過程中可能存在拒絕響應(yīng)、不能響應(yīng)、失去聯(lián)系等無法收集目標(biāo)樣本數(shù)據(jù)的情況。
第六步,評(píng)估響應(yīng)數(shù)據(jù)質(zhì)量。響應(yīng)率具體是指配合調(diào)查的相對(duì)樣本數(shù)量,在嚴(yán)格的概率抽樣調(diào)查過程中任何一個(gè)目標(biāo)單元無響應(yīng)都可能會(huì)使最終結(jié)果產(chǎn)生偏差。
第七步,分析數(shù)據(jù)并形成調(diào)查報(bào)告。根據(jù)第一步中確定的調(diào)查目的,分析調(diào)查所收集到的數(shù)據(jù),根據(jù)分析需要采用適當(dāng)?shù)募訖?quán)或模型調(diào)整響應(yīng)數(shù)據(jù),最后可直接利用量化模型解釋因果關(guān)系和影響因素,達(dá)到市場(chǎng)調(diào)查、商業(yè)調(diào)查目的或揭示社會(huì)現(xiàn)象背后隱藏的問題。
同傳統(tǒng)概率調(diào)查不同,開放式Web調(diào)查屬于典型的非概率調(diào)查,調(diào)查樣本是自愿響應(yīng)樣本,調(diào)查問卷是自填式問卷,整個(gè)調(diào)查模式屬于自我管理模式,目標(biāo)總體的信息收集過程完全依靠互聯(lián)網(wǎng)絡(luò),不存在由輔助信息構(gòu)成的抽樣框,全程無訪問員的參與。因此,開放式Web調(diào)查的步驟與傳統(tǒng)概率抽樣調(diào)查的步驟并不完全相同,區(qū)別之處主要體現(xiàn)在抽樣設(shè)計(jì)方面。
作為典型的非概率網(wǎng)絡(luò)調(diào)查,抽樣框不明確與入樣概率未知是開放式Web調(diào)查最鮮明的特點(diǎn),因此在抽樣設(shè)計(jì)方面,開放式Web調(diào)查并沒有調(diào)查管理者選擇目標(biāo)樣本的過程,調(diào)查問卷僅僅是簡(jiǎn)單地放在網(wǎng)絡(luò)上,任何得知調(diào)查信息且愿意參與調(diào)查的上網(wǎng)單元都有可能成為調(diào)查樣本中的一員。在這種單元入樣背景下,任何依靠調(diào)查管理者來實(shí)現(xiàn)的傳統(tǒng)概率抽樣方法都無法發(fā)揮作用,這時(shí)同樣不存在提前設(shè)定好的樣本量閾值,因此傳統(tǒng)的概率抽樣設(shè)計(jì)流程在開放式Web調(diào)查中被推翻,不存在嚴(yán)格的入樣樣本選擇,在沒有任何限制的前提下自愿響應(yīng)調(diào)查的單元最終都會(huì)成為調(diào)查的樣本成員,最終樣本量的大小取決于調(diào)查數(shù)據(jù)收集截止的時(shí)間。
假設(shè)調(diào)查對(duì)目標(biāo)總體沒有任何限制,即調(diào)查總體是所有上網(wǎng)者,樣本是所有響應(yīng)者,樣本響應(yīng)調(diào)查的形式是自我管理模式,樣本自主根據(jù)調(diào)查信息響應(yīng)調(diào)查問卷,全過程沒有訪問員參與,樣本的響應(yīng)概率未知,這時(shí)所有上網(wǎng)者(或稱網(wǎng)民)為調(diào)查的潛在樣本,瀏覽到調(diào)查信息的網(wǎng)民才有可能轉(zhuǎn)化為調(diào)查響應(yīng)者。
圖1 樣本轉(zhuǎn)化關(guān)系圖
全部網(wǎng)民、瀏覽者集合、響應(yīng)者集合三者關(guān)系如圖1所示,網(wǎng)絡(luò)潛在目標(biāo)總體等同于所有網(wǎng)民,即調(diào)查總體,其中陰影部分表示網(wǎng)民總體中接收到調(diào)查信息的人群,這部分網(wǎng)民又被稱為瀏覽者集合。調(diào)查信息簡(jiǎn)單地掛放在網(wǎng)絡(luò)上,即使在很多個(gè)大流量網(wǎng)站同時(shí)掛放,瀏覽率也很難達(dá)到100%,換句話說,并不是所有網(wǎng)民都會(huì)瀏覽到調(diào)查信息。信息在網(wǎng)絡(luò)上的傳播是一個(gè)隨時(shí)間增長(zhǎng)的增量過程,理想狀態(tài)下,隨著曝光時(shí)間的增長(zhǎng),瀏覽率無限趨近于1,但現(xiàn)實(shí)社會(huì)中不限時(shí)間的調(diào)查數(shù)據(jù)收集項(xiàng)目很少,且調(diào)查信息的曝光率同熱點(diǎn)事件的生命周期模型一致,呈現(xiàn)尖峰厚尾分布特征,所以在實(shí)際調(diào)查項(xiàng)目中,只有部分網(wǎng)絡(luò)潛在目標(biāo)單元會(huì)瀏覽到調(diào)查信息,從而轉(zhuǎn)化為瀏覽者集合中的一員。瀏覽者集合中自愿響應(yīng)調(diào)查的陰影部分為網(wǎng)絡(luò)調(diào)查的最終樣本,稱為響應(yīng)者集合。同樣,在理想狀態(tài)下瀏覽者集合向響應(yīng)者集合轉(zhuǎn)化的比例為100%,但在實(shí)際調(diào)查項(xiàng)目中瀏覽者集合中的單元并不會(huì)全部響應(yīng)調(diào)查。原因包含兩個(gè)方面:一是不可抗力因素,二是瀏覽單元的行為、心理特征。前者主要包括設(shè)備不支持(如網(wǎng)絡(luò)接入不良)、時(shí)間不允許(如網(wǎng)絡(luò)同線程)等,后者主要表現(xiàn)為瀏覽到調(diào)查信息的上網(wǎng)者不愿意響應(yīng)調(diào)查、對(duì)調(diào)查主題不感興趣或因調(diào)查主題較為敏感從而放棄響應(yīng)等。因此,瀏覽者集合中只有部分單元會(huì)轉(zhuǎn)化成為響應(yīng)者集合中的一員,三者的轉(zhuǎn)化展示了開放式Web調(diào)查樣本的獲取機(jī)制。
目前學(xué)術(shù)界公認(rèn)的網(wǎng)絡(luò)調(diào)查非抽樣誤差根據(jù)其來源主要分為覆蓋誤差、無響應(yīng)誤差和測(cè)量誤差三種,這里的網(wǎng)絡(luò)抽樣是廣義的,既包括概率網(wǎng)絡(luò)抽樣也包含非概率網(wǎng)絡(luò)抽樣,所以三種非抽樣誤差也是與廣義網(wǎng)絡(luò)抽樣相對(duì)應(yīng)的,來源較為復(fù)雜和模糊。
本文僅在開放式Web調(diào)查框架下,對(duì)非抽樣誤差來源及分類進(jìn)行分析。近年來,網(wǎng)絡(luò)普及率的提高、社會(huì)開放性的增強(qiáng)和人們認(rèn)知視野的拓展,使得民眾對(duì)于調(diào)查的接受程度也在逐漸發(fā)生改變。網(wǎng)絡(luò)調(diào)查的各個(gè)環(huán)節(jié)是聯(lián)系的,也是發(fā)展的,任何一環(huán)發(fā)生改變都會(huì)產(chǎn)生牽一發(fā)而動(dòng)全身的作用,在新形勢(shì)下本文根據(jù)開放式Web調(diào)查中樣本的轉(zhuǎn)化關(guān)系來定義非抽樣誤差的來源及分類。如圖2所示,根據(jù)新形勢(shì)下網(wǎng)絡(luò)樣本轉(zhuǎn)化關(guān)系和誤差來源主體的不同,本文將網(wǎng)絡(luò)調(diào)查誤差分為三類,分別為覆蓋誤差、調(diào)查者誤差和被調(diào)查者誤差,且三者的內(nèi)涵與傳統(tǒng)調(diào)查定義的概念有所區(qū)別。
圖2 開放式Web調(diào)查誤差分類
第一類覆蓋誤差。在傳統(tǒng)概率抽樣調(diào)查中,抽樣框與目標(biāo)總體并不是一一對(duì)應(yīng)關(guān)系,從而產(chǎn)生覆蓋誤差。這種非一一對(duì)應(yīng)關(guān)系主要包括三種形式:一是欠覆蓋,即抽樣框丟失部分目標(biāo)單元;二是過覆蓋,即抽樣框包含非目標(biāo)單元;三是復(fù)合聯(lián)接,即部分目標(biāo)單元重復(fù)入樣。在開放式Web調(diào)查過程中也會(huì)產(chǎn)生覆蓋誤差,但該覆蓋誤差非彼覆蓋誤差,其內(nèi)容與傳統(tǒng)含義大相徑庭。
第48次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》數(shù)據(jù)顯示,截至2021年6月,我國(guó)網(wǎng)民規(guī)模首超10億,占人口總數(shù)的71.6%,較10年前同比增長(zhǎng)87.87%,環(huán)比增長(zhǎng)7.53%,實(shí)現(xiàn)了快速穩(wěn)定增長(zhǎng)。
開放式Web調(diào)查存在的覆蓋誤差主要有兩種。其一,網(wǎng)民總體與社會(huì)居民總體之間的差異,如圖3所示,網(wǎng)民數(shù)量不斷攀升,但網(wǎng)民總數(shù)與總?cè)丝跀?shù)的比例并沒有達(dá)到100%,這表明利用網(wǎng)絡(luò)調(diào)查推斷社會(huì)總體指標(biāo)存在一定偏差,網(wǎng)民總體不能代表社會(huì)總體。其二,根據(jù)圖1樣本轉(zhuǎn)換關(guān)系圖可知網(wǎng)絡(luò)潛在總體與瀏覽者集合并不重合,瀏覽者集合與響應(yīng)者集合也并不完全重疊,這表明并不是所有網(wǎng)民都有機(jī)會(huì)接觸調(diào)查信息,沒有機(jī)會(huì)瀏覽到調(diào)查信息的部分網(wǎng)民對(duì)調(diào)查做出響應(yīng)的概率為0,即使接觸到調(diào)查信息的網(wǎng)民單元也不會(huì)全部響應(yīng)調(diào)查,這時(shí)出現(xiàn)的覆蓋誤差主要是由于瀏覽者的選擇造成的,因此,這兩部分網(wǎng)民的缺失也是網(wǎng)絡(luò)調(diào)查存在覆蓋誤差的原因之一。
圖3 網(wǎng)民總數(shù)占總?cè)丝跀?shù)比例
第二類調(diào)查者誤差。傳統(tǒng)的由調(diào)查者引起的誤差主要有以下兩種:一是訪問員造成的誤差,體現(xiàn)在調(diào)查流程當(dāng)中,如訪問員訪問地址錯(cuò)誤、問答引導(dǎo)性誤差、數(shù)據(jù)錄入誤差等;二是問卷設(shè)計(jì)誤差,如問題誘導(dǎo)性誤差、問卷過長(zhǎng)產(chǎn)生的疲勞誤差、問卷概念定義模糊誤差等。
在開放式Web調(diào)查過程中,調(diào)查收集的是自愿響應(yīng)樣本,不存在訪問員,所以第一種傳統(tǒng)調(diào)查者誤差在網(wǎng)絡(luò)調(diào)查中將不復(fù)存在,但第二種問卷設(shè)計(jì)誤差依舊影響調(diào)查結(jié)果甚至更為嚴(yán)重。訪問員在調(diào)查中的存在似一把雙刃劍,雖然會(huì)產(chǎn)生誤差,但是也會(huì)避免其他類型的誤差,如問卷概念模糊時(shí)訪問員可對(duì)其進(jìn)行口頭釋義,然而在網(wǎng)絡(luò)調(diào)查過程中訪問員的作用并不是不可替代的,可借助現(xiàn)代技術(shù)產(chǎn)生與訪問員相近的作用。
第三類被調(diào)查者誤差。傳統(tǒng)的由被調(diào)查者(也稱受訪者)產(chǎn)生的非抽樣誤差分為回答誤差和無回答誤差兩種?;卮鹫`差是指入樣單元提供的信息與真實(shí)情況不相符,如被調(diào)查者故意提供虛假信息或針對(duì)敏感信息提供虛假數(shù)據(jù)。當(dāng)無法獲得入樣單元的信息時(shí)就會(huì)產(chǎn)生無回答誤差,如樣本單元無法聯(lián)系、樣本單元由于生病等原因無法提供信息或該單元拒訪等。
開放式Web調(diào)查屬于自我管理模式調(diào)查,由于訪問員的缺失,被調(diào)查者成為控制調(diào)查的主體。當(dāng)調(diào)查的外部或內(nèi)部環(huán)境發(fā)生變化時(shí),所有調(diào)查參與者都會(huì)受到影響,首當(dāng)其沖的便是被調(diào)查者。調(diào)查過程中樣本自愿響應(yīng),不受任何限制,因此不存在傳統(tǒng)意義上的樣本無響應(yīng)誤差。但是,響應(yīng)誤差的來源十分廣泛。首先是敏感性誤差,相關(guān)研究表明敏感問題回答率在網(wǎng)絡(luò)調(diào)查中的表現(xiàn)優(yōu)于傳統(tǒng)調(diào)查(面對(duì)面、電話訪問、郵寄調(diào)查等),但針對(duì)一些敏感級(jí)別比較高的問題(如吸毒、違法行為),即使是在網(wǎng)絡(luò)環(huán)境下進(jìn)行調(diào)查,結(jié)果也會(huì)產(chǎn)生很大的不確定性。其次是非理性誤差,網(wǎng)絡(luò)是一個(gè)既開放又隱秘的矛盾“場(chǎng)所”,開放之處在于其兼容性,任何人隨時(shí)隨地都可以在設(shè)備支持下進(jìn)入網(wǎng)絡(luò),隱秘是因?yàn)榫W(wǎng)絡(luò)依靠在線交流,兩個(gè)網(wǎng)民可以在不知對(duì)方“長(zhǎng)相”等信息下成為既陌生又熟悉的“好友”。網(wǎng)絡(luò)調(diào)查的目的是獲得樣本單元的特征,即只需要知道“什么樣的人參與了調(diào)查”,并不在乎“參與調(diào)查的人是誰”,因此網(wǎng)絡(luò)調(diào)查無法對(duì)樣本的不真實(shí)響應(yīng)行為進(jìn)行“追責(zé)”,進(jìn)而無法避免自愿響應(yīng)樣本提供“不負(fù)責(zé)任”的信息。通俗來講,樣本單元“胡亂作答”“惡作劇行為”都可歸結(jié)為非理性行為。
黃光和符力思(2014)[36]在對(duì)市場(chǎng)調(diào)查公司提高網(wǎng)絡(luò)調(diào)查可信度方面給出如下建議:一是正確界定網(wǎng)絡(luò)調(diào)查的適用范圍,不僅包括目標(biāo)總體的適用范圍,還包括調(diào)查項(xiàng)目的適用范圍;二是與抽樣技術(shù)相結(jié)合,建議對(duì)樣本庫(kù)中的樣本進(jìn)行一些篩選和限制;三是建立合適的抽樣框,適用于采用志愿者小組調(diào)查的項(xiàng)目或在經(jīng)費(fèi)充足的條件下直接采用概率網(wǎng)絡(luò)調(diào)查;四是科學(xué)設(shè)計(jì)調(diào)查方案,以減少無回答誤差和測(cè)量誤差,包括對(duì)信譽(yù)、流量高的投放網(wǎng)站的選擇和科學(xué)的問卷設(shè)計(jì);五是對(duì)網(wǎng)絡(luò)調(diào)查結(jié)果進(jìn)行校正。其研究結(jié)論涉及多種類型的網(wǎng)絡(luò)調(diào)查,包括概率性質(zhì)的網(wǎng)絡(luò)調(diào)查和非概率性質(zhì)的網(wǎng)絡(luò)調(diào)查,其主要思想是將網(wǎng)絡(luò)調(diào)查規(guī)范化,用以提高分析結(jié)論的可靠性。本研究在前人研究結(jié)論的基礎(chǔ)上,以減小開放式Web調(diào)查的非抽樣誤差為例,根據(jù)每類誤差產(chǎn)生的原因并結(jié)合現(xiàn)有的科技手段,給出適當(dāng)?shù)念A(yù)防措施。
調(diào)查的目標(biāo)總體是指所要研究對(duì)象的全體,在網(wǎng)絡(luò)調(diào)查發(fā)展迅速的今天必須區(qū)分社會(huì)總體和網(wǎng)絡(luò)總體兩個(gè)概念。在網(wǎng)絡(luò)覆蓋率沒有達(dá)到100%的情況下,不可直接利用網(wǎng)絡(luò)調(diào)查結(jié)果推斷社會(huì)總體指標(biāo)值,在此背景下開放式Web調(diào)查的目標(biāo)總體只能是全體網(wǎng)民。
針對(duì)網(wǎng)絡(luò)潛在目標(biāo)總體與瀏覽者集合并不重合的情況,調(diào)查者首先要明確需要調(diào)查的網(wǎng)絡(luò)目標(biāo)人群。開放式Web調(diào)查收集自愿響應(yīng)樣本的前提是存在載體即網(wǎng)絡(luò)連接,調(diào)查信息的傳播主要靠Web網(wǎng)絡(luò)的開放性和社交網(wǎng)絡(luò)的連通性,因此可以利用網(wǎng)絡(luò)的這些屬性有針對(duì)性地投放和傳播信息,以增加調(diào)查信息在目標(biāo)網(wǎng)民中的曝光率,進(jìn)而增加潛在目標(biāo)總體向?yàn)g覽者集合的轉(zhuǎn)化率。
劉建平和羅薇(2005)[37]針對(duì)網(wǎng)絡(luò)調(diào)查響應(yīng)率問題建議設(shè)計(jì)一份好的調(diào)查問卷,即問卷設(shè)計(jì)除了要遵循抽樣原則外,還需考慮到被調(diào)查者的行為與心理特點(diǎn)。上網(wǎng)者一般對(duì)新事物比較感興趣,閱讀速度非???,容易對(duì)一段很長(zhǎng)的文字描述產(chǎn)生厭煩感,而且一部分用戶上網(wǎng)是為了獲取知識(shí),抓住上網(wǎng)者的這些特質(zhì),就容易設(shè)計(jì)出一份合格的問卷。開放式Web調(diào)查也可以借鑒此方法,抓住被調(diào)查者的一些特征,“投其所好”設(shè)計(jì)出一份預(yù)期響應(yīng)率較高的調(diào)查問卷。針對(duì)瀏覽者集合向響應(yīng)者集合轉(zhuǎn)化過程中存在的不愿意響應(yīng)、放棄響應(yīng)等問題,問卷設(shè)計(jì)應(yīng)包含必要的問答技巧,題目的設(shè)置需富有吸引力。無論是何種形式的調(diào)查,調(diào)查問卷都是獲取信息必不可少的工具,因此傳統(tǒng)調(diào)查形式中存在的基于問卷的非抽樣誤差在開放式Web調(diào)查中同樣存在。“好問卷”的設(shè)計(jì)須得從問題與技巧兩方面入手,問題是指問卷設(shè)計(jì)過程中容易導(dǎo)致調(diào)查誤差出現(xiàn)的提問誤區(qū),技巧是指問卷設(shè)計(jì)過程中針對(duì)敏感性問題應(yīng)盡量避免平鋪直敘的提問方式,轉(zhuǎn)而使用略顯含蓄的表達(dá),提高被調(diào)查者對(duì)問題的可接受程度,進(jìn)一步提高響應(yīng)率。
問卷設(shè)計(jì)過程中易出現(xiàn)的誤區(qū)主要包括三種。第一種,問卷中問題的提問方式很容易產(chǎn)生誘導(dǎo)性誤差。例如針對(duì)大學(xué)生消費(fèi)問題,若提問“您也覺得大學(xué)生月消費(fèi)3 000元是合理的嗎?”,則很容易誘導(dǎo)被調(diào)查者,令其認(rèn)為“大學(xué)生月消費(fèi)3 000元”是合理行為,從而使其失去原有的判斷能力,這時(shí)收集到的數(shù)據(jù)選擇“是”的占比大概率會(huì)超過實(shí)際值。第二種,基于問卷產(chǎn)生的誤差是因問卷題目過多、調(diào)查時(shí)間過長(zhǎng)產(chǎn)生的疲勞誤差。人們對(duì)一件事情的熱度隨時(shí)間呈遞減趨勢(shì),被調(diào)查者響應(yīng)調(diào)查時(shí)對(duì)問題的專注程度也是如此。因此針對(duì)此類問題,要結(jié)合調(diào)查需要,對(duì)于可精簡(jiǎn)的調(diào)查只需將問卷長(zhǎng)度控制在合理范圍內(nèi),針對(duì)多目的大型調(diào)查可采用問卷分割技術(shù),有關(guān)測(cè)試類問卷則可采用動(dòng)態(tài)問題排序設(shè)計(jì)方法。第三種,問卷概念定義模糊。在傳統(tǒng)的紙筆調(diào)查中因訪問員的存在,此類問題較容易解決,訪問員與被調(diào)查者在溝通過程中,訪問員可直接釋義表達(dá)模糊不清的名詞和問題。在開放式Web調(diào)查中由于訪問員的缺失,傳統(tǒng)方法不再適用,但網(wǎng)絡(luò)調(diào)查是通過網(wǎng)絡(luò)設(shè)備間接連接調(diào)查者和被調(diào)查者,因此在技術(shù)支持下完全可利用設(shè)備代替訪問員,靜態(tài)的鑲嵌式名詞解釋和動(dòng)態(tài)的動(dòng)畫展示說明都可以代替訪問員完成釋義任務(wù)。
“好問卷”需要設(shè)計(jì)技巧,如合理的個(gè)性化反饋機(jī)制。個(gè)性化反饋分為即時(shí)反饋和延遲反饋,兩者的主要區(qū)別在于反饋時(shí)刻在當(dāng)下還是未來。Conrad等(2005)[38]的一項(xiàng)研究表示,即時(shí)反饋的響應(yīng)速度比延遲反饋更快,網(wǎng)絡(luò)可以相對(duì)較小的開發(fā)成本為被調(diào)查者提供有用的信息,從而使面試官和自我管理結(jié)合起來成為可能,這些信息的呈現(xiàn)越強(qiáng),對(duì)調(diào)查就越有幫助。Kühne和Kroh(2018)[39]的研究表明網(wǎng)絡(luò)調(diào)查的個(gè)性化反饋可能會(huì)增加被調(diào)查者的動(dòng)機(jī),同時(shí)提高回答的準(zhǔn)確性。該研究利用2014年柏林老齡化研究II(BASE-II)展開了一項(xiàng)隨機(jī)試驗(yàn),試驗(yàn)向樣本的一個(gè)子組提供了關(guān)于被調(diào)查者人格測(cè)試(五大人格量表)的反饋,試驗(yàn)結(jié)果顯示實(shí)驗(yàn)組與對(duì)照組之間的響應(yīng)行為具有中度差異,并發(fā)現(xiàn)收到個(gè)性化、即時(shí)反饋的被調(diào)查者對(duì)調(diào)查的滿意度更高,因此在問卷設(shè)計(jì)過程中可嵌入個(gè)性化反饋機(jī)制,提高調(diào)查的響應(yīng)率和數(shù)據(jù)質(zhì)量。
一份合格的調(diào)查問卷要綜合考慮出現(xiàn)各種非抽樣誤差的可能性,網(wǎng)絡(luò)的匿名性改變了人們對(duì)敏感問題的應(yīng)激反應(yīng),網(wǎng)絡(luò)調(diào)查對(duì)被調(diào)查者“是誰”的忽略,使得被調(diào)查者的隱私得到了保護(hù),互聯(lián)網(wǎng)改變了調(diào)查獲取敏感性問題相關(guān)信息的方式。針對(duì)敏感性問題要注意隨機(jī)化問答技術(shù)的應(yīng)用,開門見山的詢問方式可能永遠(yuǎn)比不上有設(shè)計(jì)的隨機(jī)化問答,這時(shí)敏感性問題與非敏感性問題的結(jié)合將會(huì)是很好的解決方法。
非理性誤差是調(diào)查數(shù)據(jù)收集過程中不可避免的誤差,在傳統(tǒng)的調(diào)查過程中這類誤差很難識(shí)別且無法控制,但在網(wǎng)絡(luò)調(diào)查過程中,調(diào)查問卷的數(shù)據(jù)搜集完全依靠算法系統(tǒng)的控制,計(jì)算機(jī)的邏輯性能和計(jì)算速度能夠在被調(diào)查者響應(yīng)瞬間識(shí)別出其邏輯是否有誤,從而判斷其是否具有不負(fù)責(zé)任行為,并根據(jù)判斷結(jié)果對(duì)是否終止該響應(yīng)單元答題做出決策。算法系統(tǒng)即邏輯問題的設(shè)置是計(jì)算機(jī)做出決策的核心,因此在設(shè)計(jì)問卷時(shí)應(yīng)考慮必要的邏輯問題設(shè)置,如若出現(xiàn)問題回答前后矛盾的響應(yīng)者則考慮釋放該響應(yīng)單元。
有效的假設(shè)是科學(xué)研究的前提,網(wǎng)絡(luò)是一個(gè)開放的載體,活躍網(wǎng)民具有強(qiáng)流動(dòng)性和強(qiáng)不確定性。在開放式Web的實(shí)際調(diào)研中,捕獲的信息由自愿響應(yīng)樣本提供,因而會(huì)存在這樣一部分網(wǎng)民,即在網(wǎng)絡(luò)中得知調(diào)查信息,卻對(duì)該調(diào)查不感興趣,這時(shí)由于這部分網(wǎng)民不會(huì)提供與調(diào)查有關(guān)的任何信息,因此其與未瀏覽者集合中的網(wǎng)民沒有本質(zhì)區(qū)別。
為簡(jiǎn)化研究流程,明確研究概念,本文提出瀏覽者假設(shè)。調(diào)查問卷由兩部分組成:第一部分為屬性調(diào)查問卷,用來捕獲響應(yīng)者自然屬性、社會(huì)屬性等一系列屬性信息;第二部分是主題調(diào)查,用來獲得響應(yīng)樣本的各種目標(biāo)指標(biāo)信息。若單元響應(yīng)第一部分屬性調(diào)查則將其定義為瀏覽者集合中的一員,若不響應(yīng)則定義為未瀏覽者集合中的一員,若兩部分調(diào)查皆響應(yīng)則該單元為響應(yīng)者集合中的一員。
圖4 開放式Web調(diào)查的樣本捕獲機(jī)制
基于瀏覽者假設(shè),開放式Web調(diào)查的樣本捕獲機(jī)制可分成兩大部分。如圖4所示,左側(cè)虛線框內(nèi)集合為在開放式Web環(huán)境中自愿響應(yīng)調(diào)查并提供目標(biāo)指標(biāo)信息的單元,右側(cè)虛線框內(nèi)為最終未提供目標(biāo)指標(biāo)信息的單元。開放式Web調(diào)查屬于非概率調(diào)查,不存在入樣概率等概念,即使無響應(yīng)者集合中的單元提供了屬性信息,但其最終未提供目標(biāo)指標(biāo)信息,因此從響應(yīng)傾向角度來講未瀏覽者集合與無響應(yīng)者集合作用一樣,都不會(huì)對(duì)最終調(diào)查指標(biāo)數(shù)值結(jié)果產(chǎn)生影響。
基于上述分析,本文給出開放式Web調(diào)查的參數(shù)估計(jì)。假設(shè)目標(biāo)網(wǎng)民總體U由N個(gè)單元組成,記為1,2,3,…,N,目標(biāo)總體表示為U={1,2,3,…,N},總體中每個(gè)單元i的目標(biāo)變量值為Yi。根據(jù)前文對(duì)開放式Web調(diào)查的樣本捕獲機(jī)制的定義,可將目標(biāo)總體看作由NB個(gè)瀏覽單元和No個(gè)未瀏覽單元組成,瀏覽者集合中包含nB個(gè)響應(yīng)單元,即:
根據(jù)圖4開放式Web調(diào)查的樣本捕獲機(jī)制和前文對(duì)瀏覽者假設(shè)的分析,目標(biāo)總體中的未瀏覽者與瀏覽者集合中的非響應(yīng)者性質(zhì)相同,都未提供目標(biāo)指標(biāo)信息,因此不妨弱化目標(biāo)總體與瀏覽者集合關(guān)系的傳遞邊界,直接定義示性變量Ii。如果瀏覽者集合中的目標(biāo)網(wǎng)民屬于響應(yīng)者集合,則Ii=1,否則Ii=0,即:
若用nB個(gè)響應(yīng)樣本單元對(duì)瀏覽者集合中的目標(biāo)網(wǎng)民的目標(biāo)變量均值進(jìn)行估計(jì),則估計(jì)量為:
證明:
開放式Web調(diào)查樣本目標(biāo)變量均值為:
由于變量Ii表示瀏覽者集合中的目標(biāo)網(wǎng)民屬于響應(yīng)者集合中的一員,即目標(biāo)網(wǎng)民中得知調(diào)查信息且響應(yīng)問卷第一部分留下屬性信息后繼續(xù)響應(yīng)主題問卷的單元,所以:
證畢。
當(dāng)且僅當(dāng)Pi=nB/NB時(shí),即瀏覽者集合中目標(biāo)網(wǎng)民每個(gè)單元的響應(yīng)概率相等,且概率值都為nB/NB時(shí),是的無偏估計(jì)量。
此時(shí)瀏覽者集合中估計(jì)量的方差為:
證明:
大小為NB的瀏覽者總體中共有nB個(gè)單元響應(yīng)第二部分主題調(diào)查問卷成為響應(yīng)者集合中的一員,其中單元i的響應(yīng)概率為Pi,單元j的響應(yīng)概率為Pj,假設(shè)單元響應(yīng)概率相互獨(dú)立,則單元i和單元j同時(shí)響應(yīng)的概率為PiPj,i≠j,則有:
證畢。
若全部網(wǎng)民都能瀏覽到調(diào)查,即調(diào)查信息瀏覽率達(dá)到理想狀態(tài)100%,此時(shí)不存在未瀏覽者集合,則目標(biāo)總體可直接分為兩類,一類是響應(yīng)樣本,另一類是無響應(yīng)樣本,此時(shí)估計(jì)量為:
估計(jì)量方差為:
其中,W為無響應(yīng)者的比重,SR為響應(yīng)層的方差,SNR為無響應(yīng)層的方差,NR、NNR分別表示響應(yīng)單元數(shù)量與無響應(yīng)單元數(shù)量。
綜上,在開放式Web調(diào)查中,若目標(biāo)總體不響應(yīng)調(diào)查則調(diào)查管理者無法得知無響應(yīng)目標(biāo)單元的任何信息,同理,目前很難檢測(cè)到目標(biāo)單元是否瀏覽到調(diào)查信息,因此在估計(jì)過程中可直接利用可觀測(cè)到的瀏覽者集合中的樣本進(jìn)行非概率推斷,但值得注意的是,瀏覽者集合中的總目標(biāo)單元不能代表目標(biāo)總體。
縱觀統(tǒng)計(jì)調(diào)查發(fā)展歷史,調(diào)查新形式的應(yīng)用對(duì)象出現(xiàn)趨同,同抽樣調(diào)查形式的應(yīng)用背景一致,網(wǎng)絡(luò)調(diào)查最先應(yīng)用于商業(yè)調(diào)查而不是社會(huì)調(diào)查。由于網(wǎng)絡(luò)調(diào)查的非概率性,調(diào)查部門本著審慎的原則,無法開展大規(guī)模網(wǎng)絡(luò)社會(huì)調(diào)查,而商業(yè)調(diào)查則恰好相反,一般的商業(yè)調(diào)查預(yù)算有限,對(duì)時(shí)效性要求較高且調(diào)查的目標(biāo)群體定義清晰,即某商品或某需求的受眾人群,網(wǎng)絡(luò)調(diào)查恰好符合這些要求,因此網(wǎng)絡(luò)調(diào)查在商業(yè)調(diào)查領(lǐng)域被廣泛應(yīng)用。
開放式Web調(diào)查是商業(yè)調(diào)查最常用的網(wǎng)絡(luò)調(diào)查方式之一,這種網(wǎng)絡(luò)調(diào)查形式的樣本邊際成本很小,而且根據(jù)網(wǎng)絡(luò)聚集性特點(diǎn),商業(yè)公司很容易找到目標(biāo)群體。因不受時(shí)空限制,再加上合理的問卷設(shè)計(jì),調(diào)查會(huì)在較短時(shí)間內(nèi)收獲大量非概率樣本。根據(jù)開放式Web調(diào)查本身的特點(diǎn)以及中國(guó)網(wǎng)絡(luò)覆蓋現(xiàn)狀,網(wǎng)絡(luò)調(diào)查應(yīng)主要針對(duì)以網(wǎng)民為研究對(duì)象的項(xiàng)目,如電子商務(wù)調(diào)查、企業(yè)網(wǎng)絡(luò)服務(wù)對(duì)象調(diào)查、網(wǎng)民消費(fèi)市場(chǎng)調(diào)查等。隨著開放式Web調(diào)查推斷方法的發(fā)展,這種調(diào)查方式將在不久的未來實(shí)現(xiàn)調(diào)查目標(biāo)的定量研究。
隨著網(wǎng)絡(luò)普及率的上升和網(wǎng)絡(luò)調(diào)查潛在市場(chǎng)的出現(xiàn),快餐式網(wǎng)絡(luò)調(diào)查將會(huì)成為一種流行趨勢(shì),快速、精準(zhǔn)將會(huì)成為網(wǎng)絡(luò)調(diào)查的代名詞。
新時(shí)代的網(wǎng)絡(luò)調(diào)查拋開社交網(wǎng)絡(luò)將是無意義的。根據(jù)中華人民共和國(guó)工業(yè)和信息化部數(shù)據(jù)顯示,我國(guó)移動(dòng)電話普及率連續(xù)5年超過100部/百人(如圖5所示),表明大部分網(wǎng)民人均一部手機(jī),中國(guó)網(wǎng)民的社交網(wǎng)絡(luò)基本靠手機(jī)APP聯(lián)系,如微博、微信、知乎、QQ、抖音、快手等,并且手機(jī)社交的存在使網(wǎng)絡(luò)調(diào)查真正打破時(shí)間空間限制,使目標(biāo)群體可以隨時(shí)隨地響應(yīng)調(diào)查。
圖5 移動(dòng)電話與移動(dòng)互聯(lián)網(wǎng)的普及
手機(jī)網(wǎng)絡(luò)的存在催生了一種新形式的調(diào)查,在開放式Web調(diào)查基礎(chǔ)上可利用活躍的手機(jī)用戶達(dá)到精準(zhǔn)投放調(diào)查的目的,增加調(diào)查的曝光率,促進(jìn)目標(biāo)網(wǎng)民總體向?yàn)g覽單元轉(zhuǎn)化,例如,利用微信公眾號(hào)向所有受眾發(fā)布調(diào)查。這時(shí)開放式Web調(diào)查可直接向手機(jī)端用戶開放,必要時(shí)可通過篩選問題的設(shè)置,達(dá)到收集目標(biāo)總體信息的目的。
根據(jù)中國(guó)社會(huì)科學(xué)院社會(huì)學(xué)研究所發(fā)布的《中國(guó)社會(huì)心態(tài)研究報(bào)告》(社會(huì)心態(tài)藍(lán)皮書)顯示,2013年中國(guó)社會(huì)信任指標(biāo)低于60分及格線,2016年中國(guó)社會(huì)對(duì)陌生人信任度僅為5.6%。在這種社會(huì)背景下,入戶形式的面對(duì)面調(diào)查響應(yīng)率逐年降低,傳統(tǒng)概率調(diào)查的數(shù)據(jù)質(zhì)量受響應(yīng)率影響頗深,概率推斷的質(zhì)量保證是數(shù)據(jù)的完整性,因此傳統(tǒng)概率調(diào)查正面臨嚴(yán)峻考驗(yàn),而大數(shù)據(jù)時(shí)代的來臨、網(wǎng)絡(luò)覆蓋率的逐步上升和網(wǎng)絡(luò)設(shè)備普及化程度的不斷加深為調(diào)查行業(yè)的發(fā)展帶來了新的轉(zhuǎn)機(jī)。
然而,成本低廉、快捷的網(wǎng)絡(luò)調(diào)查大都屬于非概率調(diào)查,這無疑為調(diào)查樣本的統(tǒng)計(jì)推斷帶來了巨大不便。以開放式Web調(diào)查為例,網(wǎng)民的流動(dòng)性、調(diào)查信息的曝光率和瀏覽單元響應(yīng)調(diào)查的傾向等問題使得樣本的入樣概率難以計(jì)算,所以以真實(shí)入樣概率推斷總體可行性較低。Couper和Miller(2008)[40]認(rèn)為解決非概率推斷主要有兩種方法:第一種方法是基于設(shè)計(jì)(design based)的方法,即建立起基于概率的網(wǎng)絡(luò)小組,小組成員通過使用其他抽樣方法(如RDD)進(jìn)行抽樣和招募,并在必要時(shí)為無法進(jìn)入互聯(lián)網(wǎng)的人提供互聯(lián)網(wǎng)接入條件;第二種方法是基于模型(model-based)的方法,即建立網(wǎng)絡(luò)用戶志愿小組,并通過模型(如傾向得分)來調(diào)整偏差。目前有關(guān)非概率調(diào)查推斷方法的研究成果較少,大多集中在模型調(diào)整方向,因基于設(shè)計(jì)的方法操作困難且成本較高,故可將研究重點(diǎn)集中在設(shè)計(jì)的“準(zhǔn)隨機(jī)”方面。有研究表明,在數(shù)據(jù)收集之前控制數(shù)據(jù)的質(zhì)量?jī)?yōu)于數(shù)據(jù)的事后調(diào)整,因此在開放式Web調(diào)查中可對(duì)自愿響應(yīng)樣本進(jìn)行限制,通過方法研究使最終樣本分布符合概率樣本的分布特征,此時(shí)得到的數(shù)據(jù)質(zhì)量可能優(yōu)于不設(shè)限的自愿響應(yīng)樣本,具體的控制方法仍有待進(jìn)一步研究。
統(tǒng)計(jì)學(xué)報(bào)2022年5期