網(wǎng)絡(luò)調(diào)查中的非抽樣誤差
——以開放式Web調(diào)查為例

2022-10-20 13:10張華

統(tǒng)計(jì)學(xué)報(bào) 2022年5期

張華

（山西財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院，山西太原 030006）

一、問題的提出

調(diào)查誤差是指抽樣調(diào)查指標(biāo)結(jié)果與總體指標(biāo)真實(shí)值之間的離差。抽樣調(diào)查與調(diào)查誤差如影隨形，抽樣技術(shù)的更新過程常常伴隨著調(diào)查誤差的減小。一項(xiàng)調(diào)查的好壞往往與成本、難易程度和質(zhì)量相聯(lián)系，其中調(diào)查質(zhì)量主要通過誤差衡量。不同于成本與難易程度這類顯性因素，誤差在調(diào)查中無法直觀判斷但是又貫穿在整個(gè)調(diào)查流程中，因此可將調(diào)查誤差形容為隱秘的、細(xì)節(jié)化的但是起決定性作用的質(zhì)量因素。

數(shù)字化信息技術(shù)的發(fā)展衍生出“大數(shù)據(jù)”（Big Data）概念，對(duì)該概念的直觀解讀為海量的、盈千累萬的數(shù)字信息，從直觀含義可引申出其定義，即“大數(shù)據(jù)”是指呈指數(shù)型爆發(fā)式增長(zhǎng)的、內(nèi)部結(jié)構(gòu)復(fù)雜的有機(jī)數(shù)據(jù)。Groves（2011）[1]指出有機(jī)數(shù)據(jù)是與設(shè)計(jì)數(shù)據(jù)相對(duì)應(yīng)的概念，前者是在不受控制的自然條件下產(chǎn)生的，后者則是通過向被調(diào)查者提出基于預(yù)先設(shè)定的目的和用途的問題收集而來的、由調(diào)查行業(yè)創(chuàng)造的數(shù)據(jù)，相比之下，有機(jī)數(shù)據(jù)中冗余數(shù)據(jù)比較多，而設(shè)計(jì)數(shù)據(jù)的信息與數(shù)據(jù)比率則比較高?；谡{(diào)查的設(shè)計(jì)數(shù)據(jù)如何在有機(jī)數(shù)據(jù)豐富的背景下發(fā)揮作用，是目前學(xué)者們研究的熱點(diǎn)話題。

網(wǎng)絡(luò)調(diào)查形式的推廣為有機(jī)數(shù)據(jù)與設(shè)計(jì)數(shù)據(jù)的結(jié)合提供了載體。網(wǎng)絡(luò)調(diào)查獲取數(shù)據(jù)的作用機(jī)理是通過抽絲剝繭的方式將潛在的有機(jī)數(shù)據(jù)轉(zhuǎn)化為設(shè)計(jì)數(shù)據(jù)，通過這種調(diào)查形式獲得的數(shù)據(jù)既擁有有機(jī)數(shù)據(jù)成本低、易獲取的優(yōu)點(diǎn)，也符合調(diào)查數(shù)據(jù)信息與數(shù)據(jù)比率高的特點(diǎn)。研究人員對(duì)信息的出現(xiàn)是敏銳的，網(wǎng)絡(luò)硬件設(shè)施的建設(shè)和軟件的發(fā)展推動(dòng)了網(wǎng)絡(luò)普及化，設(shè)計(jì)數(shù)據(jù)的獲取逐漸由線下調(diào)查轉(zhuǎn)移到線上，網(wǎng)絡(luò)調(diào)查成為了調(diào)查界的“新星”。網(wǎng)絡(luò)調(diào)查形式區(qū)別于傳統(tǒng)的概率調(diào)查形式，實(shí)踐中常用的網(wǎng)絡(luò)調(diào)查屬于非概率調(diào)查，傳統(tǒng)概率調(diào)查已經(jīng)具備一套相對(duì)成熟的調(diào)查質(zhì)量衡量標(biāo)準(zhǔn)，而非概率調(diào)查尤其是新興的網(wǎng)絡(luò)調(diào)查，由于出現(xiàn)時(shí)間較短、發(fā)展較快，其調(diào)查質(zhì)量衡量體系的構(gòu)建速度追不上調(diào)查形式的更新速度。針對(duì)調(diào)查誤差的討論是抽樣調(diào)查統(tǒng)計(jì)推斷亙古不變的話題，無論是概率抽樣還是非概率抽樣，不論是傳統(tǒng)調(diào)查形式還是新興調(diào)查形式，評(píng)價(jià)調(diào)查模式的好壞主要依靠質(zhì)量衡量體系，因此在網(wǎng)絡(luò)調(diào)查快速發(fā)展的今天，針對(duì)其誤差的討論迫在眉睫。本研究以開放式Web調(diào)查為例，提出新形勢(shì)下網(wǎng)絡(luò)抽樣樣本選擇機(jī)制，依據(jù)樣本的選擇過程給出網(wǎng)絡(luò)調(diào)查的非抽樣誤差構(gòu)成，以期為非概率網(wǎng)絡(luò)調(diào)查數(shù)據(jù)質(zhì)量指標(biāo)體系構(gòu)建與統(tǒng)計(jì)推斷問題提供解決思路。

二、網(wǎng)絡(luò)調(diào)查概念界定與分類

（一）網(wǎng)絡(luò)調(diào)查概念界定

對(duì)網(wǎng)絡(luò)調(diào)查誤差進(jìn)行討論前，需對(duì)網(wǎng)絡(luò)調(diào)查概念及分類進(jìn)行界定。相關(guān)研究指出，現(xiàn)階段有關(guān)網(wǎng)絡(luò)調(diào)查概念的使用情況較為混亂，不同行業(yè)、不同領(lǐng)域的研究人員對(duì)網(wǎng)絡(luò)調(diào)查內(nèi)涵的理解不同（Bethlehem and Biffignandi，2012；牛成英，2019；Kiera，2020）[2-4]，根據(jù)具體應(yīng)用場(chǎng)景和研究領(lǐng)域?qū)⒕W(wǎng)絡(luò)調(diào)查的概念分為兩種。一種是通訊信息領(lǐng)域針對(duì)互聯(lián)網(wǎng)使用情況的調(diào)查。這類調(diào)查一般只做描述性統(tǒng)計(jì)，主要任務(wù)是通過收集調(diào)查數(shù)據(jù)了解互聯(lián)網(wǎng)當(dāng)期使用情況，測(cè)量網(wǎng)站流量，統(tǒng)計(jì)分析用戶的數(shù)量和特征。例如，中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心每年發(fā)布的《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》統(tǒng)計(jì)了網(wǎng)絡(luò)使用者（或稱網(wǎng)民）的來源、人口學(xué)信息等。另一種是將互聯(lián)網(wǎng)絡(luò)作為調(diào)查信息發(fā)布與數(shù)據(jù)收集的平臺(tái)，這種網(wǎng)絡(luò)調(diào)查形式改變了傳統(tǒng)調(diào)查的統(tǒng)計(jì)工具，將之前的線下紙筆問卷調(diào)查轉(zhuǎn)化為線上自填式問卷調(diào)查，這類調(diào)查數(shù)據(jù)不僅可用于描述性分析，部分還適用于統(tǒng)計(jì)推斷研究，主要是為實(shí)際項(xiàng)目服務(wù)，目前已在生物、醫(yī)藥、教育、社會(huì)等領(lǐng)域得到了廣泛應(yīng)用。

根據(jù)文章主題，本研究是以互聯(lián)網(wǎng)絡(luò)為媒介，借助網(wǎng)絡(luò)平臺(tái)發(fā)布調(diào)查信息和收集數(shù)據(jù)，主要為社會(huì)民生及市場(chǎng)調(diào)查項(xiàng)目服務(wù)，因此，本文將在第二種網(wǎng)絡(luò)調(diào)查范疇下進(jìn)行研究和分析。

（二）網(wǎng)絡(luò)調(diào)查分類

根據(jù)調(diào)查模式的不同，調(diào)查可分為兩種，一種是訪談?wù)吖芾砟Ｊ剑硗庖环N是自我管理模式。前者是傳統(tǒng)紙筆調(diào)查所屬的調(diào)查模式，在調(diào)查中調(diào)查管理者主導(dǎo)整個(gè)訪問過程，包括尋訪樣本單元、口述問卷問題以期獲取答案信息、對(duì)問卷問題的釋義答疑等；后者則是以互聯(lián)網(wǎng)絡(luò)為媒介的網(wǎng)絡(luò)調(diào)查所屬的調(diào)查模式，這種模式的調(diào)查過程不需要調(diào)查管理者的存在，沒有相應(yīng)的訪問員的口頭釋義和填寫引導(dǎo)，整個(gè)數(shù)據(jù)收集過程基本依靠被調(diào)查者自己完成。

根據(jù)調(diào)查抽樣方式不同，具體的抽樣方式分為兩種，即概率抽樣與非概率抽樣。概率抽樣的抽樣機(jī)制更為嚴(yán)格，以隨機(jī)理論為基礎(chǔ)，符合隨機(jī)原則，統(tǒng)計(jì)推斷理論符合大數(shù)定律，總體中的每個(gè)樣本單元都有一個(gè)已知的入樣概率，并且概率抽樣的抽樣誤差是可控的。理論發(fā)展較為成熟的概率抽樣方式有簡(jiǎn)單隨機(jī)抽樣、分層抽樣、系統(tǒng)抽樣、整群抽樣等。非概率抽樣是調(diào)查者依據(jù)主觀判斷或者方便原則獲取樣本，與概率抽樣相比抽樣機(jī)制顯得較為隨意，且樣本的入樣概率未知，不能精確計(jì)算、控制抽樣誤差，這種抽樣方式不符合大數(shù)定律存在的假設(shè)前提，無法進(jìn)行統(tǒng)計(jì)推斷。較為常用的非概率抽樣方式有方便抽樣、滾雪球抽樣、配額抽樣等。

以互聯(lián)網(wǎng)為媒介的網(wǎng)絡(luò)調(diào)查也可分為概率網(wǎng)絡(luò)調(diào)查與非概率網(wǎng)絡(luò)調(diào)查（Couper，2000）[5]。概率網(wǎng)絡(luò)調(diào)查方式主要為預(yù)先招募互聯(lián)網(wǎng)用戶小組（離線招募），具體是指調(diào)查管理者提前在線下選擇出需要被調(diào)查的樣本單元，前期階段的招聘可以采用面對(duì)面、郵寄或發(fā)送電子郵件的方式，并要求這些單元在互聯(lián)網(wǎng)上對(duì)調(diào)查做出響應(yīng)，必要時(shí)調(diào)查者需要為這些樣本單元提供上網(wǎng)設(shè)備，后續(xù)還需不定期對(duì)這些樣本單元進(jìn)行維護(hù)避免流失。這種網(wǎng)絡(luò)調(diào)查方式對(duì)現(xiàn)實(shí)條件要求較為苛刻，招募階段所需成本較高，但其保證了網(wǎng)絡(luò)調(diào)查的持續(xù)性和概率性。前期招聘階段的樣本單元屬于概率抽樣，是從給定的抽樣框中選擇的，每個(gè)單元都有一個(gè)已知的非零入樣概率，憑借調(diào)查管理者掌握的抽樣框、招聘方式等信息使其能夠測(cè)量無響應(yīng)誤差，可在推斷過程中用來加權(quán)或調(diào)整數(shù)據(jù)參數(shù)。

非概率網(wǎng)絡(luò)調(diào)查方式主要有三種，即娛樂性網(wǎng)絡(luò)調(diào)查、志愿者小組調(diào)查和開放式Web調(diào)查。首先是娛樂性網(wǎng)絡(luò)調(diào)查。浦國(guó)華和徐金強(qiáng)（2003）[6]將其描述為，為了娛樂目的而在網(wǎng)絡(luò)上進(jìn)行的調(diào)查。調(diào)查只是將問卷簡(jiǎn)單地發(fā)布在網(wǎng)絡(luò)上，并不對(duì)響應(yīng)人群做任何限制，這種調(diào)查通常不追求科學(xué)性與代表性，僅僅是將調(diào)查作為一個(gè)交換意見的平臺(tái)。最具代表性的娛樂性網(wǎng)絡(luò)調(diào)查當(dāng)屬美國(guó)有線電視新聞網(wǎng)（簡(jiǎn)稱“CNN”）進(jìn)行的快速調(diào)查，該調(diào)查的結(jié)果只反映了參與調(diào)查的上網(wǎng)者的意見，不具有推斷性，不能推廣到全體網(wǎng)民與全體人民。其次是志愿者小組調(diào)查，又稱志愿固定樣本調(diào)查、網(wǎng)絡(luò)訪問固定樣本調(diào)查等（劉展和金勇進(jìn)，2017）[7]。調(diào)查管理者通過在熱門網(wǎng)站上發(fā)布調(diào)查信息招募網(wǎng)絡(luò)調(diào)查小組成員，通過注冊(cè)環(huán)節(jié)收集成員個(gè)人特征信息（一般為人口學(xué)信息），為日后調(diào)查提供一個(gè)大型的網(wǎng)絡(luò)潛在樣本數(shù)據(jù)庫(kù)。若要參與以后的調(diào)查需要是受到邀請(qǐng)的個(gè)體，并且若被選中參與調(diào)查，他們一般愿意參與并積極響應(yīng)，這些小組成員通常參與過多項(xiàng)調(diào)查。小組成員招募的群體屬于上網(wǎng)且自愿響應(yīng)并加入調(diào)查的人群，并不是調(diào)查的目標(biāo)總體，即使從中抽選樣本，樣本各單元的入樣概率同樣不可知，本質(zhì)上屬于非概率調(diào)查，并不能通過傳統(tǒng)的概率方法直接進(jìn)行總體推斷研究。最著名的采用此方法的機(jī)構(gòu)是美國(guó)民意調(diào)查機(jī)構(gòu)Harris Poll Online。最后是開放式Web調(diào)查，又稱自選式網(wǎng)絡(luò)調(diào)查或不嚴(yán)格的自選調(diào)查，具體指在沒有任何限制的條件下，調(diào)查問卷依托載體發(fā)布在網(wǎng)絡(luò)上，常用載體一般是專門的調(diào)查公司、社交網(wǎng)絡(luò)用戶、門戶網(wǎng)站等，瀏覽到該問卷的上網(wǎng)者自主選擇是否參與此次調(diào)查，選擇過程并不受調(diào)查管理者控制，因此這種調(diào)查方式并沒有選擇樣本的過程，所有自愿響應(yīng)調(diào)查的單元共同組成一個(gè)樣本。此時(shí)，由于該樣本中各單元的入樣概率不可知，從概率的角度看，開放式Web調(diào)查獲得的樣本屬于非概率樣本，同樣不能直接進(jìn)行統(tǒng)計(jì)推斷。

在網(wǎng)絡(luò)普及率提高和傳統(tǒng)調(diào)查響應(yīng)率不斷下降的雙重影響下，網(wǎng)絡(luò)調(diào)查開始走進(jìn)人們的視野，逐漸成為市場(chǎng)調(diào)研、商業(yè)調(diào)查等領(lǐng)域的首選調(diào)查方式。米子川（2001）[8]在其文章中指出，網(wǎng)絡(luò)調(diào)查受到市場(chǎng)調(diào)查者的厚愛不僅因?yàn)槠鋾r(shí)髦，更是因?yàn)檫@種調(diào)查方式具有快捷、低成本、高反饋率等優(yōu)勢(shì)。本文僅針對(duì)非概率網(wǎng)絡(luò)調(diào)查的一種基礎(chǔ)形式即開放式Web調(diào)查的誤差展開研究，在網(wǎng)絡(luò)快速發(fā)展的新形勢(shì)下根據(jù)樣本選擇機(jī)制討論網(wǎng)絡(luò)調(diào)查非抽樣誤差的來源與分類，以期為解決非概率形式的開放式Web調(diào)查數(shù)據(jù)可推斷問題提供思路。

三、文獻(xiàn)綜述

統(tǒng)計(jì)調(diào)查誤差分為抽樣誤差和非抽樣誤差，抽樣調(diào)查畢竟不是對(duì)目標(biāo)總體所有個(gè)體的調(diào)查，難免會(huì)產(chǎn)生因選擇的代表性樣本不同而產(chǎn)生調(diào)查偏差，因此抽樣誤差是調(diào)查本身自有的、因抽樣方法產(chǎn)生的隨機(jī)性誤差。關(guān)于抽樣誤差，已有大量的權(quán)威研究理論與方法，本文重點(diǎn)討論以開放式Web調(diào)查為例的網(wǎng)絡(luò)調(diào)查的非抽樣誤差。

（一）國(guó)外關(guān)于網(wǎng)絡(luò)調(diào)查非抽樣誤差的研究進(jìn)展

計(jì)算機(jī)最早作為調(diào)查的輔助工具被使用，主要通過計(jì)算機(jī)輔助電話采訪（CATI）作用在數(shù)據(jù)收集階段，F(xiàn)reeman和Shanks（1983）[9]表示這種輔助方式最早應(yīng)用在商業(yè)調(diào)查領(lǐng)域。隨著電信技術(shù)的發(fā)展，人們似乎開始追求“不被打擾”的生活方式，電話答錄機(jī)、電話來電顯示、電話自動(dòng)屏蔽等功能的出現(xiàn)為CATI帶來了很大的挑戰(zhàn)，使本就降低的響應(yīng)率越發(fā)低迷，為調(diào)查帶來一系列困難，造成調(diào)查成本上升。之后，隨著移動(dòng)電話的普及和固定電話逐漸被淘汰，以居民固定電話為抽樣框的調(diào)查逐漸產(chǎn)生抽樣框覆蓋誤差。在Couper（2000）[5]有關(guān)網(wǎng)絡(luò)調(diào)查的綜述中曾提到，由于互聯(lián)網(wǎng)普及率有限和低回復(fù)率而造成的覆蓋率不足是互聯(lián)網(wǎng)調(diào)查的主要缺點(diǎn)。Grandcolas等（2003）[10]認(rèn)為與傳統(tǒng)調(diào)查一樣，網(wǎng)絡(luò)調(diào)查也可分為概率網(wǎng)絡(luò)調(diào)查與非概率網(wǎng)絡(luò)調(diào)查，因此網(wǎng)絡(luò)調(diào)查的誤差與傳統(tǒng)調(diào)查應(yīng)一致，分為覆蓋誤差、抽樣誤差、無響應(yīng)誤差和測(cè)量誤差。同樣，Kalton（2019）[11]認(rèn)為網(wǎng)絡(luò)抽樣可分為概率和非概率兩種類型，針對(duì)每種類型的網(wǎng)絡(luò)非抽樣誤差來源也不盡相同。Bozman等（2005）[12]表示人們最初將網(wǎng)絡(luò)調(diào)查非抽樣誤差的目光集中在完整的、準(zhǔn)確的抽樣框與目標(biāo)總體的確定上，并表示電子郵件地址不能作為一項(xiàng)確定的依據(jù)。在此之前就有研究如Cobanoglu等（2011）[13]指出，互聯(lián)網(wǎng)用戶的概況越來越符合美國(guó)和一些國(guó)家的人口特征，因此人們對(duì)互聯(lián)網(wǎng)調(diào)查方法的關(guān)注開始轉(zhuǎn)向回復(fù)率。Bozman等（2005）[12]的觀點(diǎn)是準(zhǔn)確理解與在線調(diào)查方法相關(guān)的總誤差是困難的?？傉{(diào)查誤差由抽樣誤差和非抽樣誤差組成。抽樣誤差顯式明顯，控制其大小的方法也較為簡(jiǎn)單，即增加樣本量和（或）嚴(yán)謹(jǐn)?shù)刈裱闃釉O(shè)計(jì)。非抽樣誤差卻很難預(yù)測(cè)，同時(shí)也是總調(diào)查誤差的主要來源。非抽樣誤差由響應(yīng)誤差和無響應(yīng)誤差共同組成，響應(yīng)誤差包括不規(guī)范的響應(yīng)情況等，無響應(yīng)誤差是指無響應(yīng)樣本單元的缺失導(dǎo)致總的響應(yīng)單元不代表目標(biāo)群體，調(diào)查研究人員通常無法聯(lián)系無響應(yīng)者，因此沒有辦法評(píng)估響應(yīng)單元是否與無響應(yīng)單元或目標(biāo)人群的響應(yīng)行為一致。因此無響應(yīng)誤差的經(jīng)典定義是：無響應(yīng)者的答案在某些方面可能與完成問卷的響應(yīng)者提供的答案不同。文章中還舉出了一個(gè)通俗易懂的例子，如飲料購(gòu)買調(diào)查，不購(gòu)買飲料的消費(fèi)者并沒有響應(yīng)調(diào)查，此時(shí)響應(yīng)調(diào)查的人群可能大部分是消費(fèi)飲料的群體，這導(dǎo)致對(duì)人均飲料消費(fèi)量的過高估計(jì)。Kunz和Fuchs（2019）[14]指出網(wǎng)絡(luò)調(diào)查的誤差可能來自被調(diào)查者本身、調(diào)查工具或其相關(guān)因素之間的相互作用，認(rèn)為測(cè)量誤差的重要性僅次于無響應(yīng)誤差，但測(cè)量誤差可采取手段將其減小。與之看法相同的還有Kolbas（2019）[15]，其同樣認(rèn)為在研究網(wǎng)絡(luò)調(diào)查的非抽樣誤差過程中不可忽視被調(diào)查者、設(shè)計(jì)和設(shè)備的作用。

Bethlehem（2009）[16]在《應(yīng)用調(diào)查方法》一書中將網(wǎng)絡(luò)誤差總結(jié)為覆蓋誤差、選擇誤差和無響應(yīng)誤差三部分。覆蓋誤差主要是指欠覆蓋引起的誤差，當(dāng)目標(biāo)總體中的單元在抽樣框中沒有相對(duì)應(yīng)的單元時(shí)，就會(huì)發(fā)生欠覆蓋，這些單元可能永遠(yuǎn)不會(huì)被聯(lián)系到，如果使用互聯(lián)網(wǎng)作為抽樣框，而目標(biāo)人群中卻包含了無法接入互聯(lián)網(wǎng)的人，那么欠覆蓋將是一個(gè)很嚴(yán)重的問題，因?yàn)榇嬖诓糠钟肋h(yuǎn)不可能被選中參加調(diào)查的單元。當(dāng)樣本是基于自我選擇時(shí)，網(wǎng)絡(luò)在線調(diào)查就可能出現(xiàn)選擇誤差，調(diào)查問卷只是簡(jiǎn)單地放在網(wǎng)上，被調(diào)查者是那些碰巧有互聯(lián)網(wǎng)接入、訪問網(wǎng)站并決定參與調(diào)查的人，調(diào)查研究者并不控制響應(yīng)者的選擇過程，因此選擇概率是未知的，傳統(tǒng)的無偏估計(jì)幾乎不能獲得。網(wǎng)絡(luò)在線調(diào)查中也會(huì)出現(xiàn)無響應(yīng)情況。原因之一是在線調(diào)查問卷是一種自我管理的問卷，因此在線調(diào)查也可能出現(xiàn)較高的無響應(yīng)率；另一個(gè)原因是被調(diào)查者必須與互聯(lián)網(wǎng)互動(dòng)的技術(shù)問題，緩慢的網(wǎng)絡(luò)速度、不可靠的連接、低端的瀏覽器和不明確的導(dǎo)航指令都有可能讓被調(diào)查者感到沮喪，從而放棄參與調(diào)查。與Bethlehem（2009）[16]的觀點(diǎn)略有不同的是Wetzel（2010）[17]，其直接描述了網(wǎng)絡(luò)調(diào)查的三種非抽樣誤差，即覆蓋誤差、無響應(yīng)誤差和測(cè)量誤差。隨后Fan和zhao（2011）[18]綜合了Bethlehem和Wetzel的觀點(diǎn)，認(rèn)為網(wǎng)絡(luò)調(diào)查屬于調(diào)查的一種特殊形式，因此非抽樣誤差包含四種，分別為覆蓋誤差、選擇誤差、無響應(yīng)誤差和測(cè)量誤差。Edith（2013）[19]在其文章中詳細(xì)闡明了網(wǎng)絡(luò)調(diào)查非抽樣誤差產(chǎn)生的根本原因，皮尤互聯(lián)網(wǎng)和美國(guó)生活項(xiàng)目分析顯示，在2010年79%的美國(guó)成年人使用互聯(lián)網(wǎng)，然而，互聯(lián)網(wǎng)的使用并不是平均分布在所有群體中，非西班牙裔黑人、老年人和收入較低、受教育程度較低、生活在農(nóng)村地區(qū)的人的代表不足。

除了傳統(tǒng)的覆蓋誤差、選擇誤差、無響應(yīng)誤差和測(cè)量誤差四種外，隨著智能移動(dòng)設(shè)備的發(fā)展，研究的一部分關(guān)注點(diǎn)開始轉(zhuǎn)向網(wǎng)絡(luò)調(diào)查的設(shè)備效應(yīng)。Mavletova（2013）[20]認(rèn)為智能移動(dòng)設(shè)備數(shù)量的增長(zhǎng)為調(diào)查研究人員帶來了新的挑戰(zhàn)，其研究采用網(wǎng)絡(luò)志愿者小組調(diào)查，通過對(duì)比PC端與Mobile端兩種調(diào)查模式的數(shù)據(jù)質(zhì)量認(rèn)為，與預(yù)期一致，Mobile Web調(diào)查與較低的完成率、較強(qiáng)的響應(yīng)順序效應(yīng)以及較短的開放式問題的答案相關(guān)。Toninelli和Revilla（2016）[21]對(duì)Mavletova的試驗(yàn)進(jìn)行了復(fù)現(xiàn)，Mavletova通過兩波實(shí)驗(yàn)比較了俄羅斯志愿者小組調(diào)查中相同被調(diào)查者的PC和Mobile結(jié)果，Toninelli和Revilla則專注于西班牙的志愿者小組調(diào)查，涉及1 800名小組成員，其結(jié)果支持Mavletova和Couper的大部分發(fā)現(xiàn)，并證實(shí)了它們對(duì)兩個(gè)國(guó)家研究的穩(wěn)健性。Christopher等（2017）[22]的研究表明，同樣是網(wǎng)絡(luò)調(diào)查，Mobile Web調(diào)查數(shù)據(jù)質(zhì)量可能優(yōu)于PC Web，因此網(wǎng)絡(luò)調(diào)查非抽樣誤差的來源可能包括模式效應(yīng)。但也有部分學(xué)者對(duì)此持不同意見，Tourangeau等（2018）[23]通過在美國(guó)八個(gè)縣進(jìn)行的一項(xiàng)實(shí)地試驗(yàn)，比較了智能手機(jī)、平板電腦和筆記本電腦獲得的響應(yīng)數(shù)據(jù)質(zhì)量，研究結(jié)果表明設(shè)備類型對(duì)數(shù)據(jù)質(zhì)量的影響很小。Ha和Zhang（2019）[24]通過整群抽樣的方法對(duì)美國(guó)公立大學(xué)所有學(xué)生進(jìn)行了兩次實(shí)地試驗(yàn)，結(jié)果發(fā)現(xiàn)僅在使用計(jì)算機(jī)輔助自我訪談時(shí)設(shè)備對(duì)響應(yīng)質(zhì)量具有影響，并且Mobile端的優(yōu)點(diǎn)表現(xiàn)在即時(shí)響應(yīng)速度方面，因此建議使用Mobile Web端展開調(diào)查。

在網(wǎng)絡(luò)調(diào)查非抽樣誤差的研究范式方面，最近的一些研究都建議在總誤差框架下展開。Plutzer（2019）[25]認(rèn)為在網(wǎng)絡(luò)調(diào)查中敏感性問題和被調(diào)查者同意作答的過程都會(huì)造成代表性誤差和測(cè)量誤差，不僅如此，相同被調(diào)查者對(duì)同一調(diào)查的多次參與也是造成非抽樣誤差的重要原因，并強(qiáng)調(diào)網(wǎng)絡(luò)調(diào)查質(zhì)量研究也應(yīng)該在總調(diào)查誤差（TSE）框架下展開。Mcclain等（2019）[26]在其最新研究中表明，有并行數(shù)據(jù)參與的網(wǎng)絡(luò)調(diào)查也應(yīng)在總誤差（TSE）范式下進(jìn)行。雖然TSE范式尚未直接應(yīng)用于網(wǎng)絡(luò)調(diào)查并行數(shù)據(jù)的分類，但這種范式能夠刺激調(diào)查方法的分析和創(chuàng)新，它定義了可能被引入調(diào)查估計(jì)的誤差，同時(shí)認(rèn)識(shí)到誤差和成本之間具有重要關(guān)系。

（二）國(guó)內(nèi)關(guān)于網(wǎng)絡(luò)調(diào)查非抽樣誤差的研究進(jìn)展

國(guó)內(nèi)的網(wǎng)絡(luò)調(diào)查起步較晚，但發(fā)展十分迅速。王菲和曾五一（2003）[27]、曾五一等（2008）[28]認(rèn)為在互聯(lián)網(wǎng)時(shí)代進(jìn)行網(wǎng)上調(diào)查存在的非調(diào)查誤差主要分為以下三類：一是抽樣框誤差，二是無回答誤差，三是測(cè)量誤差。抽樣框誤差是指目標(biāo)總體與抽樣框不一致，盡管我國(guó)互聯(lián)網(wǎng)發(fā)展速度極快，但中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心（以下簡(jiǎn)稱CNNIC）的調(diào)查報(bào)告顯示，截至2021年6月我國(guó)網(wǎng)絡(luò)覆蓋率還未達(dá)到100%，因此不能直接用網(wǎng)絡(luò)抽樣調(diào)查的結(jié)果對(duì)全國(guó)總體特征值進(jìn)行推斷。經(jīng)驗(yàn)研究表明網(wǎng)絡(luò)調(diào)查同樣具有不可忽略的無響應(yīng)率，網(wǎng)絡(luò)調(diào)查中的無響應(yīng)產(chǎn)生原因是多方面的，包括因無接觸產(chǎn)生的激勵(lì)手段失效、網(wǎng)絡(luò)技術(shù)問題、網(wǎng)絡(luò)調(diào)查方式等。在網(wǎng)絡(luò)環(huán)境中，訪問員的缺失和問卷的模糊表達(dá)往往會(huì)產(chǎn)生調(diào)查內(nèi)容與被調(diào)查者理解偏差，從而形成測(cè)量誤差。孫伶莉（2003）[29]同樣將誤差分為抽樣框誤差、無回答誤差和測(cè)量誤差，但是誤差內(nèi)容更加細(xì)化。抽樣框誤差細(xì)化為三種，即欠覆蓋、過覆蓋和復(fù)合聯(lián)接；無回答誤差概括為兩種，一種是有意識(shí)無回答，另一種是無意識(shí)無回答；傳統(tǒng)紙筆調(diào)查在統(tǒng)計(jì)中的登記、匯總和計(jì)算過程產(chǎn)生的誤差被統(tǒng)稱為測(cè)量誤差，在網(wǎng)絡(luò)調(diào)查中計(jì)算機(jī)代替了人工，在強(qiáng)大的科技面前這種誤差幾乎可以忽略不計(jì)，但在新形式下測(cè)量誤差被賦予了新的內(nèi)涵，即調(diào)查者誤差和被調(diào)查者誤差，也可以稱之為問卷誤差和顧慮誤差。杜婷（2006）[30]則認(rèn)為網(wǎng)絡(luò)調(diào)查的非抽樣誤差多形成于對(duì)問卷的重復(fù)作答。方國(guó)斌和陳年紅（2009）[31]認(rèn)為網(wǎng)絡(luò)調(diào)查給予了被調(diào)查者最大的自由度，因此非抽樣誤差主要來源于被調(diào)查者的回答和無回答。馬慧敏（2011）[32]將網(wǎng)絡(luò)調(diào)查非抽樣誤差按照調(diào)查的各個(gè)階段進(jìn)行劃分，如調(diào)查設(shè)計(jì)階段的抽樣框誤差、數(shù)據(jù)收集階段的回答和無回答誤差以及調(diào)查處理階段產(chǎn)生的誤差。王華民（2014）[33]將網(wǎng)絡(luò)調(diào)查非抽樣誤差的來源分為登記性誤差和代表性誤差兩方面。傳統(tǒng)調(diào)查的登記性誤差主要來源于調(diào)查組織設(shè)計(jì)者、調(diào)查訪問者、被調(diào)查者和其他參與者，在網(wǎng)絡(luò)調(diào)查形式下，計(jì)算機(jī)的存在使得調(diào)查訪問者和其他參與者造成的登記性誤差可以忽略不計(jì)，但是問卷設(shè)計(jì)和被調(diào)查者造成的誤差依舊存在，由代表性產(chǎn)生的非調(diào)查誤差則是抽樣框誤差和無回答誤差。余富強(qiáng)等（2019）[34]從問卷設(shè)計(jì)、抽樣、數(shù)據(jù)收集、資料處理等維度集中探討了非抽樣誤差的來源和控制措施。

綜上所述，國(guó)內(nèi)外對(duì)網(wǎng)絡(luò)非抽樣誤差的研究主要圍繞信息技術(shù)的應(yīng)用和調(diào)查實(shí)際的發(fā)展情況兩方面展開。國(guó)外針對(duì)網(wǎng)絡(luò)調(diào)查非抽樣誤差的研究重點(diǎn)主要集中在覆蓋誤差、響應(yīng)誤差、測(cè)量誤差和選擇誤差四個(gè)方面，這與網(wǎng)絡(luò)技術(shù)的發(fā)展息息相關(guān)。最開始使用網(wǎng)絡(luò)調(diào)查時(shí)，居民網(wǎng)絡(luò)接入率很低，此時(shí)使用網(wǎng)絡(luò)調(diào)查最嚴(yán)重的誤差是覆蓋誤差。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，網(wǎng)絡(luò)覆蓋率逐步提高，后來學(xué)者將研究重點(diǎn)轉(zhuǎn)移到網(wǎng)絡(luò)調(diào)查的響應(yīng)誤差。在通過科學(xué)手段提升響應(yīng)率之后，非概率網(wǎng)絡(luò)調(diào)查的樣本選擇誤差開始進(jìn)入研究視野。網(wǎng)絡(luò)調(diào)查作為一種典型的“自我管理模式”調(diào)查，測(cè)量誤差貫穿整個(gè)誤差研究的始終，隨著智能設(shè)備應(yīng)用的普及，學(xué)者開始思考調(diào)查設(shè)備或模式對(duì)網(wǎng)絡(luò)調(diào)查數(shù)據(jù)質(zhì)量的影響，最新研究開始建議網(wǎng)絡(luò)調(diào)查的非抽樣誤差研究應(yīng)該在總誤差（TSE）范式下展開。國(guó)內(nèi)針對(duì)網(wǎng)絡(luò)調(diào)查非抽樣誤差的研究起步較晚，但研究?jī)?nèi)容呈現(xiàn)多樣化，除了將網(wǎng)絡(luò)調(diào)查非抽樣誤差分為覆蓋誤差、響應(yīng)誤差、測(cè)量誤差和選擇誤差這四種經(jīng)典類型外，部分學(xué)者開始分階段分解網(wǎng)絡(luò)調(diào)查的非抽樣誤差以及分角色討論網(wǎng)絡(luò)調(diào)查非抽樣誤差的來源。通過對(duì)國(guó)內(nèi)外相關(guān)經(jīng)典文獻(xiàn)的閱讀不難總結(jié)出，網(wǎng)絡(luò)調(diào)查非抽樣誤差的來源是隨著網(wǎng)絡(luò)發(fā)展進(jìn)程和被調(diào)查者行為變化而變化的，不同時(shí)代、不同科技程度和被調(diào)查者性格都會(huì)影響調(diào)查非抽樣誤差的大小。

本文在網(wǎng)絡(luò)快速普及的新形勢(shì)下，以開放式Web調(diào)查為例對(duì)網(wǎng)絡(luò)調(diào)查的非抽樣誤差展開研究，研究?jī)?nèi)容區(qū)別于傳統(tǒng)非抽樣誤差之處在于：（1）以開放式Web調(diào)查為例，從樣本選擇機(jī)制角度給出網(wǎng)絡(luò)調(diào)查非抽樣誤差的分類及內(nèi)涵；（2）在滿足假設(shè)前提下給出開放式Web調(diào)查的參數(shù)估計(jì)；（3）在非抽樣誤差分類研究基礎(chǔ)上提出開放式Web調(diào)查的研究展望。

四、開放式Web調(diào)查步驟與樣本選擇機(jī)制

研究調(diào)查誤差來源的前提是對(duì)調(diào)查步驟的清晰認(rèn)識(shí)，傳統(tǒng)的概率調(diào)查已經(jīng)形成了統(tǒng)一的調(diào)查步驟，各步驟都有明確的定義。

第一步，確定調(diào)查主題，明確調(diào)查所要達(dá)到的目的。

第二步，明確定義目標(biāo)總體，根據(jù)調(diào)查目的確定相對(duì)應(yīng)的特定人群。

第三步，問卷設(shè)計(jì)。問卷質(zhì)量直接關(guān)系到調(diào)查數(shù)據(jù)的質(zhì)量，應(yīng)遵循基本的設(shè)計(jì)原則（李林梅，2000）[35]。

第四步，抽樣設(shè)計(jì)。這一步是調(diào)查過程中的核心內(nèi)容，主要包括確定抽樣框、選擇抽樣方法、計(jì)算樣本量。

第五步，收集數(shù)據(jù)。該過程中可能存在拒絕響應(yīng)、不能響應(yīng)、失去聯(lián)系等無法收集目標(biāo)樣本數(shù)據(jù)的情況。

第六步，評(píng)估響應(yīng)數(shù)據(jù)質(zhì)量。響應(yīng)率具體是指配合調(diào)查的相對(duì)樣本數(shù)量，在嚴(yán)格的概率抽樣調(diào)查過程中任何一個(gè)目標(biāo)單元無響應(yīng)都可能會(huì)使最終結(jié)果產(chǎn)生偏差。

第七步，分析數(shù)據(jù)并形成調(diào)查報(bào)告。根據(jù)第一步中確定的調(diào)查目的，分析調(diào)查所收集到的數(shù)據(jù)，根據(jù)分析需要采用適當(dāng)?shù)募訖?quán)或模型調(diào)整響應(yīng)數(shù)據(jù)，最后可直接利用量化模型解釋因果關(guān)系和影響因素，達(dá)到市場(chǎng)調(diào)查、商業(yè)調(diào)查目的或揭示社會(huì)現(xiàn)象背后隱藏的問題。

同傳統(tǒng)概率調(diào)查不同，開放式Web調(diào)查屬于典型的非概率調(diào)查，調(diào)查樣本是自愿響應(yīng)樣本，調(diào)查問卷是自填式問卷，整個(gè)調(diào)查模式屬于自我管理模式，目標(biāo)總體的信息收集過程完全依靠互聯(lián)網(wǎng)絡(luò)，不存在由輔助信息構(gòu)成的抽樣框，全程無訪問員的參與。因此，開放式Web調(diào)查的步驟與傳統(tǒng)概率抽樣調(diào)查的步驟并不完全相同，區(qū)別之處主要體現(xiàn)在抽樣設(shè)計(jì)方面。

作為典型的非概率網(wǎng)絡(luò)調(diào)查，抽樣框不明確與入樣概率未知是開放式Web調(diào)查最鮮明的特點(diǎn)，因此在抽樣設(shè)計(jì)方面，開放式Web調(diào)查并沒有調(diào)查管理者選擇目標(biāo)樣本的過程，調(diào)查問卷僅僅是簡(jiǎn)單地放在網(wǎng)絡(luò)上，任何得知調(diào)查信息且愿意參與調(diào)查的上網(wǎng)單元都有可能成為調(diào)查樣本中的一員。在這種單元入樣背景下，任何依靠調(diào)查管理者來實(shí)現(xiàn)的傳統(tǒng)概率抽樣方法都無法發(fā)揮作用，這時(shí)同樣不存在提前設(shè)定好的樣本量閾值，因此傳統(tǒng)的概率抽樣設(shè)計(jì)流程在開放式Web調(diào)查中被推翻，不存在嚴(yán)格的入樣樣本選擇，在沒有任何限制的前提下自愿響應(yīng)調(diào)查的單元最終都會(huì)成為調(diào)查的樣本成員，最終樣本量的大小取決于調(diào)查數(shù)據(jù)收集截止的時(shí)間。

假設(shè)調(diào)查對(duì)目標(biāo)總體沒有任何限制，即調(diào)查總體是所有上網(wǎng)者，樣本是所有響應(yīng)者，樣本響應(yīng)調(diào)查的形式是自我管理模式，樣本自主根據(jù)調(diào)查信息響應(yīng)調(diào)查問卷，全過程沒有訪問員參與，樣本的響應(yīng)概率未知，這時(shí)所有上網(wǎng)者（或稱網(wǎng)民）為調(diào)查的潛在樣本，瀏覽到調(diào)查信息的網(wǎng)民才有可能轉(zhuǎn)化為調(diào)查響應(yīng)者。

圖1 樣本轉(zhuǎn)化關(guān)系圖

全部網(wǎng)民、瀏覽者集合、響應(yīng)者集合三者關(guān)系如圖1所示，網(wǎng)絡(luò)潛在目標(biāo)總體等同于所有網(wǎng)民，即調(diào)查總體，其中陰影部分表示網(wǎng)民總體中接收到調(diào)查信息的人群，這部分網(wǎng)民又被稱為瀏覽者集合。調(diào)查信息簡(jiǎn)單地掛放在網(wǎng)絡(luò)上，即使在很多個(gè)大流量網(wǎng)站同時(shí)掛放，瀏覽率也很難達(dá)到100%，換句話說，并不是所有網(wǎng)民都會(huì)瀏覽到調(diào)查信息。信息在網(wǎng)絡(luò)上的傳播是一個(gè)隨時(shí)間增長(zhǎng)的增量過程，理想狀態(tài)下，隨著曝光時(shí)間的增長(zhǎng)，瀏覽率無限趨近于1，但現(xiàn)實(shí)社會(huì)中不限時(shí)間的調(diào)查數(shù)據(jù)收集項(xiàng)目很少，且調(diào)查信息的曝光率同熱點(diǎn)事件的生命周期模型一致，呈現(xiàn)尖峰厚尾分布特征，所以在實(shí)際調(diào)查項(xiàng)目中，只有部分網(wǎng)絡(luò)潛在目標(biāo)單元會(huì)瀏覽到調(diào)查信息，從而轉(zhuǎn)化為瀏覽者集合中的一員。瀏覽者集合中自愿響應(yīng)調(diào)查的陰影部分為網(wǎng)絡(luò)調(diào)查的最終樣本，稱為響應(yīng)者集合。同樣，在理想狀態(tài)下瀏覽者集合向響應(yīng)者集合轉(zhuǎn)化的比例為100%，但在實(shí)際調(diào)查項(xiàng)目中瀏覽者集合中的單元并不會(huì)全部響應(yīng)調(diào)查。原因包含兩個(gè)方面：一是不可抗力因素，二是瀏覽單元的行為、心理特征。前者主要包括設(shè)備不支持（如網(wǎng)絡(luò)接入不良）、時(shí)間不允許（如網(wǎng)絡(luò)同線程）等，后者主要表現(xiàn)為瀏覽到調(diào)查信息的上網(wǎng)者不愿意響應(yīng)調(diào)查、對(duì)調(diào)查主題不感興趣或因調(diào)查主題較為敏感從而放棄響應(yīng)等。因此，瀏覽者集合中只有部分單元會(huì)轉(zhuǎn)化成為響應(yīng)者集合中的一員，三者的轉(zhuǎn)化展示了開放式Web調(diào)查樣本的獲取機(jī)制。

五、開放式Web調(diào)查中非抽樣誤差的來源與分類

目前學(xué)術(shù)界公認(rèn)的網(wǎng)絡(luò)調(diào)查非抽樣誤差根據(jù)其來源主要分為覆蓋誤差、無響應(yīng)誤差和測(cè)量誤差三種，這里的網(wǎng)絡(luò)抽樣是廣義的，既包括概率網(wǎng)絡(luò)抽樣也包含非概率網(wǎng)絡(luò)抽樣，所以三種非抽樣誤差也是與廣義網(wǎng)絡(luò)抽樣相對(duì)應(yīng)的，來源較為復(fù)雜和模糊。

本文僅在開放式Web調(diào)查框架下，對(duì)非抽樣誤差來源及分類進(jìn)行分析。近年來，網(wǎng)絡(luò)普及率的提高、社會(huì)開放性的增強(qiáng)和人們認(rèn)知視野的拓展，使得民眾對(duì)于調(diào)查的接受程度也在逐漸發(fā)生改變。網(wǎng)絡(luò)調(diào)查的各個(gè)環(huán)節(jié)是聯(lián)系的，也是發(fā)展的，任何一環(huán)發(fā)生改變都會(huì)產(chǎn)生牽一發(fā)而動(dòng)全身的作用，在新形勢(shì)下本文根據(jù)開放式Web調(diào)查中樣本的轉(zhuǎn)化關(guān)系來定義非抽樣誤差的來源及分類。如圖2所示，根據(jù)新形勢(shì)下網(wǎng)絡(luò)樣本轉(zhuǎn)化關(guān)系和誤差來源主體的不同，本文將網(wǎng)絡(luò)調(diào)查誤差分為三類，分別為覆蓋誤差、調(diào)查者誤差和被調(diào)查者誤差，且三者的內(nèi)涵與傳統(tǒng)調(diào)查定義的概念有所區(qū)別。

圖2 開放式Web調(diào)查誤差分類

第一類覆蓋誤差。在傳統(tǒng)概率抽樣調(diào)查中，抽樣框與目標(biāo)總體并不是一一對(duì)應(yīng)關(guān)系，從而產(chǎn)生覆蓋誤差。這種非一一對(duì)應(yīng)關(guān)系主要包括三種形式：一是欠覆蓋，即抽樣框丟失部分目標(biāo)單元；二是過覆蓋，即抽樣框包含非目標(biāo)單元；三是復(fù)合聯(lián)接，即部分目標(biāo)單元重復(fù)入樣。在開放式Web調(diào)查過程中也會(huì)產(chǎn)生覆蓋誤差，但該覆蓋誤差非彼覆蓋誤差，其內(nèi)容與傳統(tǒng)含義大相徑庭。

第48次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》數(shù)據(jù)顯示，截至2021年6月，我國(guó)網(wǎng)民規(guī)模首超10億，占人口總數(shù)的71.6%，較10年前同比增長(zhǎng)87.87%，環(huán)比增長(zhǎng)7.53%，實(shí)現(xiàn)了快速穩(wěn)定增長(zhǎng)。

開放式Web調(diào)查存在的覆蓋誤差主要有兩種。其一，網(wǎng)民總體與社會(huì)居民總體之間的差異，如圖3所示，網(wǎng)民數(shù)量不斷攀升，但網(wǎng)民總數(shù)與總?cè)丝跀?shù)的比例并沒有達(dá)到100%，這表明利用網(wǎng)絡(luò)調(diào)查推斷社會(huì)總體指標(biāo)存在一定偏差，網(wǎng)民總體不能代表社會(huì)總體。其二，根據(jù)圖1樣本轉(zhuǎn)換關(guān)系圖可知網(wǎng)絡(luò)潛在總體與瀏覽者集合并不重合，瀏覽者集合與響應(yīng)者集合也并不完全重疊，這表明并不是所有網(wǎng)民都有機(jī)會(huì)接觸調(diào)查信息，沒有機(jī)會(huì)瀏覽到調(diào)查信息的部分網(wǎng)民對(duì)調(diào)查做出響應(yīng)的概率為0，即使接觸到調(diào)查信息的網(wǎng)民單元也不會(huì)全部響應(yīng)調(diào)查，這時(shí)出現(xiàn)的覆蓋誤差主要是由于瀏覽者的選擇造成的，因此，這兩部分網(wǎng)民的缺失也是網(wǎng)絡(luò)調(diào)查存在覆蓋誤差的原因之一。

圖3 網(wǎng)民總數(shù)占總?cè)丝跀?shù)比例

第二類調(diào)查者誤差。傳統(tǒng)的由調(diào)查者引起的誤差主要有以下兩種：一是訪問員造成的誤差，體現(xiàn)在調(diào)查流程當(dāng)中，如訪問員訪問地址錯(cuò)誤、問答引導(dǎo)性誤差、數(shù)據(jù)錄入誤差等；二是問卷設(shè)計(jì)誤差，如問題誘導(dǎo)性誤差、問卷過長(zhǎng)產(chǎn)生的疲勞誤差、問卷概念定義模糊誤差等。

在開放式Web調(diào)查過程中，調(diào)查收集的是自愿響應(yīng)樣本，不存在訪問員，所以第一種傳統(tǒng)調(diào)查者誤差在網(wǎng)絡(luò)調(diào)查中將不復(fù)存在，但第二種問卷設(shè)計(jì)誤差依舊影響調(diào)查結(jié)果甚至更為嚴(yán)重。訪問員在調(diào)查中的存在似一把雙刃劍，雖然會(huì)產(chǎn)生誤差，但是也會(huì)避免其他類型的誤差，如問卷概念模糊時(shí)訪問員可對(duì)其進(jìn)行口頭釋義，然而在網(wǎng)絡(luò)調(diào)查過程中訪問員的作用并不是不可替代的，可借助現(xiàn)代技術(shù)產(chǎn)生與訪問員相近的作用。

第三類被調(diào)查者誤差。傳統(tǒng)的由被調(diào)查者（也稱受訪者）產(chǎn)生的非抽樣誤差分為回答誤差和無回答誤差兩種?；卮鹫`差是指入樣單元提供的信息與真實(shí)情況不相符，如被調(diào)查者故意提供虛假信息或針對(duì)敏感信息提供虛假數(shù)據(jù)。當(dāng)無法獲得入樣單元的信息時(shí)就會(huì)產(chǎn)生無回答誤差，如樣本單元無法聯(lián)系、樣本單元由于生病等原因無法提供信息或該單元拒訪等。

開放式Web調(diào)查屬于自我管理模式調(diào)查，由于訪問員的缺失，被調(diào)查者成為控制調(diào)查的主體。當(dāng)調(diào)查的外部或內(nèi)部環(huán)境發(fā)生變化時(shí)，所有調(diào)查參與者都會(huì)受到影響，首當(dāng)其沖的便是被調(diào)查者。調(diào)查過程中樣本自愿響應(yīng)，不受任何限制，因此不存在傳統(tǒng)意義上的樣本無響應(yīng)誤差。但是，響應(yīng)誤差的來源十分廣泛。首先是敏感性誤差，相關(guān)研究表明敏感問題回答率在網(wǎng)絡(luò)調(diào)查中的表現(xiàn)優(yōu)于傳統(tǒng)調(diào)查（面對(duì)面、電話訪問、郵寄調(diào)查等），但針對(duì)一些敏感級(jí)別比較高的問題（如吸毒、違法行為），即使是在網(wǎng)絡(luò)環(huán)境下進(jìn)行調(diào)查，結(jié)果也會(huì)產(chǎn)生很大的不確定性。其次是非理性誤差，網(wǎng)絡(luò)是一個(gè)既開放又隱秘的矛盾“場(chǎng)所”，開放之處在于其兼容性，任何人隨時(shí)隨地都可以在設(shè)備支持下進(jìn)入網(wǎng)絡(luò)，隱秘是因?yàn)榫W(wǎng)絡(luò)依靠在線交流，兩個(gè)網(wǎng)民可以在不知對(duì)方“長(zhǎng)相”等信息下成為既陌生又熟悉的“好友”。網(wǎng)絡(luò)調(diào)查的目的是獲得樣本單元的特征，即只需要知道“什么樣的人參與了調(diào)查”，并不在乎“參與調(diào)查的人是誰”，因此網(wǎng)絡(luò)調(diào)查無法對(duì)樣本的不真實(shí)響應(yīng)行為進(jìn)行“追責(zé)”，進(jìn)而無法避免自愿響應(yīng)樣本提供“不負(fù)責(zé)任”的信息。通俗來講，樣本單元“胡亂作答”“惡作劇行為”都可歸結(jié)為非理性行為。

六、開放式Web調(diào)查中非抽樣誤差的控制措施

黃光和符力思（2014）[36]在對(duì)市場(chǎng)調(diào)查公司提高網(wǎng)絡(luò)調(diào)查可信度方面給出如下建議：一是正確界定網(wǎng)絡(luò)調(diào)查的適用范圍，不僅包括目標(biāo)總體的適用范圍，還包括調(diào)查項(xiàng)目的適用范圍；二是與抽樣技術(shù)相結(jié)合，建議對(duì)樣本庫(kù)中的樣本進(jìn)行一些篩選和限制；三是建立合適的抽樣框，適用于采用志愿者小組調(diào)查的項(xiàng)目或在經(jīng)費(fèi)充足的條件下直接采用概率網(wǎng)絡(luò)調(diào)查；四是科學(xué)設(shè)計(jì)調(diào)查方案，以減少無回答誤差和測(cè)量誤差，包括對(duì)信譽(yù)、流量高的投放網(wǎng)站的選擇和科學(xué)的問卷設(shè)計(jì)；五是對(duì)網(wǎng)絡(luò)調(diào)查結(jié)果進(jìn)行校正。其研究結(jié)論涉及多種類型的網(wǎng)絡(luò)調(diào)查，包括概率性質(zhì)的網(wǎng)絡(luò)調(diào)查和非概率性質(zhì)的網(wǎng)絡(luò)調(diào)查，其主要思想是將網(wǎng)絡(luò)調(diào)查規(guī)范化，用以提高分析結(jié)論的可靠性。本研究在前人研究結(jié)論的基礎(chǔ)上，以減小開放式Web調(diào)查的非抽樣誤差為例，根據(jù)每類誤差產(chǎn)生的原因并結(jié)合現(xiàn)有的科技手段，給出適當(dāng)?shù)念A(yù)防措施。

（一）明確目標(biāo)總體

調(diào)查的目標(biāo)總體是指所要研究對(duì)象的全體，在網(wǎng)絡(luò)調(diào)查發(fā)展迅速的今天必須區(qū)分社會(huì)總體和網(wǎng)絡(luò)總體兩個(gè)概念。在網(wǎng)絡(luò)覆蓋率沒有達(dá)到100%的情況下，不可直接利用網(wǎng)絡(luò)調(diào)查結(jié)果推斷社會(huì)總體指標(biāo)值，在此背景下開放式Web調(diào)查的目標(biāo)總體只能是全體網(wǎng)民。

針對(duì)網(wǎng)絡(luò)潛在目標(biāo)總體與瀏覽者集合并不重合的情況，調(diào)查者首先要明確需要調(diào)查的網(wǎng)絡(luò)目標(biāo)人群。開放式Web調(diào)查收集自愿響應(yīng)樣本的前提是存在載體即網(wǎng)絡(luò)連接，調(diào)查信息的傳播主要靠Web網(wǎng)絡(luò)的開放性和社交網(wǎng)絡(luò)的連通性，因此可以利用網(wǎng)絡(luò)的這些屬性有針對(duì)性地投放和傳播信息，以增加調(diào)查信息在目標(biāo)網(wǎng)民中的曝光率，進(jìn)而增加潛在目標(biāo)總體向?yàn)g覽者集合的轉(zhuǎn)化率。

（二）合理設(shè)計(jì)調(diào)查問卷

劉建平和羅薇（2005）[37]針對(duì)網(wǎng)絡(luò)調(diào)查響應(yīng)率問題建議設(shè)計(jì)一份好的調(diào)查問卷，即問卷設(shè)計(jì)除了要遵循抽樣原則外，還需考慮到被調(diào)查者的行為與心理特點(diǎn)。上網(wǎng)者一般對(duì)新事物比較感興趣，閱讀速度非?？?，容易對(duì)一段很長(zhǎng)的文字描述產(chǎn)生厭煩感，而且一部分用戶上網(wǎng)是為了獲取知識(shí)，抓住上網(wǎng)者的這些特質(zhì)，就容易設(shè)計(jì)出一份合格的問卷。開放式Web調(diào)查也可以借鑒此方法，抓住被調(diào)查者的一些特征，“投其所好”設(shè)計(jì)出一份預(yù)期響應(yīng)率較高的調(diào)查問卷。針對(duì)瀏覽者集合向響應(yīng)者集合轉(zhuǎn)化過程中存在的不愿意響應(yīng)、放棄響應(yīng)等問題，問卷設(shè)計(jì)應(yīng)包含必要的問答技巧，題目的設(shè)置需富有吸引力。無論是何種形式的調(diào)查，調(diào)查問卷都是獲取信息必不可少的工具，因此傳統(tǒng)調(diào)查形式中存在的基于問卷的非抽樣誤差在開放式Web調(diào)查中同樣存在。“好問卷”的設(shè)計(jì)須得從問題與技巧兩方面入手，問題是指問卷設(shè)計(jì)過程中容易導(dǎo)致調(diào)查誤差出現(xiàn)的提問誤區(qū)，技巧是指問卷設(shè)計(jì)過程中針對(duì)敏感性問題應(yīng)盡量避免平鋪直敘的提問方式，轉(zhuǎn)而使用略顯含蓄的表達(dá)，提高被調(diào)查者對(duì)問題的可接受程度，進(jìn)一步提高響應(yīng)率。

問卷設(shè)計(jì)過程中易出現(xiàn)的誤區(qū)主要包括三種。第一種，問卷中問題的提問方式很容易產(chǎn)生誘導(dǎo)性誤差。例如針對(duì)大學(xué)生消費(fèi)問題，若提問“您也覺得大學(xué)生月消費(fèi)3 000元是合理的嗎？”，則很容易誘導(dǎo)被調(diào)查者，令其認(rèn)為“大學(xué)生月消費(fèi)3 000元”是合理行為，從而使其失去原有的判斷能力，這時(shí)收集到的數(shù)據(jù)選擇“是”的占比大概率會(huì)超過實(shí)際值。第二種，基于問卷產(chǎn)生的誤差是因問卷題目過多、調(diào)查時(shí)間過長(zhǎng)產(chǎn)生的疲勞誤差。人們對(duì)一件事情的熱度隨時(shí)間呈遞減趨勢(shì)，被調(diào)查者響應(yīng)調(diào)查時(shí)對(duì)問題的專注程度也是如此。因此針對(duì)此類問題，要結(jié)合調(diào)查需要，對(duì)于可精簡(jiǎn)的調(diào)查只需將問卷長(zhǎng)度控制在合理范圍內(nèi)，針對(duì)多目的大型調(diào)查可采用問卷分割技術(shù)，有關(guān)測(cè)試類問卷則可采用動(dòng)態(tài)問題排序設(shè)計(jì)方法。第三種，問卷概念定義模糊。在傳統(tǒng)的紙筆調(diào)查中因訪問員的存在，此類問題較容易解決，訪問員與被調(diào)查者在溝通過程中，訪問員可直接釋義表達(dá)模糊不清的名詞和問題。在開放式Web調(diào)查中由于訪問員的缺失，傳統(tǒng)方法不再適用，但網(wǎng)絡(luò)調(diào)查是通過網(wǎng)絡(luò)設(shè)備間接連接調(diào)查者和被調(diào)查者，因此在技術(shù)支持下完全可利用設(shè)備代替訪問員，靜態(tài)的鑲嵌式名詞解釋和動(dòng)態(tài)的動(dòng)畫展示說明都可以代替訪問員完成釋義任務(wù)。

“好問卷”需要設(shè)計(jì)技巧，如合理的個(gè)性化反饋機(jī)制。個(gè)性化反饋分為即時(shí)反饋和延遲反饋，兩者的主要區(qū)別在于反饋時(shí)刻在當(dāng)下還是未來。Conrad等（2005）[38]的一項(xiàng)研究表示，即時(shí)反饋的響應(yīng)速度比延遲反饋更快，網(wǎng)絡(luò)可以相對(duì)較小的開發(fā)成本為被調(diào)查者提供有用的信息，從而使面試官和自我管理結(jié)合起來成為可能，這些信息的呈現(xiàn)越強(qiáng)，對(duì)調(diào)查就越有幫助。Kühne和Kroh（2018）[39]的研究表明網(wǎng)絡(luò)調(diào)查的個(gè)性化反饋可能會(huì)增加被調(diào)查者的動(dòng)機(jī)，同時(shí)提高回答的準(zhǔn)確性。該研究利用2014年柏林老齡化研究II（BASE-II）展開了一項(xiàng)隨機(jī)試驗(yàn)，試驗(yàn)向樣本的一個(gè)子組提供了關(guān)于被調(diào)查者人格測(cè)試（五大人格量表）的反饋，試驗(yàn)結(jié)果顯示實(shí)驗(yàn)組與對(duì)照組之間的響應(yīng)行為具有中度差異，并發(fā)現(xiàn)收到個(gè)性化、即時(shí)反饋的被調(diào)查者對(duì)調(diào)查的滿意度更高，因此在問卷設(shè)計(jì)過程中可嵌入個(gè)性化反饋機(jī)制，提高調(diào)查的響應(yīng)率和數(shù)據(jù)質(zhì)量。

（三）運(yùn)用隨機(jī)化問答技術(shù)與數(shù)據(jù)質(zhì)量識(shí)別機(jī)制

一份合格的調(diào)查問卷要綜合考慮出現(xiàn)各種非抽樣誤差的可能性，網(wǎng)絡(luò)的匿名性改變了人們對(duì)敏感問題的應(yīng)激反應(yīng)，網(wǎng)絡(luò)調(diào)查對(duì)被調(diào)查者“是誰”的忽略，使得被調(diào)查者的隱私得到了保護(hù)，互聯(lián)網(wǎng)改變了調(diào)查獲取敏感性問題相關(guān)信息的方式。針對(duì)敏感性問題要注意隨機(jī)化問答技術(shù)的應(yīng)用，開門見山的詢問方式可能永遠(yuǎn)比不上有設(shè)計(jì)的隨機(jī)化問答，這時(shí)敏感性問題與非敏感性問題的結(jié)合將會(huì)是很好的解決方法。

非理性誤差是調(diào)查數(shù)據(jù)收集過程中不可避免的誤差，在傳統(tǒng)的調(diào)查過程中這類誤差很難識(shí)別且無法控制，但在網(wǎng)絡(luò)調(diào)查過程中，調(diào)查問卷的數(shù)據(jù)搜集完全依靠算法系統(tǒng)的控制，計(jì)算機(jī)的邏輯性能和計(jì)算速度能夠在被調(diào)查者響應(yīng)瞬間識(shí)別出其邏輯是否有誤，從而判斷其是否具有不負(fù)責(zé)任行為，并根據(jù)判斷結(jié)果對(duì)是否終止該響應(yīng)單元答題做出決策。算法系統(tǒng)即邏輯問題的設(shè)置是計(jì)算機(jī)做出決策的核心，因此在設(shè)計(jì)問卷時(shí)應(yīng)考慮必要的邏輯問題設(shè)置，如若出現(xiàn)問題回答前后矛盾的響應(yīng)者則考慮釋放該響應(yīng)單元。

七、開放式Web調(diào)查中的參數(shù)估計(jì)

有效的假設(shè)是科學(xué)研究的前提，網(wǎng)絡(luò)是一個(gè)開放的載體，活躍網(wǎng)民具有強(qiáng)流動(dòng)性和強(qiáng)不確定性。在開放式Web的實(shí)際調(diào)研中，捕獲的信息由自愿響應(yīng)樣本提供，因而會(huì)存在這樣一部分網(wǎng)民，即在網(wǎng)絡(luò)中得知調(diào)查信息，卻對(duì)該調(diào)查不感興趣，這時(shí)由于這部分網(wǎng)民不會(huì)提供與調(diào)查有關(guān)的任何信息，因此其與未瀏覽者集合中的網(wǎng)民沒有本質(zhì)區(qū)別。

為簡(jiǎn)化研究流程，明確研究概念，本文提出瀏覽者假設(shè)。調(diào)查問卷由兩部分組成：第一部分為屬性調(diào)查問卷，用來捕獲響應(yīng)者自然屬性、社會(huì)屬性等一系列屬性信息；第二部分是主題調(diào)查，用來獲得響應(yīng)樣本的各種目標(biāo)指標(biāo)信息。若單元響應(yīng)第一部分屬性調(diào)查則將其定義為瀏覽者集合中的一員，若不響應(yīng)則定義為未瀏覽者集合中的一員，若兩部分調(diào)查皆響應(yīng)則該單元為響應(yīng)者集合中的一員。

圖4 開放式Web調(diào)查的樣本捕獲機(jī)制

基于瀏覽者假設(shè)，開放式Web調(diào)查的樣本捕獲機(jī)制可分成兩大部分。如圖4所示，左側(cè)虛線框內(nèi)集合為在開放式Web環(huán)境中自愿響應(yīng)調(diào)查并提供目標(biāo)指標(biāo)信息的單元，右側(cè)虛線框內(nèi)為最終未提供目標(biāo)指標(biāo)信息的單元。開放式Web調(diào)查屬于非概率調(diào)查，不存在入樣概率等概念，即使無響應(yīng)者集合中的單元提供了屬性信息，但其最終未提供目標(biāo)指標(biāo)信息，因此從響應(yīng)傾向角度來講未瀏覽者集合與無響應(yīng)者集合作用一樣，都不會(huì)對(duì)最終調(diào)查指標(biāo)數(shù)值結(jié)果產(chǎn)生影響。

（一）符號(hào)說明

基于上述分析，本文給出開放式Web調(diào)查的參數(shù)估計(jì)。假設(shè)目標(biāo)網(wǎng)民總體U由N個(gè)單元組成，記為1，2，3，…，N，目標(biāo)總體表示為U=｛1，2，3，…，N｝，總體中每個(gè)單元i的目標(biāo)變量值為Yi。根據(jù)前文對(duì)開放式Web調(diào)查的樣本捕獲機(jī)制的定義，可將目標(biāo)總體看作由NB個(gè)瀏覽單元和No個(gè)未瀏覽單元組成，瀏覽者集合中包含nB個(gè)響應(yīng)單元，即：

（二）均值的估計(jì)

根據(jù)圖4開放式Web調(diào)查的樣本捕獲機(jī)制和前文對(duì)瀏覽者假設(shè)的分析，目標(biāo)總體中的未瀏覽者與瀏覽者集合中的非響應(yīng)者性質(zhì)相同，都未提供目標(biāo)指標(biāo)信息，因此不妨弱化目標(biāo)總體與瀏覽者集合關(guān)系的傳遞邊界，直接定義示性變量Ii。如果瀏覽者集合中的目標(biāo)網(wǎng)民屬于響應(yīng)者集合，則Ii=1，否則Ii=0，即：

若用nB個(gè)響應(yīng)樣本單元對(duì)瀏覽者集合中的目標(biāo)網(wǎng)民的目標(biāo)變量均值進(jìn)行估計(jì)，則估計(jì)量為：

證明：

開放式Web調(diào)查樣本目標(biāo)變量均值為：

由于變量Ii表示瀏覽者集合中的目標(biāo)網(wǎng)民屬于響應(yīng)者集合中的一員，即目標(biāo)網(wǎng)民中得知調(diào)查信息且響應(yīng)問卷第一部分留下屬性信息后繼續(xù)響應(yīng)主題問卷的單元，所以：

證畢。

當(dāng)且僅當(dāng)Pi=nB/NB時(shí)，即瀏覽者集合中目標(biāo)網(wǎng)民每個(gè)單元的響應(yīng)概率相等，且概率值都為nB/NB時(shí)，是的無偏估計(jì)量。

（三）方差的估計(jì)

此時(shí)瀏覽者集合中估計(jì)量的方差為：

證明：

大小為NB的瀏覽者總體中共有nB個(gè)單元響應(yīng)第二部分主題調(diào)查問卷成為響應(yīng)者集合中的一員，其中單元i的響應(yīng)概率為Pi，單元j的響應(yīng)概率為Pj，假設(shè)單元響應(yīng)概率相互獨(dú)立，則單元i和單元j同時(shí)響應(yīng)的概率為PiPj，i≠j，則有：

證畢。

（四）總誤差的估計(jì)

若全部網(wǎng)民都能瀏覽到調(diào)查，即調(diào)查信息瀏覽率達(dá)到理想狀態(tài)100%，此時(shí)不存在未瀏覽者集合，則目標(biāo)總體可直接分為兩類，一類是響應(yīng)樣本，另一類是無響應(yīng)樣本，此時(shí)估計(jì)量為：

估計(jì)量方差為：

其中，W為無響應(yīng)者的比重，SR為響應(yīng)層的方差，SNR為無響應(yīng)層的方差，NR、NNR分別表示響應(yīng)單元數(shù)量與無響應(yīng)單元數(shù)量。

綜上，在開放式Web調(diào)查中，若目標(biāo)總體不響應(yīng)調(diào)查則調(diào)查管理者無法得知無響應(yīng)目標(biāo)單元的任何信息，同理，目前很難檢測(cè)到目標(biāo)單元是否瀏覽到調(diào)查信息，因此在估計(jì)過程中可直接利用可觀測(cè)到的瀏覽者集合中的樣本進(jìn)行非概率推斷，但值得注意的是，瀏覽者集合中的總目標(biāo)單元不能代表目標(biāo)總體。

八、開放式Web調(diào)查的發(fā)展展望

（一）進(jìn)一步擴(kuò)大在商業(yè)調(diào)查領(lǐng)域的應(yīng)用

縱觀統(tǒng)計(jì)調(diào)查發(fā)展歷史，調(diào)查新形式的應(yīng)用對(duì)象出現(xiàn)趨同，同抽樣調(diào)查形式的應(yīng)用背景一致，網(wǎng)絡(luò)調(diào)查最先應(yīng)用于商業(yè)調(diào)查而不是社會(huì)調(diào)查。由于網(wǎng)絡(luò)調(diào)查的非概率性，調(diào)查部門本著審慎的原則，無法開展大規(guī)模網(wǎng)絡(luò)社會(huì)調(diào)查，而商業(yè)調(diào)查則恰好相反，一般的商業(yè)調(diào)查預(yù)算有限，對(duì)時(shí)效性要求較高且調(diào)查的目標(biāo)群體定義清晰，即某商品或某需求的受眾人群，網(wǎng)絡(luò)調(diào)查恰好符合這些要求，因此網(wǎng)絡(luò)調(diào)查在商業(yè)調(diào)查領(lǐng)域被廣泛應(yīng)用。

開放式Web調(diào)查是商業(yè)調(diào)查最常用的網(wǎng)絡(luò)調(diào)查方式之一，這種網(wǎng)絡(luò)調(diào)查形式的樣本邊際成本很小，而且根據(jù)網(wǎng)絡(luò)聚集性特點(diǎn)，商業(yè)公司很容易找到目標(biāo)群體。因不受時(shí)空限制，再加上合理的問卷設(shè)計(jì)，調(diào)查會(huì)在較短時(shí)間內(nèi)收獲大量非概率樣本。根據(jù)開放式Web調(diào)查本身的特點(diǎn)以及中國(guó)網(wǎng)絡(luò)覆蓋現(xiàn)狀，網(wǎng)絡(luò)調(diào)查應(yīng)主要針對(duì)以網(wǎng)民為研究對(duì)象的項(xiàng)目，如電子商務(wù)調(diào)查、企業(yè)網(wǎng)絡(luò)服務(wù)對(duì)象調(diào)查、網(wǎng)民消費(fèi)市場(chǎng)調(diào)查等。隨著開放式Web調(diào)查推斷方法的發(fā)展，這種調(diào)查方式將在不久的未來實(shí)現(xiàn)調(diào)查目標(biāo)的定量研究。

（二）注重手機(jī)設(shè)備調(diào)查

隨著網(wǎng)絡(luò)普及率的上升和網(wǎng)絡(luò)調(diào)查潛在市場(chǎng)的出現(xiàn)，快餐式網(wǎng)絡(luò)調(diào)查將會(huì)成為一種流行趨勢(shì)，快速、精準(zhǔn)將會(huì)成為網(wǎng)絡(luò)調(diào)查的代名詞。

新時(shí)代的網(wǎng)絡(luò)調(diào)查拋開社交網(wǎng)絡(luò)將是無意義的。根據(jù)中華人民共和國(guó)工業(yè)和信息化部數(shù)據(jù)顯示，我國(guó)移動(dòng)電話普及率連續(xù)5年超過100部/百人（如圖5所示），表明大部分網(wǎng)民人均一部手機(jī)，中國(guó)網(wǎng)民的社交網(wǎng)絡(luò)基本靠手機(jī)APP聯(lián)系，如微博、微信、知乎、QQ、抖音、快手等，并且手機(jī)社交的存在使網(wǎng)絡(luò)調(diào)查真正打破時(shí)間空間限制，使目標(biāo)群體可以隨時(shí)隨地響應(yīng)調(diào)查。

圖5 移動(dòng)電話與移動(dòng)互聯(lián)網(wǎng)的普及

手機(jī)網(wǎng)絡(luò)的存在催生了一種新形式的調(diào)查，在開放式Web調(diào)查基礎(chǔ)上可利用活躍的手機(jī)用戶達(dá)到精準(zhǔn)投放調(diào)查的目的，增加調(diào)查的曝光率，促進(jìn)目標(biāo)網(wǎng)民總體向?yàn)g覽單元轉(zhuǎn)化，例如，利用微信公眾號(hào)向所有受眾發(fā)布調(diào)查。這時(shí)開放式Web調(diào)查可直接向手機(jī)端用戶開放，必要時(shí)可通過篩選問題的設(shè)置，達(dá)到收集目標(biāo)總體信息的目的。

（三）開放式Web調(diào)查數(shù)據(jù)可推斷研究

根據(jù)中國(guó)社會(huì)科學(xué)院社會(huì)學(xué)研究所發(fā)布的《中國(guó)社會(huì)心態(tài)研究報(bào)告》（社會(huì)心態(tài)藍(lán)皮書）顯示，2013年中國(guó)社會(huì)信任指標(biāo)低于60分及格線，2016年中國(guó)社會(huì)對(duì)陌生人信任度僅為5.6%。在這種社會(huì)背景下，入戶形式的面對(duì)面調(diào)查響應(yīng)率逐年降低，傳統(tǒng)概率調(diào)查的數(shù)據(jù)質(zhì)量受響應(yīng)率影響頗深，概率推斷的質(zhì)量保證是數(shù)據(jù)的完整性，因此傳統(tǒng)概率調(diào)查正面臨嚴(yán)峻考驗(yàn)，而大數(shù)據(jù)時(shí)代的來臨、網(wǎng)絡(luò)覆蓋率的逐步上升和網(wǎng)絡(luò)設(shè)備普及化程度的不斷加深為調(diào)查行業(yè)的發(fā)展帶來了新的轉(zhuǎn)機(jī)。

然而，成本低廉、快捷的網(wǎng)絡(luò)調(diào)查大都屬于非概率調(diào)查，這無疑為調(diào)查樣本的統(tǒng)計(jì)推斷帶來了巨大不便。以開放式Web調(diào)查為例，網(wǎng)民的流動(dòng)性、調(diào)查信息的曝光率和瀏覽單元響應(yīng)調(diào)查的傾向等問題使得樣本的入樣概率難以計(jì)算，所以以真實(shí)入樣概率推斷總體可行性較低。Couper和Miller（2008）[40]認(rèn)為解決非概率推斷主要有兩種方法：第一種方法是基于設(shè)計(jì)（design based）的方法，即建立起基于概率的網(wǎng)絡(luò)小組，小組成員通過使用其他抽樣方法（如RDD）進(jìn)行抽樣和招募，并在必要時(shí)為無法進(jìn)入互聯(lián)網(wǎng)的人提供互聯(lián)網(wǎng)接入條件；第二種方法是基于模型（model-based）的方法，即建立網(wǎng)絡(luò)用戶志愿小組，并通過模型（如傾向得分）來調(diào)整偏差。目前有關(guān)非概率調(diào)查推斷方法的研究成果較少，大多集中在模型調(diào)整方向，因基于設(shè)計(jì)的方法操作困難且成本較高，故可將研究重點(diǎn)集中在設(shè)計(jì)的“準(zhǔn)隨機(jī)”方面。有研究表明，在數(shù)據(jù)收集之前控制數(shù)據(jù)的質(zhì)量?jī)?yōu)于數(shù)據(jù)的事后調(diào)整，因此在開放式Web調(diào)查中可對(duì)自愿響應(yīng)樣本進(jìn)行限制，通過方法研究使最終樣本分布符合概率樣本的分布特征，此時(shí)得到的數(shù)據(jù)質(zhì)量可能優(yōu)于不設(shè)限的自愿響應(yīng)樣本，具體的控制方法仍有待進(jìn)一步研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

網(wǎng)絡(luò)調(diào)查中的非抽樣誤差——以開放式Web調(diào)查為例

一、問題的提出

二、網(wǎng)絡(luò)調(diào)查概念界定與分類