“隨機(jī)調(diào)查了100位網(wǎng)友,有87.53%的網(wǎng)友同意……”嗯?等等。呃,糊弄鬼呢!“哦,不好意思,看錯(cuò)了,是130位網(wǎng)友……”哦,這樣……嗯?再等等……
正所謂“流氓懂科學(xué),誰也擋不住”。如今越來越多的復(fù)雜統(tǒng)計(jì)數(shù)據(jù)像潮水般向我們涌來,一批又一批的調(diào)查結(jié)果,都顯得那么鏗鏘有力,似乎那就是客觀事實(shí)。統(tǒng)計(jì)陷阱被科學(xué)流氓們包裝得越發(fā)完美,一不小心就把我們忽悠了。該怎么辦呢?別急,且看死理性派現(xiàn)身說法,幫大家理清真相。
抽樣調(diào)查,想說無偏不容易
調(diào)查問卷你肯定知道,多半還做過。在統(tǒng)計(jì)上,問卷調(diào)查屬于抽樣調(diào)查。再大規(guī)模的抽樣調(diào)查,都可能存在著意想不到的陷阱。不妨讓我們穿越到1936年的美國,看1個(gè)被許多書本都引用過的實(shí)例吧。
1936年,美國總統(tǒng)大選在即,當(dāng)時(shí)1本著名雜志《文學(xué)文摘》就在讀者中做了1次問卷調(diào)查,斷言共和黨的蘭登即將以57%對43%的絕對優(yōu)勢大勝民主黨的羅斯?!@可是根據(jù)240萬份調(diào)查問卷得到的結(jié)果。這么大規(guī)模的調(diào)查,如同宣告了蘭登的勝利,可是,最后的結(jié)果卻讓人大跌眼鏡:羅斯福以62%的支持率成功連任美國總統(tǒng)。出現(xiàn)了這個(gè)戲劇性的丑聞后,《文學(xué)文摘》業(yè)績直接掉落為零,最后竟然倒閉了。對于《文學(xué)文摘》來說,他們的問題出在哪里呢?
現(xiàn)在看來,《文學(xué)文摘》的調(diào)查問卷雖然數(shù)量龐大,但是樣本構(gòu)成大有問題。首先,最可能看到這個(gè)調(diào)查的是這個(gè)雜志的??停麄儏⒓诱{(diào)查的動機(jī)各有不同。另外,這個(gè)話題更能引發(fā)人的興趣,有些則只是很少的人關(guān)心。這都會導(dǎo)致最終參加調(diào)查的人是1個(gè)有偏的樣本。結(jié)論可能代表了這些人群,卻不能推廣到全體。
其次,問卷的回收率只有24%,忽略那些沒有被回收的問卷就等于是忽略了剩余760萬人的意見。《文學(xué)文摘》雜志社還通過電話調(diào)查的方式對自己的讀者進(jìn)行了抽樣,但在1936年,并不是每一個(gè)家庭都能裝得起電話——那些訂閱雜志、用電話的人家往往都是有錢的人,他們并不能代表全美國的選民意見。最終,這些看起來不算起眼的問題對他們的預(yù)測結(jié)果產(chǎn)生了巨大影響,事情的發(fā)展也走向了完全相反的方向。
如果我們現(xiàn)在做一個(gè)調(diào)查,看一看在最初恢復(fù)高考的3年中進(jìn)入幾所名牌大學(xué)就讀的學(xué)生如今的年收入,你一定會得到一個(gè)高得嚇人的數(shù)字。我敢如此肯定并不是我熟悉他們的社會成就,而是因?yàn)槲伊私庹{(diào)查的缺陷??梢韵胍姡?dāng)年的那些大學(xué)生雖然有案可查,但能夠準(zhǔn)確聯(lián)系調(diào)查的卻只有一部分較為成功的人了。其中有一些人雖然聯(lián)系上了,卻不一定愿意接受調(diào)查。最后,還不能排除一些人受贊許傾向的影響,有意無意地提高報(bào)告自己的收入水平。最終,調(diào)查員只回收了那些成功人士的數(shù)據(jù),而沉默的大多數(shù)卻被“統(tǒng)計(jì)式”地忽視了。
圖表里的玄機(jī)
為了讓沒有直接接觸數(shù)據(jù)的人也能直觀地感受到其中的一些信息,人們發(fā)明了各種各樣漂亮的統(tǒng)計(jì)圖表。但是就是“客觀”的圖表里面也存在著各種各樣的陷阱。
在制作統(tǒng)計(jì)圖表時(shí),一個(gè)常用的欺騙手法便是改變統(tǒng)計(jì)圖形的坐標(biāo)尺度,從而改變了整個(gè)圖形的陡峭程度?!督y(tǒng)計(jì)陷阱》一書中就曾舉過這樣一個(gè)例子。下圖反映了某年9月27日某時(shí)的黃金價(jià)格走勢。
左面2幅圖描述的是相同時(shí)間段的黃金價(jià)格走勢,顯然,左邊的金價(jià)急升更容易讓人產(chǎn)生激動的心情。右邊將左邊的圖橫向拉長了,使得它看起來是在更短的時(shí)間內(nèi)沖上高峰,即使標(biāo)出了橫縱軸的刻度,這2幅圖給普通人留下的第一印象也大不一樣。
當(dāng)然,還有比拉伸圖表更隱蔽的手法。現(xiàn)在我們手上有一組羅坦提亞和美國的木匠平均周收入數(shù)據(jù),如果做成條形圖就像下頁左側(cè)的那幅圖那樣。
看得出來,美國木匠的平均收入是羅坦提亞木匠的2倍。但通常為了視覺效果,它會被做成更形象的卡通圖。這其實(shí)卻暗中改變了人們對這個(gè)統(tǒng)計(jì)事實(shí)的印象。
美國人的錢袋長、高都是羅坦提亞木匠的2倍,看起來挺忠實(shí)于數(shù)據(jù)的,但是右邊錢袋實(shí)際占用的面積就是左邊的4倍。這幅圖像導(dǎo)致的暗示效果其實(shí)還沒完,因?yàn)樵谏钪绣X袋都是立體的,所以每個(gè)讀者看到這個(gè)錢袋的時(shí)候會不經(jīng)意地給它加上一個(gè)厚度,這樣一來,在有些人眼里這幅圖表達(dá)的明明是美國木匠的收入是羅坦提亞木匠的8倍——這樣的印象完全脫離了原始數(shù)據(jù)所給出的信息,無疑是一次成功的誤導(dǎo)。
如何練就火眼金睛
上面說了幾個(gè)很容易讓公眾迷惑的統(tǒng)計(jì)陷阱,那當(dāng)我們看到各類統(tǒng)計(jì)數(shù)字時(shí),應(yīng)該如何判斷它是否客觀呢?
首先要細(xì)心尋找統(tǒng)計(jì)中的偏差。比較明顯的是在描述上有意識進(jìn)行的偏差。比如濫用平均數(shù)等帶來的問題:“我們工廠3000人,月平均工資有5000塊?!笨雌饋肀容^不錯(cuò)的待遇,實(shí)際上可能是一個(gè)月薪100萬的老總加上每個(gè)月拿著可憐薪水的上千名工人簡單平均起來的結(jié)果。同時(shí)報(bào)道中常常聲稱的“升高”和“下降”并不一定真的如此。在面對類似“這段時(shí)間氣溫異常升高,熱浪持續(xù)1周導(dǎo)致城市死亡人數(shù)激增至300人”這樣的標(biāo)題時(shí),我們往往要小心這里所說的“激增”是否屬實(shí)。一個(gè)一定規(guī)模的城市在一周內(nèi)有300人死亡并不算是異常的數(shù)字,而熱浪實(shí)際上是一個(gè)沒有起多大作用的因素。半個(gè)世紀(jì)以前,紐約市的2份報(bào)紙上面刊登的犯罪數(shù)量一度達(dá)到了令人發(fā)指的水平,迫于輿論壓力,當(dāng)時(shí)的警察聯(lián)合會主席不得不有所表示,但是他僅僅采用了一個(gè)行動就平息了這場風(fēng)波——他解雇了2名編輯,因?yàn)檫@場風(fēng)波是他們在互相競爭著挖掘犯罪事件并搬上臺面,導(dǎo)致對民眾產(chǎn)生誤導(dǎo)。事實(shí)上,警察局的統(tǒng)計(jì)數(shù)據(jù)表示這段時(shí)間的犯罪事件數(shù)量并沒有上升。
其次我們要尋找潛伏著的無意識偏差,這種偏差帶來的結(jié)果往往影響更深遠(yuǎn)——《文學(xué)文摘》就是無意識偏差的受害者。無意識偏差常常會體現(xiàn)在對樣本的選取不注意上。一個(gè)超市對100名顧客進(jìn)行了調(diào)查,得出了“75%的人聲稱喜歡喝茶而不是咖啡”的結(jié)論,那么我們大可不必去相信這個(gè)結(jié)論,因?yàn)橄啾绕鹂倲?shù)來說,100個(gè)人實(shí)在是微不足道的。這家超市也發(fā)現(xiàn)了這個(gè)問題,接著發(fā)出10000份調(diào)查問卷,最后回收了2300份,發(fā)現(xiàn)“64%的人聲稱喜歡喝茶而不是咖啡”,這個(gè)結(jié)論毫無疑問也不能令人信服。實(shí)際上這個(gè)調(diào)查體現(xiàn)出來的是有1472個(gè)人更喜歡喝茶,828個(gè)人更喜歡喝咖啡,但是還有剩下7300個(gè)人沒有給出答案——這是光看結(jié)果分析的讀者所無法知道的,所以不能簡單地相信一個(gè)直接而草率的結(jié)論。
最后我們要注意保持對統(tǒng)計(jì)圖示和統(tǒng)計(jì)數(shù)據(jù)的敏感性。圖標(biāo)會有意無意地通過巧妙設(shè)計(jì)(比如橫縱軸的尺度問題),從而使得這幅圖凸顯的內(nèi)容就是作者期望讀者能夠收到的信息。在觀看圖表的時(shí)候,我們可以試圖在腦海中想象出與圖像所對應(yīng)的具體數(shù)據(jù),只要圖像不是捏造的,那么就能夠在一定程度上擺脫視覺上的誤導(dǎo)。然而白底黑字的統(tǒng)計(jì)數(shù)字又怎么會出錯(cuò)呢?捏造的數(shù)字當(dāng)然是錯(cuò)誤的。比如當(dāng)年鬧得沸沸揚(yáng)揚(yáng)的“87.53%事件”
(指一則謠言稱在隨機(jī)調(diào)查的100名網(wǎng)友中,有85.7%支持某事),但如果報(bào)道中提到的被調(diào)查人數(shù)是130人,不知道還會有多少人能發(fā)現(xiàn)這個(gè)數(shù)據(jù)不正確?113個(gè)人表示支持的話,那么支持率是86.92%,114個(gè)人表示支持的話,那么支持率是87.69%——無論如何也得不到87.53%的數(shù)據(jù),但是這樣造假的數(shù)據(jù)卻大大提高了可信度,讓人難以發(fā)現(xiàn)其中的謬誤了。實(shí)際上,很多的假數(shù)據(jù)都利用到了人們天生對“精確的數(shù)字”的信任——“在校大學(xué)生每日開銷大約為50元”的說法就不如“在校大學(xué)生每日開銷為51.74元”更顯真實(shí)。仔細(xì)想想,我們每天接觸著海量的信息,身邊有多少數(shù)據(jù)是這樣以假亂真的呢?
或許對于那些統(tǒng)計(jì)學(xué)家來說,只有下面這幅圖才讓人感到一點(diǎn)點(diǎn)的安心吧!
參考資料:
《統(tǒng)計(jì)陷阱》【美】達(dá)萊爾·