孟曉犁
所謂大數(shù)據(jù),并非越大越美,越大越有價(jià)值。
只要科學(xué)抽樣,哪怕只有百分之零點(diǎn)零零幾的均勻抽樣,效果也可以比95%不均勻的數(shù)據(jù)好。
所謂大數(shù)據(jù),也不能光看絕對(duì)量,并非數(shù)據(jù)越多結(jié)果越可靠。
大數(shù)據(jù)這兩年一直是熱詞。發(fā)展中的大數(shù)據(jù)確實(shí)帶來(lái)了很多有用信息,但是所謂大數(shù)據(jù),并非越大越美,越大越有價(jià)值。
比如,在美國(guó)做一個(gè)1 000人的抽樣調(diào)查。這個(gè)調(diào)查若是同樣在中國(guó)做,要達(dá)到同樣精度,需要抽取多少人?美國(guó)的人口是3.2億人,中國(guó)的人口是美國(guó)的4倍多一點(diǎn)。每次我在大學(xué)講座問(wèn)到這個(gè)問(wèn)題,只有10%以下的人說(shuō)出正確答案:仍需抽樣1 000人,而絕大多數(shù)人認(rèn)為抽樣數(shù)必須大于4 000。
為什么呢?最簡(jiǎn)單的比喻是:喝湯時(shí),要確定湯的咸淡,大多數(shù)人只需要嘗幾口,并不需要把湯全部喝完。這個(gè)判斷的準(zhǔn)確性取決這碗湯的均勻度。喝湯前把整碗湯攪拌一下,然后品嘗幾口,這就是我們所說(shuō)的隨機(jī)取樣。無(wú)論是一小碗湯還是一大桶湯,只要攪拌均勻,嘗幾小口就夠了。同樣,去醫(yī)院驗(yàn)血時(shí),每個(gè)人不論是胖是瘦,小孩還是大人,醫(yī)生都只會(huì)抽一點(diǎn)就可以做出判斷。這意味著抽樣調(diào)查需要有一定的樣本,但是一旦超過(guò)臨界點(diǎn)以后,和母體大小的關(guān)系是完全可以忽略的。也就是說(shuō),大數(shù)據(jù)再大,只要科學(xué)抽樣,哪怕只有百分之零點(diǎn)零零幾的均勻抽樣,效果也可以比95%不均勻的數(shù)據(jù)好。
所謂大數(shù)據(jù),也不能光看絕對(duì)量,并非數(shù)據(jù)越多結(jié)果越可靠。以現(xiàn)在最熱的個(gè)性化治療為例。如果一個(gè)藥對(duì)95%的人有效,但對(duì)我沒(méi)有用,那顯然這個(gè)95%的數(shù)字對(duì)我毫無(wú)意義。
一個(gè)真實(shí)的例子是,在20世紀(jì)80年代,英國(guó)有一本雜志登了兩種治療腎結(jié)石的方法。文章摘要宣稱方法A治療腎結(jié)石,成功率是78%;用方案B的話,成功率是83%。在沒(méi)有其他信息的情況下,任何人都會(huì)認(rèn)為B方案治療效果更好。但是仔細(xì)閱讀那篇文章,你會(huì)發(fā)現(xiàn)當(dāng)研究人員把病人分成大結(jié)石和小結(jié)石兩組時(shí),方案A比方案B在每組里的成功率都要高。
(選自《讀者》)