孟曉犁
大數(shù)據(jù)這兩年一直是熱詞。發(fā)展中的大數(shù)據(jù)確實(shí)帶來了很多有用信息,但是所謂大數(shù)據(jù),并非越大越有價(jià)值。
比如,在美國做一個(gè)1000人的抽樣調(diào)查,這個(gè)調(diào)查若是在中國做,要達(dá)到同樣的精度,需要抽取多少人?美國的人口是3.2億人,中國的人口是美國的4倍多一點(diǎn)。每次我在大學(xué)做講座問到這個(gè)問題時(shí),只有10%的人能說出正確答案:仍需抽樣1000人。絕大多數(shù)人認(rèn)為,抽樣數(shù)必須大于4000。
為什么呢?最簡單的比喻是:喝湯時(shí),要確定湯的咸淡,大多數(shù)人只需要嘗幾口,并不需要把湯全部喝完。這個(gè)判斷的準(zhǔn)確性取決于這碗湯的均勻度。喝湯前把整碗湯攪拌一下,然后品嘗幾口,這就是我們所說的隨機(jī)取樣。無論是一小碗湯還是一大桶湯,只要攪拌均勻,嘗幾小口就夠了。同樣,去醫(yī)院驗(yàn)血時(shí),每個(gè)人不論是胖是瘦,小孩還是大人,醫(yī)生都只會抽一點(diǎn)血就可以做出判斷。這意味著抽樣調(diào)查需要有一定的樣本,但是一旦超過臨界點(diǎn)后,和母體大小的關(guān)系是完全可以忽略的。也就是說,大數(shù)據(jù)再大,只要科學(xué)抽樣,哪怕只有百分之零點(diǎn)零零幾的均勻抽樣,效果也可以比95%不均勻的數(shù)據(jù)好。
所謂大數(shù)據(jù),也不能光看絕對量,并非數(shù)據(jù)越多結(jié)果越可靠。以現(xiàn)在最熱的個(gè)性化治療為例。如果一種藥對95%的人有效,但對我沒有用,那這95%的數(shù)字對我而言便毫無意義。
一個(gè)真實(shí)的例子是,在20世紀(jì)80年代,英國有一本雜志登了兩種治療腎結(jié)石的方法。文章摘要宣稱方法A治療腎結(jié)石,成功率是78%;用方案B的話,成功率是83%。在沒有其他信息的情況下,任何人都會認(rèn)為B方案的治療效果更好。但是仔細(xì)閱讀那篇文章,你會發(fā)現(xiàn)當(dāng)研究人員把病人分成大結(jié)石和小結(jié)石兩組時(shí),方案A比方案B在每組里的成功率都要高。
(孫麗摘自《新一代》2015年第12期,全景視覺供圖)