大數(shù)據(jù)：越大越有價(jià)值嗎？

2016-04-07 01:57孟曉犁

商業(yè)會(huì)計(jì) 2016年6期

關(guān)鍵詞：成功率腎結(jié)石結(jié)石

孟曉犁

所謂大數(shù)據(jù)，并非越大越美，越大越有價(jià)值。

只要科學(xué)抽樣，哪怕只有百分之零點(diǎn)零零幾的均勻抽樣，效果也可以比95%不均勻的數(shù)據(jù)好。

所謂大數(shù)據(jù)，也不能光看絕對(duì)量，并非數(shù)據(jù)越多結(jié)果越可靠。

大數(shù)據(jù)這兩年一直是熱詞。發(fā)展中的大數(shù)據(jù)確實(shí)帶來(lái)了很多有用信息，但是所謂大數(shù)據(jù)，并非越大越美，越大越有價(jià)值。

比如，在美國(guó)做一個(gè)1 000人的抽樣調(diào)查。這個(gè)調(diào)查若是同樣在中國(guó)做，要達(dá)到同樣精度，需要抽取多少人？美國(guó)的人口是3.2億人，中國(guó)的人口是美國(guó)的4倍多一點(diǎn)。每次我在大學(xué)講座問(wèn)到這個(gè)問(wèn)題，只有10%以下的人說(shuō)出正確答案：仍需抽樣1 000人，而絕大多數(shù)人認(rèn)為抽樣數(shù)必須大于4 000。

為什么呢？最簡(jiǎn)單的比喻是：喝湯時(shí)，要確定湯的咸淡，大多數(shù)人只需要嘗幾口，并不需要把湯全部喝完。這個(gè)判斷的準(zhǔn)確性取決這碗湯的均勻度。喝湯前把整碗湯攪拌一下，然后品嘗幾口，這就是我們所說(shuō)的隨機(jī)取樣。無(wú)論是一小碗湯還是一大桶湯，只要攪拌均勻，嘗幾小口就夠了。同樣，去醫(yī)院驗(yàn)血時(shí)，每個(gè)人不論是胖是瘦，小孩還是大人，醫(yī)生都只會(huì)抽一點(diǎn)就可以做出判斷。這意味著抽樣調(diào)查需要有一定的樣本，但是一旦超過(guò)臨界點(diǎn)以后，和母體大小的關(guān)系是完全可以忽略的。也就是說(shuō)，大數(shù)據(jù)再大，只要科學(xué)抽樣，哪怕只有百分之零點(diǎn)零零幾的均勻抽樣，效果也可以比95%不均勻的數(shù)據(jù)好。

所謂大數(shù)據(jù)，也不能光看絕對(duì)量，并非數(shù)據(jù)越多結(jié)果越可靠。以現(xiàn)在最熱的個(gè)性化治療為例。如果一個(gè)藥對(duì)95%的人有效，但對(duì)我沒(méi)有用，那顯然這個(gè)95%的數(shù)字對(duì)我毫無(wú)意義。

一個(gè)真實(shí)的例子是，在20世紀(jì)80年代，英國(guó)有一本雜志登了兩種治療腎結(jié)石的方法。文章摘要宣稱方法A治療腎結(jié)石，成功率是78%；用方案B的話，成功率是83%。在沒(méi)有其他信息的情況下，任何人都會(huì)認(rèn)為B方案治療效果更好。但是仔細(xì)閱讀那篇文章，你會(huì)發(fā)現(xiàn)當(dāng)研究人員把病人分成大結(jié)石和小結(jié)石兩組時(shí)，方案A比方案B在每組里的成功率都要高。

（選自《讀者》）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大數(shù)據(jù)：越大越有價(jià)值嗎？

大數(shù)據(jù)：越大越有價(jià)值嗎？