張唯誠(chéng)
在古代,煉金術(shù)士聲稱(chēng)他們能將鉛之類(lèi)的金屬變成貴重的黃金,當(dāng)然這是不可能的?,F(xiàn)在,數(shù)據(jù)科學(xué)家正在將大量數(shù)據(jù)變成信息,這些信息雖然不是黃金,但價(jià)值勝似黃金。數(shù)據(jù)科學(xué)家可以說(shuō)是現(xiàn)代的“煉金術(shù)士”。
英國(guó)數(shù)據(jù)科學(xué)家維克托·邁爾-舍恩伯格在他的著作《大數(shù)據(jù)》中指出,今天全世界存儲(chǔ)的信息中,書(shū)和磁帶只占不到兩成,多數(shù)信息都以數(shù)據(jù)形式存儲(chǔ)在電腦硬盤(pán)、通信設(shè)備和其他數(shù)字設(shè)備中。全世界產(chǎn)生的數(shù)據(jù)正在以驚人的速度增長(zhǎng),最近兩年的數(shù)據(jù)產(chǎn)生量就占到總數(shù)據(jù)量的90%。一家互聯(lián)網(wǎng)研究公司預(yù)測(cè),人類(lèi)產(chǎn)生的數(shù)據(jù)還將以每三年翻一番的速度增長(zhǎng)。
數(shù)據(jù)助人“搶占先機(jī)”
互聯(lián)網(wǎng)并不是產(chǎn)生大量信息的唯一地方,另有大量信息是由科學(xué)家們“制造”出來(lái)的,這些信息來(lái)自于他們對(duì)大量事實(shí)的研究,而對(duì)這些事實(shí)的記錄就是數(shù)據(jù)。例如,生物學(xué)家測(cè)量了成千上萬(wàn)個(gè)細(xì)胞,從而收集到大量數(shù)據(jù);天文學(xué)家觀測(cè)了恒星、星系和太空中的各種能量活動(dòng),從而收集到大量數(shù)據(jù);地球科學(xué)家收集到世界各地的有關(guān)水、風(fēng)和氣流的資料,從而也形成了大量數(shù)據(jù)。
數(shù)據(jù)經(jīng)過(guò)分析和歸納會(huì)形成有用的信息,于是人們發(fā)明了各種各樣用于處理數(shù)據(jù)的計(jì)算機(jī)軟件,人們利用數(shù)據(jù)做各種各樣的事。例如,銷(xiāo)售公司通過(guò)分析數(shù)據(jù)了解大眾的消費(fèi)行為,如人們?nèi)绾斡缅X(qián),什么時(shí)候花錢(qián)多,什么時(shí)候花錢(qián)少,等等。這樣一來(lái),公司就能制定更好的銷(xiāo)售策略,從而賣(mài)出更多的商品。在美國(guó),人們通過(guò)分析數(shù)據(jù)了解到,每當(dāng)颶風(fēng)來(lái)襲前,超市中的草莓糖霜果塔餅干便特別搶手,這時(shí)的銷(xiāo)售量會(huì)比平時(shí)增加7倍,而在暴風(fēng)雨天氣來(lái)臨前,啤酒的銷(xiāo)售也特別好,于是超市便知道在這種時(shí)候及時(shí)補(bǔ)充貨源,從而令銷(xiāo)量大增。
2012年美國(guó)大選時(shí),統(tǒng)計(jì)學(xué)家曾通過(guò)分析投票數(shù)據(jù)準(zhǔn)確地預(yù)測(cè)了各個(gè)州的投票結(jié)果。對(duì)于地球科學(xué)家而言,追蹤和分析天氣數(shù)據(jù)更是特別重要,否則便無(wú)法準(zhǔn)確地預(yù)報(bào)災(zāi)害性的天氣變化。數(shù)據(jù)甚至能幫助人們預(yù)防疫情的爆發(fā),起到及時(shí)采取措施防止傳染病流行的作用。數(shù)據(jù)還給警察們的工作帶來(lái)了方便。在那些犯罪率高的城市,以前積累下來(lái)的犯罪數(shù)據(jù)可以派上用場(chǎng),警察們使用這些數(shù)據(jù)預(yù)測(cè)犯罪的高發(fā)時(shí)間和地區(qū),從而合理地調(diào)配警力,提高工作效率和防范效果。
數(shù)據(jù)幫人解決難題
數(shù)據(jù)之所以能發(fā)揮上述作用,很重要的一個(gè)原因是它幫助我們預(yù)測(cè)了未來(lái)有可能發(fā)生的事,然而在有些領(lǐng)域,知道為什么會(huì)有某種事情發(fā)生顯得更加重要。例如在醫(yī)學(xué)領(lǐng)域,來(lái)自人體或者人體細(xì)胞的數(shù)據(jù)就有可能告訴醫(yī)生們,某種疾病為什么會(huì)發(fā)生,從而幫助醫(yī)生治療這些疾病。
美國(guó)哈佛大學(xué)公共衛(wèi)生學(xué)院的溫斯頓·海德正在從事一項(xiàng)重要的工作:將大量來(lái)自細(xì)胞的數(shù)據(jù)轉(zhuǎn)變成對(duì)生物學(xué)家有用的信息。他說(shuō):“我們很想知道某些特別復(fù)雜的疾病是由什么因素造成的。當(dāng)一個(gè)人得了癌癥,他的身體出了什么問(wèn)題;當(dāng)一個(gè)人患上嚴(yán)重的糖尿病,又是什么基因?qū)е铝隋e(cuò)誤?!崩纾粋€(gè)生物化學(xué)家收集到一種基因的數(shù)據(jù),這種基因命令細(xì)胞產(chǎn)生了一種蛋白質(zhì),于是海德或者其他計(jì)算生物學(xué)家便進(jìn)入數(shù)據(jù)庫(kù)分析大量來(lái)自同類(lèi)細(xì)胞的數(shù)據(jù)。他們發(fā)現(xiàn)了與這種數(shù)據(jù)相聯(lián)系的某種數(shù)據(jù)模式,它不是出現(xiàn)一次,而是反復(fù)出現(xiàn)。于是,科學(xué)家們便可推斷,那種蛋白質(zhì)和那種反復(fù)出現(xiàn)的模式存在聯(lián)系。假若那種模式恰恰和某種疾病,如乳腺癌聯(lián)系在一起,那么科學(xué)家們就可以推測(cè)是那種蛋白質(zhì)導(dǎo)致了乳腺癌的發(fā)生。于是,科學(xué)家們便可以發(fā)明一種遏制這種蛋白質(zhì)的藥物,作為征服乳腺癌的一個(gè)新的“利器”。
做一個(gè)“數(shù)據(jù)控”
科學(xué)家們還期待有一天數(shù)據(jù)能使治病變得更加高效和更具“個(gè)性化”。例如,當(dāng)一個(gè)病人向醫(yī)生提供了詳細(xì)的數(shù)據(jù),醫(yī)生便可以將這些數(shù)據(jù)和其他病人的數(shù)據(jù)進(jìn)行比較,從而依據(jù)這個(gè)病人的生活方式制定特定的治療方案。
在未來(lái),數(shù)據(jù)還將使教育也變得“個(gè)性化”。通過(guò)對(duì)學(xué)習(xí)過(guò)程的不間斷數(shù)據(jù)采集,老師可以及時(shí)發(fā)現(xiàn)學(xué)生的學(xué)習(xí)問(wèn)題,并提供“個(gè)性化”的教學(xué)指導(dǎo)。設(shè)想在一個(gè)班級(jí)里,學(xué)生們利用平板電腦或者閱讀器進(jìn)行閱讀練習(xí)。在這個(gè)過(guò)程中,學(xué)生對(duì)陌生的和認(rèn)為重要的地方都做了標(biāo)注,而閱讀的其他情況也作為數(shù)據(jù)通過(guò)系統(tǒng)傳到了老師那里,如閱讀用了多長(zhǎng)時(shí)間,某個(gè)詞語(yǔ)被學(xué)生標(biāo)注了多少次,等等。分析這些數(shù)據(jù),老師便可以發(fā)現(xiàn)讀物的難點(diǎn)和學(xué)生們的興趣點(diǎn),從而有針對(duì)性地進(jìn)行講解,還可以對(duì)個(gè)別學(xué)生提供有針對(duì)性的輔導(dǎo)。
由此看來(lái),做一個(gè)“數(shù)據(jù)控”會(huì)助你在很多方面成為佼佼者。邁爾-舍恩伯格說(shuō):“我希望今天和未來(lái)的每個(gè)孩子都能成為一個(gè)小數(shù)據(jù)科學(xué)家,他們對(duì)數(shù)據(jù)都很有感覺(jué)。在我們這樣一個(gè)信息時(shí)代,假若你成了一個(gè)數(shù)據(jù)科學(xué)家,你便擁有了神奇的魔力,就好像中世紀(jì)的煉金術(shù)士們所聲稱(chēng)的那樣。”
【責(zé)任編輯】龐 云