?
英國(guó)帝國(guó)理工學(xué)院、上海大學(xué)計(jì)算機(jī)學(xué)院 郭毅可大數(shù)據(jù)為科學(xué)創(chuàng)造價(jià)值
世界的數(shù)據(jù)化帶來(lái)了大數(shù)據(jù)時(shí)代的興起。數(shù)據(jù)科學(xué)(Data Science)作為一門(mén)研究數(shù)據(jù)的新興學(xué)科,旨在系統(tǒng)地學(xué)習(xí)數(shù)據(jù)的特性、結(jié)構(gòu)以及相互作用并從中獲取相關(guān)的信息和知識(shí)。它結(jié)合了多個(gè)領(lǐng)域的理論和技術(shù),包括應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、信息學(xué)中的模式識(shí)別、機(jī)器學(xué)習(xí)、信號(hào)處理、數(shù)據(jù)存儲(chǔ)與管理、可視化以及高性能計(jì)算等。
如今,數(shù)據(jù)科學(xué)已經(jīng)滲入到包括生物科學(xué)、醫(yī)學(xué)信息、醫(yī)療衛(wèi)生、社會(huì)科學(xué)、人文科學(xué)以及工程學(xué)之中,并深深影響著經(jīng)濟(jì)、商業(yè)和金融業(yè)的發(fā)展。數(shù)據(jù)科學(xué)涉及到數(shù)據(jù)從采集、探索到分析、交流的整個(gè)生命周期,已經(jīng)成為現(xiàn)代跨學(xué)科科學(xué)研究的核心。
通過(guò)大數(shù)據(jù)中分析,一是可以幫助人們做社會(huì)調(diào)查,二是能夠訓(xùn)練新一代的數(shù)據(jù)科學(xué)家,三是發(fā)展大數(shù)據(jù)管理與分析技術(shù),四是將技術(shù)轉(zhuǎn)化成工業(yè)產(chǎn)品,與工業(yè)界進(jìn)行良好合作。
1.數(shù)據(jù)管理
數(shù)據(jù)管理主要包括兩個(gè)方面,一是融合,就是把不同的數(shù)據(jù)整合起來(lái)。二是分析,在大數(shù)據(jù)環(huán)境下,更重要的是把數(shù)據(jù)提取出來(lái)后進(jìn)行分解,而不是簡(jiǎn)單進(jìn)行查詢。以往人們都是用90%的時(shí)間進(jìn)行數(shù)據(jù)整理,10%的時(shí)間來(lái)進(jìn)行分析。數(shù)據(jù)分析做好了,往往就成功了一半。數(shù)據(jù)整理工作非常復(fù)雜,但卻是非常重要的一項(xiàng)內(nèi)容。
2.數(shù)據(jù)獲取
在數(shù)據(jù)獲取中,主要有兩個(gè)問(wèn)題,一是使用各式各樣的傳感器,另一個(gè)就是數(shù)據(jù)交匯。數(shù)據(jù)進(jìn)來(lái)之后,在數(shù)據(jù)加工過(guò)程中,要?jiǎng)討B(tài)地獲取信息,目前所有的科學(xué)研究,都是信息驅(qū)動(dòng)的。
帝國(guó)理工學(xué)院包括醫(yī)學(xué)院、理工院、商學(xué)院和工學(xué)院,這些學(xué)院也都是有數(shù)據(jù)的。
大數(shù)據(jù)不是單一的,是多學(xué)科交叉,其中與醫(yī)學(xué)的合作能切實(shí)有效地服務(wù)于大眾。人們都在談精準(zhǔn)醫(yī)學(xué),就是對(duì)它進(jìn)行分子級(jí)的衡量,這所產(chǎn)生的數(shù)據(jù)量大,數(shù)據(jù)的采集和分析工作是非常復(fù)雜的。現(xiàn)在有許多手機(jī)軟件可以記錄用戶的每天生理數(shù)據(jù),通過(guò)采集這些數(shù)據(jù),用戶可以根據(jù)每天的數(shù)據(jù)進(jìn)行對(duì)比,判斷自己每天的健康狀態(tài)。
大數(shù)據(jù)的生成需要各種儀器,所以物聯(lián)網(wǎng)、醫(yī)療基因測(cè)序等得以生成各種數(shù)據(jù)的儀器設(shè)備便風(fēng)生水起。再如,對(duì)大數(shù)據(jù)這種“資源”進(jìn)行處理,需要大規(guī)模使用計(jì)算機(jī),“云計(jì)算”、智能終端的重要性得以凸顯,它們不僅處理數(shù)據(jù),也同時(shí)輸送數(shù)據(jù),繼而產(chǎn)生新數(shù)據(jù)。
如何用好這些數(shù)據(jù)?通過(guò)軟件,人們每天都可以了解自己的心跳等數(shù)據(jù)。但是僅僅知道心跳多少,并沒(méi)有什么意義。關(guān)鍵在于如何把這些數(shù)據(jù)變得有用起來(lái),這就需要構(gòu)造一個(gè)個(gè)人的生理模型。如果這一模型構(gòu)造完成,就能代表人們的正常狀態(tài),每天可以用數(shù)據(jù)來(lái)比對(duì)模型,如果不一致,就能了解到身體處于不正常狀態(tài)。
步入大數(shù)據(jù)時(shí)代,整個(gè)計(jì)算機(jī)科學(xué)的研究重點(diǎn)和使用方法都發(fā)生轉(zhuǎn)變——計(jì)算機(jī)更向“智”的方向發(fā)展。這也是為什么類腦計(jì)算機(jī)、人工智能會(huì)從過(guò)去的計(jì)算機(jī)科學(xué)的支流變成今天的主流。
大學(xué)擔(dān)負(fù)著培養(yǎng)人才的重任,近兩年來(lái),隨著大數(shù)據(jù)不斷升溫,國(guó)內(nèi)很多大學(xué)和研究機(jī)構(gòu)也都忙著掛牌成立大數(shù)據(jù)研究機(jī)構(gòu)。
英國(guó)帝國(guó)理工學(xué)院數(shù)據(jù)科學(xué)研究所成立于2014年4月。以數(shù)據(jù)科學(xué)基礎(chǔ)為科研方向, 數(shù)據(jù)科學(xué)研究所旨在發(fā)展數(shù)據(jù)科學(xué)和大數(shù)據(jù)背景下最前沿的理論、技術(shù)及系統(tǒng)。數(shù)據(jù)科學(xué)研究所為帝國(guó)理工的科學(xué)家和合作伙伴提供了以數(shù)據(jù)為驅(qū)動(dòng)的跨學(xué)科研究支持, 并同時(shí)培養(yǎng)下一代數(shù)據(jù)科學(xué)家。目前,帝國(guó)理工數(shù)據(jù)科學(xué)研究院正在快速發(fā)展成為英國(guó)數(shù)據(jù)科學(xué)的一個(gè)重要研究中心,并與全球多所頂尖科研機(jī)構(gòu)以及企業(yè)建立了緊密的合作關(guān)系。
帝國(guó)理工沒(méi)有設(shè)立信息科學(xué)的碩士課程,相反,學(xué)院將數(shù)據(jù)科學(xué),融合到每一細(xì)分學(xué)科,并劃分為四個(gè)模塊,信息科學(xué)與數(shù)據(jù)信息基礎(chǔ)、分析與機(jī)器學(xué)習(xí)、大數(shù)據(jù)編程、規(guī)模數(shù)據(jù)管理。在這個(gè)四個(gè)模塊中,學(xué)生可以選擇其中三個(gè)模塊進(jìn)行學(xué)習(xí),等學(xué)習(xí)完之后,再與另外一個(gè)領(lǐng)域科學(xué)進(jìn)行合作的時(shí)候,就能成為這一領(lǐng)域的數(shù)據(jù)科學(xué)家。
數(shù)據(jù)科學(xué)如果沒(méi)有領(lǐng)域科學(xué)作為支撐,那么就不會(huì)有數(shù)據(jù)產(chǎn)生,人們也就無(wú)從分析。因此,單純的數(shù)據(jù)科學(xué)是不適合的。只有大數(shù)據(jù)與領(lǐng)域科學(xué)合作,才能真正地為科學(xué)創(chuàng)造價(jià)值。不然,數(shù)據(jù)再大,也沒(méi)有任何意義!
(本文整理自英國(guó)帝國(guó)理工學(xué)院終身教授、上海大學(xué)計(jì)算機(jī)學(xué)院院長(zhǎng)郭毅可在第四屆中國(guó)科研信息化發(fā)展研討會(huì)上的演講“ Big Data for Better Science ”)