?
釋放大數(shù)據(jù)的能量
3月,谷歌AlphaGo與韓國(guó)圍棋國(guó)手李世石的“人機(jī)世紀(jì)大戰(zhàn)”,刷爆全球輿論圈。
說到底,AlphaGo獲勝,在于擁有人類歷史高手海量的棋局和不斷試錯(cuò)改進(jìn)的自我學(xué)習(xí)能力。大數(shù)據(jù)+深度學(xué)習(xí),造就了AlphaGo的勝利。
海量數(shù)據(jù)的匯聚,促成了大數(shù)據(jù)時(shí)代的到來,然而,問題普遍存在,那些希望通過海量數(shù)據(jù)總結(jié)和發(fā)現(xiàn)科學(xué)的規(guī)律,或者是刻畫用戶畫像的設(shè)想,遭遇了諸多挑戰(zhàn)。
隨著高校信息化的發(fā)展,積累了二十余年的各類數(shù)據(jù),當(dāng)我們面對(duì)龐大的校務(wù)數(shù)據(jù),希望藉以了解學(xué)校師生教學(xué)和生活行為的發(fā)展趨勢(shì)時(shí),數(shù)據(jù)隱私保護(hù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)分析技術(shù)以及數(shù)據(jù)應(yīng)用服務(wù)等的問題,均接踵而來。
在數(shù)據(jù)開放政策與機(jī)制相對(duì)缺失的當(dāng)下,數(shù)據(jù)的供需矛盾也顯得尤其突出。數(shù)據(jù)只有開放,并按需匯聚起來,才能成為大數(shù)據(jù),才能刻畫并總結(jié)出科學(xué)的規(guī)律,但如何開放大數(shù)據(jù)資源,在人們對(duì)數(shù)據(jù)“淘金”的期望越來越高的當(dāng)下,將數(shù)據(jù)當(dāng)做寶貝,秘而不宣,使得數(shù)據(jù)供與需之間,存在壁壘。
雖然大數(shù)據(jù)催生了科研的第四范式——數(shù)據(jù)密集型科學(xué),但“大數(shù)據(jù)在計(jì)算機(jī)中,科研的人在科學(xué)中”,卻還是全球性的難題,要破解這樣的困局,需要從機(jī)制體制上進(jìn)行整體規(guī)劃。高校數(shù)據(jù)中心或者即將到來的科學(xué)大數(shù)據(jù)庫建設(shè)中,需要解決數(shù)據(jù)管理及評(píng)價(jià)機(jī)制的問題。
首先,評(píng)價(jià)體系需要適應(yīng)新的情況進(jìn)行相應(yīng)的變革。很多應(yīng)用學(xué)科只將計(jì)算機(jī)技術(shù)單純作為一種載體,或者是簡(jiǎn)單的處理工具,因而從事計(jì)算科學(xué)的研究人員,也常常被視為科研輔助人員,其科研成果并不能得到認(rèn)定,認(rèn)識(shí)上的局限性使得學(xué)科交叉越來越困難。
第二,數(shù)據(jù)的規(guī)范管理。目前關(guān)于數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范雖然形成于2010年前后,但其中關(guān)于數(shù)據(jù)歸屬、數(shù)據(jù)版權(quán)等焦點(diǎn)問題,并未有清晰的界定,這對(duì)于數(shù)據(jù)的生產(chǎn)者及數(shù)據(jù)的使用者,都構(gòu)成了風(fēng)險(xiǎn)。
目前國(guó)際上非常關(guān)注的“數(shù)據(jù)出版”,可以是一個(gè)新模式的探索。數(shù)據(jù)出版首先明確了數(shù)據(jù)的知識(shí)產(chǎn)權(quán),清晰界定數(shù)據(jù)的擁有權(quán),但并不妨礙其使用權(quán);第二,注明來源;第三,數(shù)據(jù)擁有一個(gè)標(biāo)識(shí),可以提供使用者隨時(shí)訪問到需要的數(shù)據(jù)。如此,既可以讓數(shù)據(jù)的開放共享更規(guī)范,也可以讓科研人員更愿意開放數(shù)據(jù),供需的矛盾或能得以化解。
大數(shù)據(jù)帶來機(jī)遇,也帶來許多挑戰(zhàn),需要我們條分縷析,因時(shí)應(yīng)勢(shì),破解束縛,才能釋放出大數(shù)據(jù)無窮的能量。
中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心科學(xué)數(shù)據(jù)中心主任
CODATA中國(guó)委員會(huì)秘書長(zhǎng)黎建輝