胡修棉 ,侯明才 ,賴文
1.南京大學(xué)地球科學(xué)與工程學(xué)院,內(nèi)生金屬礦床成礦機制研究國家重點實驗室,南京210023
2.成都理工大學(xué)沉積地質(zhì)研究院,成都 610059
3.油氣藏地質(zhì)及開發(fā)工程國家重點實驗室(成都理工大學(xué)),成都 610059
數(shù)據(jù)是科學(xué)發(fā)現(xiàn)的源泉和基石?,F(xiàn)代自然科學(xué)是建立在數(shù)據(jù)基礎(chǔ)上的實證科學(xué),離開數(shù)據(jù),就談不上科學(xué)的發(fā)展。長期以來由于傳播媒介和技術(shù)的局限性,科學(xué)家的研究成果僅能以主要證據(jù)和結(jié)論的方式在專著、會議論文或期刊論文等載體上發(fā)表,而在科學(xué)研究過程中產(chǎn)生的大量直接或間接的數(shù)據(jù)多被埋沒,甚至丟棄,這是一種極大的資源浪費。隨著科學(xué)技術(shù)的快速發(fā)展,科學(xué)大數(shù)據(jù)呈現(xiàn)爆發(fā)式增長[1]。同時,信息技術(shù)的飛速發(fā)展,存儲和傳播的成本一再下降,使得數(shù)據(jù)和信息的存儲、傳播所所面臨的容量桎梏、時間和空間藩籬逐漸打破,科學(xué)數(shù)據(jù)的公開和分享的技術(shù)瓶頸被攻克,操作也變得簡單易行。
科學(xué)數(shù)據(jù)共享是科技進(jìn)步的新動力和社會發(fā)展的重要需求。科學(xué)數(shù)據(jù)的共享,一方面可以提高研究結(jié)果的可檢驗性和公信力,另一方面能夠擴展科學(xué)研究的范圍,拓寬科學(xué)研究的視角,產(chǎn)生更多的科學(xué)知識,還可以為科研以外的生產(chǎn)活動進(jìn)行開發(fā)和利用,產(chǎn)生難以預(yù)料的社會和經(jīng)濟價值[2]。正是由于科學(xué)數(shù)據(jù)共享的巨大價值,如何保存、利用科學(xué)大數(shù)據(jù)已經(jīng)成為全世界科學(xué)家所關(guān)注的熱點問題,也得到各國政府、資助機構(gòu)、出版機構(gòu)、科研單位、公眾等關(guān)注和推動。
鑒于地球系統(tǒng)的高度復(fù)雜性,其研究方法和指標(biāo)體系紛繁龐雜,數(shù)據(jù)以多種形式呈現(xiàn),如圖形圖像、文字描述、數(shù)據(jù)表格等。長期以來,由于缺乏統(tǒng)一、高效的地質(zhì)數(shù)據(jù)存儲標(biāo)準(zhǔn)和機制,海量的地質(zhì)數(shù)據(jù)散布在出版物中,或者分散地儲存在研究者手中,不但無法整合利用,甚至面臨消失的風(fēng)險。正如張旗先生和周永章教授[3]所言:“在大數(shù)據(jù)時代,地質(zhì)觀測、野外考察能否被數(shù)據(jù)化,非結(jié)構(gòu)化數(shù)據(jù)能否轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),是地質(zhì)能否進(jìn)入大數(shù)據(jù)時代科學(xué)殿堂的關(guān)鍵?!钡刭|(zhì)大數(shù)據(jù)具有多源(元)異構(gòu)、時空相關(guān)性、復(fù)雜性與模糊性、地質(zhì)體的全球性與國家利益等鮮明特點[4]。蓬勃發(fā)展的大數(shù)據(jù)科學(xué)為典型的數(shù)據(jù)密集型學(xué)科——地質(zhì)學(xué)帶來了前所未有的機遇與挑戰(zhàn)。
長期以來,科學(xué)家對巖石顯微圖像并沒有形成統(tǒng)一的標(biāo)準(zhǔn),迄今也沒有統(tǒng)一規(guī)格的巖石顯微圖像數(shù)據(jù)庫??茖W(xué)家或者科研團隊多根據(jù)自己的需要和目標(biāo)來拍攝少量的圖像,置于學(xué)術(shù)論文中或者存放到網(wǎng)絡(luò)上,作為科研成果的一部分或者教學(xué)材料。隨著近年來數(shù)字圖像技術(shù)大發(fā)展,大規(guī)模拍攝和存儲巖石顯微圖像成為了可能?!吧顣r數(shù)字地球”(DDE)是由我國科學(xué)家發(fā)起的國際大科學(xué)計劃,以“整合地球演化全球數(shù)據(jù)、共享全球地學(xué)知識”為使命,以推動地球科學(xué)研究范式的變革為愿景。出于“搶救”數(shù)據(jù)、促進(jìn)數(shù)據(jù)共享和高效利用的目的,由沉積學(xué)工作組和古地理工作組發(fā)起,與國內(nèi)沉積學(xué)界、古地理學(xué)界同行共同協(xié)商,特組織出版《巖石顯微圖像專題》,面向國內(nèi)外同仁征集符合標(biāo)準(zhǔn)的巖石顯微圖像數(shù)據(jù)成果。專題內(nèi)容包括且不限于:1)項目產(chǎn)生和獲取的未發(fā)表的巖石樣品顯微圖像數(shù)據(jù)集;2)巖石教學(xué)樣品顯微圖像數(shù)據(jù)集;3)已公開發(fā)表過的文章中涉及的巖石樣品顯微圖像數(shù)據(jù)集;4)團隊或個人收集的巖石樣本顯微圖像數(shù)據(jù)集。
不積跬步,無以至千里。通過本專題的組織和出版,一方面積累一批統(tǒng)一標(biāo)準(zhǔn)的、高質(zhì)量的巖石顯微圖像集,另一方面也是探索地學(xué)暗數(shù)據(jù)的發(fā)掘與共享模式。我們期望并號召地學(xué)界的同仁,用實際行動投入到地質(zhì)大數(shù)據(jù)的共享和利用中來。人人分享數(shù)據(jù),人人受益數(shù)據(jù)。用小小的行動來探索地學(xué)數(shù)據(jù)的共享機制,擴大基礎(chǔ)研究數(shù)據(jù)的深化研究與應(yīng)用。
本專題包括1篇沉積巖顯微圖像數(shù)據(jù)庫標(biāo)準(zhǔn)和21篇數(shù)據(jù)論文。這些數(shù)據(jù)涵蓋了青藏高原、塔里木板塊、華南板塊、華北板塊等太古代以來(約26億年至現(xiàn)代)的12類巖石5286個巖石樣本(圖1,表1)。每一個樣本包括每一個薄片的顯微圖像以及基本特征描述。本專題含27張巖石薄片信息表、46個壓縮包、19 333張顯微照片,數(shù)據(jù)量超過110 GB。這些巖石樣本涉及超過62個巖石單元的129個剖面或鉆孔,樣品分布在中國的28個?。▍^(qū)、直轄市)以及捷克波西米亞省(表2)。
圖1 《巖石顯微圖像專題》收錄的巖石樣品類型與數(shù)量
表1 《巖石顯微圖像專題》收錄的巖石樣品情況
表2 《巖石顯微圖像專題》巖石樣品地理分布情況
面向大數(shù)據(jù)時代,本專題數(shù)據(jù)集建設(shè)的目的是便于人機共用,既方便人類讀取與使用,也利于計算機去讀取與利用。前者很好理解,科學(xué)家需要更多的數(shù)據(jù)集來開展對比研究,來用于教學(xué)與大眾科普;后者是指伴隨著圖像技術(shù)和人工智能技術(shù)的蓬勃發(fā)展,基于顯微圖像的交叉研究成為了可能。實現(xiàn)這種計算機和地質(zhì)學(xué)交叉研究模式的一個重要前提就是要求一定數(shù)量的數(shù)據(jù)集和統(tǒng)一的標(biāo)準(zhǔn)和信息錄入格式,這樣才能更有效地實現(xiàn)這些數(shù)據(jù)的整合。從這個意義來講,本專題數(shù)據(jù)集豐富了巖石顯微圖像數(shù)據(jù)庫,一批高質(zhì)量的圖像數(shù)據(jù)不僅可以滿足地學(xué)研究人員的需要,也為機器學(xué)習(xí)與地質(zhì)學(xué)的交叉研究提供了重要的數(shù)據(jù)樣本。此外,這些巖石顯微圖像不僅可以作為大眾科普教育的素材,成為大眾了解地球奧秘的窗口之一,也可以直接用于圖像密碼或圖像驗證碼的素材,而一些獨特且具有神秘色彩的顯微照片更是具有一定的藝術(shù)觀賞與獵奇的價值。
感謝《中國科學(xué)數(shù)據(jù)》期刊對《巖石顯微圖像專題》的支持,特別感謝各數(shù)據(jù)論文作者的悉心整理和專題編輯的嚴(yán)謹(jǐn)工作。專題得以面世是期刊主編和編委、編輯部、審稿人、作者共同努力的結(jié)果。希望巖石顯微圖像數(shù)據(jù)集的出版能起到拋磚引玉的作用。衷心希望有更多的地質(zhì)數(shù)據(jù)集得以出版,更多的地質(zhì)暗數(shù)據(jù)被發(fā)掘與共享。只有高質(zhì)量的地質(zhì)大數(shù)據(jù)不斷積累,地質(zhì)學(xué)擁抱數(shù)據(jù)科學(xué)才有可能。相信,這一天不會太遠(yuǎn)。