国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

恐龍相關(guān)數(shù)據(jù)庫的發(fā)展現(xiàn)狀與數(shù)據(jù)驅(qū)動下的研究實(shí)例剖析

2021-03-05 06:07:44梁晴晴邢立達(dá)
高校地質(zhì)學(xué)報(bào) 2021年1期
關(guān)鍵詞:化石恐龍分類

梁晴晴,邢立達(dá)

中國地質(zhì)大學(xué)(北京)地球科學(xué)與資源學(xué)院,北京 100083

1 引言

隨著科技的發(fā)展與進(jìn)步,地球科學(xué)與大數(shù)據(jù)、大平臺的關(guān)系越來越密切,這不僅涉及科學(xué)研究范式變革,更對全球相關(guān)的經(jīng)濟(jì)與產(chǎn)業(yè)變革產(chǎn)生了深遠(yuǎn)影響,“深時數(shù)字地球”(Deep-time Digital Earth,DDE)大科學(xué)計(jì)劃應(yīng)運(yùn)而生(Jackson,2008;孫樞和王成善,2009;Gantz and Reinsel,2012)。DDE是國際地質(zhì)科學(xué)聯(lián)合會(IUGS)批準(zhǔn)的第一個國際大科學(xué)計(jì)劃,由中國科學(xué)家發(fā)起并主導(dǎo),旨在建立地球大數(shù)據(jù)關(guān)聯(lián)集點(diǎn),促進(jìn)全球地學(xué)知識共享,打造出一個專業(yè)服務(wù)于地球科學(xué)的“地學(xué)谷歌”(Normile,2019),構(gòu)建全球最大的地學(xué)基礎(chǔ)數(shù)據(jù)庫群??铸堊鳛橹猩贾鲗?dǎo)地位的陸生脊椎動物,是深時地球生命演化史的重要組成部分(Currie and Kevin,1997;Fisher et al.,2000;Benton,2004)。在恐龍形態(tài)特征、生活習(xí)性以及生態(tài)環(huán)境,特別是其長達(dá)1.6億年的生命歷史、地理演化規(guī)律等方面,前人已經(jīng)積累了海量的歷史數(shù)據(jù)(Butler and Barrett,2008;Csiki et al.,2010;Langer et al.,2010;Xu et al.,2014)。如何更好地挖掘、分類、儲存和使用上述的恐龍學(xué)數(shù)據(jù),恢復(fù)恐龍生命演化進(jìn)程,細(xì)化中生代1.6億年的陸地生命系統(tǒng)發(fā)育樹(Ezcurra,2010;Nesbitt et al.,2010),已經(jīng)成為恐龍學(xué)當(dāng)今的研究熱點(diǎn)。

恐龍學(xué)研究始于19世紀(jì)40年代的英國(Owen,1842),之后的百余年里,其研究的重點(diǎn)主要為新標(biāo)本的報(bào)道(Holmes,1996),以及恐龍的科學(xué)分類系統(tǒng)與分類標(biāo)準(zhǔn)的建立(Seeley,1887;Russell,1995;Benton,2004)。其 中,在20世紀(jì)晚期,恐龍學(xué)開始邁入一個新的階段,各國學(xué)者開始嘗試解決關(guān)于恐龍起源、演化與古地理分布等方面的問題(如Bakker,1972;Russell,1993)。進(jìn)入21世紀(jì)后,古生物學(xué)家們開始嘗試使用計(jì)算機(jī)批量處理恐龍學(xué)數(shù)據(jù)(如Fisher et al.,2000),借助高分辨率CT掃描儀對化石進(jìn)行無損掃描,從而獲得其內(nèi)部結(jié)構(gòu)與海量化石CT數(shù)據(jù)(如Rayfield et al.,2001)。近二十年,恐龍學(xué)的數(shù)據(jù)量出現(xiàn)了爆發(fā)式的增長,且數(shù)據(jù)類型也不斷多樣化。為了更好地使用這些數(shù)據(jù),全球陸續(xù)出現(xiàn)了一些恐龍學(xué)、古生物學(xué)及相關(guān)數(shù)據(jù)庫。這些數(shù)據(jù)庫的涵蓋面、分析手段及特征各有千秋,然而從系統(tǒng)恐龍學(xué)角度來看,它們都不能被稱為“恐龍數(shù)據(jù)庫”。但不論是從科普性還是科學(xué)性的角度來看,恐龍都是地球深時生命演化的重要組成部分,對于即將建設(shè)的DDE地學(xué)基礎(chǔ)數(shù)據(jù)庫有著重要的作用。因此,圍繞DDE大科學(xué)計(jì)劃的需求和總體設(shè)計(jì),進(jìn)行學(xué)科知識的全面梳理和數(shù)據(jù)化,建立專屬于恐龍學(xué)的集數(shù)據(jù)抓取、標(biāo)準(zhǔn)化、共享和分析計(jì)算為一體的大數(shù)據(jù)平臺顯得極為重要(Sereno et al.,2005)。將恐龍學(xué)科與大數(shù)據(jù)相結(jié)合,開展數(shù)據(jù)驅(qū)動下的科研創(chuàng)新,不僅會極大的拓展恐龍學(xué)認(rèn)知空間,提升獲取恐龍學(xué)新知識的能力,同時可為恐龍學(xué)支撐的古生物學(xué)、地層學(xué)以及地質(zhì)年代學(xué)等研究提供創(chuàng)新活力(Holtz et al.,2004;Raskin and Pan,2005)。

2 全球恐龍學(xué)及相關(guān)數(shù)據(jù)庫建設(shè)情況概述

目前,全球已經(jīng)出現(xiàn)了一些涉及恐龍分類學(xué)、形態(tài)學(xué)、埋藏學(xué)與古地理學(xué)等方面的數(shù)據(jù)庫,搭載有數(shù)據(jù)抓取、分析和計(jì)算等技術(shù),也在嘗試使用數(shù)據(jù)庫思維解決恐龍的深時演化問題。因此,總結(jié)概況全球已有的恐龍學(xué)相關(guān)數(shù)據(jù)庫(表1),了解其架構(gòu)與優(yōu)缺點(diǎn),對于在DDE大科學(xué)計(jì)劃下建設(shè)系統(tǒng)全面的恐龍數(shù)據(jù)庫有非常重要的參考作用。經(jīng)過深入調(diào)研,按照數(shù)據(jù)庫的數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)、實(shí)際應(yīng)用、優(yōu)缺點(diǎn)以及未來發(fā)展等,將現(xiàn)有的恐龍學(xué)相關(guān)數(shù)據(jù)庫總結(jié)為以下三大類型。

(1)純科普型:主要包含化石圖片以及恐龍行為學(xué)和生態(tài)學(xué)等基礎(chǔ)文本數(shù)據(jù),以門戶網(wǎng)站的形式呈現(xiàn),用于滿足用戶的科學(xué)探索與互動需求,但這些網(wǎng)站通常也存在科學(xué)性差、數(shù)據(jù)規(guī)模小以及用戶專業(yè)背景較弱等特點(diǎn)。這些數(shù)據(jù)庫在恐龍的大眾科普方面有很大的應(yīng)用價(jià)值和發(fā)展空間。

(2)特定目標(biāo)型:主要包含恐龍3D數(shù)據(jù)、照片、附表、館藏信息文本等,以結(jié)合了如MySQL Access等數(shù)據(jù)庫管理系統(tǒng)與GIS功能的獨(dú)立系統(tǒng)或網(wǎng)頁的形式呈現(xiàn),其建設(shè)目的通常是為了解決建設(shè)者或團(tuán)隊(duì)特定的研究目的,因此在數(shù)據(jù)采集上也是有針對性地篩選數(shù)據(jù)。這類數(shù)據(jù)庫具有建設(shè)目的單一、數(shù)據(jù)規(guī)模較小、用戶群少、生命周期短等小規(guī)模數(shù)據(jù)庫的普遍缺點(diǎn),但在專業(yè)性及科學(xué)性方面較純科普型數(shù)據(jù)庫有顯著提升,更有部分?jǐn)?shù)據(jù)庫實(shí)質(zhì)上就是一個地區(qū)古生物化石標(biāo)本的“百科全書”。

(3)全面型:這個類型的數(shù)據(jù)庫最大也最復(fù)雜,全面匯集所有地質(zhì)時代的古生物學(xué)數(shù)據(jù),因此其中也包含了恐龍相關(guān)的各類型數(shù)據(jù)。其數(shù)據(jù)類型非常多樣,并集成了比較強(qiáng)大的數(shù)字化、可視化和分析功能,因此可以方便用戶查詢、獲取、共享和分析數(shù)據(jù)。這類數(shù)據(jù)庫鼓勵古生物學(xué)與信息科學(xué)、數(shù)據(jù)科學(xué)的交叉,通過數(shù)據(jù)驅(qū)動加深合作,以解決一些大規(guī)模的或全球尺度的古生物學(xué)甚至相關(guān)學(xué)科的科學(xué)問題。具體信息可以參見下文中的表1及后文的剖析。

表1 全球包含恐龍學(xué)或與之相關(guān)的數(shù)據(jù)庫(項(xiàng)目)信息表Table 1 Table of databases containing or related to dinosaurs worldwide

3 純科普型數(shù)據(jù)庫

這類數(shù)據(jù)庫以Kinetosaurs數(shù)據(jù)庫為典型代表。該數(shù)據(jù)庫由印第安納波利斯兒童博物館 創(chuàng) 始 于1999年(The Children’s Museum of Indianapolis, 2020-10)。數(shù)據(jù)內(nèi)容上包含了異特龍屬、甲龍屬、迷惑龍屬和圓頂龍屬等近30個類群的恐龍圖片、食性、行為學(xué)和生態(tài)學(xué)等字段不多的數(shù)據(jù),支持訪問者下載未上色的恐龍圖片,親手上色,因此具有較好的互動性。此外,該數(shù)據(jù)庫還包含了藝術(shù)家利用各種科學(xué)和藝術(shù)的方式創(chuàng)作的可移動恐龍雕塑,因此科普效應(yīng)以及大眾反響都比較好。然而,該類型數(shù)據(jù)庫通??茖W(xué)性不強(qiáng),缺少足夠的科學(xué)內(nèi)涵以及相應(yīng)的數(shù)據(jù)分析功能,從學(xué)術(shù)角度來說參考意義不大。

4 特定目標(biāo)型數(shù)據(jù)庫

為了降低標(biāo)本磨損、丟失造成的影響,英國建立了模式標(biāo)本在線化數(shù)據(jù)庫——GB3D Type Fossils(British Geological Survey, 2020-10),收錄了英國化石標(biāo)本的3D數(shù)字模型、高分辨率照片和化石記錄信息等數(shù)據(jù),數(shù)據(jù)主要來源于英國地調(diào)局及其合作伙伴,其中的3D模型也可以在線進(jìn)行瀏覽。值得一提的是,2010年前后,為了便于摸清分布在全國各地的古生物化石標(biāo)本,給與其更好地保護(hù)和研究,同時提供給大眾便捷的在線科普體驗(yàn),在中國國家古生物化石專家委員會開展的《全國重要古生物化石典型標(biāo)本調(diào)查與數(shù)據(jù)庫建設(shè)》項(xiàng)目支持下,我國部分地區(qū)的地質(zhì)博物館以館藏化石標(biāo)本為試點(diǎn),建立起了地區(qū)典型標(biāo)本數(shù)據(jù)庫。這些數(shù)據(jù)庫在建設(shè)手段上存在差異,比如各自采用了SQL關(guān)系型數(shù)據(jù)庫、Access關(guān)系型數(shù)據(jù)庫或ArcGIS、MapGIS等空間數(shù)據(jù)庫進(jìn)行建設(shè),但在內(nèi)容上包含了標(biāo)本圖像、表格、文本等多種數(shù)據(jù),初步實(shí)現(xiàn)了古生物數(shù)據(jù)的一體化儲存、管理、展示和應(yīng)用。在上述地區(qū)數(shù)據(jù)庫的基礎(chǔ)上,最終建立起全國古生物化石標(biāo)本數(shù)據(jù)庫(http://192.168.6.45/sdc/gsw/dashboard/index.jsp),該數(shù)據(jù)庫更像一個統(tǒng)一框架下建設(shè)的多個地方性數(shù)據(jù)庫的集成。

ODP項(xiàng)目(Farke, 2020-10)是特定目標(biāo)型數(shù)據(jù)庫的一個典型案例。該數(shù)據(jù)庫由Farke等人于2009年創(chuàng)建,聚焦鳥臀目演化(Farke et al.,2009),目前正逐漸發(fā)展為一個系統(tǒng)的恐龍附肢骨骼數(shù)據(jù)庫。ODP項(xiàng)目的科學(xué)研究價(jià)值最高,與恐龍學(xué)的關(guān)聯(lián)也最緊密。ODP的參與者不一定都是科研人員,任何人,包括一些化石愛好者都可上傳數(shù)據(jù)。因此,ODP最具特色的一點(diǎn)是鼓勵大眾去發(fā)掘和產(chǎn)生數(shù)據(jù),親身參與研究,最終使科學(xué)家和普通人能以不同的方式參與、合作并解決特定科學(xué)問題。相較于其他恐龍數(shù)據(jù)庫,ODP項(xiàng)目在科普與教育方面表現(xiàn)出截然不同的潛力(Dawson,2012a)。

ODP項(xiàng)目較少關(guān)注鳥臀目恐龍的多樣性信息,如其產(chǎn)地、層位等,而是更注重收集恐龍骨骼長度、異速生長等形態(tài)測量數(shù)據(jù)。最初目標(biāo)是收集恐龍附肢所有骨骼的長、寬等尺寸數(shù)據(jù),后根據(jù)項(xiàng)目需要調(diào)整為僅需肱骨、股骨及前后爪的測量數(shù)據(jù)。其數(shù)據(jù)來源于美國自然歷史博物館等在線文獻(xiàn)或公開展示的鳥臀目恐龍標(biāo)本,以及志愿者提供的自有數(shù)據(jù),如來自史密斯學(xué)會的Matt Carrano貢獻(xiàn)了600多個標(biāo)本的測量數(shù)據(jù)信息,包括未發(fā)表的數(shù)據(jù)。

在數(shù)據(jù)采集方面,ODP項(xiàng)目由志愿者或科研人員從上述數(shù)據(jù)來源人工讀取原始測量值,利用Google電子表格進(jìn)行數(shù)據(jù)匯總。數(shù)據(jù)采集的基本原則是:遴選某一恐龍類群中體型最大、化石保存最完整的標(biāo)本,作為數(shù)據(jù)采集的目標(biāo),獲得各種必需的原始測量值,并納入數(shù)據(jù)表;通過傳統(tǒng)的線性回歸、幾何形態(tài)測量學(xué)等方法進(jìn)行計(jì)算,量化鳥臀目恐龍附肢骨骼異速生長模式,并借助于Mesquite系統(tǒng)進(jìn)行系統(tǒng)發(fā)育分析。該過程中的一個難點(diǎn)是,系統(tǒng)發(fā)育分析的結(jié)果通常會隨著數(shù)據(jù)集更新而發(fā)生改變。ODP項(xiàng)目通過Mesquite將系統(tǒng)發(fā)育與最新文獻(xiàn)進(jìn)行動態(tài)關(guān)聯(lián),形成了一個可聯(lián)動的系統(tǒng)演化樹,有效地解決了這一問題(Farke et al.,2009)。但2013年之后,網(wǎng)站上再無進(jìn)展更新。

5 全面型數(shù)據(jù)庫及舉例剖析

不同于前兩類數(shù)據(jù)庫,全面型數(shù)據(jù)庫以匯聚地史時期完整的古生物學(xué)信息為目標(biāo)。這類數(shù)據(jù)庫涵蓋的地質(zhì)歷史長、門類齊全,其中不僅包含了化石生物學(xué)數(shù)據(jù),通常還收錄了較為豐富的古生態(tài)、古地理和地層學(xué)相關(guān)信息。由于有著強(qiáng)大的團(tuán)隊(duì)支撐和專業(yè)的運(yùn)維隊(duì)伍,因此這類數(shù)據(jù)庫通常也會定制開發(fā)一些專業(yè)的數(shù)據(jù)挖掘、可視化和分析軟件和工具,在學(xué)界的影響也很大。其中, Paleobiology Database古生物學(xué)數(shù)據(jù)庫(簡稱PBDB,University of Wisconsin-Madison, 2020-10)最具代表性。PBDB的參與者包括全球各個相關(guān)大學(xué)、博物館、研究機(jī)構(gòu)的古生物研究人員和學(xué)生;在數(shù)據(jù)內(nèi)容方面涵蓋了整個地質(zhì)歷史的所有化石類群,重點(diǎn)聚焦化石記錄和分類數(shù)據(jù)等,并包括了古生態(tài)、古地理等相關(guān)數(shù)據(jù)內(nèi)容;除了常用的文本檢索功能,PBDB平臺中還集成了圖形化檢索功能、多種多樣性統(tǒng)計(jì)分析功能,并開放了API接口供用戶直接寫代碼進(jìn)行數(shù)據(jù)實(shí)時挖掘和分析。PBDB團(tuán)隊(duì)有著長期的、較為穩(wěn)定的經(jīng)費(fèi)來源,經(jīng)過二十年的發(fā)展,已經(jīng)成為全球規(guī)模最大、發(fā)展最好、涉及面最廣且科研產(chǎn)出最多的古生物學(xué)數(shù)據(jù)庫。

PBDB是目前包含恐龍數(shù)據(jù)最多的數(shù)據(jù)庫。對比于前兩類數(shù)據(jù)庫中科學(xué)性相對較高的ODP,PBDB具備多個方面的明顯優(yōu)勢:(1)數(shù)據(jù)條目更豐富:PBDB發(fā)展歷史久,僅恐龍方面已收錄8720個化石采集層中17126個恐龍化石產(chǎn)出記錄,遠(yuǎn)多于ODP的161項(xiàng)恐龍肢骨數(shù)據(jù)條目(數(shù)據(jù)條目為一項(xiàng)數(shù)據(jù)內(nèi)容集合,可能包含多個同類型信息);(2)學(xué)術(shù)影響更大:利用谷歌學(xué)術(shù)分別對Open Dinosaur project和The Paleobiology Database dinosaur進(jìn)行簡單搜索,前者有684條搜索結(jié)果,其中首頁有4篇學(xué)術(shù)論文檢索結(jié)果,但均是關(guān)于開放性科學(xué)、互聯(lián)網(wǎng)科技的討論,其中ODP項(xiàng)目主要是作為一個研究實(shí)例被引用,未真正涉及恐龍學(xué)研究(Soares et al.,2010a,2010b;Dawson,2012a,2012b)。后者的檢索結(jié)果有3660條,其中首頁有7篇相關(guān)文獻(xiàn),小到各時期恐龍食性、體型分布演化,大到中生代恐龍形態(tài)多樣性、古生態(tài)模式及地理分區(qū),以及不同時間尺度的生物多樣性及演化,甚至包括恐龍博物館展品指導(dǎo) 等(Butler et al.,2009a;Butler et al.,2011;Noto and Grossman,2010;Brusatte et al.,2012;Benson and Mannion,2012;Carpenter,2012;O’Gorman and Hone,2012);(3)內(nèi)容更豐富:PBDB提供了一個在線資料庫,其中《非鳥恐龍的分類學(xué)與分類》提供了恐龍演化和化石記錄研究方面的理論框架(Carrano and Sampson,2004;Carrano,2005);(4)應(yīng)用領(lǐng)域更廣:除了科研,PBDB還被廣泛應(yīng)用于一些高校的古生物學(xué)、地層學(xué)和古地理學(xué)等方面的課堂教學(xué)中,具有更多的科普、教學(xué)方面的價(jià)值。

綜上所述,筆者認(rèn)為PBDB對創(chuàng)建DDE恐龍數(shù)據(jù)庫的參考意義更大,以下是對該數(shù)據(jù)庫結(jié)構(gòu)、模型以及相關(guān)研究實(shí)例的詳細(xì)介紹。

5.1 PBDB數(shù)據(jù)庫結(jié)構(gòu)

PBDB(https://paleobiodb.org/#/)是基于Perl開發(fā)的MySQL關(guān)系型數(shù)據(jù)庫,所有Perl代碼可在GitHub(https://github.com/paleobiodb/pbdb - new)上查看,并且還為用戶提供了原始數(shù)據(jù)接口,便于用戶開發(fā)專門的數(shù)據(jù)分析工具(Peters and McClennen,2015)。PBDB有六個主要的數(shù)據(jù)表,分別是參考文獻(xiàn)(published references)、分類單元名稱(taxonomic names)、分類單元同異名及分類(taxonomic synonymies and classifications)、化石產(chǎn)出記錄的重新鑒定(reidentifications of occurrences)、分類單元的化石產(chǎn)出記錄(taxonomic occurrences)和主要采集數(shù)據(jù)(primary collection data)。此外還有用以記錄生態(tài)學(xué)與埋藏學(xué)信息(ecological and taphonomic attributes of higher taxa and species)、標(biāo)本尺寸(measurements of specimens)以及數(shù)字化石圖像(data about the digital fossil images on the site)的數(shù)據(jù)表。上述數(shù)據(jù)表表現(xiàn)為一組關(guān)系表,每個化石產(chǎn)出記錄、尺寸數(shù)據(jù)和分類鑒定都與該關(guān)系表關(guān)聯(lián),因此用戶可以通過檢索功能快速獲得相關(guān)信息(詳見鄧怡穎等,2020)。

5.2 古地理與時間信息

PBDB數(shù)據(jù)庫建立之初,在古地理重建方面使用的是Chris Scotese的古地理重建模型,2014年后引入了新一代的GPlates模型(http://www.GPlates.org),將之作為默認(rèn)的重建模型。PBDB中收錄的化石記錄均包含了當(dāng)今地理坐標(biāo)和對應(yīng)的地質(zhì)年代信息,將這兩類信息與GPlates模型結(jié)合,就可以為化石記錄分配相應(yīng)的古地理坐標(biāo),實(shí)現(xiàn)古地理位置的恢復(fù)(Wright et al.,2013)。

5.3 PBDB數(shù)據(jù)模型

PBDB的數(shù)據(jù)主要分為兩種類型:一是化石產(chǎn)出記錄(occurrences),指在具體地理位置(如剖面或露頭等)產(chǎn)出,可被分類學(xué)鑒定并被PBDB收錄的化石材料;二是分類學(xué)信息(taxonomy),指使用PBDB中的生物分類法進(jìn)行劃分,得到的具有若干共同特征,但等級不同的分類群體(Peters and McClennen,2015)。

5.3.1 化石產(chǎn)出記錄

化石產(chǎn)出記錄指經(jīng)過了分類學(xué)鑒定的化石,化石產(chǎn)出記錄來自具體的地理位置(即產(chǎn)地),因此通常具有詳細(xì)的地理信息。來自同一地點(diǎn)、同一層位的化石產(chǎn)出記錄,通常會以化石采集層(collection)為單位進(jìn)行收錄。PBDB里的化石采集層通常標(biāo)注了所屬的地層單位名稱,并且多數(shù)具有詳細(xì)的地理位置信息,此外有部分采集層為博物館藏,因此還具有藏品信息或者樣品號等(Peters and McClennen,2015)。PBDB中的化石記錄多數(shù)具有明確的分類名稱,但也有部分使用了開放命名,如親近種、相似種、類群種、存疑種等等,在使用時需要注意區(qū)分。此外,化石產(chǎn)出記錄中僅保存了分類單元名稱,未包含任何分類系統(tǒng)信息,后者是由另外一類數(shù)據(jù)定義的,即分類學(xué)信息數(shù)據(jù)。

5.3.2 分類學(xué)信息

這一數(shù)據(jù)是PBDB中分類系統(tǒng)信息的基礎(chǔ)。在古生物學(xué)文獻(xiàn)中經(jīng)常存在不同觀點(diǎn)或命名沖突的問題,比如同一標(biāo)本被不同專家命名為不同的分類單元,或者同一分類單元名稱被用于不屬于一類的標(biāo)本上,因此在一個成熟的古生物學(xué)數(shù)據(jù)庫中,應(yīng)當(dāng)將分類學(xué)信息作為一種相對獨(dú)立的子系統(tǒng)進(jìn)行建設(shè)和維護(hù)。在PBDB中,分類學(xué)信息包括兩部分內(nèi)容(Peters and McClennen,2015):(1)分類單元名稱,由權(quán)威參考文獻(xiàn)定義的某個分類單元的名字;(2)觀點(diǎn),用于確定分類單元名稱狀態(tài)或彼此間關(guān)系。在PBDB中,將參考文獻(xiàn)中提煉出來的觀點(diǎn)分為四類,分別是“有證據(jù)觀點(diǎn)”、“無證據(jù)觀點(diǎn)”、“暗示觀點(diǎn)”和“二手觀點(diǎn)”。通過將分類單元名稱與觀點(diǎn)相結(jié)合,就可以生成一個代表了最新分類觀點(diǎn)的分類系統(tǒng)。這一分類系統(tǒng)是一個不斷動態(tài)更新的系統(tǒng),隨著包含觀點(diǎn)的新的文獻(xiàn)的不斷加入,這一分類系統(tǒng)也會不斷更新。經(jīng)過長期積累,PBDB已經(jīng)建立起一個包含了20個大型數(shù)據(jù)集的在線系統(tǒng)分類學(xué)檔案,并附有分類單元名稱和觀點(diǎn)的下載鏈接。其中包括了《化石海洋動物科屬綱要》、《四足動物分類》、《北美化石哺乳動物系統(tǒng)分類學(xué)數(shù)據(jù)庫》以及《非鳥恐龍的分類單元及定義》等(Carroll,1988;Sepkoski,2002;Alroy,2003a;Carrano,2005)。

5.4 應(yīng)用程序接口(API)

經(jīng)過二十年的發(fā)展,PBDB已經(jīng)成為了一個體系成熟、數(shù)據(jù)高度開放共享的數(shù)據(jù)庫系統(tǒng)。為了使數(shù)據(jù)庫中的數(shù)據(jù)利用率最大化,PBDB向訪問者開放所有公共數(shù)據(jù),鼓勵訪問者利用這些公共數(shù)據(jù)開發(fā)web、移動和桌面端的軟件。在數(shù)據(jù)使用方面,除了常規(guī)的在線文本檢索和圖形化檢索之外,PBDB還開放了應(yīng)用程序接口(Application Programming Interface,簡稱API),供有編程能力的用戶編寫網(wǎng)絡(luò)應(yīng)用程序,實(shí)時對PBDB中的數(shù)據(jù)進(jìn)行檢索和分析。例如,Varela等(2015)基于PBDB API開發(fā)了一個名為paleobioDB的R語言包,用于對PBDB中的數(shù)據(jù)進(jìn)行靈活的查詢,包括對選定數(shù)據(jù)的可視化、下載和處理。通過這一R語言包,用戶可以快捷地獲得化石產(chǎn)出記錄、分類學(xué)信息、物種豐富度以及其他有關(guān)信息,并且這些信息會以簡潔、美觀的圖表形式呈現(xiàn)。此外,開放API的另一個重要意義在于,它提供了跨平臺整合多源數(shù)據(jù)庫的數(shù)據(jù)的可能,比如,將古生物學(xué)數(shù)據(jù)庫和現(xiàn)代生物學(xué)數(shù)據(jù)庫里的數(shù)據(jù)進(jìn)行整合檢索,從而可以用古生物的數(shù)據(jù)幫助我們理解現(xiàn)存生物的歷史演化過程,反之亦然(Varela et al.,2015)。

5.5 PBDB的文本挖掘系統(tǒng)——PaleoDeepDive(PDD)

現(xiàn)有的古生物數(shù)據(jù)庫,均由人工方式進(jìn)行數(shù)據(jù)采集,因此無法保證數(shù)據(jù)的完備性,也無法避免數(shù)據(jù)采集過程中產(chǎn)生的人為偏差。為了解決這一問題,PBDB團(tuán)隊(duì)嘗試開發(fā)了一個古生物信息的機(jī)器自動閱讀系統(tǒng)——PaleoDeepDive(簡稱PDD;Peters et al.,2014)。PDD可以從文獻(xiàn)的文本、表格和圖表中自動提取數(shù)據(jù),建立數(shù)據(jù)間的關(guān)聯(lián),并最終實(shí)現(xiàn)統(tǒng)計(jì)推理與學(xué)習(xí)(圖1)。PDD目前支持多語言文獻(xiàn)的閱讀,包括英文、德文和中文等。實(shí)驗(yàn)表明,相較于人工數(shù)據(jù)采集方式,PDD可以從文獻(xiàn)中提取更加豐富、完整的數(shù)據(jù)。比如,分類單元名稱方面,PBDB通過人工方式供提取了79913個分類單元名稱和觀點(diǎn),PDD則可以自動提取出192365個,其數(shù)量遠(yuǎn)多于人工提取的方式(Peters et al.,2014)。

6 數(shù)據(jù)驅(qū)動下的恐龍學(xué)研究實(shí)例

在過去20多年里,尤其是隨著PBDB逐漸發(fā)展成型,與恐龍學(xué)相關(guān)的數(shù)據(jù)驅(qū)動下的古生物研究實(shí)例不斷涌現(xiàn)。此處僅選取其中具代表性的案例簡述如下,以期為DDE開展大數(shù)據(jù)驅(qū)動下的生命演化研究提供借鑒。

圖1 PDD工作流程示意圖(據(jù)Peters et al.,2014)Fig. 1 Schematic representation of the PaleoDeepDive workflow

6.1 白堊紀(jì)恐龍與植物協(xié)同演化

生命演化會受到一些非生物因子的影響,從而在生物類群之間產(chǎn)生協(xié)同演化,即兩個生物類群相互作用發(fā)生共同演化的現(xiàn)象,如捕食與被捕食、共生與寄生等。協(xié)同演化在現(xiàn)代生態(tài)系統(tǒng)中普遍存在,并被認(rèn)為是群落形成的重要過程(Janzen,1980),對理解新型演化的起源、激勵機(jī)制以及生物輻射現(xiàn)象至關(guān)重要。受到這種觀念的影響,古生物學(xué)家也開始在地質(zhì)時間尺度上討論古生物類群的協(xié)同演化現(xiàn)象(如Macfadden,2000;Beerling and Osborne,2006;Friis et al.,2006)。在根據(jù)化石記錄證據(jù)提出的眾多協(xié)同演化假說中,關(guān)于白堊紀(jì)植食性恐龍與被子植物的協(xié)同演化假說(如Tiffney,2004;Coria and Salgado,2005),一直是古生物演化的研究熱點(diǎn)之一。然而化石記錄能儲存的有效信息畢竟有限,這就使得驗(yàn)證古生物學(xué)的協(xié)同演化假說比較困難。通常來說,發(fā)生協(xié)同演化的多個生物類群,它們的多樣性在時間上具有明顯的一致性,即多樣性一致是證明協(xié)同演化假說成立的必要條件,但不足以證實(shí)協(xié)同演化確實(shí)發(fā)生過(Butler et al.,2009a;2009b)。因此,可以通過多樣性的不一致性,證偽生物類群之間存在協(xié)同演化。

Butler等人基于PBDB數(shù)據(jù)庫以及從其他大量原始文獻(xiàn)中整理出來的信息,使用Microsoft Access建立了一個關(guān)于白堊紀(jì)植食性非鳥恐龍與植物分布的新數(shù)據(jù)庫,并將動物區(qū)系信息與古生態(tài)、地質(zhì)時期及沉積學(xué)等數(shù)據(jù)結(jié)合分析(Butler et al.,2009a)。在這一數(shù)據(jù)庫的基礎(chǔ)之上,根據(jù)有效屬和化石記錄的數(shù)量,可以生成白堊紀(jì)植食性恐龍與主要植物類群的絕對和相對多樣性曲線圖(圖2)。從中可以獲知,除了晚白堊世的腫頭龍,其他植食性恐龍的多樣性與被子植物多樣性并不具有相關(guān)性。也就是說,從主要類群的角度來看,植食性恐龍和被子植物之間存在協(xié)同演化的假說并不能成立。而腫頭龍類與被子植物的多樣性呈正相關(guān)(圖2a,b),有可能受采樣不足的影響。同時,劍龍目與被子植物的多樣性呈負(fù)相關(guān),但與蘇鐵的多樣性卻呈正相關(guān)。針對這點(diǎn),Butler等人又進(jìn)行了更深入的研究,他們發(fā)現(xiàn)蘇鐵的系統(tǒng)發(fā)育中幾個比較關(guān)鍵的類群演化特征,都在一定程度上受恐龍類群的影響,與前人認(rèn)為恐龍是中生代蘇鐵種子傳播者的理論相符(Butler et al.,2009b),但仍未能證明二者之間存在協(xié)同演化現(xiàn)象。

圖2 植食性非鳥類恐龍(a-d)與主要植物類群(e-f)的比較(據(jù)Butler et al.,2009a)Fig. 2 Comparison of major groups of herbivorous nonavian dinosaurs, and major plant groups

6.2 量化采樣偏差對恐龍多樣性研究的影響

古生物學(xué)揭示了宏演化理論中生物多樣性的深時模式,而衡量生物多樣性的標(biāo)準(zhǔn)之一,是分類單元的多樣性。但是,所有地史時期生物多樣性研究的基礎(chǔ)數(shù)據(jù)都普遍存在不同程度的偏差,比如化石記錄的時空分布不均會產(chǎn)生采樣偏差,這種偏差在大化石的研究中的影響表現(xiàn)得更為明顯。因此,有學(xué)者提出一種“共同原因”(common cause)假說:認(rèn)為采樣和生物多樣性,可能都受到某些共同因素的影響,這一假說近些年來成為古生物學(xué)的熱點(diǎn)之一(Sepkoski,1976;Peters and Foote 2001;Smith et al.,2001;Peters,2005,2006;Benton and Emerson,2007;Wall et al.,2009)。為解決這一爭議,部分學(xué)者開始嘗試量化采樣、多樣性和共同原因之間的關(guān)系,然后通過統(tǒng)計(jì)建?;虿蓸訕?biāo)準(zhǔn)化來改善采樣偏差(Butler et al.,2011)。其中,“采樣校正”主要用于改善古生物多樣性曲線(Smith and McGowan,2007;Alroy et al.,2008;Barrett et al.,2009;Mannion et al.,2011),但是,如果深時多樣性和采樣多樣性都受到共同原因的影響,那么采樣指標(biāo)和多樣性之間的相關(guān)性,則不能完全反映出真實(shí)的因果關(guān)系。此時,試圖“校正”古生物多樣性曲線,反而可能會扭曲真正的多樣性信號(Butler et al.,2011)。

海平面變化通常被認(rèn)為是一個共同原因,它會影響淺海生物化石記錄的形成。陸地上產(chǎn)生的洪水會導(dǎo)致海平面發(fā)生變化,海平面升高可以促進(jìn)海洋環(huán)境的形成和擴(kuò)張,使得海洋生物多樣性和含磷化石呈增長態(tài)勢。但是,對陸地共同原因的機(jī)制的了解和討論都很少(Sepkoski,1976;Peters,2005;Wall et al.,2009)。Butler等人借助于PBDB的海量化石記錄,對恐龍多樣性、采樣強(qiáng)度與陸地洪水和海平面變化之間的關(guān)系進(jìn)行了定量分析,為識別陸地共同原因提供了新的思考角度(Butler et al.,2011)。該研究表明(圖3),陸洪/海平面與恐龍多樣性/采樣之間存在顯著的相關(guān)性,但經(jīng)過去趨勢和消除自相關(guān)性后,這種相關(guān)性不再存在。相比之下,多樣性和抽樣之間存在強(qiáng)相關(guān)性,經(jīng)過多種數(shù)據(jù)轉(zhuǎn)換后,仍呈穩(wěn)健的相關(guān)性。這表明,陸洪/海平面與分類多樣性/取樣之間的相關(guān)性,是所有數(shù)據(jù)中均存在的長期一致的上升趨勢所造成的。也就是說,恐龍多樣性與海平面波動無關(guān),陸地共同原因假說未能得到證實(shí)。相反,化石記錄的采樣強(qiáng)度發(fā)生變化,可能是中生代陸地生物多樣性發(fā)生短期變化的主要原因。

圖3 海平面、恐龍多樣性與沉積量等參數(shù)的比較(據(jù)Butler et al.,2011)Fig. 3 Comparison between sea-level curves, dinosaur diversity and sedimentary volume

6.3 評估化石出版的歷史數(shù)據(jù)對恐龍多樣性研究的影響

重建地質(zhì)歷史時期的生物多樣性一直是古生物學(xué)領(lǐng)域的研究熱點(diǎn)和難點(diǎn)。在大型數(shù)據(jù)庫(如PBDB)、采樣校準(zhǔn)方法與計(jì)算機(jī)建模技術(shù)等不斷發(fā)展的基礎(chǔ)上(Alroy,2003b,2010;Smith and McGowan,2007;Lloyd,2012;Starrfelt and Liow,2016),古生物多樣性的研究也逐漸開啟了新的研究視角。如何根據(jù)化石記錄中承載的信息客觀地分析地球深時生命的宏觀演化模式與過程,成為古生物學(xué)家日益關(guān)注的熱點(diǎn)。這一研究深度依賴于化石記錄的數(shù)量與數(shù)據(jù)的科學(xué)性和準(zhǔn)確性,學(xué)者已經(jīng)發(fā)現(xiàn),采樣強(qiáng)度、含化石巖石數(shù)量和分類學(xué)等因素會對生物多樣性研究產(chǎn)生干擾(如Uhen and Pyenson,2007;Benton,2008;Tarver et al.,2011;Smith et al.,2012;Smith and Benson,2013)。但是,化石出版的歷史數(shù)據(jù),或者說研究強(qiáng)度是否會對恐龍宏觀演化產(chǎn)生影響,卻很少有人考慮。

Tennant等人(2018)使用PBDB中的恐龍化石記錄數(shù)據(jù),對化石數(shù)據(jù)積累對生物多樣性評估的影響進(jìn)行了分析。他們選擇了鳥臀目、蜥腳亞目和獸腳亞目三個恐龍類群為研究目標(biāo),使用屬級化石記錄數(shù)據(jù)進(jìn)行評估,以原始多樣性和二次抽樣方法進(jìn)行分析(圖4,5)。研究表明,隨著時間的推移,化石記錄的不斷補(bǔ)充使得采樣基礎(chǔ)得到了很大的提升,但仍有一些時段或地區(qū)的恐龍多樣性極不穩(wěn)定。也就是說,歷史數(shù)據(jù)直接作用于數(shù)據(jù)庫收錄的信息內(nèi)容,從而對恐龍多樣性研究產(chǎn)生實(shí)質(zhì)性的影響。尤其是基于化石記錄的全球生物多樣性分析,會嚴(yán)重受到化石記錄不完整甚至是截然不同的區(qū)域性數(shù)據(jù)的影響。研究也表明,分類單元細(xì)化可以改善采樣偏差,科學(xué)采樣會對分類單元的分布記錄產(chǎn)生正向影響,從而提高恐龍多樣性研究的可信度(Tennant et al.,2018)。既然化石出版的歷史數(shù)據(jù)變化會對恐龍多樣性計(jì)算產(chǎn)生實(shí)質(zhì)性的影響,那么分類單元、系統(tǒng)分類學(xué)及采樣偏差等方面的歷史數(shù)據(jù)變化,是否也會對恐龍多樣性分析產(chǎn)生不同程度的影響,值得我們進(jìn)一步的思考。

圖4 新出版19世紀(jì)以來的恐龍化石記錄和屬名出現(xiàn)頻率(a,b)和累積頻率(c,d),失效或修訂的恐龍分類單元(e)(據(jù)Tennant et al.,2018)Fig. 4 Frequency (a, b) and cumulative frequency (c, d) of newly published dinosaur occurrences and genera through publication time, and invalidated or revised dinosaur taxa number (e)

圖5 原始數(shù)據(jù)(a)和二次采樣數(shù)據(jù)(b)的恐龍“全球”多樣性模式(據(jù)Tennant et al.,2018)Fig. 5 Raw (a) and subsampled data (b) of the dinosaur ‘global’ diversity model

7 總結(jié)與思考

總的來說,現(xiàn)有的恐龍學(xué)相關(guān)數(shù)據(jù)庫已經(jīng)有了二十年的歷史,并在不同程度上涉及到科普性、專一性、綜合性和分析性這四大方面,但在系統(tǒng)性、專業(yè)性和互通互聯(lián)等方面尚未完善,即尚未出現(xiàn)如PBDB之于古生物學(xué)、GBDB之于古生物學(xué)與地層學(xué)的這種意義上的系統(tǒng)的恐龍學(xué)數(shù)據(jù)庫。新一代的恐龍數(shù)據(jù)庫,應(yīng)當(dāng)是一個整合了恐龍分類學(xué)信息、化石產(chǎn)出信息、地理位置信息、生物地層信息和文獻(xiàn)信息等多項(xiàng)數(shù)據(jù)資源,打造而成的基于互聯(lián)網(wǎng)和數(shù)據(jù)庫技術(shù)的數(shù)字化科研平臺,滿足恐龍學(xué)的科研、科普、教育等全方位需求。并且,在技術(shù)方面,還需重視與當(dāng)今大數(shù)據(jù)、人工智能等技術(shù)的融合。具體而言,筆者對新一代恐龍數(shù)據(jù)庫的創(chuàng)建產(chǎn)生了以下思考:

(1)在建庫的宏觀思路方面,需要重視以下幾點(diǎn):(a)學(xué)科知識體系梳理和數(shù)據(jù)庫框架建設(shè)方面,應(yīng)該由精通大數(shù)據(jù)技術(shù)和恐龍學(xué)的學(xué)科專家負(fù)責(zé),軟件開發(fā)人員為輔;(b)數(shù)據(jù)集成過程中應(yīng)由國際專家把控?cái)?shù)據(jù)的權(quán)威性與科學(xué)性,并切合用戶當(dāng)前及未來可預(yù)見的科研、科普、教育和應(yīng)用的實(shí)際需求;(c)記錄歷史數(shù)據(jù),避免數(shù)據(jù)多解性和時效性的影響,開發(fā)多種常用的數(shù)據(jù)可視化、數(shù)據(jù)建模和數(shù)據(jù)分析工具等;(d)加強(qiáng)與全球其他恐龍學(xué)相關(guān)數(shù)據(jù)庫的共享與集成;(f)針對恐龍的科普性做針對性開發(fā),科普性要呈現(xiàn)出互動感與參與感。

(2)在數(shù)據(jù)內(nèi)容方面,應(yīng)包含以下方面:(a)具體地理位置產(chǎn)出的具有分類學(xué)鑒定特征的化石記錄,以及相關(guān)的文獻(xiàn)出處或數(shù)據(jù)來源;(b)包含年代地層、生物地層等可指示地層或地質(zhì)年代屬性的數(shù)據(jù);(c)基于GIS的采樣點(diǎn)經(jīng)緯度或基于GPlates的古地理重建數(shù)據(jù),從而可以將數(shù)據(jù)直觀地呈現(xiàn)在數(shù)字化地質(zhì)圖、地形圖、地理圖和古地理圖上。此外,還需要同時記錄與上述信息相關(guān)的歷史數(shù)據(jù),即使某些歷史數(shù)據(jù)曾被認(rèn)為是無效甚至是錯誤的,從而保證數(shù)據(jù)庫的客觀性。

(3)在數(shù)據(jù)分析功能方面,應(yīng)支持以下的功能:(a)分類學(xué)研究:可協(xié)助用戶確定標(biāo)本的系統(tǒng)分類、制作同異名錄等;(b)生物多樣性研究:支持分異度統(tǒng)計(jì)、新生率/滅絕率分析、樣品采樣偏差校正及生物地理演化等分析手段;(c)系統(tǒng)發(fā)育研究:與最新文獻(xiàn)聯(lián)動,提供支持多種構(gòu)建算法與分析方法的系統(tǒng)發(fā)育樹;等等。

(4)其他值得重視的問題:(a)必須考慮數(shù)據(jù)版權(quán)和數(shù)據(jù)共享的問題,首先要肯定數(shù)據(jù)錄入、整理專家的數(shù)據(jù)所屬權(quán),并客觀、清晰地體現(xiàn)數(shù)據(jù)來源與原始生產(chǎn)者,再賦予數(shù)據(jù)可計(jì)入引用量的DOI等指標(biāo),尊重?cái)?shù)據(jù)貢獻(xiàn)者的勞動成果;(b)關(guān)于數(shù)據(jù)庫的長期可持續(xù)發(fā)展,需要確保穩(wěn)定的人力投入與項(xiàng)目經(jīng)費(fèi)的支持,并且需要收集量大且覆蓋面廣的數(shù)據(jù)資源,開發(fā)實(shí)用的數(shù)據(jù)分析功能,設(shè)計(jì)便捷的用戶體驗(yàn)等,從而獲得廣泛的用戶群的支持。

致謝:感謝中國科學(xué)院古脊椎動物與古人類研究所潘照暉助理研究員的細(xì)心修改與指導(dǎo);感謝評審專家對本文提出了寶貴的修改意見和建議。本文系“深時數(shù)字地球”(Deep-time Digital Earth)大科學(xué)計(jì)劃的系列成果之一。

猜你喜歡
化石恐龍分類
分類算一算
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
恐龍笨笨
恐龍跑的快嗎?
恐龍大逃亡
第十二章 再見,恐龍!
第三章 化石大作戰(zhàn)
第三章 化石大作戰(zhàn)
剑河县| 绥阳县| 方山县| 正镶白旗| 清苑县| 招远市| 花莲县| 金乡县| 丹凤县| 赤峰市| 商城县| 晋中市| 马鞍山市| 普安县| 香港| 潞城市| 海盐县| 营口市| 射阳县| 锡林郭勒盟| 万年县| 将乐县| 集安市| 特克斯县| 太保市| 渝北区| 东海县| 宜良县| 霍山县| 皋兰县| 绥棱县| 同德县| 宜兴市| 兴义市| 汾阳市| 鄂州市| 凤冈县| 左贡县| 万源市| 合山市| 龙岩市|