陳書賢,劉桂鋒,劉 瓊
(江蘇大學(xué)科技信息研究所,鎮(zhèn)江 212013)
從21 世紀(jì)初萌芽的開放獲取到如今大熱的開放數(shù)據(jù)和開放科學(xué),以知識(shí)共享為特征的開放運(yùn)動(dòng)在多領(lǐng)域縱深發(fā)展,開放的概念已經(jīng)深入人心[1]。在開放數(shù)據(jù)的大背景下,科學(xué)研究進(jìn)入了第四范式,數(shù)據(jù)密集型時(shí)代隨之到來(lái),科學(xué)數(shù)據(jù)的共享也成為全球的共識(shí),科學(xué)數(shù)據(jù)的開放共享及管理逐漸成為開放科學(xué)建設(shè)的核心[2]。為解決科研數(shù)據(jù)領(lǐng)域的數(shù)據(jù)開放問(wèn)題,F(xiàn)AIR原則于2014 年在荷蘭萊頓的洛倫茲研討會(huì)上被首次提出,隨后由FORCE11 工作組于2016 年正式發(fā)布。同年,Scientific Data 雜志發(fā)表了 《科學(xué)數(shù)據(jù)管理的FAIR指導(dǎo)原則》[3],探討了FAIR 原則的具體內(nèi)容,此后FAIR 原則逐漸受到科學(xué)研究領(lǐng)域,尤其是科學(xué)數(shù)據(jù)管理和開放共享領(lǐng)域的廣泛關(guān)注和研究,并逐漸向其他領(lǐng)域和行業(yè)過(guò)渡。FAIR 原則意為Findable(可發(fā)現(xiàn))、Accessible(可訪問(wèn))、Interoperable(可互操作)和Reusable(可重用),由4 個(gè)維度的15 條細(xì)則構(gòu)成,為數(shù)據(jù)管理過(guò)程提供了指導(dǎo)要素,提高了研究的透明度,助力于數(shù)據(jù)的開放共享。目前國(guó)內(nèi)對(duì)FAIR 原則的研究相對(duì)較少,主要集中在FAIR 原則的研究與實(shí)踐進(jìn)展[4]、FAIR 原則在國(guó)外生物信息學(xué)[5]和循證醫(yī)學(xué)方面的應(yīng)用實(shí)踐[6]、歐盟推進(jìn)FAIR 原則的經(jīng)驗(yàn)[7,8]等方面,除此以外,有學(xué)者通過(guò)提煉出FAIR 政策的13 個(gè)要素,結(jié)合中國(guó) 《科學(xué)數(shù)據(jù)管理辦法》,為中國(guó)的科學(xué)數(shù)據(jù)管理提供了實(shí)質(zhì)性的依據(jù)[9],還有學(xué)者分析了中國(guó)應(yīng)用FAIR原則的案例,為其他科學(xué)數(shù)據(jù)平臺(tái)落實(shí)FAIR 原則提供了實(shí)踐借鑒意義[10]。到目前為止,F(xiàn)AIR 原則的相關(guān)研究引起了諸多國(guó)內(nèi)外學(xué)者的研究興趣,產(chǎn)生了大量理論研究成果和實(shí)踐探索成果,尚未有學(xué)者對(duì)國(guó)內(nèi)外相關(guān)研究成果進(jìn)行全面、深入、系統(tǒng)的總結(jié)與梳理。本文旨在全面梳理FAIR 原則的實(shí)施策略、評(píng)估方法和工作流程,以及在國(guó)內(nèi)外各領(lǐng)域中的最新進(jìn)展和應(yīng)用情況,以期為中國(guó)科學(xué)數(shù)據(jù)的開放和管理提供借鑒和參考。
FAIR 原則從理論的提出到最終實(shí)施,必然經(jīng)歷一個(gè)曲折而漫長(zhǎng)的過(guò)程,或許存在許多問(wèn)題,需要不斷的進(jìn)行探索和改進(jìn),以科學(xué)研究數(shù)據(jù)全球聯(lián)盟(下文簡(jiǎn)稱RDA)、GO FAIR、CODATA 為主的組織機(jī)構(gòu)是促進(jìn)FAIR 原則實(shí)施的主要保障。RDA 和Force11 之間根據(jù)具體案例而開展聯(lián)合,向用戶、數(shù)據(jù)生產(chǎn)商和數(shù)據(jù)政策進(jìn)行推薦,并幫助最終用戶提供具體使用的標(biāo)準(zhǔn)、描述等;GO FAIR 則是促進(jìn)和協(xié)調(diào)FAIR 數(shù)據(jù)和服務(wù)互聯(lián)網(wǎng)的連貫發(fā)展;CODATA 支持在FAIR 數(shù)據(jù)原則下,采取適當(dāng)措施促進(jìn)開放數(shù)據(jù)和開放科學(xué)。
科學(xué)研究數(shù)據(jù)全球聯(lián)盟(RDA)于2013 年由歐盟委員會(huì)、美國(guó)政府國(guó)家科學(xué)基金會(huì)和國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所以及澳大利亞政府創(chuàng)新部共同發(fā)起[11],是一項(xiàng)由社區(qū)驅(qū)動(dòng)的倡議,其目標(biāo)是建立社會(huì)和技術(shù)基礎(chǔ)設(shè)施,以實(shí)現(xiàn)數(shù)據(jù)的公開共享和再利用。
RDA 關(guān)注整個(gè)數(shù)據(jù)生命周期,鼓勵(lì)數(shù)據(jù)生產(chǎn)者、用戶和監(jiān)管人員的加入,解決數(shù)據(jù)交換、處理和存儲(chǔ)問(wèn)題[12]。開放科學(xué)被視為推動(dòng)科學(xué)進(jìn)步和造福社會(huì)的重要組成部分,而研究數(shù)據(jù)的共享是這些目標(biāo)的核心。RDA 滿足了對(duì)開放和可互操作的研究數(shù)據(jù)共享的需求,并建立了社會(huì)、技術(shù)和跨學(xué)科的聯(lián)系,以實(shí)現(xiàn)全球范圍內(nèi)的共享。RDA 成員通過(guò)重點(diǎn)工作組(WG)和興趣小組(IG)開展工作,這些工作組和興趣小組由來(lái)自世界各地的學(xué)術(shù)界、私營(yíng)部門和政府的專家組成。任何贊同RDA 開放性、包容性和協(xié)調(diào)性指導(dǎo)原則的人都可以加入其中。
GO FAIR 是一個(gè)自下而上的,由利益相關(guān)者發(fā)起的倡議[13],于2017 年底啟動(dòng),旨在實(shí)施FAIR 數(shù)據(jù)原則,使數(shù)據(jù)Findable(可發(fā)現(xiàn))、Accessible(可訪問(wèn))、Interoperable(可互操作)和Reusable(可重用)。在荷蘭、德國(guó)和法國(guó)政府的支持下,成立了GO FAIR 國(guó)際支持與協(xié)調(diào)辦公室。GO FAIR 通過(guò)建立網(wǎng)絡(luò)(INs),向個(gè)人、機(jī)構(gòu)和組織提供一個(gè)開放和包容的生態(tài)系統(tǒng),其三大支撐支柱如表1 所示[14],愿景、使命及戰(zhàn)略如表2 所示[15]。
表1 GO FAIR 三大支撐支柱Table 1 Three pillars of GO FAIR
表2 GO FAIR 愿景、使命及戰(zhàn)略Table 2 The vision,mission and strategy of GO FAIR
國(guó)際數(shù)據(jù)委員會(huì)(以下簡(jiǎn)稱CODATA),作為國(guó)際科學(xué)理事會(huì)(ISC)的數(shù)據(jù)委員會(huì),CODATA 助力ISC 實(shí)現(xiàn)把科學(xué)作為全球公共利益產(chǎn)品并加以推進(jìn)的愿景[16]。其目標(biāo)是通過(guò)促進(jìn)國(guó)際合作來(lái)推動(dòng)開放科學(xué),提高所有研究領(lǐng)域數(shù)據(jù)的可用性和實(shí)用性。CODATA 支持這樣一個(gè)原則,由研究產(chǎn)生的和可能用于研究的數(shù)據(jù)應(yīng)盡可能地開放,并在必要時(shí)盡可能地封閉。CODATA還致力于提高科研數(shù)據(jù)的互操作性和可用性,即研究數(shù)據(jù)應(yīng)該是符合FAIR(可發(fā)現(xiàn)、可訪問(wèn)、可互操作和可重用)原則的。
技術(shù)的進(jìn)步使科學(xué)數(shù)據(jù)更加密集且相互關(guān)聯(lián),研究人員在不斷生產(chǎn)科學(xué)數(shù)據(jù)的同時(shí)更強(qiáng)調(diào)使數(shù)據(jù)FAIR化。FAIR 原則作為數(shù)據(jù)管理的指南,滿足了對(duì)機(jī)器可操作數(shù)據(jù)的需求,并適用于各種利益相關(guān)者群體,包括數(shù)據(jù)生產(chǎn)者、數(shù)據(jù)供應(yīng)商和數(shù)據(jù)管理員等[3]。最初的FAIR 原則包括15 條基本細(xì)則,這些細(xì)則主要圍繞可發(fā)現(xiàn)、可訪問(wèn)、可互操作和可重用這4 個(gè)基本原則,4個(gè)原則各有偏重,以滿足潛在重用者對(duì)數(shù)據(jù)發(fā)現(xiàn)和后續(xù)評(píng)估的需求。
Findable 可發(fā)現(xiàn)是實(shí)現(xiàn)數(shù)據(jù)共享和重用的前提,科學(xué)數(shù)據(jù)及其元數(shù)據(jù)都應(yīng)易被人和計(jì)算機(jī)發(fā)現(xiàn),且機(jī)器可讀元數(shù)據(jù)對(duì)于自動(dòng)發(fā)現(xiàn)數(shù)據(jù)集和服務(wù)至關(guān)重要。FAIR 數(shù)據(jù)擁有持久、唯一、可識(shí)別的標(biāo)識(shí)符,能在網(wǎng)頁(yè)上解析并與一系列描述性元數(shù)據(jù)相關(guān)聯(lián),極大降低了查找數(shù)據(jù)的難度[17]。擁有持久性標(biāo)識(shí)符且機(jī)器可操作的元數(shù)據(jù)是實(shí)現(xiàn)FAIR 原則可發(fā)現(xiàn)的關(guān)鍵要素,在此基礎(chǔ)上提升機(jī)器的自動(dòng)化查找功能有利于縮短數(shù)字基礎(chǔ)設(shè)施和服務(wù)的工作流程,從而更好地實(shí)現(xiàn)數(shù)據(jù)的重用[18]。在FAIR 科學(xué)中,數(shù)據(jù)及相關(guān)工具都是可發(fā)現(xiàn)的,在定義明確的條件下可訪問(wèn),可互操作且可重用?;谶@樣的出發(fā)點(diǎn),歐洲開放科學(xué)云專家組指出了建立互聯(lián)網(wǎng)數(shù)據(jù)和服務(wù)公平(IFDS)體系的必要性[19],即在虛擬空間中,機(jī)器和用戶彼此可發(fā)現(xiàn)、可訪問(wèn)、可互操作,從而在受信任的網(wǎng)絡(luò)環(huán)境中重用彼此的研究成果。
Accessible 可訪問(wèn)是實(shí)現(xiàn)數(shù)據(jù)共享和重用的基本條件,一旦用戶找到他們所需的數(shù)據(jù),接下來(lái)的重點(diǎn)是他們需要知道如何訪問(wèn)這些數(shù)據(jù)。例如,在健康數(shù)據(jù)的可訪問(wèn)層面,2018 年5 月生效的歐洲 《通用數(shù)據(jù)保護(hù)條例》(GDPR)從FAIR 原則的可訪問(wèn)條件出發(fā),制定了保障數(shù)據(jù)訪問(wèn)時(shí)涉及的隱私權(quán)、道德和監(jiān)管問(wèn)題的相關(guān)條例,強(qiáng)調(diào)將個(gè)人權(quán)利納入FAIR 原則的組成中,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的負(fù)責(zé)任訪問(wèn)和使用[20]。另有研究主張使用本體來(lái)細(xì)粒度和安全地訪問(wèn)FAIR 數(shù)據(jù),并提出了基于本體的數(shù)據(jù)訪問(wèn)策略(OBAC)[21],利用領(lǐng)域本體的概念和關(guān)系進(jìn)行數(shù)據(jù)訪問(wèn)控制,并根據(jù)用戶的角色確定用戶是否有權(quán)訪問(wèn)數(shù)據(jù),同時(shí)與保護(hù)隱私的數(shù)據(jù)訪問(wèn)策略相協(xié)調(diào)。上述研究表明,對(duì)可訪問(wèn)這一維度的研究正在從理論逐漸向?qū)嵺`過(guò)渡,研究界已然開始關(guān)注并致力于解決伴隨數(shù)據(jù)訪問(wèn)而產(chǎn)生的種種問(wèn)題。
Interoperable 可互操作是實(shí)現(xiàn)數(shù)據(jù)共享和重用的重要橋梁,旨在解決數(shù)據(jù)在分析、存儲(chǔ)和處理的應(yīng)用過(guò)程中與其他數(shù)據(jù)之間的集成融合,最終目的是最大化信息產(chǎn)品的附加值??苫ゲ僮鲝?qiáng)調(diào)人類和機(jī)器之間對(duì)現(xiàn)有數(shù)據(jù)的交換和解釋,也重視機(jī)器對(duì)不同系統(tǒng)間數(shù)據(jù)的可讀性與識(shí)別,該過(guò)程涉及機(jī)器通用的詞匯表、標(biāo)識(shí)符、本體等。“可互操作” 曾經(jīng)被認(rèn)為是科學(xué)數(shù)據(jù)公平化過(guò)程的瓶頸,隨著研究的深入,學(xué)者們發(fā)現(xiàn)本體是實(shí)現(xiàn)科學(xué)數(shù)據(jù) “可互操作” 的重要前提[36]。國(guó)外學(xué)者[22]從本體和本體論層面出發(fā)提出了語(yǔ)義互操作性的概念,討論了信息集成和信息系統(tǒng)互操作的重要性,強(qiáng)調(diào)形式本體論和基于形式本體論原則在信息系統(tǒng)中的語(yǔ)義表達(dá)作用,以解決訪問(wèn)數(shù)據(jù)集以及數(shù)據(jù)格式化問(wèn)題。FAIR 的可互操作原則在本體一致的信息結(jié)構(gòu)支持下能更好的實(shí)現(xiàn),基于本體的語(yǔ)義互操作理論也拓寬了系統(tǒng)間互操作的可能性。
Reusable 可重用原則是實(shí)現(xiàn)數(shù)據(jù)重用的最終目標(biāo),科學(xué)數(shù)據(jù)及其元數(shù)據(jù)應(yīng)該得到很好的描述,以便可以在不同的操作環(huán)境中進(jìn)行復(fù)制或組合。數(shù)據(jù)重用允許其他人驗(yàn)證結(jié)果、重復(fù)實(shí)驗(yàn),并在此基礎(chǔ)上開展新的研究[23],以實(shí)現(xiàn)有效和高效的開放科學(xué)。FAIR 原則中列出的元素編纂了每個(gè)數(shù)據(jù)集需要在(元)數(shù)據(jù)本身中提供的必要細(xì)節(jié),以滿足潛在重用者對(duì)數(shù)據(jù)發(fā)現(xiàn)和后續(xù)評(píng)估的需求。例如,有學(xué)者對(duì)地球科學(xué)領(lǐng)域的22名研究人員進(jìn)行了重用數(shù)據(jù)的信息行為實(shí)驗(yàn),從而發(fā)現(xiàn)他們?nèi)绾伟l(fā)現(xiàn)和評(píng)估數(shù)據(jù)以供重用的過(guò)程[24]。多數(shù)情況下,數(shù)據(jù)共享是實(shí)現(xiàn)數(shù)據(jù)重用的前提,由于受到數(shù)據(jù)庫(kù)、數(shù)據(jù)集等的訪問(wèn)許可證和版權(quán)保護(hù)的限制,需要從法律層面尋求保障數(shù)據(jù)開放的可能性,從而許可FAIR 數(shù)據(jù)以供重用[25]。
FAIR 原則成立之初,僅為實(shí)現(xiàn)數(shù)據(jù)的可發(fā)現(xiàn)、可訪問(wèn)、可互操作以及可重用提供了指導(dǎo)方針,但沒(méi)有制定關(guān)于每條細(xì)則的具體實(shí)施方案,也并未提出評(píng)估數(shù)據(jù)FAIR 化程度的一致標(biāo)準(zhǔn)。因此,學(xué)術(shù)界、科學(xué)團(tuán)體、各類組織和社區(qū)等積極探索FAIR 原則的實(shí)踐方案,開發(fā)了支持FAIR 原則的各種工具,制定了用以評(píng)估數(shù)據(jù)FAIRness 的指標(biāo),梳理了數(shù)據(jù)FAIR 化的流程,為未來(lái)實(shí)施FAIR 原則的社區(qū)和組織提供了實(shí)踐路徑。
為了促進(jìn)FAIR 原則的落實(shí)和推廣,F(xiàn)AIRsharing將標(biāo)準(zhǔn)、數(shù)據(jù)庫(kù)、存儲(chǔ)庫(kù)及數(shù)據(jù)策略的生產(chǎn)者和消費(fèi)者緊密地聯(lián)系在一起,一方面指導(dǎo)數(shù)據(jù)消費(fèi)者發(fā)現(xiàn)、選擇和使用其所需的資源;另一方面幫助數(shù)據(jù)生產(chǎn)者的資源易被發(fā)現(xiàn)并得到廣泛的使用[26]。FAIRsharing 是由社區(qū)驅(qū)動(dòng)的數(shù)據(jù)資源平臺(tái),匯集了眾多的利益相關(guān)者群體,針對(duì)不同的利益相關(guān)者群體,F(xiàn)AIRsharing 制定了不同的FAIR 原則實(shí)施策略[27],助其實(shí)現(xiàn)數(shù)據(jù)FAIR 化,提高標(biāo)準(zhǔn)、數(shù)據(jù)庫(kù)和存儲(chǔ)庫(kù)的可發(fā)現(xiàn)和重用,具體措施詳見(jiàn)表3。
表3 利益相關(guān)者實(shí)施FAIR 原則的策略Table 3 Stakeholder strategies for implementing the FAIR principles
FAIR 不僅在學(xué)術(shù)界異?;钴S,而且隨著實(shí)踐的深入已逐漸擴(kuò)展到其他領(lǐng)域,如工業(yè)界已經(jīng)提出了開展FAIR 原則以消除 “數(shù)據(jù)孤島” 的迫切需求[28]。同時(shí),對(duì)FAIR 的數(shù)據(jù)管理也日益引起重視,基金資助組織將數(shù)據(jù)管理計(jì)劃納入研究資助周期,要求研究人員提供可重用的研究成果,F(xiàn)AIR 資助模式的提出亦加速了向數(shù)據(jù)管理實(shí)踐的過(guò)渡[29]。
FAIR 原則發(fā)布以前,許多社區(qū)和組織就有了一套實(shí)現(xiàn)數(shù)據(jù)FAIR 化的實(shí)踐標(biāo)準(zhǔn),如何在社區(qū)間達(dá)成廣泛一致的FAIR 實(shí)施方案成為一道難題。為了整合已有的FAIR 實(shí)踐方案,從現(xiàn)有方案中尋找實(shí)現(xiàn)數(shù)據(jù)重用的最佳途徑,GO FAIR 倡議構(gòu)建了FAIR 融合矩陣[30]。矩陣將實(shí)施FAIR 原則的社區(qū)匯集在一起,并列出各個(gè)社區(qū)已有的FAIR 數(shù)據(jù)資源、技術(shù)、項(xiàng)目和實(shí)踐方案等,社區(qū)之間可以互相借鑒和采納,形成一套通用的、跨學(xué)科領(lǐng)域的實(shí)施標(biāo)準(zhǔn)。
對(duì)于采用FAIR 原則的不同利益相關(guān)者而言,評(píng)估資源的FAIRness 水平已成為新的考究。通過(guò)評(píng)估現(xiàn)有資源遵循FAIR 原則的程度可以確定資源是否達(dá)到初始目標(biāo),進(jìn)而擬定改進(jìn)措施或制定下一步實(shí)施方案。目前,已有組織制定了評(píng)估FAIRness 的框架和標(biāo)準(zhǔn),如FAIR Metrics Group 制定了評(píng)估FAIRness 成熟度的14條通用指標(biāo),并以開放問(wèn)卷的方式發(fā)布供各類群體進(jìn)行自我評(píng)估[31];研究數(shù)據(jù)聯(lián)盟(RDA)成立了FAIR 數(shù)據(jù)成熟度模型工作組,制定了一套用于數(shù)據(jù)評(píng)估的通用指標(biāo)[32],并發(fā)表在RDA 建議書中;FAIRsFAIR 項(xiàng)目通過(guò)實(shí)際應(yīng)用,在RDA 指標(biāo)的基礎(chǔ)上進(jìn)行了修改和調(diào)整,增加了評(píng)估細(xì)節(jié),建立了FAIRsFAIR 指標(biāo),開發(fā)了新的FAIRness 評(píng)估工具[33]。還有學(xué)者分析了基于調(diào)查問(wèn)卷的FAIRness 自主評(píng)估方法和基于WEB 元數(shù)據(jù)收集器的半自動(dòng)化FAIRness 評(píng)估方法[34],闡明了不同方法的優(yōu)缺點(diǎn)及使用時(shí)的注意事項(xiàng),為不同領(lǐng)域的研究人員選擇合適的評(píng)估方法指明了方向。
FAIR 評(píng)估指標(biāo)的發(fā)布及FAIR 工具的開發(fā)[35]都促進(jìn)了數(shù)據(jù)FAIRization 的過(guò)程,與此同時(shí),F(xiàn)AIR 化工作流程應(yīng)運(yùn)而生并覆蓋了FAIR 原則的方方面面,該流程共包括7 個(gè)步驟[36]:①確定FAIRization 目標(biāo);②分析數(shù)據(jù);③分析元數(shù)據(jù);④定義數(shù)據(jù)(4a)和元數(shù)據(jù)(4b)的語(yǔ)義模型;⑤使數(shù)據(jù)(5a)和元數(shù)據(jù)(5b)可鏈接;⑥托管FAIR 數(shù)據(jù);⑦評(píng)估FAIR 數(shù)據(jù)。每個(gè)步驟都以FAIR 原則為依據(jù),旨在提高數(shù)據(jù)的FAIR 化水平。該工作流程適用于各個(gè)領(lǐng)域,目的是使數(shù)據(jù)FAIR化變得更容易,然而,數(shù)據(jù)流程的實(shí)施缺乏一定的管理,需要得到組織、機(jī)構(gòu)或其他利益相關(guān)者的決策支持。
與上述FAIR 化流程不同,依賴于機(jī)器處理數(shù)據(jù)的計(jì)算工作流程逐漸趨于自動(dòng)化,經(jīng)過(guò)數(shù)據(jù)收集、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析、預(yù)測(cè)建模和模擬等步驟[37],將FAIR原則融入到計(jì)算工作流中,促進(jìn)了對(duì)數(shù)據(jù)質(zhì)量的評(píng)估,并產(chǎn)生了新的數(shù)據(jù),提高了數(shù)據(jù)的標(biāo)準(zhǔn)化和可重用。
目前FAIR 原則已在醫(yī)學(xué)、生物多樣性科學(xué)、地理科學(xué)和化學(xué)等學(xué)科領(lǐng)域得到了采納與應(yīng)用,且存在跨學(xué)科交叉的現(xiàn)象。其中研究者們對(duì)醫(yī)學(xué)、生物多樣性科學(xué)與其他學(xué)科的交叉探索最早且相對(duì)深入,已形成了較為系統(tǒng)的成果及科學(xué)數(shù)據(jù)共享實(shí)踐項(xiàng)目,其他學(xué)科的研究尚在摸索階段。
(1)在醫(yī)學(xué)領(lǐng)域的應(yīng)用。FAIR 原則在醫(yī)學(xué)領(lǐng)域的應(yīng)用主要涉及循證醫(yī)學(xué)、生物醫(yī)學(xué)和臨床醫(yī)學(xué)等。為了建立高質(zhì)量的、結(jié)構(gòu)化的循證醫(yī)學(xué)數(shù)據(jù)庫(kù),實(shí)現(xiàn)循證醫(yī)學(xué)的人工智能化,國(guó)內(nèi)學(xué)者依據(jù)FAIR 原則進(jìn)行循證醫(yī)學(xué)本體的構(gòu)建,以實(shí)現(xiàn)醫(yī)學(xué)知識(shí)的快速迭代[6]。面對(duì)生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)龐大、數(shù)據(jù)質(zhì)量低且數(shù)據(jù)難以共享的難題,有關(guān)學(xué)者提出了建立跨學(xué)科領(lǐng)域的科學(xué)數(shù)據(jù)指導(dǎo)原則,完善相應(yīng)的數(shù)據(jù)評(píng)價(jià)標(biāo)準(zhǔn)和管理流程的建議[38]。在臨床醫(yī)學(xué)層面,國(guó)內(nèi)學(xué)者梳理了中國(guó)臨床研究數(shù)據(jù)管理的發(fā)展歷程,對(duì)比了國(guó)內(nèi)外臨床研究數(shù)據(jù)共享的差異性,提出以FAIR 原則指導(dǎo)臨床研究數(shù)據(jù)管理與共享的實(shí)踐[39];而國(guó)外學(xué)者[40]則討論了將臨床試驗(yàn)生物標(biāo)志物數(shù)據(jù)FAIR 化而開發(fā)的自下而上的數(shù)據(jù)集成方法,即將現(xiàn)有臨床試驗(yàn)生物標(biāo)志物數(shù)據(jù)依據(jù)FAIR原則進(jìn)行半自動(dòng)化處理,構(gòu)建生物醫(yī)學(xué)的基礎(chǔ)設(shè)施和標(biāo)準(zhǔn)體系,以促進(jìn)數(shù)據(jù)FAIR 化,優(yōu)化數(shù)據(jù)的管理工作。
(2)在交叉學(xué)科領(lǐng)域的應(yīng)用。交叉學(xué)科主要涉及生物多樣性科學(xué)、地理科學(xué)及化學(xué)領(lǐng)域。生物多樣性研究界通過(guò)建立如全球生物多樣性信息設(shè)施(GBIF)、自然歷史館藏保護(hù)協(xié)會(huì)(SPNHC)等致力于在國(guó)際上實(shí)現(xiàn)數(shù)據(jù)的公開共享和再利用。RDA 也成立了生物多樣性研究工作組,助力研究人員和創(chuàng)新者公開分享跨學(xué)科和技術(shù)的國(guó)家生物多樣性數(shù)據(jù),以應(yīng)對(duì)社會(huì)的重大挑戰(zhàn)[41]。生物多樣性科學(xué)和地理科學(xué)是FAIR 原則在學(xué)科領(lǐng)域應(yīng)用中的交叉點(diǎn)之一。隨著生物多樣性科學(xué)和地球科學(xué)的不斷發(fā)展,產(chǎn)生了數(shù)以億計(jì)的實(shí)物資源(標(biāo)本、化石等),以數(shù)字化的方式處理這些資源——使其轉(zhuǎn)化為 “數(shù)字標(biāo)本” 和 “數(shù)字藏品”,并建立相應(yīng)的數(shù)據(jù)庫(kù),與其他領(lǐng)域的數(shù)據(jù)相關(guān)聯(lián),能實(shí)現(xiàn)信息的無(wú)縫統(tǒng)一訪問(wèn)[42]。基于此,分布式科學(xué)館藏系統(tǒng)(DISSCO)應(yīng)運(yùn)而生,其技術(shù)愿景是創(chuàng)建無(wú)縫虛擬館藏[43],具體內(nèi)容如表4 所示。
表4 DISSCO 項(xiàng)目的具體內(nèi)容Table 4 Details of the DISSCO project
地理科學(xué)不僅與生物多樣性科學(xué)產(chǎn)生了跨學(xué)科發(fā)展的趨勢(shì),與化學(xué)界也產(chǎn)生了諸多交叉。國(guó)際純粹化學(xué)與應(yīng)用化學(xué)聯(lián)合會(huì)(IUPAC)和美國(guó)地球物理聯(lián)盟(AGU)為了解決科學(xué)數(shù)據(jù)共享中遇到的難題,進(jìn)行了一系列合作與探索[44],具體措施如表5 所示。
表5 IUPAC 與AGU 的實(shí)踐與合作Table 5 Practice and cooperation between IUPAC and AGU
交叉學(xué)科意味著建立跨越學(xué)科視角的統(tǒng)一知識(shí)框架,用綜合的方法整合來(lái)自不同學(xué)科的數(shù)據(jù)知識(shí),實(shí)現(xiàn)數(shù)據(jù)在學(xué)科領(lǐng)域間的流通和互操作。
(3)在其他學(xué)科領(lǐng)域的應(yīng)用。RDA 積極成立興趣工作組以支持多學(xué)科領(lǐng)域內(nèi)的數(shù)據(jù)共享,推進(jìn)FAIR 原則的采用。就農(nóng)業(yè)領(lǐng)域而言,農(nóng)業(yè)數(shù)據(jù)對(duì)國(guó)家和全球的可持續(xù)發(fā)展日益重要,RDA 成立農(nóng)業(yè)數(shù)據(jù)興趣小組(IGAD),旨在促進(jìn)農(nóng)業(yè)領(lǐng)域數(shù)據(jù)共享政策和數(shù)據(jù)管理計(jì)劃的制定,提高數(shù)據(jù)的互操作性[49]。目前,該小組制定的數(shù)據(jù)框架已被EMBL 歐洲生物信息學(xué)研究所、慕尼黑蛋白質(zhì)序列信息中心(MIPS)等組織采用;在語(yǔ)言學(xué)領(lǐng)域,語(yǔ)言學(xué)數(shù)據(jù)興趣小組(LDIG)重點(diǎn)關(guān)注語(yǔ)言學(xué)中可重復(fù)研究的問(wèn)題[50];在社會(huì)科學(xué)領(lǐng)域,RDA也成立相關(guān)興趣小組研究數(shù)據(jù)管理工作,COVID-19 數(shù)據(jù)共享建議、元數(shù)據(jù)標(biāo)準(zhǔn)目錄的創(chuàng)建等成為社會(huì)科學(xué)人員研究的熱點(diǎn)問(wèn)題[51]。
FAIR 原則在2014 年首次提出后,受到了世界范圍內(nèi)的廣泛關(guān)注,最具代表性的是歐洲,其中歐盟是在開放科學(xué)戰(zhàn)略中最早全面采納FAIR 原則并取得顯著成效的機(jī)構(gòu)之一,相比之下,F(xiàn)AIR 原則在非洲的實(shí)施相對(duì)滯后,但也初具成效。南美洲以巴西為代表,近年來(lái)也積極響應(yīng)國(guó)際GO FAIR 倡議,從國(guó)家政策到基礎(chǔ)設(shè)施自上而下開展了FAIR 運(yùn)動(dòng)。亞洲以日本相對(duì)較早地重視開放科學(xué),通過(guò)制定科學(xué)技術(shù)基礎(chǔ)規(guī)劃、建立科技關(guān)聯(lián)開放數(shù)據(jù)庫(kù)等舉措推動(dòng)研究數(shù)據(jù)的開放共享,在科學(xué)技術(shù)振興機(jī)構(gòu)JST 的科學(xué)政策保障下,F(xiàn)AIR原則在日本也得以推行[52]。與此同時(shí),由學(xué)術(shù)出版和學(xué)術(shù)資源聯(lián)盟(SPARC)發(fā)起的開放獲取周(OA Week)活動(dòng)聚集了美國(guó)、英國(guó)、澳大利亞等國(guó)家,推動(dòng)開放獲取向開放科學(xué)轉(zhuǎn)變,促進(jìn)了科學(xué)數(shù)據(jù)在國(guó)際間的共享交流[53]。本節(jié)重點(diǎn)討論FAIR 原則在歐洲、亞洲和南美洲的應(yīng)用和實(shí)施進(jìn)展。
歐盟先后出臺(tái)地平線2020 計(jì)劃(Horizon 2020)、歐洲地平線計(jì)劃(Horizon Europe)及歐洲開放科學(xué)云計(jì)劃(EOSCI)來(lái)推動(dòng)歐洲開放科學(xué)的建設(shè)。其中,科研基礎(chǔ)設(shè)施(RI)的建設(shè)是尤為重要的一環(huán),此前尚未有學(xué)者展開討論。歐洲于2002 年成立了歐洲科研基礎(chǔ)設(shè)施戰(zhàn)略論壇(ESFRI),為科研基礎(chǔ)設(shè)施制定可持續(xù)發(fā)展戰(zhàn)略和愿景,確保歐洲科研基礎(chǔ)設(shè)施在科學(xué)創(chuàng)新領(lǐng)域的先進(jìn)性[54]。ESFRI 自2006 年起發(fā)布科研基礎(chǔ)設(shè)施路線圖,并在2018 年的路線圖中首次討論了開放式科學(xué)的構(gòu)建及開放式數(shù)據(jù)管理等問(wèn)題,歐洲理事會(huì)在科研基礎(chǔ)設(shè)施的建設(shè)中引入FAIR 原則,助力科學(xué)資源的開放獲取[55]。在FAIR 原則未正式提出以前,一些代表性的分布式科研基礎(chǔ)設(shè)施在自身的發(fā)展建設(shè)中就已經(jīng)具備了FAIR 原則的特點(diǎn)[56]:①通用語(yǔ)言資源和技術(shù)基礎(chǔ)設(shè)施(CLARIN ERIC),其建立初衷就是為了克服語(yǔ)言資源領(lǐng)域的碎片化,使數(shù)據(jù)和工具更易于查找、可訪問(wèn)和可重用;②生物銀行和生物分子資源研究基礎(chǔ)設(shè)施(BBMRI-ERIC),制定標(biāo)準(zhǔn)以實(shí)現(xiàn)生物銀行領(lǐng)域相關(guān)的API 和數(shù)據(jù)模型的標(biāo)準(zhǔn)化;③歐洲板塊觀測(cè)系統(tǒng)(EPOS)推進(jìn)開放標(biāo)準(zhǔn),并在必要時(shí)與歐洲和全球的其他地球科學(xué)倡議合作開發(fā)新的標(biāo)準(zhǔn),以解決數(shù)據(jù)共享和互操作性問(wèn)題;④綜合碳觀測(cè)系統(tǒng)(ICOS ERIC),在其服務(wù)清單中為元數(shù)據(jù)存儲(chǔ)中描述的任意數(shù)字對(duì)象提供動(dòng)態(tài)登錄頁(yè),提高了數(shù)據(jù)的可訪問(wèn)性。FAIR 原則的出現(xiàn)和廣泛采用印證了上述基礎(chǔ)設(shè)施從建立之初到發(fā)展至今的開創(chuàng)性努力,越來(lái)越多的科研基礎(chǔ)設(shè)施也遵循FAIR 原則探尋跨學(xué)科間的資源共享。
最新發(fā)布的2021 路線圖將2019 年啟動(dòng)的5 個(gè)集群項(xiàng)目納入其中,分別是面向環(huán)境研究的ENVRI-FAIR、面向生命科學(xué)的EOSC-Life、面向天文學(xué)與粒子物理的ESCAPE、面向多領(lǐng)域科學(xué)分析的PaNOSC 和面向人文科學(xué)的SSHOC[57],這些項(xiàng)目旨在建立ESFRI 科研基礎(chǔ)設(shè)施和歐洲開放科學(xué)云(EOSC)之間的聯(lián)系,創(chuàng)建一個(gè)開放的、數(shù)字的、協(xié)作的空間來(lái)管理和整合各種數(shù)據(jù)和元數(shù)據(jù)。國(guó)家層面如德國(guó)建立了通用科研數(shù)據(jù)基礎(chǔ)設(shè)施GeRDI[58],法國(guó)也為推動(dòng)開放科學(xué)建立了完善的開放科學(xué)基礎(chǔ)設(shè)施體系[59]。
然而,為進(jìn)一步鞏固歐洲RI 的格局,許多方面仍有待改進(jìn)。例如,需要建立一個(gè)符合FAIR 原則的可互操作的數(shù)據(jù)系統(tǒng),且該系統(tǒng)能集成到一個(gè)運(yùn)行良好的EOSC 生態(tài)系統(tǒng)中,以滿足歐洲研究界的需求。在基礎(chǔ)設(shè)施運(yùn)營(yíng)層面,仍需進(jìn)一步加強(qiáng)科研基礎(chǔ)設(shè)施之間的合作,探索各科研基礎(chǔ)設(shè)施之間的協(xié)同作用,實(shí)現(xiàn)RI間的資源共享。
相比于歐洲和美洲,非洲在FAIR 原則的實(shí)施層面存在滯后性[60]。東非共同體意識(shí)到加強(qiáng)數(shù)據(jù)重用的必要性后,將FAIR 原則作為推動(dòng)數(shù)據(jù)共享和設(shè)計(jì)數(shù)字工具的準(zhǔn)則,并建立了東非健康開放科學(xué)云(EAOSCH),該組織作為一個(gè)實(shí)時(shí)的區(qū)域數(shù)據(jù)倉(cāng)庫(kù),用于捕獲、存儲(chǔ)、檢索、分析和管理國(guó)家及區(qū)域的健康問(wèn)題[61]。此外,非洲參與了GO-FAIR 實(shí)施網(wǎng)絡(luò)(IN Africa)的建設(shè),IN Africa 作為一個(gè)開放網(wǎng)絡(luò),致力于分享來(lái)自非洲和世界各地機(jī)構(gòu)及研究人員的成果[62]。盡管在推行FAIR 原則的進(jìn)程中有諸多進(jìn)展,但非洲的數(shù)字衛(wèi)生倡議在知識(shí)共享方面的基礎(chǔ)有限,且鋪開面較窄,面臨著后續(xù)可持續(xù)性發(fā)展問(wèn)題。
南美洲以巴西為實(shí)施FAIR 原則的典范,巴西響應(yīng)國(guó)際GO FAIR 倡議,搭建支撐FAIR 數(shù)據(jù)和服務(wù)的全球互聯(lián)網(wǎng)(IFDS),共享全球環(huán)境數(shù)據(jù)驅(qū)動(dòng)的研究和創(chuàng)新[63];政策上,巴西政府頒布 《信息公開法》,加強(qiáng)信息公開和政府?dāng)?shù)據(jù)公開[64];在開放數(shù)據(jù)研究層面,巴西于2011 年制定了 《國(guó)家開放政府行動(dòng)計(jì)劃》[65],后經(jīng)巴西科學(xué)技術(shù)信息研究所(IBICT)正式發(fā)布了《GO FAIR 巴西宣言》,關(guān)注科學(xué)和政府?dāng)?shù)據(jù)的獲取[66];巴西國(guó)際博覽會(huì)成為概念建模、本體論和公平數(shù)據(jù)元數(shù)據(jù)管理研討會(huì)的共同組織者之一[67];GO FAIR 巴西社區(qū)實(shí)施的第一個(gè)主題網(wǎng)絡(luò)是GO FAIR Health,該網(wǎng)絡(luò)已經(jīng)在公共衛(wèi)生、健康監(jiān)測(cè)、健康信息與交流、以及專業(yè)健康教育等領(lǐng)域得到了多個(gè)機(jī)構(gòu)的支持和參與。
FAIR 原則由理論提出到實(shí)踐應(yīng)用需要多方共同努力。國(guó)外的RDA、GO FAIR 和CODATA 等組織為推進(jìn)FAIR 原則,助力數(shù)據(jù)的開放共享出臺(tái)了一系列措施,取得了一系列成果,包括建立較為完善的實(shí)施FAIR 原則的策略、較為成熟的FAIR 評(píng)估模型和方法、較為穩(wěn)定的FAIR 工作流程等,在歐美國(guó)家的醫(yī)學(xué)、生物科學(xué)、地理科學(xué)和化學(xué)等領(lǐng)域已經(jīng)建立了基于FAIR原則的數(shù)據(jù)開放管理項(xiàng)目。國(guó)內(nèi)對(duì)于FAIR 原則的研究和應(yīng)用較為落后,正逐步由理論探索過(guò)渡到實(shí)踐研究階段。FAIR 原則需要融入到數(shù)據(jù)政策的制定、內(nèi)容和實(shí)施等全流程中,為科學(xué)數(shù)據(jù)的再利用起到規(guī)范和指導(dǎo)作用。在科學(xué)數(shù)據(jù)管理政策的最新進(jìn)展中,目前國(guó)內(nèi)仍缺乏國(guó)家層面對(duì)于開展FAIR 原則的政策支持,相應(yīng)的研究組織也亟待成立,對(duì)FAIR 原則的采納和實(shí)施也尚未建立統(tǒng)一的標(biāo)準(zhǔn)和共識(shí)。因此,中國(guó)應(yīng)積極將FAIR 原則納入相關(guān)數(shù)據(jù)管理政策的制定和修改中,鼓勵(lì)學(xué)術(shù)界、相關(guān)組織、數(shù)據(jù)平臺(tái)等遵循并推廣FAIR 原則,將其作為數(shù)據(jù)分享和管理的統(tǒng)一指南,打破數(shù)據(jù)壁壘,使數(shù)據(jù)更加開放。
農(nóng)業(yè)圖書情報(bào)學(xué)刊2022年8期