国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向共享的數(shù)據(jù)存儲平臺安全體系建設(shè)

2024-12-01 00:00:00姜璐璐王鵬堯李宗聞李成贊廖方宇周園春
關(guān)鍵詞:數(shù)據(jù)安全科學(xué)服務(wù)

摘要:開放科學(xué)數(shù)據(jù)是開放科學(xué)中的必要組成部分,平衡科學(xué)數(shù)據(jù)的開放共享與安全防護(hù)是開放數(shù)據(jù)實(shí)踐中面臨的重要問題。科學(xué)數(shù)據(jù)存儲庫作為數(shù)據(jù)共享主要的承載平臺,在確保開放共享中的數(shù)據(jù)安全等關(guān)鍵問題上,發(fā)揮著重要作用。本研究通過ScienceDB的具體業(yè)務(wù)場景分析,構(gòu)建了面向通用型數(shù)據(jù)存儲庫科學(xué)數(shù)據(jù)銀行的數(shù)據(jù)安全治理體系框架。該框架在信息系統(tǒng)安全等級保護(hù)基本要求(三級)的基礎(chǔ)上,重點(diǎn)在安全組織制度、資源安全管理、環(huán)境安全管理三個維度展開了設(shè)計(jì)和建設(shè)。研究總結(jié)了科學(xué)數(shù)據(jù)銀行安全體系建設(shè)成效,從頂層布局到建設(shè)實(shí)踐層面,對數(shù)據(jù)存儲庫的安全建設(shè)提出建設(shè)建議。

關(guān)鍵詞:數(shù)據(jù)開放共享;數(shù)據(jù)安全;數(shù)據(jù)存儲庫;ScienceDB數(shù)據(jù)安全治理框架

1 "引言

大數(shù)據(jù)、人工智能等新技術(shù)的快速迭代更新,正不斷地推動著科研范式的演變發(fā)展,科學(xué)數(shù)據(jù)的價值日益凸顯,并日臻成為重要的國家戰(zhàn)略資源。2021年開放科學(xué)成為全球共識[1],開放科學(xué)數(shù)據(jù)在推動解決全球公共衛(wèi)生危機(jī)、促進(jìn)科技交流與合作、提升研究透明度及研究可復(fù)現(xiàn)性等問題上發(fā)揮了重要的作用,但因治理不當(dāng)而引發(fā)的數(shù)據(jù)安全風(fēng)險同時存在。據(jù)統(tǒng)計(jì),數(shù)據(jù)泄漏、濫用、成果搶發(fā)等是科研人員數(shù)據(jù)共享時較為主要的顧慮[2]和不容忽視的阻礙因素。因此,平衡科學(xué)數(shù)據(jù)的開放共享與安全防護(hù)愈發(fā)成為數(shù)據(jù)共享過程中的重要議題;“可開放的數(shù)據(jù)需盡可能開放,須保護(hù)的數(shù)據(jù)應(yīng)全力保護(hù)”[3]也成為科學(xué)數(shù)據(jù)共享的重要共識。

各國政府高度重視數(shù)據(jù)安全的立法保護(hù)工作。2018年5月歐盟頒布實(shí)施《一般數(shù)據(jù)保護(hù)條例(General Data Protection Regulation, GDPR)》,譽(yù)為“世上最嚴(yán)格”的數(shù)據(jù)保護(hù)法案。中國在2018年頒布了《科學(xué)數(shù)據(jù)管理辦法》,提出“政府資金資助產(chǎn)生的科學(xué)數(shù)據(jù)應(yīng)以開放為常態(tài)的原則”進(jìn)行共享;在安全規(guī)則體系建設(shè)上,中國則先后出臺了《中華人民共和國國家安全法》、《中華人民共和國網(wǎng)絡(luò)安全法》、《中華人民共和國數(shù)據(jù)安全法》及《個人信息保護(hù)法》,為各主體安全開展數(shù)據(jù)相關(guān)工作架設(shè)法律框架與制度基礎(chǔ)[4]。

實(shí)踐層面,數(shù)據(jù)存儲庫作為數(shù)據(jù)共享的重要承載平臺須具備安全的服務(wù)能力。從2016年Springer Nature開始推行的4級數(shù)據(jù)政策[5],到國際科學(xué)、技術(shù)與醫(yī)學(xué)出版商協(xié)會(International Association of Scientific, Technical and Medical Publishers,簡稱STM)于2020年發(fā)起的“開放研究數(shù)據(jù)年”[6],依托第三方數(shù)據(jù)存儲庫進(jìn)行數(shù)據(jù)共享始終是最佳實(shí)踐方式。同時,越來越多的科學(xué)家在期刊政策的要求下進(jìn)行數(shù)據(jù)共享,有統(tǒng)計(jì)顯示,中國作者在2016-2020年間發(fā)表的論文里,共享科學(xué)數(shù)據(jù)的數(shù)量增長十分明顯(5年復(fù)合增長率達(dá)15.71%)[7]??梢?,科學(xué)數(shù)據(jù)存儲庫在科學(xué)數(shù)據(jù)安全治理體系中的作用愈發(fā)重要。

科學(xué)數(shù)據(jù)存儲在我國自主可控的數(shù)據(jù)存儲庫上是數(shù)據(jù)安全的基本前提,構(gòu)建“數(shù)據(jù)領(lǐng)土”是建設(shè)數(shù)據(jù)強(qiáng)國的基礎(chǔ)[8]??茖W(xué)數(shù)據(jù)因其數(shù)字化的本質(zhì)屬性,使得科學(xué)數(shù)據(jù)的跨境形式并不單純表現(xiàn)為跨越地理國界,而是以跨越服務(wù)器邊界、網(wǎng)絡(luò)邊界等形式發(fā)生。其中,數(shù)據(jù)本地化存儲作為構(gòu)建“數(shù)據(jù)領(lǐng)土”的基本方式[8],也是確保數(shù)據(jù)安全的最基本要求。據(jù)Data Citation Index數(shù)據(jù)庫索引排名,我國科學(xué)家的數(shù)據(jù)貢獻(xiàn)量約排全球第二,作為科學(xué)數(shù)據(jù)的生產(chǎn)和輸出大國,但在re3data上的注冊數(shù)據(jù)存儲庫數(shù)量僅排全球第九位[9],目前我國科學(xué)存儲庫數(shù)量遠(yuǎn)落后于西方發(fā)達(dá)國家且缺乏國際廣泛認(rèn)可,導(dǎo)致大量數(shù)據(jù)外流。因此,建設(shè)具有顯著國際影響力自主安全的數(shù)據(jù)存儲庫迫在眉睫。

建設(shè)安全的科學(xué)數(shù)據(jù)存儲庫面臨諸多具體問題與挑戰(zhàn)。在數(shù)據(jù)安全自身的角度上,盛小平等人認(rèn)為涵蓋物理、人員、程序與技術(shù)4個維度[10];李善青等人認(rèn)為科學(xué)數(shù)據(jù)共享的安全管理需求包括確保數(shù)據(jù)的機(jī)密性、完整性以及可用性[11];此外,徐淋楠等人認(rèn)為科學(xué)數(shù)據(jù)安全問題涉及存儲、管理與應(yīng)用過程,治理路徑應(yīng)包括制度建設(shè)、安全管理機(jī)制以及安全素養(yǎng)建設(shè)[12]。

針對上述問題與挑戰(zhàn),以建設(shè)自主可控的科學(xué)數(shù)

據(jù)存儲庫為需求牽引,本文結(jié)合科學(xué)數(shù)據(jù)銀行(Science

Data Bank, 簡稱ScienceDB)具體場景,在國家信息系統(tǒng)安全等級保護(hù)基本要求基礎(chǔ)上,從組織制度建設(shè)、資源管理建設(shè)及技術(shù)保障建設(shè)上開展了安全體系的建設(shè)實(shí)踐。

2 "科學(xué)數(shù)據(jù)銀行的數(shù)據(jù)安全治理框架

科學(xué)數(shù)據(jù)銀行Science Data Bank(ScienceDB)是由中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心自主建設(shè)運(yùn)維的公共科學(xué)數(shù)據(jù)存儲庫平臺,于2015年上線服務(wù)。ScienceDB旨在服務(wù)全球開放科學(xué)數(shù)據(jù)共享事業(yè),面向全球科研工作者、科研團(tuán)隊(duì)、學(xué)術(shù)期刊及出版商、科研機(jī)構(gòu)及高校等利益相關(guān)者,提供科學(xué)數(shù)據(jù)存儲、長期保存、出版、共享和獲取等服務(wù),支持多種數(shù)據(jù)共享方式與多樣的數(shù)據(jù)許可協(xié)議,在保障數(shù)據(jù)所有人權(quán)益的基礎(chǔ)上,促進(jìn)數(shù)據(jù)的可發(fā)現(xiàn)、可引用、可重用。

2.1 "ScienceDB數(shù)據(jù)業(yè)務(wù)流程

ScienceDB的數(shù)據(jù)出版業(yè)務(wù)流程主要包括數(shù)據(jù)提交、數(shù)據(jù)審核和數(shù)據(jù)發(fā)布3個主要環(huán)節(jié),通過整個流程有效保障數(shù)據(jù)可長期保存,并在數(shù)據(jù)集審核發(fā)布后提供面向全球用戶的數(shù)據(jù)獲取服務(wù)(圖1)。

數(shù)據(jù)提交。ScienceDB對登錄用戶開放“提交數(shù)據(jù)”的功能,提供“創(chuàng)建新的數(shù)據(jù)提交”和“已發(fā)布數(shù)據(jù)的備份發(fā)布”兩種選項(xiàng),以區(qū)分是否分配新的全球唯一標(biāo)識符。為了確保提交的數(shù)據(jù)能夠被更多的用戶檢索、理解、重用以及引用,用戶須在數(shù)據(jù)提交階段提交必要的元數(shù)據(jù),上傳數(shù)據(jù)文件(瀏覽器、FTP客戶端或第三方資源導(dǎo)入方式)。提交者完成元數(shù)據(jù)和文件提交后,可進(jìn)入數(shù)據(jù)審核階段。

數(shù)據(jù)審核。ScienceDB會對提交的數(shù)據(jù)集進(jìn)行基本的形式審核工作。審核內(nèi)容包括但不限于以下內(nèi)容:數(shù)據(jù)內(nèi)容是否符合ScienceDB站點(diǎn)服務(wù)條款關(guān)于“內(nèi)容”的相關(guān)規(guī)定;是否涉及隱私或倫理問題;若提交的數(shù)據(jù)涉及人類數(shù)據(jù)、動物數(shù)據(jù),需遵循相關(guān)規(guī)定。ScienceDB會對提交的元數(shù)據(jù)與數(shù)據(jù)文件的一致性進(jìn)行檢查。ScienceDB還會對提交信息的完整性進(jìn)行檢查,比如元數(shù)據(jù)層面是否盡可能完整地提供了必要的描述信息,數(shù)據(jù)及數(shù)據(jù)文件是否存在缺失的情況,缺失部分是否有明確的說明。為確保數(shù)據(jù)具有良好可讀性,ScienceDB會檢查數(shù)據(jù)文件格式是否符合ScienceDB推薦使用數(shù)據(jù)格式說明。

數(shù)據(jù)發(fā)布。當(dāng)數(shù)據(jù)集“審核通過”后,ScienceDB會盡快在站點(diǎn)發(fā)布數(shù)據(jù)集。同時,為發(fā)布的數(shù)據(jù)集配套唯一標(biāo)識自動注冊及管理服務(wù),確保所有出版數(shù)據(jù)集分配全球唯一標(biāo)識,支持DOI(Digital Object Identifier) 和CSTR( Common Science and Technology Resource) 標(biāo)識體系注冊及認(rèn)證。

數(shù)據(jù)獲取。數(shù)據(jù)集公開發(fā)布后,全球用戶均可在線獲取ScienceDB上發(fā)布的數(shù)據(jù)集元數(shù)據(jù)和數(shù)據(jù)文件。保護(hù)期或限制性獲取的數(shù)據(jù),可在相應(yīng)的機(jī)制下獲得數(shù)據(jù)文件。ScienceDB允許通過開放存檔計(jì)劃元數(shù)據(jù)收割協(xié)議(OAI-PMH)獲取已公布的數(shù)據(jù)集元數(shù)據(jù)。

數(shù)據(jù)長期保存。平臺已公開的數(shù)據(jù),ScienceDB需要進(jìn)行數(shù)據(jù)安全分級、長期保存管理和異地備份,以保障數(shù)據(jù)文件及公開資源的永久可訪問。

2.2 "安全治理體系建設(shè)

對于通用型科學(xué)數(shù)據(jù)存儲庫ScienceDB來說,相較于其他領(lǐng)域的數(shù)據(jù)安全,其數(shù)據(jù)安全需要考慮以下幾個特點(diǎn):

數(shù)據(jù)內(nèi)容多元性。通用型科學(xué)數(shù)據(jù)存儲庫對學(xué)科領(lǐng)域和數(shù)據(jù)格式不做強(qiáng)制性要求,因此內(nèi)容的合規(guī)性、安全性判斷需要一套能適配多學(xué)科的安全制度體系建設(shè)。同時因?yàn)榭茖W(xué)發(fā)展日新月異,通用型存儲庫必須

具備在工程安全前提下的快速迭代能力。

數(shù)據(jù)可獲取性要求高??茖W(xué)數(shù)據(jù)共享領(lǐng)域共識的FAIR原則和TRUST[13]原則都強(qiáng)調(diào)數(shù)據(jù)的持續(xù)獲取能力,存儲庫作為數(shù)據(jù)共享的主要載體,必須具備資源安全管理能力以保障數(shù)據(jù)的持久性存儲和供給,作為通用型學(xué)科存儲庫,其數(shù)據(jù)資源是海量的,存儲結(jié)構(gòu)是異構(gòu)的,因此必須形成配套的資源安全管理體系才能實(shí)現(xiàn)資源的持久性供給。

運(yùn)行和訪問環(huán)境復(fù)雜。科學(xué)數(shù)據(jù)銀行作為全球論文數(shù)據(jù)發(fā)布支撐平臺,必須以影響力傳播為目標(biāo)進(jìn)行安全體系建設(shè),也就意味著科學(xué)數(shù)據(jù)銀行需要在全球開放的互聯(lián)網(wǎng)環(huán)境中實(shí)現(xiàn)數(shù)據(jù)安全。因此ScienceDB不僅需要滿足等保三的要求,更要重點(diǎn)在環(huán)境安全角度加強(qiáng)體系建設(shè),保障存儲庫的可靠運(yùn)行。

因此,結(jié)合科學(xué)數(shù)據(jù)存儲庫的實(shí)際業(yè)務(wù)場景,科學(xué)數(shù)據(jù)共享過程中面臨的挑戰(zhàn)主要來自數(shù)據(jù)內(nèi)容的安全性、數(shù)據(jù)存儲的安全性、數(shù)據(jù)傳輸?shù)陌踩院蛿?shù)據(jù)共享服務(wù)的安全性等問題。其中,數(shù)據(jù)內(nèi)容的安全性涉及數(shù)據(jù)是否涉敏涉密,是否存在危害國家安全的內(nèi)容,數(shù)據(jù)是否具備可用性等問題,其核心是解決數(shù)據(jù)的“合規(guī)”要求;數(shù)據(jù)存儲的安全性包括存儲環(huán)境的災(zāi)備能力、存儲隔離策略等能力,以解決存儲過程中可能面臨的臟數(shù)據(jù)寫入、數(shù)據(jù)丟失等問題;數(shù)據(jù)傳輸?shù)陌踩园〝?shù)據(jù)完整性校驗(yàn)、傳輸安全策略等,以防范傳輸過程中可能存在的數(shù)據(jù)被篡改、文件損失等問題;數(shù)據(jù)共享服務(wù)的安全性包括受控訪問、數(shù)據(jù)溯源、行為監(jiān)控、安全審計(jì)及日志管理等,以確保數(shù)據(jù)訪問、用戶行為等的安全性。

可見,信息系統(tǒng)安全等級保護(hù)基本要求(三級,以下簡稱“三級等保要求”)僅是一個科學(xué)數(shù)據(jù)存儲庫的基礎(chǔ),而數(shù)據(jù)安全治理的建設(shè)遠(yuǎn)不止于此。因此,結(jié)合上文業(yè)務(wù)場景分析,ScienceDB在三級等保要求的基礎(chǔ)上,從安全組織制度、資源安全管理及環(huán)境安全管理三個方面開展安全治理體系建設(shè)(見圖2)。

安全組織制度建設(shè)。保障數(shù)據(jù)安全治理可長期合理合規(guī)開展,組織制度建設(shè)尤為重要。為此,從平臺數(shù)據(jù)政策制定、平臺工程安全控制、人員與專家隊(duì)伍上開展建設(shè)工作,在規(guī)范相關(guān)數(shù)據(jù)治理等行為上形成制度要求。

資源安全管理。數(shù)據(jù)資源是科學(xué)數(shù)據(jù)存儲庫的核心資源,資源的安全管理建設(shè)占據(jù)ScienceDB安全體系建設(shè)的中心位置。對科學(xué)數(shù)據(jù)存儲庫來說,其重要

數(shù)字資源主要包括數(shù)據(jù)集的元數(shù)據(jù)信息、數(shù)據(jù)文件和用戶信息,需要從安全審計(jì)、存儲安全性管理、資源完整性管理、用戶信息管理上建立資源安全管理體系。

環(huán)境安全管理。此外,軟硬件設(shè)施是ScienceDB的基本服務(wù)載體,因此技術(shù)保障體系建設(shè)是安全體系的基礎(chǔ)。為了使ScienceDB能夠持續(xù)穩(wěn)定地為全球用戶提供可靠服務(wù),平臺從硬件環(huán)境、軟件平臺和高可用保障三個維度,構(gòu)建了一套集監(jiān)控、告警、追蹤和高可用為一體的技術(shù)保障體系。

3 "數(shù)據(jù)安全治理框架的組織制度

為保障ScienceDB的數(shù)據(jù)安全治理合理合規(guī)并長期有效運(yùn)行,平臺制定了一系列組織制度,以規(guī)范相關(guān)數(shù)據(jù)安全治理行為。包括ScienceDB的數(shù)據(jù)政策,對數(shù)據(jù)提交者、服務(wù)使用者等用戶行為進(jìn)行了規(guī)定要求,并公布在平臺站點(diǎn),進(jìn)行持續(xù)更新維護(hù);還結(jié)合敏捷開發(fā)和CI/CD等軟件工程管理技術(shù),制定了一套工程控制流程,確保平臺軟件研發(fā)和更新過程中ScienceDB提供持續(xù)、可靠和穩(wěn)定的服務(wù);同時,ScienceDB還配套了專門的數(shù)據(jù)治理團(tuán)隊(duì),包括數(shù)據(jù)出版、技術(shù)研發(fā)、學(xué)科領(lǐng)域等方面專業(yè)人員,對數(shù)據(jù)內(nèi)容進(jìn)行質(zhì)量把控治理。

3.1 "平臺數(shù)據(jù)政策

首先,用戶接受ScienceDB的“服務(wù)條款”是使用ScienceDB各項(xiàng)服務(wù)的前提條件。使用服務(wù)包括通過ScienceDB平臺或第三方平臺擁有、運(yùn)作或許可的軟件或其他任何方式(如RSS源和站外API引用等)使用這些服務(wù)?!胺?wù)條款”明確說明了使用服務(wù)具有法律約束力的條款和條件。主要包括用戶對條款的接受、使用條款的修改、使用規(guī)則、賬戶注冊、第三方網(wǎng)站、API與OAI服務(wù)、內(nèi)容與許可、用戶提交、終止、免責(zé)聲明、費(fèi)用及付款、知識產(chǎn)權(quán)爭議處理政策等條款。服務(wù)條款的內(nèi)容,公開發(fā)布在ScienceDB平臺。數(shù)據(jù)提交者在進(jìn)行數(shù)據(jù)提交流程之前,平臺會再次提示數(shù)據(jù)提交須知,其中就包含“服務(wù)條款”事項(xiàng)、數(shù)據(jù)內(nèi)容要求、數(shù)據(jù)所有權(quán)說明、元數(shù)據(jù)使用協(xié)議、評審和發(fā)布流程。

同時,在ScienceDB的數(shù)據(jù)政策研究中,歸納了幾類數(shù)據(jù)提交規(guī)范的具體要求。從數(shù)據(jù)集內(nèi)容層面,ScienceDB提出了對數(shù)據(jù)的真實(shí)性、符合國家/行業(yè)/地區(qū)或單位開放共享的規(guī)定的要求;從行為層面,則要求提交者應(yīng)對數(shù)據(jù)擁有相應(yīng)的知識產(chǎn)權(quán)、報告數(shù)據(jù)錯誤的義務(wù)。對于一些人類研究數(shù)據(jù)、動物數(shù)據(jù)、醫(yī)學(xué)實(shí)驗(yàn)數(shù)據(jù)、地圖數(shù)據(jù)、含敏感信息數(shù)據(jù)、經(jīng)脫敏處理的數(shù)據(jù),ScienceDB則編制了《ScienceDB數(shù)據(jù)脫敏聲明》模板并規(guī)定了提交流程,還對提交者應(yīng)遵循或參考的國內(nèi)外法律法規(guī)文件提出建議,如《中華人民共和國人類遺傳資源管理?xiàng)l例》《中華人民共和國生物安全法》《涉及人的生物醫(yī)學(xué)研究倫理審查辦法》《英國動物(科學(xué)程序)法》及相關(guān)指南、歐盟《保護(hù)用于科學(xué)目的的動物(2010/63/EU)》、美國國家衛(wèi)生研究院《關(guān)于實(shí)驗(yàn)室動物的護(hù)理和使用(第八版)》等。此外,ScienceDB還對科學(xué)數(shù)據(jù)的重復(fù)發(fā)布行為進(jìn)行了說明和要求。

為了在保障數(shù)據(jù)作者權(quán)益的前提下進(jìn)行數(shù)據(jù)開放共享,ScienceDB還提供了三類數(shù)據(jù)許可協(xié)議:通用許可協(xié)議(CC0、CC-BY 4.0、CC BY-SA 4.0、CC BY-NC 4.0、CC BY-NC-SA 4.0、CC BY-ND 4.0、CC BY-NC-ND 4.0),數(shù)據(jù)庫許可協(xié)議(PDDL、ODC-By和ODbL)和軟件許可協(xié)議(MIT、Apache-2.0、AGPL-3.0、LGPL-2.1、GPL-2.0、GPL-3.0、BSD-2- Clause、BSD-3-Clause、MPL-2.0、BSL-1.0、EPL-2.0和The Unlicense)。此外,ScienceDB還提供數(shù)據(jù)文件限制性獲取功能(Restricted Access),數(shù)據(jù)集作者可自定義數(shù)據(jù)獲取條件,并自行決定是否授予用戶數(shù)據(jù)獲取權(quán)限。

3.2 "工程安全控制

ScienceDB作為一個長期安全穩(wěn)定服務(wù)的數(shù)據(jù)存儲庫,一直在不斷地進(jìn)行迭代更新,為了保障平臺軟件研發(fā)和更新過程中ScienceDB提供持續(xù)、可靠和穩(wěn)定的服務(wù),在國家信息系統(tǒng)安全等級保護(hù)三級要求基礎(chǔ)之上,結(jié)合敏捷開發(fā)[14]和CI/CD(持續(xù)集成/持續(xù)部署)[15]等軟件工程管理技術(shù),ScienceDB制定了一套完整的工程控制流程(圖3)。

該套控制流程分為兩套隔離的Kubernets環(huán)境,分別為研發(fā)測試環(huán)境和生產(chǎn)環(huán)境,當(dāng)研發(fā)團(tuán)隊(duì)完成某一項(xiàng)軟件功能模塊研發(fā)工作后并提交代碼后,首先會自動觸發(fā)代碼AST檢查和SCA分析,檢查代碼和其

依賴的安全漏洞。安全檢查通過后,會根據(jù)配置運(yùn)行單元測試,驗(yàn)證單元功能完整性。最后打包部署到測試環(huán)境中,由測試團(tuán)隊(duì)在測試環(huán)境中進(jìn)行業(yè)務(wù)測試。測試過程則根據(jù)敏捷開發(fā)原則記錄議題并通過看板設(shè)置計(jì)劃進(jìn)行回歸。當(dāng)回歸結(jié)束時,再觸發(fā)發(fā)布流程,自動化進(jìn)行正式版本標(biāo)記打包部署到生產(chǎn)環(huán)境中。

敏捷開發(fā)在ScienceDB研發(fā)流程中的落地,保障了平臺所有代碼和測試問題的可回溯追蹤和版本控制。整個平臺軟件代碼由研發(fā)、測試和線上三個主分支組成,當(dāng)線上代碼出現(xiàn)問題時,可快速由線上分支檢出問題分支進(jìn)行修復(fù),修復(fù)后再合并到測試分支在測試環(huán)境進(jìn)行測試回歸,測試通過后則合并回線上分支進(jìn)行部署。

通過該流程控制,ScienceDB軟件開發(fā)升級流程實(shí)現(xiàn)了全程自動化;敏捷看板等工具的使用則使得回歸和測試流程可見和可控;環(huán)境的隔離則保障了研發(fā)測試環(huán)境和線上生產(chǎn)環(huán)境之間的數(shù)據(jù)安全;以上的措施使得ScienceDB軟件建設(shè)在做到快速響應(yīng)的同時可以保證平臺服務(wù)安全穩(wěn)定地持續(xù)迭代。

3.3 "數(shù)據(jù)治理團(tuán)隊(duì)

在數(shù)據(jù)審核階段,ScienceDB配備了多維度的專業(yè)數(shù)據(jù)治理團(tuán)隊(duì)進(jìn)行數(shù)據(jù)內(nèi)容質(zhì)量審核把控。數(shù)據(jù)治理團(tuán)隊(duì)涵蓋數(shù)據(jù)出版研究人員、技術(shù)研發(fā)人員、法務(wù)人員、學(xué)科領(lǐng)域?qū)<业?,可從?shù)據(jù)出版、軟件開發(fā)、數(shù)據(jù)合規(guī)、專業(yè)領(lǐng)域等方面進(jìn)行數(shù)據(jù)集出版的全方位把控治理。

同時,ScienceDB中創(chuàng)建了學(xué)術(shù)期刊、數(shù)據(jù)期刊和科研機(jī)構(gòu)等多種類型的數(shù)據(jù)開放社區(qū),用于治理并出版論文關(guān)聯(lián)數(shù)據(jù)。這些社區(qū)由期刊、科研團(tuán)隊(duì)、機(jī)構(gòu)或數(shù)據(jù)中心治理,由領(lǐng)域數(shù)據(jù)治理團(tuán)隊(duì)、專家團(tuán)隊(duì)共同審核。例如《中國科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)》《核技術(shù)(英文版)》《中國物理B》等期刊,數(shù)據(jù)治理團(tuán)隊(duì)則為其編輯部的專業(yè)編輯人員,結(jié)合論文的同行評議評審,按論文出版與數(shù)據(jù)出版的相關(guān)要求,進(jìn)行治理工作。再如農(nóng)業(yè)農(nóng)村科學(xué)數(shù)據(jù)倉儲社區(qū)(ScienceDB·Agricultureamp;Rural Area)、空間科學(xué)領(lǐng)域社區(qū)(ScienceDB·Space)、國家生態(tài)科學(xué)數(shù)據(jù)存儲庫(ScienceDB·EcoDB)、心理科學(xué)數(shù)據(jù)銀行(Psychological Science Data Bank)等學(xué)科領(lǐng)域數(shù)據(jù)社區(qū),則配套了國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心、國家空間科學(xué)數(shù)據(jù)中心、國家生態(tài)科學(xué)數(shù)據(jù)中心、中國科學(xué)院心理研究所的領(lǐng)域?qū)W者團(tuán)隊(duì),從學(xué)科的數(shù)據(jù)管理需求維度進(jìn)行數(shù)

據(jù)質(zhì)量審核,幫助提升數(shù)據(jù)成果的價值和影響力。

4 "數(shù)據(jù)資源管理

ScienceDB平臺的關(guān)鍵主體是數(shù)據(jù)資源,因此數(shù)據(jù)資源管理建設(shè)在整個ScienceDB安全體系建設(shè)的中心位置。ScienceDB的核心數(shù)據(jù)資源包括: 數(shù)據(jù)集元數(shù)據(jù),數(shù)據(jù)集實(shí)體文件,平臺用戶信息三大部分。針對這三類數(shù)據(jù)資源,ScienceDB從以下四個方面進(jìn)行了安全管理體系建設(shè)。

4.1 "數(shù)據(jù)內(nèi)容安全管理

數(shù)據(jù)發(fā)布管理。為確保提交數(shù)據(jù)可被更多的用戶檢索、理解、重用以及引用,ScienceDB需要上傳者提供數(shù)據(jù)集的元數(shù)據(jù)信息。ScienceDB對核心元數(shù)據(jù)條目(如標(biāo)題、關(guān)鍵詞、描述信息等)有“必填”的要求,而“選填項(xiàng)”的內(nèi)容則根據(jù)數(shù)據(jù)集的具體情況酌情填寫。提交者完成文件和元數(shù)據(jù)提交和錄入后,即可提交數(shù)據(jù)至數(shù)據(jù)審核階段。數(shù)據(jù)內(nèi)容評審內(nèi)容包括用戶提交的元數(shù)據(jù)和數(shù)據(jù)文件兩部分,審核過程由兩部分組成,即自動化的數(shù)據(jù)內(nèi)容安全評審和人工數(shù)據(jù)審核。其中,自動化審核采用AI輔助審核機(jī)制,自動判斷數(shù)據(jù)集元數(shù)據(jù)中的圖片和文字是否包含敏感信息,完成內(nèi)容審核的初篩并給出審理意見。人工審核由數(shù)據(jù)治理團(tuán)隊(duì)和各社區(qū)專家、論文同行評議專家共同完成。審核標(biāo)準(zhǔn)遵循平臺數(shù)據(jù)政策及作者相關(guān)行為規(guī)范要求、ScienceDB的數(shù)據(jù)評審標(biāo)準(zhǔn)等[16]。數(shù)據(jù)完成審核后由系統(tǒng)完成元數(shù)據(jù)的格式轉(zhuǎn)換,并依不同共享模式提供數(shù)據(jù)共享服務(wù)。

數(shù)據(jù)撤銷管理。對于發(fā)布后發(fā)現(xiàn)存在錯誤不宜繼續(xù)公開共享的數(shù)據(jù),ScienceDB對應(yīng)提供了數(shù)據(jù)撤銷管理流程。數(shù)據(jù)撤銷操作由數(shù)據(jù)提交者發(fā)起,并向平臺提交一份撤銷聲明。平臺數(shù)據(jù)審核團(tuán)隊(duì)就撤銷聲明等申請材料審核后,對數(shù)據(jù)進(jìn)行撤銷操作。為確保已發(fā)布且注冊唯一標(biāo)識的數(shù)據(jù)永久可訪問,數(shù)據(jù)撤銷操作并不會撤銷掉元數(shù)據(jù)發(fā)布頁,而是移除數(shù)據(jù)實(shí)體文件,并發(fā)布數(shù)據(jù)撤銷聲明。

4.2 "存儲安全性

存儲安全性涉及多個關(guān)鍵領(lǐng)域,在云服務(wù)中,主要涉及數(shù)據(jù)存儲問題(數(shù)據(jù)隱私、數(shù)據(jù)恢復(fù)、不當(dāng)內(nèi)容、數(shù)據(jù)備份);訪問控制問題(內(nèi)外部的越權(quán)訪問和數(shù)據(jù)竊?。?;合同法律問題[17]。針對數(shù)據(jù)存儲問題,ScienceDB做了按照信息安全要求做了隱私數(shù)據(jù)加密、數(shù)據(jù)異地備份、內(nèi)容機(jī)器和人工審閱檢查等工作。針對訪問控制問題,除了基于角色權(quán)限的訪問控制,ScienceDB還根據(jù)提供了私有訪問鏈接、匿名鏈接等安全共享訪問模式。針對合同法律問題,ScienceDB除按照信息系統(tǒng)安全等級保護(hù)三級要求指定相關(guān)安全協(xié)議外,還根據(jù)科學(xué)數(shù)據(jù)特點(diǎn),制定了站點(diǎn)使用和數(shù)據(jù)存儲協(xié)議。進(jìn)一步的,針對科學(xué)數(shù)據(jù)實(shí)體文件和元數(shù)據(jù)兩個主要組成部分,SciecneDB在數(shù)據(jù)文件存儲安全和元數(shù)據(jù)存儲安全上做了以下針對性的工作。

數(shù)據(jù)文件存儲安全。ScienceDB為了實(shí)體文件的存儲安全性,自研了一套文件系統(tǒng)中間件,采用基于圖數(shù)據(jù)庫的文件系統(tǒng)抽象技術(shù),通過抽象文件信息內(nèi)容(文件名/權(quán)限/創(chuàng)建時間/路徑信息等)和文件比特信息內(nèi)容,將文件的比特內(nèi)容和元信息內(nèi)容分離,建立元信息和比特內(nèi)容的關(guān)系,利用圖數(shù)據(jù)庫對節(jié)點(diǎn)和關(guān)系快速檢索和遍歷的技術(shù)特點(diǎn),來實(shí)現(xiàn)文件的建立、管理、以及目錄結(jié)構(gòu)的快速遍歷查找。通過該抽象方案,ScienceDB采用MooseFS[18]作為緩存區(qū),將CephFS[19]作為發(fā)布區(qū),兩種異構(gòu)的文件系統(tǒng)分別存儲用戶未發(fā)布的可編輯文件和發(fā)布后的固化文件。緩存區(qū)和發(fā)布區(qū)的相互隔離保障了用戶可編輯文件和發(fā)布文件之間的互相隔離,提升了存儲的安全性(圖4)。

在ScienceDB進(jìn)行數(shù)據(jù)集發(fā)布時,會自動觸發(fā)數(shù)據(jù)發(fā)布備份機(jī)制,由發(fā)布服務(wù)發(fā)送信息到文件消息隊(duì)列中,消息隊(duì)列的監(jiān)聽服務(wù)會根據(jù)消息的內(nèi)容,將發(fā)布數(shù)據(jù)集的實(shí)體文件轉(zhuǎn)移到發(fā)布區(qū),并同步自動副本拷貝至備份區(qū),備份區(qū)構(gòu)建在異地存儲環(huán)境,其目錄組織結(jié)構(gòu)與發(fā)布區(qū)完全相同。該發(fā)布備份機(jī)制保障了發(fā)布文件的準(zhǔn)實(shí)時備份,完全相同的備份組織結(jié)構(gòu)則可以在發(fā)布區(qū)CephFS發(fā)生故障或者文件異常丟失時快速進(jìn)行實(shí)體文件的恢復(fù)。

元數(shù)據(jù)存儲安全。ScienceDB的元數(shù)據(jù)存儲在文檔型數(shù)據(jù)庫中,為了保證存儲的安全性,數(shù)據(jù)集的所有元數(shù)據(jù)均采用兩套存儲庫異構(gòu)隔離存儲,分別是MongoDB[20]和ElasticSearch[21]。兩套數(shù)據(jù)庫存儲的元數(shù)據(jù)信息完全一致,以異構(gòu)化的方式形成了對元數(shù)據(jù)的有效備份。

同時MongoDB存儲所有狀態(tài)的數(shù)據(jù)集信息,處理數(shù)據(jù)集作者和編輯審核人員的數(shù)據(jù)集編輯修改操作,ElasticSearch則在數(shù)據(jù)集發(fā)布后進(jìn)行元數(shù)據(jù)的固化寫入,負(fù)責(zé)處理查詢和統(tǒng)計(jì)操作。利用不同的數(shù)據(jù)庫軟件特性,ScienceDB在保障元數(shù)據(jù)存儲安全的同時,將元數(shù)據(jù)的寫入修改和查詢統(tǒng)計(jì)等操作進(jìn)行了系統(tǒng)隔離,有效提升了整個平臺的安全性。

進(jìn)一步的,同實(shí)體文件的備份策略類似,ScienceDB定義了元數(shù)據(jù)自動備份機(jī)制,在數(shù)據(jù)集發(fā)布時采用消息隊(duì)列,將元數(shù)據(jù)信息分發(fā)到備份環(huán)境的數(shù)據(jù)庫中,在備份環(huán)境中同時有一套單節(jié)點(diǎn)的MongoDB對元數(shù)據(jù)進(jìn)行準(zhǔn)實(shí)時備份。保障在生產(chǎn)環(huán)境異常情況下,固化的元數(shù)據(jù)信息仍可從異地備份環(huán)境進(jìn)行恢復(fù)。

4.3 "資源完整性

資源完整性指的是數(shù)據(jù)資源發(fā)布后的元數(shù)據(jù)的固化,實(shí)體文件的不可修改,是存儲庫可靠性的重要考量指標(biāo)。為了保障數(shù)據(jù)集元數(shù)據(jù)信息和實(shí)體文件的資源完整性,ScienceDB做了以下工作。

元數(shù)據(jù)異構(gòu)分發(fā)和數(shù)據(jù)上鏈。數(shù)據(jù)集的元數(shù)據(jù)包含數(shù)據(jù)集標(biāo)題、簡介、關(guān)鍵詞、作者信息、關(guān)聯(lián)論文信息、基金資助信息等多種信息,ScienceDB會將發(fā)布的元數(shù)據(jù)整理成多種不同的格式發(fā)布到多方平臺進(jìn)行版本固化和傳播,其中包括:

將元數(shù)據(jù)信息組裝成DataCite格式,進(jìn)行DOI信息注冊,注冊后的信息會在Datacite平臺進(jìn)行固化,并傳播到Dimensions[22]、OpenAIRE[23]等平臺;同時數(shù)據(jù)與論文的關(guān)系也將分發(fā)到Scholix[24]平臺進(jìn)行收錄。

將元數(shù)據(jù)信息組裝成Dublin Core[25]格式,通過OAI-PMH[26]協(xié)議進(jìn)行數(shù)據(jù)收割分發(fā)服務(wù),所有OAI-PMH服務(wù)的收割方(如BASE存儲庫)等可以通過調(diào)用OAI-PMH收割ScienceDB的元數(shù)據(jù)進(jìn)行收錄索引。

將元數(shù)據(jù)信息組裝成Schema.org[27]規(guī)定的數(shù)據(jù)集類型JSON-LD,嵌入到數(shù)據(jù)集HTML頁面上,這些元數(shù)據(jù)信息將被Google Dataset Search學(xué)術(shù)引擎爬蟲進(jìn)行爬取,索引到搜索引擎中提供全球搜索服務(wù)。

同時,ScienceDB集成了科學(xué)數(shù)據(jù)鏈(SciChain)[28]服務(wù),將元數(shù)據(jù)信息(包括實(shí)體文件的散列值)進(jìn)行上鏈,所有的元數(shù)據(jù)版本更新和修改都將記錄在數(shù)據(jù)鏈中。利用區(qū)塊鏈的賬單記錄和不可修改性功能特點(diǎn),可以驗(yàn)證ScienceDB中數(shù)據(jù)集元數(shù)據(jù)的完整性。

文件指紋和標(biāo)識注冊。ScienceDB在整個文件系統(tǒng)中使用了文件指紋。ScienceDB的文件上傳分為HTTP和FTP兩種方式,在每種上傳方式之后都會觸發(fā)文件MD5計(jì)算賦予文件指紋,在平臺的文件系統(tǒng)中間件中,中間件會按照文件指紋和文件大小,生成文件的存儲路徑,建立抽象文件信息和存儲位置的關(guān)系。文件指紋加文件大小形成唯一路徑的方式不但具有防止哈希沖撞的作用,而且讓同樣比特內(nèi)容的文件在ScienceDB中只存儲一份,起到了文件去重的效果。每個文件的文件指紋都會作為元數(shù)據(jù)信息的一部分,記錄在數(shù)據(jù)集HTML頁面中,可用于數(shù)據(jù)文件的完整性檢查。

另一方面,類似數(shù)據(jù)集元數(shù)據(jù)的標(biāo)識注冊和內(nèi)容分發(fā)機(jī)制,ScienceDB對每個實(shí)體文件也進(jìn)行了單獨(dú)的CSTR標(biāo)識注冊。數(shù)據(jù)集的每個實(shí)體文件都分配了標(biāo)識并解析到其文件HTML頁,頁面內(nèi)容包括文件的名稱、標(biāo)識信息、預(yù)覽信息和作者信息等。該頁面不僅提供了數(shù)據(jù)集文件粒度的引用功能,也為數(shù)據(jù)集實(shí)體文件中每個文件的完整性校驗(yàn)提供了用戶可視化支持。

4.4 "用戶信息管理

用戶信息包含用戶注冊信息和用戶行為日志信息。對于兩類信息ScienceDB嚴(yán)格按照信息系統(tǒng)安全等級保護(hù)三級要求和隱私安全保護(hù)法律法規(guī)的規(guī)定,結(jié)合ScienceDB的業(yè)務(wù)特點(diǎn),做了以下用戶信息管理系統(tǒng)建設(shè):

對于用戶注冊信息,按照不同的信息類型,ScienceDB進(jìn)行不同的加密存儲處理,例如對用戶個人隱私信息進(jìn)行AES加密存儲[29];對于密碼信息,進(jìn)行不可逆的MD5密文存儲;在用戶身份和權(quán)限校驗(yàn)方面,ScienceDB根據(jù)最小權(quán)限原則,使用Oauth2協(xié)議進(jìn)行角色鑒定,根據(jù)角色基礎(chǔ)權(quán)限控制(Role-Based Access Control,RBAC)來限制用戶可以使用的功能。

對于用戶行為日志信息,ScienceDB進(jìn)行了關(guān)鍵操作埋點(diǎn)審計(jì)和全日志信息備份記錄兩種審計(jì)記錄工作:關(guān)鍵信息埋點(diǎn)審計(jì)機(jī)制會將用戶的數(shù)據(jù)集提交和修改,編審人員的數(shù)據(jù)集審理記錄進(jìn)行操作記錄,埋點(diǎn)記錄可以快速記錄數(shù)據(jù)集的操作人、操作原因和操作內(nèi)容,以便進(jìn)行審計(jì)分析。全日志記錄則是將所有的用戶相關(guān)行為通過Logstash日志采集和ScienceDB自研的Flink流水線分析,記錄到ElasticSearch的日志索引中。在日志采集過程中,我們對用戶隱私信息做了MD5處理,保障用戶隱私安全性的前提下全流程記錄了用戶對數(shù)據(jù)集的訪問下載和其他系統(tǒng)功能訪問行為。

通過以上的用戶信息管理體系建設(shè),ScienceDB在有效保護(hù)用戶信息的前提基礎(chǔ)上,實(shí)現(xiàn)了用戶行為的可審計(jì)可追蹤,通過審計(jì)追蹤功能我們可以實(shí)現(xiàn)異常數(shù)據(jù)和異常用戶行為的追蹤處理,提高ScienceDB平臺安全性。

5 "環(huán)境安全管理

為了能夠使ScienceDB平臺的軟件和硬件穩(wěn)定運(yùn)行,ScienceDB建立了一套技術(shù)保障體系,保障ScienceDB線上環(huán)境中的各項(xiàng)軟硬件指標(biāo)可以實(shí)時被監(jiān)控系統(tǒng)采集,并實(shí)時發(fā)出異常告警;保障ScienceDB軟硬件的高可用性,排除系統(tǒng)中的單點(diǎn)故障影響。具體技術(shù)保障體系建設(shè)包括:硬件監(jiān)控、軟件監(jiān)控和高可用保障。

5.1 "硬件監(jiān)控

ScienceDB運(yùn)行在由多臺物理機(jī)組成的Kubernetes集群上,這些機(jī)器環(huán)境是ScienceDB安全穩(wěn)定運(yùn)行的物理基礎(chǔ),為了保障其安全可靠,ScienceDB使用一系列開源軟件建設(shè)了硬件監(jiān)控體系,這些軟件包括Kube-Metrics機(jī)器采集、Promethus時序數(shù)據(jù)庫和Grafana監(jiān)控面板(圖5)。

5.2 "軟件監(jiān)控

軟件是ScienceDB服務(wù)用戶的直接手段,其安全可靠能力如何將直接影響用戶的使用體驗(yàn)和信息安全。建設(shè)一套軟件層面的告警體系,可以在第一時間監(jiān)測到系統(tǒng)中的軟件問題,以便快速做出異常修復(fù)。ScienceDB的軟件體系是基于微服務(wù)的前后端分離架構(gòu)建設(shè),因此軟件層面的監(jiān)控告警保障體系建設(shè)也是從后端服務(wù)集群和前端服務(wù)兩個維度進(jìn)行構(gòu)建。

在后臺微服務(wù)集群監(jiān)控上,根據(jù)微服務(wù)可能存在鏈路調(diào)用和依賴復(fù)雜的特點(diǎn),ScienceDB使用Skywalking[30]構(gòu)建鏈路追蹤系統(tǒng),該系統(tǒng)可以追蹤監(jiān)控微服務(wù)之間的相互調(diào)用,采集其函數(shù)執(zhí)行時長和響應(yīng)結(jié)果。通過Skywalking研發(fā)人員不但可以對異常的響應(yīng)結(jié)果進(jìn)行鏈路處理分析,還能通過其執(zhí)行信息記錄功能實(shí)現(xiàn)服務(wù)時間優(yōu)化,減少調(diào)用鏈路,優(yōu)化后臺算法執(zhí)行時間。在ScienceDB微服務(wù)集群中,每個微服務(wù)程序都是單獨(dú)的服務(wù)容器,為了提高系統(tǒng)的安全性,我們在每個服務(wù)容器上都安裝了Sentry[31]異常監(jiān)聽軟件層,Sentry作為程序異常收集器,可以自動收集服務(wù)容器響應(yīng)拋出的異常,進(jìn)行異常記錄并通過釘釘和郵件等多種形式進(jìn)行告警。這些措施可以監(jiān)聽到穿透了WAF的惡意攻擊,及時通知研發(fā)和運(yùn)維人員進(jìn)行防御處理,從而縮短系統(tǒng)防御的響應(yīng)時間,提高

ScienceDB服務(wù)的安全防御能力。

在前端服務(wù)監(jiān)控上,ScienceDB使用了全球Site24x7[32]監(jiān)控服務(wù),該服務(wù)從全球多個不同大洲的節(jié)點(diǎn)對ScienceDB的前端服務(wù)進(jìn)行監(jiān)聽,監(jiān)聽內(nèi)容不僅包括頁面的正常響應(yīng),還包括內(nèi)容防篡改、FTP文件服務(wù)等。通過其比較配置的監(jiān)聽內(nèi)容和前端服務(wù)的真實(shí)返回,前端監(jiān)聽服務(wù)會自動判斷前端某個服務(wù)是否正常,一旦發(fā)現(xiàn)異常情況其會快速通過郵件和短信進(jìn)行自動告警(圖6)。

5.3 "高可用保障

雖然硬件和軟件監(jiān)控告警體系的建設(shè)能夠提升整個ScienceDB的安全可靠性,但為了應(yīng)對可能出現(xiàn)的未知軟硬件異常情況,ScienceDB基于信息系統(tǒng)建設(shè)的ZeroTrust原則[33],構(gòu)建了一套高可用部署體系來進(jìn)一步提升系統(tǒng)的安全性。

首先從硬件部署方面,在前文提及的異構(gòu)備份體系外,ScienceDB所有的分布式文件系統(tǒng)均采取多副本方式部署,從而排除文件系統(tǒng)中可能存在的單節(jié)點(diǎn)故障問題。在Kubernets物理機(jī)集群的部署方式上,我們采用多主節(jié)點(diǎn)方式進(jìn)行虛擬化集群部署,各主節(jié)點(diǎn)之間采用KeepAlive和虛擬IP進(jìn)行負(fù)載均衡和異常跳轉(zhuǎn),從而實(shí)現(xiàn)極端情況下只要維持一臺主節(jié)點(diǎn)正常運(yùn)行即可保障系統(tǒng)正常服務(wù)。

其次在軟件系統(tǒng)部署方面,ScienceDB在底層數(shù)據(jù)庫部署上,無論是MongoDB還是ElasticSearch均采用多節(jié)點(diǎn)的集群部署方式,從而實(shí)現(xiàn)ScienceDB平臺的高可用;在微服務(wù)集群部署上,ScienceDB基于Kubernetes實(shí)現(xiàn)微服務(wù)容器的多副本部署,通過設(shè)置Kubernets中Deploment的反親和策略,可以限制同一個微服務(wù)的副本必須部署到不同的機(jī)器節(jié)點(diǎn)上,從而實(shí)現(xiàn)了排除微服務(wù)節(jié)點(diǎn)層面的單點(diǎn)故障,保證了微服務(wù)集群的高可用性;在前端應(yīng)用部署上,ScienceDB基于Nginx實(shí)現(xiàn)前端服務(wù)的高可用和負(fù)載均衡,同時采用CDN技術(shù),將靜態(tài)資源分發(fā)到CDN節(jié)點(diǎn)上以降低前端Nginx的訪問壓力,進(jìn)一步提升整個平臺網(wǎng)絡(luò)服務(wù)的穩(wěn)定性。

6 "服務(wù)成效、趨勢與展望

ScienceDB在2015年上線以來,經(jīng)第三方平臺監(jiān)測,其平臺服務(wù)穩(wěn)定性常年保持在99%以上,P99(Percent 99)響應(yīng)時間在300ms以內(nèi)。作為論文關(guān)聯(lián)數(shù)據(jù)支撐平臺,ScienceDB得到了國內(nèi)外主流學(xué)術(shù)出版商的認(rèn)可和推薦,成為Springer Nature、Taylor amp; Francis、Cell Press、Elsevier、科學(xué)出版社等旗下期刊推薦的通用存儲庫,發(fā)布資源獲Data Citation Index、Google Dataset Search、Scopus、Mendeley Data、BASE、DataCite、Dimensions、OpenAIRE、Scholix和Scite收錄索引,也體現(xiàn)了國內(nèi)外學(xué)術(shù)出版界對ScienceDB安全體系建設(shè)工作的認(rèn)可。截至目前,ScienceDB訪問量日均PV(page view)已達(dá)百萬,累計(jì)公開數(shù)據(jù)集800余萬,支撐全球近120個國家和地區(qū)的科研人員通過平臺出版數(shù)據(jù)。

在數(shù)字經(jīng)濟(jì)時代下,數(shù)據(jù)已經(jīng)成為新型生產(chǎn)要素,科學(xué)數(shù)據(jù)作為重要的科研產(chǎn)出和戰(zhàn)略科技資源,對科技創(chuàng)新與發(fā)展發(fā)揮著至關(guān)重要的作用。是否具備充足的科學(xué)數(shù)據(jù)資源戰(zhàn)略儲備、能否有效保障國家科學(xué)數(shù)據(jù)主權(quán)安全是當(dāng)前我國科學(xué)數(shù)據(jù)面臨的最突出安全問題。構(gòu)建“數(shù)據(jù)領(lǐng)土”是建設(shè)數(shù)據(jù)強(qiáng)國的基礎(chǔ),而數(shù)據(jù)本地化存儲是作為構(gòu)建“數(shù)據(jù)領(lǐng)土”的基本方式[8]。2019年,我國形成了20個國家科學(xué)數(shù)據(jù)中心,旨在推進(jìn)相關(guān)領(lǐng)域科技資源匯聚與整合,強(qiáng)化科技資源開發(fā)利用,提升科技創(chuàng)新支撐能力。但是,由于我國缺少獲得國際廣泛認(rèn)可的數(shù)據(jù)存儲庫,導(dǎo)致仍然每年有大量的優(yōu)質(zhì)科學(xué)數(shù)據(jù)資源外流。因此,國家層面要持續(xù)加大支持力度,鼓勵建設(shè)更多的真正具有國際影響力的權(quán)威通用存儲庫、領(lǐng)域存儲庫,切實(shí)有效地保護(hù)科學(xué)數(shù)據(jù)主權(quán),吸引全球優(yōu)質(zhì)科學(xué)數(shù)據(jù)資源匯聚。此外,也要積極鼓勵開展國際合作,共同保障全球數(shù)據(jù)治理與開放環(huán)境安全。

科學(xué)數(shù)據(jù)只有充分開放共享才能最大化激活其要素潛力,最大化發(fā)揮其價值。數(shù)據(jù)開放與共享過程中的防控難度系數(shù)較高[34]。各數(shù)據(jù)服務(wù)平臺在做好科學(xué)數(shù)據(jù)資源匯聚、開放共享與服務(wù)基礎(chǔ)上,要切實(shí)做好面向高質(zhì)量共享的科學(xué)數(shù)據(jù)安全工作。各數(shù)據(jù)服務(wù)平臺首先要符合國家信息系統(tǒng)安全等級保護(hù)基本要求,做好安全物理環(huán)境、安全通信網(wǎng)絡(luò)、安全管理制度、安全運(yùn)維管理等安全保障。此外,還需要結(jié)合數(shù)據(jù)服務(wù)平臺業(yè)務(wù)特色重點(diǎn)從組織制度、資源安全管理及技術(shù)保障等方面開展安全治理體系建設(shè),增強(qiáng)數(shù)據(jù)安全預(yù)警和溯源能力,提升科學(xué)數(shù)據(jù)的安全服務(wù)能力,為科學(xué)數(shù)據(jù)的高質(zhì)量安全共享保駕護(hù)航。

參考文獻(xiàn)

[1] 鄭思聰.聯(lián)合國教科文組織通過《開放科學(xué)建議書》[J].科技中國, 2022(5):102-104.

[2] The State of Open Data 2023. Digital Science. Report. https://doi.org/ 10.6084/m9.figshare.24428194.v1 [2023-12-22].

[3] LANDI A, THOMPSON M, GIANNUZZI V, et al. The “A” of FAIR-As open as possible, as closed as necessary[J]. Data Intelligence, 2020,2 (1-2): 47–55. doi: https://doi.org/10.1162/ dint_a_00027.

[4] 謝祎,何波.中國數(shù)據(jù)法律制度體系研究[J/OL].大數(shù)據(jù): 1-22[2023-12- 22]. http://kns.cnki.net/kcms/detail/10.1321.G2.20231012.1510. 008.html.

[5] Springer Nature. Legacy Data Policy Types. [EB/OL][2024-01-17]. https://www.springernature.com/gp/authors/research-data-policy/research-data-policy-types.

[6] STM. STM is Committed to Supporting Research Data Sharing. 2020. https://www.stm-assoc.org/2020_10_16_STM_is_commited_to_data_sharing.pdf. [EB/OL] [2023/12/04].

[7] 中國科學(xué)技術(shù)協(xié)會,國際科學(xué)、技術(shù)與醫(yī)學(xué)出版商協(xié)會.中國開放獲取出版發(fā)展報告(2022)[R].

[8] 毛欣娟,任珈炎.國家安全視域中我國數(shù)據(jù)主權(quán)安全面臨的挑戰(zhàn)及其對策[J].社會治理, 2023(1):41-51.

[9] 姜璐璐,張澤鈺,李宗聞,等. 全球科學(xué)數(shù)據(jù)倉儲平臺的建設(shè)實(shí)踐現(xiàn)狀與展望[J/OL]. 中國科學(xué)數(shù)據(jù), 2023, 8(1). (2023-03-27). DOI: 10.11922/11-6035.csd.2023.0027.zh.

[10] 盛小平,郭道勝. 科學(xué)數(shù)據(jù)開放共享中的數(shù)據(jù)安全治理研究[J]. 圖書情報工作, 2020, 64(22): 25-36.

[11] 李善青,鄭彥寧,邢曉昭,等.科學(xué)數(shù)據(jù)共享的安全管理問題研究[J].中國科技資源導(dǎo)刊,2019,51(3):11-17.

[12] 徐淋楠,段美珍,寇晶晶.開放共享環(huán)境下科學(xué)數(shù)據(jù)安全治理路徑[J]中華醫(yī)學(xué)圖書情報雜志,2022,31(6):1-8.

[13] LIN D, CRABTREE J, DILLO I, et al. The TRUST principles for digital repositories[J/OL]. Scientific Data, 2020. https://doi.org/10. 1038/s41597- 020-0486-7.

[14] 韓鵬. 小規(guī)模團(tuán)隊(duì)的敏捷開發(fā)研究[J].軟件工程師, 2011(7): 42-46.

[15] SINGH C, GABA N S, KAUR M, et al. Comparison of different CI/CD tools integrated with cloud platform[C]//2019 9th International Conference on Cloud Computing, Data Science amp; Engineering (Confluence). IEEE, 2019: 7-12.

[16] ScienceDB幫助中心. https://www.scidb.cn/help?p=data_policy [CP/ OL][2024-03-10].

[17] RAO B T. A study on data storage security issues in cloud computing[J]. Procedia Computer Science, 2016, 92: 128-135.

[18] FANG Y, ZHU H, LU G, et al. Modeling and Verifying MooseFS in CSP[C]//2018 IEEE 42nd Annual Computer Software and Applications Conference (COMPSAC). IEEE, 2018, 1: 270-275.

[19] WEIL S A, BRANDT S A, MILLER E L, et al. Ceph: A scalable, high-performance distributed file system[C]//Proceedings of the 7th symposium on Operating systems design and implementation. 2006: 307-320.

[20] MongoDB. https://github.com/mongodb/mongo. [CP/OL][2024-01-17].

[21] ElasticSearch. https://github.com/elastic/elasticsearch. [CP/OL][2024- 01-17].

[22] Dimensions. https://www.dimensions.ai/. [DB/OL][2024-01-17].

[23] RETTBERG N, SCHMIDT B. OpenAIRE-Building a collaborative Open Access infrastructure for European researchers[J]. LIBER Quarterly: The Journal of the Association of European research libraries, 2012, 22(3): 160-175.

[24] BURTON A, KOERS H, MANGHI P, et al. The Scholix framework for interoperability in data-literature information exchange[J]. D-Lib Magazine, 2017, 23(1/2).

[25] WEIBEL S L, KOCH T. The Dublin core metadata initiative[J]. D-lib magazine, 2000, 6(12): 1082-9873.

[26] DEVARAKONDA R, PALANISAMY G, GREEN J M, et al. Data sharing and retrieval using OAI-PMH[J]. Earth Science Informatics, 2011, 4: 1-5.

[27] GUHA R V, BRICKLEY D, MACBETH S. Schema. org: evolution of structured data on the web[J]. Communications of the ACM, 2016, 59(2): 44-51.

[28] SciChan. https://www.scichain.cn/. [CP/OL][2024-01-17].

[29] AKKAR M L, GIRAUD C. An implementation of DES and AES, secure against some attacks[C]//Cryptographic Hardware and Embedded Systems—CHES 2001: Third International Workshop Paris, France, May 14–16, 2001 Proceedings 3. Springer Berlin Heidelberg, 2001: 309-318.

[30] Skywalking. https://skywalking.apache.org/. [CP/OL][2024-01-17]

[31] Sentry. https://sentry.io/. [CP/OL][2024-01-17].

[32] Site24x7. https://www.site24x7.cn/. [CP/OL][2024-01-17].

[33] STAFFORD V A. Zero trust architecture[M]. NIST special publication, 2020, 800: 207.

[34] 闕天舒,王子玥.數(shù)字經(jīng)濟(jì)時代的全球數(shù)據(jù)安全治理與中國策略[J].國際安全研究,2022(1):130-154.

引用格式:姜璐璐,王鵬堯,李宗聞,李成贊,廖方宇,周園春.面向共享的數(shù)據(jù)存儲平臺安全體系建設(shè)——科學(xué)數(shù)據(jù)銀行的建設(shè)實(shí)踐[J].農(nóng)業(yè)大數(shù)據(jù)學(xué)報,2024,6(3): 351-362. DOI: 10.19788/j.issn.2096-6369.000030.

CITATION: JIANG LuLu, WANG PengYao, LI ZongWen, LI ChengZan, LIAO FangYu, ZHOU YuanChun. Construction of a Secure System for Data Sharing Repository: the Practice of Science Data Bank[J]. Journal of Agricultural Big Data,2024,6(3): 351-362. DOI: 10.19788/j.issn.2096-6369.000030.

Construction of a Secure System for Data Sharing Repository: the Practice of Science Data Bank

JIANG LuLu, WANG PengYao, LI ZongWen , LI ChengZan, LIAO FangYu, ZHOU YuanChun

Computer Network Information Center, Chinese Academy of Sciences, Beijing100083, China

Abastrict: Open research data is a necessary component of open science. But balancing the open sharing with security protection represents a significant challenge in the practices. Data repository, as a primary support digital infrastructure for data sharing, play an important role in ensuring the security of data shared in an open environment. This study, through specific business scenario analysis, constructs a data security governance framework for Science Data Bank, a generalist data repository. The framework, basing upon the basic requirements of information system security level protection (Level Three), focuses on three dimensions including security organizational systems, resource security management, and environmental security management. Finally, this study summarizes the effectiveness of the security system construction for the Science Data Bank, proposes suggestions for the construction of a secure data repository from the top-level layout to the practical level of constructions.

Keywords: open data; data security; data repository; data security government framework for ScienceDB

猜你喜歡
數(shù)據(jù)安全科學(xué)服務(wù)
云計(jì)算中基于用戶隱私的數(shù)據(jù)安全保護(hù)方法
電子制作(2019年14期)2019-08-20 05:43:42
服務(wù)在身邊 健康每一天
科學(xué)大爆炸
服務(wù)在身邊 健康每一天
服務(wù)在身邊 健康每一天
建立激勵相容機(jī)制保護(hù)數(shù)據(jù)安全
招行30年:從“滿意服務(wù)”到“感動服務(wù)”
商周刊(2017年9期)2017-08-22 02:57:56
大數(shù)據(jù)云計(jì)算環(huán)境下的數(shù)據(jù)安全
電子制作(2017年20期)2017-04-26 06:57:48
科學(xué)
科學(xué)拔牙
习水县| 格尔木市| 定西市| 永安市| 古交市| 佛学| 普兰县| 合山市| 辽阳市| 岑溪市| 赞皇县| 灵台县| 武汉市| 麟游县| 苏尼特左旗| 土默特左旗| 岳普湖县| 尚志市| 双桥区| 陕西省| 马边| 晋城| 汉沽区| 阿拉善左旗| 濮阳市| 台山市| 新乡市| 集安市| 曲阳县| 河北省| 泾源县| 随州市| 金坛市| 河间市| 清丰县| 武定县| 徐州市| 三亚市| 大安市| 固始县| 罗定市|