摘要:生命組學(xué)大數(shù)據(jù)是國家重要基礎(chǔ)性、戰(zhàn)略性資源,對(duì)支撐生命科學(xué)基礎(chǔ)研究和應(yīng)用創(chuàng)新、推動(dòng)生物經(jīng)濟(jì)創(chuàng)新發(fā)展、維護(hù)國家安全具有重要意義。隨著數(shù)據(jù)規(guī)模的不斷增長,生命組學(xué)大數(shù)據(jù)的安全管理問題逐漸凸顯。國家基因組科學(xué)數(shù)據(jù)中心(National Genomics Data Center, NGDC)面向我國人口健康和社會(huì)可持續(xù)發(fā)展的重大戰(zhàn)略需求,建立了生命與健康大數(shù)據(jù)匯交存儲(chǔ)、安全管理、開放共享與整合挖掘研究體系,形成了一系列數(shù)據(jù)安全管理的制度和措施。本文聚焦于生命組學(xué)大數(shù)據(jù)全生命周期的安全管理問題,探討生命組學(xué)大數(shù)據(jù)安全管理框架,全面分析在數(shù)據(jù)匯交、存儲(chǔ)、管理、共享全生命周期中涉及的安全管理內(nèi)容,并總結(jié)了NGDC在生命組學(xué)大數(shù)據(jù)安全管理方面的成效。最后,本文展望了生命組學(xué)大數(shù)據(jù)安全管理的發(fā)展方向,包括完善數(shù)據(jù)分級(jí)分類制度、提升數(shù)據(jù)分級(jí)安全管理技術(shù)和加強(qiáng)數(shù)據(jù)異地災(zāi)備建設(shè),以期實(shí)現(xiàn)生命組學(xué)大數(shù)據(jù)的安全管理與可持續(xù)發(fā)展。
關(guān)鍵詞:生命組學(xué)大數(shù)據(jù);數(shù)據(jù)匯交;數(shù)據(jù)共享;安全管理
1 "引言
生命組學(xué)大數(shù)據(jù)是生命體通過高通量測序技術(shù)所衍生出的基因組、變異組、轉(zhuǎn)錄組、表觀組等多維生物數(shù)據(jù),是生命科學(xué)研究范式轉(zhuǎn)變和產(chǎn)業(yè)創(chuàng)新發(fā)展的核心驅(qū)動(dòng)力。生命組學(xué)大數(shù)據(jù)推動(dòng)生物安全、人口健康、社會(huì)可持續(xù)發(fā)展等國家重大戰(zhàn)略和世界科學(xué)前沿的基礎(chǔ)科學(xué)研究,對(duì)支撐我國搶占未來生命科學(xué)和健康醫(yī)學(xué)發(fā)展制高點(diǎn)具有重大戰(zhàn)略意義、科學(xué)價(jià)值和社會(huì)經(jīng)濟(jì)效益。
隨著數(shù)據(jù)量的急劇增長和應(yīng)用領(lǐng)域的不斷拓展,在全球數(shù)字化進(jìn)程加速、網(wǎng)絡(luò)威脅增加以及跨境生物信息流通的背景下,生命組學(xué)大數(shù)據(jù)安全問題逐漸凸顯。全球范圍內(nèi),各個(gè)國家在生物數(shù)據(jù)安全方面不斷加強(qiáng)立法保護(hù)。美國于2021年提出的《基因組學(xué)支出和國家安全增強(qiáng)法案》(Genomics Expenditures and National Security Enhancement Act, 簡稱基因法案, the GENE Act)[1]和《基因組數(shù)據(jù)安全法案》(Genomics Data Security Act)[2],聚焦基因數(shù)據(jù)安全保護(hù),對(duì)外資企業(yè),特別是受關(guān)注國家的企業(yè)在基因數(shù)據(jù)采集、使用、共享等方面制定了嚴(yán)格的監(jiān)管措施;2024年提出的《生物安全法》(BIOSECURE Act)[3]草案,計(jì)劃禁止美國行政機(jī)構(gòu)與受關(guān)注的生物科技公司進(jìn)行特定交易,防止美國人的基因數(shù)據(jù)流入受關(guān)注國家(Countries Of Concern);2024年初,美國總統(tǒng)拜登簽發(fā)的《關(guān)于防止受關(guān)注國家獲取美國人大量敏感個(gè)人數(shù)據(jù)和美國政府相關(guān)數(shù)據(jù)的行政命令》(Executive Order on Preventing Access to Americans’ Bulk Sensitive Personal Data and United States Government- Related Data by Countries of Concern)[4],提出建立對(duì)受關(guān)注國家在包括個(gè)人生物特征數(shù)據(jù)、健康數(shù)據(jù)、組學(xué)數(shù)據(jù)等敏感個(gè)人數(shù)據(jù)方面交易監(jiān)管制度。歐盟也發(fā)布了一系列數(shù)據(jù)安全相關(guān)的法規(guī),其中最為重要的是2018年發(fā)布的《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation, 簡稱GDPR)[5],該條例強(qiáng)調(diào)個(gè)人數(shù)據(jù)保護(hù)的重要性,要求研究者在收集、存儲(chǔ)、處理和傳輸個(gè)人數(shù)據(jù)時(shí)必須獲得明確同意,并對(duì)將個(gè)人數(shù)據(jù)轉(zhuǎn)移到歐盟以外的國家或地區(qū)進(jìn)行了嚴(yán)格的規(guī)定,確保這些國家或地區(qū)的保護(hù)水平與歐盟一致。
在中國,2021年《中華人民共和國生物安全法》[6]、《中華人民共和國數(shù)據(jù)安全法》[7]和《中華人民共和國個(gè)人信息保護(hù)法》[8]的陸續(xù)實(shí)施標(biāo)志著生物信息數(shù)據(jù)安全在政策層面得到了高度重視。這些法律的出臺(tái)促使國家逐步建立了一個(gè)以“法律/法案-法規(guī)-指南”為框架的數(shù)據(jù)安全管理體系。在人類遺傳資源管理方面,分別于2019年和2023年發(fā)布了《中華人民共和國人類遺傳資源管理?xiàng)l例》(國務(wù)院令第717號(hào))[9]和《人類遺傳資源管理?xiàng)l例實(shí)施細(xì)則》(科學(xué)技術(shù)部令第21號(hào))[10],涵蓋人類遺傳資源的收集、保存和利用,明確監(jiān)管職責(zé)和法律責(zé)任。通過這一管理體系,中國致力于在保障數(shù)據(jù)安全和個(gè)人權(quán)益的同時(shí),實(shí)現(xiàn)生物科技的創(chuàng)新發(fā)展和社會(huì)責(zé)任的平衡,在保護(hù)個(gè)體和社會(huì)利益同時(shí),也為生物信息管理提供了新的發(fā)展方向。
在生物數(shù)據(jù)安全問題備受關(guān)注的態(tài)勢下,構(gòu)建統(tǒng)一、安全的生命組學(xué)大數(shù)據(jù)匯交、管理和共享平臺(tái),促進(jìn)數(shù)據(jù)的合規(guī)、有序、安全共享,不僅具有現(xiàn)實(shí)的科學(xué)意義,而且具有重要的社會(huì)意義。國家基因組科學(xué)數(shù)據(jù)中心(National Genomics Data Center, NGDC)[11]正是在這樣的背景下,在中國科學(xué)院北京基因組研究所生命與健康大數(shù)據(jù)中心[12]的基礎(chǔ)上,由科技部、財(cái)政部于2019年6月5日發(fā)文成立。NGDC也是20個(gè)國家科學(xué)數(shù)據(jù)中心之一,其目標(biāo)是面向我國人口健康和社會(huì)可持續(xù)發(fā)展的重大戰(zhàn)略需求,建立生命與健康大數(shù)據(jù)匯交存儲(chǔ)、安全管理、開放共享與整合挖掘研究體系,建設(shè)支撐我國生命科學(xué)發(fā)展、國際領(lǐng)先的基因組科學(xué)數(shù)據(jù)中心。經(jīng)過幾年的發(fā)展,NGDC已初步建成具有自主知識(shí)產(chǎn)權(quán)、安全可控的多維組學(xué)數(shù)據(jù)匯交、存儲(chǔ)、管理和共享體系,包括組學(xué)原始數(shù)據(jù)歸檔庫(Genome Sequence Archive, GSA)[13-14]、人類遺傳資源組學(xué)原始數(shù)據(jù)歸檔庫(Genome Sequence Archive for Human, GSA-Human)[14-15]、基因組數(shù)據(jù)庫(Genome Warehouse,GWH)[16]、基因序列數(shù)據(jù)庫(GenBase)[17]、基因組變異數(shù)據(jù)庫(Genome Variation Map,GVM)[18]和多元數(shù)據(jù)歸檔庫(Open Archive for Miscellaneous Data, OMIX)[14]等,承載著我國生物數(shù)據(jù)安全管理的使命,為科研用戶提供不同組學(xué)數(shù)據(jù)的匯交、存儲(chǔ)、管理和共享,以及國家重大科技項(xiàng)目數(shù)據(jù)管理服務(wù)。
2 "生命組學(xué)大數(shù)據(jù)安全管理框架
面向生命組學(xué)大數(shù)據(jù)的匯交存儲(chǔ)和共享應(yīng)用,以促進(jìn)生命組學(xué)大數(shù)據(jù)安全共享為目標(biāo),針對(duì)數(shù)據(jù)匯交、審核、存儲(chǔ)、共享全生命周期安全管理的需求,構(gòu)建生命組學(xué)大數(shù)據(jù)安全管理框架。從管理制度、網(wǎng)絡(luò)安全、核心技術(shù)、系統(tǒng)服務(wù)等4個(gè)層面出發(fā),制定標(biāo)準(zhǔn)和規(guī)范,搭建安全網(wǎng)絡(luò)防護(hù)環(huán)境,研發(fā)核心技術(shù)和系統(tǒng),建立數(shù)據(jù)服務(wù)平臺(tái),全方位保障生命組學(xué)大數(shù)據(jù)的安全管理。整體框架如圖1所示。
2.1 "安全管理制度
依照國家法律法規(guī)及行業(yè)規(guī)范,制定生命組學(xué)大數(shù)據(jù)安全管理相關(guān)規(guī)范和制度,用于指導(dǎo)數(shù)據(jù)管理系統(tǒng)設(shè)計(jì)、建設(shè)、運(yùn)行和維護(hù)的全流程操作。遵照中華人民共和國《生物安全法》《數(shù)據(jù)安全法》《人類遺傳資源管理?xiàng)l例》等相關(guān)規(guī)定,結(jié)合生命組學(xué)大數(shù)據(jù)的多維、多模態(tài)的特點(diǎn),制定適用于生物信息領(lǐng)域的數(shù)據(jù)分級(jí)分類標(biāo)準(zhǔn)。在數(shù)據(jù)分級(jí)分類標(biāo)準(zhǔn)的基礎(chǔ)上,建立數(shù)據(jù)分級(jí)操作規(guī)范,針對(duì)不同的數(shù)據(jù)級(jí)別,對(duì)數(shù)據(jù)管理者和用戶進(jìn)行權(quán)限分級(jí),明確不同級(jí)別數(shù)據(jù)存儲(chǔ)、處理和訪問的安全邊界。數(shù)據(jù)安全管理制度主要面向數(shù)據(jù)操作人員(包括數(shù)據(jù)提交者、數(shù)據(jù)管理者、數(shù)據(jù)使用者等),建立數(shù)據(jù)安全相關(guān)的管理制度和指南,實(shí)現(xiàn)數(shù)據(jù)全流程操作的安全、合規(guī)。系統(tǒng)開發(fā)管理規(guī)范主要面向系統(tǒng)開發(fā)和運(yùn)維人員,對(duì)系統(tǒng)設(shè)計(jì)、開發(fā)、測試、運(yùn)維的每個(gè)環(huán)節(jié)制定安全操作準(zhǔn)則,最大化降低系統(tǒng)層面的安全漏洞,確保數(shù)據(jù)安全管理。
2.2 "網(wǎng)絡(luò)和系統(tǒng)環(huán)境安全防護(hù)
網(wǎng)絡(luò)安全建設(shè)是生命組學(xué)大數(shù)據(jù)安全管理的重要部分,為數(shù)據(jù)匯交和共享提供安全可靠的網(wǎng)絡(luò)環(huán)境。網(wǎng)絡(luò)安全環(huán)境建設(shè)需要充分結(jié)合管理數(shù)據(jù)的重要性分級(jí)情況,既要保證數(shù)據(jù)得到充分的安全防護(hù),也要為用戶的數(shù)據(jù)共享提供便利的獲取途徑。除部署基礎(chǔ)的防火墻、堡壘機(jī)等必要的網(wǎng)絡(luò)安全設(shè)備和入侵防御、態(tài)勢感知等安全系統(tǒng)外,還要據(jù)生命組學(xué)大數(shù)據(jù)不同程度的安全需求,建設(shè)不同安全等級(jí)的網(wǎng)絡(luò)保護(hù)系統(tǒng),并設(shè)置不同的訪問控制策略。如對(duì)重要數(shù)據(jù),建立網(wǎng)絡(luò)安全等級(jí)保護(hù)三級(jí)系統(tǒng),在網(wǎng)絡(luò)層面規(guī)劃數(shù)據(jù)獨(dú)立
管理區(qū)域,建立更加嚴(yán)格的邊界控制、訪問確權(quán)、運(yùn)維審計(jì)等,保證數(shù)據(jù)可控訪問的實(shí)現(xiàn)。最后,需要在網(wǎng)絡(luò)層面建立數(shù)據(jù)安全監(jiān)測系統(tǒng),對(duì)數(shù)據(jù)的流入、流出進(jìn)行監(jiān)測和管控,保證數(shù)據(jù)的入口和出口安全。
2.3 "數(shù)據(jù)安全管理核心技術(shù)與系統(tǒng)
針對(duì)生命組學(xué)大數(shù)據(jù)管理的全生命周期,開發(fā)通用的數(shù)據(jù)安全管理算法與工具,形成組學(xué)數(shù)據(jù)安全管理核心技術(shù)體系,為數(shù)據(jù)匯交、管理、共享等服務(wù)系統(tǒng)提供技術(shù)支撐。具體包括數(shù)據(jù)脫敏、數(shù)據(jù)加密等數(shù)據(jù)安全保護(hù)技術(shù),數(shù)據(jù)動(dòng)態(tài)訪問控制技術(shù)和數(shù)據(jù)安全審計(jì)技術(shù)。數(shù)據(jù)脫敏技術(shù)包括元數(shù)據(jù)脫敏及組學(xué)序列文件脫敏,需要采用特定的算法,對(duì)可能包含的隱私信息如姓名、年齡、身份證號(hào)等信息進(jìn)行刪除或修改;另外,針對(duì)圖像、測序數(shù)據(jù)等文件中的敏感信息,研發(fā)相應(yīng)的方法和技術(shù),實(shí)現(xiàn)多組學(xué)數(shù)據(jù)文件脫敏。數(shù)據(jù)加密是指對(duì)于安全級(jí)別較高的數(shù)據(jù),采用加密算法進(jìn)行加密,保證數(shù)據(jù)在流轉(zhuǎn)過程中的安全。數(shù)據(jù)動(dòng)態(tài)訪問控制技術(shù)針對(duì)多種類、多級(jí)別的數(shù)據(jù),研發(fā)細(xì)粒度的數(shù)據(jù)權(quán)限和訪問控制技術(shù),在保證數(shù)據(jù)訪問安全的情況下,促進(jìn)數(shù)據(jù)的開放共享。安全審計(jì)技術(shù)針對(duì)數(shù)據(jù)匯交、存儲(chǔ)、共享全流程操作過程,建立數(shù)據(jù)審計(jì)方法,實(shí)現(xiàn)數(shù)據(jù)操作可追蹤、可溯源。此外,利用云計(jì)算技術(shù),整合中心數(shù)據(jù)資源和算力資源,建立安全計(jì)算平臺(tái),為用戶提供在線數(shù)據(jù)計(jì)算服務(wù),實(shí)現(xiàn)數(shù)據(jù)不出域情況下的安全計(jì)算,方便用戶使用數(shù)據(jù),促進(jìn)數(shù)據(jù)的共享利用。
2.4 "全生命周期數(shù)據(jù)服務(wù)系統(tǒng)
圍繞數(shù)據(jù)匯交存儲(chǔ)、共享應(yīng)用全生命周期,建立全鏈條式數(shù)據(jù)服務(wù)系統(tǒng),為用戶提供包括數(shù)據(jù)匯交、數(shù)據(jù)審核與質(zhì)控、數(shù)據(jù)共享、數(shù)據(jù)分析等服務(wù)。數(shù)據(jù)匯交系統(tǒng)主要包括用戶身份認(rèn)證、元數(shù)據(jù)遞交和數(shù)據(jù)文件上傳等過程,需要實(shí)現(xiàn)用戶登錄、權(quán)限分配以及數(shù)據(jù)安全上傳和數(shù)據(jù)隱私保護(hù);數(shù)據(jù)審核與質(zhì)控系統(tǒng)主要實(shí)現(xiàn)數(shù)據(jù)的完整性和一致性校驗(yàn)和數(shù)據(jù)的質(zhì)量控制,為用戶提供高質(zhì)量的數(shù)據(jù)資源,并保證數(shù)據(jù)在遞交、歸檔、發(fā)布和共享全流程的一致性;數(shù)據(jù)存儲(chǔ)系統(tǒng)根據(jù)數(shù)據(jù)分級(jí)分類標(biāo)準(zhǔn),建立數(shù)據(jù)分級(jí)分類存儲(chǔ)機(jī)制,為數(shù)據(jù)匯交、歸檔、發(fā)布的全過程提供數(shù)據(jù)存儲(chǔ)空間和轉(zhuǎn)移通道,確保數(shù)據(jù)安全流轉(zhuǎn);此外,為保障數(shù)據(jù)存儲(chǔ)安全,還需要建立備份及恢復(fù)策略,實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)備份和災(zāi)難恢復(fù)。數(shù)據(jù)共享與應(yīng)用系統(tǒng)以數(shù)據(jù)開放共享為目標(biāo),根據(jù)數(shù)據(jù)的不同級(jí)別,建立生命組學(xué)數(shù)據(jù)多級(jí)共享和訪問控制機(jī)制;此外,針對(duì)組學(xué)大數(shù)據(jù)安全、便捷利用的需求,結(jié)合隱私計(jì)算等技術(shù),打通數(shù)據(jù)系統(tǒng)與安全計(jì)算平臺(tái)的通道,研發(fā)數(shù)據(jù)隱私計(jì)算服務(wù)模塊,實(shí)現(xiàn)數(shù)據(jù)的“可用不可得”。
3 "生命組學(xué)大數(shù)據(jù)安全管理實(shí)踐
國家基因組科學(xué)數(shù)據(jù)中心在生命組學(xué)大數(shù)據(jù)匯交、管理、共享實(shí)踐中,貫穿數(shù)據(jù)的全生命周期管理,在數(shù)據(jù)匯交、審核、存儲(chǔ)、管理、發(fā)布和共享等階段實(shí)施了一系列的安全措施,保障數(shù)據(jù)的全流程安全。
3.1 "數(shù)據(jù)遞交
數(shù)據(jù)遞交包括用戶登錄、元數(shù)據(jù)信息遞交和數(shù)據(jù)文件上傳等過程。用戶必須在系統(tǒng)中注冊賬號(hào),經(jīng)過身份認(rèn)證后才能進(jìn)行后續(xù)的操作。
在用戶賬號(hào)管理和身份認(rèn)證方面,NGDC引入Single Sign On (SSO)單點(diǎn)登錄系統(tǒng)[19],實(shí)現(xiàn)了各匯交子系統(tǒng)的用戶統(tǒng)一注冊、管理、登錄和鑒權(quán)。從安全角度考慮,統(tǒng)一單點(diǎn)登錄減少了用戶密碼管理的負(fù)擔(dān),降低了弱密碼和密碼重復(fù)使用的風(fēng)險(xiǎn);通過提供統(tǒng)一登錄入口,減少多個(gè)登錄界面,降低了網(wǎng)頁漏洞和網(wǎng)頁攻擊的風(fēng)險(xiǎn);SSO可以更容易地實(shí)施和執(zhí)行復(fù)雜的安全策略,如多因素認(rèn)證(MFA)。此外,集中的身份驗(yàn)證系統(tǒng)能更有效地監(jiān)控和管理用戶的訪問,可及時(shí)發(fā)現(xiàn)并響應(yīng)異?;顒?dòng)。因此,統(tǒng)一單點(diǎn)登錄系統(tǒng)提高了數(shù)據(jù)匯交體系整體認(rèn)證系統(tǒng)的安全性。
鑒于人類遺傳資源數(shù)據(jù)的重要性,NGDC對(duì)于人類遺傳資源組學(xué)原始測序數(shù)據(jù)的遞交制定了更加嚴(yán)格的規(guī)范。在SSO統(tǒng)一賬號(hào)安全管理的基礎(chǔ)上,增加了對(duì)人遺相關(guān)系統(tǒng)數(shù)據(jù)提交者賬號(hào)的要求。例如,GSA-Human系統(tǒng)只允許以課題研究組長的身份進(jìn)行數(shù)據(jù)提交,在提交數(shù)據(jù)的人工審核階段,系統(tǒng)會(huì)對(duì)數(shù)據(jù)提交者進(jìn)行項(xiàng)目負(fù)責(zé)人身份認(rèn)證,以確保數(shù)據(jù)提交者是人類遺傳資源數(shù)據(jù)的責(zé)任人,保證數(shù)據(jù)全生命周期的安全可控管理[15]。
在數(shù)據(jù)文件上傳方面,結(jié)合SSO統(tǒng)一認(rèn)證技術(shù),為用戶提供增強(qiáng)的數(shù)據(jù)訪問控制權(quán)限。例如,系統(tǒng)的FTP上傳服務(wù)通過SSO賬號(hào)進(jìn)行統(tǒng)一身份認(rèn)證,并為每個(gè)注冊用戶分配獨(dú)立的數(shù)據(jù)上傳空間,用戶只能訪問和讀寫自己的上傳目錄。用戶上傳文件時(shí),必須使用SSO賬號(hào)進(jìn)行登錄,并將文件上傳至自己的數(shù)據(jù)空間。這在一定程度上保護(hù)了用戶數(shù)據(jù)上傳的安全性。特別地,針對(duì)人類遺傳資源數(shù)據(jù),也開辟了專用上傳通道,以加強(qiáng)數(shù)據(jù)安全保障。
3.2 "數(shù)據(jù)審核與質(zhì)控
數(shù)據(jù)的完整性和一致性直接影響數(shù)據(jù)共享平臺(tái)的可靠性和可用性。為確保數(shù)據(jù)不被非法修改和破壞,中心制定了嚴(yán)格的數(shù)據(jù)審核與質(zhì)控策略。在數(shù)據(jù)遞交、質(zhì)控、歸檔、發(fā)布和共享的每一步驟,都會(huì)進(jìn)行數(shù)據(jù)一致性校驗(yàn)。在方法上,利用文件的MD5碼來驗(yàn)證數(shù)據(jù)的一致性。系統(tǒng)規(guī)定用戶在提交數(shù)據(jù)時(shí),必須同時(shí)提供文件的MD5碼,并在數(shù)據(jù)關(guān)聯(lián)、歸檔、發(fā)布等各個(gè)環(huán)節(jié),進(jìn)行數(shù)據(jù)MD5碼復(fù)驗(yàn),以保證數(shù)據(jù)在流轉(zhuǎn)過程中的一致性。該策略保證了用戶本地存儲(chǔ)的數(shù)據(jù)、系統(tǒng)歸檔和發(fā)布的數(shù)據(jù)以及用戶下載的數(shù)據(jù)之間的一致性。此外,針對(duì)不同的數(shù)據(jù)類型,分別建立數(shù)據(jù)質(zhì)量控制流程,對(duì)用戶匯交的數(shù)據(jù)進(jìn)行嚴(yán)格的審核和質(zhì)量控制,保證數(shù)據(jù)的完整性、高質(zhì)量。例如,F(xiàn)astq格式的原始測序文件的質(zhì)控流程,除了審核文件格式,還會(huì)對(duì)文件內(nèi)容進(jìn)行審核,該流程目前共能檢測出30余種常見的文件錯(cuò)誤。此外,還對(duì)錯(cuò)誤類型進(jìn)行細(xì)分編碼并實(shí)時(shí)反饋用戶質(zhì)控結(jié)果,方便用戶了解錯(cuò)誤情況。數(shù)據(jù)一致性、完整性校驗(yàn),是數(shù)據(jù)管理和數(shù)據(jù)安全的基礎(chǔ),能夠?yàn)橛脩籼峁┛尚拧⒏哔|(zhì)量的數(shù)據(jù),促進(jìn)數(shù)據(jù)資源的高效流轉(zhuǎn)和利用。
3.3 "數(shù)據(jù)存儲(chǔ)
中心初步制定了分級(jí)分類存儲(chǔ)策略,以保障數(shù)據(jù)存儲(chǔ)安全。將數(shù)據(jù)按照兩個(gè)維度進(jìn)行分類:數(shù)據(jù)類型和訪問權(quán)限。首先,根據(jù)不同的類型,如原始測序數(shù)據(jù)、基因組組裝數(shù)據(jù)、基因數(shù)據(jù)、變異數(shù)據(jù)等,為數(shù)據(jù)劃分獨(dú)立存儲(chǔ)空間;其次,按照訪問權(quán)限,將數(shù)據(jù)劃分為私有數(shù)據(jù)、受控?cái)?shù)據(jù)和公共數(shù)據(jù),并對(duì)每類數(shù)據(jù)采取物理隔離的方式進(jìn)行存儲(chǔ)。將私有數(shù)據(jù)和受控?cái)?shù)據(jù)分別存儲(chǔ)在私有存儲(chǔ)空間和受控存儲(chǔ)空間,不提供對(duì)外訪問接口;公共數(shù)據(jù)存放于公共存儲(chǔ)空間,并建立數(shù)據(jù)訪問接口,用戶可通過FTP或HTTPS等訪問接口進(jìn)行訪問。系統(tǒng)包含完善的數(shù)據(jù)發(fā)布流程,當(dāng)數(shù)據(jù)發(fā)布后,會(huì)自動(dòng)從私有空間轉(zhuǎn)存到公共空間。此外,還建立了完善的數(shù)據(jù)備份和恢復(fù)策略,所有數(shù)據(jù)都以磁帶庫的方式進(jìn)行備份,確保數(shù)據(jù)存儲(chǔ)安全。
3.4 "數(shù)據(jù)共享
數(shù)據(jù)的安全共享是生命組學(xué)大數(shù)據(jù)安全管理的重
要環(huán)節(jié)。NGDC以數(shù)據(jù)開放共享為目標(biāo),遵循我國生命組學(xué)數(shù)據(jù)相關(guān)法律法規(guī),參考國際生命組學(xué)數(shù)據(jù)共享政策,建立生命組學(xué)數(shù)據(jù)開放共享機(jī)制。在數(shù)據(jù)共享方式方面,將數(shù)據(jù)分為一般數(shù)據(jù)和重要數(shù)據(jù),并根據(jù)數(shù)據(jù)的不同類別,制定不同的數(shù)據(jù)訪問方式。一般數(shù)據(jù)主要是指病原體、動(dòng)植物、微生物等普通物種的原始組學(xué)測序數(shù)據(jù)、分析過的數(shù)據(jù)如基因組組裝數(shù)據(jù)、變異數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)、表觀組數(shù)據(jù)等;重要數(shù)據(jù)是指人類遺傳資源相關(guān)的原始組學(xué)測序數(shù)據(jù)、基因組變異數(shù)據(jù)等。一般數(shù)據(jù)采用公開訪問方式,全球用戶都可通過NGDC的BIG Search平臺(tái)在線檢索、瀏覽、下載已發(fā)布的公開訪問數(shù)據(jù)。對(duì)于重要數(shù)據(jù),采用“申請(qǐng)–審核制”的受控訪問方式,數(shù)據(jù)使用者須通過數(shù)據(jù)平臺(tái)向數(shù)據(jù)所有者提出數(shù)據(jù)使用申請(qǐng),獲得授權(quán)后才有權(quán)限下載使用。在受控?cái)?shù)據(jù)安全訪問和下載方面,NGDC提供了基于Apache Mina FtpServerp[20]開發(fā)的文件傳輸服務(wù)系統(tǒng)。系統(tǒng)引入單點(diǎn)登錄賬號(hào)信息和NGDC賬號(hào)內(nèi)部ID信息雙重認(rèn)證機(jī)制,對(duì)登錄鑒權(quán)進(jìn)行多因子校驗(yàn),保證用戶登錄安全;此外,為通過數(shù)據(jù)授權(quán)的用戶開辟專有的數(shù)據(jù)目錄,并對(duì)數(shù)據(jù)設(shè)置只讀權(quán)限,通過安全隔離和最小操作權(quán)限的方式,進(jìn)一步保證數(shù)據(jù)下載的安全性。
為了更好地落實(shí)執(zhí)行國家在人類遺傳資源數(shù)據(jù)管理方面的制度,NGDC遵照《中華人民共和國人類遺傳資源管理?xiàng)l例》《人類遺傳資源管理?xiàng)l例實(shí)施細(xì)則》等法律法規(guī),制訂了《人類遺傳資源數(shù)據(jù)共享政策》[21],數(shù)據(jù)使用者需要在遵循該政策的基礎(chǔ)上,申請(qǐng)、下載和使用數(shù)據(jù)。該政策符合相關(guān)國際規(guī)范,包括禁止對(duì)下載的數(shù)據(jù)進(jìn)行再分發(fā)、再傳播等行為。NGDC的人類遺傳資源數(shù)據(jù)共享機(jī)制有效保護(hù)了人類遺傳資源數(shù)據(jù)的合理、合法和合規(guī)使用,降低了安全風(fēng)險(xiǎn)和隱患。
3.5 "網(wǎng)絡(luò)和系統(tǒng)環(huán)境安全防護(hù)
在系統(tǒng)和網(wǎng)絡(luò)安全防護(hù)方面,NGDC也部署了一系列的網(wǎng)絡(luò)安全設(shè)備,為數(shù)據(jù)匯交訪問提供安全可靠的網(wǎng)絡(luò)環(huán)境。目前NGDC已建立網(wǎng)絡(luò)安全等級(jí)保護(hù)二級(jí)、三級(jí)系統(tǒng)各一個(gè),建成了較為完整的網(wǎng)絡(luò)安全防御體系,在互聯(lián)網(wǎng)接入、辦公、安全運(yùn)維、業(yè)務(wù)生產(chǎn)區(qū)域間設(shè)置不同的訪問控制策略,部署IPS、WAF、防火墻、堡壘機(jī)、防病毒、日志審計(jì)、數(shù)據(jù)庫審計(jì)等必要的網(wǎng)絡(luò)安全設(shè)備,并完善數(shù)據(jù)全生命周期安全管
理制度。
實(shí)踐中,NGDC已開展數(shù)據(jù)分級(jí)工作,將一般數(shù)據(jù)和相關(guān)應(yīng)用系統(tǒng)納入網(wǎng)絡(luò)安全等級(jí)保護(hù)二級(jí)系統(tǒng)管理,重點(diǎn)關(guān)注數(shù)據(jù)的完整性和可獲得性,為科研用戶提供公開的數(shù)據(jù)匯交、共享服務(wù)。針對(duì)具有一定規(guī)模的人類遺傳資源等重要數(shù)據(jù),建立網(wǎng)絡(luò)安全等級(jí)保護(hù)三級(jí)系統(tǒng),建立嚴(yán)格的數(shù)據(jù)授權(quán)訪問機(jī)制,在網(wǎng)絡(luò)層面規(guī)劃數(shù)據(jù)獨(dú)立管理區(qū)域,建立更加嚴(yán)格的邊界控制、訪問確權(quán)、運(yùn)維審計(jì)、加密策略等,保證數(shù)據(jù)可控訪問的實(shí)現(xiàn)。
4 "成效
面向國家生物安全、人口健康、生物多樣性等重大戰(zhàn)略需求,國家基因組科學(xué)數(shù)據(jù)中心建立了自主安全可控的綜合性數(shù)據(jù)匯交管理體系,保障國家數(shù)據(jù)安全、主權(quán)和發(fā)展需求。截至2024年6月,數(shù)據(jù)匯交體系服務(wù)用戶2,735萬人,累計(jì)服務(wù)各級(jí)各類科技計(jì)劃項(xiàng)目(含課題和子課題)2萬余個(gè),支撐發(fā)表文章3,584篇,匯交的數(shù)據(jù)總量超過50.7 PB,數(shù)據(jù)日均下載量超6 TB。
在服務(wù)國家人類遺傳資源信息管理方面,受中華人民共和國科學(xué)技術(shù)部委托,中心自2022年7月18日起開始承擔(dān)我國人類遺傳資源信息統(tǒng)一匯交管理任務(wù),整合已有數(shù)據(jù)匯交管理系統(tǒng)(包括GSA-Human、GenBase、GWH、GVM和OMIX),建成人類遺傳資源信息管理、備份、發(fā)布與共享一體化管理體系。截至2024年6月,備份平臺(tái)已分配備份編號(hào)3,564個(gè),關(guān)聯(lián)歸檔數(shù)據(jù)的總量超過2.6 PB。在此期間,受控?cái)?shù)據(jù)累計(jì)申請(qǐng)1,658次,授權(quán)數(shù)據(jù)下載總量756.70 TB。
此外,中心的網(wǎng)絡(luò)安全防御體系已形成了網(wǎng)絡(luò)邊界和內(nèi)部安全計(jì)算區(qū)域多層防護(hù)、重要系統(tǒng)持續(xù)審計(jì)和周期性網(wǎng)絡(luò)安全檢測等安全機(jī)制,高峰時(shí)網(wǎng)絡(luò)邊界每周記錄攻擊告警總數(shù)近100萬次,年主動(dòng)開展安全檢測網(wǎng)站頁面超10萬頁面/次。
5 "問題與建議
近年來,國際社會(huì)越來越重視生物安全,涉及生物數(shù)據(jù)安全、隱私保護(hù)、數(shù)據(jù)共享等方面的法律法規(guī)不斷出臺(tái)和完善。國家基因組科學(xué)數(shù)據(jù)中心雖然在生物組學(xué)大數(shù)據(jù)匯交、管理、共享等方面取得了一定的成果,也實(shí)施了一系列的生物數(shù)據(jù)安全管理措施,但是,在生物數(shù)據(jù)隱私保護(hù)、數(shù)據(jù)分級(jí)分類管理、數(shù)據(jù)高效共享和利用等方面,還有待進(jìn)一步加強(qiáng)。
5.1 "推進(jìn)生命組學(xué)大數(shù)據(jù)分級(jí)分類標(biāo)準(zhǔn)制定與實(shí)施
基因組科學(xué)與生物安全、臨床醫(yī)學(xué)等多個(gè)領(lǐng)域的交叉發(fā)展,使得科研領(lǐng)域內(nèi)通用的數(shù)據(jù)開放政策與數(shù)據(jù)保護(hù)法規(guī)之間的矛盾逐漸顯現(xiàn)[22]。為了在國家政策和開放科學(xué)之間達(dá)到平衡,應(yīng)盡快在國家層面推進(jìn)生命組學(xué)大數(shù)據(jù)分級(jí)分類標(biāo)準(zhǔn)的制定和實(shí)施,并依據(jù)標(biāo)準(zhǔn)研發(fā)相應(yīng)的數(shù)據(jù)分級(jí)保護(hù)技術(shù),促進(jìn)生命科學(xué)數(shù)據(jù)安全、合規(guī)、高效共享。
對(duì)于生命組學(xué)大數(shù)據(jù),應(yīng)根據(jù)數(shù)據(jù)的重要性、敏感性及數(shù)據(jù)遭到破壞后的危害性等對(duì)其進(jìn)行細(xì)致的分級(jí)分類,以便采取相應(yīng)的安全措施進(jìn)行精準(zhǔn)保護(hù)。2021年11月14日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布了《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例(征求意見稿)》[23],根據(jù)對(duì)國家安全、公共利益及個(gè)人、組織合法權(quán)益的影響,將數(shù)據(jù)分為一般數(shù)據(jù)、重要數(shù)據(jù)和核心數(shù)據(jù)三級(jí)。袁康等人在此基礎(chǔ)上構(gòu)建了5級(jí)數(shù)據(jù)安全分級(jí)體系,并給出了重要數(shù)據(jù)特征的相關(guān)分析[24]。對(duì)于生命組學(xué)大數(shù)據(jù),可先基于數(shù)據(jù)的組學(xué)類型,初步分類為基因組、變異組、轉(zhuǎn)錄組、翻譯組、表觀組、蛋白質(zhì)組、代謝組等。其次,可根據(jù)數(shù)據(jù)挖掘程度,將每個(gè)類型的組學(xué)數(shù)據(jù)細(xì)分為個(gè)體原始輸出數(shù)據(jù)、個(gè)體分析數(shù)據(jù)、群體統(tǒng)計(jì)數(shù)據(jù)等不同層次。最后,對(duì)不同樣本類型、數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)評(píng)估,并根據(jù)風(fēng)險(xiǎn)級(jí)別和重要程度進(jìn)行分級(jí)。在數(shù)據(jù)安全管理和共享系統(tǒng)建設(shè)中,研發(fā)相應(yīng)的數(shù)據(jù)分類分級(jí)安全保護(hù)技術(shù),保護(hù)數(shù)據(jù)存儲(chǔ)管理和共享利用的安全性,保障生命科學(xué)研究和健康醫(yī)學(xué)安全、快速發(fā)展。
5.2 nbsp;融合先進(jìn)信息和計(jì)算技術(shù),進(jìn)一步強(qiáng)化生命組學(xué)大數(shù)據(jù)安全管理技術(shù)體系建設(shè)
生物組學(xué)大數(shù)據(jù)安全與國家生物安全息息相關(guān),目前國家級(jí)生物安全大數(shù)據(jù)分析核心算法匱乏,也是我國生物安全面臨的重要問題[25]。作為生物組學(xué)大數(shù)據(jù)管理平臺(tái),應(yīng)該從數(shù)據(jù)收集、存儲(chǔ)、共享、利用等各個(gè)環(huán)節(jié)進(jìn)行安全技術(shù)提升,以加強(qiáng)數(shù)據(jù)的安全性保障。目前,在基因組學(xué)數(shù)據(jù)隱私處理領(lǐng)域,已產(chǎn)生相關(guān)技術(shù)體系,如利用轉(zhuǎn)換、聚合、混淆、合成等數(shù)據(jù)擾亂技術(shù)實(shí)現(xiàn)數(shù)據(jù)隱私保護(hù),使用同態(tài)加密、安全多方計(jì)算、可信執(zhí)行環(huán)境、區(qū)塊鏈等加密技術(shù)實(shí)現(xiàn)基因數(shù)據(jù)的安全使用[26]等。在數(shù)據(jù)共享與應(yīng)用方面,除了常規(guī)的數(shù)據(jù)受控管理模式外,采用云計(jì)算、聯(lián)邦計(jì)算等可提供靈活便捷的計(jì)算資源和數(shù)據(jù)處理流程的新型計(jì)算模式[27-28]在一定程度上可以保護(hù)人類遺傳數(shù)據(jù)的安全可控。未來,我們將針對(duì)生物組學(xué)數(shù)據(jù)及其共享應(yīng)用的需求,利用數(shù)據(jù)加密解密、云計(jì)算、聯(lián)邦計(jì)算等先進(jìn)技術(shù),從數(shù)據(jù)要素安全、數(shù)據(jù)共享和應(yīng)用安全等多角度出發(fā),研發(fā)數(shù)據(jù)安全管理技術(shù)體系,保障生物組學(xué)大數(shù)據(jù)的安全、高效利用。
第一,數(shù)據(jù)要素安全。針對(duì)人類遺傳資源數(shù)據(jù)等
重要生物數(shù)據(jù)安全保護(hù)的需求,結(jié)合基因組多組學(xué)數(shù)據(jù)的特點(diǎn),開發(fā)加密解密、數(shù)據(jù)脫敏等技術(shù),保護(hù)數(shù)據(jù)的私密性和安全性。
第二,數(shù)據(jù)共享安全。利用零信任技術(shù),根據(jù)數(shù)據(jù)的分級(jí)分類情況,建立細(xì)粒度的訪問控制及風(fēng)險(xiǎn)監(jiān)測機(jī)制,保障數(shù)據(jù)訪問和流轉(zhuǎn)安全。
第三,數(shù)據(jù)應(yīng)用安全。原始測序數(shù)據(jù)通常體量較大,數(shù)據(jù)傳輸不夠便捷,并且數(shù)據(jù)分級(jí)策略通常將重要原始測序數(shù)據(jù)劃分在受控級(jí)別較高的等級(jí),不便公開獲取。因此,結(jié)合云計(jì)算、隱私計(jì)算等技術(shù),構(gòu)建數(shù)據(jù)在線分析處理平臺(tái),使用戶可以在不接觸原始數(shù)據(jù)的前提下獲得分析結(jié)果,真正實(shí)現(xiàn)原始數(shù)據(jù)的可用不可得,提升數(shù)據(jù)利用效率。
5.3 "加快數(shù)據(jù)異地災(zāi)備設(shè)施建設(shè),提升數(shù)據(jù)安全保障能力
災(zāi)難備份是開展大數(shù)據(jù)安全工作的基礎(chǔ),必須能夠確保出現(xiàn)極端危害事件的情況下可以獲得有效的數(shù)據(jù)副本。目前通行的做法是建立空間獨(dú)立,在同一時(shí)刻無相同危害風(fēng)險(xiǎn)的備份中心。
NGDC正在規(guī)劃相關(guān)的基礎(chǔ)設(shè)施的建設(shè)工作,可選方案包括具有設(shè)施基礎(chǔ)的分中心,此方案具有地域距離遠(yuǎn)、同發(fā)災(zāi)難概率低的優(yōu)勢,但需進(jìn)行獨(dú)立的設(shè)施投入。利用未來國家生物信息中心基礎(chǔ)設(shè)施資源,也是較為可行的方案之一,具有無需重復(fù)投入、設(shè)施標(biāo)準(zhǔn)高的優(yōu)勢,但國家生物信息中心與NGDC現(xiàn)有設(shè)施的距離較近,存在同發(fā)災(zāi)難事件的可能性。
致謝:感謝NGDC全體成員的敬業(yè)工作;感謝北京大學(xué)的羅靜初教授、中國科學(xué)院生物物理研究所的陳潤生院士、中國科學(xué)院分子植物科學(xué)卓越創(chuàng)新中心的趙國屏院士的指導(dǎo);感謝科學(xué)技術(shù)部、國家衛(wèi)生健康委員會(huì)、中國科學(xué)院以及NGDC的兩個(gè)共建單位——中國科學(xué)院生物物理研究所和中國科學(xué)院上海營養(yǎng)與健康研究所的支持。
參考文獻(xiàn)
[1] Genomics Expenditures and National Security Enhancement Act [EB/OL]. https://www.congress.gov/bill/117th-congress/senate-bill/ 1745/text.
[2] Genomics Data Security Act [EB/OL]. https://www.congress.gov/bill/ 117th-congress/senate-bill/1744/text.
[3] BIOSECURE Act [EB/OL]. https://www.congress.gov/bill/118th- congress/house-bill/7085/text
[4] Executive Order on Preventing Access to Americans’ Bulk Sensitive Personal Data and United States Government-Related Data by Countries of Concern [EB/OL]. https://www.federalregister.gov/ documents/2024/03/01/2024-04573/preventing-access-to-americans-bulk-sensitive-personal-data-and-united-states-government-related.
[5] General Data Protection Regulation [EB/OL]. https://gdpr-info.eu/.
[6] 中華人民共和國生物安全法 [EB/OL]. https://www.gov.cn/xinwen/ 2020-10/18/content_5552108.htm?eqid=ee76ba160000091a000000036465eef7.
[7] 中華人民共和國數(shù)據(jù)安全法 [EB/OL]. https://www.gov.cn/xinwen/ 2021-06/11/content_5616919.htm.
[8] 中華人民共和國個(gè)人信息保護(hù)法 [EB/OL]. https://www.gov.cn/ xinwen/2021-08/20/content_5632486.htm.
[9] 中華人民共和國人類遺傳資源管理?xiàng)l例 [EB/OL]. https://www. safea.gov.cn/xxgk/xinxifenlei/fdzdgknr/fgzc/flfg/201906/t20190612_147044.html.
[10] 人類遺傳資源管理?xiàng)l例實(shí)施細(xì)則 [EB/OL]. https://www.gov.cn/ zhengce/202306/content_6887562.htm.
[11] CNCB-NGDC Members and Partners. Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2024[J]. Nucleic Acids Research, 2024, 52(D1): D18-D32.
[12] BIG Data Center Members. The BIG Data Center: from deposition to integration to translation[J]. Nucleic Acids Research, 2017, 45(D1): D18-D24.
[13] WANG Y, SONG F, ZHU J, et al. GSA: Genome Sequence Archive[J]. Genomics Proteomics Bioinformatics, 2017, 15(1):14-18.
[14] CHEN T, CHEN X, ZHANG S, et al. The Genome Sequence Archive Family: Toward explosive data growth and diverse data types[J]. Genomics Proteomics Bioinformatics, 2021,19(4):578-583.
[15] 張思思,陳旭,陳婷婷,等. GSA-Human: 人類遺傳資源數(shù)據(jù)管理的公共系統(tǒng)[J]. 遺傳, 2021, 43(10):988-993.
[16] CHEN M, MA Y, WU S, et al. Genome Warehouse: A public repository housing genome-scale data[J]. Genomics Proteomics Bioinformatics, 2021,19(4):584-589.
[17] BU C, ZHENG X, ZHAO X, et al. GenBase: A nucleotide sequence database[J]. Genomics Proteomics Bioinformatics, 2024, qzae047.
[18] LI C, TIAN D, TANG B, et al. Genome Variation Map: A worldwide collection of genome variations across multiple species[J]. Nucleic Acids Research, 2021, 49(D1):D1186-D1191.
[19] Single Sign-On [EB/OL]. https://www.apereo.org/projects/cas.
[20] Apache MINA FtpServer [EB/OL]. https://cwiki.apache.org/ confluence/display/FTPSERVER/Index.
[21] 國家基因組科學(xué)數(shù)據(jù)中心人類遺傳資源數(shù)據(jù)共享政策 [EB/OL]. https://ngdc.cncb.ac.cn/gsa-human/document/Principle_of_Accessing_Human_Genetic_Resource_Data_in_NGDC_V1.pdf.
[22] Mark Phillips. International data-sharing norms: from the OECD to the General Data Protection Regulation (GDPR)[J]. Human genetics, 2018.
[23] 網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例(征求意見稿)[EB/OL]. https://www.cac. gov.cn/2021-11/14/c_1638501991577898.htm.
[24] 袁康,鄢浩宇. 數(shù)據(jù)分類分級(jí)保護(hù)的邏輯厘定與制度構(gòu)建——以重要數(shù)據(jù)識(shí)別和管控為中心[J]. 中國科技論壇, 2022(7):167-177.
[25] 王秉,朱媛媛.大數(shù)據(jù)環(huán)境下國家生物安全情報(bào)工作體系構(gòu)建[J/OL]. 情報(bào)雜志, 2021, 40(6):82-88. https://kns.cnki.net/kcms/detail/61.1167. G3.20210511.1427.028.html.
[26] WAN Z, HAZEL J W, CLAYTON E W, et al. Sociotechnical safeguards for genomic data privacy[J]. Nature Reviews Genetics, 2022, 23:429-445.
[27] Genomic Data Science Community Network. Diversifying the genomic data science research community[J]. Genome Research 2022, 32: 1231-1241. doi:10.1101/gr.276496.121.
[28] LANGMEAD B, NELLORE A. Cloud computing for genomic data analysis and collaboration[J]. Nature Reviews Genetics, 2018, 19(4): 208-219. DOI: 10.1038/nrg.2017.113.
引用格式:王彥青,陳婷婷,張思思,朱軍偉,陳煥新,肖景發(fā),宋述慧,章張,趙文明,鮑一明.生命組學(xué)大數(shù)據(jù)安全管理實(shí)踐[J].農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào),2024,6(3): 325-332. DOI: 10.19788/j.issn.2096-6369.000053.
CITATION: WANG YanQing, CHEN TingTing, ZHANG SiSi, ZHU JunWei, CHEN HuanXin, XIAO JingFa, SONG ShuHui, ZHANG Zhang, ZHAO WenMing, BAO YiMing. Practice of Security Management of Omics Big Data in Life Sciences[J]. Journal of Agricultural Big Data,2024,6(3): 325-332. DOI: 10.19788/j.issn.2096-6369.000053.
Practice of Security Management of Omics Big Data in Life Sciences
WANG YanQing1,2, CHEN TingTing1,2, ZHANG SiSi1,2, ZHU JunWei1,2, CHEN HuanXin1,2, XIAO JingFa1,2,3, SONG ShuHui1,2,3, ZHANG Zhang1,2,3, ZHAO WenMing1,2,3*, BAO YiMing1,2,3*
1. National Genomics Data Center, China National Center for Bioinformation, Beijing 100101, China; 2. Beijing Institute of Genomics, Chinese Academy of Sciences, Beijing 100101, China; 3. University of Chinese Academy of Sciences, Beijing 100049, China
Abstract: Omics big data is a significant foundational and strategic resource for the country, which plays an important role in supporting the basic research and application innovation of life sciences, promoting the innovative development of bioeconomy, and maintaining national security. With the rapid accumulation of omics data, the security of data management has become increasingly prominent. Facing the major strategic needs of China's population health and sustainable social development, the National Genomics Data Center (NGDC) has established a comprehensive research architecture for collecting, storing, managing, sharing, and mining of big data in omics, forming a series of practices and measures for the security management of the data. This paper delves into the issues of security management of omics big data throughout its lifecycle, elaborating on NGDC's security management measures implemented in the collecting, storing, managing and sharing of the data. Furthermore, it summarizes NGDC’s achievements in the security management of omics big data. Finally, this paper envisions the future directions for the security management of omics big data, including enhancing the data classification and categorization system, enhancing data hierarchical security management technologies and strengthening the construction of off-site disaster recovery, in order to achieve the security management and sustainable development of omics big data in life sciences.
Keywords: omics big data; data archive; data sharing; security management