張思思,陳旭,陳婷婷,朱軍偉,唐碧霞,王安可,董麗莉,張哲文,孫艷玲,俞彩霞,翟爽,孫玉彬,陳煥新,杜政霖,3,肖景發(fā),3,章張,3,鮑一明,3,王彥青,趙文明,3
資源與平臺(tái)
GSA-Human:人類遺傳資源數(shù)據(jù)管理的公共系統(tǒng)
張思思1,2,陳旭1,2,陳婷婷1,2,朱軍偉1,2,唐碧霞1,2,王安可1,2,董麗莉1,2,張哲文1,2,孫艷玲1,2,俞彩霞1,2,翟爽1,2,孫玉彬1,2,陳煥新1,2,杜政霖1,2,3,肖景發(fā)1,2,3,章張1,2,3,鮑一明1,2,3,王彥青1,2,趙文明1,2,3
1. 國(guó)家生物信息中心, 北京 100101 2. 中國(guó)科學(xué)院北京基因組研究所, 國(guó)家基因組科學(xué)數(shù)據(jù)中心, 北京 100101 3. 中國(guó)科學(xué)院大學(xué),北京 100049
GSA-Human是人類遺傳資源數(shù)據(jù)匯交、存儲(chǔ)、管理與共享的數(shù)據(jù)庫(kù)系統(tǒng),可提供人類遺傳資源數(shù)據(jù)的上傳、下載、瀏覽、檢索等公共服務(wù),并有效支撐了國(guó)家重點(diǎn)研發(fā)計(jì)劃科技項(xiàng)目數(shù)據(jù)的匯交與管理工作。系統(tǒng)具有符合《中華人民共和國(guó)人類遺傳資源管理?xiàng)l例》數(shù)據(jù)安全管理策略,提供公開訪問(wèn)和受控訪問(wèn)相結(jié)合的數(shù)據(jù)使用模式。公開訪問(wèn)數(shù)據(jù)允許用戶自由下載與獲?。皇芸卦L問(wèn)數(shù)據(jù)采用申請(qǐng)-審核的模式,即需要通過(guò)數(shù)據(jù)管理委員會(huì)(Data Access Committee, DAC)的授權(quán)方可獲得下載和使用權(quán)限。系統(tǒng)自上線以來(lái),截至2021年7月,匯集數(shù)據(jù)總量已超5.27 PB。
人類遺傳資源數(shù)據(jù)管理系統(tǒng);組學(xué)數(shù)據(jù);數(shù)據(jù)匯交;數(shù)據(jù)共享
數(shù)據(jù)是21世紀(jì)的珍貴財(cái)產(chǎn)。人類遺傳資源數(shù)據(jù)關(guān)系到人口健康和人類社會(huì)的可持續(xù)發(fā)展,是國(guó)家重要戰(zhàn)略資源。2019年7月1日開始實(shí)施的《中華人民共和國(guó)人類遺傳資源管理?xiàng)l例》(簡(jiǎn)稱“條例”)明確了人類遺傳資源范圍,即人類遺傳資源數(shù)據(jù)是指利用含有人體基因組、基因等遺傳物質(zhì)的器官、組織、細(xì)胞等材料產(chǎn)生的數(shù)據(jù)。該條例規(guī)定了人類遺傳資源數(shù)據(jù)在采集、保藏、利用和對(duì)外開放方面的審批事項(xiàng),為我國(guó)人類遺傳資源數(shù)據(jù)的管理提供了指導(dǎo)思想。國(guó)家生物信息中心–國(guó)家基因組科學(xué)數(shù)據(jù)中心(National Genomics Data Center, China National Center for Bioinformation, CNCB-NGDC)于2015年建立的組學(xué)原始數(shù)據(jù)歸檔庫(kù)(Genome Sequence Ar-chive, GSA)(https://ngdc.cncb.ac.cn/gsa/)[1~3],匯交、存儲(chǔ)、管理和共享全球生命組學(xué)測(cè)序數(shù)據(jù),為我國(guó)的科學(xué)數(shù)據(jù)管理發(fā)揮了重要作用。依托GSA系統(tǒng),以人類遺傳資源管理?xiàng)l例為指導(dǎo)原則,以《科學(xué)數(shù)據(jù)管理辦法》和《數(shù)據(jù)安全法》為參照,CNCB-NGDC建立了集數(shù)據(jù)匯交、分級(jí)存儲(chǔ)、安全管理、受控共享等多個(gè)功能為一體的人類遺傳資源數(shù)據(jù)管理系統(tǒng)(Genome Sequence Archive for Human, GSA-Human) (https://ngdc.cncb.ac.cn/gsa-human/),以此推動(dòng)我國(guó)人類遺傳資源數(shù)據(jù)的安全管理與開放共享,促進(jìn)數(shù)據(jù)開發(fā)與利用,服務(wù)于國(guó)家面向人口健康和生命安全相關(guān)的科學(xué)研究。
通常,生命組學(xué)數(shù)據(jù)可分為三級(jí):一級(jí)為原始測(cè)序數(shù)據(jù),大多為通過(guò)基因測(cè)序儀或相關(guān)儀器設(shè)備產(chǎn)生的并經(jīng)過(guò)簡(jiǎn)單整理和質(zhì)量控制后的數(shù)據(jù),這類數(shù)據(jù)含有最全面的信息;二級(jí)為原始測(cè)序數(shù)據(jù)經(jīng)過(guò)一些處理,如序列比對(duì)、基因組拼接等操作后所產(chǎn)生的數(shù)據(jù);三級(jí)為在二級(jí)數(shù)據(jù)的基礎(chǔ)上進(jìn)一步深加工產(chǎn)生的數(shù)據(jù),如基因組的變異、基因注釋、轉(zhuǎn)錄組表達(dá)量、表觀組調(diào)控位點(diǎn)等分析結(jié)果數(shù)據(jù)。GSA-Human主要面向一級(jí)測(cè)序序列數(shù)據(jù),支持當(dāng)前主流測(cè)序平臺(tái),如二代測(cè)序平臺(tái)Illumina、BGISEQ等,三代測(cè)序平臺(tái)PacBio SMART、Bionano Genomics、Oxford Nanopore等。針對(duì)二、三級(jí)數(shù)據(jù),CNCB- NGDC已建立了多個(gè)數(shù)據(jù)庫(kù)系統(tǒng)收錄并整合數(shù)據(jù),如基因組數(shù)據(jù)庫(kù)(Genome Warehouse, GWH)[4], 基因組變異數(shù)據(jù)庫(kù)(Genome Variation Map, GVM)[5],基因組表達(dá)庫(kù)(Gene Expression Nebulas, GEN)[6],甲基化數(shù)據(jù)庫(kù)(Methylation Bank, MethBank)[7],多元數(shù)據(jù)歸檔庫(kù)(Open Archive for Miscellaneous Data, OMIX)等。各數(shù)據(jù)庫(kù)通過(guò)項(xiàng)目編號(hào)(BioProject accession)進(jìn)行相互關(guān)聯(lián),相輔相成,形成了我國(guó)人類遺傳資源數(shù)據(jù)安全存儲(chǔ)和統(tǒng)一管理的公共平臺(tái)。
GSA-Human中的數(shù)據(jù)包括元數(shù)據(jù)信息和測(cè)序序列數(shù)據(jù)。元數(shù)據(jù)信息主要為測(cè)序序列數(shù)據(jù)的描述信息,鑒于人類遺傳資源承載的基本對(duì)象是人,GSA-Human使用“個(gè)體”(individual)來(lái)描述研究對(duì)象,并組織與此研究對(duì)象相關(guān)聯(lián)的信息,主要包括“樣本信息”(sample)、“實(shí)驗(yàn)信息”(experiment)、“測(cè)序反應(yīng)”(run)信息以及對(duì)應(yīng)的測(cè)序序列數(shù)據(jù)(sequence)。其中,“個(gè)體信息”是用于收集取樣對(duì)象的基本信息,主要收集包括性別、身體形態(tài)指標(biāo)、生活習(xí)慣、疾病、治療情況以及其他屬性信息。當(dāng)取樣對(duì)象為細(xì)胞系時(shí),主要收集原代培養(yǎng)物或細(xì)胞系的取樣組織、生理性別和種族來(lái)源等信息?!皹颖拘畔ⅰ笔侵饕占芯可婕暗纳飿颖久枋?,如樣本類型、樣本屬性等。為更加靈活的實(shí)現(xiàn)個(gè)體和樣本的元數(shù)據(jù)信息的收集管理,GSA-Human采樣用固定詞條與自定義屬性相結(jié)合的方式組織數(shù)據(jù),即系統(tǒng)設(shè)置個(gè)性化的數(shù)據(jù)描述字段以滿足不同的數(shù)據(jù)管理需求。“實(shí)驗(yàn)信息”包括實(shí)驗(yàn)?zāi)康?、文?kù)構(gòu)建方式、測(cè)序類型等信息?!皽y(cè)序反應(yīng)”信息為測(cè)序文件所對(duì)應(yīng)的校驗(yàn)信息,測(cè)序文件則為各種測(cè)序平臺(tái)的測(cè)序原始數(shù)據(jù),主要測(cè)序格式包括Fastq、BAM等。GSA-Human系統(tǒng)中,一個(gè)或多個(gè)個(gè)體組成的數(shù)據(jù)組由“研究信息”(study)數(shù)據(jù)模型進(jìn)行統(tǒng)一管理,包括研究類型、數(shù)據(jù)訪問(wèn)機(jī)制、數(shù)據(jù)備份號(hào)與備案號(hào)①數(shù)據(jù)備份號(hào)與備案號(hào)為中華人民共和國(guó)科學(xué)技術(shù)部為人類遺傳資源信息對(duì)境外機(jī)構(gòu)提供或開放使用提供的審批編號(hào)。等信息。因此,“研究信息”被定義為GSA-Human中的一個(gè)獨(dú)立數(shù)據(jù)集(dataset),并以“HRA+6位數(shù)字”(如“HRA000001”)編碼進(jìn)行唯一標(biāo)識(shí)。各類數(shù)據(jù)元素之間采用層級(jí)及關(guān)聯(lián)的模式進(jìn)行組織,從而形成包括“研究(study)-個(gè)體(individual)-樣本(sample)-實(shí)驗(yàn)(experiment)-測(cè)序反應(yīng)(run)-序列數(shù)據(jù)(sequence)”的“金字塔”式的數(shù)據(jù)組織與管理模式。
GSA-Human系統(tǒng)建立了元數(shù)據(jù)實(shí)時(shí)審核、人工審編和數(shù)據(jù)文件審編三個(gè)層次的數(shù)據(jù)質(zhì)控與審核功能。元數(shù)據(jù)實(shí)時(shí)審核發(fā)生在數(shù)據(jù)錄入過(guò)程中,審核內(nèi)容包括數(shù)據(jù)合規(guī)性、一致性、控制詞匯、專有術(shù)語(yǔ)和數(shù)據(jù)結(jié)構(gòu)等。人工校驗(yàn)發(fā)生在數(shù)據(jù)錄入之后,由GSA-Human的系統(tǒng)審編員執(zhí)行,人工校驗(yàn)可以防止一些內(nèi)容不當(dāng)或垃圾信息進(jìn)入系統(tǒng)并被公布,從而確保元數(shù)據(jù)信息的準(zhǔn)確性,并使得系統(tǒng)中的數(shù)據(jù)干凈整潔。數(shù)據(jù)文件審編由后臺(tái)監(jiān)控程序自動(dòng)檢測(cè)并觸發(fā)運(yùn)行,該過(guò)程主要檢查用戶遞交序列數(shù)據(jù)的完整性和可靠性,防止數(shù)據(jù)文件在處理、壓縮、拷貝、傳輸和存檔過(guò)程中出現(xiàn)異常,自動(dòng)化程序?qū)徍诉^(guò)程和內(nèi)容包括:(1)文件壓縮的正確性;(2)文件格式的合規(guī)性,目前主要的文件格式包括Fastq和Bam格式;(3)序列信息的統(tǒng)計(jì),包括reads數(shù)量、堿基數(shù)量、reads長(zhǎng)度、堿基數(shù)量分布和reads長(zhǎng)度分布等。針對(duì)用戶遞交的數(shù)據(jù)集,只有當(dāng)元數(shù)據(jù)和序列數(shù)據(jù)均通過(guò)審核,GSA-Human才為該數(shù)據(jù)集分配正式的訪問(wèn)序列號(hào)(accession number)。
GSA-Human設(shè)置數(shù)據(jù)管理委員會(huì)(Data Access Committee, DAC)對(duì)數(shù)據(jù)的訪問(wèn)權(quán)限進(jìn)行管理和控制。DAC由數(shù)據(jù)遞交者提供并在遞交數(shù)據(jù)時(shí)創(chuàng)建,每一個(gè)需要受控管理的數(shù)據(jù)集均需設(shè)置DAC,DAC中可包含一個(gè)或多個(gè)成員,一般由資深專家組成,且需要設(shè)定一名DAC聯(lián)系人(DAC contact)。DAC是GSA-Human中審批數(shù)據(jù)使用請(qǐng)求的最終決策方,DAC成員負(fù)責(zé)審核用戶請(qǐng)求,DAC聯(lián)系人負(fù)責(zé)接收數(shù)據(jù)申請(qǐng)、組織DAC成員對(duì)數(shù)據(jù)申請(qǐng)進(jìn)行審核、處理相關(guān)的決策決議。GSA-Human為每個(gè)DAC分配一個(gè)編號(hào),并實(shí)現(xiàn)與其管理數(shù)據(jù)的關(guān)聯(lián)與訪問(wèn)。
為保證人類遺傳資源數(shù)據(jù)的存儲(chǔ)安全,GSA- Human從系統(tǒng)架構(gòu)整體設(shè)計(jì)了多重安全防護(hù)措施。在用戶身份認(rèn)證方面,采取雙重認(rèn)證方式,用戶既需要通過(guò)CNCB-NGDC的單點(diǎn)登錄系統(tǒng)(single sign- on, SSO)的密碼認(rèn)證,還需要在數(shù)據(jù)提交和申請(qǐng)下載的人工審核階段,進(jìn)行項(xiàng)目負(fù)責(zé)人身份信息核實(shí),以確保數(shù)據(jù)的可溯源性。針對(duì)數(shù)據(jù)上傳服務(wù),GSA- Human為每個(gè)用戶提供獨(dú)立的數(shù)據(jù)存儲(chǔ)空間,有效避免不同用戶之間相互干擾,降低信息泄露的可能性,充分確保數(shù)據(jù)的安全性和私密性。在數(shù)據(jù)存儲(chǔ)方面,采用磁盤和磁帶庫(kù)相結(jié)合的數(shù)據(jù)備份方式,防止因意外事故造成數(shù)據(jù)丟失。在用戶下載數(shù)據(jù)方面,實(shí)現(xiàn)了用戶身份認(rèn)證和數(shù)據(jù)訪問(wèn)目錄權(quán)限控制的系統(tǒng)開發(fā),并通過(guò)數(shù)據(jù)文件軟連接(soft link)、授權(quán)賬戶關(guān)聯(lián)以及自動(dòng)權(quán)限控制的模式實(shí)現(xiàn)數(shù)據(jù)的受控共享,既保證了數(shù)據(jù)的安全性,也保障了多用戶同時(shí)訪問(wèn)同一數(shù)據(jù)時(shí)的效率。
為了有效管理和保護(hù)我國(guó)人類遺傳資源數(shù)據(jù),促進(jìn)數(shù)據(jù)有序共享與合理利用,GSA-Human建立了人類遺傳資源數(shù)據(jù)匯交的基本規(guī)范,核心內(nèi)容包括:(1)數(shù)據(jù)遞交者身份認(rèn)證,只允許以課題研究組長(zhǎng)的身份進(jìn)行數(shù)據(jù)提交,從而確保數(shù)據(jù)的可溯源性;(2)倫理合規(guī)性,即數(shù)據(jù)遞交者應(yīng)已經(jīng)從數(shù)據(jù)集對(duì)應(yīng)的研究對(duì)象處獲得知情同意書,并符合倫理原則,通過(guò)相應(yīng)的倫理審查;(3)隱私保護(hù)性,數(shù)據(jù)遞交者提供的信息必須對(duì)其研究對(duì)象的個(gè)人信息進(jìn)行脫敏處理;(4)政策合法性,數(shù)據(jù)遞交者在對(duì)外發(fā)布其數(shù)據(jù)集前,遵循科技部人類遺傳資源信息備案流程獲得數(shù)據(jù)集備份號(hào)及備案號(hào);(5)遵守科研誠(chéng)信與道德,數(shù)據(jù)遞交者對(duì)其提交的數(shù)據(jù)質(zhì)量負(fù)責(zé)。
按照數(shù)據(jù)的組織模式,GSA-Human的數(shù)據(jù)遞交包含兩部分內(nèi)容:元數(shù)據(jù)遞交和序列文件遞交。元數(shù)據(jù)遞交主要為在線遞交(https://ngdc.cncb.ac.cn/gsa- human/submit/hra/submit),即通過(guò)WEB頁(yè)面實(shí)現(xiàn)信息輸入、勾選、導(dǎo)入或確認(rèn);GSA-Human提供可視化及向?qū)Щ牟僮髂J剑瑑?nèi)置多種控制詞匯表,最大限度地規(guī)范信息錄入;此外,系統(tǒng)還提供批量表格在線導(dǎo)入與校驗(yàn)功能,實(shí)現(xiàn)元數(shù)據(jù)信息實(shí)時(shí)在線質(zhì)控和信息反饋,為科研人員提供簡(jiǎn)單、便利、高效的元數(shù)據(jù)信息遞交服務(wù)。在測(cè)序序列文件匯交方面,可支持Aspera和 FTP兩種在線數(shù)據(jù)上傳方式。對(duì)于一次性上傳數(shù)據(jù)量超過(guò)1 TB的數(shù)據(jù)遞交,可以選擇采用郵遞硬盤的模式,由GSA-Human系統(tǒng)審編人員協(xié)助上傳數(shù)據(jù)。
GSA-Human提供公開訪問(wèn)和受控訪問(wèn)兩種共享訪問(wèn)模式。公開訪問(wèn)即已經(jīng)發(fā)布的數(shù)據(jù)可被任何人瀏覽和下載,用戶對(duì)數(shù)據(jù)的使用無(wú)須向數(shù)據(jù)遞交者申請(qǐng);受控訪問(wèn)即對(duì)數(shù)據(jù)使用在一定限制下進(jìn)行,用戶在下載數(shù)據(jù)之前需要先獲得該數(shù)據(jù)的使用授權(quán)。共享模式的選擇由數(shù)據(jù)遞交者自行設(shè)定,但需要遵守相關(guān)的規(guī)則:尚未獲得人類遺傳資源數(shù)據(jù)備案編號(hào)的數(shù)據(jù)集(商用細(xì)胞系和古人類數(shù)據(jù)除外,依照相關(guān)規(guī)定此兩類數(shù)據(jù)無(wú)須備案?jìng)浞?不能設(shè)置為公開訪問(wèn),已獲得備案編號(hào)的數(shù)據(jù)集,可以設(shè)置為公開訪問(wèn)或受控訪問(wèn)。GSA-Human支持的受控訪問(wèn)被稱為“申請(qǐng)–審核制”(圖1),即用戶檢索到所需數(shù)據(jù)集后(https://ngdc.cncb.ac.cn/gsa-human/browse/),通過(guò)數(shù)據(jù)申請(qǐng)下載模塊(request)在線提交數(shù)據(jù)應(yīng)用“申請(qǐng)單”,該數(shù)據(jù)的管理委員會(huì)(DAC)對(duì)“申請(qǐng)單”進(jìn)行審核,如果審核通過(guò),則賦予數(shù)據(jù)使用權(quán)利,用戶需使用授權(quán)賬號(hào)的用戶名和密碼登錄系統(tǒng),并通過(guò)FTP工具或命令行完成授權(quán)數(shù)據(jù)下載。GSA- Human的數(shù)據(jù)共享政策遵循了相關(guān)的國(guó)際規(guī)范,比如獲得數(shù)據(jù)后不能再分發(fā)、再傳播,數(shù)據(jù)申請(qǐng)者要經(jīng)過(guò)審核與認(rèn)證等[8,9]。GSA-Human的數(shù)據(jù)共享模式有效地保護(hù)了人類遺傳資源數(shù)據(jù)的合理、合法、合規(guī)使用,降低了安全風(fēng)險(xiǎn)和隱患。
圖1 受控訪問(wèn)數(shù)據(jù)集申請(qǐng)下載流程
GSA-Human自正式上線運(yùn)行以來(lái),已接收了來(lái)自全球用戶遞交的人類遺傳數(shù)據(jù)集750個(gè),已發(fā)布數(shù)據(jù)集395個(gè),其中受控訪問(wèn)數(shù)據(jù)集313個(gè),公開訪問(wèn)數(shù)據(jù)集82個(gè),而受控訪問(wèn)數(shù)據(jù)集中已獲得備案?jìng)浞萏?hào)的僅43個(gè));共合計(jì)收錄個(gè)體數(shù)(individual) 71,283個(gè),生物學(xué)樣本數(shù)(sample)159,747個(gè),實(shí)驗(yàn)數(shù)(experiment) 180,231個(gè),測(cè)序反應(yīng)數(shù)(run)216,546個(gè),總數(shù)據(jù)量超過(guò)5.27 PB,數(shù)據(jù)日增量統(tǒng)計(jì)如圖2所示。GSA-Human已接收來(lái)自550個(gè)用戶的數(shù)據(jù)下載申請(qǐng)共808份,總數(shù)據(jù)下載量超過(guò)300 TB。GSA-Human已支撐數(shù)據(jù)遞交用戶在、、、、等66種國(guó)內(nèi)外期刊發(fā)表論文117篇。此外,GSA-Human承擔(dān)國(guó)家重點(diǎn)研發(fā)計(jì)劃與人類遺傳資源相關(guān)的多組學(xué)數(shù)據(jù)匯聚與統(tǒng)一管理工作,截至2021年7月,已接收來(lái)自國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目的原始測(cè)序下機(jī)數(shù)據(jù)共計(jì)1.57 PB。
圖2 GSA-Human數(shù)據(jù)增長(zhǎng)情況統(tǒng)計(jì)圖
GSA-Human作為人類遺傳資源組學(xué)數(shù)據(jù)匯交、存儲(chǔ)和受控訪問(wèn)管理系統(tǒng),接受來(lái)自全球的科研工作者的數(shù)據(jù)提交和共享請(qǐng)求,為人類遺傳資源數(shù)據(jù)共享與利用提供了良好的平臺(tái)。同時(shí),GSA-Human系統(tǒng)承擔(dān)國(guó)家科技項(xiàng)目數(shù)據(jù)匯聚與管理任務(wù),有力支撐了我國(guó)重大科研任務(wù)的科學(xué)數(shù)據(jù)管理。
GSA-Human推行數(shù)據(jù)“申請(qǐng)–審核”制共享模式,采用數(shù)據(jù)管理委員會(huì)審批數(shù)據(jù)使用權(quán)限的機(jī)制,提升數(shù)據(jù)遞交者對(duì)數(shù)據(jù)管理的自主權(quán),在充分保障數(shù)據(jù)權(quán)益的同時(shí)激發(fā)了數(shù)據(jù)匯交的積極性,促進(jìn)了我國(guó)人類遺傳資源數(shù)據(jù)的共享與再利用。但隨之而來(lái)的問(wèn)題是大量的數(shù)據(jù)匯交與存儲(chǔ)GSA-Human需求,這對(duì)當(dāng)前系統(tǒng)的性能和數(shù)據(jù)存儲(chǔ)能力,尤其是數(shù)據(jù)長(zhǎng)期保存能力提出嚴(yán)峻的考驗(yàn)。因此,未來(lái),GSA-Human將從軟件和硬件兩方面出發(fā),加強(qiáng)自身能力的建設(shè)。針對(duì)軟件系統(tǒng)層次,在數(shù)據(jù)匯交和共享方面,將進(jìn)一步優(yōu)化數(shù)據(jù)提交、審核和申請(qǐng)流程,以及管理和共享機(jī)制;在數(shù)據(jù)信息檢索方面,完善檢索機(jī)制,逐步實(shí)現(xiàn)數(shù)據(jù)特性化檢索;在數(shù)據(jù)自動(dòng)化處理方面,不斷完善流程和算法,實(shí)現(xiàn)智能化數(shù)據(jù)處理。此外,在遵守國(guó)內(nèi)外法律法規(guī)和道德規(guī)范的前提下,實(shí)現(xiàn)更加安全、快捷、高效的人類遺傳資源數(shù)據(jù)管理和共享。在硬件系統(tǒng)層次,將加強(qiáng)計(jì)算機(jī)存儲(chǔ)系統(tǒng)和網(wǎng)絡(luò)帶寬資源的建設(shè),優(yōu)化硬件設(shè)施以提升大數(shù)據(jù)傳輸與存儲(chǔ)效率,同時(shí),借鑒區(qū)塊鏈、云計(jì)算、流計(jì)算等數(shù)據(jù)安全管理的特性和理念,建立人類遺傳資源數(shù)據(jù)共享和使用的新模式。
[1] Chen TT, Chen X, Zhang SS, Zhu JW, Tang BX, Wang AK, Dong LL, Zhang ZW, Yu CX, Sun YL, Chi LJ, Chen HX, Zhai S, Sun YB, Lan L, Zhang X, Xiao JF, Bao YM, Wang YQ, Zhang Z, Zhao WM. The Genome Sequence Archive family: toward explosive data growth and diverse data types., 2021, doi: 10.1016/j.gpb.2021.08.001.
[2] Wang YQ, Song FH, Zhu JW, Zhang SS, Yang YD, Chen TT, Tang BX, Dong LL, Ding N, Zhang Q, Bai ZX, Dong XN, Chen HX, Sun MY, Zhai S, Sun YB, Yu L, Lan L, Xiao JF, Fang XD, Lei HX, Zhang Z, Zhao WM. GSA: Genome Sequence Archive., 2017, 15(1): 14–18.
[3] Zhang SS, Chen TT, Zhu JW, Zhou Q, Chen X, Wang YQ, Zhao WM. GSA: Genome Sequence Archive., 2018, 40(11): 1044–1047.
張思思, 陳婷婷, 朱軍偉, 周晴, 陳旭, 王彥青, 趙文明. GSA: 組學(xué)原始數(shù)據(jù)歸檔庫(kù). 遺傳, 2018, 40(11): 1044– 1047.
[4] Chen ML, Ma YK, Wu S, Zheng XC, Kang HE, Sang J, Xu XJ, Hao LL, Li ZH, Gong Z, Xiao JF, Zhang Z, Zhao WM, Bao YM. Genome Warehouse: A Public Repository Housing Genome-scale Data., 2021, doi: 10.1016/j.gpb.2021.04.001.
[5] Li CP, Tian DM, Tang BX, Liu XN, Teng XF, Zhao WM, Zhang Z, Song SH. Genome Variation Map: a worldwide collection of genome variations across multiple species., 2021, 49(D1): D1186–D1191.
[6] CNCB-NGDC Members and Partners. Database resources of the National Genomics Data Center, China National Center for Bioinformation in 2021., 2021, 49(D1): D18–D28.
[7] Zou D, Sun SX, Li RJ, Liu J, Zhang J, Zhang Z. MethBank: a database integrating next-generation sequencing single-base-resolution DNA methylation programming data., 2015, 43(D1): D54–D58.
[8] Tryka KA, Hao LN, Sturcke A, Jin YM, Wang ZY, Ziyabari L, Lee M, Popova N, Sharopova N, Kimura M, Feolo M. NCBI's database of genotypes and phenotypes: dbGaP., 2014, 42(D1): D975–D979.
[9] Lappalainen I, Almeida-King J, Kumanduri V, Senf A, Spalding JD, Ur-Rehman S, Saunders G, Kandasamy J, Caccamo M, Leinonen R, Vaughan B, Laurent T, Rowland F, Marin-Garcia P, Barker J, Jokinen P, Torres AC, de Argila JR, Llobet OM, Medina I, Puy MS, Alberich M, de la Torre S, Navarro A, Paschall J, Flicek P. The European Genome-phenome Archive of human data consented for biomedical research., 2015, 47(7): 692–695.
GSA-Human: Genome Sequence Archive for Human
Sisi Zhang1,2, Xu Chen1,2, Tingting Chen1,2, Junwei Zhu1,2, Bixia Tang1,2, Anke Wang1,2, Lili Dong1,2, Zhewen Zhang1,2, Yanling Sun1,2, Caixia Yu1,2, Shuang Zhai1,2, Yubin Sun1,2, Huanxin Chen1,2, Zhenglin Du1,2,3, Jingfa Xiao1,2,3, Zhang Zhang1,2,3, Yiming Bao1,2,3, Yanqing Wang1,2, Wenming Zhao1,2,3
The Genome Sequence Archive for Human (GSA-Human) is a data repository specialized for human genetic related data derived from biomedical researches, and also supports the data collection and management of National Key Research and Development Projects. GSA-Human has a data security management strategy according to the national regulations of human genetic resources. It provides two different models of data access: Open-access and Controlled-access. Open-access data are universally and freely accessible for global researchers, while Controlled-access ensures that data are accessed only by authorized users with the permission of the Data Access Committee (DAC). Till July 2021, GSA-Human has housed more than 5.27 PB of data from 750 datasets.
GSA-Human;omics data; data submission; data sharing
2021-07-13;
2021-09-16
國(guó)家重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(編號(hào):2016YFC0901603,2017YFC0907502,2020YFC0847000),中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)基金資助項(xiàng)目(編號(hào):XDB38050300,XDB38050200),中國(guó)科學(xué)院關(guān)鍵技術(shù)人才基金資助項(xiàng)目(王彥青),中國(guó)科學(xué)院“十四五”網(wǎng)絡(luò)安全和信息化項(xiàng)目(編號(hào):WX145XQ07-04)資助[Supported by the National Key R&D Program of China (Nos. 2016YFC0901603, 2017YFC0907502, 2020YFC0847000), the Strategic Priority Research Program of the Chinese Academy of Sciences (Nos. XDB38050300, XDB38050200), the Key Technology Talent Program of the Chinese Academy of Sciences (to Yanqing Wang) and the 14th Five-year Network Security and Informatization Plan of Chinese Academy of Sciences (No. WX145XQ07-04)]
張思思,博士,工程師,研究方向:基因組學(xué)、生物信息學(xué)。E-mail: zhangss@big.ac.cn
陳旭,碩士,工程師,研究方向:生物信息學(xué)、計(jì)算機(jī)科學(xué)。E-mail: chenx@big.ac.cn
陳婷婷,碩士,工程師,研究方向:基因組學(xué)、生物信息學(xué)。E-mail: chentt@big.ac.cn
張思思、陳旭和陳婷婷并列第一作者。
王彥青,碩士,高級(jí)工程師,研究方向:生物信息學(xué)、計(jì)算機(jī)科學(xué)。E-mail: wangyanqing@big.ac.cn
趙文明,碩士,正高級(jí)工程師,研究方向:生物信息學(xué)。E-mail: zhaowm@big.ac.cn
10.16288/j.yczz.21-248
2021/9/28 11:11:50
URI: https://kns.cnki.net/kcms/detail/11.1913.R.20210927.1137.001.html
(責(zé)任編委: 朱波峰)