渠鴻竹 方向東
(1.中國科學(xué)院北京基因組研究所(國家生物信息中心),中國科學(xué)院基因組科學(xué)與信息重點實驗室,北京 100101;2.中國科學(xué)院大學(xué),北京 100049;3.基因組與精準醫(yī)學(xué)檢測技術(shù)北京市重點實驗室,北京 100101)
中國人口約占世界人口總數(shù)的22%,除了占絕大部分的漢族以外,還有55 個少數(shù)民族生活在全國各個相對固定的地域內(nèi)。中國龐大的人口基數(shù)、豐富的民族多樣性、獨特的地理隔離人群及疾病核心家系資源構(gòu)成了豐富典型的中國人類遺傳資源,是研究中華民族起源、基本生命現(xiàn)象、生理和病理機能以及行為的物質(zhì)基礎(chǔ),也是防治重大疾病、推動醫(yī)藥科技創(chuàng)新、保障人口健康以及維護人口安全的重要物質(zhì)基礎(chǔ)[1]。一直以來,我國高度重視人類遺傳資源的保護?!吨腥A人民共和國人類遺傳資源管理條例》的實施,更加明確了人類遺傳資源的概念,更加強調(diào)了要保護遺傳材料產(chǎn)生的數(shù)據(jù)形式的信息材料。加強對人類遺傳基因數(shù)據(jù)等信息資源的保護,是為了更好地共享利用。近年來,隨著DNA測序技術(shù)的發(fā)展,基因數(shù)據(jù)量激增,如何能夠更好地共享利用這些資源是我們面臨的挑戰(zhàn)。因此,研究和探討人類基因數(shù)據(jù)資源的管理對于更好地共享利用數(shù)據(jù)資源具有重要的意義。本文將闡述人類遺傳資源的管理歷程,分析國內(nèi)外基因數(shù)據(jù)資源管理的現(xiàn)狀,并對基因數(shù)據(jù)共享利用提出建議,以供相關(guān)研究人員參考。
中國豐富的人類遺傳資源是我國重點保護的對象,也是國外一些利益追逐者覬覦和竊取的對象[2]。在這個大背景下,我國先后出臺了一系列的管理辦法,對有效保護和合理利用我國人類遺傳資源發(fā)揮了積極的作用。1998年,國務(wù)院辦公廳頒布了《人類遺傳資源管理暫行辦法》[3]。2011年、2013年科技部先后發(fā)布了《關(guān)于加強人類遺傳資源保護管理工作的通知》《關(guān)于進一步加強人類遺傳資源管理工作的通知》。2015年,科技部發(fā)布了《人類遺傳資源采集、買賣、出口、出境審批行政許可事項服務(wù)指南》。同年,又發(fā)布了《關(guān)于實施人類遺傳資源采集、收集、買賣、出口、出境行政許可的通知》[4]。該通知的發(fā)布進一步明確了“分級管理、統(tǒng)一審批”的監(jiān)管體制。但是,隨著形勢的發(fā)展,人類遺傳資源非法外流時有發(fā)生,我國人類遺傳資源的利用還不夠規(guī)范、缺乏統(tǒng)籌,有關(guān)制度還不夠完善。因此,我國政府對人類遺傳資源加強了管理,科技部于2016年發(fā)布了《中華人民共和國人類遺傳資源管理條例(草案)》,并于2017年發(fā)布了《關(guān)于優(yōu)化人類遺傳資源行政審批流程的通知》[5],進一步簡化了審批程序,提高了審批效率。當“基因編輯嬰兒”事件發(fā)生后,司法部會同科技部對《中華人民共和國人類遺傳資源管理條例(送審稿)》作了進一步的修改完善,并于2019年7月1日開始正式實施了《中華人民共和國人類遺傳資源管理條例》[6]。該條例的頒布與實施,進一步促進了人類遺傳資源的有效保護與合理利用。
人類基因數(shù)據(jù)是破譯人類遺傳信息的重要科學(xué)數(shù)據(jù)。隨著DNA測序技術(shù)的發(fā)展,基因數(shù)據(jù)量呈爆發(fā)式增長。DNA測序技術(shù)是測定DNA序列的技術(shù)。從1977年第一代DNA測序技術(shù)(桑格法)開始發(fā)展至今經(jīng)歷了三次技術(shù)革命,測序技術(shù)快速發(fā)展。測序技術(shù)的每一次變革,都對基因組研究、疾病研究、藥物研發(fā)等領(lǐng)域產(chǎn)生巨大的推動作用。測序技術(shù)的迅速發(fā)展降低了測序成本,致使DNA測序數(shù)據(jù)在2007年以前呈指數(shù)增長,近10年來更是達到了超指數(shù)增長。據(jù)不完全統(tǒng)計,全球每年產(chǎn)生超過200PB組學(xué)數(shù)據(jù),生命科學(xué)成為繼天文、地理后第三大數(shù)據(jù)科學(xué)。之前完成的人類基因組計劃、DNA元件百科全書(ENCODE)計劃、癌癥和腫瘤基因組圖譜計劃(TCGA)、千人基因組計劃、人類表觀基因組計劃等都已經(jīng)積累了大量的人類基因數(shù)據(jù),并促進了人類對疾病發(fā)生發(fā)展的認知。隨著精準醫(yī)學(xué)時代的到來,各國政府更是進行大人群隊列的基因組分析,如英國十萬基因組計劃、美國精準醫(yī)療、韓國萬人基因組計劃、澳大利亞十萬人基因組計劃、法國基因組醫(yī)療2025、中國十萬人基因組計劃等(表1)。這些研究計劃的實施必將在未來幾年加劇數(shù)據(jù)的積累,也進一步表明各國政府和科學(xué)家都已經(jīng)非常重視人類遺傳資源的開發(fā)與利用。
圖1 中國人類遺傳資源管理的法規(guī)歷程圖
基因數(shù)據(jù)不僅關(guān)乎個人的健康,還與國家安全相關(guān)?;蚴巧w進化過程中遺傳信息的載體,是生物體的遺傳密碼,存儲人類種族、分化發(fā)育、生長凋亡、疾病發(fā)生進展等過程的全部信息,是決定生命健康的內(nèi)在因素。據(jù)OMIM網(wǎng)站統(tǒng)計,到目前為止已經(jīng)有8 000 多種人類遺傳疾病被發(fā)現(xiàn)和研究[8],GWAS Catalog數(shù)據(jù)庫中收錄的與3 676 種疾病或性狀相關(guān)的變異位點有近10 萬個(截至2019年8月29日)[9]。隨著大數(shù)據(jù)技術(shù)的發(fā)展,基因組數(shù)據(jù)與醫(yī)療數(shù)據(jù)、健康數(shù)據(jù)相互融合挖掘,能夠幫助人類更好地破解遺傳疾病的難題、服務(wù)于人類的健康、延續(xù)人類的壽命。利用基因數(shù)據(jù)進行有效的個體識別已經(jīng)在國家安全防范領(lǐng)域得到廣泛的應(yīng)用。在群體范圍以及多學(xué)科交叉研究的背景下,對人類遺傳資源數(shù)據(jù)進行有效管控,已經(jīng)是國家安全領(lǐng)域的重要課題。盡管某單個個體或少量個體的基因組測序數(shù)據(jù)對國家安全不可能構(gòu)成危害,但是面對大量的基因組測序數(shù)據(jù),在結(jié)合特殊地域特征、特殊民族特征、特殊種群特征、特殊疾病特征、特殊代際關(guān)系特征的情況下,就有可能對國家安全、民族安全、種族安全甚至特殊對象安全造成嚴重危害[10],因此應(yīng)加強對基因大數(shù)據(jù)的保護和管理。
鑒于基因數(shù)據(jù)的重要性以及基因數(shù)據(jù)指數(shù)級的積累,不少發(fā)達國家已經(jīng)建立了基因數(shù)據(jù)存儲平臺,實現(xiàn)了國家層面對基因數(shù)據(jù)的統(tǒng)一管理。20世紀80年代,以美國、英國和日本為代表的國際社會陸續(xù)起步建設(shè)國家級的生物醫(yī)學(xué)大數(shù)據(jù)中心,并逐漸形成了壟斷全球生物醫(yī)學(xué)大數(shù)據(jù)的國際三大生物信息數(shù)據(jù)中心,即美國國立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)、歐洲生物信息學(xué)研究所(European Bioinformatics Institute,EBI)和日本國立遺傳研究所DNA數(shù)據(jù)中心(DNA Data Bank of Japan,DDBJ)。以美國NCBI為例,由政府全額撥款,建立了全球領(lǐng)先的生物醫(yī)學(xué)大數(shù)據(jù)基礎(chǔ)設(shè)施,具備數(shù)十PB存儲、千萬億次計算資源及110Gbps網(wǎng)絡(luò)帶寬資源。同時擁有700 余人的科研與專業(yè)技術(shù)團隊,為美國乃至全球的科學(xué)家提供基礎(chǔ)設(shè)施及大數(shù)據(jù)研究與應(yīng)用服務(wù),構(gòu)建了PubMed、OMIM、GeneBank、SRA、dbGaP、GEO等一批側(cè)重不同類型組學(xué)數(shù)據(jù)存儲管理的專業(yè)數(shù)據(jù)庫,有力地支持了美國及他國生命科學(xué)研究領(lǐng)域的領(lǐng)跑式發(fā)展[11]。除了國家級生物大數(shù)據(jù)中心之外,基于不同生命組學(xué)項目的研究,各國還建立了項目內(nèi)產(chǎn)生的數(shù)據(jù)的存儲管理數(shù)據(jù)庫,如ENCODE數(shù)據(jù)庫、TCGA數(shù)據(jù)庫等,并建立了完善的數(shù)據(jù)管理機制,如在TCGA中將數(shù)據(jù)分為不同的等級,其分析的三級數(shù)據(jù)可以免費下載,而原始數(shù)據(jù)以及醫(yī)療數(shù)據(jù)都需要經(jīng)過嚴格的審批機制才能獲取。
表1 部分國家的基因組計劃
我國開始對生物醫(yī)學(xué)研究和人類基因組研究的時間較長,積累了豐富的經(jīng)驗和資源,并且相關(guān)領(lǐng)域的研究資金的支持力度逐年增加。在國家重點研發(fā)計劃的支持下,人類基因組研究取得了長足的進展。早在1998年,經(jīng)國家批準,分別在上海和北京成立了中國南方人類基因組研究中心和中國北方人類基因組研究中心。依托這兩個平臺,產(chǎn)生了許多組學(xué)技術(shù),構(gòu)建了少量的專業(yè)數(shù)據(jù)庫。在科研過程中,部分科研院所與公司也形成了自己的數(shù)據(jù)存儲平臺,但這些數(shù)據(jù)都零散存放在不同機構(gòu),沒有形成統(tǒng)一的國家級基因組數(shù)據(jù)存儲管理平臺。但近年來,我國在構(gòu)建生物醫(yī)學(xué)大數(shù)據(jù)中心方面呈現(xiàn)快速發(fā)展的局面。如2016年1月,中國科學(xué)院北京基因組研究所成立生命與健康大數(shù)據(jù)中心,面向人口健康和社會可持續(xù)發(fā)展的重大戰(zhàn)略需求,建立生物大數(shù)據(jù)儲存、整合與挖掘分析研究體系。生命與健康大數(shù)據(jù)中心的GSA(Genome Sequence Archive)數(shù)據(jù)庫已開展原始組學(xué)數(shù)據(jù)存儲與共享服務(wù)[12],并與國際接軌,成為與NCBI、EBI、DDBJ并列的數(shù)據(jù)中心,打破了國際壟斷,保護了我國組學(xué)數(shù)據(jù)的主權(quán)。中國科學(xué)院生物物理研究所的非編碼RNA數(shù)據(jù)庫、中國科學(xué)院微生物研究所的微生物菌株保藏數(shù)據(jù)庫等一批特色數(shù)據(jù)庫都產(chǎn)生了一定的國際影響力。為進一步規(guī)范化基因數(shù)據(jù)的資源共享管理,2019年6月5日,科技部、財政部聯(lián)合發(fā)布了《關(guān)于國家科技資源共享服務(wù)平臺優(yōu)化調(diào)整名單的通知》,公布了不同學(xué)科領(lǐng)域的20個國家科學(xué)數(shù)據(jù)中心,“國家基因組科學(xué)數(shù)據(jù)中心”“國家微生物科學(xué)數(shù)據(jù)中心”名列其中?!皣一蚪M科學(xué)數(shù)據(jù)中心”依托中國科學(xué)院北京基因組研究所建設(shè),其共建單位包括中國科學(xué)院上海生命科學(xué)研究院和中國科學(xué)院生物物理研究所;“國家微生物科學(xué)數(shù)據(jù)中心”依托中國科學(xué)院微生物研究所建設(shè)[13]。國家對基因數(shù)據(jù)的資源共享管理進一步規(guī)范化。
由于基因數(shù)據(jù)自身具有大數(shù)據(jù)特性,并且其與人類健康密切關(guān)聯(lián),在國家層面和科學(xué)研究方面,政府人員和科學(xué)家們都對嚴格管理基因數(shù)據(jù)資源達成共識。然而,目前基因數(shù)據(jù)資源存儲分散、集成困難、缺乏有效的挖掘技術(shù)和安全保護技術(shù)等,有效管理和共享利用基因數(shù)據(jù)資源還面臨諸多挑戰(zhàn)。
中國雖然是資源大國,但不是資源強國,只有將保護和開發(fā)利用有效結(jié)合起來,才能成為國家真正的戰(zhàn)略資源。對人類基因數(shù)據(jù)的安全保護就是為了更好地有效利用。隨著人類基因數(shù)據(jù)量的增長,數(shù)據(jù)的有效利用則成為技術(shù)瓶頸與研究熱點。實現(xiàn)人類基因數(shù)據(jù)的共享利用可能需要在以下幾方面加快建設(shè)。
(1)加快數(shù)據(jù)標準化建設(shè),為數(shù)據(jù)的統(tǒng)一匯交提供標準。目前,生物數(shù)據(jù)來源廣泛、測序儀器種類眾多,數(shù)據(jù)類型和格式各異,存儲設(shè)備和存儲結(jié)構(gòu)不完善,很難保證數(shù)據(jù)的延續(xù)性、完整性[14]。在數(shù)據(jù)共享方面,各資源收集保存單位的數(shù)據(jù)標準不一致,缺乏可比性,影響著人類遺傳資源的原始質(zhì)量,使得數(shù)據(jù)資源難以實現(xiàn)整合,阻礙了數(shù)據(jù)資源的共享利用。因此,需要制定統(tǒng)一的國家人類遺傳資源標準平臺標準體系,為我國人類遺傳資源的整理整合以及信息共享系統(tǒng)的建立提供必要的基礎(chǔ)條件?!笆濉币?guī)劃中設(shè)立的“精準醫(yī)學(xué)大數(shù)據(jù)處理利用的標準化技術(shù)體系建設(shè)”項目,致力于基因數(shù)據(jù)共享利用的標準建設(shè),相關(guān)標準正在制定中。
(2)加快資源共享平臺與機制建設(shè),為共享提供合法途徑與保障。中國的資源和數(shù)據(jù)具有存儲碎片化、管理分散、無安全保障和標準化質(zhì)控的特征,難以形成規(guī)?;Y源和有效共享轉(zhuǎn)化,因此需要統(tǒng)一布局,建立類似NCBI、EBI、DDBJ的具有一定規(guī)模、由國家統(tǒng)一管理、與國際接軌和國際認可的國家級資源戰(zhàn)略保藏平臺。目前國家基因組科學(xué)數(shù)據(jù)中心一直致力于該方向的一定研究,建立了組學(xué)數(shù)據(jù)存儲平臺,擺脫了中國科學(xué)家只能到他國數(shù)據(jù)庫中上傳數(shù)據(jù)的局面??萍疾客ㄟ^“十三五”規(guī)劃發(fā)布“精準醫(yī)學(xué)研究”重點研發(fā)專項,從頂層設(shè)計上設(shè)立了國家數(shù)據(jù)平臺的建設(shè)項目,但仍需國家制定完善的共享機制,盡快出臺與國際接軌的數(shù)據(jù)管理和共享使用的規(guī)范和指南,在機制指引與平臺匯聚的共同作用下實現(xiàn)數(shù)據(jù)共享。
(3)加快共享利用的相關(guān)技術(shù)研發(fā),為基因數(shù)據(jù)有效保護和共享利用提供技術(shù)保障。在大數(shù)據(jù)時代,數(shù)據(jù)帶來了巨大價值的同時,也帶來了用戶隱私保護方面的難題,因此應(yīng)在技術(shù)層面通過匿名化、差分隱私、數(shù)據(jù)脫敏、加密等方法保護用戶隱私,防止敏感信息泄露的問題,使數(shù)據(jù)提供者安心地上交數(shù)據(jù)。同時還要研發(fā)追蹤溯源與預(yù)警技術(shù),即使發(fā)生數(shù)據(jù)流失泄露,也可以在第一時間發(fā)現(xiàn)泄露的人員與地址,及時截留制止,防止危害進一步發(fā)生,并可根據(jù)相關(guān)法律追究責(zé)任人責(zé)任。另外,多模態(tài)數(shù)據(jù)的整合分析技術(shù)是基因數(shù)據(jù)有效利用的基礎(chǔ)。除了多組學(xué)數(shù)據(jù)的整合分析,與醫(yī)療健康數(shù)據(jù)的深度融合,建立疾病預(yù)警預(yù)測與診斷、個性化干預(yù)推薦以及預(yù)后評估等工具,最大程度地有效利用數(shù)據(jù)、提升疾病診療水平。
(4)加快資源保護立法,運用法律手段解決資源共享過程中產(chǎn)生的問題。雖然國家已經(jīng)頒布《中華人民共和國人類遺傳資源管理條例》,對知情同意、倫理審查、審批備案、合作權(quán)益等制定了詳細的規(guī)則,但是對違反規(guī)定應(yīng)承擔(dān)的懲罰沒有做出詳細規(guī)定。近年來,生物技術(shù)的發(fā)展,很大程度上得益于對遺傳信息的獲取、解讀,但不法組織和機構(gòu)對中國人類遺傳資源的攫取和非法利用的行為屢禁不止,因此應(yīng)盡快出臺適應(yīng)當前發(fā)展需求的《管理法》,通過法律手段解決基因數(shù)據(jù)應(yīng)用與共享過程中產(chǎn)生的利益均衡問題、生物安全問題,加大對違法行為的處罰和約束,提升監(jiān)管機構(gòu)的監(jiān)管效力,為中國人類遺傳資源提供切實有效的保護,降低生物安全風(fēng)險。