李 源,雷宏博,朱俊勇,劉穎慧,董衛(wèi)國**
(1 武漢大學(xué)人民醫(yī)院腫瘤科,湖北 武漢 430060,liyuanwhu@whu.edu.cn;2 武漢大學(xué)健康學(xué)院,湖北 武漢 430071;3 武漢大學(xué)人民醫(yī)院消化內(nèi)科,湖北 武漢 430060)
高通量測序技術(shù)是精準(zhǔn)醫(yī)學(xué)或個(gè)體化醫(yī)療的重要基礎(chǔ)[1-2]。精準(zhǔn)醫(yī)療是通過研究基因、環(huán)境與個(gè)體健康與疾病的關(guān)系,科學(xué)認(rèn)知人體疾病的本質(zhì),進(jìn)而為個(gè)體提供合適的預(yù)防、診斷和治療方法[3]。隨著高通量測序技術(shù)的通量提高、時(shí)間縮短和費(fèi)用降低,大型隊(duì)列高通量測序數(shù)據(jù)的快速積累,高通量測序技術(shù)在包括惡性腫瘤、心血管疾病、神經(jīng)精神疾病和糖尿病等重大慢性疾病中發(fā)揮重要作用,使得研究者能夠更加系統(tǒng)、全局、深入地研究重大疾病防治難題,并開發(fā)靶向性的新診斷方法、靶向藥物或標(biāo)志物[1]。更重要的是,高通量測序數(shù)據(jù)的共享對(duì)整合挖掘數(shù)據(jù)內(nèi)涵和降低非必需測序負(fù)擔(dān)具有重要價(jià)值。因此,研究成果在專業(yè)學(xué)術(shù)期刊發(fā)表時(shí),通常需要提供對(duì)應(yīng)的高通量測序數(shù)據(jù)的獲取方式,一系列高通量測序數(shù)據(jù)庫應(yīng)運(yùn)而生。但是,基因測序數(shù)據(jù)和臨床表型數(shù)據(jù)的關(guān)聯(lián)既是認(rèn)知疾病的關(guān)鍵,同時(shí)也引發(fā)人們對(duì)其中隱私保密、知情同意、精準(zhǔn)性與安全性等相關(guān)倫理問題的重點(diǎn)關(guān)注[4]。
本文在總結(jié)當(dāng)前主流高通量測序數(shù)據(jù)共享形式、高通量測序數(shù)據(jù)庫的特征的基礎(chǔ)上,對(duì)比我國與國際在數(shù)據(jù)共享和數(shù)據(jù)庫建設(shè)中的差異,進(jìn)而重點(diǎn)關(guān)注涉及人的高通量測序數(shù)據(jù)在其過程中涉及的倫理學(xué)問題、趨勢(shì)和策略。
傳統(tǒng)的高通量測序主要包括DNA測序和RNA測序技術(shù),在此基礎(chǔ)上衍生出一系列特定測序技術(shù),比如,WGS測序、WES測序、ChIP測序、RIP測序、PAR-CLIP測序、HiC測序、表觀遺傳相關(guān)的甲基化測序和最新的單細(xì)胞測序等。這些測序技術(shù)都是以DNA或RNA測序技術(shù)為基礎(chǔ),在核酸分子高級(jí)結(jié)構(gòu)、轉(zhuǎn)錄調(diào)控和轉(zhuǎn)錄后修飾等細(xì)分領(lǐng)域廣泛應(yīng)用。因此,不同的測序技術(shù)所提取的基因信息是不同的[5]。
DNA測序是最常用并最常提及的高通量測序技術(shù),同時(shí)也是倫理學(xué)界最受關(guān)注的數(shù)據(jù)類型。通常認(rèn)為,全外顯子測序或全基因組測序在為臨床及科研提供海量基因信息的同時(shí),還產(chǎn)生了大量“未知”信息,海量的“意義未明變異”受限于當(dāng)前研究水平,尚不能明確臨床或科學(xué)意義,但帶來了倫理學(xué)中涉及知情同意等系列困難[6]。DNA測序被廣泛用于腫瘤、藥物代謝等領(lǐng)域,當(dāng)前,最常用的測序方式是靶向基因測序,即只測極少量具有明確臨床意義的基因,在降低成本的同時(shí)也規(guī)避了“未知變異”帶來的倫理困境。
RNA測序由于常需要新鮮樣本以免RNA分子發(fā)生降解,在臨床診療中較少用到,主要服務(wù)于科學(xué)研究或轉(zhuǎn)化研究。過去人們認(rèn)為RNA測序主要關(guān)注基因的表達(dá)量變化,攜帶的敏感信息較少,但隨著生物信息技術(shù)的發(fā)展,新的算法可以從RNA測序數(shù)據(jù)中提取基因突變、基因融合和可變剪輯等重要遺傳信息。研究者逐漸意識(shí)到深度RNA測序可以相當(dāng)于全外顯子測序,不能忽略其中的潛在倫理學(xué)問題。
此外,由于新的測序技術(shù)研究尚淺,許多測序技術(shù)目前并沒有廣泛應(yīng)用于臨床,因而沒有被認(rèn)為涉及敏感遺傳信息,比如,DNA的m5C甲基化和RNA的m6A甲基化信息,目前鮮有報(bào)道其遺傳信息價(jià)值,但這并不意味著此類信息在未來依然被定位為非敏感信息。如何對(duì)此類高通量測序數(shù)據(jù)進(jìn)行特殊脫敏處理或分級(jí)對(duì)待以“防患于未然”是當(dāng)前高通量測序數(shù)據(jù)共享中的倫理難題。
高通量測序數(shù)據(jù)的共享對(duì)驗(yàn)證研究結(jié)果、促進(jìn)數(shù)據(jù)挖掘和避免重復(fù)測序等方面具有重大優(yōu)勢(shì),因此十分必要[7]。在學(xué)術(shù)界,高通量測序數(shù)據(jù)共享主要依托于學(xué)術(shù)發(fā)表,當(dāng)前在學(xué)術(shù)論文發(fā)表時(shí),絕大部分學(xué)術(shù)期刊均要求公開必要的支持?jǐn)?shù)據(jù),涉及高通量測序數(shù)據(jù)時(shí)其主流趨勢(shì)是將原始數(shù)據(jù)上傳至常見數(shù)據(jù)庫以獲取唯一編號(hào),再將數(shù)據(jù)庫及編號(hào)發(fā)表在論文上。
具體來說,學(xué)術(shù)期刊的數(shù)據(jù)公開方式包括:僅限正文、官網(wǎng)附錄、外網(wǎng)附錄、數(shù)據(jù)庫收錄等方式。比如,一些雜志主頁并不支持正文以外的附錄數(shù)據(jù),因此也不強(qiáng)調(diào)數(shù)據(jù)共享;絕大部分雜志均支持官網(wǎng)附錄材料,但是對(duì)數(shù)據(jù)格式和大小有明確限制,通常僅支持少量圖表,高通量測序數(shù)據(jù)通常只提供最終表格數(shù)據(jù);當(dāng)前,越來越多的雜志支持外網(wǎng)附錄或不再強(qiáng)制指定數(shù)據(jù)庫收錄,使得數(shù)據(jù)共享的形式更加靈活。比如,F(xiàn)igshare網(wǎng)站不限制文件格式,文件最大支持5GB,研究者不僅可以分享圖表,還可以將原始文件及代碼等數(shù)據(jù)上傳,使得關(guān)注者能夠最大限度重現(xiàn)其研究結(jié)果。包括Springer Nature、Wiley等大型出版集團(tuán)認(rèn)可此類共享形式,并且不再限定高通常測序數(shù)據(jù)收錄數(shù)據(jù)庫。靈活的分享形式能夠最大化地實(shí)現(xiàn)數(shù)據(jù)價(jià)值,但同時(shí)也對(duì)其中倫理問題的監(jiān)督提出了更高的挑戰(zhàn)。盡管這些行為主要發(fā)生在經(jīng)過必要科學(xué)訓(xùn)練的研究人員之間,但并不能將倫理風(fēng)險(xiǎn)維系于研究者的自律之中。
因此,標(biāo)準(zhǔn)化的高通量測序數(shù)據(jù)庫是平衡數(shù)據(jù)共享與倫理風(fēng)險(xiǎn)的重要措施。目前主流的高通量測序數(shù)據(jù)庫包括:美國NCBI的GEO數(shù)據(jù)庫、歐洲的EMBL-EBI數(shù)據(jù)庫、日本的DDBJ數(shù)據(jù)庫和中國基因組所的GSA數(shù)據(jù)庫、國家基因庫的CMDB數(shù)據(jù)庫等。在腫瘤領(lǐng)域,還包括了GDC(TCGA)數(shù)據(jù)庫、cBioPortal數(shù)據(jù)庫和Oncomine數(shù)據(jù)庫等。然而,這些數(shù)據(jù)庫并沒有統(tǒng)一的建設(shè)標(biāo)準(zhǔn)??偨Y(jié)起來,數(shù)據(jù)庫的存儲(chǔ)模式主要包括原始存儲(chǔ)和有無預(yù)處理兩種模式;而數(shù)據(jù)獲取模式則包括:開放獲取、部分開放、部分開放+請(qǐng)求獲取、請(qǐng)求獲取、注冊(cè)共享獲取等模式。不同的數(shù)據(jù)庫采用不同的組合形式而各具特點(diǎn)。TCGA數(shù)據(jù)庫采用原始存儲(chǔ)請(qǐng)求獲取和預(yù)處理數(shù)據(jù)分級(jí)開放獲取模式,而GEO、EBI和GSA則采用原始存儲(chǔ)和開放獲取方式。更多的小型專病數(shù)據(jù)庫則采用注冊(cè)成員之間請(qǐng)求獲取等封閉模式。不同組合模式涉及的倫理問題不盡相同,對(duì)數(shù)據(jù)去隱私的要求不同。學(xué)術(shù)期刊外網(wǎng)附錄和數(shù)據(jù)庫原始存儲(chǔ)+開放獲取方式最具有倫理學(xué)挑戰(zhàn),對(duì)技術(shù)要求和相關(guān)人員提出更高要求。我國高通量測序數(shù)據(jù)庫建設(shè)起步較晚,目前建立的數(shù)個(gè)大型數(shù)據(jù)庫主要收錄大型隊(duì)列數(shù)據(jù),缺乏統(tǒng)一標(biāo)準(zhǔn)和在線分析功能,并亟須在我國科研工作者中推廣應(yīng)用。
當(dāng)前,涉及人體樣本的高通量測序數(shù)據(jù)共享是學(xué)術(shù)界的共識(shí),但同時(shí)也帶來了許多重要的倫理學(xué)問題,主要集中在知情同意、隱私保密、科學(xué)邊界、精準(zhǔn)性與安全性、醫(yī)療公平與大健康等方面。
高通量測序?qū)ζ胀ù蟊姸韵鄬?duì)陌生,不同的人對(duì)其理解不同,知情并理解這些信息存在困難;參與人員的價(jià)值觀不同對(duì)測序數(shù)據(jù)的解讀也不盡相同,比如可能拒絕知曉基因型;基因信息為最重要的遺傳信息,個(gè)體的基因型與直旁系親屬的基因型存在極大關(guān)聯(lián)性,參與者的基因信息披露將有可能影響到家庭成員;商業(yè)測序公司與普通參與者之間存在巨大的認(rèn)知“鴻溝”,如何在知情同意程序中避免其可能過度解讀的商業(yè)行為甚至詐騙行為;同時(shí)高通量測序產(chǎn)生了當(dāng)前研究水平尚不能完全闡釋的“未知”數(shù)據(jù),這些“未知”數(shù)據(jù)帶來的倫理問題與傳統(tǒng)醫(yī)學(xué)遺傳學(xué)所帶來的倫理問題存在數(shù)量級(jí)的差異。海量的“意義未明變異”在當(dāng)前是否定義為敏感數(shù)據(jù),如何把握數(shù)據(jù)脫敏的程度等,都給知情同意程序帶來了困難[6]。
隱私權(quán)是基本人權(quán)之一。只有隱私得到有效保護(hù),隊(duì)列研究才有可能開展并形成大規(guī)模的高通量測序數(shù)據(jù)庫,產(chǎn)生巨大的臨床和科學(xué)價(jià)值[7]。個(gè)人的基因數(shù)據(jù)像指紋一樣具有獨(dú)特性,根據(jù)基因信息可以確定每一個(gè)人甚至與其有親緣關(guān)系的家族成員[8]。我國在《中華人民共和國侵權(quán)責(zé)任法》中將隱私權(quán)作為一種民事權(quán)益加以保護(hù),但目前沒有關(guān)于基因隱私保護(hù)的專門法律和行業(yè)規(guī)范。如何在不暴露用戶敏感信息的前提下進(jìn)行有效的數(shù)據(jù)挖掘是當(dāng)前倫理學(xué)關(guān)注的重點(diǎn)。當(dāng)前,已有一些算法用于測序數(shù)據(jù)的脫敏。通過技術(shù)創(chuàng)新對(duì)數(shù)據(jù)匿名化處理,當(dāng)數(shù)據(jù)匿名化處理后,原來患者個(gè)人與其數(shù)據(jù)之間的聯(lián)系就已刪除,即脫敏數(shù)據(jù)。對(duì)脫敏數(shù)據(jù)的分析對(duì)患者的隱私不再存在侵犯風(fēng)險(xiǎn)。比如,差分隱私技術(shù),該技術(shù)的目的是維持?jǐn)?shù)據(jù)統(tǒng)計(jì)準(zhǔn)確性的同時(shí),減低匿名數(shù)據(jù)再識(shí)別的風(fēng)險(xiǎn)[7]。包括區(qū)塊鏈技術(shù)等新技術(shù)主要是防止數(shù)據(jù)被修改,建立數(shù)字分類在點(diǎn)對(duì)點(diǎn)的傳輸塊上形成不可更改的共享記錄,是提高數(shù)據(jù)質(zhì)量和保證數(shù)據(jù)完整性的可行方式。通過確保數(shù)據(jù)匿名的高標(biāo)準(zhǔn),降低公開數(shù)據(jù)再識(shí)別的風(fēng)險(xiǎn),可促使個(gè)體更愿意參與精準(zhǔn)醫(yī)學(xué)。
隨著高通量測序技術(shù)越來越普及,相應(yīng)的倫理矛盾也越來越突出,在涉及人體樣本的高通量測序領(lǐng)域,由于包含了海量基因信息,大規(guī)模群體研究能夠發(fā)現(xiàn)許多新的認(rèn)知[4],如何確定科學(xué)研究的邊界,這些影響深遠(yuǎn)的領(lǐng)域已成為敏感話題,引起學(xué)術(shù)界及社會(huì)的廣泛關(guān)注和爭論。2019年1月,冷泉港實(shí)驗(yàn)室(Cold Spring Harbor Laboratory,CSHL)宣布與1962年諾貝爾獎(jiǎng)得主詹姆斯·沃森(James Watson)徹底斷絕關(guān)系,并收回授予他的所有榮譽(yù)稱號(hào),原因是沃森最近重提并肯定了他在2007年發(fā)表的種族智力基因差異言論。沃森因聯(lián)合發(fā)現(xiàn)DNA雙螺旋結(jié)構(gòu)而獲諾貝爾獎(jiǎng),但其卻將高通量測序技術(shù)用于種族差異研究,沃森的言論沒有科學(xué)依據(jù),應(yīng)當(dāng)受到遣責(zé)。濫用科學(xué)為偏見辯護(hù)的行為不僅應(yīng)該受到譴責(zé),還應(yīng)該在倫理審批中合理規(guī)避。
高通量測序數(shù)據(jù)為個(gè)體化精準(zhǔn)治療提供了指導(dǎo)依據(jù),然而重要的前提是測序的科學(xué)性有保證,準(zhǔn)確的測序結(jié)果才能夠避免不必要的靶向治療或錯(cuò)過更好的治療方式[9]。2017年2月發(fā)表于Science的一篇論文[10]指出:現(xiàn)行的公共DNA測序數(shù)據(jù)庫存在大量誤差,DNA損傷是其中最主要的原因,包括病理組織如石蠟組織包埋切片和循環(huán)腫瘤DNA提取等操作均可能導(dǎo)致DNA損傷,因此很難界定低頻等位基因突變究竟是的確發(fā)生了致癌突變還是人為誤差導(dǎo)致。該研究的結(jié)論可能會(huì)對(duì)目前的DNA檢測技術(shù)及數(shù)據(jù)分析方法帶來極大的影響,更強(qiáng)調(diào)了高通量測序科學(xué)性的重要意義。
與此同時(shí),海量高通量測序數(shù)據(jù)的涌現(xiàn),使得社會(huì)各界對(duì)這一寶貴生物信息資源極其重視,遺傳信息安全和科研及商業(yè)的助推之間如何平衡再次受到關(guān)注。大型隊(duì)列的高通量測序研究以及對(duì)遺傳資源的保護(hù)與應(yīng)用是精準(zhǔn)醫(yī)學(xué)和個(gè)體化醫(yī)療的基礎(chǔ),直接影響到一個(gè)國家在生物醫(yī)學(xué)領(lǐng)域的核心競爭力。大規(guī)模人群高通量組學(xué)研究,可以篩選與表型顯著相關(guān)甚至是起決定性作用的遺傳特征。因此,美、英等多個(gè)國家發(fā)起了國家級(jí)人群基因組學(xué)研究計(jì)劃并公開數(shù)據(jù)供全球科學(xué)家研究使用,為全人類的醫(yī)療健康事業(yè)作出了巨大貢獻(xiàn)。但同時(shí),基因大數(shù)據(jù)的安全性受到質(zhì)疑也并非第一次。以色列基因檢測公司“我遺傳”就曾發(fā)布聲明,超過9200萬用戶的電子郵件地址和密碼遭竊取。2018年10月24日,科技部官網(wǎng)更新2015—2018年遺傳資源行政處罰信息,處罰單位涉及阿斯利康、藥明康德、上海華山醫(yī)院、華大基因等基因檢測領(lǐng)域多家“明星”單位。比如,華大基因與上海華山醫(yī)院在2015年9月未經(jīng)許可與英國牛津大學(xué)開展中國人類遺傳資源國際合作研究,華大科技未經(jīng)許可將部分人類遺傳資源信息從網(wǎng)上傳遞出境??萍疾恳笕A大基因立即停止該研究工作的執(zhí)行,停止國際合作,整改驗(yàn)收合格后再展開。
因此,科學(xué)研究只有在符合相關(guān)規(guī)定及倫理學(xué)原則的前提下,才能夠保證其研究的科學(xué)性和安全性。2018年10月,國際頂級(jí)期刊《細(xì)胞》發(fā)表華大研究團(tuán)隊(duì)關(guān)于14余萬例無創(chuàng)產(chǎn)前基因檢測數(shù)據(jù)的研究[11],揭示了包括31個(gè)省,漢族與36個(gè)少數(shù)民族在內(nèi)的中國人群精細(xì)的遺傳結(jié)構(gòu),實(shí)現(xiàn)了多種表型的全基因組關(guān)聯(lián)研究,揭示了中國人群中病毒序列分布特征,構(gòu)建了包含約900萬個(gè)多態(tài)性位點(diǎn)的中國人群基因頻率數(shù)據(jù)庫(CMDB)。研究團(tuán)隊(duì)遵從《中華人民共和國人類遺傳資源管理?xiàng)l例》和生命倫理原則規(guī)范。研究全部在境內(nèi)完成,樣本及數(shù)據(jù)保留在深圳國家基因庫,不存在任何遺傳資源數(shù)據(jù)出境的情況。研究中的國外作者未參與接觸到原始數(shù)據(jù)的分析工作,主要在科研思路、算法設(shè)計(jì)方面給予智力貢獻(xiàn)。
高通量測序價(jià)格雖然已大幅下降,但仍價(jià)格昂貴;同時(shí),依據(jù)高通量測序技術(shù)指導(dǎo)的靶向藥物價(jià)格不菲,使得高通量測序技術(shù)更多的造福于經(jīng)濟(jì)條件較好患者,勢(shì)必影響其醫(yī)療公平性。當(dāng)前,高通量測序及大健康產(chǎn)業(yè)已經(jīng)形成了幾大寡頭公司,這些公司掌握了數(shù)百萬人的基因數(shù)據(jù)以及各種健康數(shù)據(jù),通過這些數(shù)據(jù),在包括健康咨詢、健康管理、健康追蹤、身體體檢、飲食搭配、醫(yī)療保健、意外傷害保險(xiǎn)等健康管理領(lǐng)域深入且廣泛影響我國人群大健康。然而相關(guān)法律法規(guī)尚未完全建立,如何保證科學(xué)研究成果不被商業(yè)公司濫用,是當(dāng)前的難點(diǎn),唯有健全審查監(jiān)督機(jī)制,提升國民科學(xué)素養(yǎng)和經(jīng)濟(jì)水平,方能促進(jìn)醫(yī)療公平和大健康事業(yè)的長足發(fā)展。
中國目前高通量測序數(shù)據(jù)嚴(yán)重碎片化。中國醫(yī)療數(shù)據(jù)主要分布在醫(yī)院、體檢中心、測序公司、臨床試驗(yàn)機(jī)構(gòu)、商業(yè)測序公司內(nèi)部。數(shù)據(jù)來源極為分散,質(zhì)量參差不齊。想要從根本上解決高通量測序數(shù)據(jù)共享的難題將是系統(tǒng)工程,涉及法律法規(guī)、倫理審批、商業(yè)模式、利益分配、績效考核等多層面核心問題[3,12]。相關(guān)部門通過適當(dāng)?shù)募?lì)機(jī)制鼓勵(lì)數(shù)據(jù)分享,并與醫(yī)院、行業(yè)和社會(huì)機(jī)構(gòu)合力推動(dòng)基礎(chǔ)設(shè)施建設(shè),減少數(shù)據(jù)集成成本。在學(xué)術(shù)界,短期內(nèi)亟須建立高通量測序數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)并建設(shè)推廣我國自主開發(fā)的高通量測序數(shù)據(jù)庫;在較長時(shí)期內(nèi),需要制定具有戰(zhàn)略意義的頂層設(shè)計(jì)以指導(dǎo)生物信息數(shù)據(jù)研究的發(fā)展,包括高通量測序技術(shù)的研發(fā)和生物信息分析流程的開發(fā)等。我國建設(shè)中的高通量測序數(shù)據(jù)庫功能單一,原始測序數(shù)據(jù)共享帶來一定倫理風(fēng)險(xiǎn),亟須開展數(shù)據(jù)分級(jí)管理和預(yù)分析等功能的開發(fā)。近年來相關(guān)部門出臺(tái)了一系列科學(xué)發(fā)展的規(guī)劃,但是還沒有形成對(duì)精準(zhǔn)醫(yī)療長期、完整、系統(tǒng)的指導(dǎo)戰(zhàn)略,也尚未形成部門間的聯(lián)動(dòng)以有效推行各項(xiàng)政策。同時(shí),公眾教育與公眾參與至關(guān)重要,通過充分的宣傳活動(dòng)使得公眾增強(qiáng)對(duì)高通量測序的理解與接受,引導(dǎo)公眾正確對(duì)待研究成果轉(zhuǎn)換成臨床應(yīng)用[13]。
綜上所述,本文主要關(guān)注學(xué)術(shù)界高通路測序數(shù)據(jù)共享中的倫理挑戰(zhàn)。當(dāng)前,高通量測序數(shù)據(jù)庫是主流的共享方式。我國GSA及CMDB等數(shù)據(jù)庫目前功能相對(duì)簡單,推出在線分析流程十分必要。數(shù)據(jù)庫的預(yù)處理功能能夠讓研究者只獲取最終整理后的感興趣數(shù)據(jù),避免原始數(shù)據(jù)的擴(kuò)散,規(guī)避倫理風(fēng)險(xiǎn),減少不必要的運(yùn)算和存儲(chǔ)資源浪費(fèi),更重要的是推廣數(shù)據(jù)庫建設(shè)和數(shù)據(jù)分析標(biāo)準(zhǔn),擴(kuò)大我國在生物醫(yī)藥大數(shù)據(jù)領(lǐng)域影響力,推動(dòng)健康產(chǎn)業(yè)長足發(fā)展。大隊(duì)列的人體樣本高通量測序數(shù)據(jù)是國家在生物醫(yī)學(xué)領(lǐng)域的核心競爭力,宏觀層面建設(shè)大型本地?cái)?shù)據(jù)庫并提供預(yù)分析,能夠在符合倫理學(xué)原則的范圍內(nèi),極大地推動(dòng)高通量測序數(shù)據(jù)的共享和健康事業(yè)發(fā)展。