鮑一明 薛勇彪
1 中國科學院北京基因組研究所 北京 100101 2 中國科學院大學 北京 100049
地球已經(jīng)進入到了“人類紀”(Anthropocene),人類的活動給地球的地質(zhì)、生態(tài)系統(tǒng)造成了巨大的影響。全球變暖引起的凍土融化導致已滅絕的病原菌“重見天日”;世界人口持續(xù)增長并出現(xiàn)老齡化,據(jù)估計,到 2020 年我國 65 歲以上老齡人口將達 1.67 億,約占全世界的 1/4;全球農(nóng)業(yè)生產(chǎn)力已經(jīng)連續(xù) 4 年低于期望值,如不改觀將不能滿足地球上不斷增長的人口的需求;局部沖突造成難民人數(shù)不斷增加,從而引發(fā)嚴重的社會及經(jīng)濟危機;犯罪率上升、恐怖襲擊、突發(fā)事件等嚴重威脅公共安全;重大慢病嚴重威脅全民健康,統(tǒng)計數(shù)字表明,我國有超過 3.4 億的重大慢病患者,平均每分鐘有 8 人被確診為癌癥,5 人因癌癥而離世。
1.2.1 生命與健康大數(shù)據(jù)飛速增長
大數(shù)據(jù),尤其是生命與健康大數(shù)據(jù),將為應(yīng)對上述人類社會問題起到積極的作用。生命與健康大數(shù)據(jù)是指無法在較快的時間內(nèi)用傳統(tǒng)的應(yīng)用方法處理的龐大、復雜的生命與健康數(shù)據(jù)集。生命科學領(lǐng)域的基礎(chǔ)研究、健康領(lǐng)域均產(chǎn)出大數(shù)據(jù)。近年來,我國生命健康方面的科技投入持續(xù)增強,國家重點研發(fā)計劃啟動了“精準醫(yī)學研究”“重大慢性非傳染性疾病防控”“生殖健康及重大出生缺陷防控研究”等重點專項,預計今后 5 年我國將產(chǎn)生 300 PB 以上的基因組數(shù)據(jù)。國際上,多個國家相繼開展不同規(guī)模甚至百萬人級的基因組測序計劃。估計到 2025 年,全球每年將產(chǎn)出 1 ZB 的基因組數(shù)據(jù)[1]。隨著健康醫(yī)療技術(shù)的不斷發(fā)展,生命健康領(lǐng)域數(shù)據(jù)的產(chǎn)出越來越多。據(jù)估計,平均每個醫(yī)院每年將產(chǎn)生 665 TB 的醫(yī)療數(shù)據(jù);按此計算,僅全國 1 300 多家三甲醫(yī)院每年就會積累約 850 PB 的數(shù)據(jù)。
1.2.2 健康科學的發(fā)展依賴于精準醫(yī)學大數(shù)據(jù)
現(xiàn)代醫(yī)學已經(jīng)發(fā)展到基于生物信息大數(shù)據(jù)的精準醫(yī)學階段,這為惡性腫瘤、心腦血管疾病和常見病的防控和治療提供了革命性的重大歷史機遇。通過全基因組測序指導 2 型糖尿病治療[2],利用可穿戴設(shè)備收集健康大數(shù)據(jù)[3],采用深度學習等人工智能技術(shù)幫助皮膚癌診斷[4],運用多組學大數(shù)據(jù)整合分析進行癌癥精準分型和個性化治療[5],以及根據(jù) DNA 中包含的信息推斷外貌表型、種族、地域、年齡和生活習慣[6]等,這些只是越來越多的大數(shù)據(jù)成功應(yīng)用中的少數(shù)案例而已。
2.1.1 國外各類基因組測序計劃催生了海量的生命與健康大數(shù)據(jù)
1977 年,F(xiàn)rederick Sanger 發(fā)表的雙脫氧鏈終止法標志著測序技術(shù)的成熟。1986 年,人類基因組計劃啟動,并于 2001 年完成了人類基因組草圖。2005 年,454 測序儀出現(xiàn),下一代測序技術(shù)開始投入使用。此后,生命與健康領(lǐng)域的大型測序項目層出不窮,例如美國國家人類基因組研究所(NHGRI)于 2003 年 9月啟動了 DNA 元件百科全書計劃(ENCODE Project),其主要任務(wù)是鑒定和分析人類基因組中所有功能元件。作為 ENCODE 項目的補充,2007 年美國國立衛(wèi)生研究院(NIH)啟動了路線圖表觀基因組項目(Roadmap Epigenomics Project),該項目的目標是創(chuàng)建不同細胞類型的參考表觀基因組圖譜。幾乎與此同時,歐洲的 Wellcome Trust 資助了千人基因組計劃(1000-Genome Project)[7]。該計劃由歐洲生物信息研究所(EMBL-EBI)于 2008—2015 年運行,主要目標是尋找在研究的人類群體中出現(xiàn)頻率至少為 1% 的遺傳變異。類似地,在 2008 年初啟動的擬南芥 1001 基因組計劃的目的是在至少 1001 個品系中發(fā)現(xiàn)相對于擬南芥參考基因組的序列變異。由美國 NHGRI 和 NIH 資助的 TCGA 計劃[8-10]則對數(shù)千個腫瘤細胞的基因組、外顯子組和轉(zhuǎn)錄組進行測序,試圖鑒別出驅(qū)動癌癥發(fā)展的公共的基因突變。NIH 資助的人類微生物組計劃(HMP)對生活在人類腸道和皮膚上的微生物的 16S rRNA 擴增子組進行測序,以期找到一組核心的、影響人類健康的微生物組。2012 年,英國 10 萬人基因組計劃啟動[11]。而更大的、醞釀了 3 年的美國政府資助的健康大數(shù)據(jù)項目 100 萬人基因組計劃已于 2018 年 5 月20日啟動,該項目將建立 100 萬人的健康大數(shù)據(jù)隊列,預計耗資 15 億美元,為期 10 年。
2.1.2 國外形成了完整的生命與健康數(shù)據(jù)中心布局
發(fā)達國家政府很早就開始重視生命與健康大數(shù)據(jù)的收集、分析和應(yīng)用。早在 1988 年 11月,美國國家醫(yī)學圖書館(NLM)就意識到了“發(fā)展新的信息技術(shù)以促進對控制健康和疾病的分子過程的理解”的重要性,把 Lister Hill 國家生物醫(yī)學交流中心的一個項目獨立出來,成立了美國國家生物技術(shù)信息中心(NCBI)。從創(chuàng)立之初,NCBI 的職責之一就是收集全世界的生物技術(shù)數(shù)據(jù)。30 年來,NCBI 不斷發(fā)展壯大,員工數(shù)從 20 人增加到目前的 700 余人,美國國會每年撥付的經(jīng)費由 1990 年的 507.3 萬美元增加到 2014 年頂峰時的 9 583.3 萬美元。在這個過程中,NCBI 積累了全世界最大的生命與健康數(shù)據(jù)庫(如 GenBank、PubMed、SRA、dbGaP 等)和軟件資源(如 BLAST、e-Utilities 等),目前數(shù)據(jù)庫中存儲的總數(shù)據(jù)量已達 30 PB,每天訪問網(wǎng)站的用戶有 420 萬,下載數(shù)據(jù)達 60 TB 以上,高峰時段的點擊量超過每秒 7 000 次。
歐洲生物信息學研究所(EBI)的前身是 1980 年在德國海德堡建立的歐洲分子生物學實驗室(EMBL)核酸序列數(shù)據(jù)庫。1992 年,EMBL 在英國 Hinxton 建立了 EBI。EBI 最早的數(shù)據(jù)庫只有兩個:歐洲核酸歸檔庫(ENA)和蛋白序列資源庫(UniProt),而現(xiàn)在 EBI 已建成世界上最全面的分子生物學數(shù)據(jù)庫集合,其管理的總數(shù)據(jù)量達 12 PB,每月用戶數(shù)為 320 萬人。EBI 目前有員工約 600 人,2016 年運行經(jīng)費為 8 820 萬美元,主要來自歐盟各國政府,特別是英國政府。
在 EMBL 和 GenBank 的邀請下,日本政府成立了日本 DNA 數(shù)據(jù)庫(DDBJ)。1987 年 DDBJ 發(fā)布了 DDBJ release 1,標志著該機構(gòu)開始正式運行。目前,DDBJ 的自有數(shù)據(jù)量約為 3 PB,年用戶數(shù)為 268 800 人;共有約 50 名員工,年經(jīng)費為 891 萬美元,由日本文部省資助。
2005 年 5月,NCBI、EBI 和 DDBJ 成立了國際核酸序列數(shù)據(jù)庫聯(lián)盟(INSDC)。INSDC 是國際上公共領(lǐng)域數(shù)據(jù)共享方面最著名的組織之一,其成員每天進行數(shù)據(jù)交換,每年召開內(nèi)部會議,討論有關(guān)建立和維護序列存檔的問題,并制定了一系列統(tǒng)一的標準和政策。INSDC 在國際生命與健康大數(shù)據(jù)收集上有著巨大的影響力,作為慣例,在主流生物醫(yī)學期刊發(fā)表論文前都要將數(shù)據(jù)上傳到 INSDC 成員數(shù)據(jù)庫公開。
瑞士生物信息學研究所(SIB)是一個聯(lián)合瑞士境內(nèi)生物信息學活動的非營利性學術(shù)基金會,成立于 1998 年。SIB 的數(shù)據(jù)涵蓋生命科學的不同領(lǐng)域,包括基因組、蛋白質(zhì)組、醫(yī)藥健康、進化、結(jié)構(gòu)生物學和系統(tǒng)生物學等。2017 年,SIB 核心資源被全球約 600 萬用戶使用,當年 SIB 管理的資金總額達到了 2 676.5 萬美元。
在健康大數(shù)據(jù)領(lǐng)域,Epic 是美國最大的電子病歷供應(yīng)商,約有 1.9 億的個人用戶使用 Epic 公司的系統(tǒng)儲存自己的電子醫(yī)療信息。Cerner 也是美國最大的電子病歷供應(yīng)商之一,目前,Cerner 在全世界 35 個國家支撐了 27 000 個不同大小的醫(yī)療機構(gòu)。Google 的控股公司 Alphabet 旗下的 DeepMind 公司正在使用人工智能看各種醫(yī)學影像,試圖學會那些醫(yī)生需要花上幾年學習獲得的經(jīng)驗,從而使機器學會判斷病癥。
2.2.1 國內(nèi)各種類型的生命與健康大數(shù)據(jù)中心相繼建成
具有代表性的包括:① 深圳國家基因庫,以自產(chǎn)數(shù)據(jù)為主,作為節(jié)點替 EBI 收集數(shù)據(jù)。② 上海生物醫(yī)學大數(shù)據(jù)中心,以中國科學院上海生命科學研究院自產(chǎn)數(shù)據(jù)為主,支持數(shù)據(jù)遞交、發(fā)布、管理和共享。③ 微生物資源與大數(shù)據(jù)中心,以微生物資源庫為主,提供微生物資源注冊、查詢,微生物知識查詢等,用戶遍布國際微生物領(lǐng)域。④ 國家人口與健康科學數(shù)據(jù)共享服務(wù)平臺,包含約 400 個醫(yī)學數(shù)據(jù)庫的訪問入口,以醫(yī)藥衛(wèi)生科學數(shù)據(jù)為主。⑤ 全國公安機關(guān) DNA 數(shù)據(jù)庫[12],于 2004 年啟動,截至 2016 年 5 月31 日,已有各類數(shù)據(jù) 4 435.8 萬條,其中違法犯罪人員信息 4 071.9 萬條、現(xiàn)場物證 149.8 萬條;“打拐”DNA 數(shù)據(jù)庫,累計錄入人員數(shù)據(jù) 59.4 萬條,DNA 數(shù)據(jù) 51.3 萬條;兩庫數(shù)據(jù)總量達到 4 487.1 萬條[12]。⑥ 北京基因組研究所生命與健康大數(shù)據(jù)中心[13-15],數(shù)據(jù)主要來自于用戶遞交,數(shù)據(jù)庫支持數(shù)據(jù)遞交、管理、發(fā)布、共享、檢索、下載、在線分析等。該數(shù)據(jù)庫擁有近 100 個機構(gòu)的 300 余數(shù)據(jù)遞交用戶,70 多個國家和地區(qū)的數(shù)據(jù)訪問與下載用戶,被 40 余家國際期刊認可;2018 年被生物大數(shù)據(jù)領(lǐng)域權(quán)威期刊 Nucleic Acids Research (《核酸研究》)列為與美國 NCBI、歐洲 EBI 齊名的全球核心數(shù)據(jù)中心[16]。
2.2.2 存在的問題
(1)我國缺乏生命健康大數(shù)據(jù)管理公共平臺,數(shù)據(jù)流失嚴重。生命健康領(lǐng)域的期刊雜志通常要求論文的遞交者把發(fā)表的數(shù)據(jù)在學界認可的數(shù)據(jù)庫公開。由于我國缺乏國家層面自上而下的統(tǒng)一部署和規(guī)劃,造成數(shù)據(jù)資源嚴重流失。據(jù)統(tǒng)計,2016 年中國大陸第一作者發(fā)表的 SCI 論文有 29.06 萬篇,但其中絕大部分的數(shù)據(jù)只能被遞交到 NCBI、EBI 等國際知名數(shù)據(jù)庫。據(jù)估計,NCBI 數(shù)據(jù)庫中 25% 以上的數(shù)據(jù)來自中國。
(2)我國缺乏生命健康大數(shù)據(jù)管理共享機制,形成數(shù)據(jù)孤島,利用效率低。過去的十幾年里,我國通過項目經(jīng)費扶持而非國家專項基金支持的形式產(chǎn)出了大量的數(shù)據(jù)庫資源。據(jù)基于 Database Commons 數(shù)據(jù)庫①http://databasecommons.org/.的最新統(tǒng)計,我國的數(shù)據(jù)庫資源總數(shù)位居世界第二;然而,大部分數(shù)據(jù)庫缺少長期維護,嚴重缺乏深度的人工審編,數(shù)據(jù)庫內(nèi)容邊緣化。這些因素導致大量數(shù)據(jù)庫資源質(zhì)量不高,利用率低,數(shù)據(jù)得不到有效共享。缺乏國家級框架的設(shè)計與部署導致我國數(shù)據(jù)庫資源小而散,難以培育出處于國際領(lǐng)先地位的大規(guī)模優(yōu)質(zhì)數(shù)據(jù)中心。同樣基于 Database Commons 數(shù)據(jù)庫信息統(tǒng)計,我國引用數(shù)超過 500 次的數(shù)據(jù)庫鳳毛麟角,超過 1 000 次的更是為零。
(3)我國缺乏生命大數(shù)據(jù)與健康大數(shù)據(jù)的整合。生命大數(shù)據(jù)(尤其是組學大數(shù)據(jù))與健康大數(shù)據(jù)通常是由不同主管部門下屬的單位產(chǎn)出的。由于部門的分割及利益關(guān)系,并且缺少國家頂層的協(xié)調(diào)和制約,這兩大類數(shù)據(jù)往往脫節(jié),難以形成合力,發(fā)揮出最大效果。
生命與健康大數(shù)據(jù)是國家人口健康和生物安全的重要基礎(chǔ)資源。目前,我國缺少國家級的框架與技術(shù),對資源再利用的頂層設(shè)計、協(xié)調(diào)、管理,數(shù)據(jù)共享機制,以及長期穩(wěn)定的經(jīng)費支持等,這些均是制約我國生命與健康大數(shù)據(jù)研究發(fā)展的主要因素,從而造成我國數(shù)據(jù)嚴重流失、主權(quán)丟失、安全無法保障、再利用效率極低。因此,亟待加快建設(shè)國家級的生命與健康大數(shù)據(jù)中心,形成國家生物大數(shù)據(jù)集中管理與共享服務(wù)平臺。具體來說,就是需要建成具有千萬億次計算能力和 EB 量級生物大數(shù)據(jù)儲存能力的生物信息基礎(chǔ)設(shè)施,形成能夠有效承接我國生物資源、人口健康、環(huán)境與農(nóng)業(yè)等大數(shù)據(jù)和支撐國家人類遺傳資源有效管理的能力;建成以信息科學、生命科學、計算科學、臨床醫(yī)學綜合交叉為基礎(chǔ),以云計算、人工智能等先進技術(shù)為牽引的一流生物信息平臺,形成國際生物信息研究與應(yīng)用開發(fā)中心。
致謝作者感謝馬英克博士對本文的編輯和整理工作。