生命與健康大數(shù)據(jù)現(xiàn)狀和展望

2018-02-08 08:49鮑一明薛勇彪

中國科學院院刊 2018年8期

鮑一明薛勇彪

1 中國科學院北京基因組研究所北京 100101 2 中國科學院大學北京 100049

1 人類社會面臨的問題及生命與健康大數(shù)據(jù)的機遇

1.1 人類社會發(fā)展面臨的諸多問題

地球已經(jīng)進入到了“人類紀”（Anthropocene），人類的活動給地球的地質(zhì)、生態(tài)系統(tǒng)造成了巨大的影響。全球變暖引起的凍土融化導致已滅絕的病原菌“重見天日”；世界人口持續(xù)增長并出現(xiàn)老齡化，據(jù)估計，到 2020 年我國 65 歲以上老齡人口將達 1.67 億，約占全世界的 1/4；全球農(nóng)業(yè)生產(chǎn)力已經(jīng)連續(xù) 4 年低于期望值，如不改觀將不能滿足地球上不斷增長的人口的需求；局部沖突造成難民人數(shù)不斷增加，從而引發(fā)嚴重的社會及經(jīng)濟危機；犯罪率上升、恐怖襲擊、突發(fā)事件等嚴重威脅公共安全；重大慢病嚴重威脅全民健康，統(tǒng)計數(shù)字表明，我國有超過 3.4 億的重大慢病患者，平均每分鐘有 8 人被確診為癌癥，5 人因癌癥而離世。

1.2 生命與健康大數(shù)據(jù)的機遇

1.2.1 生命與健康大數(shù)據(jù)飛速增長

大數(shù)據(jù)，尤其是生命與健康大數(shù)據(jù)，將為應(yīng)對上述人類社會問題起到積極的作用。生命與健康大數(shù)據(jù)是指無法在較快的時間內(nèi)用傳統(tǒng)的應(yīng)用方法處理的龐大、復雜的生命與健康數(shù)據(jù)集。生命科學領(lǐng)域的基礎(chǔ)研究、健康領(lǐng)域均產(chǎn)出大數(shù)據(jù)。近年來，我國生命健康方面的科技投入持續(xù)增強，國家重點研發(fā)計劃啟動了“精準醫(yī)學研究”“重大慢性非傳染性疾病防控”“生殖健康及重大出生缺陷防控研究”等重點專項，預計今后 5 年我國將產(chǎn)生 300 PB 以上的基因組數(shù)據(jù)。國際上，多個國家相繼開展不同規(guī)模甚至百萬人級的基因組測序計劃。估計到 2025 年，全球每年將產(chǎn)出 1 ZB 的基因組數(shù)據(jù)[1]。隨著健康醫(yī)療技術(shù)的不斷發(fā)展，生命健康領(lǐng)域數(shù)據(jù)的產(chǎn)出越來越多。據(jù)估計，平均每個醫(yī)院每年將產(chǎn)生 665 TB 的醫(yī)療數(shù)據(jù)；按此計算，僅全國 1 300 多家三甲醫(yī)院每年就會積累約 850 PB 的數(shù)據(jù)。

1.2.2 健康科學的發(fā)展依賴于精準醫(yī)學大數(shù)據(jù)

現(xiàn)代醫(yī)學已經(jīng)發(fā)展到基于生物信息大數(shù)據(jù)的精準醫(yī)學階段，這為惡性腫瘤、心腦血管疾病和常見病的防控和治療提供了革命性的重大歷史機遇。通過全基因組測序指導 2 型糖尿病治療[2]，利用可穿戴設(shè)備收集健康大數(shù)據(jù)[3]，采用深度學習等人工智能技術(shù)幫助皮膚癌診斷[4]，運用多組學大數(shù)據(jù)整合分析進行癌癥精準分型和個性化治療[5]，以及根據(jù) DNA 中包含的信息推斷外貌表型、種族、地域、年齡和生活習慣[6]等，這些只是越來越多的大數(shù)據(jù)成功應(yīng)用中的少數(shù)案例而已。

2 國內(nèi)外生命與健康大數(shù)據(jù)的現(xiàn)狀

2.1 國外生命與健康大數(shù)據(jù)的現(xiàn)狀

2.1.1 國外各類基因組測序計劃催生了海量的生命與健康大數(shù)據(jù)

1977 年，F(xiàn)rederick Sanger 發(fā)表的雙脫氧鏈終止法標志著測序技術(shù)的成熟。1986 年，人類基因組計劃啟動，并于 2001 年完成了人類基因組草圖。2005 年，454 測序儀出現(xiàn)，下一代測序技術(shù)開始投入使用。此后，生命與健康領(lǐng)域的大型測序項目層出不窮，例如美國國家人類基因組研究所（NHGRI）于 2003 年 9月啟動了 DNA 元件百科全書計劃（ENCODE Project），其主要任務(wù)是鑒定和分析人類基因組中所有功能元件。作為 ENCODE 項目的補充，2007 年美國國立衛(wèi)生研究院（NIH）啟動了路線圖表觀基因組項目（Roadmap Epigenomics Project），該項目的目標是創(chuàng)建不同細胞類型的參考表觀基因組圖譜。幾乎與此同時，歐洲的 Wellcome Trust 資助了千人基因組計劃（1000-Genome Project）[7]。該計劃由歐洲生物信息研究所（EMBL-EBI）于 2008—2015 年運行，主要目標是尋找在研究的人類群體中出現(xiàn)頻率至少為 1% 的遺傳變異。類似地，在 2008 年初啟動的擬南芥 1001 基因組計劃的目的是在至少 1001 個品系中發(fā)現(xiàn)相對于擬南芥參考基因組的序列變異。由美國 NHGRI 和 NIH 資助的 TCGA 計劃[8-10]則對數(shù)千個腫瘤細胞的基因組、外顯子組和轉(zhuǎn)錄組進行測序，試圖鑒別出驅(qū)動癌癥發(fā)展的公共的基因突變。NIH 資助的人類微生物組計劃（HMP）對生活在人類腸道和皮膚上的微生物的 16S rRNA 擴增子組進行測序，以期找到一組核心的、影響人類健康的微生物組。2012 年，英國 10 萬人基因組計劃啟動[11]。而更大的、醞釀了 3 年的美國政府資助的健康大數(shù)據(jù)項目 100 萬人基因組計劃已于 2018 年 5 月20日啟動，該項目將建立 100 萬人的健康大數(shù)據(jù)隊列，預計耗資 15 億美元，為期 10 年。

2.1.2 國外形成了完整的生命與健康數(shù)據(jù)中心布局

發(fā)達國家政府很早就開始重視生命與健康大數(shù)據(jù)的收集、分析和應(yīng)用。早在 1988 年 11月，美國國家醫(yī)學圖書館（NLM）就意識到了“發(fā)展新的信息技術(shù)以促進對控制健康和疾病的分子過程的理解”的重要性，把 Lister Hill 國家生物醫(yī)學交流中心的一個項目獨立出來，成立了美國國家生物技術(shù)信息中心（NCBI）。從創(chuàng)立之初，NCBI 的職責之一就是收集全世界的生物技術(shù)數(shù)據(jù)。30 年來，NCBI 不斷發(fā)展壯大，員工數(shù)從 20 人增加到目前的 700 余人，美國國會每年撥付的經(jīng)費由 1990 年的 507.3 萬美元增加到 2014 年頂峰時的 9 583.3 萬美元。在這個過程中，NCBI 積累了全世界最大的生命與健康數(shù)據(jù)庫（如 GenBank、PubMed、SRA、dbGaP 等）和軟件資源（如 BLAST、e-Utilities 等），目前數(shù)據(jù)庫中存儲的總數(shù)據(jù)量已達 30 PB，每天訪問網(wǎng)站的用戶有 420 萬，下載數(shù)據(jù)達 60 TB 以上，高峰時段的點擊量超過每秒 7 000 次。

歐洲生物信息學研究所（EBI）的前身是 1980 年在德國海德堡建立的歐洲分子生物學實驗室（EMBL）核酸序列數(shù)據(jù)庫。1992 年，EMBL 在英國 Hinxton 建立了 EBI。EBI 最早的數(shù)據(jù)庫只有兩個：歐洲核酸歸檔庫（ENA）和蛋白序列資源庫（UniProt），而現(xiàn)在 EBI 已建成世界上最全面的分子生物學數(shù)據(jù)庫集合，其管理的總數(shù)據(jù)量達 12 PB，每月用戶數(shù)為 320 萬人。EBI 目前有員工約 600 人，2016 年運行經(jīng)費為 8 820 萬美元，主要來自歐盟各國政府，特別是英國政府。

在 EMBL 和 GenBank 的邀請下，日本政府成立了日本 DNA 數(shù)據(jù)庫（DDBJ）。1987 年 DDBJ 發(fā)布了 DDBJ release 1，標志著該機構(gòu)開始正式運行。目前，DDBJ 的自有數(shù)據(jù)量約為 3 PB，年用戶數(shù)為 268 800 人；共有約 50 名員工，年經(jīng)費為 891 萬美元，由日本文部省資助。

2005 年 5月，NCBI、EBI 和 DDBJ 成立了國際核酸序列數(shù)據(jù)庫聯(lián)盟（INSDC）。INSDC 是國際上公共領(lǐng)域數(shù)據(jù)共享方面最著名的組織之一，其成員每天進行數(shù)據(jù)交換，每年召開內(nèi)部會議，討論有關(guān)建立和維護序列存檔的問題，并制定了一系列統(tǒng)一的標準和政策。INSDC 在國際生命與健康大數(shù)據(jù)收集上有著巨大的影響力，作為慣例，在主流生物醫(yī)學期刊發(fā)表論文前都要將數(shù)據(jù)上傳到 INSDC 成員數(shù)據(jù)庫公開。

瑞士生物信息學研究所（SIB）是一個聯(lián)合瑞士境內(nèi)生物信息學活動的非營利性學術(shù)基金會，成立于 1998 年。SIB 的數(shù)據(jù)涵蓋生命科學的不同領(lǐng)域，包括基因組、蛋白質(zhì)組、醫(yī)藥健康、進化、結(jié)構(gòu)生物學和系統(tǒng)生物學等。2017 年，SIB 核心資源被全球約 600 萬用戶使用，當年 SIB 管理的資金總額達到了 2 676.5 萬美元。

在健康大數(shù)據(jù)領(lǐng)域，Epic 是美國最大的電子病歷供應(yīng)商，約有 1.9 億的個人用戶使用 Epic 公司的系統(tǒng)儲存自己的電子醫(yī)療信息。Cerner 也是美國最大的電子病歷供應(yīng)商之一，目前，Cerner 在全世界 35 個國家支撐了 27 000 個不同大小的醫(yī)療機構(gòu)。Google 的控股公司 Alphabet 旗下的 DeepMind 公司正在使用人工智能看各種醫(yī)學影像，試圖學會那些醫(yī)生需要花上幾年學習獲得的經(jīng)驗，從而使機器學會判斷病癥。

2.2 國內(nèi)生命與健康大數(shù)據(jù)的現(xiàn)狀

2.2.1 國內(nèi)各種類型的生命與健康大數(shù)據(jù)中心相繼建成

具有代表性的包括：① 深圳國家基因庫，以自產(chǎn)數(shù)據(jù)為主，作為節(jié)點替 EBI 收集數(shù)據(jù)。② 上海生物醫(yī)學大數(shù)據(jù)中心，以中國科學院上海生命科學研究院自產(chǎn)數(shù)據(jù)為主，支持數(shù)據(jù)遞交、發(fā)布、管理和共享。③ 微生物資源與大數(shù)據(jù)中心，以微生物資源庫為主，提供微生物資源注冊、查詢，微生物知識查詢等，用戶遍布國際微生物領(lǐng)域。④ 國家人口與健康科學數(shù)據(jù)共享服務(wù)平臺，包含約 400 個醫(yī)學數(shù)據(jù)庫的訪問入口，以醫(yī)藥衛(wèi)生科學數(shù)據(jù)為主。⑤ 全國公安機關(guān) DNA 數(shù)據(jù)庫[12]，于 2004 年啟動，截至 2016 年 5 月31 日，已有各類數(shù)據(jù) 4 435.8 萬條，其中違法犯罪人員信息 4 071.9 萬條、現(xiàn)場物證 149.8 萬條；“打拐”DNA 數(shù)據(jù)庫，累計錄入人員數(shù)據(jù) 59.4 萬條，DNA 數(shù)據(jù) 51.3 萬條；兩庫數(shù)據(jù)總量達到 4 487.1 萬條[12]。⑥ 北京基因組研究所生命與健康大數(shù)據(jù)中心[13-15]，數(shù)據(jù)主要來自于用戶遞交，數(shù)據(jù)庫支持數(shù)據(jù)遞交、管理、發(fā)布、共享、檢索、下載、在線分析等。該數(shù)據(jù)庫擁有近 100 個機構(gòu)的 300 余數(shù)據(jù)遞交用戶，70 多個國家和地區(qū)的數(shù)據(jù)訪問與下載用戶，被 40 余家國際期刊認可；2018 年被生物大數(shù)據(jù)領(lǐng)域權(quán)威期刊 Nucleic Acids Research （《核酸研究》）列為與美國 NCBI、歐洲 EBI 齊名的全球核心數(shù)據(jù)中心[16]。

2.2.2 存在的問題

（1）我國缺乏生命健康大數(shù)據(jù)管理公共平臺，數(shù)據(jù)流失嚴重。生命健康領(lǐng)域的期刊雜志通常要求論文的遞交者把發(fā)表的數(shù)據(jù)在學界認可的數(shù)據(jù)庫公開。由于我國缺乏國家層面自上而下的統(tǒng)一部署和規(guī)劃，造成數(shù)據(jù)資源嚴重流失。據(jù)統(tǒng)計，2016 年中國大陸第一作者發(fā)表的 SCI 論文有 29.06 萬篇，但其中絕大部分的數(shù)據(jù)只能被遞交到 NCBI、EBI 等國際知名數(shù)據(jù)庫。據(jù)估計，NCBI 數(shù)據(jù)庫中 25% 以上的數(shù)據(jù)來自中國。

（2）我國缺乏生命健康大數(shù)據(jù)管理共享機制，形成數(shù)據(jù)孤島，利用效率低。過去的十幾年里，我國通過項目經(jīng)費扶持而非國家專項基金支持的形式產(chǎn)出了大量的數(shù)據(jù)庫資源。據(jù)基于 Database Commons 數(shù)據(jù)庫①http://databasecommons.org/.的最新統(tǒng)計，我國的數(shù)據(jù)庫資源總數(shù)位居世界第二；然而，大部分數(shù)據(jù)庫缺少長期維護，嚴重缺乏深度的人工審編，數(shù)據(jù)庫內(nèi)容邊緣化。這些因素導致大量數(shù)據(jù)庫資源質(zhì)量不高，利用率低，數(shù)據(jù)得不到有效共享。缺乏國家級框架的設(shè)計與部署導致我國數(shù)據(jù)庫資源小而散，難以培育出處于國際領(lǐng)先地位的大規(guī)模優(yōu)質(zhì)數(shù)據(jù)中心。同樣基于 Database Commons 數(shù)據(jù)庫信息統(tǒng)計，我國引用數(shù)超過 500 次的數(shù)據(jù)庫鳳毛麟角，超過 1 000 次的更是為零。

（3）我國缺乏生命大數(shù)據(jù)與健康大數(shù)據(jù)的整合。生命大數(shù)據(jù)（尤其是組學大數(shù)據(jù)）與健康大數(shù)據(jù)通常是由不同主管部門下屬的單位產(chǎn)出的。由于部門的分割及利益關(guān)系，并且缺少國家頂層的協(xié)調(diào)和制約，這兩大類數(shù)據(jù)往往脫節(jié)，難以形成合力，發(fā)揮出最大效果。

3 生命與健康大數(shù)據(jù)的展望

生命與健康大數(shù)據(jù)是國家人口健康和生物安全的重要基礎(chǔ)資源。目前，我國缺少國家級的框架與技術(shù)，對資源再利用的頂層設(shè)計、協(xié)調(diào)、管理，數(shù)據(jù)共享機制，以及長期穩(wěn)定的經(jīng)費支持等，這些均是制約我國生命與健康大數(shù)據(jù)研究發(fā)展的主要因素，從而造成我國數(shù)據(jù)嚴重流失、主權(quán)丟失、安全無法保障、再利用效率極低。因此，亟待加快建設(shè)國家級的生命與健康大數(shù)據(jù)中心，形成國家生物大數(shù)據(jù)集中管理與共享服務(wù)平臺。具體來說，就是需要建成具有千萬億次計算能力和 EB 量級生物大數(shù)據(jù)儲存能力的生物信息基礎(chǔ)設(shè)施，形成能夠有效承接我國生物資源、人口健康、環(huán)境與農(nóng)業(yè)等大數(shù)據(jù)和支撐國家人類遺傳資源有效管理的能力；建成以信息科學、生命科學、計算科學、臨床醫(yī)學綜合交叉為基礎(chǔ)，以云計算、人工智能等先進技術(shù)為牽引的一流生物信息平臺，形成國際生物信息研究與應(yīng)用開發(fā)中心。

致謝作者感謝馬英克博士對本文的編輯和整理工作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡