前沿信息技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用及展望

2021-11-01 10:29鄭廣勇曾濤李亦學(xué)

遺傳 2021年10期

鄭廣勇，曾濤，李亦學(xué),2,3,4

領(lǐng)域前瞻

鄭廣勇1，曾濤1，李亦學(xué)1,2,3,4

1. 中國科學(xué)院上海營養(yǎng)與健康研究所，中國科學(xué)院計算生物學(xué)重點實驗室，生物醫(yī)學(xué)大數(shù)據(jù)中心，上海 200031 2. 廣州國家實驗室，廣州 510320 3. 國科大杭州高等研究院，中國科學(xué)院大學(xué)，杭州 310013 4. 復(fù)旦大學(xué)遺傳與發(fā)育協(xié)同創(chuàng)新中心，上海 200438

近年來，隨著以高通量組學(xué)檢測技術(shù)為代表的生物技術(shù)(biological technology, BT)的發(fā)展，生物醫(yī)學(xué)研究領(lǐng)域開始進入大數(shù)據(jù)時代。面對高維度、跨層次、多模態(tài)生物醫(yī)學(xué)大數(shù)據(jù)，科學(xué)研究需要數(shù)據(jù)密集型科研新范式。云計算、區(qū)塊鏈、人工智能等前沿信息技術(shù)(information technology, IT)的蓬勃發(fā)展為這種新型研究范式的實踐提供了技術(shù)手段。本文對云計算、區(qū)塊鏈、人工智能等前沿信息技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用進行了描述，并對數(shù)據(jù)密集型科研新范式支撐環(huán)境的構(gòu)建提出了前瞻展望,以期建立融合BT&IT 技術(shù)的新型研究方案和科研新范式，最終推動生物醫(yī)學(xué)研究跨越式發(fā)展。

組學(xué)；云計算；區(qū)塊鏈；人工智能；數(shù)據(jù)密集型科研新范式

自2001年“人類基因組計劃”完成，生物醫(yī)學(xué)研究開始進入“后基因組時代”。伴隨著對基因組、轉(zhuǎn)錄組、蛋白組及代謝組等組學(xué)的深入研究，人們在微觀的分子層面對生命科學(xué)有了系統(tǒng)化的認知[1]。近10年來，隨著各種高通量組學(xué)技術(shù)的快速發(fā)展，基因組、表觀遺傳組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組、微生物組、相互作用組等組學(xué)數(shù)據(jù)正以前所未有的速度進行累積，如何高效分析解讀這些組學(xué)背后的科學(xué)規(guī)律，從而在微觀層面更加全面地認識生物體的分子機理，成為生物醫(yī)學(xué)研究領(lǐng)域的一個重要課題[2]。特別值得注意的是，為了深入測量并描述生物體的行為和功能，表型組學(xué)近年應(yīng)運而生。表型組是指生物體從微觀(分子、細胞)到宏觀(器官、組織、生物體)，從胚胎發(fā)育到出生、生長、衰老及死亡過程中，由基因與環(huán)境以及二者互相作用產(chǎn)生的所有形態(tài)、功能、行為等方面的生物學(xué)性狀集合[3]。從表型組的定義可以知道，其涵蓋了時間(生物體從出生到死亡的過程)和空間(分子、細胞、器官、組織、生物體)兩個方面的信息。在表型組研究中，對生物體的物理表型(體質(zhì)、影像)、化學(xué)表型(基因、蛋白質(zhì)、轉(zhuǎn)錄組、代謝物、免疫因子等)以及生物表型(如肺功能、心功能和認知功能等)進行從宏觀到微觀的測量和分析，從而系統(tǒng)反映生物體在時間和空間兩個維度上的動態(tài)變化過程[4]。由于表型組數(shù)據(jù)涵蓋兩個維度信息，刻畫了從分子到生物體不同層次特性，同時包含文本、圖片、影像等不同模式的數(shù)據(jù)，因而具有高維度、跨層次、多模態(tài)的特征。各類組學(xué)技術(shù)的蓬勃發(fā)展推動了生物醫(yī)學(xué)領(lǐng)域研究進入數(shù)據(jù)密集型科研新范式時期，從而為領(lǐng)域的發(fā)展帶來了挑戰(zhàn)和機遇。在大數(shù)據(jù)時代，面對數(shù)據(jù)密集型科研新范式，生物信息學(xué)研究人員需要在傳統(tǒng)的計算生物學(xué)方法中引入云計算、區(qū)塊鏈、人工智能等前沿信息技術(shù)(information technology, IT)，支撐這種科研新范式的實踐，進而高效解讀海量不同維度、不同層次的生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)，實現(xiàn)領(lǐng)域大數(shù)據(jù)的匯聚研究[5]。在此基礎(chǔ)上，如果能夠構(gòu)建數(shù)據(jù)密集型科研新范式的支撐系統(tǒng)，則可以幫助科學(xué)家和臨床醫(yī)生從系統(tǒng)的層面上通過數(shù)據(jù)密集型的計算分析和計算實驗，深度挖掘和發(fā)現(xiàn)大數(shù)據(jù)背后的價值，理解多維數(shù)據(jù)背后的科學(xué)規(guī)律，從而有力支持生物醫(yī)學(xué)問題的基礎(chǔ)研究和轉(zhuǎn)化研究工作。本文將首先對云計算、區(qū)塊鏈、人工智能等前沿信息技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用進行描述，然后對數(shù)據(jù)密集型科研新范式支撐環(huán)境的構(gòu)建提出展望。

1 云計算技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用

云計算(cloud computing)是分布式計算的一種，指的是通過網(wǎng)絡(luò)“云”將巨大的數(shù)據(jù)計算處理程序分解成無數(shù)個小程序，然后通過多部服務(wù)器組成的系統(tǒng)進行處理和分析這些小程序得到結(jié)果并返回給用戶。與傳統(tǒng)的本地計算技術(shù)相比，云計算技術(shù)具有以下優(yōu)點：

(1)擴展性好：相比于傳統(tǒng)的服務(wù)器計算，云計算能夠快速地對應(yīng)用進行動態(tài)擴展。云計算可根據(jù)用戶不同的應(yīng)用搭配不同的計算資源和存儲資源，進行細粒度的資源部署，從而提高資源的使用效率。

(2)兼容性高：目前市場上大多數(shù)IT資源、軟、硬件都支持虛擬化，因此云計算的兼容性非常強，能夠?qū)Σ煌阅艿臋C器進行統(tǒng)一管理配置，從而提高服務(wù)效率。

(3)可靠性高：由于云計算對各種計算資源進行統(tǒng)一的管理配置，因此單點服務(wù)器故障不會影響整個系統(tǒng)對外提供服務(wù)，因而比傳統(tǒng)的本地服務(wù)器計算具有更高的可靠性。

(4)性價比高：將資源放在虛擬資源池中統(tǒng)一管理一定程度上優(yōu)化了物理資源，用戶不再需要昂貴的、存儲空間大的主機，而是可選擇相對廉價的計算資源統(tǒng)一組成云并擁有不遜于大型主機的性能，因此具有良好的性價比。

面對生物醫(yī)學(xué)大數(shù)據(jù)的快速增長，云計算的優(yōu)點使其成為生物醫(yī)療領(lǐng)域計算生物學(xué)工作的必然選擇。目前，云計算技術(shù)已經(jīng)在許多生物醫(yī)學(xué)基礎(chǔ)研究和應(yīng)用研究中進行使用，并取得了良好的效果(表1)。Fischer等[6]構(gòu)建了基于云計算技術(shù)的全外顯子測序數(shù)據(jù)分析流程，為罕見遺傳疾病的機理研究提供了有效支撐。Samuel等[7]搭建了一個跨平臺訪問的云計算資源池，為微生物組學(xué)數(shù)據(jù)分析提供了便利。Ben等[8]構(gòu)建了一款基于云計算技術(shù)的SNP (single nucleotide polymorphism)識別工具，該工具可以高效地從人類基因組測序數(shù)據(jù)中識別SNP信息。Guo等[9]使用云計算技術(shù)，構(gòu)建了高效的宏基因組測序數(shù)據(jù)從頭拼接軟件，為宏基因組測序數(shù)據(jù)的解讀提供了解決方案。美國國立生物技術(shù)研究中心NCBI (National Center for Biotechnology Information)推出了基于Google云和亞馬遜云的BLAST+版本(https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=CloudBlast)，有效滿足了超大規(guī)模的生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)的序列比對的需求。美國Broad研究中心推出了基于Google 云的GATK4套裝軟件(https://gatk.broadinstitute.org/)，從而為從大規(guī)模的基因組測序數(shù)據(jù)中識別胚系突變(germline mutation)和體細胞突變(somatic mutation)提供了解決方案。近年，筆者基于云計算技術(shù)建立了智慧多組學(xué)數(shù)據(jù)分析系統(tǒng)(https://aicloud.biosino. org/casmap)。該系統(tǒng)能夠?qū)蚪M、轉(zhuǎn)錄組、表觀遺傳組、微生物組、代謝組等多種生命組學(xué)大數(shù)據(jù)進行自動化分析。該系統(tǒng)與傳統(tǒng)的分析系統(tǒng)相比，具有以下優(yōu)點：(1)方便的數(shù)據(jù)分析，系統(tǒng)為多種組學(xué)數(shù)據(jù)的分析流程提供了可視化的操作界面，取代繁瑣的命令行模式，零編程經(jīng)驗用戶也可以通過簡單的鼠標操作完成專業(yè)的組學(xué)數(shù)據(jù)分析。用戶在系統(tǒng)中可以一鍵運行各種組學(xué)分析流程，并獲得分析結(jié)果報告，并可以把報告中圖表用于后續(xù)的論文發(fā)表。(2)可靠的數(shù)據(jù)挖掘，系統(tǒng)的后端存儲了500GB+ 的生命科學(xué)專業(yè)注釋數(shù)據(jù)，幫助用戶在開展組學(xué)數(shù)據(jù)分析時獲得更為可靠的結(jié)果。系統(tǒng)中的分析流程全部根據(jù)高影響因子的SCI論文分析過程進行研發(fā)，確保數(shù)據(jù)挖掘的先進性，精準解讀數(shù)據(jù)背后的意義。(3)高效的數(shù)據(jù)處理，系統(tǒng)基于云計算技術(shù)進行開發(fā)，能夠彈性地應(yīng)對用戶的少量、中量、海量數(shù)據(jù)分析需求，極大的提高了分析效率，減少了數(shù)據(jù)處理時間，幫助用戶高效快速地對各類生命組學(xué)數(shù)據(jù)進行深入解讀。

2 區(qū)塊鏈技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用

區(qū)塊鏈作為近年來的一項新興技術(shù)，它具有去中心化、可追溯、不可偽造、公開透明等屬性。區(qū)塊鏈本質(zhì)上是一個分布式數(shù)據(jù)庫，采用去中心化和去信任的途徑構(gòu)建可信任的網(wǎng)絡(luò)。狹義來講，區(qū)塊鏈是一種按照時間順序?qū)?shù)據(jù)區(qū)塊以順序相連的方式組合成的一種鏈式數(shù)據(jù)結(jié)構(gòu)，并以密碼學(xué)方式保證不可篡改和不可偽造的分布式賬本。廣義來講，區(qū)塊鏈技術(shù)是利用塊鏈式數(shù)據(jù)結(jié)構(gòu)來驗證與存儲數(shù)據(jù)、用分布式節(jié)點共識算法來生成和更新數(shù)據(jù)、利用密碼學(xué)的方式保證數(shù)據(jù)傳輸和訪問的安全、利用智能合約來編程和操作數(shù)據(jù)的一種全新的分布式基礎(chǔ)架構(gòu)與計算范式。區(qū)塊鏈是由節(jié)點參與的分布式數(shù)據(jù)庫系統(tǒng)，眾節(jié)點形成點對點的網(wǎng)絡(luò)，沒有中心化設(shè)備和管理機構(gòu)，它不需要第三方信任背書。

表1 云計算技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的典型應(yīng)用

目前，阻礙生物醫(yī)學(xué)大數(shù)據(jù)廣泛應(yīng)用的一個主要問題是數(shù)據(jù)孤島化。由于利益分配機制不明、隱私泄露風險、倫理法規(guī)約束等，大部分醫(yī)療領(lǐng)域的研究人員在實驗數(shù)據(jù)和臨床數(shù)據(jù)共享方面往往猶豫不決。因此，在生物醫(yī)療領(lǐng)域迫切需要建立安全、互利的數(shù)據(jù)共享機制，從而使數(shù)據(jù)通過流通與匯聚釋放價值，推進生物醫(yī)藥產(chǎn)業(yè)的創(chuàng)新發(fā)展[10]。區(qū)塊鏈技術(shù)的去中心化、可追溯、不可偽造、公開透明等屬性賦予該技術(shù)應(yīng)用于生物醫(yī)療領(lǐng)域數(shù)據(jù)管理共享的能力。Fan等[11]通過區(qū)塊鏈技術(shù)構(gòu)建了電子病歷共享系統(tǒng)，該系統(tǒng)在包含病人隱私的同時提供了病歷的脫敏共享，有效促進了醫(yī)療信息流通。Jin等[12]基于區(qū)塊鏈技術(shù)搭建了個人基因組共享系統(tǒng)，為基因組數(shù)據(jù)共享提供了一個技術(shù)案例。美國哈佛大學(xué)的Church等[13]提出通過區(qū)塊鏈技術(shù)來管理和共享個人基因組數(shù)據(jù)，將大大加速基因組研究和產(chǎn)業(yè)應(yīng)用，具有良好的科學(xué)價值和社會經(jīng)濟價值。近年，筆者和合作伙伴一起構(gòu)建了基于區(qū)塊鏈技術(shù)和隱私安全計算技術(shù)的智能數(shù)據(jù)共享分析系統(tǒng)(https:// platform.sdap.biosino.org/)，為醫(yī)療領(lǐng)域的數(shù)據(jù)共享提供了一站式的解決方案。該分析系統(tǒng)具有以下技術(shù)優(yōu)點：(1)使用區(qū)塊鏈技術(shù)構(gòu)建靈活的多方數(shù)據(jù)共享模塊, 智能合約觸發(fā)數(shù)據(jù)的確權(quán)和授權(quán)過程，分布式賬本對數(shù)據(jù)的加載和消費情況進行記錄和追溯，解決數(shù)據(jù)共享的信任問題；(2)使用隱私計算技術(shù)構(gòu)建安全的多方數(shù)據(jù)分析模塊，數(shù)據(jù)分析在沙箱內(nèi)進行，不分享原始數(shù)據(jù), 分享數(shù)據(jù)的價值；(3)使用部分中心化+多節(jié)點分布式的技術(shù)構(gòu)建智能多方數(shù)據(jù)存儲模塊，分布式的存儲方案不僅保證原始數(shù)據(jù)的安全，同時也避免了大規(guī)模數(shù)據(jù)在不同用戶間傳輸過程，大大提高了數(shù)據(jù)分析效率。

3 人工智能技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用

人工智能是研發(fā)模擬、延伸、擴展人類智慧的理論、方法及技術(shù)的一門新興學(xué)科，近年成為信息科學(xué)發(fā)展的一個重要研究方向[14,15]。利用人工智能技術(shù)建立符合生物醫(yī)學(xué)大數(shù)據(jù)特征的數(shù)據(jù)庫、算法及計算環(huán)境，正廣泛深入生命科學(xué)的各個領(lǐng)域。人工智能技術(shù)廣泛且深入的融入生物醫(yī)學(xué)研究是目前生命科學(xué)發(fā)展的一個重要趨勢。一方面，人工智能能夠從海量的生物異質(zhì)大數(shù)據(jù)中發(fā)現(xiàn)人類大腦無法分析、無法理解的數(shù)據(jù)結(jié)構(gòu)，捕捉到人類無法意識到的生物學(xué)特征。另一方面，人工智能所應(yīng)用的計算方法既可以模擬人類思考的特點，也可以完全擺脫人類的傳統(tǒng)思考模式。利用這樣的類腦方法來研究生命科學(xué)，可以更有效地處理生命現(xiàn)象的極端復(fù)雜性，使得研究更接近生命的本質(zhì)。所以，人工智能技術(shù)可以幫助生物醫(yī)學(xué)領(lǐng)域研究實現(xiàn)關(guān)鍵的實質(zhì)性突破，革新生物醫(yī)學(xué)研究的現(xiàn)有范式，拓展生物醫(yī)學(xué)研究的范圍，有助于闡明生物醫(yī)學(xué)領(lǐng)域大量懸而未決的基本問題。

目前，人工智能技術(shù)已在生物醫(yī)學(xué)研究的多個方向進行了應(yīng)用和探索，在眾多復(fù)雜的研究場景中都有新的發(fā)現(xiàn)：

(1)在分子細胞機理研究方面，基于人工智能技術(shù)中的深度學(xué)習方法可以建立高效的分子相互作用預(yù)測模型，進而幫助科學(xué)家解讀復(fù)雜的生物過程背后的分子規(guī)律。例如，近年來，深度學(xué)習模型的快速發(fā)展與廣泛應(yīng)用有助于刻畫細胞內(nèi)基因的時空表達和順式–反式調(diào)控[16]，蛋白–蛋白相互作用[17]，蛋白–代謝小分子相互作用[18]，細胞間的通訊[19]等生物過程機理。

(2)在生命組學(xué)數(shù)據(jù)分析方面，基于自然語言和人工智能邏輯的組學(xué)數(shù)據(jù)分析平臺DrBioRight，為下一代組學(xué)分析范式提供了五個特征示范[20]：(i)準確識別不具有專門技術(shù)性知識的用戶所提出的分析請求；(ii)幫助用戶探索和理解與任務(wù)相關(guān)的組學(xué)數(shù)據(jù)和分析結(jié)果；(iii)通過穩(wěn)定用戶群的貢獻保持對組學(xué)數(shù)據(jù)和分析方法的及時更新；(iv)經(jīng)由用戶對分析質(zhì)量的反饋不斷修正和更新平臺性能；(v)與智能移動平臺和社交媒體實現(xiàn)良好匹配，為分析流程增加更多的靈活性。

(3)在生物醫(yī)學(xué)知識圖譜發(fā)展方面，基于監(jiān)督的深度學(xué)習策略，關(guān)系抽取模型能夠在不依賴于人工標注數(shù)據(jù)的情況下應(yīng)用到各種生物醫(yī)學(xué)關(guān)系抽取場景當中，可從千萬篇科研文獻中挖掘理解藥物、靶點、病毒、副作用等等生物醫(yī)學(xué)實體之間相互作用規(guī)律的生物醫(yī)學(xué)實體關(guān)系網(wǎng)絡(luò)，進而通過抽取出的提示性信息指導(dǎo)實驗驗證；例如通過查找文獻支持來驗證針對“非典”或“中東呼吸綜合征”的老藥新用策略的可行性，及其針對“新冠病毒”的有效性[21]。

(4)在生物模型算法發(fā)展方面，scDEC使用一組生成對抗網(wǎng)絡(luò)將高維單細胞數(shù)據(jù)映射到低維隱空間，在低維空間進行聚類分析，再使用另一組生成對抗網(wǎng)絡(luò)將低維數(shù)據(jù)映射回高維空間, 從而為在單細胞數(shù)據(jù)分析提供集數(shù)據(jù)降維、生成與細胞聚類于一體的智能算法[22]。基于卷積神經(jīng)網(wǎng)絡(luò)算法的人工智能模型可在大量臨床影像數(shù)據(jù)基礎(chǔ)上進行學(xué)習訓(xùn)練臨床診斷模型，從而輔助臨床醫(yī)生實現(xiàn)對患者的高準確率診斷[23]。人工智能技術(shù)與計算物理、量子化學(xué)、分子動力學(xué)等技術(shù)的結(jié)合，將有助于提高藥物發(fā)現(xiàn)與發(fā)展這一關(guān)鍵環(huán)節(jié)的效率與成功率，從而降低新藥研發(fā)成本，為新藥研發(fā)帶來了新的發(fā)展動力[24]。

4 結(jié)語與展望

現(xiàn)代生物醫(yī)學(xué)研究的目標之一是在分子、細胞、組織、器官等層面上解析生物體外在表型所對應(yīng)的內(nèi)在組成形式及其相互作用規(guī)律。由于生命體系的高度復(fù)雜和精準調(diào)控特性，以生物化學(xué)、分子生物學(xué)等學(xué)科為代表的現(xiàn)代生物醫(yī)學(xué)研究發(fā)展了幾十年后，遇到了重大的瓶頸?，F(xiàn)代生物醫(yī)學(xué)研究的重點突破，需要對研究技術(shù)和研究模式進行根本性的變革。近年來，隨著以高通量組學(xué)檢測技術(shù)為代表的生物技術(shù)(biological technology, BT)的成熟與發(fā)展，以及以云計算、區(qū)塊鏈、人工智能為代表的前沿信息技術(shù)的發(fā)展，建立融合BT&IT技術(shù)的新型研究方案和科研新范式，將是打破現(xiàn)代生物醫(yī)學(xué)研究瓶頸，推動生物醫(yī)學(xué)研究跨越式發(fā)展的必由之路。

面對數(shù)據(jù)密集型科研新范式的需求，構(gòu)建一個融合BT&IT技術(shù)，界面友好、安全可靠、用戶充分可及的生物醫(yī)學(xué)大數(shù)據(jù)操作系統(tǒng)，進而建立密集型科研新范式的應(yīng)用支撐環(huán)境，可以非常有效地幫助生命科學(xué)研究人員方便地實現(xiàn)生物醫(yī)學(xué)大數(shù)據(jù)的獲取、交互共享、智能化調(diào)度、多維深度展示、高性能計算和深度挖掘分析等各類科學(xué)實驗活動，進而加速生物醫(yī)學(xué)大數(shù)據(jù)整合，融匯和貫通各類高維多層次復(fù)雜數(shù)據(jù)，推動數(shù)據(jù)共享和充分利用，實現(xiàn)生物醫(yī)學(xué)大數(shù)據(jù)的匯聚研究，推動生物醫(yī)學(xué)研究獲得革命性進展。

[1] Goodwin S, McPherson JD, McCombie WR. Coming of age: ten years of next-generation sequencing technologies.,2016, 17(6): 333–351.

[2] Nimrod R, Ron S. Multi-omic and multi-view clustering algorithms: review and cancer benchmark., 2018, 46(20): 10546–10562.

[3] Houle D, Govindaraju DR, Omholt S. Phenomics: the next challenge., 2010, 11(12): 855–866.

[4] Brown SDM, Holmes CC, Mallon AM, Meehan TF, Smedley D, Wells S. High-throughput mouse phenomics for characterizing mammalian gene function.,2018, 19(6): 357–370.

[5] Milicchio F, Rose R, Bian J, Min J, Prosperi M. Visual programming for next-generation sequencing data analytics.,2016, 9:16.

[6] Fischer M, Snajder R, Pabinger S, Dander A, Schossig A, Zschocke J, Trajanoski Z, Stocker G. SIMPLEX: cloud-enabled pipeline for the comprehensive analysis of exome sequencing data.,2012, 7(8): e41948.

[7] Angiuoli SV, Matalka M, Gussman A, Galens K, Vangala M, Riley DR, Arze C, White JR, White O, Fricke WF. CloVR: a virtual machine for automated and portable sequence analysis from the desktop usingcloud computing., 2011, 12:356.

[8] Langmead B, Schatz MC, Lin J, Pop M, Salzberg SL. Searching for SNPs with cloud computing., 2009, 10(11): R134.

[9] Guo X, Yu N, Ding XJ, Wang JX, Pan Y. DIME: a novel framework for de novo metagenomic sequence assembly., 2015, 22(2): 159–177.

[10] Byrd JB, Greene AC, Prasad DV, Jiang XQ, Greene CS.Responsible, practical genomic data sharing that accelerates research.,2020, 21(10): 615–629.

[11] Fan K, Wang S, Ren Y, Li H, Yang Y. MedBlock: efficient and secure medical data sharing via blockchain., 2018, 42(8): 136.

[12] Jin XL, Zhang M, Zhou ZY, Yu XY. Application of a blockchain platform to manage and secure personal genomic data: a case study of LifeCODE.ai in China.,2019, 21(9): e13587.

[13] Zhavoronkov A, Church G. The advent of human life data economics.,2019. 25(7): 566–570.

[14] Wu F, Lu CW, Zhu MJ, Chen H, Zhu J, Yu K, Li L, Li M, Chen QF, Li X, Cao XD, Wang ZY, Zha ZJ, Zhuang YT, Pan YH. Towards a new generation of artificial intelligence in China., 2020, 2(6): 312–316.

[15] Zhao XT, Yang YD, Qu HZ, Fang XD. Applications of machine learning in clinical decision support in the omic era., 2018, 40(9): 693–703.

趙學(xué)彤, 楊亞東, 渠鴻竹, 方向東. 組學(xué)時代下機器學(xué)習方法在臨床決策支持中的應(yīng)用. 遺傳, 2018, 40(9): 693–703.

[16] Alexandra Maslova, Ricardo N. Ramirez, Ke Ma, Hugo Schmutz, Chendi Wang, Curtis Fox, Bernard Ng, Christophe Benoist, Sara Mostafavi. Deep learning of immune cell differentiation., 2020, 117(41): 25655–25666.

[17] Ethan C. Alley, Grigory Khimulya, Surojit Biswas, Mohammed AlQuraishi, George M. Church. Unified rational protein engineering with sequence-based deep representation learning., 2019, 16(12): 1315–1322.

[18] Morton JT, Aksenov AA, Nothias LF, Foulds JR, Quinn RA, Badri MH, Swenson TL, Van Goethem MW, Northen TR, Vazquez-Baeza Y, Wang M, Bokulich NA, Watters A, Song SJ, Bonneau R, Dorrestein PC, Knight R. Learning representations of microbe–metabolite interactions., 2019, 16(12): 1306–1314.

[19] Shao X, Lu XY, Liao J, Chen HJ, Fan XH. New avenues for systematically inferring cell-cell communication: through single-cell transcriptomics data., 2020, 11(12): 866–880.

[20] Li J, Chen H, Wang YM, May Chen MJ, Liang H. Next- generation analytics for omics data.2021, 39(1): 3–6.

[21] Hong LX, Lin JJ, Li SY, Wan FP, Yang H, Jiang T, Zhao D, Zeng JY. A novel machine learning framework for automated biomedical relation extraction from large-scale literature repositories., 2020, 2(6): 347– 355.

[22] Liu Q, Chen SQ, Jiang R, Wong WH. Simultaneous deep generative modeling and clustering of single cell genomic data.,2021, 3(6): 536–544.

[23] Esteva A, Kuprel B, Novoa RA, Ko J, Swetter SM, Blau HM, Thrun S. Dermatologist-level classification of skin cancer with deep neural networks.,2017, 542(7639): 115–118.

[24] Jing YK, Bian YM, Hu ZH, Wang LR, Xie XQ. Deep learning for drug design: an artificial intelligence paradigm for drug discovery in the big data era., 2018, 20(3): 58.

Application and prospect of cutting-edge information technology in biomedical big data

Guangyong Zheng1, Tao Zeng1, Yixue Li1,2,3,4

In recent years, with the development of various high-throughput omics based biological technologies (BT), biomedical research began to enter the era of big data. In the face of high-dimensional, multi-domain and multi-modal biomedical big data, scientific research requires a new paradigm of data intensive scientific research. The vigorous development of cutting-edge information technologies (IT) such as cloud computing, blockchain and artificial intelligence provides technical means for the practice of this new research paradigm. Here,we describe the application of such cutting-edge information technologies in biomedical big data, and propose a forward-looking prospect for the construction of a new paradigm supporting environment for data intensive scientific research. We expect to establish a new research scheme and new scientific research paradigm integrating BT & IT technology, which can finally promote the great leap forward development of biomedical research.

omics; cloud computing; blockchain; artificial intelligence; new paradigm of data intensive scientific research

2021-05-31;

2021-09-16

中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項課題(編號：XDB38050200)資助[Surpported by the Strategic Priority Research Program of Chinese Academy of Sciences (No. XDB38050200)]

鄭廣勇，副研究員，研究方向：生物信息學(xué)。E-mail: gyzheng@picb.ac.cn

李亦學(xué)，教授，研究方向：生物信息學(xué)。E-mail: yxli@sibs.ac.cn

10.16288/j.yczz.21-192

2021/9/27 12:05:04

URI: https://kns.cnki.net/kcms/detail/11.1913.R.20210926.1702.002.html

(責任編委: 方向東)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

前沿信息技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用及展望

1 云計算技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用

2 區(qū)塊鏈技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用

3 人工智能技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用

4 結(jié)語與展望