鄭廣勇,曾濤,李亦學(xué),2,3,4
領(lǐng)域前瞻
前沿信息技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用及展望
鄭廣勇1,曾濤1,李亦學(xué)1,2,3,4
1. 中國科學(xué)院上海營養(yǎng)與健康研究所,中國科學(xué)院計算生物學(xué)重點實驗室,生物醫(yī)學(xué)大數(shù)據(jù)中心,上海 200031 2. 廣州國家實驗室,廣州 510320 3. 國科大杭州高等研究院,中國科學(xué)院大學(xué),杭州 310013 4. 復(fù)旦大學(xué)遺傳與發(fā)育協(xié)同創(chuàng)新中心,上海 200438
近年來,隨著以高通量組學(xué)檢測技術(shù)為代表的生物技術(shù)(biological technology, BT)的發(fā)展,生物醫(yī)學(xué)研究領(lǐng)域開始進入大數(shù)據(jù)時代。面對高維度、跨層次、多模態(tài)生物醫(yī)學(xué)大數(shù)據(jù),科學(xué)研究需要數(shù)據(jù)密集型科研新范式。云計算、區(qū)塊鏈、人工智能等前沿信息技術(shù)(information technology, IT)的蓬勃發(fā)展為這種新型研究范式的實踐提供了技術(shù)手段。本文對云計算、區(qū)塊鏈、人工智能等前沿信息技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用進行了描述,并對數(shù)據(jù)密集型科研新范式支撐環(huán)境的構(gòu)建提出了前瞻展望,以期建立融合BT&IT 技術(shù)的新型研究方案和科研新范式,最終推動生物醫(yī)學(xué)研究跨越式發(fā)展。
組學(xué);云計算;區(qū)塊鏈;人工智能;數(shù)據(jù)密集型科研新范式
自2001年“人類基因組計劃”完成,生物醫(yī)學(xué)研究開始進入“后基因組時代”。伴隨著對基因組、轉(zhuǎn)錄組、蛋白組及代謝組等組學(xué)的深入研究,人們在微觀的分子層面對生命科學(xué)有了系統(tǒng)化的認知[1]。近10年來,隨著各種高通量組學(xué)技術(shù)的快速發(fā)展,基因組、表觀遺傳組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組、微生物組、相互作用組等組學(xué)數(shù)據(jù)正以前所未有的速度進行累積,如何高效分析解讀這些組學(xué)背后的科學(xué)規(guī)律,從而在微觀層面更加全面地認識生物體的分子機理,成為生物醫(yī)學(xué)研究領(lǐng)域的一個重要課題[2]。特別值得注意的是,為了深入測量并描述生物體的行為和功能,表型組學(xué)近年應(yīng)運而生。表型組是指生物體從微觀(分子、細胞)到宏觀(器官、組織、生物體),從胚胎發(fā)育到出生、生長、衰老及死亡過程中,由基因與環(huán)境以及二者互相作用產(chǎn)生的所有形態(tài)、功能、行為等方面的生物學(xué)性狀集合[3]。從表型組的定義可以知道,其涵蓋了時間(生物體從出生到死亡的過程)和空間(分子、細胞、器官、組織、生物體)兩個方面的信息。在表型組研究中,對生物體的物理表型(體質(zhì)、影像)、化學(xué)表型(基因、蛋白質(zhì)、轉(zhuǎn)錄組、代謝物、免疫因子等)以及生物表型(如肺功能、心功能和認知功能等)進行從宏觀到微觀的測量和分析,從而系統(tǒng)反映生物體在時間和空間兩個維度上的動態(tài)變化過程[4]。由于表型組數(shù)據(jù)涵蓋兩個維度信息,刻畫了從分子到生物體不同層次特性,同時包含文本、圖片、影像等不同模式的數(shù)據(jù),因而具有高維度、跨層次、多模態(tài)的特征。各類組學(xué)技術(shù)的蓬勃發(fā)展推動了生物醫(yī)學(xué)領(lǐng)域研究進入數(shù)據(jù)密集型科研新范式時期,從而為領(lǐng)域的發(fā)展帶來了挑戰(zhàn)和機遇。在大數(shù)據(jù)時代,面對數(shù)據(jù)密集型科研新范式,生物信息學(xué)研究人員需要在傳統(tǒng)的計算生物學(xué)方法中引入云計算、區(qū)塊鏈、人工智能等前沿信息技術(shù)(information technology, IT),支撐這種科研新范式的實踐,進而高效解讀海量不同維度、不同層次的生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù),實現(xiàn)領(lǐng)域大數(shù)據(jù)的匯聚研究[5]。在此基礎(chǔ)上,如果能夠構(gòu)建數(shù)據(jù)密集型科研新范式的支撐系統(tǒng),則可以幫助科學(xué)家和臨床醫(yī)生從系統(tǒng)的層面上通過數(shù)據(jù)密集型的計算分析和計算實驗,深度挖掘和發(fā)現(xiàn)大數(shù)據(jù)背后的價值,理解多維數(shù)據(jù)背后的科學(xué)規(guī)律,從而有力支持生物醫(yī)學(xué)問題的基礎(chǔ)研究和轉(zhuǎn)化研究工作。本文將首先對云計算、區(qū)塊鏈、人工智能等前沿信息技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用進行描述,然后對數(shù)據(jù)密集型科研新范式支撐環(huán)境的構(gòu)建提出展望。
云計算(cloud computing)是分布式計算的一種,指的是通過網(wǎng)絡(luò)“云”將巨大的數(shù)據(jù)計算處理程序分解成無數(shù)個小程序,然后通過多部服務(wù)器組成的系統(tǒng)進行處理和分析這些小程序得到結(jié)果并返回給用戶。與傳統(tǒng)的本地計算技術(shù)相比,云計算技術(shù)具有以下優(yōu)點:
(1)擴展性好:相比于傳統(tǒng)的服務(wù)器計算,云計算能夠快速地對應(yīng)用進行動態(tài)擴展。云計算可根據(jù)用戶不同的應(yīng)用搭配不同的計算資源和存儲資源,進行細粒度的資源部署,從而提高資源的使用效率。
(2)兼容性高:目前市場上大多數(shù)IT資源、軟、硬件都支持虛擬化,因此云計算的兼容性非常強,能夠?qū)Σ煌阅艿臋C器進行統(tǒng)一管理配置,從而提高服務(wù)效率。
(3)可靠性高:由于云計算對各種計算資源進行統(tǒng)一的管理配置,因此單點服務(wù)器故障不會影響整個系統(tǒng)對外提供服務(wù),因而比傳統(tǒng)的本地服務(wù)器計算具有更高的可靠性。
(4)性價比高:將資源放在虛擬資源池中統(tǒng)一管理一定程度上優(yōu)化了物理資源,用戶不再需要昂貴的、存儲空間大的主機,而是可選擇相對廉價的計算資源統(tǒng)一組成云并擁有不遜于大型主機的性能,因此具有良好的性價比。
面對生物醫(yī)學(xué)大數(shù)據(jù)的快速增長,云計算的優(yōu)點使其成為生物醫(yī)療領(lǐng)域計算生物學(xué)工作的必然選擇。目前,云計算技術(shù)已經(jīng)在許多生物醫(yī)學(xué)基礎(chǔ)研究和應(yīng)用研究中進行使用,并取得了良好的效果(表1)。Fischer等[6]構(gòu)建了基于云計算技術(shù)的全外顯子測序數(shù)據(jù)分析流程,為罕見遺傳疾病的機理研究提供了有效支撐。Samuel等[7]搭建了一個跨平臺訪問的云計算資源池,為微生物組學(xué)數(shù)據(jù)分析提供了便利。Ben等[8]構(gòu)建了一款基于云計算技術(shù)的SNP (single nucleotide polymorphism)識別工具,該工具可以高效地從人類基因組測序數(shù)據(jù)中識別SNP信息。Guo等[9]使用云計算技術(shù),構(gòu)建了高效的宏基因組測序數(shù)據(jù)從頭拼接軟件,為宏基因組測序數(shù)據(jù)的解讀提供了解決方案。美國國立生物技術(shù)研究中心NCBI (National Center for Biotechnology Information)推出了基于Google云和亞馬遜云的BLAST+版本(https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=CloudBlast),有效滿足了超大規(guī)模的生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)的序列比對的需求。美國Broad研究中心推出了基于Google 云的GATK4套裝軟件(https://gatk.broadinstitute.org/),從而為從大規(guī)模的基因組測序數(shù)據(jù)中識別胚系突變(germline mutation)和體細胞突變(somatic mutation)提供了解決方案。近年,筆者基于云計算技術(shù)建立了智慧多組學(xué)數(shù)據(jù)分析系統(tǒng)(https://aicloud.biosino. org/casmap)。該系統(tǒng)能夠?qū)蚪M、轉(zhuǎn)錄組、表觀遺傳組、微生物組、代謝組等多種生命組學(xué)大數(shù)據(jù)進行自動化分析。該系統(tǒng)與傳統(tǒng)的分析系統(tǒng)相比,具有以下優(yōu)點:(1)方便的數(shù)據(jù)分析,系統(tǒng)為多種組學(xué)數(shù)據(jù)的分析流程提供了可視化的操作界面,取代繁瑣的命令行模式,零編程經(jīng)驗用戶也可以通過簡單的鼠標操作完成專業(yè)的組學(xué)數(shù)據(jù)分析。用戶在系統(tǒng)中可以一鍵運行各種組學(xué)分析流程,并獲得分析結(jié)果報告,并可以把報告中圖表用于后續(xù)的論文發(fā)表。(2)可靠的數(shù)據(jù)挖掘,系統(tǒng)的后端存儲了500GB+ 的生命科學(xué)專業(yè)注釋數(shù)據(jù),幫助用戶在開展組學(xué)數(shù)據(jù)分析時獲得更為可靠的結(jié)果。系統(tǒng)中的分析流程全部根據(jù)高影響因子的SCI論文分析過程進行研發(fā),確保數(shù)據(jù)挖掘的先進性,精準解讀數(shù)據(jù)背后的意義。(3)高效的數(shù)據(jù)處理,系統(tǒng)基于云計算技術(shù)進行開發(fā),能夠彈性地應(yīng)對用戶的少量、中量、海量數(shù)據(jù)分析需求,極大的提高了分析效率,減少了數(shù)據(jù)處理時間,幫助用戶高效快速地對各類生命組學(xué)數(shù)據(jù)進行深入解讀。
區(qū)塊鏈作為近年來的一項新興技術(shù),它具有去中心化、可追溯、不可偽造、公開透明等屬性。區(qū)塊鏈本質(zhì)上是一個分布式數(shù)據(jù)庫,采用去中心化和去信任的途徑構(gòu)建可信任的網(wǎng)絡(luò)。狹義來講,區(qū)塊鏈是一種按照時間順序?qū)?shù)據(jù)區(qū)塊以順序相連的方式組合成的一種鏈式數(shù)據(jù)結(jié)構(gòu),并以密碼學(xué)方式保證不可篡改和不可偽造的分布式賬本。廣義來講,區(qū)塊鏈技術(shù)是利用塊鏈式數(shù)據(jù)結(jié)構(gòu)來驗證與存儲數(shù)據(jù)、用分布式節(jié)點共識算法來生成和更新數(shù)據(jù)、利用密碼學(xué)的方式保證數(shù)據(jù)傳輸和訪問的安全、利用智能合約來編程和操作數(shù)據(jù)的一種全新的分布式基礎(chǔ)架構(gòu)與計算范式。區(qū)塊鏈是由節(jié)點參與的分布式數(shù)據(jù)庫系統(tǒng),眾節(jié)點形成點對點的網(wǎng)絡(luò),沒有中心化設(shè)備和管理機構(gòu),它不需要第三方信任背書。
表1 云計算技術(shù)在生物醫(yī)學(xué)大數(shù)據(jù)中的典型應(yīng)用
目前,阻礙生物醫(yī)學(xué)大數(shù)據(jù)廣泛應(yīng)用的一個主要問題是數(shù)據(jù)孤島化。由于利益分配機制不明、隱私泄露風險、倫理法規(guī)約束等,大部分醫(yī)療領(lǐng)域的研究人員在實驗數(shù)據(jù)和臨床數(shù)據(jù)共享方面往往猶豫不決。因此,在生物醫(yī)療領(lǐng)域迫切需要建立安全、互利的數(shù)據(jù)共享機制,從而使數(shù)據(jù)通過流通與匯聚釋放價值,推進生物醫(yī)藥產(chǎn)業(yè)的創(chuàng)新發(fā)展[10]。區(qū)塊鏈技術(shù)的去中心化、可追溯、不可偽造、公開透明等屬性賦予該技術(shù)應(yīng)用于生物醫(yī)療領(lǐng)域數(shù)據(jù)管理共享的能力。Fan等[11]通過區(qū)塊鏈技術(shù)構(gòu)建了電子病歷共享系統(tǒng),該系統(tǒng)在包含病人隱私的同時提供了病歷的脫敏共享,有效促進了醫(yī)療信息流通。Jin等[12]基于區(qū)塊鏈技術(shù)搭建了個人基因組共享系統(tǒng),為基因組數(shù)據(jù)共享提供了一個技術(shù)案例。美國哈佛大學(xué)的Church等[13]提出通過區(qū)塊鏈技術(shù)來管理和共享個人基因組數(shù)據(jù),將大大加速基因組研究和產(chǎn)業(yè)應(yīng)用,具有良好的科學(xué)價值和社會經(jīng)濟價值。近年,筆者和合作伙伴一起構(gòu)建了基于區(qū)塊鏈技術(shù)和隱私安全計算技術(shù)的智能數(shù)據(jù)共享分析系統(tǒng)(https:// platform.sdap.biosino.org/),為醫(yī)療領(lǐng)域的數(shù)據(jù)共享提供了一站式的解決方案。該分析系統(tǒng)具有以下技術(shù)優(yōu)點:(1)使用區(qū)塊鏈技術(shù)構(gòu)建靈活的多方數(shù)據(jù)共享模塊, 智能合約觸發(fā)數(shù)據(jù)的確權(quán)和授權(quán)過程,分布式賬本對數(shù)據(jù)的加載和消費情況進行記錄和追溯,解決數(shù)據(jù)共享的信任問題;(2)使用隱私計算技術(shù)構(gòu)建安全的多方數(shù)據(jù)分析模塊,數(shù)據(jù)分析在沙箱內(nèi)進行,不分享原始數(shù)據(jù), 分享數(shù)據(jù)的價值;(3)使用部分中心化+多節(jié)點分布式的技術(shù)構(gòu)建智能多方數(shù)據(jù)存儲模塊,分布式的存儲方案不僅保證原始數(shù)據(jù)的安全,同時也避免了大規(guī)模數(shù)據(jù)在不同用戶間傳輸過程,大大提高了數(shù)據(jù)分析效率。
人工智能是研發(fā)模擬、延伸、擴展人類智慧的理論、方法及技術(shù)的一門新興學(xué)科,近年成為信息科學(xué)發(fā)展的一個重要研究方向[14,15]。利用人工智能技術(shù)建立符合生物醫(yī)學(xué)大數(shù)據(jù)特征的數(shù)據(jù)庫、算法及計算環(huán)境,正廣泛深入生命科學(xué)的各個領(lǐng)域。人工智能技術(shù)廣泛且深入的融入生物醫(yī)學(xué)研究是目前生命科學(xué)發(fā)展的一個重要趨勢。一方面,人工智能能夠從海量的生物異質(zhì)大數(shù)據(jù)中發(fā)現(xiàn)人類大腦無法分析、無法理解的數(shù)據(jù)結(jié)構(gòu),捕捉到人類無法意識到的生物學(xué)特征。另一方面,人工智能所應(yīng)用的計算方法既可以模擬人類思考的特點,也可以完全擺脫人類的傳統(tǒng)思考模式。利用這樣的類腦方法來研究生命科學(xué),可以更有效地處理生命現(xiàn)象的極端復(fù)雜性,使得研究更接近生命的本質(zhì)。所以,人工智能技術(shù)可以幫助生物醫(yī)學(xué)領(lǐng)域研究實現(xiàn)關(guān)鍵的實質(zhì)性突破,革新生物醫(yī)學(xué)研究的現(xiàn)有范式,拓展生物醫(yī)學(xué)研究的范圍,有助于闡明生物醫(yī)學(xué)領(lǐng)域大量懸而未決的基本問題。
目前,人工智能技術(shù)已在生物醫(yī)學(xué)研究的多個方向進行了應(yīng)用和探索,在眾多復(fù)雜的研究場景中都有新的發(fā)現(xiàn):
(1)在分子細胞機理研究方面,基于人工智能技術(shù)中的深度學(xué)習方法可以建立高效的分子相互作用預(yù)測模型,進而幫助科學(xué)家解讀復(fù)雜的生物過程背后的分子規(guī)律。例如,近年來,深度學(xué)習模型的快速發(fā)展與廣泛應(yīng)用有助于刻畫細胞內(nèi)基因的時空表達和順式–反式調(diào)控[16],蛋白–蛋白相互作用[17],蛋白–代謝小分子相互作用[18],細胞間的通訊[19]等生物過程機理。
(2)在生命組學(xué)數(shù)據(jù)分析方面,基于自然語言和人工智能邏輯的組學(xué)數(shù)據(jù)分析平臺DrBioRight,為下一代組學(xué)分析范式提供了五個特征示范[20]:(i)準確識別不具有專門技術(shù)性知識的用戶所提出的分析請求;(ii)幫助用戶探索和理解與任務(wù)相關(guān)的組學(xué)數(shù)據(jù)和分析結(jié)果;(iii)通過穩(wěn)定用戶群的貢獻保持對組學(xué)數(shù)據(jù)和分析方法的及時更新;(iv)經(jīng)由用戶對分析質(zhì)量的反饋不斷修正和更新平臺性能;(v)與智能移動平臺和社交媒體實現(xiàn)良好匹配,為分析流程增加更多的靈活性。
(3)在生物醫(yī)學(xué)知識圖譜發(fā)展方面,基于監(jiān)督的深度學(xué)習策略,關(guān)系抽取模型能夠在不依賴于人工標注數(shù)據(jù)的情況下應(yīng)用到各種生物醫(yī)學(xué)關(guān)系抽取場景當中,可從千萬篇科研文獻中挖掘理解藥物、靶點、病毒、副作用等等生物醫(yī)學(xué)實體之間相互作用規(guī)律的生物醫(yī)學(xué)實體關(guān)系網(wǎng)絡(luò),進而通過抽取出的提示性信息指導(dǎo)實驗驗證;例如通過查找文獻支持來驗證針對“非典”或“中東呼吸綜合征”的老藥新用策略的可行性,及其針對“新冠病毒”的有效性[21]。
(4)在生物模型算法發(fā)展方面,scDEC使用一組生成對抗網(wǎng)絡(luò)將高維單細胞數(shù)據(jù)映射到低維隱空間,在低維空間進行聚類分析,再使用另一組生成對抗網(wǎng)絡(luò)將低維數(shù)據(jù)映射回高維空間, 從而為在單細胞數(shù)據(jù)分析提供集數(shù)據(jù)降維、生成與細胞聚類于一體的智能算法[22]。基于卷積神經(jīng)網(wǎng)絡(luò)算法的人工智能模型可在大量臨床影像數(shù)據(jù)基礎(chǔ)上進行學(xué)習訓(xùn)練臨床診斷模型,從而輔助臨床醫(yī)生實現(xiàn)對患者的高準確率診斷[23]。人工智能技術(shù)與計算物理、量子化學(xué)、分子動力學(xué)等技術(shù)的結(jié)合,將有助于提高藥物發(fā)現(xiàn)與發(fā)展這一關(guān)鍵環(huán)節(jié)的效率與成功率,從而降低新藥研發(fā)成本,為新藥研發(fā)帶來了新的發(fā)展動力[24]。
現(xiàn)代生物醫(yī)學(xué)研究的目標之一是在分子、細胞、組織、器官等層面上解析生物體外在表型所對應(yīng)的內(nèi)在組成形式及其相互作用規(guī)律。由于生命體系的高度復(fù)雜和精準調(diào)控特性,以生物化學(xué)、分子生物學(xué)等學(xué)科為代表的現(xiàn)代生物醫(yī)學(xué)研究發(fā)展了幾十年后,遇到了重大的瓶頸?,F(xiàn)代生物醫(yī)學(xué)研究的重點突破,需要對研究技術(shù)和研究模式進行根本性的變革。近年來,隨著以高通量組學(xué)檢測技術(shù)為代表的生物技術(shù)(biological technology, BT)的成熟與發(fā)展,以及以云計算、區(qū)塊鏈、人工智能為代表的前沿信息技術(shù)的發(fā)展,建立融合BT&IT技術(shù)的新型研究方案和科研新范式,將是打破現(xiàn)代生物醫(yī)學(xué)研究瓶頸,推動生物醫(yī)學(xué)研究跨越式發(fā)展的必由之路。
面對數(shù)據(jù)密集型科研新范式的需求,構(gòu)建一個融合BT&IT技術(shù),界面友好、安全可靠、用戶充分可及的生物醫(yī)學(xué)大數(shù)據(jù)操作系統(tǒng),進而建立密集型科研新范式的應(yīng)用支撐環(huán)境,可以非常有效地幫助生命科學(xué)研究人員方便地實現(xiàn)生物醫(yī)學(xué)大數(shù)據(jù)的獲取、交互共享、智能化調(diào)度、多維深度展示、高性能計算和深度挖掘分析等各類科學(xué)實驗活動,進而加速生物醫(yī)學(xué)大數(shù)據(jù)整合,融匯和貫通各類高維多層次復(fù)雜數(shù)據(jù),推動數(shù)據(jù)共享和充分利用,實現(xiàn)生物醫(yī)學(xué)大數(shù)據(jù)的匯聚研究,推動生物醫(yī)學(xué)研究獲得革命性進展。
[1] Goodwin S, McPherson JD, McCombie WR. Coming of age: ten years of next-generation sequencing technologies.,2016, 17(6): 333–351.
[2] Nimrod R, Ron S. Multi-omic and multi-view clustering algorithms: review and cancer benchmark., 2018, 46(20): 10546–10562.
[3] Houle D, Govindaraju DR, Omholt S. Phenomics: the next challenge., 2010, 11(12): 855–866.
[4] Brown SDM, Holmes CC, Mallon AM, Meehan TF, Smedley D, Wells S. High-throughput mouse phenomics for characterizing mammalian gene function.,2018, 19(6): 357–370.
[5] Milicchio F, Rose R, Bian J, Min J, Prosperi M. Visual programming for next-generation sequencing data analytics.,2016, 9:16.
[6] Fischer M, Snajder R, Pabinger S, Dander A, Schossig A, Zschocke J, Trajanoski Z, Stocker G. SIMPLEX: cloud-enabled pipeline for the comprehensive analysis of exome sequencing data.,2012, 7(8): e41948.
[7] Angiuoli SV, Matalka M, Gussman A, Galens K, Vangala M, Riley DR, Arze C, White JR, White O, Fricke WF. CloVR: a virtual machine for automated and portable sequence analysis from the desktop usingcloud computing., 2011, 12:356.
[8] Langmead B, Schatz MC, Lin J, Pop M, Salzberg SL. Searching for SNPs with cloud computing., 2009, 10(11): R134.
[9] Guo X, Yu N, Ding XJ, Wang JX, Pan Y. DIME: a novel framework for de novo metagenomic sequence assembly., 2015, 22(2): 159–177.
[10] Byrd JB, Greene AC, Prasad DV, Jiang XQ, Greene CS.Responsible, practical genomic data sharing that accelerates research.,2020, 21(10): 615–629.
[11] Fan K, Wang S, Ren Y, Li H, Yang Y. MedBlock: efficient and secure medical data sharing via blockchain., 2018, 42(8): 136.
[12] Jin XL, Zhang M, Zhou ZY, Yu XY. Application of a blockchain platform to manage and secure personal genomic data: a case study of LifeCODE.ai in China.,2019, 21(9): e13587.
[13] Zhavoronkov A, Church G. The advent of human life data economics.,2019. 25(7): 566–570.
[14] Wu F, Lu CW, Zhu MJ, Chen H, Zhu J, Yu K, Li L, Li M, Chen QF, Li X, Cao XD, Wang ZY, Zha ZJ, Zhuang YT, Pan YH. Towards a new generation of artificial intelligence in China., 2020, 2(6): 312–316.
[15] Zhao XT, Yang YD, Qu HZ, Fang XD. Applications of machine learning in clinical decision support in the omic era., 2018, 40(9): 693–703.
趙學(xué)彤, 楊亞東, 渠鴻竹, 方向東. 組學(xué)時代下機器學(xué)習方法在臨床決策支持中的應(yīng)用. 遺傳, 2018, 40(9): 693–703.
[16] Alexandra Maslova, Ricardo N. Ramirez, Ke Ma, Hugo Schmutz, Chendi Wang, Curtis Fox, Bernard Ng, Christophe Benoist, Sara Mostafavi. Deep learning of immune cell differentiation., 2020, 117(41): 25655–25666.
[17] Ethan C. Alley, Grigory Khimulya, Surojit Biswas, Mohammed AlQuraishi, George M. Church. Unified rational protein engineering with sequence-based deep representation learning., 2019, 16(12): 1315–1322.
[18] Morton JT, Aksenov AA, Nothias LF, Foulds JR, Quinn RA, Badri MH, Swenson TL, Van Goethem MW, Northen TR, Vazquez-Baeza Y, Wang M, Bokulich NA, Watters A, Song SJ, Bonneau R, Dorrestein PC, Knight R. Learning representations of microbe–metabolite interactions., 2019, 16(12): 1306–1314.
[19] Shao X, Lu XY, Liao J, Chen HJ, Fan XH. New avenues for systematically inferring cell-cell communication: through single-cell transcriptomics data., 2020, 11(12): 866–880.
[20] Li J, Chen H, Wang YM, May Chen MJ, Liang H. Next- generation analytics for omics data.2021, 39(1): 3–6.
[21] Hong LX, Lin JJ, Li SY, Wan FP, Yang H, Jiang T, Zhao D, Zeng JY. A novel machine learning framework for automated biomedical relation extraction from large-scale literature repositories., 2020, 2(6): 347– 355.
[22] Liu Q, Chen SQ, Jiang R, Wong WH. Simultaneous deep generative modeling and clustering of single cell genomic data.,2021, 3(6): 536–544.
[23] Esteva A, Kuprel B, Novoa RA, Ko J, Swetter SM, Blau HM, Thrun S. Dermatologist-level classification of skin cancer with deep neural networks.,2017, 542(7639): 115–118.
[24] Jing YK, Bian YM, Hu ZH, Wang LR, Xie XQ. Deep learning for drug design: an artificial intelligence paradigm for drug discovery in the big data era., 2018, 20(3): 58.
Application and prospect of cutting-edge information technology in biomedical big data
Guangyong Zheng1, Tao Zeng1, Yixue Li1,2,3,4
In recent years, with the development of various high-throughput omics based biological technologies (BT), biomedical research began to enter the era of big data. In the face of high-dimensional, multi-domain and multi-modal biomedical big data, scientific research requires a new paradigm of data intensive scientific research. The vigorous development of cutting-edge information technologies (IT) such as cloud computing, blockchain and artificial intelligence provides technical means for the practice of this new research paradigm. Here,we describe the application of such cutting-edge information technologies in biomedical big data, and propose a forward-looking prospect for the construction of a new paradigm supporting environment for data intensive scientific research. We expect to establish a new research scheme and new scientific research paradigm integrating BT & IT technology, which can finally promote the great leap forward development of biomedical research.
omics; cloud computing; blockchain; artificial intelligence; new paradigm of data intensive scientific research
2021-05-31;
2021-09-16
中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項課題(編號:XDB38050200)資助[Surpported by the Strategic Priority Research Program of Chinese Academy of Sciences (No. XDB38050200)]
鄭廣勇,副研究員,研究方向:生物信息學(xué)。E-mail: gyzheng@picb.ac.cn
李亦學(xué),教授,研究方向:生物信息學(xué)。E-mail: yxli@sibs.ac.cn
10.16288/j.yczz.21-192
2021/9/27 12:05:04
URI: https://kns.cnki.net/kcms/detail/11.1913.R.20210926.1702.002.html
(責任編委: 方向東)