李亞玲,包芊穎,黃成鳳
1.之江實驗室發(fā)展戰(zhàn)略與合作中心,浙江 杭州 3111212;2.之江實驗室智能社會治理實驗室 (浙江省哲學社會科學試點實驗室),浙江 杭州 311121)
科研范式是科技創(chuàng)新的基本理論和方法,是特定歷史時期科學共同體進行科學研究的方式,與科技創(chuàng)新的內(nèi)在規(guī)律要求相適應[1]。傳統(tǒng)科研范式經(jīng)歷了以下四個階段的演化發(fā)展歷程[2]:第一階段為經(jīng)驗范式,主要通過實驗描述自然現(xiàn)象;第二階段為理論范式,主要通過模型或歸納法進行科學研究;第三階段為計算范式,是指使用計算機進行仿真模擬來解決各個學科中的問題;第四階段為數(shù)據(jù)范式,也稱為數(shù)據(jù)密集型科學,是指通過大數(shù)據(jù)分析研究事物內(nèi)在的因果關系和相關關系,從而得到結論。在科學發(fā)展的特定時期,通常由一種范式主導。隨著主導范式被廣泛接受和長期應用,往往會出現(xiàn)當前范式難以解釋的科學發(fā)現(xiàn)。當主導范式難以解決的問題逐漸積累到引發(fā)質(zhì)變時,新的科研范式呼之欲出,并逐漸取代舊范式[3]??蒲蟹妒桨l(fā)生變革時新舊范式更迭,從而推動科學理論實現(xiàn)跨越式發(fā)展。科研范式的轉(zhuǎn)換往往伴隨著科學革命,即科學技術的核心理論發(fā)生全局性、根本性、顛覆性變革。新的概念、理論取代原有的概念和理論,用來指導科學實踐,進而引發(fā)社會生活領域的革命性改變。
隨著人工智能技術和現(xiàn)代科學的發(fā)展,人工智能技術在科學研究中的應用逐漸進入爆發(fā)期。背后推動契機既包括原有科研范式發(fā)展瓶頸積累的需求,也得益于人工智能在數(shù)據(jù)、算法和算力基礎設施上的全面突破。
其一,需求基礎。原有科研范式難以解決數(shù)據(jù)爆炸背景下的科學問題求解,隨著數(shù)據(jù)量的增長,數(shù)據(jù)不確定性、數(shù)據(jù)復雜性、數(shù)據(jù)維度爆炸、數(shù)據(jù)尺度邊界等問題日益突出。上述困境亟需智能技術的引入,將人的決策與機器智能相融合,從而有效結合數(shù)據(jù)科學和計算智能,形成廣泛的人機協(xié)同決策機制。
其二,數(shù)據(jù)基礎。隨著科研管理的數(shù)字化轉(zhuǎn)型,科研數(shù)據(jù)的積累初具規(guī)模,在部分領域形成了可供智能技術分析和應用的科研大數(shù)據(jù)集。以生物學為例,開源蛋白結構數(shù)據(jù)庫 (Protein Data Bank,PDB)中包含20.3萬個蛋白結構和106.8萬個計算模型;病毒基因數(shù)據(jù)庫GISAID中已包含超過1660萬個病毒基因組序列 (截至2024年3月12日);ZINC化合物數(shù)據(jù)庫包含14億個分子。
其三,算法基礎。人工智能技術在以ChatGPT為代表的大型自然語言處理模型領域的技術爆發(fā),給科研工作提供了新的輔助工具。例如,目前已出現(xiàn)基于ChatGPT的論文自動閱讀和重點提煉工具、科技論文潤色、實驗流程設計等輔助工具。
其四,算力基礎。隨著集成電路產(chǎn)業(yè)的迅速發(fā)展,芯片先進制造技術在不斷突破,過去數(shù)十年來,CPU的性能按照摩爾定律逐漸逼近物理極限。GPU、TPU等新型計算芯片層出不窮,高性能GPU成為構建大規(guī)模生成式預訓練模型的重要基礎設施,為人工智能技術的進一步應用提供了基礎條件。
數(shù)字時代開啟以來,以深度學習為代表的智能技術為科學研究帶來了新的方法和通用工具,正驅(qū)動科研范式發(fā)生新的變革。例如,AlphaFold 2模型成功預測了98.5%的人類蛋白質(zhì)結構,具有原子級準確度,與復雜結構生物學實驗的結果相媲美;DeePMD-kit模型結合機器學習、高性能計算和物理建模,在保持高精度的同時將分子動力學推向10億個原子的極限;FourCastNet模型基于新型算子學習的神經(jīng)網(wǎng)絡結構,將天氣預報提速了45000倍。上述實踐表明,人工智能技術能夠顯著加速科學發(fā)現(xiàn)和科技創(chuàng)新的過程,但其具體作用機制仍不清晰。為了闡明智能技術驅(qū)動科研范式變革的具體機制和路徑,國內(nèi)外學者展開了一些研究。孫蒙鴿等[4]提出科學研究的 “第五范式”,將人的決策與數(shù)據(jù)分析相融合,從而結合數(shù)據(jù)科學和計算智能。胡志剛等[5]提出將商業(yè)智能技術引入科研管理,以賦能科技政策的制定和科研事務管理。張?zhí)m等[6]提出智能科研助手的概念,用于科技信息深度挖掘、學科知識拓展發(fā)現(xiàn)、科研假設輔助生成、科研實驗智能控制、研究成果智能整合,以提高科研效能。Berens等[7]提出人工智能技術對科研范式的變革潛力源于其跨學科的通用性,通過融合智能技術和領域?qū)I(yè)知識實現(xiàn)人機協(xié)作。Van Dis 等[8]探討了ChatGPT對科學研究的賦能方式,并提出確保ChatGPT被負責任地使用的若干舉措。Berdejo-Espinola等[9]指出,人工智能技術提供了高質(zhì)量、易觸達的科研工具,如英語編輯工具,從而有助于促進科學公平??傮w而言,現(xiàn)有研究多集中于科研數(shù)字化層次,聚焦科研流程的特定環(huán)節(jié),或局限于特定學科技術層面的綜述研究,人工智能技術驅(qū)動科研范式變革的具體機制和路徑仍有待闡明和提出。
人工智能技術驅(qū)動科研范式變革的具體路徑主要有三個層面,一是通過重塑知識生產(chǎn)過程,加速知識產(chǎn)生的速度;二是通過再造科學研究的工作流程,提高科研流程的效率;三是通過加速交叉融合創(chuàng)新,激發(fā)創(chuàng)新活力。
隨著機器學習、深度學習、知識圖譜等一系列關于知識工程的技術或算法的出現(xiàn),智能技術逐漸被用于知識發(fā)現(xiàn)和生產(chǎn)過程。智能算法從大量數(shù)據(jù)集中學習形成知識或是由機器感知外部環(huán)境獲取數(shù)據(jù)來發(fā)現(xiàn)知識,逐漸顛覆了人類傳統(tǒng)知識創(chuàng)造依靠經(jīng)驗、認知乃至直覺的方式。在數(shù)據(jù)與技術的雙重推動下,知識生產(chǎn)主體和知識生產(chǎn)方式都發(fā)生了巨大變化。
在知識生產(chǎn)主體層面,知識生產(chǎn)主體不再限于人類,呈現(xiàn)人、智能機器和人機協(xié)同三者共生的形態(tài)。智能機器延展了知識生產(chǎn)的視野,使得知識生產(chǎn)主體不再局限于科學界精英所組成的科學共同體,甚至不限于人類,而是擴展到機器。人類不再是唯一的知識生產(chǎn)和擁有者,智能機器也具有同樣的能力。例如,麻省理工學院的研究團隊完全依靠深度學習網(wǎng)絡,從超過 1.07 億種分子中識別出強大的新型抗生素分子halicin,可對抗多種細菌[10]。DeepMind團隊的最新研究成果表明,人工智能可以用于協(xié)助數(shù)學家發(fā)現(xiàn)數(shù)學研究前沿的定理和猜想[11],甚至能夠通過強化學習從頭開始發(fā)現(xiàn)增強的排序算法[12]。
在知識生產(chǎn)方式層面,從依靠推理和感知獲取知識轉(zhuǎn)變?yōu)橹悄芗夹g支撐下的大數(shù)據(jù)知識發(fā)現(xiàn)與生產(chǎn)方式。傳統(tǒng)的知識生產(chǎn)方式一般有以下三種:一是演繹法,由人腦的演繹和綜合推理獲得理性知識;二是歸納法,由感知經(jīng)驗歸納和總結形成知識;三是演繹法和歸納法結合,將感知經(jīng)驗作為認知基礎,結合演繹、歸納和類比形成知識。隨著數(shù)字時代的發(fā)展,人類社會已有的知識乃至人類社會化行為都可以被智能技術數(shù)字化、符號化為數(shù)據(jù)表達,并能被智能算法學習和靈活應用。例如,AlphaGO在機器學習算法支持下從預置的大量人類棋手棋局模板中學習圍棋知識,實現(xiàn)了人機較量; “微軟小冰”通過學習人類已經(jīng)廣泛流傳的詩歌、音樂和美術等作品實現(xiàn)藝術創(chuàng)作,甚至舉辦了畫展、出版了個人繪畫作品集。數(shù)據(jù)成為新的知識生產(chǎn)原料,打破了傳統(tǒng)以主觀經(jīng)驗為主導的知識生產(chǎn)局限,走向以客觀數(shù)據(jù)為主導的規(guī)律探索與知識發(fā)現(xiàn)方式。智能技術參與知識生產(chǎn),加速了群智協(xié)同的分布式知識創(chuàng)造進程。人工智能的介入使得知識生產(chǎn)得以自動化,知識 “生成”的速度和效率均獲得極大提升。
新時代的科學研究離不開人工智能的輔助,人工智能將成為繼計算機之后的新生產(chǎn)工具,帶來效率的顯著提升。人工智能伴隨科研的全流程,從假設、實驗到歸納總結,有效提高了科研工作效率,大大縮短了科研流程 (見表1)。
表1 人工智能賦能科研工作流程的三大環(huán)節(jié)
一是實驗設計環(huán)節(jié)。在文獻查找環(huán)節(jié),人工智能可用于文獻自動查找和摘要抽取,從而大幅節(jié)省文獻閱讀時間。通過對文獻主題分布、學者合作網(wǎng)絡的深度分析,可以進一步把握特定領域的研究熱點,以輔助科研工作者確定研究方向。以ChatGPT為例,通過與ChatGPT的對話,科學家可以得到關于實驗設計的新穎想法及潛在問題的預測,甚至可以在設計過程中發(fā)現(xiàn)之前未考慮的因素,這將有助于科學家更好地提出科學假設,規(guī)劃實驗并提高實驗的效率和準確性。此外,在實驗方案設計環(huán)節(jié),人工智能可用于輔助設計實驗方案,確定實驗參數(shù)和實驗變量。
二是數(shù)據(jù)分析環(huán)節(jié)??茖W研究往往涉及大量的數(shù)據(jù)收集和分析,隨著分析測試工具的進步,科研數(shù)據(jù)的規(guī)模已達到人力分析難以企及的體量。例如,目前全球新冠病毒基因數(shù)據(jù)庫GISAID已積累了超過1660萬個新冠病毒基因組序列,而單個新冠病毒基因組又包含約3萬個核苷酸序列。人工智能可以作為一種數(shù)據(jù)分析工具,輔助科學家處理龐大、復雜的科學數(shù)據(jù),對數(shù)據(jù)進行標注、去噪等精加工處理,發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的隱藏趨勢和規(guī)律,從中獲得新的發(fā)現(xiàn)和見解。此外,在部分數(shù)據(jù)稀缺的領域,人工智能還可用于生成訓練數(shù)據(jù),以彌補訓練數(shù)據(jù)的不足。人工智能還可用于自動生成數(shù)據(jù)分析代碼,提供數(shù)據(jù)分析的方法和技巧,間接作用于數(shù)據(jù)分析過程。
三是成果形成環(huán)節(jié)。人工智能可用于輔助論文寫作、論文潤色修改、科研繪圖等領域。有研究表明,人工智能技術為非英語母語的科研工作者提供了高質(zhì)量、易觸達的英語編輯工具,從而有助于促進科學公平[9]。人工智能技術還可用于科研成果的分發(fā)和精準推送,從而幫助科研工作者及時接受領域?qū)W術熱點,促進學術交流和成果傳播。在學術出版領域,人工智能能夠重構學術出版流程,實現(xiàn)選題策劃便捷化、編輯出版自動化、生產(chǎn)印刷按需化、營銷發(fā)行精準化,進而加速整個學術傳播過程[13]。
當今,受自然、技術和人類社會等相關聯(lián)的系統(tǒng)跨時間、跨空間尺度上相互作用的影響,科學問題變得愈加復雜和充滿挑戰(zhàn)。人類面臨的諸多重大問題,如生命健康、能源缺乏、環(huán)境污染等,往往涉及多個學科的交叉融合。亟需開發(fā)新的工具和方法,以分析、揭示和解決上述復雜系統(tǒng)的重要命題。人工智能技術由于具有跨學科的廣泛適用性,是推動跨領域研究的絕佳工具。通過匯集人工智能和其他領域的專業(yè)知識,將機器知識和領域知識相結合,進而實現(xiàn)交叉學科的技術進步和創(chuàng)新突破。以深度學習為代表的人工智能技術在生物、物理、氣象等領域已展示出巨大的應用潛力,驅(qū)動科研范式發(fā)生新的變革。隨著以ChatGPT為代表的認知智能技術突破,未來人工智能技術對其他研究領域的賦能作用將進一步擴大。人工智能技術對其他研究領域的賦能,同時也是不同學科間交叉融合的過程。人工智能技術的應用有望消除學科間的壁壘,激發(fā)學科交叉領域這一創(chuàng)新 “策源地”。
人工智能技術作為分析高維數(shù)據(jù)的通用技術,其在不同學科領域的應用和滲透速度與領域內(nèi)高質(zhì)量數(shù)據(jù)的積累程度息息相關。在傳統(tǒng)實驗技術和現(xiàn)代先進測序技術的共同作用下,生物學率先在DNA和RNA序列、蛋白質(zhì)結構、小分子結構等領域形成規(guī)??捎^的數(shù)據(jù)集,這些數(shù)據(jù)是人工智能技術尤其是深度學習技術得以應用的最重要基礎。藥物發(fā)現(xiàn),蛋白質(zhì)結構預測以及傳染病的預測、演變和控制這三個領域已初步積累了大量、高質(zhì)量的數(shù)據(jù)集,如ZINC化合物數(shù)據(jù)庫、開源蛋白結構數(shù)據(jù)庫 (PDB)、病毒基因數(shù)據(jù)庫GISAID等,因而成為人工智能技術率先應用的演練場。
藥物發(fā)現(xiàn)通常是個緩慢且昂貴的過程,制造一種小分子藥物平均需要大約15年時間和20億美元。在藥物發(fā)現(xiàn)早期,如果能找到更為快速、便捷的方法,以改善靶點預測、先導化合物優(yōu)化等環(huán)節(jié),是縮短藥物開發(fā)時間和降低開發(fā)成本的重要途徑。隨著結構生物學的發(fā)展、化合物篩選庫的快速增長和新興計算方法的突破,人工智能技術用于藥物發(fā)現(xiàn)過程逐漸成為現(xiàn)實。近年來的最新案例表明,人工智能技術的應用能夠大大加速和改進藥物發(fā)現(xiàn)過程。例如,Exscientia公司開發(fā)了一種用于治療強迫癥的候選藥物 DSP-1181,該藥物使用 AI 方法在構思后不到 12 個月就進入 1 期臨床試驗;Benevolent AI 公司借助生物醫(yī)學知識網(wǎng)絡圖譜分析與識別,確定了一種可能的藥物巴瑞替尼 (Baricitinib),可以抑制COVID-19感染并減少炎癥損傷。
藥物發(fā)現(xiàn)中常用的人工智能算法有多層感知機 (MLP)、卷積神經(jīng)網(wǎng)絡 (CNN)、循環(huán)神經(jīng)網(wǎng)絡 (RNN)、變分自動編碼器 (VAEs)、生成對抗網(wǎng)絡 (GANs)、圖神經(jīng)網(wǎng)絡 (GNNs)、Transformer、強化學習等。通過結合化學信息、生物信息中的大量數(shù)據(jù),上述算法在藥物靶標預測、化合物高通量篩選、化合物性質(zhì)預測、藥物從頭設計、藥物性質(zhì)預測等多個重要環(huán)節(jié)發(fā)揮作用,改變藥物研發(fā)進程,提升藥物研發(fā)效率。
靶點識別是藥物發(fā)現(xiàn)的基礎,傳統(tǒng)的靶點識別過程主要依靠濕實驗,根據(jù)親和力、基因修飾篩選和比較分析來篩選可能的靶點,整個過程耗時、昂貴且充滿風險。識別正確的藥物靶點對于藥物開發(fā)至關重要,人工智能方法可以顯著提高藥物靶點識別的準確率,從而提高藥物開發(fā)效率。例如,Yang等[14]引入深度學習方法用于小分子靶點的預測,新靶點有望指導擴張性心肌病的新療法開發(fā)。
化合物篩選是從大量候選化合物中選擇對特定靶點具有較高化合物的過程,傳統(tǒng)實驗手段涉及大量的人力物力。人工智能方法通過整合已有化合物數(shù)據(jù)庫的信息,預測化合物和靶點結合的有效性,可以提高命中率,降低研發(fā)成本。Singh等[15]提出一種用于藥物-靶標相互作用預測的機器學習方法ConPLex,該方法基于預訓練的蛋白質(zhì)語言模型的信息表示和對比學習思想,實現(xiàn)了對潛在候選藥物的快速篩選。ConPLex的實驗驗證產(chǎn)生了 63% 的命中率 (12/19),證明了 ConPLex 作為一種準確、高度可擴展的計算機篩選工具的價值。Liu等[16]將神經(jīng)網(wǎng)絡用于新窄譜抗生素的發(fā)現(xiàn),以7500個在體外抑制鮑曼不動桿菌 (Acinetobacter baumannii)生長的分子圖結構數(shù)據(jù)集訓練神經(jīng)網(wǎng)絡,預測了一種有可能的先導化合物。進一步實驗結果表明,該先導化合物具有針對鮑曼不動桿菌的靶向活性。Tebon等[17]將生物打印、高速活細胞干涉測量法 (HSLCI)和卷積神經(jīng)網(wǎng)絡相結合,實現(xiàn)了在單類器官分辨率下的藥物篩選。
人工智能方法還可用于預測藥物性質(zhì)。例如,Bannigan等[18]對比了11種不同機器學習算法預測長效注射劑藥物釋放曲線的準確性,結果表明,基于研究中采用的數(shù)據(jù)集,光梯度增強機 (LGBM0)模型的預測準確性最好,該模型有望用于指導新型長效注射劑的設計,以減少藥物開發(fā)相關的時間與成本。已有研究將人工智能方法用于構建藥物發(fā)現(xiàn)的全流程服務平臺,Huang等[19]推出一個開放訪問平臺 (TDC),平臺為藥物開發(fā)的全流程各階段提供了數(shù)據(jù)管理、算法設計及性能評估等集合功能。截至目前,平臺已包含66個數(shù)據(jù)集,任務涵蓋靶點識別、互補位和表位預測、分子生成、藥物反應和協(xié)同預測等。除此之外,人工智能方法也已用于指導藥物合成和生產(chǎn)。例如,ANGELLO等[20]設計了一個機器學習輔助通用性工作流程,用于指導有機小分子的自動化合成,利用數(shù)據(jù)引導矩陣向下選擇、不確定性最小化機器學習和機器人實驗來改善反應條件,在實際應用中取得了產(chǎn)量翻倍的效果。
總之,人工智能在藥物發(fā)現(xiàn)中最具價值的應用可能在于對傳統(tǒng)濕實驗環(huán)節(jié)的部分替代和優(yōu)化,從而大幅降低藥物研發(fā)的成本和時間,為市場價值較小的藥物如 “孤兒藥”研發(fā)提供更多方案。
蛋白質(zhì)由20種天然氨基酸組成,并通過原子間相互作用形成穩(wěn)定的三維構象。蛋白質(zhì)結構復雜,同時執(zhí)行著精密的功能。根據(jù)蛋白質(zhì)的氨基酸序列來準確測定蛋白質(zhì)的三維結構,對理解其功能非常重要。由于蛋白質(zhì)折疊方式的可能性過多,以及細胞內(nèi)微環(huán)境復雜,蛋白質(zhì)三維結構的預測一直是生物學領域長期存在的挑戰(zhàn)。傳統(tǒng)的結構預測方法如晶體衍射、核磁共振、冷凍電鏡等存在耗時長、計算復雜、成功率低等缺點。早在20世紀70年代,科學家就開始嘗試建立計算機模型以預測給定的蛋白質(zhì)如何折疊,但只能局限于較小的蛋白質(zhì)分子或部分短片段。人工智能技術可以從同家族蛋白的演化關系中學習并預測殘基間的相互作用關系,對于蛋白質(zhì)結構預測領域起到非常關鍵的作用。隨著人工智能技術的應用,蛋白質(zhì)結構預測的效率和準確率得以大幅提升。
近年來,蛋白質(zhì)結構預測的重大突破源于谷歌旗下DeepMind的AlphaFold系列模型[21-22]。2018年,AlphaFold被首次提出,并在CASP13中排名第一,其準確度比上一年度的最佳水平提升了50%。2020年,改進版本AlphaFold2以巨大優(yōu)勢贏得CASP14,其預測精確度達到原子級別,中值誤差小于1埃,與實驗方法相當。隨后,DeepMind與歐洲分子生物學實驗室合作推出了AlphaFold DB數(shù)據(jù)庫,將蛋白質(zhì)結構預測數(shù)據(jù)量擴展到超過2億個,涉及約100萬個物種,幾乎涵蓋了地球上所有已知蛋白質(zhì),這一突破將為生物醫(yī)學領域的基礎科學帶來全新革命。從技術上看,AlphaFold本質(zhì)上是一個幾何深度學習模型,其核心思想是對氨基酸與氨基酸在空間上的幾何聯(lián)系進行建模,進而預測蛋白質(zhì)在空間上的三維結構。該模型將原子半徑、化學鍵角度等因素納入考慮,并放棄了傳統(tǒng)算法的線性接近性原則,更加注重氨基酸的三維關系。此外,該模型在計算過程中能夠不斷調(diào)整以避免早期錯誤的積累,從而逐步完善結構預測結果。研究人員采用14萬PDB序列以及35萬個序列/結構對,作為訓練數(shù)據(jù)對模型進行了訓練,以提高其預測準確度。盡管AlphaFold模型的預測精度已達到較高水平,但仍存在一些局限性。例如,它提供的是蛋白質(zhì)分子的靜態(tài)圖片,無法對蛋白質(zhì)結構的動態(tài)變化情況進行建模,或是模擬蛋白質(zhì)與其他分子間的相互作用。此外,從頭開始設計全新的蛋白質(zhì)來完成特定的任務仍充滿挑戰(zhàn)。
除了DeepMind團隊在蛋白質(zhì)結構預測方面的進展外,華盛頓大學David Baker研究團隊一直深耕蛋白質(zhì)結構預測和生成研究。Baker團隊最早采取的是能量方程路線,基于蛋白質(zhì)的生物物理特性,將序列設計視為能量優(yōu)化問題,尋找對于給定輸入結構具有最低能量的氨基酸特性和構象的組合。隨著氨基酸數(shù)量和種類增加,計算復雜程度會顯著上升,因而局限性明顯。2021年7月,Baker團隊開發(fā)出一種 “三軌”神經(jīng)網(wǎng)絡RoseTTAFold[23],能在十幾分鐘內(nèi)解析給定蛋白質(zhì)序列的三維結構。這種架構采用三軌注意力機制,同時考慮了一維氨基酸序列、二維氨基酸殘基—殘基距離和方向以及三維原子坐標信息,三個維度間的信息能夠互相交流,使得神經(jīng)網(wǎng)絡能夠綜合所有信息,推理出蛋白質(zhì)的化學部分與其折疊結構之間的關系。盡管RoseTTAFold模型在CASP14中的表現(xiàn)略遜色于AlphaFold2,但仍是迄今為止最準確的蛋白質(zhì)結構預測算法之一 。RoseTTAFold有力推動了蛋白結構預測模型的免費和全開源,并探索了蛋白結構預測在輔助實驗蛋白結構測定、致病突變位點和功能位點預測、蛋白-蛋白復合物結構預測等領域的拓展應用。
除了蛋白結構預測外,Baker團隊在蛋白質(zhì)的從頭設計領域也做了一系列探索。2022年9月,Baker 團隊將深度學習引入蛋白質(zhì)設計,發(fā)布了深度學習算法 ProteinMPNN,可根據(jù)給出的蛋白質(zhì)三維結構在幾秒鐘內(nèi)快速 “逆推”出可能的氨基酸序列[24]。已有研究表明,在天然蛋白質(zhì)骨架上,ProteinMPNN 的序列恢復率達到52.4% (Rosetta為32.9%)。除了大幅提高的準確率外,相比以前的工具,ProteinMPNN只需要用戶輸入少量信息,速度提升了 200 多倍。在最新的研究中,Baker 研究團隊又將強化學習引入蛋白質(zhì)復合體的從頭設計中。通過開發(fā)一種 “自上而下”的基于強化學習的蛋白質(zhì)復合體設計策略[25],從最終蛋白質(zhì)復合體的結構和功能入手,反向推出構成復合體的亞基應該具有什么樣的結構特征,再根據(jù)這些特征去設計蛋白亞基,為疫苗設計和藥物開發(fā)帶來了新的突破。
總之,以AlphaFold2為代表的人工智能方法在蛋白結構預測領域的突破對生物醫(yī)學及相關領域產(chǎn)生了巨大影響。通過應用人工智能方法,研究人員可以重新設計具備特定功能的蛋白質(zhì),對藥物設計、基因治療、疫苗開發(fā)、酶工程等應用領域影響深遠。
2019年末新冠病毒疫情暴發(fā)以來,已在全球造成數(shù)億人感染和數(shù)百萬人死亡。人工智能技術在疫情預測、演變和控制中發(fā)揮著不可替代的作用,主要包括以下四個方面。
一是識別和預測病毒新譜系,為疫苗設計和藥物開發(fā)提供參考。SARS-CoV-2大流行以具有更高適應度的病毒新譜系出現(xiàn)驅(qū)動疫情反復暴發(fā)為特點,因此,快速識別新譜系并準確預測其動態(tài),對于制定疫情應對策略至關重要。通過引入人工智能算法,可以預測出未來可能會占據(jù)主導地位的變異毒株,以及可能會發(fā)生變異的病毒基因位點。Fritz Obermeyer等[26]開發(fā)了一種貝葉斯分層回歸模型PyR0,可以推斷一定地理區(qū)域內(nèi)所有病毒譜系的相對流行率,檢測流行率增加的譜系,并識別與適應性相關的突變。研究表明,PyR0模型能提供早期預警,并幫助識別值得關注的變異株 (VoC),從而為公共衛(wèi)生政策的制定和疫苗開發(fā)提供參考。
二是疫情局部暴發(fā)風險監(jiān)測。隨著測序成本的降低、準確性的提高以及測序儀器變得更加便攜,實時病毒監(jiān)測和分子流行病學將成為應對傳染病的重要工具。Ward等[27]采用空間集成長短期記憶算法 (SI-LSTM),為決策者提供COVID-19在部分地區(qū)局部暴發(fā)的早期指標監(jiān)測框架,并在小空間尺度上預測SARS-CoV-2病毒傳播和臨床風險,以指導疫情應對和流行病管理。該方法結合一系列高分辨空間數(shù)據(jù),如Google Trends術語相對搜索量、谷歌移動數(shù)據(jù)、電信移動數(shù)據(jù)、國家衛(wèi)生服務119呼叫數(shù)據(jù)和網(wǎng)站測試數(shù)據(jù),能夠在評估的時間段內(nèi)準確識別一個月或更長時間的熱點位置,準確度超過99%。
三是輔助疾病快速診斷和臨床風險評估。在新冠疫情防控期間,醫(yī)療資源不足的情況在國內(nèi)外均有發(fā)生。因而,疾病的快速診斷對于實施分級診療、優(yōu)化醫(yī)療資源分配尤為重要。人工智能技術主要用于CT、X光、病理組織等醫(yī)學圖像識別領域,用于輔助疾病快速診斷。Jin等[28]提出一種基于胸部CT圖像快速檢測COVID-19的深度卷積神經(jīng)網(wǎng)絡算法,在包含COVID-19在內(nèi)的五種疾病的多分類診斷任務中AUC達到97.81%,在CC-CCII和MosMedData兩個公開數(shù)據(jù)集上的AUC更是高達92.99%和93.25%。預測住院人數(shù)或者住院率對于國家或區(qū)域?qū)用娴尼t(yī)療資源分配具有指導意義。在臨床風險預測方面,Gao等[29]引入統(tǒng)計力學中用于估計晶格位點自旋構型的Ising動力學,提出一種深度學習時空預測模型HOIST,用來準確預測COVID-19大流行期間的住院人數(shù)。由于模型結合了美國各地保險索賠信息、人口普查信息、醫(yī)療資源使用信息等數(shù)據(jù),因而具有更好的可解釋性。模型預測結果表明,將疫苗接種率提高10%可以使當前全域住院病例數(shù)平均減少15%;加強農(nóng)村地區(qū)的疫苗接種推廣工作有利于顯著減輕政府的醫(yī)療財政負擔。
四是指導疫情防控措施的制定。預先了解哪些人群需要重點關注,對于針對性地制定恰當?shù)姆揽卮胧?、降低疫情傳播風險非常重要。例如,Monod等[30]的研究表明,2020年美國COVID-19疫情卷土重來與20—49歲年齡段人口的流動息息相關。由此建議在新型、高傳播性SARS-CoV-2譜系尚未建立的地區(qū),對20—49歲的人口進行額外干預,以減少疫情傳播風險。疫情措施的制定還需要考慮到防控措施對經(jīng)濟社會的影響,與防疫效果之間的平衡。因此,需要考察不同防控措施的有效性,進而尋找對經(jīng)濟社會影響較小同時防控效果較好的防控措施組合。Haug等[31]將人工智能技術用于量化評估79個國家或地區(qū)實施的非藥物干預措施 (NPI)對降低SARS-CoV-2病毒傳播風險的影響,以預測其有效性。研究結果表明,適當?shù)姆撬幬锔深A措施組合可以有效遏制病毒傳播,減輕對醫(yī)療衛(wèi)生系統(tǒng)的壓力。最有效的非藥物干預措施包括宵禁、封鎖、限制聚集等,風險溝通策略、對弱勢群體的援助和支持計劃等侵入性較小、成本較高的干預措施也同樣有效。這些研究結果可為政府選擇非藥物干預措施的種類和時機提供參考。
通過對人工智能技術在生物學中的三個典型領域,即藥物發(fā)現(xiàn),蛋白質(zhì)結構預測以及傳染病的預測、演變和控制的應用梳理,可以進一步總結得到人工智能技術驅(qū)動生物學科研范式變革的機制。從總體路線來說,傳統(tǒng)方法采取的是自下而上的解決思路。當變量較少、科學問題復雜度較低時,這種思路便于根據(jù)第一性原理構建求解方程,計算量可控,可以較為順利地解決問題。然而,生物領域的科學問題往往是涉及眾多層次和維度的復雜問題,求解復雜度隨著數(shù)據(jù)維度出現(xiàn)指數(shù)式上升,傳統(tǒng)實驗和計算方法求解對資源的需求量已遠超現(xiàn)實可及范圍。在數(shù)據(jù)驅(qū)動的人工智能方法下,解決問題的思路通常是自上而下的,可以將高維空間的問題通過降維、近似后實現(xiàn)求解,能夠?qū)ふ业脚c現(xiàn)實問題直接相關的影響因素,從而形成解決科學問題的新范式 (見圖1)。從具體機制而言,可以總結為以下三個方面。
圖1 傳統(tǒng)方法與人工智能方法解決科學問題的路線對比
一是輔助驗證科學假設,節(jié)省迭代成本。傳統(tǒng)的科學假設往往依靠研究者通過提出猜想、生成假設、設計實驗、實驗驗證或推翻假設的過程來不斷迭代,直到形成符合實驗結果和科學規(guī)律的初步發(fā)現(xiàn)。這一過程往往涉及大量的濕實驗環(huán)節(jié),需要耗費大量的時間和精力。經(jīng)過模擬訓練的人工智能算法對于分析和預測分子結構、蛋白結構以及基因序列非常高效,能夠大大簡化假設驗證過程,使其更具成本效益和時間效益。例如,AlphaFold系列算法對蛋白質(zhì)結構的高效、準確預測,可大大節(jié)省蛋白質(zhì)相關領域的研究進度,使研究者得以關注更多有待解決的難題。
二是融合多維度數(shù)據(jù),提出科學新發(fā)現(xiàn)、新觀點。傳統(tǒng)的科學研究往往僅涉及同類數(shù)據(jù)的分析和處理,但科學發(fā)現(xiàn)和科學規(guī)律往往隱藏在不同維度的數(shù)據(jù)或數(shù)據(jù)關聯(lián)中。例如,在預測疫情傳播趨勢時,需要結合不同來源的數(shù)據(jù)進行分析,從而實現(xiàn)對多空間尺度疫情暴發(fā)風險指標的預測。人工智能技術可以通過將不同來源的數(shù)據(jù)轉(zhuǎn)化為向量表示,進而學習數(shù)據(jù)內(nèi)在的關聯(lián),形成有意義的數(shù)據(jù)表示。相對而言,機器學習算法更適用于處理特征明確、規(guī)律簡單的數(shù)據(jù),而深度學習算法卻可以用于處理規(guī)模龐大、內(nèi)在規(guī)律未知的數(shù)據(jù)。2006年深度學習算法的突破,以及2017年Transformer架構的提出,使得人工智能技術取得了長足發(fā)展,并得以在不同領域?qū)崿F(xiàn)應用上的突破。
三是作為輔助科研工具,提高科研全流程效率。除了在實驗設計和數(shù)據(jù)分析環(huán)節(jié)的應用外,人工智能技術作為通用的辦公工具,可以賦能文獻檢索、文獻管理、文獻追蹤、論文寫作、論文潤色、科研繪圖等諸多領域,從而實現(xiàn)科研全流程的效率提升。
盡管人工智能在藥物發(fā)現(xiàn)、蛋白結構預測、傳染病防控等領域獲得了多個重大突破,正引發(fā)生物學領域研究手段和研究方式的變革。但在具體應用過程中,仍存在高質(zhì)量數(shù)據(jù)集缺乏、隱私泄露、模型可解釋性差等風險,阻礙了人工智能技術在生物學領域的進一步滲透和應用。
目前,在生物種類、空間和時間維度上對生物系統(tǒng)進行綜合測量的高質(zhì)量共享數(shù)據(jù)集較為缺乏。盡管已有部分細分領域建立起了開放、共享的數(shù)據(jù)集,但仍有相當多的細分領域可用的高質(zhì)量數(shù)據(jù)集非常缺乏。例如,蛋白質(zhì)相互作用的可靠數(shù)據(jù)較難獲得,這種結果往往給科學研究帶來以下挑戰(zhàn)。一方面,可用數(shù)據(jù)量較少時會對研究手段和方法產(chǎn)生限制。當只有少量數(shù)據(jù) (數(shù)百或數(shù)千個示例)可用時,研究者往往只能被迫采用更為傳統(tǒng)的機器學習方法,以產(chǎn)生可靠的預測。當可用數(shù)據(jù)的數(shù)量較多時,研究者可以考慮更高參數(shù)化的模型,如深度神經(jīng)網(wǎng)絡。另一方面,數(shù)據(jù)質(zhì)量不一、注釋信息缺失導致數(shù)據(jù)可用性較差,有必要形成數(shù)據(jù)收集和治理的統(tǒng)一標準和框架以提高數(shù)據(jù)的可用性??傊?,大型、高質(zhì)量、可用于對生物學中的人工智能應用進行基準測試的高質(zhì)量參考數(shù)據(jù)集至關重要。通過透明的數(shù)據(jù)共享,有利于形成共創(chuàng)共享的研究生態(tài),不同國家和地區(qū)的研究者可利用共享數(shù)據(jù)用于建立假設、驗證理論和技術分享。
在生物學研究中采用的數(shù)據(jù)多涉及個體的基本信息、生物醫(yī)學特征等敏感信息。例如,人類基因組數(shù)據(jù)和商業(yè)敏感的藥物數(shù)據(jù)均包含個人隱私信息。自歐盟 《通用數(shù)據(jù)保護條例》出臺以來,生物醫(yī)學數(shù)據(jù)中的隱私保護問題愈加凸顯。在數(shù)據(jù)挖掘和分析過程中的隱私泄露問題將會給生物學發(fā)展帶來風險和隱患,并對科學研究的社會公信產(chǎn)生沖擊。目前,已有一些技術手段可在確保數(shù)據(jù)安全的前提下開展數(shù)據(jù)共享和機器學習模型的分布式訓練,如聯(lián)邦學習算法等,也可以通過創(chuàng)建真實的合成數(shù)據(jù)集的方式來規(guī)避隱私問題。該合成數(shù)據(jù)集包含原始數(shù)據(jù)集的復雜性特征,如分布、非線性關系和噪聲,但剔除了患者信息,從而避免識別個人身份。
模型的可解釋性是指模型結果推理過程能夠被人類理解的程度。科學研究中采用的人工智能算法多為數(shù)據(jù)驅(qū)動的算法,主要采用深度神經(jīng)網(wǎng)絡技術,算法核心部分是通過對數(shù)據(jù)進行自動學習而自動生成,難以人為干預,具備很強的黑箱屬性。在大多數(shù)情況下,研究中采用的深度學習模型無法解釋其生物學意義,其模型預測結果很難讓傳統(tǒng)的實驗科學家信服。相比于精確建模而言,生物學家往往對模型的具體輸出機制和影響因素更加感興趣。例如,模型具體響應輸入數(shù)據(jù)的哪些特征、如何響應,以及為什么模型在某些情況下有效,但在另一些情況下無效。由于模型中往往存在大量輸入特征和參數(shù),對其具體機制進行解釋顯得十分困難。此外,缺乏可解釋性也使得模型在測試數(shù)據(jù)上表現(xiàn)不佳時難以進行故障排除。為了解決上述問題,可以在構建模型時采用事后解釋技術。此外,基于圖的神經(jīng)網(wǎng)絡也可以提高深度學習模型的可解釋性。
展望未來,人工智能技術有望在生物學領域的應用將持續(xù)不斷深入,驅(qū)動智能生物學不斷發(fā)展。具體而言,有以下兩個發(fā)展方向。一是人工智能驅(qū)動的生物知識挖掘。目前研究者主要通過文獻搜索、篩選和數(shù)據(jù)搜集來確定研究方向和關注領域。隨著已發(fā)表文獻和數(shù)據(jù)量的持續(xù)增長,這種以人工為主導的過程變得越來越難以持續(xù)。未來,人工智能技術驅(qū)動的數(shù)據(jù)生成和分析模式將有望改善這個問題,賦予生物學領域?qū)<抑R的定制版ChatGPT將成為能夠挖掘已知和預測生物學知識的下一代搜索引擎。二是多模態(tài)生成式預訓練大模型在藥物發(fā)現(xiàn)、蛋白預測等領域的深度應用。生物學領域的數(shù)據(jù)往往是多模態(tài)、異構性的,多種數(shù)據(jù)模式有望提供互補視角,使得模型預測結果更加可靠。未來,如何將多樣化、異構的生物數(shù)據(jù)和多模態(tài)生成式預訓練大模型相結合,將是智能生物學的一個重點發(fā)展方向。