編譯 槳篤繪
鼠痘于20世紀(jì)30年代被人類首度發(fā)現(xiàn),是一種烈性傳染病,能在老鼠群體內(nèi)傳播且對它們高度致命,不過科學(xué)家長期以來從未將其視為人類的潛在威脅。然而,現(xiàn)在的情況似乎有所不同。美國喬治城大學(xué)生物學(xué)家科林·卡爾森(Colin Carlson)博士和他的同事——以及他們計(jì)算機(jī)上的病毒預(yù)測模型——發(fā)現(xiàn)鼠痘病毒并不簡單。
過去幾年,卡爾森等人嘗試通過機(jī)器學(xué)習(xí),對計(jì)算機(jī)進(jìn)行編程,令其能夠自主學(xué)習(xí)認(rèn)知病毒,預(yù)測可能感染傷害人類的微生物。他們的計(jì)算機(jī)梳理了大量關(guān)于這些病原體動物宿主的生物學(xué)和生態(tài)學(xué)信息,以及病毒自身的基因組等特征。隨著時間的推移,機(jī)器開始認(rèn)識到某些因素有助于預(yù)測病毒是否有可能蔓延到人類身上。
美國喬治城大學(xué)的生物學(xué)家科林·卡爾森一直在對計(jì)算機(jī)進(jìn)行編程以促使其自學(xué)病毒知識
當(dāng)算法確認(rèn)了某種已知病毒的跨物種傳播風(fēng)險,卡爾森和同事就會將其列入“風(fēng)險名單”。在近期的工作中,算法出人意料地將鼠痘病毒放到了危險病原體名單的前列。
用卡爾森的話說:“我們每次運(yùn)行AI模型,都會認(rèn)為它有著很大的威脅?!?/p>
卡爾森等人通過文獻(xiàn)發(fā)現(xiàn)了一場暴發(fā)于1987年中國農(nóng)村的疫情。那次疫情令很多學(xué)齡兒童感染并出現(xiàn)喉嚨痛和手腳發(fā)炎的癥狀,但此后一直被人遺忘。直到幾十年后,一組科學(xué)家對疫情期間收集保存的咽拭子樣本進(jìn)行測試,發(fā)現(xiàn)其中含有鼠痘病毒DNA。然而他們的這項(xiàng)工作雖于2012年發(fā)表,卻幾乎沒有引發(fā)關(guān)注。如果卡爾森等人編寫的計(jì)算機(jī)程序預(yù)測準(zhǔn)確,鼠痘病毒就需要被重新審視。
科學(xué)界已經(jīng)確定了大約250種由動物病毒跨物種傳播而引起的人類疾病,例如來自黑猩猩的HIV引發(fā)艾滋病,由蝙蝠攜帶的SARS最終導(dǎo)致非典。
在科學(xué)家看來,理想的情況是在某個病毒溢出至人類以前就認(rèn)出它來,但病毒學(xué)家所需要研究的動物病毒太多了,到目前已有1 000多種來自哺乳動物的病毒被學(xué)界確認(rèn),而且此數(shù)據(jù)很可能還不到真實(shí)數(shù)目的百分之一——部分研究者推測哺乳動物攜帶數(shù)以萬計(jì)的病毒,另一些學(xué)者則懷疑這個數(shù)目高達(dá)幾十萬。
卡爾森博士的合作對象、疾病生態(tài)學(xué)家芭芭拉·韓
為識別潛在的新溢出效應(yīng),包括卡爾森博士在內(nèi)的不少專家都在使用計(jì)算機(jī)尋找隱藏于科學(xué)數(shù)據(jù)中的模式。
卡爾森博士的合作對象、美國卡里生態(tài)系統(tǒng)研究所的疾病生態(tài)學(xué)家芭芭拉·韓(Barbara Han)表示:“AI模型就像研究者的另一雙眼睛,幫我們看到原本看不到的維度?!?/p>
韓博士第一次接觸機(jī)器學(xué)習(xí)是在2010年。計(jì)算機(jī)科學(xué)家?guī)资陙硪恢敝铝τ陂_發(fā)此項(xiàng)技術(shù),并嘗試?yán)盟鼧?gòu)建強(qiáng)大工具。如今,機(jī)器學(xué)習(xí)已經(jīng)使得計(jì)算機(jī)能夠發(fā)現(xiàn)欺詐性信貸以及識別人臉,但很少有人將機(jī)器學(xué)習(xí)應(yīng)用于疾病預(yù)判。韓博士想知道可否用它來回答某些懸而未決的生物學(xué)問題,例如為什么不到10%的嚙齒動物物種攜帶著已知能感染人類的病原體。
她向計(jì)算機(jī)輸入有關(guān)嚙齒類動物的信息(從斷奶年齡到種群密度),然后機(jī)器就瞄準(zhǔn)那些已知攜帶大量跨物種病原體的嚙齒動物,尋找它們身上不同于其他鼠類的特征。
一旦計(jì)算機(jī)創(chuàng)建了一個模型,韓博士就可以把它用在動物身上,以測試其準(zhǔn)確度,看看它給出的危險鼠類名單是否符合真實(shí)情況。最終,她發(fā)現(xiàn)AI模型的準(zhǔn)確率高達(dá)90%。
接著,韓博士和同事轉(zhuǎn)向嚙齒動物身上尚未被發(fā)現(xiàn)向人類溢出的病原體,借助模型列出了一份高風(fēng)險物種名單,其中北美西部的山地田鼠(Montane Vole)和北部食蝗鼠等物種極有可能是高危病原體的攜帶者。
在研究人員向計(jì)算機(jī)提供的所有特征中,最重要的是嚙齒動物的壽命。短壽物種往往攜帶更多病原體,這可能是因?yàn)樗鼈兊难莼瘎恿⒏噘Y源用于繁殖而非建立強(qiáng)大免疫系統(tǒng)。
韓博士等人在研究過程中梳理了生態(tài)數(shù)據(jù)庫和學(xué)術(shù)文獻(xiàn),以尋找有用數(shù)據(jù)。最近,一些學(xué)者創(chuàng)建了專門用于給計(jì)算機(jī)傳授病毒方面知識的數(shù)據(jù)庫。
2022年3月,卡爾森博士和同事公布了一個名為VIRION的開放存取數(shù)據(jù)庫,該庫目前已收集50萬條有關(guān)9 521種病毒及其3 692種動物宿主的信息,并且還在不斷擴(kuò)增庫存。
像VIRION這樣的數(shù)據(jù)庫現(xiàn)可就新型流行病提出更具針對性的問題。當(dāng)新冠病毒來襲時,卡爾森博士、韓博士和他們的同事創(chuàng)建了計(jì)算機(jī)程序,用以識別最有可能攜帶SARS-CoV-2相關(guān)病毒的動物。
SARS-CoV-2屬于β冠狀病毒屬。這個家族還包括SARS和MERS病毒。大多數(shù)情況下,β冠狀病毒會感染蝙蝠——2020年1月人類首次發(fā)現(xiàn)新冠病毒之時,已知有79種蝙蝠是β冠狀病毒的攜帶者。但科學(xué)家們還沒系統(tǒng)性地對全部(1 447種)蝙蝠開展搜索工作以尋找它們身上的β冠狀病毒蹤跡(此類項(xiàng)目需要數(shù)年方可完成)。
通過將各種蝙蝠的生物學(xué)數(shù)據(jù)(包括飲食和翅膀長度等)輸入計(jì)算機(jī),卡爾森博士、韓博士和他們的同事創(chuàng)建了一個模型,可預(yù)測哪些蝙蝠最有可能包藏β冠狀病毒。他們借助模型發(fā)現(xiàn)了超過300種滿足“藏毒”條件的蝙蝠。
自2020年開始預(yù)測至今,研究人員總共確認(rèn)了47種攜帶β冠狀病毒的蝙蝠——這47種全部位列該AI預(yù)測名單。
美國俄克拉荷馬大學(xué)的疾病生態(tài)學(xué)家丹尼爾·貝克爾(Daniel Becker)也參與了β冠狀病毒研究,用他的話說:“基于體型之類的簡單特征就可實(shí)現(xiàn)對病毒的高效預(yù)測,這樣的預(yù)測工具真的令人震驚?!?/p>
需要指出的是,如果專家確實(shí)發(fā)現(xiàn)了某個危險目標(biāo),他不能即刻宣稱它對人類構(gòu)成迫在眉睫的威脅。研究團(tuán)隊(duì)必須先進(jìn)行大量實(shí)驗(yàn)來確認(rèn)。
加州大學(xué)戴維斯分校的流行病學(xué)家普拉納夫·潘迪特(Pranav Pandit)博士指出,這些AI模型在很大程度上仍是一項(xiàng)正在探索的工作,還不夠完善,它們的預(yù)測比隨機(jī)選擇更優(yōu),但顯然可以更優(yōu)?!艾F(xiàn)在還不是可以大膽相信和發(fā)布此類預(yù)測結(jié)果的時候,我們還不能根據(jù)計(jì)算機(jī)的答案告知全世界,這是一種從動物傳至人類的病毒?!?/p>
英國格拉斯哥大學(xué)計(jì)算病毒學(xué)家納爾杜斯·莫倫策(Nardus Mollentze)和同事開創(chuàng)了一種可顯著提高模型準(zhǔn)確度的方法。他們的模型并不著眼于病毒的宿主,而關(guān)注它的基因。計(jì)算機(jī)經(jīng)深度學(xué)習(xí)后掌握了洞察病毒基因的方法。對于那些可能感染人類的危險病原體,AI知道怎么找出其基因中的細(xì)微特征。
北部食蝗鼠是韓博士團(tuán)隊(duì)預(yù)測的一種攜帶危險病原體的物種
莫倫策等人的模型在超過70%的時間里都展現(xiàn)出準(zhǔn)確識別危險病毒的能力。他們目前還無法闡清這個基于基因的模型如此優(yōu)秀的原因,但也已略有頭緒:人體細(xì)胞可以識別外來基因并向免疫系統(tǒng)發(fā)出警報,而能感染人體細(xì)胞的病毒或許具備模仿人類DNA以實(shí)現(xiàn)偽裝的能力。
當(dāng)莫倫策和同事將模型應(yīng)用于動物病毒后,他們列出了272個具有高溢出風(fēng)險的種類。這個數(shù)目對病毒學(xué)家而言太多了,他們做不到深入研究近三百種病原體。美國落基山實(shí)驗(yàn)室(RML)的病毒學(xué)家艾米·德威特(Emmie de Wit)負(fù)責(zé)監(jiān)督關(guān)于SARS-CoV-2、流感及其他病毒的研究。用他的話說,“我們真的需要縮小范圍”。
莫倫策博士也承認(rèn),他們需要找到一種確定最危險病毒的方法,“這只是一個開始”。
莫倫策正在與卡爾森等人合作,嘗試將病毒基因的數(shù)據(jù),以及病毒宿主的生物學(xué)和生態(tài)學(xué)相關(guān)數(shù)據(jù)合并起來。他們通過此方法獲得了一些不錯的結(jié)果,其中包括鼠痘病毒的跨物種風(fēng)險。
其他類型的數(shù)據(jù)也可能提高預(yù)測準(zhǔn)確度。例如,病毒最重要的特征之一是其表面包裹的糖分子。不同病毒有著不同的“糖被”模式。有的病毒可以利用糖被來躲避宿主的免疫系統(tǒng),有的則能借助糖分子鎖定新細(xì)胞,引發(fā)新感染。
近期,卡爾森等人發(fā)表評論稱,機(jī)器學(xué)習(xí)可能會從病毒及其宿主細(xì)胞的糖被處獲得很多見解??茖W(xué)家已經(jīng)掌握了大量相關(guān)知識,但尚未將其轉(zhuǎn)化成可用于機(jī)器學(xué)習(xí)的形式。
德威特博士表示,“機(jī)器學(xué)習(xí)模型有朝一日可以指導(dǎo)像她這樣的病毒學(xué)家研究動物病毒,它必能令我們受益無窮”。但德威特也指出,迄今為止的模型主要集中于病原體感染人體細(xì)胞的可能性,而在引發(fā)新的人類疾病之前,病毒還必須實(shí)現(xiàn)人與人之間的傳播,且能引起嚴(yán)重病癥——她等待著能設(shè)計(jì)出這方面預(yù)測的新一代模型。“我們真正想預(yù)測的,不一定是哪些病毒會感染人類,而是哪些病毒會引發(fā)疫情。”
資料來源 The New York Times