編譯 劉迪一
過去幾年,英國樸次茅斯大學(xué)酶創(chuàng)新中心主任、生物學(xué)家約翰?麥吉漢(John McGeehan)一直在尋找一種能夠分解散落于全球各地的總計1.5億噸汽水瓶以及其他塑料垃圾的分子。通過與大西洋兩岸的研究人員合作,麥吉漢找到了一些不錯的對象,但他需要搞定難度極大的任務(wù):確定那些能扭曲折疊自身形狀、完美進入塑料分子間,然后將它們分開的化合物。
目前,精準分析某種酶的化學(xué)成分是相當(dāng)簡單的,但判斷其三維形狀可能需要長達數(shù)年的實驗分析。因此,當(dāng)麥吉漢博士于2020年秋天了解到倫敦一家名為DeepMind的AI實驗室已經(jīng)創(chuàng)建了一個可以自動預(yù)測酶及其他蛋白質(zhì)形狀的系統(tǒng)后,他詢問該實驗室能否給他的項目提供幫助。
麥吉漢在臨近周末時向DeepMind發(fā)送了一份包含7種酶的清單。短短幾天后,實驗室就返回了全部蛋白質(zhì)的結(jié)構(gòu)。用麥吉漢博士的話說:“這讓我們的工作進度提前了一兩年?!保溂獫h后來得知AlphaFold實際上只用了幾個小時便完成了任務(wù)。)
眼下,許多生物化學(xué)家都在以和麥吉漢差不多的方式加快自己工作。科羅拉多大學(xué)生物化學(xué)系教授馬塞洛?蘇薩(Marcelo C. Sousa)此前曾在自己的工作中使用過AlphaFold的數(shù)據(jù),在他看來,新數(shù)據(jù)庫絕對會讓使用者體會到立竿見影的科研助力。“我們自己有一套關(guān)于某種蛋白質(zhì)的數(shù)據(jù)集,而且這個蛋白質(zhì)已經(jīng)被我們研究了10年,但已有的內(nèi)容達不到開發(fā)合適模型的程度。DeepMind同意為我們預(yù)測這個蛋白質(zhì)的結(jié)構(gòu),然后用15分鐘的時間解決了我們花費10年還沒搞定的問題。”
2021年7月,DeepMind發(fā)布了超過35萬種蛋白質(zhì)的預(yù)測結(jié)構(gòu)——它們是驅(qū)動細菌、病毒以及包括人類在內(nèi)所有生物行為的微觀機制。DeepMind新推出的這個超大數(shù)據(jù)庫包括了人類基因組表達的全部蛋白質(zhì)的三維結(jié)構(gòu),以及出現(xiàn)在20種其他生物體(包括小鼠、果蠅和大腸桿菌)內(nèi)的蛋白質(zhì)的三維結(jié)構(gòu)。
這張龐大而細致的生物圖譜提供了大約25萬個以往我們不知道的蛋白質(zhì)結(jié)構(gòu),有望幫助我們更好地解析疾病、開發(fā)新藥以及重新利用現(xiàn)有藥物;它還可能催生新型生物工具,例如某種能有效分解塑料瓶并將其轉(zhuǎn)化為易于回收和重復(fù)使用材料的酶。
紐約大學(xué)細胞生物學(xué)系助理教授吉拉?巴巴(Gira Bhabha)表示:“這讓你的工作更超前,影響你思考問題的方式,助你更快解決問題。無論你研究神經(jīng)科學(xué)還是免疫學(xué),無論你身處生物學(xué)中的哪個領(lǐng)域,它都會很有用。”
科學(xué)家如果能判斷蛋白質(zhì)的形狀,也就可以確定其他分子如何與其結(jié)合。例如,細菌抵御抗生素的機制或許會就此得以揭示,因為細菌是通過表達特定蛋白質(zhì)來抵抗抗生素的。倘若科學(xué)家能搞清楚這些蛋白質(zhì)的形狀,他們就可以開發(fā)出新的抗生素或抵抗細菌耐藥性的藥物。
過去,確定蛋白質(zhì)的形狀需要數(shù)月、數(shù)年甚至數(shù)十年的反復(fù)試驗,對X射線、顯微鏡和實驗室工作臺上的多種工具的大量調(diào)用,但眼下DeepMind借助其AlphaFold顯著縮短了時間周期。
當(dāng)麥吉漢博士向DeepMind發(fā)送他的酶清單時,他告訴實驗室自己已經(jīng)確定了其中兩種酶的形狀,但并未告知是哪兩種,其目的就在于測試該系統(tǒng)的預(yù)測準確性,而最終的結(jié)果表明AlphaFold的確實力過硬,預(yù)測無誤。
AlphaFold使用所謂的神經(jīng)網(wǎng)絡(luò)來預(yù)測蛋白質(zhì)結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)是一個數(shù)學(xué)系統(tǒng),能通過分析大量數(shù)據(jù)(例如數(shù)千種已知蛋白質(zhì)的物理形狀)來開展預(yù)測,進而完成特定任務(wù)。這和AI語音識別、人臉識別、谷歌翻譯之類在技術(shù)本質(zhì)上并無不同。不過許多專家相信AlphaFold無疑是技術(shù)的集大成者和最強應(yīng)用之一。
DeepMind的科學(xué)家里奇?埃文斯(Rich Evans)在其公司位于倫敦的辦事處工作
現(xiàn)階段AlphaFold預(yù)測蛋白質(zhì)形狀的精確度在63%左右,可與實驗的準確性相媲美。大多數(shù)專家認為,此技術(shù)還需要數(shù)年時間發(fā)展方可臻于化境。劍橋大學(xué)教授蘭迪?里德(Randy Read)說道:“我認為還需要10年,它會有一個徹底的改變?!?/p>
不過系統(tǒng)的準確性并非一個固定值,相比實打?qū)嵉膶嶒灧治觯瑏碜訢eepMind數(shù)據(jù)庫的預(yù)測往往存在準確度的差異,因此數(shù)據(jù)庫的每個預(yù)測都自帶一個“置信度分數(shù)”,用數(shù)字表明它的可信賴程度。DeepMind 研究人員估計,AlphaFold在約95%的情況下可提供一個“好”預(yù)測。
鑒于此,AlphaFold不能完全替代物理實驗,而是應(yīng)該與實驗工作相互支撐,幫助科學(xué)家確定他們應(yīng)該運行哪些實驗,并在實驗不成功時填補空白。
一些科學(xué)家將DeepMind的新數(shù)據(jù)庫與人類基因組計劃進行了比較。人類基因組計劃于2003年完成了全部測序工作,為我們提供了關(guān)于人類基因的完整圖譜。而現(xiàn)在,DeepMind貢獻了人類基因組表達的大約2萬種蛋白質(zhì)的結(jié)構(gòu),這將幫助我們更好地理解人體運作的機制以及應(yīng)對它所出現(xiàn)的種種復(fù)雜問題。
除了應(yīng)用,技術(shù)本身也將繼續(xù)發(fā)展。華盛頓大學(xué)的研究團隊不久前發(fā)表論文,介紹了他們創(chuàng)建的一個名為RoseTTAFold的系統(tǒng)。這一新系統(tǒng)各方面都不遜色于AlphaFold2,甚至速度更快,對計算機處理能力的需求也更低;此外,它也公開共享驅(qū)動系統(tǒng)的計算機代碼——任何人都能使用此技術(shù),或通過代碼改進它。
英國雷丁大學(xué)教授利亞姆?麥高芬(Liam McGuffin)也曾開發(fā)過一些蛋白質(zhì)折疊軟件,他對AlphaFold的“能力”高度贊賞,但也指出其成功依賴數(shù)十年來的研究成果和公開數(shù)據(jù):“DeepMind擁有大量資源,能讓數(shù)據(jù)庫始終保持最新狀態(tài)。他們比任何一個學(xué)術(shù)團體都更有能力做到這一點。我認為學(xué)術(shù)界的研究人員最終也會趕上DeepMind,但這個過程急不得,因為我們?nèi)鄙僮銐蛸Y源?!?/p>
實際上,在DeepMind這次公開分享其技術(shù)和數(shù)據(jù)之前,AlphaFold 就已廣泛為各種項目提供了支持。科羅拉多大學(xué)的研究人員正使用該技術(shù)了解大腸桿菌和沙門氏菌等細菌對抗生素產(chǎn)生耐藥性的機制,并尋找解決耐藥性問題的方法。加州大學(xué)舊金山分校的研究人員借AlphaFold之力深入探索新冠病毒的奧秘。在AlphaFold的幫助下,科學(xué)家已經(jīng)對其中一種關(guān)鍵蛋白質(zhì)有了全面理解。
蛋白質(zhì)是又長又復(fù)雜的分子,在人體內(nèi)負責(zé)從構(gòu)建組織到對抗疾病的諸多任務(wù)。蛋白質(zhì)像折紙一般折疊成復(fù)雜且不規(guī)則的形狀,而不同的結(jié)構(gòu)決定了它們多樣的功能,因此了解蛋白質(zhì)如何折疊有助于揭示其功能,這反過來又可助力科學(xué)家完成一系列任務(wù):從針對人體運轉(zhuǎn)機制的基礎(chǔ)研究到設(shè)計新型藥物和治療方法。
蛋白質(zhì)尺寸太小,無法用顯微鏡觀察,因此科學(xué)家不得不使用復(fù)雜且成本高昂的方法(例如核磁共振和X射線晶體學(xué))間接確定其結(jié)構(gòu)。從理論上說,通過分析氨基酸組成情況來推測蛋白質(zhì)的空間構(gòu)型是可能的。
氨基酸脫水縮合形成多肽,肽鏈經(jīng)過盤曲折疊形成具有空間結(jié)構(gòu)的蛋白質(zhì)。人體中有20 種不同的氨基酸。由于任一蛋白質(zhì)都可以由數(shù)百個單獨的氨基酸組成,每個氨基酸又能向不同方向折疊扭曲,因此分子可能呈現(xiàn)的空間構(gòu)型的數(shù)目極為龐大,達到10300。這使得通過分析氨基酸組成情況來推測蛋白質(zhì)的空間構(gòu)型停留于理論。那么,借助計算方法——尤其是結(jié)合人工智能——分析預(yù)測蛋白質(zhì)結(jié)構(gòu)逐漸成為更好的選擇。人工智能系統(tǒng)能以已知蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)集作為材料進行訓(xùn)練,然后基于這些信息來創(chuàng)建自己的預(yù)測。
目前公共領(lǐng)域有大約18萬種蛋白質(zhì)結(jié)構(gòu)可供使用,每一種都由實驗分析獲得。DeepMind發(fā)布的蛋白質(zhì)結(jié)構(gòu)預(yù)測共計約35萬種。需要指出的是,DeepMind的新數(shù)據(jù)與已有的蛋白質(zhì)結(jié)構(gòu)之間存在一定重疊,但由于模型的特殊性質(zhì),具體重疊了多少難以量化。需要強調(diào)的是,AlphaFold貢獻的35萬個結(jié)構(gòu)囊括了98%的人類蛋白質(zhì)。該蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫并非第一個公開的人類蛋白質(zhì)數(shù)據(jù)集,但卻是最全面和準確的。
多年來,不少團隊都在蛋白質(zhì)結(jié)構(gòu)預(yù)測的賽道上持續(xù)發(fā)力,而DeepMind雄厚豐富的AI人才庫和計算資源助其在激烈競爭中拔得頭籌。
AlphaFold軟件顯著提高了計算蛋白質(zhì)折疊的準確性,正如它在CASP(對蛋白質(zhì)結(jié)構(gòu)預(yù)測進行評估,被譽為蛋白質(zhì)結(jié)構(gòu)預(yù)測的奧林匹克競賽,每兩年舉辦一次)每屆競賽中的表現(xiàn)所證明的那樣
2020年,AlphaFold參加了CASP14比賽,并以超神的預(yù)測準確度讓全場驚艷。CASP的聯(lián)合創(chuàng)始人之一、計算生物學(xué)家約翰?莫爾特(John Moult)表示:“從某種意義上說,‘蛋白質(zhì)折疊’問題得到了解決?!?/p>
CASP14比賽之后,DeepMind又對AlphaFold的程序進行了更新迭代,讓它的運作速度提升15倍之多。DeepMind的首席執(zhí)行官兼聯(lián)合創(chuàng)始人德米斯?哈薩比斯(Demis Hassabis)說道:“我們平均幾分鐘就能折疊出一個蛋白質(zhì),而在更多情況下,甚至幾秒鐘的時間也就夠了?!?/p>
在發(fā)布了第一批數(shù)據(jù)后,DeepMind計劃繼續(xù)擴充蛋白質(zhì)庫,EMBL則負責(zé)維護此數(shù)據(jù)庫的工作。EMBL總干事伊迪絲?赫德(Edith Heard)表示,DeepMind希望到2021年年底發(fā)布1億個蛋白質(zhì)結(jié)構(gòu)預(yù)測,“改變我們對生命運作方式的理解”,而且這些數(shù)據(jù)也將是對所有人免費。
資料來源 The New York Times