德米斯?哈薩比斯
2020年12月,我們向世界介紹AlphaFold 2及其在預測蛋白質結構方面的超凡能力。當時,評估者認為這是解決困擾科學界50年的重大問題——解析蛋白質三維結構——的最佳工具。2021年7月,我們在《自然》(Nature)刊載了兩篇論文,發(fā)布了AlphaFold的開源代碼,解釋這個高度創(chuàng)新的體系是怎么來的;同時,我們還分享包括人體中存在的每一種蛋白質以及常用于科學研究的20種生物體的蛋白質的高質量預測。
科學家試圖尋找各類疾病的治療方法,也希望解決人類面臨的其他重大問題,包括抗生素耐藥性、微塑料污染和氣候變化。如果能有對蛋白質結構的更深入理解,研究工作無疑會因此獲益。蛋白質就像小巧精致的生物機器,而機器的結構決定了它的功能,因此揭示蛋白質的結構可以幫助我們理解蛋白質的功能。
AI是支持研究人員工作的強大工具,而我們相信AlphaFold是迄今為止人工智能領域提供的最強科學輔助。通過實驗確定蛋白質結構是一項耗時且艱苦的工作,但AlphaFold卻證明人工智能可以在幾分鐘內以原子級精度預測蛋白質的形狀。借助AlphaFold收獲對蛋白質的更深見解,為我們在生物學和醫(yī)學領域取得更多新突破奠定了基礎。
此次突破得益于AlphaFold團隊五年來不知疲倦的探索和驚人的創(chuàng)造力——他們創(chuàng)造性地解決了大量極具難度的問題,得到了許多新的復雜算法,這些都是攻克終極難關所必需的;還得益于過去幾個月與我們在一起的歐洲生物信息研究所(EMBL-EBI)的密切合作,我們現(xiàn)在才能與世界共享這寶藏。
不久前我們還與EMBL-EBI合作推出了AlphaFold蛋白質結構數(shù)據(jù)庫,提供迄今為止最完整且準確的人類蛋白質組的結構圖——數(shù)量是此前人類已積累的兩倍還多。除了人類蛋白質組(人類基因組表達的蛋白質共約2萬種)之外,我們還提供其他20種生物的蛋白質組,總計超過35萬種蛋白質結構的數(shù)據(jù)訪問權限。從大腸桿菌到酵母菌,從果蠅到小鼠,這20種生物極具科研意義,是無數(shù)研究論文的主題和眾多科學進展的主角。我們計劃之后將數(shù)據(jù)庫的覆蓋范圍擴大至幾乎所有已知蛋白質——超過1億個結構,涵蓋UniProt蛋白質數(shù)據(jù)庫的大部分內容。這是一本名副其實的世界蛋白質年鑒。未來我們將繼續(xù)投入對AlphaFold的改進,系統(tǒng)和數(shù)據(jù)庫也會定期更新。
最令人激動的是,這本全新的蛋白質年鑒能在世界各地的科學家手中發(fā)揮神奇力量,推動相關研究,提升人類對蛋白質的理解。通過早期合作,我們已經看到了研究人員在自己的工作中利用好AlphaFold的可能。而這些只是結構生物信息學革命的開始。隨著AlphaFold的發(fā)展,現(xiàn)有大量數(shù)據(jù)有望轉變?yōu)槲磥淼目茖W進步。
AlphaFold的成功建立在幾代科學家的努力之上,從蛋白質成像和晶體學領域的早期先驅,到蛋白質結構預測專家和結構生物學家,眾多研究者很早就開始投入到相關探索中,并留下大量實驗結果,為此項創(chuàng)新奠定了基礎。
我們認為人工智能可以大幅加速許多科學領域的突破,進而推動人類進步。我們相信AI有望徹底改變21世紀的科研方式,也熱切期待著AlphaFold幫助科學界解鎖下一個神奇。