摘要:研究大分子的三維結(jié)構(gòu)是理解其功能的關(guān)鍵。傳統(tǒng)上,蛋白質(zhì)及其復(fù)合物的結(jié)構(gòu)是使用實(shí)驗(yàn)技術(shù)單獨(dú)或以綜合方式應(yīng)用的。然而,隨著AlphaFold2的突破性進(jìn)展,蛋白質(zhì)結(jié)構(gòu)預(yù)測的通常與實(shí)驗(yàn)結(jié)構(gòu)一樣準(zhǔn)確。這一突破預(yù)示著計(jì)算方法的新時(shí)代,可以為大多數(shù)單體蛋白質(zhì)建立準(zhǔn)確的模型,這樣更加有利于我們對結(jié)構(gòu)與功能的理解。本文介紹了AlphaFold2的安裝與使用,為有需求的讀者提供幫助。
關(guān)鍵詞:蛋白質(zhì)結(jié)構(gòu);AlphaFold2;深度學(xué)習(xí);安裝與使用
前言:
蛋白質(zhì)對生命活動至關(guān)重要,了解它們的結(jié)構(gòu)可以促進(jìn)對其功能的機(jī)械理解。通過大量的實(shí)驗(yàn)工作[1],已經(jīng)確定了大于十萬種獨(dú)特蛋白質(zhì)的結(jié)構(gòu),但這僅代表了數(shù)十億已知蛋白質(zhì)序列中的一小部分[2]。確定單個(gè)蛋白質(zhì)結(jié)構(gòu)所需的數(shù)月乃至數(shù)年的艱苦努力嚴(yán)重阻礙了結(jié)構(gòu)生物學(xué)發(fā)展。僅根據(jù)其氨基酸序列預(yù)測蛋白質(zhì)將采用的三維結(jié)構(gòu),一直是多年來的一個(gè)重要的研究問題[3]。然而,AlphaFold2的出現(xiàn)解決了這一難題。
2018年,AlphaFold橫空出世,可以高精度預(yù)測蛋白質(zhì)結(jié)構(gòu),到了AlphaFold2注意力機(jī)制取代卷積網(wǎng)絡(luò),預(yù)測準(zhǔn)確性提升超30%[4]。蛋白質(zhì)結(jié)構(gòu)測定方法耗費(fèi)大量人力物力,實(shí)驗(yàn)條件要求苛刻,大規(guī)模應(yīng)用困難。AlphaFold2解決距離限制問題,打破了現(xiàn)在許多蛋白質(zhì)無法測算結(jié)構(gòu)的僵局,讓我們看到結(jié)構(gòu)生物學(xué)有更好的發(fā)展前景,下面將介紹AlphaFold2安裝與使用。
一、安裝前電腦配件準(zhǔn)備
下述為最低要求:
硬盤:3T、CPU:12個(gè)虛擬CPU?、內(nèi)存:85?GB、GPU:1個(gè)Nvidia?A100?GPU
(一)下載
Deepmind公司已經(jīng)把AlphaFold2的代碼公開,并將安裝包上傳到GitHub,想要下載AlphaFold2,請到Github下載。
(二)安裝
1.pip
(1)介紹
pip是Python包管理工具,該工具提供了對Python包的查找、下載、安裝、卸載的功能。目前如果你在python.org下載最新版本的安裝包,則是已經(jīng)自帶了該工具。
(2)安裝
1.Win?+?R打開運(yùn)行窗口,輸入cmd回車,打開命令行窗口2.
2.找到pip安裝路徑。Python3(或者更高版本)安裝路徑是相同的,都在x(此為盤符,例如C盤):\Python?xx\Scripts路徑下
3.拖動pip主應(yīng)用程序到命令行窗口,直至命令行窗口增加了如下代碼:”Pythonxx\Scripts\pip.exe”
4.輸入“install?+alphafold2-pytorch”,注意中間要有空格。然后回車。窗口中會顯示下載信息。
5.耐心等待安裝完成。安裝完成后,我們在Python交互窗口導(dǎo)入包,如果不報(bào)錯,那么說明安裝成功,否則安裝失敗。
(三)使用
詳情請參考(https://github.com/lucidrains/alphafold2/blob/main/REA?DME.md)。
二、另辟蹊徑,探索蛋白質(zhì)結(jié)構(gòu)
目前,云計(jì)算成為社會主流,因?yàn)樵朴?jì)算解決了大多數(shù)人對電腦配置不足而無法進(jìn)行相應(yīng)操作的痛苦,我為大家提供兩個(gè)可以在線使用AlphaFold2的云服務(wù)器平臺Colab和北鯤云超算平臺,解決電腦配置限制。
1.Colab
這是一塊開源的國外服務(wù)器,但是我國有網(wǎng)絡(luò)安全協(xié)議,所以這個(gè)網(wǎng)站并不在國內(nèi)ip可以打開的范疇,使用此服務(wù)器需要會科學(xué)上網(wǎng),這里對科學(xué)上網(wǎng)不做贅述,需要自己了解,下面就是此服務(wù)器AlphaFold2使用教程。
1.在query_sequence輸入氨基氨酸序列
2.在num_models選擇預(yù)測數(shù)量
3.點(diǎn)擊代碼執(zhí)行程序—全部運(yùn)行,等待一段時(shí)間后會自動解析完畢并自動打包下載。
2.北鯤云超算平臺
這個(gè)是國內(nèi)云計(jì)算平臺,國內(nèi)ip可以隨意登錄而且不限流,登錄網(wǎng)頁界面就有AlphaFold(實(shí)為AlphaFold2),可以直接點(diǎn)進(jìn)去操作,但是收費(fèi),完成一次預(yù)測大概15元左右,下面為北鯤云超算平臺教程。
1.登錄網(wǎng)站并點(diǎn)擊AlphaFold
2.2.點(diǎn)擊選擇AlphaFold?GPU3
3.上傳氨基酸序列文件(注:需將txt改成fasta格式)
4.選擇虎鯨B-1GPU
5.點(diǎn)擊提交即可
6.執(zhí)行結(jié)果會在日志文件中結(jié)果查看
輸出的pdb文件建議使用官方推薦的PyMOL或者Chimera查看。
三、展望
就目前而言,推薦讀者使用云服務(wù)器,使用云服務(wù)對科研人員比較友好,沒有風(fēng)險(xiǎn),成本也低,而且上手簡單,IT商家已經(jīng)把操作步驟優(yōu)化,即使不懂人工智能和python,也可以輕松使用,為大多數(shù)人省去了學(xué)習(xí)python語言與Pytorch語法的時(shí)間,可以把更多的精力放在科研上。雖然,目前還存在著諸多難題,但AlphaFold2的出現(xiàn),揭示未來人工智能對科研領(lǐng)域有極大的幫助。未來,AlphaFold2定能為結(jié)構(gòu)生物學(xué)做出巨大貢獻(xiàn),讓我們拭目以待吧!
參考文獻(xiàn):
[1]Wüthrich,Kurt.The?way?to?NMR?structures?of?proteins.[J].Nature?Structural?Biology,2001.
[2]Martin?Steinegger.Protein-level?assembly?increases?protein?sequence?recovery?from?metagenomic?samples?manyfold[J].Nature?Methods:Techniques?for?life?scientists?and?chemists,2019,16(7):
[3]Anfinsen?C?B.Principles?that?govern?the?folding?of?protein?chains.[J].Science?(New?York,N.Y.),1973,181(4096):
[4]Jumper.Highly?accurate?protein?structure?prediction?with?AlphaFold.[J].Nature,2021:
作者簡介:李飛(2000.7.14-),漢,河北省滄州市,紹興文理學(xué)院生物科學(xué)專業(yè),本科生,研究方向:生物科學(xué)。