唐一鳴,姚逸飛,楊中元,周運,王子超,韋廣紅
(復(fù)旦大學(xué)物理學(xué)系,表面物理國家重點實驗室,計算物質(zhì)科學(xué)教育部重點實驗室,上海 200438)
蛋白質(zhì)是生物功能的主要執(zhí)行者,它們通過折疊成特定的空間結(jié)構(gòu)來發(fā)揮生理功能,但在一定的條件下會發(fā)生錯誤折疊和聚集并導(dǎo)致疾病。神經(jīng)退行性疾病就是一類以蛋白質(zhì)異常相互作用和聚集為病理特征的疾病,如阿爾茨海默病與β淀粉樣蛋白(amyloid-β, Aβ)形成的淀粉樣斑塊以及微管相關(guān)蛋白(tubulin associated unit, Tau)異常聚集而形成的神經(jīng)纖維纏結(jié)有關(guān)[1];帕金森病的病理特征是α-突觸核蛋白(α-synuclein,αSyn)聚集成的路易小體[2];肌萎縮側(cè)索硬化癥與TDP-43蛋白包涵體有關(guān)[3]。除此之外,最新研究表明:很多神經(jīng)退行性疾病相關(guān)蛋白(包括Tau[4]、αSyn[5]、TDP-43[6])亦能發(fā)生液液相分離并組裝成液態(tài)凝聚物(在體內(nèi)被稱為無膜細胞器),進而發(fā)揮調(diào)控信號傳導(dǎo)和異染色質(zhì)轉(zhuǎn)錄等生理功能[7]。病理性纖維化與液液相分離是蛋白質(zhì)聚集的兩種形式,蛋白質(zhì)液液相分離可能是下一步錯誤聚集和纖維化的驅(qū)動力[8-9]。在細胞微環(huán)境(如pH、溫度)改變或氨基酸突變等情況下,蛋白質(zhì)液態(tài)凝聚物會進一步發(fā)生液-固相變,形成病理性纖維[10]。表1列出了部分能發(fā)生纖維化和/或相分離的神經(jīng)退行性疾病相關(guān)蛋白。
表1 代表性神經(jīng)退行性疾病相關(guān)蛋白的聚集和相分離能力Table 1 Aggregation and phase separation of proteins associated with neurodegenerative diseases
研究蛋白質(zhì)分子間相互作用以及聚集的微觀機理,對于進一步理解蛋白質(zhì)的生理功能和病理過程,以及相關(guān)疾病的藥物研發(fā)具有非常重要的科學(xué)意義和應(yīng)用價值。目前對于神經(jīng)退行性疾病相關(guān)蛋白的毒性機理和纖維化機制已經(jīng)有廣泛和深入的研究。利用X射線衍射、核磁共振、冷凍電鏡等實驗方法,研究人員解析出了大量蛋白的纖維結(jié)構(gòu),它們具有cross-β的結(jié)構(gòu)特征,即由主鏈間氫鍵穩(wěn)定的β折疊結(jié)構(gòu)。多種實驗方法已經(jīng)被用來表征蛋白質(zhì)的纖維形貌和纖維化過程[28];計算模擬被用來研究纖維的熱力學(xué)性質(zhì)、揭示蛋白-蛋白以及纖維-抑制劑之間的相互作用機理[29-30]。與此相比,蛋白質(zhì)液液相分離微觀機制的研究尚處于起步階段。目前普遍認為蛋白質(zhì)固有無序區(qū)域之間的多價相互作用是相分離的主要驅(qū)動力[31-32],但對于凝聚物內(nèi)部的蛋白構(gòu)象特征、蛋白-蛋白、蛋白-RNA之間的相互作用模式等,尚知之甚少。本文將以神經(jīng)退行性疾病相關(guān)蛋白為切入點,綜述它們病理性聚集和液液相分離的前沿進展,介紹表征蛋白質(zhì)聚集體形貌和空間結(jié)構(gòu)的實驗手段,研究蛋白質(zhì)相互作用、聚集和相分離微觀機理的理論和計算方法,以及預(yù)測相分離能力的機器學(xué)習(xí)方法。
為了理解神經(jīng)退行性疾病的病理過程,揭示相關(guān)蛋白病理性聚集的物理機制,國內(nèi)外實驗工作者已經(jīng)開展了大量研究,包括解析纖維的空間結(jié)構(gòu)和形貌、表征纖維化的動力學(xué)過程等。表2列出了主要實驗方法(主要包括譜學(xué)方法和顯微方法兩大類)以及它們各自的適用范圍。
表2 研究蛋白質(zhì)病理性聚集的主要實驗方法Table 2 Major experimental methods for studying protein pathological aggregation
圓二色譜法(circular dichroism spectroscopy,即CD譜)[33]和傅里葉紅外光譜(Fourier transform infrared spectroscopy, FTIR)[34]等譜學(xué)方法常用來測定蛋白質(zhì)鏈中的二級結(jié)構(gòu)含量。這些方法具有操作簡便、測定時間短等優(yōu)點,但不能表征二級結(jié)構(gòu)在蛋白質(zhì)鏈上的分布。根據(jù)核磁共振方法(nuclear magnetic resonance, NMR)測得的特定原子化學(xué)位移,可以得到每個氨基酸形成的二級結(jié)構(gòu)類型[46]。跟蹤熒光強度的時間演化是實驗表征蛋白質(zhì)纖維化過程以及抑制劑分子干預(yù)的主要手段,如ThT熒光光譜法(ThT fluorescence spectroscopy, ThT-FS)[35]。例如根據(jù)在Tau255-411溶液中加入硫酸化的肝素后的ThT信號的增長速度快慢,判定肝素對Tau蛋白片段的纖維化的影響[47]。值得注意的是,一些外源性化合物本身會導(dǎo)致ThT熒光信號產(chǎn)生偏差[48]。
掃描電鏡(scanning electron microscope, SEM)[36]、透射電鏡(transmission electron microscope,TEM)[37]、原子力顯微鏡(atomic force microscope,AFM)[38]等方法是用于表征淀粉樣纖維空間形貌的常用方法。如Islam等[49]結(jié)合TEM和SEM觀測到Aβ淀粉樣纖維具有螺旋狀纏結(jié)的形貌;Makky等[50]通過TEM發(fā)現(xiàn)Tau蛋白能形成6種具有不同形貌的纖維,并通過AFM給出了這6種纖維的高度。由于淀粉樣纖維不溶于水,又很難結(jié)晶,常規(guī)的解析蛋白質(zhì)結(jié)構(gòu)的方法,如晶體X射線衍射和液體核磁共振不能用于解析纖維的結(jié)構(gòu)。X射線衍射只能得到主鏈的骨架信息,即cross-β結(jié)構(gòu)。例如Salveson等[51]通過X射線衍射(X-ray diffraction, XRD)方法解析出了具有cross-β結(jié)構(gòu)的Aβ16-36纖維。解析纖維原子分辨空間結(jié)構(gòu)的主要方法包括固體核磁共振(solid-state NMR,ssNMR)[40-41]和冷凍電鏡[43]方法。如Tuttle等[52]通過ssNMR解析出了全長Aβ40的纖維結(jié)構(gòu)。Gremer等[53]、Fitzpatrick等[13]以及Li等[21]分別通過冷凍電鏡解析出了全長Aβ42蛋白、Tau306-378和TDP-43低復(fù)雜度結(jié)構(gòu)域(low-complexity domain, LCD)的纖維結(jié)構(gòu)。這些纖維結(jié)構(gòu)的解析為藥物研發(fā)提供了結(jié)構(gòu)基礎(chǔ)。
用于表征蛋白質(zhì)纖維化過程中蛋白分子內(nèi)/分子間相互作用的實驗方法有交聯(lián)質(zhì)譜(chemical crosslinking of proteins coupled with mass spectrometry,簡稱CXMS或XL-MS)[44]、核磁共振[40-41]、熒光共振能量轉(zhuǎn)移(fluorescence resonance energy transfer,F(xiàn)RET)[45]方法等。例如Daniele Ubbiali等[54]采用交聯(lián)質(zhì)譜的方法跟蹤αSyn蛋白聚集過程中相互作用的演化,觀察到蛋白質(zhì)鏈隨著聚集進程逐漸伸展;Yoh課題組[55]使用固體核磁共振方法觀察到了αSyn蛋白在纖維化過程中單體構(gòu)象逐漸伸展并形成β折疊結(jié)構(gòu)的過程。Meng等[56]使用單分子熒光共振能量轉(zhuǎn)移方法研究了Aβ40和Aβ42的單體構(gòu)象,發(fā)現(xiàn)兩者單體結(jié)構(gòu)均呈現(xiàn)高度無序的狀態(tài)。上述這些實驗手段為揭示蛋白質(zhì)聚集機理提供了重要幫助。
神經(jīng)退行性疾病通常伴隨著神經(jīng)系統(tǒng)中的不溶性淀粉樣蛋白斑塊,這些斑塊通常由一種或多種蛋白質(zhì)聚集而成[57]。研究相關(guān)蛋白質(zhì)的聚集和共聚集,對深入理解神經(jīng)退行性疾病的復(fù)雜病理學(xué)成因至關(guān)重要。本節(jié)以αSyn、TDP-43、Aβ、Tau、FUS等疾病相關(guān)蛋白為例,簡要介紹實驗上對它們形成的纖維結(jié)構(gòu)的表征,并以αSyn和Aβ蛋白為例,介紹它們與其他蛋白質(zhì)共聚集的研究工作。上述五個蛋白中,αSyn、Aβ和Tau蛋白是固有無序蛋白,而TDP-43和FUS蛋白則分別包含了長為148、165個氨基酸的固有無序區(qū)域,它們均具有高親水性、高帶電性和結(jié)構(gòu)無序的特征。圖1給出了Aβ、αSyn、TDP-43、Tau和FUS代表性的纖維結(jié)構(gòu)及對應(yīng)的PDB ID。除了PDB ID為2M4J和2LNQ的Aβ纖維結(jié)構(gòu)與PDB ID為5W3N的FUS纖維結(jié)構(gòu)由ssNMR解出,PDB ID為5XSG的FUS纖維結(jié)構(gòu)由X射線衍射解出外,圖中其余結(jié)構(gòu)均由冷凍電鏡解出。該圖的最左邊給出了每種蛋白或其LCD的氨基酸占比(“其他”包含了所有低于5%含量的氨基酸)。
圖1 神經(jīng)退行性疾病相關(guān)的五種蛋白的氨基酸組成和代表性纖維結(jié)構(gòu)Fig.1 Amino acid composition and fibril structures of neurodegenerative disease-related proteins
阿爾茨海默病是全球第一大神經(jīng)退行性疾病,它的病理進程與大腦中β淀粉樣蛋白(β-amyloid,Aβ)和微管相關(guān)蛋白(Tau)形成的神經(jīng)纖維纏結(jié)有關(guān)。Aβ是最早被關(guān)注和研究的淀粉樣蛋白之一,全長的Aβ共有42個氨基酸,存在多個氨基酸數(shù)目少于42的異構(gòu)體,其中Aβ40和Aβ42是兩種被廣泛研究的重要異構(gòu)體。在過去的二十多年里,研究人員已經(jīng)通過核磁共振、冷凍電鏡等方法解析出了全長Aβ及其多個片段的空間結(jié)構(gòu),如2M4J[58]、5OQV[53]等。Tau蛋白是一種主要在腦細胞中表達的微管相關(guān)蛋白,由441個氨基酸組成,主要具有穩(wěn)定軸突微管的生理功能,其微管結(jié)合域由4個重復(fù)單元組成(R1~R4)。早在1963年和1981年,研究人員就找到了2種不同形貌的Tau蛋白的纖維——雙螺旋細絲形態(tài)(PHF)和直絲形態(tài)(SF)[59-60],但直到2017年這2種纖維結(jié)構(gòu)才被冷凍電鏡解出(PDB ID:5O3T,5O3L)[13]。從不同的神經(jīng)退行性疾病患者大腦中提取的Tau蛋白纖維空間結(jié)構(gòu)不同,如從皮質(zhì)基底節(jié)變性患者大腦內(nèi)提取的兩種纖維結(jié)構(gòu)(PDB ID:6TJO、6TJX)[61],不同于從眼頸肌張力障礙病人體內(nèi)提取的兩種纖維結(jié)構(gòu)(PDB ID:7P66、7P67)[62]。這些結(jié)構(gòu)的解析為進一步理解蛋白質(zhì)錯誤折疊/纖維化與不同神經(jīng)退行性疾病的關(guān)系提供了新的視角,并為這些疾病的藥物研發(fā)提供了新的線索。
帕金森病是全球第二大神經(jīng)退行性疾病,其病理特征是大腦中主要由αSyn蛋白聚集成的淀粉樣斑塊(路易小體)[63]。αSyn共有140個氨基酸,由N端結(jié)構(gòu)域、纖維核心域(NAC)和C端結(jié)構(gòu)域組成。目前已有多個全長αSyn或其片段的纖維結(jié)構(gòu)被解析出來,其中2016年Tuttle等采用固體核磁共振(ssNMR)方法解析出的全長纖維,2018年采用冷凍電鏡方法,Li、Stahlberg和Ye三個課題組分別解析出了αSyn片段的纖維結(jié)構(gòu)。這4個結(jié)構(gòu)均具有希臘鑰匙(Greek-key)的結(jié)構(gòu)特征,即單體由多段β折疊在空間蛇形排列,它們的PDB ID分別是2N0A[52]、6A6B[64]、6H6B[65]、6CU7[66]。2019年Guerrero-Ferreira等[19]解出了兩個單體結(jié)構(gòu)類似但原纖維間界面不同的αSyn片段纖維結(jié)構(gòu);2020年Schweighauser等[20]解析了2種從病人體內(nèi)提取的αSyn片段纖維結(jié)構(gòu)。而這4個結(jié)構(gòu)沒有Greek-key的結(jié)構(gòu)特征。除此之外,氨基酸突變、翻譯后修飾等會影響αSyn的分子內(nèi)/間相互作用模式,從而使纖維結(jié)構(gòu)不同于野生型纖維。例如H50Q、G51D、A53T這三個突變均會改變原纖維間的界面,從而改變纖維形貌(PDB ID:6PES[67]、7E0F[68]、6LRQ[69])。N端截短(如Δ1-40)和磷酸化(如pY39)等翻譯后修飾都會改變纖維的空間結(jié)構(gòu)(PDB ID:7LC9[70]、6L1U[71])。
肌萎縮側(cè)索硬化癥(amyotrophic lateral sclerosis,ALS)也稱漸凍人癥,其病理特征是大腦組織中由多種蛋白聚集形成的不溶性蛋白質(zhì)包涵體,TDP-43和FUS蛋白是其主要成分。TDP-43蛋白由414個氨基酸組成,包括3個結(jié)構(gòu)域:N端結(jié)構(gòu)域、RNA識別結(jié)構(gòu)域和C端低復(fù)雜度結(jié)構(gòu)域(LCD)。其中LCD結(jié)構(gòu)域?qū)DP-43的聚集具有至關(guān)重要的作用,且其單獨也能夠發(fā)生纖維化。近年來LCD區(qū)域多個片段的纖維結(jié)構(gòu)被解出,2019年Cao等[72]通過冷凍電鏡解出了5個長度不同的LCD短肽片段纖維結(jié)構(gòu),其形貌各不相同(PDB ID:6N37、6N3B、5O3L、5O3T、6GX5)。Guenther等[73]找出了LCD區(qū)域中6個能獨立形成空間拉鏈結(jié)構(gòu)的片段(PDB ID:5WKD、6CEW、6CB9、5WIQ、5WIA、5WHN)。全長LCD纖維結(jié)構(gòu)于2021年被Li等[21]通過冷凍電鏡方法首次解析出來,該纖維(PDB ID:7KWZ)包含一個由139個殘基堆疊而成的纖維核。LCD包含了TDP-43蛋白約90%的病理性突變,大部分突變能夠加速纖維化過程或改變纖維形貌。例如野生型LCD312-317片段能夠形成動態(tài)可逆的纖維,但A315E/T突變會導(dǎo)致固態(tài)不可逆纖維的形成[73];A315T突變會使LCD286-331片段在體外形成的纖維神經(jīng)毒性增強[74];G335D突變能促進LCD發(fā)生從螺旋到β折疊的結(jié)構(gòu)轉(zhuǎn)變從而促進其聚集[75]。LCD片段及全長LCD纖維結(jié)構(gòu)的成功解析,為進一步理解TDP-43蛋白質(zhì)的異常聚集和纖維化奠定了基礎(chǔ)。
FUS蛋白由526個氨基酸組成,它在生物體內(nèi)參與轉(zhuǎn)錄調(diào)節(jié)、RNA代謝和DNA損傷修復(fù)等多種生理功能[76]。FUS蛋白包含兩個結(jié)構(gòu)域:位于N端的低復(fù)雜結(jié)構(gòu)域(LCD)和位于C端的RNA結(jié)合域,其中LCD對FUS蛋白的聚集具有至關(guān)重要的作用。2017年Murray等[22]在大腸桿菌中表達,并進一步得到了FUS全長LCD(氨基酸1~214)的纖維,并通過ssNMR方法解出了其核心片段(FUS37-97)的纖維空間結(jié)構(gòu);2018年Luo等[77]采用X射線衍射方法解出了FUS37-42與FUS54-59片段的纖維結(jié)構(gòu)(PDB ID:5XSG、5XRR)。這些研究發(fā)現(xiàn)FUS形成的纖維具有熱可逆性(升高溫度纖維溶解,降低溫度纖維重新形成)。2020年Lee等[78]采用冷凍電鏡方法得到了FUS112-150片段的纖維結(jié)構(gòu)(PDB ID:6XFM),其形貌具有U型的特征。最近Sun等[79]采用冷凍電鏡方法,解析出了LCD區(qū)域34-124片段的纖維結(jié)構(gòu)(PDB ID:7VQQ),該纖維片段由具有V型、S型和N型特征的3個區(qū)域組合而成。
TDP-43 LCD片段和FUS LCD片段以及全長TDP-43 LCD纖維結(jié)構(gòu)的成功解析,為進一步理解TDP-43、FUS蛋白質(zhì)的異常聚集和纖維化以及肌萎縮側(cè)索硬化癥等疾病的分子機制奠定了基礎(chǔ)。
研究表明,兩種不同神經(jīng)退行性疾病相關(guān)蛋白的錯誤折疊和聚集存在關(guān)聯(lián)。例如,①αSyn和Tau蛋白存在強病理性關(guān)聯(lián):在患有路易小體癡呆的病人中,編碼αSyn和Tau蛋白的基因(SNCA和MAPT)具有強相關(guān)性[80];②錯誤折疊的αSyn和Tau蛋白均具有細胞間傳遞的能力[81];③在患有阿爾茲海默病、ALS等多種神經(jīng)退行性疾病的患者腦組織中αSyn和Tau蛋白存在共定位[82-83]。研究人員已經(jīng)通過體外實驗深入研究了αSyn和Tau的相互作用模式:如將αSyn加入到Tau蛋白液態(tài)凝聚物中時,αSyn帶負電的C端能與Tau帶正電的聚脯氨酸結(jié)構(gòu)域P2(198-243殘基)結(jié)合,加速凝聚物向固態(tài)纖維轉(zhuǎn)變(圖2)[84]。Aβ的N端可以與αSyn的N/C端結(jié)構(gòu)域相互作用形成異質(zhì)二聚體[85]。另外,阿爾茨海默病和Prion疾病也存在病理關(guān)聯(lián)[86],病理學(xué)研究表明Prion蛋白能與阿爾茨海默病患者腦組織中的Aβ淀粉樣蛋白發(fā)生免疫共沉淀現(xiàn)象[87]。淀粉樣纖維的多形性,以及多種蛋白質(zhì)異質(zhì)相互作用的實驗發(fā)現(xiàn),為神經(jīng)退行性疾病的機理研究和藥物開發(fā)帶來了新的挑戰(zhàn)。
圖2 神經(jīng)退行性疾病相關(guān)的四種蛋白的單體、淀粉樣纖維和共聚集形成的異質(zhì)凝聚體[84-87]Fig.2 Monomer conformations, amyloid fibrils of proteins related to neurodegenerative diseases and their heterogeneous aggregates[84-87]
雖然實驗研究在纖維結(jié)構(gòu)解析方面取得了重大進展,但通常只能得到纖維的靜態(tài)結(jié)構(gòu),再加上蛋白質(zhì)低聚體構(gòu)象高度動態(tài)變化及其不穩(wěn)定性,因此實驗方法很難識別纖維的最小穩(wěn)定單元、揭示抑制劑分子與纖維相互作用的微觀機理,以及表征聚集早期蛋白質(zhì)的構(gòu)象變化和低聚體結(jié)構(gòu)特征。隨著蛋白質(zhì)力場的發(fā)展與完善,分子動力學(xué)等計算機模擬方法能夠在原子/分子水平研究蛋白質(zhì)/多肽的聚集過程[88]?;诜肿觿恿W(xué)模擬的軌跡,一方面,計算二級結(jié)構(gòu)含量和分布可以與實驗給出的CD譜、化學(xué)位移結(jié)果對比,而計算氨基酸間距離能與FRET實驗結(jié)果等對比,驗證模擬結(jié)果的可靠性;另一方面,可以實現(xiàn)對纖維熱力學(xué)和動力學(xué)性質(zhì)、蛋白質(zhì)相互作用以及聚集機理的表征。分子動力學(xué)模擬的流程見圖3。
圖3 通過計算模擬研究蛋白質(zhì)相互作用及病理性聚集的流程圖Fig.3 Flow sheet for studying protein interactions and pathological aggregation by computational simulation
以纖維結(jié)構(gòu)為初始構(gòu)型作分子動力學(xué)模擬可以用來確定纖維最小穩(wěn)定單元,表征纖維熱力學(xué)和動力學(xué)性質(zhì)、纖維內(nèi)部分子間/內(nèi)相互作用以及纖維與溶劑之間相互作用。如針對Aβ42的L-S型纖維結(jié)構(gòu),全原子分子動力學(xué)模擬發(fā)現(xiàn)四聚體是其最小穩(wěn)定單元[89];而對于TDP-43288-319片段的纖維結(jié)構(gòu),模擬表明七聚體是其最小穩(wěn)定單元[90]。針對同種蛋白不同纖維結(jié)構(gòu)的模擬,可以比較它們各自的穩(wěn)定性,給出穩(wěn)定它們空間構(gòu)型的重要物理相互作用類型。例如,Natesh等[91]針對三種Aβ纖維結(jié)構(gòu)(PDB ID:2M4J、2LMN、2LMP)進行了分子動力學(xué)模擬,發(fā)現(xiàn)這三種纖維具有不同的穩(wěn)定性,并揭示了穩(wěn)定各自纖維結(jié)構(gòu)的分子間相互作用。另外,針對抑制劑(如小分子、抗體等)抑制纖維化或破壞纖維結(jié)構(gòu)的實驗發(fā)現(xiàn),研究人員開展了一系列模擬工作,旨在揭示相應(yīng)的抑制和破壞機理,為進一步篩選或設(shè)計新型藥物分子提供理論指導(dǎo)。比如利用常規(guī)或增強采樣的分子動力學(xué)模擬,研究了不同分子對Aβ原纖維的破壞機制,發(fā)現(xiàn):桑黃素破壞鹽橋和氫鍵[92];辣椒提取物wgx-50通過疏水相互作用[93]、aducanumab抗體通過特異性結(jié)合纖維N端[94]來破壞纖維;手性小分子(+)-Catechin和(-)-Catechin構(gòu)象差異引起空間位阻效應(yīng)的不同,呈現(xiàn)出對Aβ原纖維不同的破壞效果[95]。最近本文作者所在的課題組采用分子動力學(xué)模擬研究了黃芩素對多種不同形貌αSyn纖維的破壞,發(fā)現(xiàn)黃芩素對不同纖維具有不同的破壞效果和機理[96]。這些模擬結(jié)果為相關(guān)疾病藥物的篩選和設(shè)計提供理論指導(dǎo)。
模擬蛋白質(zhì)分子的自發(fā)聚集過程和低聚體構(gòu)象分布,是理解蛋白質(zhì)聚集微觀機理的有效手段。限于模擬時間尺度和計算資源,很難從全原子水平直接模擬大量蛋白分子自發(fā)組裝成纖維的過程,目前研究主要側(cè)重于聚集早期低聚體的構(gòu)象分布和蛋白間相互作用模式。
以Aβ及其短肽為例,國內(nèi)外多個課題組分別采用副本交換分子動力學(xué)研究了Aβ40和Aβ42的二聚體構(gòu)象分布,發(fā)現(xiàn)二聚體構(gòu)象結(jié)構(gòu)多樣,既包含無序結(jié)構(gòu),也包含多種富含β片層的構(gòu)象,并給出了穩(wěn)定二聚體的相互作用類型[97-98]。除了構(gòu)象熱力學(xué)特性,Cao等[99]將分子動力學(xué)模擬與馬爾可夫態(tài)模型結(jié)合,研究了Aβ蛋白二聚化的動力學(xué)過程。與Aβ相比,αSyn、Tau等蛋白的氨基酸序列較長,現(xiàn)有工作大都針對它們的重要片段進行研究。例如,Yamauchi等[100]通過增強采樣方法給出了NAC核心短肽片段68GAVVTGVTAVA78二聚體的構(gòu)象分布;Yoon等[101]采用常規(guī)分子動力學(xué)模擬揭示了短肽71VTGVTAVAQKTV82四聚體的自發(fā)組裝過程。微管結(jié)合域是Tau蛋白纖維化的關(guān)鍵區(qū)域。Ganguly等[102]通過副本交換方法揭示了位于微管結(jié)合域的R2和R3片段形成的同源和異源二聚體的分子間相互作用模式和構(gòu)象分布。最近,我們針對R3片段二聚體和肝素的混合物開展了副本交換分子動力學(xué)模擬,結(jié)果表明肝素能增強PHF6片段(306VQIVYK311)之間疏水、芳香堆積相互作用,從而促進R3的自聚集[103]。
近年來,隨著蛋白質(zhì)數(shù)據(jù)庫的不斷增大,以及計算機算力的提升,機器學(xué)習(xí)方法也開始被用于研究神經(jīng)退行性疾病相關(guān)蛋白的構(gòu)象特性。例如周煥祥課題組[104]以聚谷氨酰胺Q15、Aβ40和細胞壁水解酶ChiZ三種天然無序蛋白為研究對象,根據(jù)短時間分子動力學(xué)模擬得到的構(gòu)象,利用神經(jīng)網(wǎng)絡(luò)和自編碼器方法生成更加完整的構(gòu)象空間,其預(yù)測結(jié)果得到了長時間分子模擬結(jié)果的驗證[104]。Jin等[105]結(jié)合分子動力學(xué)模擬、主成分分析和機器學(xué)習(xí)方法預(yù)測了聚丙氨酸Ala13和鈣調(diào)蛋白在原訓(xùn)練集中不存在的合理構(gòu)象。這些工作為進一步利用機器學(xué)習(xí)方法實現(xiàn)蛋白質(zhì)(尤其是無序蛋白)構(gòu)象空間高效采樣邁出了重要一步。
蛋白質(zhì)除了能夠聚集形成固態(tài)病理性纖維外,還能發(fā)生液液相分離形成液態(tài)凝聚物。生物分子的液液相分離是細胞核仁、應(yīng)激顆粒等多種無膜細胞器形成的主要驅(qū)動力,具有重要生物學(xué)意義。2009年,Brangwynne等[106]發(fā)現(xiàn)重要細胞器P顆粒具有流動、融合、熒光恢復(fù)等液態(tài)性質(zhì)。2012年Li等[107]和Kato等[108]分別在體外實驗中觀察到了蛋白質(zhì)和RNA通過液液相分離形成的小液滴。之后,該領(lǐng)域迎來了爆發(fā)式發(fā)展,越來越多的蛋白被發(fā)現(xiàn)具有相分離能力。此外,蛋白質(zhì)相分離的生理功能被不斷發(fā)現(xiàn),例如適應(yīng)性和先天性免疫信號傳導(dǎo)、應(yīng)激顆粒組裝、異染色質(zhì)形成和轉(zhuǎn)錄等[109]。除此之外,越來越多的研究表明,神經(jīng)退行性疾病相關(guān)蛋白(如αSyn、TDP-43、Tau等)具有較強的液液相分離能力,且它們的液態(tài)凝聚物會在病理條件下發(fā)生液固相變,形成有細胞毒性的固態(tài)淀粉樣纖維。蛋白質(zhì)的液液相分離及其與病理性聚集的關(guān)系已成為當今物理學(xué)和生命科學(xué)等交叉領(lǐng)域的研究前沿和熱點。圖4給出了幾種無膜細胞器及幾種典型蛋白形成的小液滴的形貌。
圖4 無膜細胞器與蛋白質(zhì)通過液液相分離形成的小液滴[4-6,9,106,110-115]Fig.4 Membrane-free organelles and liquid droplets formed by liquid-liquid phase separation of proteins[4-6,9,106,110-115]
判斷蛋白質(zhì)溶液發(fā)生相分離的常見實驗方法包括濁度(turbidity)試驗和微分干涉差(differential interference contrast, DIC)顯微鏡。濁度可以用于表征蛋白分子形成凝聚物的能力,而DIC常用于觀察蛋白質(zhì)相分離形成的小液滴形貌。在這些實驗中,通常需要添加例如聚蔗糖(ficoll)、聚乙二醇(PEG)、葡聚糖(dextran)等聚合物作為擁擠劑,以模擬細胞中的擁擠環(huán)境[116]。濁度和顯微實驗操作簡單,可以實現(xiàn)高通量篩選特定蛋白發(fā)生液液相分離的環(huán)境條件。例如,劉聰課題組[117]建立了一種高通量篩選蛋白質(zhì)相分離能力的方法(HiPPS),并系統(tǒng)研究了溶液環(huán)境對30多種蛋白質(zhì)相分離能力的影響。TEM、AFM等方法不僅能用于觀察小液滴形貌,還能在納米尺度精確測量其尺寸。隨著共聚焦顯微(confocal microscopy)和超分辨率成像(super-resolution imaging)技術(shù)的不斷發(fā)展,可以直接觀察細胞中形成的蛋白質(zhì)凝聚物的位置和形貌,例如hnRNPA1[118]、C9orf72編碼的二肽重復(fù)片段(PR20、GR20)[119]、FUS[115]、Tau[120]、TDP-43[121-122]、αSyn[123]等。值得注意的是,上述方法要求冷凝物中的蛋白質(zhì)必須先經(jīng)過抗體染色或熒光標記。
表征蛋白質(zhì)液態(tài)凝聚物的物化性質(zhì)(包括黏度、表面張力、流動性、密度、蛋白質(zhì)的二級結(jié)構(gòu)等),對理解蛋白質(zhì)液液相分離的物理機制具有重要意義。在體外實驗中,確定聚集體物態(tài)性質(zhì)的最直接的途徑是測量小液滴的黏度和表面張力[124]。光成像的技術(shù)可以用來表征凝聚物流動性的強弱,例如光漂白熒光損失實驗(fluorescence loss in photobleaching, FLIP)、光漂白熒光恢復(fù)實驗(fluorescence recovering after photobleaching,F(xiàn)RAP)、熒光關(guān)聯(lián)光譜(fluorescence correlation spectroscopy, FCS)等[10]。其中最常用的是FRAP實驗[125],它已經(jīng)被廣泛應(yīng)用于區(qū)分蛋白質(zhì)聚集形成的液態(tài)和固態(tài)聚集體,以及表征小液滴的成熟(即由液態(tài)向固態(tài)轉(zhuǎn)變)過程[109,126]。FRET方法常用來表征蛋白質(zhì)發(fā)生相分離過程中的構(gòu)象變化;ThT熒光和CD譜用來研究蛋白質(zhì)在發(fā)生相分離過程中二級結(jié)構(gòu)的變化。此外,拉曼光譜[127-128]也被用于表征蛋白質(zhì)在發(fā)生相分離前后的構(gòu)象轉(zhuǎn)變。
多種神經(jīng)退行性疾病相關(guān)蛋白既能發(fā)生病理性聚集形成固態(tài)淀粉樣纖維,也能發(fā)生液液相分離形成液態(tài)凝聚物。例如αSyn、TDP-43和Tau蛋白均同時具有纖維化和相分離能力。生理條件下αSyn蛋白以富含螺旋的單體形式與神經(jīng)囊泡結(jié)合,參與囊泡形狀調(diào)節(jié)、神經(jīng)遞質(zhì)釋放、化學(xué)信號傳遞等生理功能;在病理情況下它會發(fā)生異常聚集,形成具有毒性的寡聚體或纖維。2020年Ray等[5]首次在體外實驗中觀察到了αSyn形成的小液滴,并發(fā)現(xiàn)液滴流動性隨時間逐漸降低,最終轉(zhuǎn)變成固態(tài)聚集體。同年,Hardenberg等[123]在細胞實驗和試管實驗中分別觀察到了αSyn的液態(tài)凝聚物及其進一步轉(zhuǎn)變成的凝膠狀聚集體。上述結(jié)果表明αSyn不僅能發(fā)生液液相分離,且其相分離與聚集密切相關(guān)。進一步研究表明,pH值、鹽濃度、擁擠劑等微環(huán)境[129],乙?;?29]和截短[130]等翻譯后修飾,黃酮類小分子[131]等均能調(diào)控αSyn的相分離。
2015年Molliex等[9]通過添加類泛素蛋白修飾分子標記(SUMO)降低蛋白質(zhì)溶解度的方法,首次觀察到了全長TDP-43蛋白的相分離。2016年,Conicella等[6]觀察到了TDP-43 LCD區(qū)域的相分離,并發(fā)現(xiàn)位于321~340區(qū)域的6個ALS突變對LCD相分離能力具有破壞作用。黃介嶸課題組[132]利用NMR和光學(xué)顯微技術(shù)研究了G298S等三個ALS相關(guān)突變體的相分離能力,提出疏水相互作用驅(qū)動LCD的相分離。吝易等[133]的研究表明該區(qū)域只在酸性條件下才有較高的螺旋傾向性,而在中性或堿性條件(pH>6.5)下螺旋傾向性降低,β傾向性升高[133]。最近,McKnight課題組[134]將位于316~339的螺旋區(qū)域、能形成側(cè)鏈氫鍵的氨基酸分別突變成甘氨酸,系統(tǒng)研究了23種突變對TDP-43 LCD相分離能力的影響,發(fā)現(xiàn)只有P320G突變能夠完全抑制LCD的相分離。除突變外,翻譯后修飾也能調(diào)控TDP-43的相分離,如C端磷酸化能增加TDP-43小液滴的流動性、抑制其纖維化[135]。
2017年Ambadipudi等[15]首次在試管實驗中觀察到Tau蛋白微管結(jié)合域的液態(tài)凝聚物,并發(fā)現(xiàn)磷酸化能增強其相分離能力;2018年,Wegmann等[8]首次觀察到了帶GFP標記的全長Tau蛋白形成的小液滴,該液滴隨時間失去流動性,轉(zhuǎn)變?yōu)楣虘B(tài)聚集體。2020年,Zhang等[136]在體外細胞實驗中觀察到了全長Tau蛋白的液態(tài)凝聚物。除此之外,研究人員還通過多種實驗手段研究了Tau蛋白相分離的微觀機制。Ambadipudi等[137]通過NMR實驗找到了對Tau微管結(jié)合域K18相分離重要的3個六肽片段和4個KXGS片段。Boyko等[138]通過研究多個Tau蛋白截短體的相分離能力,提出Tau蛋白的相分離主要由N端負電荷與C端正電荷之間的靜電吸引所驅(qū)使;Majumdar等[139]測量了K18溶液在相分離不同階段的熒光光譜,發(fā)現(xiàn)K18單體在凝聚相中比在溶液中具有更伸展的構(gòu)型,由此提出,單體構(gòu)象的轉(zhuǎn)變以及單體-水相互作用的增強是K18相分離的驅(qū)動力之一。氨基酸突變能影響Tau的相分離:K274Q突變能顯著降低Tau蛋白相分離的臨界濃度[140];雖然疾病相關(guān)突變體P301L、G272V、ΔK280對Tau的相分離能力沒有顯著影響,卻能加速液-固相變[141]。
2015年P(guān)atel等[142]通過體外重組實驗發(fā)現(xiàn),全長FUS蛋白能夠通過液液相分離形成小液滴,且這些液滴隨時間會發(fā)生液固相變形成固態(tài)聚集體。Kang等[143]通過DIC方法發(fā)現(xiàn)LCD區(qū)域單獨也可以發(fā)生相分離,對FUS相分離的發(fā)生具有驅(qū)動作用。Avni等[128]采用一種基于拉曼散射光譜的高靈敏單液滴振動方法,表征了FUS蛋白液滴內(nèi)部的分子間相互作用,并提出陽離子-π與π-π相互作用對FUS的液液相分離起到重要作用。磷酸化、甲基化等翻譯后修飾可以調(diào)控FUS的相分離,其效果與翻譯后修飾位點有關(guān)。例如FUS LCD區(qū)域中四個絲氨酸(Ser26、Ser42、Ser61和Ser84)各自的磷酸化均能抑制LCD的液液相分離[144];位于纖維核心片段(37~97)上的絲氨酸或蘇氨酸磷酸化能顯著抑制液滴的形成[22];而Y526氨基酸的磷酸化卻能促進FUS在細胞質(zhì)內(nèi)的相分離[145]。體外試驗發(fā)現(xiàn)精氨酸的甲基化修飾可以抑制FUS的液液相分離[115]。此外,鹽離子和RNA也可以調(diào)節(jié)FUS LCD的相分離能力[146]。
一種蛋白的液液相分離會受到另一種蛋白或RNA的調(diào)控。例如αSyn能分別與TDP-43、Tau蛋白發(fā)生相互作用從而調(diào)節(jié)后者的相行為:αSyn能促使TDP-43 LCD與RNA共同形成的小液滴發(fā)生液固相轉(zhuǎn)變,且形成的纖維相較于TDP-43單獨形成的纖維具有更強的病理毒性[147];αSyn也能夠調(diào)控Tau凝聚物的液固相變[148]。顆粒體蛋白(granulin)也能調(diào)控TDP-43 LCD的相分離,其效果依賴于顆粒體蛋白的種類[149]。Lin等[150]發(fā)現(xiàn)RNA能促進hnRNPA1、FUS等固有無序蛋白的液液相分離。Maharana等[151]發(fā)現(xiàn)RNA在低和高濃度下分別能促進和抑制TDP-43/FUS蛋白的相分離。進一步的研究還表明RNA與TDP-43的特異性結(jié)合能抑制TDP-43凝聚體的液-固相變[121,152]。
隨著蛋白質(zhì)相分離的實驗報道不斷涌現(xiàn),國內(nèi)外多個課題組開始用理論和計算手段闡釋其背后的物理機制,但該領(lǐng)域仍處于起步階段。由于相分離現(xiàn)象涉及大量蛋白分子,體系巨大,目前大都采用連續(xù)場近似或高度簡化的粗?;P?,這些方法能定性給出相圖,幫助理解相分離的熱力學(xué)特性,但缺乏對凝聚物內(nèi)部分子結(jié)構(gòu)細節(jié)、物理相互作用的精確描述。僅有少量工作嘗試采用全原子分子模擬,從單體構(gòu)象分布的角度來研究相分離的微觀機制。
4.3.1 基于平均場的理論和計算研究
Flory-Huggins理論是高分子物理中研究聚合物相分離的理論模型之一。Overbeek和Voorn[153]在該理論的基礎(chǔ)上引入靜電項,實現(xiàn)對帶電聚合物相圖的計算。該方法被用于蛋白質(zhì)相分離的研究,首次給出了Ddx4蛋白N端區(qū)域的相圖,并提出驅(qū)使其相分離的主要相互作用是靜電作用[154]。Chan課題組[155]在上述平均場理論的基礎(chǔ)上引入隨機項近似,發(fā)現(xiàn)電荷分布模式能影響蛋白的相分離能力[圖5(a)]。結(jié)合平均場理論描述的體系能量函數(shù)和體系密度分布的時間演化方程進行模擬采樣(即場理論模擬),可以獲得蛋白體系的相圖[圖5(b)][156-157]。
圖5 研究蛋白質(zhì)液液相分離的相關(guān)計算模擬方法[155,157,159,171,175-176]Fig.5 Computational methods for studying protein liquid-liquid phase separation[155,157,159,171,175-176]
4.3.2 粗粒化分子模擬研究
粗?;P统1挥脕碇苯幽M蛋白的相行為。目前最常用的是Mittal課題組[158-159]開發(fā)的基于長條形模擬盒子的方法——slab模擬(slab simulation)[圖5(c)]。該方法將蛋白質(zhì)簡化為由彈簧勢相連的粗粒小球鏈,每個小球代表一個氨基酸,采用氨基酸疏水性指數(shù)(hydrophobic-scale, HPS)[160]或Kim-Hummer勢函數(shù)[161]來描述小球間的范德華相互作用,采用Debye-Hückel勢函數(shù)來描述靜電相互作用。slab模擬主要優(yōu)點是可以方便地計算高、低密度相的密度。Mittal課題組用這一方法研究了多種蛋白的相分離,例如FUS蛋白LCD域[162]、TDP-43蛋白LCD區(qū)域及多個突變體[163]、LAF-1蛋白RGG結(jié)構(gòu)域[164]等,并系統(tǒng)研究了35種無序蛋白相分離能力的溫度依賴性,區(qū)分了具有上/下臨界溶解溫度(UCST/LCST)相分離行為的蛋白,發(fā)現(xiàn)它們具有不同的氨基酸組成特征[158]。之后,多個課題組采用slab模擬方法,或?qū)ζ鋭莺瘮?shù)及參數(shù)作修正,研究了LAF-1、Ddx4、hnRNA1等蛋白的相分離行為[165-169]。也有課題組借用此粗?;鞍踪|(zhì)模型,在立方盒子中模擬蛋白質(zhì)的相分離[170],但由于計算兩相密度存在困難,通常無法給出相圖。另一種研究蛋白質(zhì)液液相分離并計算相圖的方法是周煥祥課題組[171]開發(fā)的基于Gibbs系綜的模擬方法[圖5(d)]。該方法采用蒙特卡洛方法同時模擬處于兩個獨立盒子(具有不同初始密度)中的蛋白質(zhì),在模擬過程中允許盒子間粒子交換,直到達到穩(wěn)定共存的兩相,他們用該方法研究了RNA調(diào)控蛋白質(zhì)液液相分離的微觀機理[171],區(qū)分了三種對蛋白質(zhì)相分離具有不同影響的調(diào)控因子(regulator)[172]。
上述模擬方法雖然能研究蛋白質(zhì)的兩相共存狀態(tài),并給出相圖,但其模型過于簡化,無法精確描述對相分離重要的物理相互作用(比如π堆積相互作用等),以及溶劑對相行為的影響?;趯蝹€氨基酸簡化為多個小球的粗?;鞍啄P秃惋@式溶劑模型相結(jié)合的方法,Hummer課題組[173]采用修正的Martini 2.2力場研究了FUS蛋白LCD區(qū)域的相分離,計算得到了凝聚相的表面張力和剪切黏度[173];Marrink課題組[174]采用Martini 3.0力場模擬了鏈長為30的聚賴氨酸和聚谷氨酰胺的相分離,并給出了鹽離子和RNA對它們相分離能力的影響。本課題組基于Martini 2.2力場,開發(fā)了一套能精準計算兩相密度、表征蛋白質(zhì)聚集體流動性的計算方法,并系統(tǒng)研究了所有400種二肽的聚集和相分離能力,給出它們的液液相分離傾向性評分(LLPS score),其中對4種典型二肽(QW、GF、WW、VI)相分離能力的預(yù)測得到了實驗驗證,此外,模擬還給出了QW液液相分離的相圖[圖5(e)][175]。
4.3.3 全原子分子模擬研究
雖然粗?;M已被廣泛應(yīng)用于研究蛋白質(zhì)和短肽的相分離能力和相行為,但不能描述對相分離過程具有重要作用的蛋白構(gòu)象特征。全原子模型可以精確表征蛋白的構(gòu)象分布、二級結(jié)構(gòu)特性,預(yù)測對相分離重要的物理相互作用。本課題組[176]通過對Tau蛋白K18單體進行全原子副本交換分子動力學(xué)模擬,發(fā)現(xiàn)K18單體的構(gòu)象特征和物理特性(例如單體塌縮度、二級結(jié)構(gòu)含量和相互作用強度)具有非線性的溫度依賴關(guān)系,與其相分離行為的溫度依賴性一致,表明該蛋白質(zhì)的液液相分離能力編碼在其單體構(gòu)象中,從而為用全原子模型研究蛋白質(zhì)的相分離行為提供了一種新的思路和方法。通過計算蛋白質(zhì)不同區(qū)域二級結(jié)構(gòu)含量的溫度依賴關(guān)系,從K18中找出了對液液相分離和纖維化重要的六肽片段,并得到實驗驗證[圖5(f)]。Zheng等[177]通過將粗?;肿幽M得到的蛋白質(zhì)高密度相還原成全原子模型,表征了液滴中氫鍵、鹽橋等物理相互作用。
4.3.4 蛋白質(zhì)液液相分離數(shù)據(jù)庫和機器學(xué)習(xí)預(yù)測方法
目前已有多個蛋白質(zhì)相分離相關(guān)的數(shù)據(jù)庫被構(gòu)建,例如,DrLLPS儲存了在真核細胞內(nèi)與相分離有關(guān)的43萬多個蛋白質(zhì),并將它們分為scaffold、regulator、client三類[178];LLPSDB[179]和PhaSepDB[180]儲存了文獻中報道的具有相分離能力的蛋白質(zhì)序列及相分離實驗條件等信息;MloDisDB儲存了無膜細胞器及與它們相關(guān)的疾病[181]。Chu等[182]基于LLPSDB給出蛋白質(zhì)信息,測試了采用支持向量機(SVM)、決策樹(DT)、K近鄰(KNN)、梯度提升決策樹(GBDT)等機器學(xué)習(xí)方法,以及詞向量(w2v)等蛋白質(zhì)序列編碼方法,根據(jù)蛋白質(zhì)序列預(yù)測其相分離能力,發(fā)現(xiàn)采用GBDT和w2v方法預(yù)測準確度最高,并用這兩種方法開發(fā)了PSPredictor預(yù)測工具。van Mierlo等[183]提出一種相分離分析和預(yù)測機器學(xué)習(xí)分類器PSAP,成功預(yù)測了DAZAP1、CPEB3等新的具有相分離能力的蛋白。這些數(shù)據(jù)庫和相分離能力預(yù)測工具,為預(yù)測新型蛋白質(zhì)的相分離能力提供了一種簡易方便的手段。
本文簡要介紹了表征蛋白質(zhì)聚集過程、聚集體形貌、相分離能力的實驗和模擬方法,以及多種典型的神經(jīng)退行性疾病相關(guān)蛋白聚集和相分離的研究進展,并簡述了機器學(xué)習(xí)方法在蛋白質(zhì)構(gòu)象空間和相分離能力預(yù)測方面的應(yīng)用。蛋白質(zhì)的可逆液液相分離具有重要生理功能,而不可逆的液固相轉(zhuǎn)變卻能導(dǎo)致疾病,蛋白質(zhì)液液相分離和液固相變微觀機制的闡釋對深入理解神經(jīng)退行性疾病的致病機理具有重要理論意義,同時也是開發(fā)具有潛在治療效果的新型藥物的前提和分子基礎(chǔ)。盡管目前已經(jīng)有大量蛋白質(zhì)聚集和液液相分離的實驗研究,但相關(guān)的模擬研究工作還相對較少,人們對蛋白質(zhì)共聚集和液液相分離的微觀機理、液液相分離與病理性聚集關(guān)聯(lián)的理解還非常有限。表征凝聚體內(nèi)部蛋白質(zhì)的構(gòu)象特征及其關(guān)鍵物理相互作用、液固相變的動力學(xué)和熱力學(xué)特征,對計算模擬和實驗都是一個很大的挑戰(zhàn)。實驗手段和模擬方法相結(jié)合來深入、全面地揭示蛋白質(zhì)相分離和聚集背后的分子機制,是該領(lǐng)域未來重要的研究方向。微觀機制的闡釋對深入理解神經(jīng)退行性疾病的致病機理、開發(fā)具有潛在治療效果的新型藥物有重要理論意義和應(yīng)用價值。