国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多肽色譜保留預(yù)測及其在蛋白質(zhì)組學(xué)中的應(yīng)用

2021-09-14 12:30李翠翠
中國藥科大學(xué)學(xué)報 2021年4期
關(guān)鍵詞:殘基多肽組學(xué)

陳 可,李翠翠,李 博,3*

(1中國藥科大學(xué)藥物分析系,南京211198;2中國藥科大學(xué)蛋白質(zhì)化學(xué)與結(jié)構(gòu)生物學(xué)重點實驗室,南京211198;3中國藥科大學(xué)(杭州)創(chuàng)新藥物研究院,杭州310018)

目前,絕大多數(shù)蛋白質(zhì)組學(xué)的分析都是采用基于串聯(lián)質(zhì)譜的自下而上(bottom-up)的方法,對酶解的肽段進(jìn)行LC-MS分析,通過肽段的串聯(lián)質(zhì)譜數(shù)據(jù)鑒定蛋白質(zhì)[1]。應(yīng)用中色譜共洗脫是多肽串聯(lián)質(zhì)譜鑒定中的常見問題,多達(dá)50%的肽段串聯(lián)質(zhì)譜(MS/MS)譜圖中包含一個以上的肽[2],所產(chǎn)生的豐富質(zhì)譜數(shù)據(jù)使得合理的解析變得困難:一方面碎片離子會受到母離子和共洗脫肽段碎片離子的干擾,增加了數(shù)據(jù)解析的難度;另一方面很多共洗脫多肽無法被鑒定。此外,蛋白質(zhì)的翻譯后修飾(post-translational modifications,PTMs)增加了蛋白質(zhì)及多肽的多樣性,對數(shù)據(jù)分析工作帶來了進(jìn)一步的挑戰(zhàn)。

多肽的色譜保留取決于色譜方法和多肽本身的性質(zhì),而多肽的性質(zhì)在很大程度上是由它們的氨基酸序列決定的。因此在給定的色譜條件下,保留時間(retention time,RT)包含了多肽序列的信息[3-5]。多肽保留時間預(yù)測是將多肽色譜保留行為轉(zhuǎn)變?yōu)榉€(wěn)定獨立的特征時間屬性,作為蛋白質(zhì)組學(xué)中輔助和驗證指標(biāo),增加靶向蛋白質(zhì)組學(xué)的覆蓋率[6],或為數(shù)據(jù)非依賴采集(data independent acquisition,DIA)樣品提供輔助信息,提高譜圖匹配的準(zhǔn)確性[12,34]。

本文對未修飾多肽和修飾多肽保留時間預(yù)測的各類方法進(jìn)行了綜述,對各方法原理、模型、特點及其在蛋白質(zhì)定性及定量中的應(yīng)用進(jìn)行總結(jié),討論了這些方法在蛋白質(zhì)組學(xué)中預(yù)測完整蛋白質(zhì)的可行性和準(zhǔn)確性,并對多肽保留時間預(yù)測方法的發(fā)展方向及其應(yīng)用前景進(jìn)行了展望。

1 未修飾肽段的保留時間預(yù)測方法

為了充分利用色譜保留數(shù)據(jù),已有眾多多肽保留時間預(yù)測方法,見圖1。這些方法大致可以分為4類:基于多肽物理/化學(xué)信息的多肽分子模型法;基于標(biāo)準(zhǔn)肽數(shù)據(jù)的標(biāo)準(zhǔn)化索引法;基于每個氨基酸殘基貢獻(xiàn)的氨基酸殘基參數(shù)法;基于大數(shù)據(jù)分析的機(jī)器學(xué)習(xí)法等。

Figure 1 Four methods of peptide retention prediction:each figure illustrates the principles and characteristics of this four different methods

1.1 多肽分子模型法

在給定的色譜條件下,特定多肽的RT應(yīng)該是恒定的,因此RT是化學(xué)結(jié)構(gòu)依賴性參數(shù)。多肽分子模型法是通過多肽的物理化學(xué)性質(zhì)即肽的結(jié)構(gòu)信息或它們在分離期間的化學(xué)相互作用的信息實現(xiàn)多肽保留時間預(yù)測。分子模型方法偏向于對大分子進(jìn)行物理建模,輔之以氨基酸殘基的貢獻(xiàn)總和進(jìn)行預(yù)測,方法簡便,但缺失了一些影響色譜保留的因素。

1.1.1 定量結(jié)構(gòu)-保留關(guān)系(quantitative structure retention relationship,QSRR) Kaliszan等[7]開發(fā)的基于QSRR的方法使用軟件計算肽序列的一系列化學(xué)特征:氨基酸殘基保留時間總和的對數(shù)lgSumAA,多肽的范德瓦爾(Van der Waals,VDW)體積的對數(shù)lg VDWVol,多肽的計算正辛醇-水分配系數(shù)的對數(shù)clg P。通過多元回歸分析將其組合成預(yù)測函數(shù),用于多肽的保留時間預(yù)測。

Le Maux等[8]則以表觀親水性、氨基酸在序列中位置、肽序列長度三者之間的函數(shù)關(guān)系,建立RT預(yù)測模型。該方法可以較為準(zhǔn)確地預(yù)測未知短肽的氨基酸序列以及區(qū)分同源肽的保留時間。

1.1.2 臨界條件生物大分子液相色譜法(liquid chromatography of biological macromolecules under critical conditions,BioLCCC) BioLCCC基于高分子統(tǒng)計物理學(xué)方法,利用肽鏈的隨機(jī)游動模型及多肽分子在吸附劑孔內(nèi)的空間構(gòu)象對色譜分離過程進(jìn)行建模,同時考慮吸附劑孔內(nèi)的肽的熵和能量補(bǔ)償以,及多肽和固定相之間的有效相互作用能等因素[9]。BioLCCC模型的優(yōu)勢在于可模擬等度或梯度條件下多肽在色譜柱上的吸附分配過程,并能直接計算出給定溶劑組成條件下多肽的保留因子[10]。

1.2 標(biāo)準(zhǔn)化索引法

標(biāo)準(zhǔn)化索引法是利用一組標(biāo)準(zhǔn)肽的保留時間建立數(shù)據(jù)庫,把這些數(shù)值作為其他待測肽的RT預(yù)測的基礎(chǔ)和標(biāo)準(zhǔn)。這樣的標(biāo)準(zhǔn)肽覆蓋不同的疏水性并且易于用MS檢測。只需要進(jìn)行一組標(biāo)準(zhǔn)肽的校正實驗,就可以在后續(xù)所有不同條件的實驗分析中使用其RT信息,進(jìn)而改善了由于色譜系統(tǒng)差異導(dǎo)致RT數(shù)值差異很大的問題。

1.2.1 索引保留時間(indexed retention time,i RT) iRT首先由Escher等[3]提出,iRT量表的標(biāo)準(zhǔn)肽由11種不同于任何一個已知天然序列的肽構(gòu)成。這是一個開放,便攜和標(biāo)準(zhǔn)化的保留時間量表,它的采集窗口小,量化精度高,從而增加了LC-MS的通量和質(zhì)量。目標(biāo)多肽的RT是相對于標(biāo)準(zhǔn)iRT-肽的固定數(shù)值,可以跨實驗室和色譜系統(tǒng)轉(zhuǎn)移[11]。i RT精度與識別數(shù)量之間存在顯著的相關(guān)性。

與多肽分子模型法相比,iRT的一系列方法應(yīng)用更廣泛,大大提高了蛋白質(zhì)組學(xué)數(shù)據(jù)分析的檢出率和準(zhǔn)確性。但由于iRT肽數(shù)量非常有限,主要用于線性梯度條件,其精度有限。

1.2.2 高精度i RT(high-precision iRT) 為了使i RT具有更高的精度,Bruderer等[12]將iRT肽擴(kuò)展到數(shù)千個,利用穩(wěn)健的分段回歸實現(xiàn)iRT和RT間的相互轉(zhuǎn)換。這種高精度iRT算法能增加靶向蛋白質(zhì)組學(xué)中15%的定量信息。高精度i RT的預(yù)測結(jié)果雖然能一定程度上不為色譜條件所轉(zhuǎn)移,但仍需要避免操作中流動相中酸的種類及濃度變化帶來的影響。

1.3 氨基酸殘基參數(shù)法:從加性到序列特異性

基于殘基參數(shù)的方法最初旨在預(yù)測肽段序列中每個氨基酸殘基對整條肽的RT的影響。氨基酸殘基的個體貢獻(xiàn)通常被稱為保留系數(shù)(retention coefficients,RC),那么整個肽的保留就是各個貢獻(xiàn)的總和(一組RC)。在給定的色譜條件下,可以通過簡單地總結(jié)(累加)組成肽的氨基酸殘基的RC來估計肽的RT,這便是加性模型(additive model)。

1.3.1 加性模型 該方法最早的實例是使用一組25個短肽(胰高血糖素、生長抑素等)以及它們觀察到的RT來得到序列中存在的每個氨基酸殘基的保留系數(shù)[13]。使用HP 9815A計算器計算RC,并僅使用肽的氨基酸組成進(jìn)行預(yù)測,而未涉及到序列中每個氨基酸的位置、空間或構(gòu)象的任何信息。

隨后的研究表明[14],早期的加性模型有很大的局限性,在新的色譜條件下RC需要進(jìn)行重新校準(zhǔn);對含有50個殘基的多肽需要引入肽鏈長度校正參數(shù)。因為即使是對于短肽,當(dāng)相鄰氨基酸殘基不同或末端基團(tuán)理化性質(zhì)不同時,也可獲得不同的RC[15-16]。但在這樣的情況下,加性模型仍無法準(zhǔn)確闡明吸附色譜法中肽保留的所有特征。只有非常小的肽(2~4個氨基酸殘基)和沒有任何二級結(jié)構(gòu)才有助于實現(xiàn)加性模型的高預(yù)測準(zhǔn)確性。

1.3.2 序列特異性模型 在加性模型的基礎(chǔ)研究上,Krokhin等[4]開發(fā)了序列特異性保留計算器(sequence-specific retention calculator,SSRCalc),該算法的第1個版本使用離線HPLC-MALDI MS收集了346個胰蛋白酶肽的數(shù)據(jù)集,在加性模型的基礎(chǔ)上進(jìn)行校正,產(chǎn)生了兩組氨基酸殘基RC(一組對應(yīng)于N-末端和一組對應(yīng)于所有其他位置)和兩組校正因子(肽長度和總疏水性)。

該算法的第2個版本便將數(shù)據(jù)集擴(kuò)大至2 000,除了引入短肽的氨基酸殘基的單獨RC,還校正了等電點、帶電肽的最近鄰效應(yīng)和形成螺旋結(jié)構(gòu)的傾向(脯氨酸重復(fù))。在此基礎(chǔ)上,Eluta‐tor[2]不僅限于最近鄰,進(jìn)一步考慮了氨基殘基的鄰近效應(yīng)。因為即使對于肽鏈中多個位置分隔開的殘基,其相互作用也具有統(tǒng)計學(xué)意義。

基于參數(shù)的方法的局限性就在于它們通常被優(yōu)化用于預(yù)測特定色譜系統(tǒng)的保留時間。Dwivedi等[17]開發(fā)了二維LC系統(tǒng)的多肽保留預(yù)測算法。其使用了廣泛的離子對和pH條件,RP(pH 10~pH 2)2D HPLC-ESI/MS系統(tǒng)提供了更高的一維分離效率,并增加了識別多肽的數(shù)量(約10 000個胰蛋白酶肽)。在約280 000個胰蛋白酶肽的數(shù)據(jù)集分析中,發(fā)現(xiàn)側(cè)鏈具有N帽誘導(dǎo)的兩親性螺旋肽與C18吸附劑的疏水作用占主導(dǎo)地位,其保留比預(yù)期更強(qiáng)[18]。于是便將描述肽的兩親性螺旋性特征(富含丙氨酸)和N帽穩(wěn)定性基序(N-帽附近的N1和N2位有疏水殘基天冬氨酸等)結(jié)合到SSRCalc中[19]。

在親水相互作用液相色譜(hydrophilic interac‐tion liquid chromatography,HILIC)系統(tǒng)中,攜帶N帽螺旋穩(wěn)定基序和兩親性高螺旋的肽保留比預(yù)測值偏低,這是因為肽骨架上的親水性羰基和酰胺基團(tuán)與螺旋結(jié)構(gòu)間發(fā)生氫鍵穩(wěn)定,它決定了HILIC中獨特的肽的序列依賴性行為[20]。

另一種基于SSRCalc的肽保留預(yù)測模型陽離子交換(strong cation exchange,SCX)系統(tǒng)的肽段分離和預(yù)測機(jī)制則是基于庫侖定律驅(qū)動的肽在離子交換色譜中的靜電相互作用[21]。肽的電荷越大,庫侖相互作用越強(qiáng),保留也就越強(qiáng),堿性殘基會增加肽的N末端附近的保留,酸性氨基酸則相反,疏水性氨基酸也表現(xiàn)出較低的保留系數(shù)。這決定了SCX中獨特的肽的序列依賴性行為。

由此也能看出,對于不同的實驗條件,它們的預(yù)測結(jié)果力就會發(fā)生偏差,需要引入特定的參數(shù)進(jìn)行校正才能獲得良好的相關(guān)性。SSRCalc是目前使用最廣泛的基于參數(shù)的保留時間預(yù)測器,可以說是該領(lǐng)域的基準(zhǔn)工具,也是最準(zhǔn)確的保留時間預(yù)測模型之一。在肽的電荷、長度、疏水性、二級結(jié)構(gòu)、螺旋結(jié)構(gòu),氨基酸的個體保留和相對于肽末端的位置乃至不同色譜系統(tǒng)等方面的優(yōu)化,SSRCalc已經(jīng)取得了較大進(jìn)展。

1.4 機(jī)器學(xué)習(xí)法

利用人工智能的機(jī)器學(xué)習(xí)法也被用于多肽保留時間預(yù)測。方法利用計算機(jī)算法從已知的輸入數(shù)據(jù)中獲得信息,輸出數(shù)值,進(jìn)行訓(xùn)練。根據(jù)訓(xùn)練中獲得的輸入輸出數(shù)據(jù)建立已知參數(shù)模型,對目標(biāo)肽段的RT進(jìn)行預(yù)測?;跈C(jī)器學(xué)習(xí)的RT預(yù)測方法可以分為兩大類:傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。機(jī)器學(xué)習(xí)方法又分為兩個子類:一類為人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)[22-23],另一類是支持向量回歸(support vector regression,SVR)算法[5,24]。

1.4.1 人工神經(jīng)網(wǎng)絡(luò)(ANN)最初ANN以20個氨基酸殘基的組成為基礎(chǔ),由20個輸入節(jié)點、2個隱含節(jié)點和1個輸出節(jié)點組成[22]。使用約7 000個已知RT的訓(xùn)練肽進(jìn)行網(wǎng)絡(luò)訓(xùn)練,并利用來自于另一微生物種的約5 200個肽(多達(dá)54個氨基酸殘基)進(jìn)行鑒定評估,結(jié)合遺傳算法優(yōu)化線性方程系數(shù)以進(jìn)行時間和梯度斜率校正,將肽保留數(shù)據(jù)歸一化到一定個范圍(0~1),從而將肽RT的重現(xiàn)性誤差縮小至1%。在后續(xù)對該方法的改進(jìn)中采用由1 052個輸入節(jié)點、24個隱含節(jié)點和1個輸出節(jié)點組成的ANN結(jié)構(gòu),同時編碼了氨基酸位置,肽長度和疏水性,最近鄰氨基酸以及肽的二級結(jié)構(gòu)(螺旋、片狀、卷曲)等描述符[25]。使用20多種不同生物中的約345 000個已識別肽來訓(xùn)練網(wǎng)絡(luò),經(jīng)過訓(xùn)練得出了比優(yōu)化前更好的1 303個肽的預(yù)測準(zhǔn)確度。該算法的主要限制因素在于需要大量的訓(xùn)練肽,這使得其難以適用于其他色譜條件。

1.4.2 支持向量回歸(SVR) 為了達(dá)到使用較少的訓(xùn)練肽的同時也能適應(yīng)不同的色譜條件,Moruz等[5]開發(fā)了一個基于SVR的RT預(yù)測算法Elude。Elude參數(shù)化了約60個氨基酸特征:氨基酸組成、肽長度、末端殘基類型、高度帶電的氨基酸殘基、最近鄰效應(yīng)、疏水性(平均疏水性,N和C末端疏水性,最多或最少疏水性氨基酸的出現(xiàn)次數(shù))、二級結(jié)構(gòu)等。方法主要特點在于:在有足夠訓(xùn)練肽數(shù)據(jù)的情況下,Elude直接構(gòu)建一組線性保留指數(shù),計算肽特征并使用SVR進(jìn)行最佳組合,從而達(dá)到預(yù)測保留時間的目的。如果沒有足夠數(shù)據(jù),Elude先運(yùn)行少量對照肽,再從庫中選擇最合適(預(yù)測RT和觀察RT的相關(guān)性最高)的模型并將其校準(zhǔn)。使用對異常值處理比Pearson相關(guān)系數(shù)更穩(wěn)健的FAST-最小修整平方(FAST-least trimmed squares,F(xiàn)AST-LTS)回歸方法進(jìn)行選擇和校準(zhǔn)。這種方案確保了該算法可以應(yīng)用于不同的色譜條件,并保證了最小性能損失。

在此基礎(chǔ)上又衍生出來許多SVR組合算法預(yù)測模型。串并行支持向量機(jī)(serial and parallel support vector machine,SP-SVM)包含一個僅用于模型訓(xùn)練的SVR(p-SVR)和4個用于RT預(yù)測的SVM(C-SVM、1-SVR、s-SVR和n-SVR)[26]。其中,C-SVM計算肽色譜行為特征,1-SVR和s-SVR進(jìn)行目標(biāo)肽段RT預(yù)測,n-SVR對肽RT歸一化,以表征多肽之間的相互作用,進(jìn)一步提高了其預(yù)測準(zhǔn)確度和性能。

不確定性可以公式化為目標(biāo)樣本與訓(xùn)練數(shù)據(jù)集之間的關(guān)系,所以掌握了這樣的預(yù)測策略之后,GPTime便將SVR替代為高斯計算過程(Gaussian Processes,GP),以同樣的選擇-訓(xùn)練-校準(zhǔn)-計算模式,證明了GP與SVR同等的準(zhǔn)確性,同時提供了預(yù)測RT的不確定性估計[27]。

Lu等[28]從新的角度出發(fā),提出了一個基因座特異性保留預(yù)測因子(locus-specific retention pre‐dictor,LsRP),它新穎地將氨基酸基因座信息與SVR算法結(jié)合。將每個肽序列轉(zhuǎn)化為由0和1組成的特征基因座載體,使基因座載體和肽序列之間保持一對一的對應(yīng)關(guān)系,再進(jìn)行SVR訓(xùn)練和評估。LsRP最終提供了0.95~0.99的預(yù)測相關(guān)系數(shù)。

1.4.3 深度學(xué)習(xí) 深度學(xué)習(xí)可以自動從龐大數(shù)據(jù)中有效解讀復(fù)雜關(guān)系并學(xué)習(xí)特征和模式,無需進(jìn)行人工特征設(shè)計,因此特別適合大型的復(fù)雜數(shù)據(jù)集的科學(xué)領(lǐng)域?;谏疃葘W(xué)習(xí)的算法大致分為3類:遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和混合網(wǎng)絡(luò),其中RNN是最主要的網(wǎng)絡(luò)架構(gòu)。

Prosit是RNN的代表性算法[29],由一個編碼器和一個解碼器組成。編碼器將肽序列編碼為離散整數(shù)向量(每個氨基酸殘基長度為20)的表示形式,而解碼器則對該表示形式進(jìn)行解碼,預(yù)測RT。編碼器由一個嵌入層,一個BiGRU層,一個遞歸GRU層和一個關(guān)注層組成[30]。解碼器將序列的表示形式連接到密集層從而進(jìn)行預(yù)測。同樣基于RNN架構(gòu)的DeepMass則使用一鍵編碼,其網(wǎng)絡(luò)包括一個BiLSTM層、一個LSTM層,兩個致密層[31]。GuanMCP2019[32]則使用了一個屏蔽層、兩個BiL‐STM層、一個LSTM層,兩個致密層。與SSRCalc和Elude比較,這幾種算法都顯示出優(yōu)異的性能,對RT的預(yù)測可以達(dá)到接近1的相關(guān)性。

CNN包含卷積層和池化層,可在不同的空間尺度上提取序列特征。Ma等[33]提出DeepRT,是CNN和RNN的混合網(wǎng)絡(luò)架構(gòu),其預(yù)測程序是:在特征自主學(xué)習(xí)(CNN層和LSTM層)之后,利用主成分分析(principal component analysis,PCA)進(jìn)行降維,然后利用3種常規(guī)機(jī)器學(xué)習(xí)方法(SVR,隨機(jī)森林(random forest,RF),梯度提升(gradient boosting,GB))進(jìn)行建模。Deep DIA[34]和Auto RT[35]都是這樣的混合架構(gòu),區(qū)別是二者的RNN層分別為BiLSTM和GRU。值得一提的是,AutoRT有兩個獨特功能:其一是通過遺傳算法實現(xiàn)自動深度神經(jīng)網(wǎng)絡(luò)體系架構(gòu)搜索(network architecture search,NAS),從而識別出10個最匹配的模型進(jìn)行組合預(yù)測;另一個就是轉(zhuǎn)移學(xué)習(xí),轉(zhuǎn)移學(xué)習(xí)的特點是大型公共數(shù)據(jù)集的使用。使用大型公共數(shù)據(jù)集(約174 182條肽)對基礎(chǔ)模型進(jìn)行訓(xùn)練,然后用少量目標(biāo)數(shù)據(jù)對基礎(chǔ)模型進(jìn)行微校準(zhǔn)以適用于特定的實驗條件。有這樣的公共數(shù)據(jù)集在,即使實驗數(shù)據(jù)量只有幾百條也能夠得到獲得高度準(zhǔn)確的模型。

對于較小的數(shù)據(jù)集,傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常優(yōu)于深度學(xué)習(xí)方法,但是隨著訓(xùn)練集的增多,深度學(xué)習(xí)方法的優(yōu)勢便逐漸顯現(xiàn),性能也大大優(yōu)于機(jī)器學(xué)習(xí)[36]。

2 具有翻譯后修飾多肽的保留時間預(yù)測

PTM能夠改變蛋白質(zhì)的電荷狀態(tài)、疏水性、空間結(jié)構(gòu)和穩(wěn)定性,最終影響其與受體等的相互作用及功能。目前已發(fā)現(xiàn)300多種不同的PTM,主要形式包括磷酸化、糖基化、乙?;Ⅳ然?、糖基化以及二硫鍵的配對等[37]。PTM引起的肽RT的變化取決于修飾類型和數(shù)量,發(fā)生修飾的氨基酸殘基種類及其在序列中的位置。

2.1 特定PTM修飾

目前有很多研究在開發(fā)適用于PTM肽的RT預(yù)測,大多是在已有模型基礎(chǔ)上引入修飾的氨基酸殘基的模型參數(shù)(RC,疏水性等)來進(jìn)行預(yù)測。如Reimer[38]引入不同的幾組修飾肽的保留數(shù)據(jù),建立一種序列依賴性的方法來預(yù)測N端烷基化修飾的肽段。烷基化修飾使N末端殘基的疏水性增加,表現(xiàn)出更強(qiáng)的保留。同時洗脫條件的變化對保留時間后移的影響也更為明顯。

BioLCCC的拓展模型可以預(yù)測具有磷酸化修飾的肽[39],天冬酰胺脫酰胺化修飾和天冬氨酸異構(gòu)化修飾的肽[40]。當(dāng)C18柱與醋酸、甲酸(formic acid,F(xiàn)A)、或三氟乙酸(trifluoroacetate,TFA)等離子對試劑使用時,磷酸肽通常比它們的未磷酸化對應(yīng)物表現(xiàn)出更強(qiáng)的保留,而當(dāng)使用疏水性較小的固定相(如C4-硅膠柱)時,保留順序逆轉(zhuǎn)[41]。色譜條件的改變?nèi)鏡P C18固定相的離子對試劑可能會影響其分離的選擇性及預(yù)測準(zhǔn)確性,用FA代替TFA則需要重新校準(zhǔn)模型參數(shù)。未來的算法研究無疑需在流動相極性的影響上進(jìn)行更多的探索。

2.2 任意PTM修飾

Elude 2.0[42]能夠適用于任意PTM,前提是需要足夠的數(shù)據(jù)來解釋每種修飾氨基酸的特性。為了將其功能擴(kuò)展到修飾肽,刪除了疏水性指數(shù)Kyte-Doolittle,修改并添加了部分描述符,如25%最低和最高RC的發(fā)生次數(shù)/連續(xù)出現(xiàn)次數(shù)等。在RPLC-FA系統(tǒng)中,乙?;⒍□;捅;揎椀碾耐ǔT谖葱揎楇闹笙疵摚琢虬彼?、蛋氨酸氧化修飾的肽在未修飾肽之前洗脫。Elude2.0對修飾和未修飾的肽具有同樣優(yōu)異的預(yù)測性能,所有數(shù)據(jù)集的預(yù)測和實驗RT之間的相關(guān)系數(shù)為0.93~0.98。由于未知肽段序列的每一個位點都可能存在修飾且會導(dǎo)致保留行為的差異,因此,為了準(zhǔn)確擴(kuò)展模型,需要在統(tǒng)計上大批量地、可靠地識別并數(shù)據(jù)化目標(biāo)修飾肽段的RT。

在深度學(xué)習(xí)方法中,大多數(shù)模型采用的一鍵編碼氨基酸的形式限制了PTM肽段的適用性[43]。DeepLC[44]是唯一可以預(yù)測修飾多肽RT的模型,甚至是訓(xùn)練集中不存在的修飾類型。DeepLC采用CNN架構(gòu),每種肽被編碼為矩陣來計算其原子組成,對于含修飾氨基酸的多肽,修飾的原子組成直接加到未修飾殘基的原子組成上。這種編碼使模型能夠?qū)W習(xí)并歸納未知的修飾肽段??紤]到異構(gòu)體的存在,除此編碼外,還編碼了位置特定信息和全局特征信息,這使得Deep LC預(yù)測修飾肽段(尤其是酰基修飾)和未修飾肽段的RT準(zhǔn)確度相當(dāng)。在20個數(shù)據(jù)集中(SWATH Library29,HeLa HF30和DIA HF31等),Pearson相關(guān)系數(shù)都能達(dá)到0.99。但DeepLC對具有復(fù)雜修飾(磷酸化或異構(gòu)化)的肽段進(jìn)行RT預(yù)測還是較為困難,準(zhǔn)確度較低,需要一些與復(fù)雜修飾相關(guān)的訓(xùn)練數(shù)據(jù)才能進(jìn)一步提高性能。

3 應(yīng)用

在靶向蛋白質(zhì)組學(xué)中,保留時間預(yù)測模型可以潛在地幫助生成數(shù)據(jù)采集的參考列表,實現(xiàn)更多的蛋白質(zhì)同時定量。在bottom-up蛋白質(zhì)組學(xué)中,這些模型主要用于在數(shù)據(jù)庫搜索過程中,作為肽匹配圖譜(peptide-spectrum matches,PSM)的額外驗證標(biāo)準(zhǔn)。近年來,越來越多的研究將多肽RT預(yù)測模型集成到蛋白質(zhì)組學(xué)數(shù)據(jù)分析工作流程中。這些不同原理的方法已大量應(yīng)用于數(shù)據(jù)依賴采集(data dependent acquisition,DDA)靶向蛋白質(zhì)組學(xué)實驗、DIA蛋白質(zhì)組學(xué)實驗和完整蛋白質(zhì)RT預(yù)測的綜合模型開發(fā)中。

3.1 靶向蛋白質(zhì)組學(xué)分析中的肽保留時間預(yù)測

對于靶向蛋白質(zhì)組學(xué)中關(guān)鍵的第一步“方法開發(fā)建立”,預(yù)測的RT已用于減少分析靶標(biāo)所需的實驗次數(shù)。采集窗口越小,便可以在不損害數(shù)據(jù)質(zhì)量的情況下靶向更多的肽。復(fù)雜的背景可能導(dǎo)致選擇反應(yīng)監(jiān)測(selected reaction monitoring,SRM)測量結(jié)果的模糊性,因為樣品中可能存在具有與目標(biāo)肽段類似的干擾肽。在DDA中,Prosit[29]包含來自于576 256個母離子的21 764 501高質(zhì)量譜圖,覆蓋98.5%的人類基因。使用預(yù)測得到的準(zhǔn)確的RT和二級譜進(jìn)行匹配打分,大大提高了對靶向肽段的檢出能力(增加20%)。類似的還有基于SSRCalc的軟件應(yīng)用,簡化了質(zhì)譜儀方法的開發(fā)流程[45],可測量釀酒酵母中MS可觀察到的所有蛋白質(zhì)(100%)[46]。隨著色譜柱的變化或儀器中歸一化碰撞能量(normalized collision energy,NCE)調(diào)諧漂移,基于DDA的譜庫會隨著時間的流逝而變得過時。

3.2 DIA蛋白質(zhì)組學(xué)分析中的肽保留時間預(yù)測

二級譜是混合譜,DIA的數(shù)據(jù)來源于很多肽段,而且碎片離子還會受到未碎裂的母離子的干擾,在短色譜梯度與復(fù)雜樣品同時出現(xiàn)的情況下,干擾會進(jìn)一步被放大。在沒有碎片譜圖提供的高可信度數(shù)據(jù)的情況下,可以將觀察到的肽段RT和未碎片化的質(zhì)量用作肽段鑒定的附加信息,過濾錯誤識別的代謝產(chǎn)物。這些預(yù)測算法的優(yōu)勢在于可以確保庫始終是最新的,甚至可以考慮不同儀器平臺之間的差異。DIA方法思路大致為,使用相似樣品來源(如釀酒酵母蛋白質(zhì))數(shù)據(jù)庫及Prosit14輔助生成RT預(yù)測的譜庫(320 150個獨特的肽序列),經(jīng)過經(jīng)驗校正(6次氣相分餾DIA進(jìn)樣),新庫包含來自4 464個蛋白質(zhì)組的64 597個肽序列[47]。肽和蛋白質(zhì)的FDR為1%。每種肽采集后從庫中選擇得分最高的電荷狀態(tài),刪除其他得分較低的電荷狀態(tài)。然后,對于每個鑒定出的肽,計算所有碎片離子的總峰形,并提取與該形狀相關(guān)的所有可能的b型或y型離子的碎片峰面積強(qiáng)度進(jìn)行定量。

高精度iRT[12]能夠?qū)崿F(xiàn)在很多不同色譜系統(tǒng)下,將肽段保留時間特征轉(zhuǎn)換成精確可預(yù)測的時間信息,從而高精度地預(yù)測肽段RT,實現(xiàn)更多蛋白質(zhì)的同時定量(增加25%)。只需一次靶標(biāo)肽段的校正實驗,形成新的iRT計算器,就可計算該色譜系統(tǒng)下的待測肽段的保留時間預(yù)測值。隨后便可利用得到的所有待測肽段的預(yù)測RT,設(shè)計適合的梯度靶向分析方法,提高更多峰鑒定的可靠性。Klammer等[24]基于SVR算法對釀酒酵母細(xì)胞裂解物的檢出率增加了50%,F(xiàn)DR降低至3%。Moruz等[48]基于Elude算法分別在酵母和人類的兩個三重數(shù)據(jù)集上進(jìn)行了評估,在FDR為1%的情況下,蛋白質(zhì)的鑒定檢出率多出了7%。目前在DIA中,較有前景和應(yīng)用空間的是深度學(xué)習(xí)算法,在此類模型中,可從經(jīng)驗示例中了解肽序列(或衍生自該序列的特征)與LC保留時間頂點之間的映射。Prosit[29]可以直接用于DIA的建庫(FDR=1%)。DeepDIA[34]構(gòu)建了計算機(jī)模擬血漿/血清蛋白質(zhì)組庫,平均檢測到的蛋白質(zhì)組超過400個,是從相同數(shù)據(jù)中基于最新DDA庫檢測到的蛋白質(zhì)組的兩倍。DIA-NN[49]可通過短色譜梯度實現(xiàn)可靠的鑒定和深度蛋白質(zhì)組學(xué)覆蓋。其基于深度神經(jīng)網(wǎng)絡(luò)進(jìn)行量化和干擾校正,來區(qū)分真實信號和噪聲。使用iRT進(jìn)行保留時間校準(zhǔn),同時自動執(zhí)行質(zhì)量校正。在考慮0.5%FDR進(jìn)行采集的情況下,比基于SSRCalc的方法識別出K562人細(xì)胞系全細(xì)胞胰蛋白酶消化物更多的前體肽段(約35 000個)。

3.3 完整蛋白的保留時間預(yù)測

豐富的多肽保留預(yù)測模型的經(jīng)驗?zāi)軌驊?yīng)用在完整蛋白質(zhì)的RT預(yù)測上,當(dāng)然也更具挑戰(zhàn)性。Bio LCCC,基于高分子統(tǒng)計物理學(xué)方法,把吸附劑孔內(nèi)的所有多肽鏈分子的可能構(gòu)型都考慮在內(nèi),對于完整蛋白質(zhì)的RT預(yù)測有良好的可行性。研究表明,BioLCCC模型在12個完整蛋白質(zhì)[50]和52個完整蛋白質(zhì)[51](氨基酸殘基數(shù)多達(dá)583)的數(shù)據(jù)集中,實驗RT和預(yù)測RT之間的相關(guān)性可達(dá)到0.89和0.90。但該方法的不足之處就在于其針對的是鏈狀結(jié)構(gòu),對于含二級三級結(jié)構(gòu)的蛋白質(zhì)來說,相關(guān)性有待進(jìn)一步提高。不局限于RPLC,Xu等[52]使用偏最小二乘回歸將模型蛋白質(zhì)的等電點,相對分子質(zhì)量和水兩相分配系數(shù)與陽離子交換色譜(ion-exchange chromatography,IEC)的RT相關(guān)聯(lián)。對9種蛋白質(zhì)進(jìn)行訓(xùn)練時獲得0.91的線性相關(guān)性。此外,疏水相互作用色譜(hydrophobic interaction chromatography,HIC)是蛋白質(zhì)分離純化的關(guān)鍵技術(shù)。Chen等[53]生成了基于SVM方法的定量結(jié)構(gòu)特性關(guān)系(quantitative structure property relationship,QSPR)模型,使用氨基酸組成來估算有效的蛋白質(zhì)疏水性,用于預(yù)測模型中未包含的蛋白質(zhì)的等度及進(jìn)一步的線性梯度保留參數(shù)。對于20個蛋白質(zhì)的數(shù)據(jù)集,實驗RT和預(yù)測RT之間的相關(guān)性可達(dá)到0.97。而定量結(jié)構(gòu)活性關(guān)系(quantitative structure activity relationship,QSAR)則使用同源性建模和分子動力學(xué)模擬來生成單克隆抗體(monoclonal antibodies,mAbs)的3D結(jié)構(gòu),然后從中計算結(jié)構(gòu)描述符以預(yù)測mAbs的HIC保留時間[54]。

4 總結(jié)與展望

在基于LC-MS技術(shù)的蛋白質(zhì)組學(xué)中,保留時間對多肽鑒定及定量的準(zhǔn)確性、完整性和深入性起到重要作用。與基于多肽分子模型的方法相比,索引及序列特異性模型的應(yīng)用性更廣泛,但其預(yù)測能力仍受限于色譜條件。隨著研究的不斷深入,在更多數(shù)據(jù)集、更多未知肽段及蛋白面前,通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型,構(gòu)建專屬于每一臺儀器的網(wǎng)絡(luò)模型或組合模型,采集時間可以從幾天大大縮短至幾小時。PTM修飾肽的保留模型的發(fā)展未來集中在,在訓(xùn)練集中無已知修飾類型的參數(shù)的前提下,優(yōu)化由空間結(jié)構(gòu)變化導(dǎo)致的修飾這一方面的數(shù)據(jù)。在多肽RT預(yù)測領(lǐng)域,仍需進(jìn)一步提高模型的準(zhǔn)確性,建立統(tǒng)一的評價標(biāo)準(zhǔn),開發(fā)更具普適性的算法,使RT預(yù)測真正成為蛋白質(zhì)組學(xué)研究的重要手段之一。

猜你喜歡
殘基多肽組學(xué)
多肽類藥物藥代動力學(xué)研究進(jìn)展
人分泌型磷脂酶A2-IIA的功能性動力學(xué)特征研究*
基于各向異性網(wǎng)絡(luò)模型研究δ阿片受體的動力學(xué)與關(guān)鍵殘基*
生根提苗就用碧邦有機(jī)多肽氮水溶肥
影像組學(xué)在腎上腺腫瘤中的研究進(jìn)展
Streptomyces sp.DJ菌株產(chǎn)生的角蛋白酶的序列分析
東莨菪堿中毒大鼠的代謝組學(xué)
“殘基片段和排列組合法”在書寫限制條件的同分異構(gòu)體中的應(yīng)用
影像組學(xué)在核醫(yī)學(xué)影像中的應(yīng)用進(jìn)展
蛋白質(zhì)組學(xué)技術(shù)在胃癌研究中的應(yīng)用
民权县| 天津市| 东方市| 河池市| 宁海县| 洛川县| 常德市| 土默特右旗| 金昌市| 含山县| 冷水江市| 西安市| 泸州市| 二连浩特市| 上犹县| 潢川县| 天门市| 五指山市| 荥经县| 仁布县| 华池县| 图木舒克市| 邳州市| 区。| 珠海市| 安义县| 东丽区| 镇原县| 厦门市| 兴文县| 江阴市| 定西市| 根河市| 昌乐县| 周至县| 吴桥县| 满洲里市| 安溪县| 常州市| 长岭县| 和林格尔县|