劉扣龍 鄭浩然
近年來隨著質(zhì)譜技術(shù)的發(fā)展,以及儀器精度的提高,主要采用液相色譜-串聯(lián)質(zhì)譜技術(shù)(liquid chromatography-tandem mass spectrometry,LC-MS/MS)對大規(guī)模蛋白質(zhì)組進行分析[1]。蛋白質(zhì)組數(shù)據(jù)采集策略主要有兩種,一種是數(shù)據(jù)依賴性采集(data dependent acquisition,DDA)[2],另一種是數(shù)據(jù)非依賴性采集(data independent acquisition,DIA)[3]。在DIA中,將質(zhì)譜整個掃描范圍分為若干個窗口,循環(huán)地對每個窗口中的所有離子進行碎裂,而不是選擇具有特定質(zhì)荷比的離子,具有高通量、可重復(fù)性高的優(yōu)點[4]。但采用DIA方法進行碎裂,會導(dǎo)致二級質(zhì)譜是由多個母離子同時碎裂產(chǎn)生的混合質(zhì)譜,母離子與碎裂子離子之間不存在對應(yīng)關(guān)系,顯著增加了肽段定性和定量的復(fù)雜度。
目前在DIA數(shù)據(jù)的蛋白質(zhì)組分析中,主要都是基于提取離子色譜圖(extracted ion chromatogram,XIC)的方法[5]。例如,OpenSWATH[6]通過集成各種軟件工具來輔助DIA分析,提取目標(biāo)肽的色譜圖,對碎片離子的共洗脫峰進行評分,最后進行統(tǒng)計分析,其在數(shù)據(jù)處理方面較繁瑣。Wang等[7-8]計算了實驗質(zhì)譜與理論質(zhì)譜之間的余弦相似度,針對兩個肽段構(gòu)成的混合質(zhì)譜的情況進行求解,并給出非混合質(zhì)譜與混合質(zhì)譜的區(qū)分方法,提高了搜索質(zhì)譜庫的靈敏度。MSPLIT-DIA[9]計算歸一化點積,作為圖譜之間的相似度,結(jié)合色譜峰形、保留時間等相關(guān)特征來鑒定肽段。Specter[10]是在上述工作上進行了擴展,將DIA中混合二級質(zhì)譜的強度看作是不同肽段碎片離子強度的線性疊加,將混合二級質(zhì)譜和匹配到的肽段質(zhì)譜進行線性擬合,再將求解的肽段系數(shù)構(gòu)建色譜峰,提取峰特征,可以準(zhǔn)確地鑒定出相應(yīng)的肽段并進行定量分析,但線性求解過程中并不能完全擬合,存在很多誤差。使用神經(jīng)網(wǎng)絡(luò)提高定性效果的研究,例如DIA-NN[11]在定性時先構(gòu)建色譜峰,提取色譜峰相關(guān)的特征,用神經(jīng)網(wǎng)絡(luò)迭代尋找最佳的洗脫峰,從而獲取定性結(jié)果;定量時使用洗脫峰的積分結(jié)果,再進行校正處理,增加了定性和定量的肽段數(shù)量。但該方法在定性和定量時依然基于離子色譜圖的方式,流程復(fù)雜,結(jié)果會受到色譜圖復(fù)雜度和色譜時間的影響。FIGS[12]利用不同肽段質(zhì)譜中特有的峰對混合二級質(zhì)譜進行線性擬合,迭代求解每個肽段的系數(shù),再構(gòu)建色譜峰,進行定性和定量,顯著提高了肽段定性和定量的準(zhǔn)確度,但該方法同樣存在求解時不能完全擬合,以及構(gòu)建色譜峰時存在誤差等問題。
這些基于離子色譜圖的方法都需要構(gòu)建離子色譜峰,經(jīng)過特征提取、積分等操作,會受到色譜維度的影響。色譜復(fù)雜度不同會對離子匹配和構(gòu)建出的色譜峰形產(chǎn)生影響;而色譜時間的長度和偏移會對離子間的色譜峰相關(guān)性產(chǎn)生影響,這些復(fù)雜流程中存在很多誤差,導(dǎo)致定性和定量結(jié)果不準(zhǔn)確。針對該方法存在的問題,課題組沒有使用色譜維度的信息,不需要構(gòu)建離子色譜峰,結(jié)合深度學(xué)習(xí)在分類和預(yù)測問題上的優(yōu)勢,提出了基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的定性和定量模型,通過二分類和回歸預(yù)測的方式,直接獲取肽段的定性和定量結(jié)果,從而在減少色譜維度信息影響的同時,有效地進行蛋白質(zhì)組分析。
混合二級質(zhì)譜和肽段的質(zhì)譜數(shù)據(jù)特征如圖1所示,橫軸為m/z,縱軸為峰強度。將肽段對應(yīng)的質(zhì)譜峰強度,轉(zhuǎn)換成一維向量形式,同時將肽段和多個混合二級質(zhì)譜進行峰匹配,將匹配后的峰強度轉(zhuǎn)換成多個一維向量形式,然后,經(jīng)過預(yù)處理和特征提取后輸入到CNN中。
圖1 質(zhì)譜數(shù)據(jù)示意圖Figure 1 Schematic diagram of mass spectrometry data
對于質(zhì)譜庫中的每個肽段母離子,記為Libi,在不同掃描時間點,都可能參與構(gòu)成其所在掃描窗口對應(yīng)的每個混合二級質(zhì)譜,為了找到和Libi最相關(guān)的混合二級質(zhì)譜,采用兩個條件進行過濾。
(1) 對于Libi的每個峰對應(yīng)的m/z值,匹配掃描窗口內(nèi)的每個混合二級質(zhì)譜,找到有峰重合的,并且重合數(shù)量大于5個的混合二級質(zhì)譜,僅保留混合二級質(zhì)譜中與Libi重合的峰。
(2) 將過濾后的每個混合二級質(zhì)譜,計算其和Libi的相關(guān)度,保留相關(guān)度最高的s個混合二級質(zhì)譜(不夠s個則用0填充)。使用2個信息進行相關(guān)度計算。
第1個信息:計算Libi和匹配到的混合二級質(zhì)譜的相似度。每個肽段母離子對應(yīng)質(zhì)譜的峰強度經(jīng)過歸一化(強度和為1),先對匹配到的混合二級質(zhì)譜的峰強度做同樣的歸一化,記為MS2k。這樣二者的峰強度就都處于0到1之間了。理論上,對于其中一個混合二級質(zhì)譜MS2k,如果完全由肽段母離子Libi碎裂形成,即沒有其他肽段母離子的成分,則MS2k和Libi對應(yīng)m/z位置的歸一化后的峰強度應(yīng)該相同。所以計算Libi和MS2k的質(zhì)譜峰強度差的絕對值,然后求和作為二者間的距離,即:
(1)
第2個信息:肽段母離子Libi和匹配到的混合二級質(zhì)譜MS2k,理論上二者越相關(guān),即如果該混合二級質(zhì)譜MS2k完全由肽段母離子Libi碎裂形成,則MS2k中和Libi對應(yīng)的峰的強度之和應(yīng)該越大。所以計算MS2k中和Libi對應(yīng)的質(zhì)譜峰的強度之和,作為二者間的距離,即:
(2)
為了同時使用這2個信息,對第2個信息進行處理,把Libi匹配到的混合二級質(zhì)譜計算得到的PeakSum,除以其中的最大值,這樣范圍處于0到1之間,與第1個信息的量級一樣,然后取負(fù)值和第1個信息相加。這樣得到的值越小,說明肽段母離子Libi和混合二級質(zhì)譜MS2k越相關(guān)。最后選擇最相關(guān)的s個混合二級質(zhì)譜保留下來。
肽段定性需要使用前面預(yù)處理后的數(shù)據(jù),利用肽段母離子的質(zhì)譜和該肽段匹配到的混合二級質(zhì)譜來判定該肽段母離子是否在實驗樣品中。設(shè)計1個基于CNN的二分類模型,若肽段屬于該樣品,則模型輸出的分?jǐn)?shù)接近于1,否則接近于0。這里采用CNN模型,是考慮到輸入的質(zhì)譜數(shù)據(jù)類似于彩色圖片的多通道,并且相鄰質(zhì)譜峰之間存在相關(guān)性。而傳統(tǒng)的機器學(xué)習(xí)模型需要提取大量相關(guān)的特征,并且會損失原始數(shù)據(jù)的信息,所以使用CNN,可以更好地提取深度特征。
利用前面預(yù)處理后的數(shù)據(jù),進行特征提取。主要提取了2個特征,與預(yù)處理的相似度類似,但提取的是m/z維度的特征,沒有構(gòu)建色譜峰特征。
(1) 計算肽段匹配到的混合二級質(zhì)譜的m/z維度的峰強度的和,即將這些匹配到的混合二級質(zhì)譜合并為1個。
(3)
式中:s表示Libi匹配到的混合二級質(zhì)譜的個數(shù);j表示Libi和MS2k對應(yīng)的第j個峰。
(2) 計算Libi和MS2k的質(zhì)譜峰強度差的絕對值。
(4)
模型結(jié)構(gòu)如圖2所示,首先將提取的特征輸入到CNN中去,再將提取的深度特征拼接到一起,然后經(jīng)過全連接層處理,最后經(jīng)過Sigmoid函數(shù),獲取分類屬于正樣本的概率。使用二元交叉熵作為損失函數(shù):
Loss=-[ylog2p+(1-y)log2(1-p)]
(5)
式中:y為真實標(biāo)簽,值為0或1;p為預(yù)測值,范圍是(0,1)。
網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示。卷積層的輸出維度為:[batch size,卷積核個數(shù),峰個數(shù)],卷積層的參數(shù)個數(shù)等于卷積核的個數(shù)乘以核的大小。使用Adam算法優(yōu)化網(wǎng)絡(luò)參數(shù)。
表1 定性模型網(wǎng)絡(luò)參數(shù)Table 1 Network parameters of qualitative model
定量模型的流程和定性模型類似,但是每一步的處理方式不同。肽段定量同樣利用前面預(yù)處理后的數(shù)據(jù),這里不對該數(shù)據(jù)做其他處理,使用原始數(shù)據(jù)不會損失任何重要的信息,這樣能保證定量預(yù)測結(jié)果的準(zhǔn)確性。設(shè)計一個基于CNN的回歸模型,直接預(yù)測輸出該肽段的定量值。
模型結(jié)構(gòu)如圖3所示,將肽段質(zhì)譜和預(yù)處理后匹配到的混合二級質(zhì)譜分別輸入到CNN中去,將提取的特征拼接到一起,再經(jīng)過第二層CNN和全連接層處理,最后輸出一個值,作為肽段的定量值。使用均方誤差作為損失函數(shù),即:
(6)
圖2 深度學(xué)習(xí)定性模型結(jié)構(gòu)圖Figure 2 Structure diagram of deep learning qualitative model
圖3 深度學(xué)習(xí)定量模型結(jié)構(gòu)圖Figure 3 Structure diagram of deep learning quantitative model
式中:y為肽段的定量值;y′i為預(yù)測值。
網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表2所示,表示方法與前面的定性模型相同。
表2 定量模型網(wǎng)絡(luò)參數(shù)Table 2 Network parameters of quantitative model
在LFQbench[13]論文中提供了很多DIA質(zhì)譜數(shù)據(jù)集,是專門用來評估蛋白質(zhì)組定性和定量準(zhǔn)確度而做的實驗數(shù)據(jù)集。質(zhì)譜數(shù)據(jù)由3個物種的蛋白質(zhì)酶解后的肽段,以2種比例分別混合后各進行3次重復(fù)SWATH-DIA[14]實驗采集得到(人類:[1∶1];酵母:[2∶1];大腸桿菌:[1∶4])。在不同窗口和儀器上進行實驗,得到不同的質(zhì)譜數(shù)據(jù)。選擇其中一個固定窗口的數(shù)據(jù)作為訓(xùn)練集,另一個可變窗口的數(shù)據(jù)作為測試集。
為了獲取訓(xùn)練數(shù)據(jù)集的標(biāo)簽,使用蛋白質(zhì)組定性和定量準(zhǔn)確度比較高的方法FIGS[12],在訓(xùn)練集上計算得到定性和定量結(jié)果。對于定性模型,將FIGS定性到的肽段作為正樣本,將生成的decoy庫中的肽段作為負(fù)樣本(decoy庫中的質(zhì)譜不真實存在,用來混淆target庫中的質(zhì)譜,采用母離子交換-離子峰偏移的方式生成decoy[15])。對于定量模型,將FIGS得到的定量結(jié)果,選擇比較可靠且準(zhǔn)確的定量值作為訓(xùn)練目標(biāo)。使用LFQbench[13]論文中采用的定量精度評估指標(biāo)進行過濾,即先使用3次重復(fù)實驗的定量值計算變異系數(shù)(coefficient of variation,cv),再使用cv<0.1過濾,選擇A樣品和B樣品中肽段定量比值比較好的結(jié)果。
在肽段定性研究中,為了獲取比較可靠的定性肽段,需要同時對decoy庫中的肽段進行定性,通過控制錯誤發(fā)現(xiàn)率(false discovery rate,FDR)來獲取最終定性到的肽段。使用深度學(xué)習(xí)定性模型在訓(xùn)練集上優(yōu)化網(wǎng)絡(luò)參數(shù)后,對測試集進行預(yù)測。target和decoy庫中的每個肽段都會預(yù)測得到一個概率分?jǐn)?shù),然后計算FDR使其小于0.01。
為了驗證模型的準(zhǔn)確性,將模型最終定性到的肽段和FIGS定性到的肽段進行對比,如圖4所示??梢钥吹剑瑑煞N方法定性到的肽段的交集數(shù)量為27 788,占深度學(xué)習(xí)定性肽段的比例為27 788/28 354=98.00%。這說明深度學(xué)習(xí)模型的定性結(jié)果比較可靠。
圖4 定性結(jié)果對比Figure 4 Comparison of qualitative results
同時,統(tǒng)計兩種方法在6個樣品中均定性到的肽段。FIGS定性交集為18 294個肽段,占總量的比例為18 294/40 978=44.64%;深度學(xué)習(xí)定性交集為13 680個肽段,占總量的比例為13 680/28 354=48.25%。統(tǒng)計FIGS在6個樣品中定性重復(fù)率均值為0.578 6;深度學(xué)習(xí)在6個樣品中定性重復(fù)率均值為0.662 9。說明深度學(xué)習(xí)在定性上的重復(fù)性很好,因此定性準(zhǔn)確度較高。
在肽段定量研究中,為了證明定量方法的準(zhǔn)確性和可靠性,通常對重復(fù)實驗的數(shù)據(jù)集和不同比例混合肽段進行定量,查看比值結(jié)果。目前還沒有基于CNN利用DIA色譜信息直接進行肽段定量的研究工作,而FIGS論文使用肽段特有的離子構(gòu)建色譜峰,該方法的定量準(zhǔn)確度很高。所以為了評估深度學(xué)習(xí)定量模型的效果,使用深度學(xué)習(xí)模型和FIGS在測試集上分別進行定量。測試集一共有6個文件,包括A樣本和B樣本的3次重復(fù)實驗。先獲取A樣本和B樣本3次重復(fù)實驗均定性到的肽段的定量值,計算cv,保留cv<0.1的肽段,然后取均值作為該肽段的定量值。再計算A樣本和B樣本中同時出現(xiàn)的肽段的定量值比值,然后與FIGS進行對比,如圖5所示。
圖5 定量結(jié)果對比Figure 5 Comparison of quantitative results
FIGS在其論文中與主流DIA定量軟件進行了準(zhǔn)確度對比,包括Skyline[16]、OpenSWATH[6]、Spectronaut[17]、DIA-Umpire[18]和 Specter[10]。采用計算絕對中位差(median absolute deviation,MAD)的方式對比準(zhǔn)確度,效果明顯優(yōu)于主流軟件。本文采用同樣的方式與FIGS進行對比,將肽段在B樣品中的豐度等分為3部分,計算MAD。如圖5(a)所示,本文的深度學(xué)習(xí)模型與FIGS相比在定量準(zhǔn)確度上基本相當(dāng)。在圖5(b)和圖5(c)中繪制了肽段在A樣品和B樣品中的定量值的比值,虛線代表理論比值。從圖5(b)和圖5(c)中可以看到,深度學(xué)習(xí)模型定量準(zhǔn)確度高的肽段的數(shù)量比FIGS明顯增多,提高了19.33%[(5 290-4 433)/4 433]。說明與FIGS相比,深度學(xué)習(xí)能夠提高不同豐度下的肽段定量數(shù)量。
由于DIA數(shù)據(jù)是多個肽段同時碎裂產(chǎn)生的混合二級質(zhì)譜,比較復(fù)雜,給肽段定性和定量帶來了困難。目前主要基于提取離子色譜圖的方法進行定性和定量,但這種方法流程復(fù)雜,中間存在誤差,色譜圖復(fù)雜度和色譜時間的不同會導(dǎo)致定性和定量結(jié)果不準(zhǔn)確。針對該方法存在的問題,本文提出了一種新的肽段定性和定量方法,沒有使用色譜維度的信息。利用兩個基于CNN的深度學(xué)習(xí)模型(一個通過二分類的方式進行定性,另一個通過回歸預(yù)測的方式進行定量),不需要構(gòu)建色譜峰,也沒有提取色譜峰相關(guān)的特征,從而減小復(fù)雜流程中存在的誤差,不受色譜相關(guān)因素的影響。本研究在公開數(shù)據(jù)集上進行了實驗,與FIGS對比表明,本文的模型能夠提高定性的準(zhǔn)確度,經(jīng)過cv過濾后,絕對中位差指標(biāo)與FIGS相當(dāng)?shù)耐瑫r,能夠顯著提高肽段定量的數(shù)量,比FIGS提高了約19%,可以有效地對肽段進行定性和定量。
本研究目前在公開數(shù)據(jù)集上進行了實驗,結(jié)果表明了方法的有效性,但沒有在更廣泛的數(shù)據(jù)集上進行實驗,因此本研究存在一定的局限性,需要對模型的泛化能力進一步測試研究。
在未來的工作中,課題組將進一步提高深度學(xué)習(xí)定性和定量模型的準(zhǔn)確度,同時擴展模型的適用性場景,解決更廣泛的蛋白質(zhì)組定性和定量問題。