懷 浩,劉 學(xué),張龍波,王曉丹
(山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博 255049)
基于梯度提升決策樹(shù)的肽碎片離子強(qiáng)度建模
懷 浩,劉 學(xué),張龍波,王曉丹
(山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博 255049)
為找到對(duì)蛋白質(zhì)鑒定算法影響較大的肽碎片離子特征,以提高鑒定結(jié)果的正確率,在碎片離子特征與強(qiáng)度信息的基礎(chǔ)上進(jìn)行建模,構(gòu)建預(yù)測(cè)模型. 實(shí)驗(yàn)首先使用pFind對(duì)串聯(lián)質(zhì)譜數(shù)據(jù)鑒定,將鑒定結(jié)果過(guò)濾出需要的肽序列;然后計(jì)算出離子質(zhì)荷比與離子特征值,通過(guò)匹配離子的質(zhì)荷比獲取離子強(qiáng)度信息;使用強(qiáng)度信息與離子特征值構(gòu)建libsvm格式文件,使用XGBoost構(gòu)建預(yù)測(cè)模型,其中使用了梯度提升決策樹(shù)算法;最后使用構(gòu)建完成的預(yù)測(cè)模型對(duì)蛋白質(zhì)產(chǎn)生的肽序列做離子強(qiáng)度理論預(yù)測(cè).實(shí)驗(yàn)結(jié)果表明模型所預(yù)測(cè)的肽序列離子強(qiáng)度與實(shí)驗(yàn)離子強(qiáng)度有著較高的相似度,同時(shí)分析預(yù)測(cè)模型可以從預(yù)測(cè)樹(shù)中發(fā)現(xiàn)肽序列碎裂的規(guī)律,提取肽碎片離子中對(duì)強(qiáng)度值影響較大的離子特征.
串聯(lián)質(zhì)譜;肽碎片離子強(qiáng)度;梯度提升決策樹(shù);建模
基于串聯(lián)質(zhì)譜的識(shí)別算法—肽譜匹配(peptidespectrummatching,PSM)是一種高健壯的得分算法,也是肽碎片離子精準(zhǔn)建模的主要依據(jù).通過(guò)串聯(lián)質(zhì)譜數(shù)據(jù)識(shí)別肽,大多數(shù)軟件依靠于對(duì)比實(shí)驗(yàn)圖譜和理論圖譜,因此提高理論圖譜的準(zhǔn)確度可以提高肽識(shí)別的準(zhǔn)確率[1].肽碎片離子的強(qiáng)度信息可以用來(lái)分析各種離子特征在裂解途徑上對(duì)肽碎裂的影響.分析這些信息可以幫助開(kāi)發(fā)更多可靠的肽和蛋白質(zhì)識(shí)別算法,同時(shí)重要的特征信息可以被用來(lái)預(yù)測(cè)質(zhì)譜強(qiáng)度信息,并將這些信息用于對(duì)肽和蛋白質(zhì)鑒定的算法中,提高理論圖譜的準(zhǔn)確性.針對(duì)于碎片離子強(qiáng)度預(yù)測(cè),其首要工作是構(gòu)建模型,文獻(xiàn)[2-6]根據(jù)不同的碎裂離子特征構(gòu)建出了不同的模型,實(shí)驗(yàn)在此基礎(chǔ)上,選取文獻(xiàn)中對(duì)離子強(qiáng)度影響較大的離子特征,以提高算法對(duì)離子強(qiáng)度預(yù)測(cè)的準(zhǔn)確度,同時(shí)結(jié)合離子強(qiáng)度,使用機(jī)器學(xué)習(xí)的方法,在碎片離子強(qiáng)度信息的基礎(chǔ)上進(jìn)行建模,構(gòu)建預(yù)測(cè)模型.
1.1XGBoost
XGBoost是一個(gè)設(shè)計(jì)高效,靈活并且可移植的最優(yōu)分布式?jīng)Q策梯度提升庫(kù).它實(shí)現(xiàn)了梯度提升框架下的機(jī)器學(xué)習(xí)算法[7-8].XGBoost提供平行提升樹(shù),它可以實(shí)現(xiàn)快速和準(zhǔn)確的解決許多數(shù)據(jù)科學(xué)問(wèn)題.相同的代碼能夠在各大分布式環(huán)境(Hadoop,SGE,MPI)中運(yùn)行,并可以解決超過(guò)十億數(shù)據(jù)的問(wèn)題.XGBoost的特點(diǎn)有:速度快,可移植,效果好,功能多.
XGBoost使用梯度提升決策樹(shù)(GradientBoostingDecisionTree,GBDT)算法.1999年由JeromeFriedman提出,將GBDT模型應(yīng)用于ctr預(yù)估.GBDT是一個(gè)加性回歸模型,它通過(guò)Boosting的迭代構(gòu)造一組弱學(xué)習(xí)器.該算法由多棵決策樹(shù)組成,最終結(jié)果將多棵樹(shù)的結(jié)果累加起來(lái).決策樹(shù)模型非常適合于學(xué)習(xí)不同規(guī)則集的肽碎片[9]裂解規(guī)律.Boosting是對(duì)一組數(shù)據(jù),通過(guò)構(gòu)建多個(gè)弱分類(lèi)模型,然后下一次分類(lèi)會(huì)將在上一次分錯(cuò)的數(shù)據(jù)權(quán)重提高一點(diǎn)再進(jìn)行新的分類(lèi)模型構(gòu)建,這樣最終得到的分類(lèi)器在測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)上都可以得到比較好的效果.
沿著梯度方向,構(gòu)造一系列的弱分類(lèi)器函數(shù),并以一定權(quán)重組合起來(lái),形成最終決策的強(qiáng)分類(lèi)器.
(1)
其中的ω是權(quán)重,φ是弱分類(lèi)器(回歸器)的集合,公式可以理解為一個(gè)加法模型.
1.2 評(píng)價(jià)指標(biāo)
使用相似度[2]作為模型的評(píng)價(jià)指標(biāo).用相似度公式計(jì)算預(yù)測(cè)強(qiáng)度與理論強(qiáng)度個(gè)體間的相似程度,數(shù)值越大,說(shuō)明個(gè)體間相似度越大,預(yù)測(cè)的結(jié)果越準(zhǔn)確.式(2) 和式 (3) 分別對(duì)應(yīng)圖譜相似度的計(jì)算公式以及簡(jiǎn)化公式:
(2)
(3)
本實(shí)驗(yàn)中串聯(lián)質(zhì)譜數(shù)據(jù)的鑒定使用的是數(shù)據(jù)庫(kù)搜索方法,它是當(dāng)前高通量蛋白質(zhì)的主要鑒定方法,該方法使用譜——譜比對(duì)的方式,避免了蛋白質(zhì)鑒定中理論圖譜預(yù)測(cè)的難點(diǎn).鑒定過(guò)程中所使用到的質(zhì)譜數(shù)據(jù)的離子強(qiáng)度特征信息是鑒定蛋白質(zhì)的關(guān)鍵因素.串聯(lián)質(zhì)譜法的步驟為:蛋白質(zhì)經(jīng)過(guò)酶切后通過(guò)一級(jí)質(zhì)譜分析器,從一級(jí)質(zhì)譜中選取部分強(qiáng)度較高的肽段進(jìn)入二級(jí)質(zhì)譜分析器,分析出含有肽段序列信息的串聯(lián)質(zhì)譜數(shù)據(jù),通過(guò)數(shù)據(jù)庫(kù)搜索方法鑒定出肽序列,進(jìn)而推斷出蛋白質(zhì)[1].串聯(lián)質(zhì)譜數(shù)據(jù)由于具有獨(dú)立性和可解析性,因此可以通過(guò)相關(guān)軟件(如Xcalibur)觀測(cè)圖譜.
通過(guò)實(shí)驗(yàn)收集和計(jì)算的大量質(zhì)譜數(shù)據(jù),不僅可以用于蛋白質(zhì)的鑒定,同樣可以使用于機(jī)器學(xué)習(xí)的分析方法.通過(guò)機(jī)器學(xué)習(xí)不需要明確了解背后建模的基本機(jī)理,相反,可以直接利用機(jī)器學(xué)習(xí)來(lái)發(fā)現(xiàn)數(shù)據(jù)中隱藏的關(guān)聯(lián)模式數(shù)據(jù)中的相關(guān)性,并利用它們得出有用的結(jié)論.
實(shí)驗(yàn)操作系統(tǒng)平臺(tái)為WindowsServer2008R2Enterprise,硬件平臺(tái)為2.00GHz的IntelXeonE5-2620處理器,32GB內(nèi)存.質(zhì)譜數(shù)據(jù)的鑒定使用pFind軟件,鑒定結(jié)果數(shù)據(jù)的處理代碼使用python語(yǔ)言編寫(xiě),模型構(gòu)建工具在python下使用XGBoost工具庫(kù).
2.1 實(shí)驗(yàn)步驟
實(shí)驗(yàn)首先對(duì)串聯(lián)質(zhì)譜數(shù)據(jù)進(jìn)行預(yù)處理,之后使用pFind對(duì)串聯(lián)質(zhì)譜數(shù)據(jù)鑒定.根據(jù)設(shè)定條件過(guò)濾出所需要的肽序列,通過(guò)公式計(jì)算出離子質(zhì)荷比與離子特征值,通過(guò)質(zhì)荷比進(jìn)行肽譜匹配來(lái)獲取離子強(qiáng)度值.然后使用強(qiáng)度信息與離子特征值構(gòu)建libsvm數(shù)據(jù)集,使用XGBoost構(gòu)建預(yù)測(cè)模型.最后使用構(gòu)建完成的預(yù)測(cè)模型對(duì)蛋白質(zhì)產(chǎn)生的肽序列做離子強(qiáng)度理論預(yù)測(cè).
2.1.1 數(shù)據(jù)預(yù)處理
實(shí)驗(yàn)采用Hela與Yeast兩個(gè)串聯(lián)質(zhì)譜數(shù)據(jù)集,文件大小分別為4.36GB與4.21GB.對(duì)于原始的raw格式數(shù)據(jù)源使用msconvert軟件將其轉(zhuǎn)換為mgf格式數(shù)據(jù)源,再將其使用pFind進(jìn)行蛋白質(zhì)的鑒定.實(shí)驗(yàn)時(shí)分別對(duì)Hela數(shù)據(jù)集與Yeast數(shù)據(jù)集進(jìn)行獨(dú)立建模實(shí)驗(yàn).
串聯(lián)質(zhì)譜數(shù)據(jù)可以看作是一個(gè)兩維數(shù)組,第一維表示離子質(zhì)荷比,第二維表示質(zhì)荷比所對(duì)應(yīng)的離子峰強(qiáng)度,由于在目前的蛋白質(zhì)鑒定系統(tǒng)中,質(zhì)荷比信息的應(yīng)用較離子強(qiáng)度更加廣泛,因此如何利用離子強(qiáng)度信息是一個(gè)值得深入研究的重要課題,本實(shí)驗(yàn)正是在此基礎(chǔ)上利用離子強(qiáng)度建模與預(yù)測(cè).
實(shí)驗(yàn)選用pFind作為鑒定軟件,使用Trypsin酶切,固定修飾:Carbamidomethyl(C),可變修飾:Acetyl(N-term)和Oxidation(M),母離子質(zhì)量誤差:±0.007Da,碎片離子質(zhì)量誤差:±0.02Da,最大2個(gè)遺漏酶切位點(diǎn).
實(shí)驗(yàn)使用假陽(yáng)性率(falsediscoveryrate,F(xiàn)DR)[10],將其閾值設(shè)置為0.1%,來(lái)確保鑒定出的肽集合有較高的可信度,因?yàn)榧词故撬^“純”的質(zhì)譜,也可能含有未賦值的峰值[11].
由表1可知不含氧化修飾的序列可以到達(dá)70%以上,母離子電荷為2的序列可占總序列的65%以上,而且序列中存在大量重復(fù)肽序列,對(duì)重復(fù)的肽序列處理方式為保留得分最大的一個(gè),因此鑒定結(jié)束后,通過(guò)pFind導(dǎo)出結(jié)果文件,方便計(jì)算碎片離子屬性值,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行處理: (1)去除肽序列有重復(fù)的以及反向數(shù)據(jù)庫(kù)的肽序列數(shù)據(jù);(2)去除含有氧化修飾的數(shù)據(jù); (3)只取母離子電荷為2的數(shù)據(jù).
2.1.2libsvm格式文件構(gòu)建
先取出10%的數(shù)據(jù)留作模型測(cè)試數(shù)據(jù)(measuredata),將剩余數(shù)據(jù)分為10份,使用10折交叉驗(yàn)證法,按照9∶1的比例分配訓(xùn)練數(shù)據(jù)(traindata)、驗(yàn)證數(shù)據(jù)(testdata).
根據(jù)結(jié)果標(biāo)題對(duì)串聯(lián)質(zhì)譜數(shù)據(jù)進(jìn)行肽序列匹配處理,通過(guò)質(zhì)荷比進(jìn)行強(qiáng)度匹配,獲取肽序列離子碎片及離子強(qiáng)度信息.根據(jù)文獻(xiàn)[9]介紹,碎片離子中b與y所占的強(qiáng)度比較大,文獻(xiàn)[12]中介紹了選取b/y離子的可靠性,因此為了方便計(jì)算,這里只選取b型與y型離子,并根據(jù)肽序列算出每個(gè)碎片離子的質(zhì)量,這里設(shè)定質(zhì)量的誤差范圍為±0.02,在此范圍內(nèi)的離子選取離子強(qiáng)度最大的一個(gè)保存.
理論CID斷裂,模擬肽序列FLGK如圖1所示.
簡(jiǎn)化肽序列的斷裂模型,假定只產(chǎn)生1電荷離子,b1∶F,b2∶FL,b3∶FLG,y1∶k,y2∶GK,y3∶LGK.計(jì)算離子質(zhì)荷比公式(4)如下:
b離子=(氨基酸殘基分子量+H*z)/z
y離子=(氨基酸殘基分子量+H2O+H*z)/z
母離子=(所有氨基酸分子量+H2O+H)/z
(4)
表1pFind鑒定結(jié)果
數(shù)據(jù)集鑒定結(jié)果覆蓋率/%FDR=0.1%/個(gè)去重/個(gè)母離子電荷為2時(shí)/%不含氧化修飾的數(shù)據(jù)/%處理后數(shù)據(jù)/個(gè)Hela數(shù)據(jù)集61.25873164279467.5480.2126604Yeast數(shù)據(jù)集57.41861543081368.5572.8419440
表2FDTK碎裂離子質(zhì)荷比
離子殘基質(zhì)荷比離子殘基質(zhì)荷比b1F148.0762337-b2FD263.1031722y3DTK363.1879568b3FDT364.1508458y2TK248.1610183-y1K147.1133447
圖1 模擬肽序列(FLGK)CID斷裂
其中z為離子電荷量,本實(shí)驗(yàn)中選取的b與y離子都為1電荷,母離子電荷數(shù)為2.
表2以多肽序列FDTK為例,使用質(zhì)荷比公式描述1電荷b離子與1電荷y離子的質(zhì)荷比計(jì)算.氨基酸殘基分子量F: 147.0684087,D:115.0269385,T: 101.0476736,K: 128.0949557.H分子質(zhì)量1.007825,H2O分子質(zhì)量18.010564.
讀取處理后數(shù)據(jù)列表,將獲取的離子信息保存.接下來(lái)循環(huán)讀取離子信息,根據(jù)之前定義的離子特征,獲取對(duì)應(yīng)離子特征值,將離子信息保存為libsvm格式文件.文獻(xiàn)[13]中介紹離子的三個(gè)主要特征:最高峰位置;相鄰氨基酸功能;肽組成的總體特征.其中使用的主要離子特征來(lái)源于文獻(xiàn)[3]與文獻(xiàn)[5],離子特征的計(jì)算以及實(shí)驗(yàn)使用的所有離子特征可在附件中查找.
2.1.3 離子強(qiáng)度建模
使用處理完成的libsvm格式文件進(jìn)行模型的構(gòu)建,使用XGBoost工具庫(kù)進(jìn)行建模.程序執(zhí)行完成之后模型將會(huì)保存到xgb.model,而dump.raw.txt中將model文件保存為人工可識(shí)別的決策樹(shù).
XGBoost中各項(xiàng)參數(shù)設(shè)置為:樹(shù)的最大深度為11,迭代計(jì)算次數(shù):14,收縮步長(zhǎng):0.04,目標(biāo)函數(shù)為:linear.
2.2 預(yù)測(cè)序列離子強(qiáng)度相似度結(jié)果
循環(huán)讀取待預(yù)測(cè)的肽序列,使用預(yù)測(cè)模型預(yù)測(cè)離子強(qiáng)度,并對(duì)預(yù)測(cè)的離子強(qiáng)度與實(shí)驗(yàn)離子強(qiáng)度求相似度得分.實(shí)驗(yàn)中Hela使用2660條肽序列數(shù)據(jù)進(jìn)行預(yù)測(cè),Yeast使用1944條肽序列數(shù)據(jù)進(jìn)行預(yù)測(cè),使用公式(3)求出每一個(gè)序列的相似度得分,最終求出平均值.根據(jù)文獻(xiàn)[13]中對(duì)肽序列分為3類(lèi):移動(dòng)肽,非移動(dòng)肽,部分移動(dòng)肽.對(duì)實(shí)驗(yàn)結(jié)果分類(lèi)統(tǒng)計(jì),見(jiàn)表3、表4、表5.
表3 實(shí)驗(yàn)整體離子強(qiáng)度相似度
數(shù)據(jù)源數(shù)據(jù)量平均相似度Hela266085.58%Yeast194484%
由表3結(jié)果顯示,使用GBDT算法構(gòu)建的預(yù)測(cè)模型,其預(yù)測(cè)肽序列的離子強(qiáng)度與實(shí)驗(yàn)離子強(qiáng)度有著較高的相似度,可以提取碎片離子屬性.
表4Hela數(shù)據(jù)碎裂離子強(qiáng)度相似度
參數(shù)移動(dòng)肽部分移動(dòng)肽非移動(dòng)肽總數(shù)228834626平均相似度86.01%83.28%78.37%
表5Yeast數(shù)據(jù)碎裂離子強(qiáng)度相似度
參數(shù)移動(dòng)肽部分移動(dòng)肽非移動(dòng)肽總數(shù)16452936平均相似度84.39%82.14%70.71%
由表4、表5可以看出,肽序列斷裂類(lèi)型主要為移動(dòng)肽,其次為部分移動(dòng)肽,最后為非移動(dòng)肽.前兩種平均相似度較非移動(dòng)肽有著更高的準(zhǔn)確性且數(shù)量更多.根據(jù)Mobilepeptides的概念:肽序列中堿性氨基酸的數(shù)量小于母離子電荷數(shù),因此可以初步估計(jì),堿性氨基酸與母離子電荷數(shù),是影響離子強(qiáng)度的主要特征之一.
并且分析預(yù)測(cè)產(chǎn)生的決策樹(shù),其中主要使用到的特征為:肽序列的質(zhì)量、電荷,肽序列與碎片離子的疏水性、氣相堿性、PI值、α螺旋的傾向,斷裂位置,肽序列長(zhǎng)度,碎片離子中組氨酸H、賴(lài)氨酸K、精氨酸R的比例等都對(duì)離子強(qiáng)度有著較大的影響,可以在肽譜匹配算法中給予這些特征以較高的權(quán)重.
本實(shí)驗(yàn)選取XGBoost作為模型的構(gòu)建工具,其優(yōu)點(diǎn)是預(yù)測(cè)速度快,并可以自動(dòng)對(duì)離子特征的優(yōu)先級(jí)進(jìn)行排序,結(jié)果的整體相似度基本達(dá)到了85%,但仍有一定的提升空間.分析原因在于pFind鑒定結(jié)果的覆蓋率未達(dá)到70%以上,并且在鑒定時(shí)打分算法只是取出最有可能的匹配,因此結(jié)果存在一定誤差;另外模型構(gòu)建時(shí)離子強(qiáng)度的選擇數(shù)量不夠,由于簡(jiǎn)化了實(shí)驗(yàn)碎片離子的選取,因此部分離子特征沒(méi)有選擇到,在后續(xù)的實(shí)驗(yàn)中,會(huì)加入其它的碎裂離子與離子特征進(jìn)行建模,提高相似度.
本文使用梯度提升算法工具XGBoost構(gòu)建肽序列的離子強(qiáng)度模型,并對(duì)實(shí)驗(yàn)步驟進(jìn)行了詳細(xì)的描述.最后針對(duì)具體肽序列使用文獻(xiàn)中查找到的相似度指標(biāo)來(lái)進(jìn)行評(píng)估.對(duì)提取的特征可以應(yīng)用到蛋白質(zhì)鑒定軟件的肽譜匹配算法中,進(jìn)一步提高肽識(shí)別的性能.本實(shí)驗(yàn)對(duì)CID裂解的肽段離子進(jìn)行了簡(jiǎn)化的處理,對(duì)子離子只選擇1電荷的b與y離子的數(shù)據(jù),母離子選擇2電荷的數(shù)據(jù),在后續(xù)的試驗(yàn)中將會(huì)考慮多電荷的復(fù)雜情況.實(shí)驗(yàn)使用到的特征及氨基酸屬性值可在http://pan.baidu.com/s/1pKTyiW7獲取.
[1] 付巖, 賀思敏, 孫瑞祥,等. 串聯(lián)質(zhì)譜蛋白質(zhì)鑒定的關(guān)鍵計(jì)算問(wèn)題[J]. 信息技術(shù)快報(bào), 2010,8(01):16-32.
[2]ZHANGZ.Predictionoflow-energycollision-induceddissociationspectraofpeptides[J].Analyticalchemistry, 2004, 76(14): 3908-3922.
[3]ELIASJE,GIBBONSFD,KingOD,etal.Intensity-basedproteinidentificationbymachinelearningfromalibraryoftandemmassspectra[J].Naturebiotechnology, 2004, 22(2): 214-219.
[4]TANGH.Amachinelearingapproachtopredictingpeptidefragmntationspectra[J].PacificSymposiumonBiocomputingPacificSymposiumonBiocomputing, 2006, 11:219-30.
[5]ZHOUC,BOWKERLD,FENGJ.Amachinelearningapproachtoexplorethespectraintensitypatternofpeptidesusingtandemmassspectrometrydata[J].BmcBioinformatics, 2008, 9(2):1-17.
[6]SUNS,YANGF,YANGQ,etal.MS-Simulator:PredictingY-IonIntensitiesforPeptideswithTwoChargesBasedontheIntensityRatioofNeighboringIons.[J].JProteomeRes, 2012, 11:4509-4516.
[7]CHENT,GUESTRINC.Xgboost:Ascalabletreeboostingsystem[J].arXivpreprintarXiv:1603.02754, 2016.
[8]SONGR,CHENS,DENGB,etal.eXtremeGradientBoostingforIdentifyingIndividualUsersAcrossDifferentDigitalDevices[C]//InternationalConferenceonWeb-AgeInformationManagement.SpringerInternationalPublishing, 2016: 43-54.
[9] 于長(zhǎng)永, 王國(guó)仁, 毛克明,等. 一種新穎的蛋白質(zhì)序列與其串聯(lián)質(zhì)譜的匹配打分算法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2010, 31(03):404-407.
[10]朱思敏, 李華梅. 基于泊松分布模型的蛋白質(zhì)串聯(lián)質(zhì)譜鑒定算法研究[J]. 云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2016, 25(2):179-184.
[11]NEUHAUSERN,MICHALSKIA,COXJ,etal.Expertsystemforcomputer-assistedannotationofMS/MSspectra[J].Molecular&CellularProteomics, 2012, 11(11): 1500-1509.
[12] 王中勝. 基于支持向量機(jī)分類(lèi)的b/y離子峰選取算法及肽序列標(biāo)簽生成算法的研究[D]. 北京:中國(guó)人民解放軍軍事醫(yī)學(xué)科學(xué)院, 2007.
[13]FRANKAM.Predictingintensityranksofpeptidefragmentions[J].JProteomeRes, 2009, 8:2226-2240.
(編輯:姚佳良)
Peptidefragmentionintensitymodelingbasedongradientboostingdecisiontree
HUAIHao,LIUXue,ZHANGLong-bo,WANGXiao-dan
(SchoolofComputerScienceandTechnology,ShandongUniversityofTechnology,Zibo255049,China)
Inordertofindthepeptidefragmentionsattributesthathaveagreaterinfluenceontheproteinidentificationalgorithm,andimprovetheaccuracyofidentificationresults,theforecastmodelbasedonfragmentionsioncharacteristicandintensityinformationisbuilt.Firstly,weuseofpFindtoidentifytandemmassspectrum,thenfilterouttheneededpeptidesequences;secondly,wecalculatetheresultofm/zandtheattributesvaluesofions,andgettheintensitiesbymatchingm/z,thenusetheinformationofintensityandtheattributesvalueofionstobuildalibsvmformatfile,andthenbuildapredictionmodelthroughtheXGBoostwhichusingtheGBDTalgorithm;finally,weusethebuiltpredictionmodeltopredictthetheoryintensitiesofpeptidesequencesionswhichproducedbyprotein.Theexperimentalresultsshowthattheintensitieswegotfromthepredictionmodelhadahighersimilaritytotheexperimentalintensities.Meanwhile,theanalysisofthepredictionmodelcanfindtheruleofpeptidefragmentationfromthepredictiontree.andextractthepeptidefragmentionsattributesthathadlargerinfluenceontheintensities.
tandemmassspectrometry;peptidefragmentionintensity;gradientboostingdecisiontree;modeling
2016-06-23
懷浩,男,haoyuexihuai@126.com; 通信作者:張龍波,男,zhanglb@sdut.edu.cn
1672-6197(2017)02-0064-05
TP
A