基于梯度提升決策樹(shù)的肽碎片離子強(qiáng)度建模

2017-03-09 02:51張龍波王曉丹

山東理工大學(xué)學(xué)報(bào)（自然科學(xué)版） 2017年2期

關(guān)鍵詞：質(zhì)譜離子強(qiáng)度

懷浩，劉學(xué)，張龍波，王曉丹

(山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，山東淄博 255049)

基于梯度提升決策樹(shù)的肽碎片離子強(qiáng)度建模

懷浩，劉學(xué)，張龍波，王曉丹

(山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，山東淄博 255049)

為找到對(duì)蛋白質(zhì)鑒定算法影響較大的肽碎片離子特征，以提高鑒定結(jié)果的正確率，在碎片離子特征與強(qiáng)度信息的基礎(chǔ)上進(jìn)行建模，構(gòu)建預(yù)測(cè)模型. 實(shí)驗(yàn)首先使用pFind對(duì)串聯(lián)質(zhì)譜數(shù)據(jù)鑒定，將鑒定結(jié)果過(guò)濾出需要的肽序列；然后計(jì)算出離子質(zhì)荷比與離子特征值，通過(guò)匹配離子的質(zhì)荷比獲取離子強(qiáng)度信息；使用強(qiáng)度信息與離子特征值構(gòu)建libsvm格式文件，使用XGBoost構(gòu)建預(yù)測(cè)模型，其中使用了梯度提升決策樹(shù)算法；最后使用構(gòu)建完成的預(yù)測(cè)模型對(duì)蛋白質(zhì)產(chǎn)生的肽序列做離子強(qiáng)度理論預(yù)測(cè).實(shí)驗(yàn)結(jié)果表明模型所預(yù)測(cè)的肽序列離子強(qiáng)度與實(shí)驗(yàn)離子強(qiáng)度有著較高的相似度，同時(shí)分析預(yù)測(cè)模型可以從預(yù)測(cè)樹(shù)中發(fā)現(xiàn)肽序列碎裂的規(guī)律，提取肽碎片離子中對(duì)強(qiáng)度值影響較大的離子特征.

串聯(lián)質(zhì)譜；肽碎片離子強(qiáng)度；梯度提升決策樹(shù)；建模

基于串聯(lián)質(zhì)譜的識(shí)別算法—肽譜匹配(peptidespectrummatching，PSM)是一種高健壯的得分算法，也是肽碎片離子精準(zhǔn)建模的主要依據(jù).通過(guò)串聯(lián)質(zhì)譜數(shù)據(jù)識(shí)別肽，大多數(shù)軟件依靠于對(duì)比實(shí)驗(yàn)圖譜和理論圖譜，因此提高理論圖譜的準(zhǔn)確度可以提高肽識(shí)別的準(zhǔn)確率[1].肽碎片離子的強(qiáng)度信息可以用來(lái)分析各種離子特征在裂解途徑上對(duì)肽碎裂的影響.分析這些信息可以幫助開(kāi)發(fā)更多可靠的肽和蛋白質(zhì)識(shí)別算法，同時(shí)重要的特征信息可以被用來(lái)預(yù)測(cè)質(zhì)譜強(qiáng)度信息，并將這些信息用于對(duì)肽和蛋白質(zhì)鑒定的算法中，提高理論圖譜的準(zhǔn)確性.針對(duì)于碎片離子強(qiáng)度預(yù)測(cè)，其首要工作是構(gòu)建模型，文獻(xiàn)[2-6]根據(jù)不同的碎裂離子特征構(gòu)建出了不同的模型，實(shí)驗(yàn)在此基礎(chǔ)上，選取文獻(xiàn)中對(duì)離子強(qiáng)度影響較大的離子特征，以提高算法對(duì)離子強(qiáng)度預(yù)測(cè)的準(zhǔn)確度，同時(shí)結(jié)合離子強(qiáng)度，使用機(jī)器學(xué)習(xí)的方法，在碎片離子強(qiáng)度信息的基礎(chǔ)上進(jìn)行建模，構(gòu)建預(yù)測(cè)模型.

1 算法模型

1.1XGBoost

XGBoost是一個(gè)設(shè)計(jì)高效，靈活并且可移植的最優(yōu)分布式?jīng)Q策梯度提升庫(kù).它實(shí)現(xiàn)了梯度提升框架下的機(jī)器學(xué)習(xí)算法[7-8].XGBoost提供平行提升樹(shù)，它可以實(shí)現(xiàn)快速和準(zhǔn)確的解決許多數(shù)據(jù)科學(xué)問(wèn)題.相同的代碼能夠在各大分布式環(huán)境(Hadoop，SGE，MPI)中運(yùn)行，并可以解決超過(guò)十億數(shù)據(jù)的問(wèn)題.XGBoost的特點(diǎn)有：速度快，可移植，效果好，功能多.

XGBoost使用梯度提升決策樹(shù)(GradientBoostingDecisionTree，GBDT)算法.1999年由JeromeFriedman提出，將GBDT模型應(yīng)用于ctr預(yù)估.GBDT是一個(gè)加性回歸模型，它通過(guò)Boosting的迭代構(gòu)造一組弱學(xué)習(xí)器.該算法由多棵決策樹(shù)組成，最終結(jié)果將多棵樹(shù)的結(jié)果累加起來(lái).決策樹(shù)模型非常適合于學(xué)習(xí)不同規(guī)則集的肽碎片[9]裂解規(guī)律.Boosting是對(duì)一組數(shù)據(jù)，通過(guò)構(gòu)建多個(gè)弱分類(lèi)模型，然后下一次分類(lèi)會(huì)將在上一次分錯(cuò)的數(shù)據(jù)權(quán)重提高一點(diǎn)再進(jìn)行新的分類(lèi)模型構(gòu)建，這樣最終得到的分類(lèi)器在測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)上都可以得到比較好的效果.

沿著梯度方向，構(gòu)造一系列的弱分類(lèi)器函數(shù)，并以一定權(quán)重組合起來(lái)，形成最終決策的強(qiáng)分類(lèi)器.

(1)

其中的ω是權(quán)重，φ是弱分類(lèi)器(回歸器)的集合，公式可以理解為一個(gè)加法模型.

1.2 評(píng)價(jià)指標(biāo)

使用相似度[2]作為模型的評(píng)價(jià)指標(biāo).用相似度公式計(jì)算預(yù)測(cè)強(qiáng)度與理論強(qiáng)度個(gè)體間的相似程度，數(shù)值越大，說(shuō)明個(gè)體間相似度越大，預(yù)測(cè)的結(jié)果越準(zhǔn)確.式(2) 和式 (3) 分別對(duì)應(yīng)圖譜相似度的計(jì)算公式以及簡(jiǎn)化公式:

(2)

(3)

2 實(shí)驗(yàn)與分析

本實(shí)驗(yàn)中串聯(lián)質(zhì)譜數(shù)據(jù)的鑒定使用的是數(shù)據(jù)庫(kù)搜索方法，它是當(dāng)前高通量蛋白質(zhì)的主要鑒定方法，該方法使用譜——譜比對(duì)的方式，避免了蛋白質(zhì)鑒定中理論圖譜預(yù)測(cè)的難點(diǎn).鑒定過(guò)程中所使用到的質(zhì)譜數(shù)據(jù)的離子強(qiáng)度特征信息是鑒定蛋白質(zhì)的關(guān)鍵因素.串聯(lián)質(zhì)譜法的步驟為：蛋白質(zhì)經(jīng)過(guò)酶切后通過(guò)一級(jí)質(zhì)譜分析器，從一級(jí)質(zhì)譜中選取部分強(qiáng)度較高的肽段進(jìn)入二級(jí)質(zhì)譜分析器，分析出含有肽段序列信息的串聯(lián)質(zhì)譜數(shù)據(jù)，通過(guò)數(shù)據(jù)庫(kù)搜索方法鑒定出肽序列，進(jìn)而推斷出蛋白質(zhì)[1].串聯(lián)質(zhì)譜數(shù)據(jù)由于具有獨(dú)立性和可解析性，因此可以通過(guò)相關(guān)軟件(如Xcalibur)觀測(cè)圖譜.

通過(guò)實(shí)驗(yàn)收集和計(jì)算的大量質(zhì)譜數(shù)據(jù)，不僅可以用于蛋白質(zhì)的鑒定，同樣可以使用于機(jī)器學(xué)習(xí)的分析方法.通過(guò)機(jī)器學(xué)習(xí)不需要明確了解背后建模的基本機(jī)理，相反，可以直接利用機(jī)器學(xué)習(xí)來(lái)發(fā)現(xiàn)數(shù)據(jù)中隱藏的關(guān)聯(lián)模式數(shù)據(jù)中的相關(guān)性，并利用它們得出有用的結(jié)論.

實(shí)驗(yàn)操作系統(tǒng)平臺(tái)為WindowsServer2008R2Enterprise，硬件平臺(tái)為2.00GHz的IntelXeonE5-2620處理器，32GB內(nèi)存.質(zhì)譜數(shù)據(jù)的鑒定使用pFind軟件，鑒定結(jié)果數(shù)據(jù)的處理代碼使用python語(yǔ)言編寫(xiě)，模型構(gòu)建工具在python下使用XGBoost工具庫(kù).

2.1 實(shí)驗(yàn)步驟

實(shí)驗(yàn)首先對(duì)串聯(lián)質(zhì)譜數(shù)據(jù)進(jìn)行預(yù)處理，之后使用pFind對(duì)串聯(lián)質(zhì)譜數(shù)據(jù)鑒定.根據(jù)設(shè)定條件過(guò)濾出所需要的肽序列，通過(guò)公式計(jì)算出離子質(zhì)荷比與離子特征值，通過(guò)質(zhì)荷比進(jìn)行肽譜匹配來(lái)獲取離子強(qiáng)度值.然后使用強(qiáng)度信息與離子特征值構(gòu)建libsvm數(shù)據(jù)集，使用XGBoost構(gòu)建預(yù)測(cè)模型.最后使用構(gòu)建完成的預(yù)測(cè)模型對(duì)蛋白質(zhì)產(chǎn)生的肽序列做離子強(qiáng)度理論預(yù)測(cè).

2.1.1 數(shù)據(jù)預(yù)處理

實(shí)驗(yàn)采用Hela與Yeast兩個(gè)串聯(lián)質(zhì)譜數(shù)據(jù)集，文件大小分別為4.36GB與4.21GB.對(duì)于原始的raw格式數(shù)據(jù)源使用msconvert軟件將其轉(zhuǎn)換為mgf格式數(shù)據(jù)源，再將其使用pFind進(jìn)行蛋白質(zhì)的鑒定.實(shí)驗(yàn)時(shí)分別對(duì)Hela數(shù)據(jù)集與Yeast數(shù)據(jù)集進(jìn)行獨(dú)立建模實(shí)驗(yàn).

串聯(lián)質(zhì)譜數(shù)據(jù)可以看作是一個(gè)兩維數(shù)組，第一維表示離子質(zhì)荷比，第二維表示質(zhì)荷比所對(duì)應(yīng)的離子峰強(qiáng)度，由于在目前的蛋白質(zhì)鑒定系統(tǒng)中，質(zhì)荷比信息的應(yīng)用較離子強(qiáng)度更加廣泛，因此如何利用離子強(qiáng)度信息是一個(gè)值得深入研究的重要課題，本實(shí)驗(yàn)正是在此基礎(chǔ)上利用離子強(qiáng)度建模與預(yù)測(cè).

實(shí)驗(yàn)選用pFind作為鑒定軟件，使用Trypsin酶切，固定修飾：Carbamidomethyl(C)，可變修飾:Acetyl(N-term)和Oxidation(M)，母離子質(zhì)量誤差:±0.007Da，碎片離子質(zhì)量誤差:±0.02Da，最大2個(gè)遺漏酶切位點(diǎn).

實(shí)驗(yàn)使用假陽(yáng)性率(falsediscoveryrate，F(xiàn)DR)[10]，將其閾值設(shè)置為0.1%，來(lái)確保鑒定出的肽集合有較高的可信度，因?yàn)榧词故撬^“純”的質(zhì)譜，也可能含有未賦值的峰值[11].

由表1可知不含氧化修飾的序列可以到達(dá)70%以上，母離子電荷為2的序列可占總序列的65%以上，而且序列中存在大量重復(fù)肽序列，對(duì)重復(fù)的肽序列處理方式為保留得分最大的一個(gè)，因此鑒定結(jié)束后，通過(guò)pFind導(dǎo)出結(jié)果文件，方便計(jì)算碎片離子屬性值，對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行處理： (1)去除肽序列有重復(fù)的以及反向數(shù)據(jù)庫(kù)的肽序列數(shù)據(jù);(2)去除含有氧化修飾的數(shù)據(jù); (3)只取母離子電荷為2的數(shù)據(jù).

2.1.2libsvm格式文件構(gòu)建

先取出10%的數(shù)據(jù)留作模型測(cè)試數(shù)據(jù)(measuredata)，將剩余數(shù)據(jù)分為10份，使用10折交叉驗(yàn)證法，按照9∶1的比例分配訓(xùn)練數(shù)據(jù)(traindata)、驗(yàn)證數(shù)據(jù)(testdata).

根據(jù)結(jié)果標(biāo)題對(duì)串聯(lián)質(zhì)譜數(shù)據(jù)進(jìn)行肽序列匹配處理，通過(guò)質(zhì)荷比進(jìn)行強(qiáng)度匹配，獲取肽序列離子碎片及離子強(qiáng)度信息.根據(jù)文獻(xiàn)[9]介紹，碎片離子中b與y所占的強(qiáng)度比較大，文獻(xiàn)[12]中介紹了選取b/y離子的可靠性，因此為了方便計(jì)算，這里只選取b型與y型離子，并根據(jù)肽序列算出每個(gè)碎片離子的質(zhì)量，這里設(shè)定質(zhì)量的誤差范圍為±0.02，在此范圍內(nèi)的離子選取離子強(qiáng)度最大的一個(gè)保存.

理論CID斷裂，模擬肽序列FLGK如圖1所示.

簡(jiǎn)化肽序列的斷裂模型，假定只產(chǎn)生1電荷離子，b1∶F，b2∶FL，b3∶FLG，y1∶k，y2∶GK，y3∶LGK.計(jì)算離子質(zhì)荷比公式(4)如下：

b離子=(氨基酸殘基分子量+H*z)/z

y離子=(氨基酸殘基分子量+H2O+H*z)/z

母離子=(所有氨基酸分子量+H2O+H)/z

(4)

表1pFind鑒定結(jié)果

數(shù)據(jù)集鑒定結(jié)果覆蓋率/%FDR=0．1%/個(gè)去重/個(gè)母離子電荷為2時(shí)/%不含氧化修飾的數(shù)據(jù)/%處理后數(shù)據(jù)/個(gè)Hela數(shù)據(jù)集61．25873164279467．5480．2126604Yeast數(shù)據(jù)集57．41861543081368．5572．8419440

表2FDTK碎裂離子質(zhì)荷比

離子殘基質(zhì)荷比離子殘基質(zhì)荷比b1F148．0762337-b2FD263．1031722y3DTK363．1879568b3FDT364．1508458y2TK248．1610183-y1K147．1133447

圖1 模擬肽序列(FLGK)CID斷裂

其中z為離子電荷量，本實(shí)驗(yàn)中選取的b與y離子都為1電荷，母離子電荷數(shù)為2.

表2以多肽序列FDTK為例，使用質(zhì)荷比公式描述1電荷b離子與1電荷y離子的質(zhì)荷比計(jì)算.氨基酸殘基分子量F: 147.0684087，D：115.0269385，T: 101.0476736，K: 128.0949557.H分子質(zhì)量1.007825，H2O分子質(zhì)量18.010564.

讀取處理后數(shù)據(jù)列表，將獲取的離子信息保存.接下來(lái)循環(huán)讀取離子信息，根據(jù)之前定義的離子特征，獲取對(duì)應(yīng)離子特征值，將離子信息保存為libsvm格式文件.文獻(xiàn)[13]中介紹離子的三個(gè)主要特征：最高峰位置；相鄰氨基酸功能；肽組成的總體特征.其中使用的主要離子特征來(lái)源于文獻(xiàn)[3]與文獻(xiàn)[5]，離子特征的計(jì)算以及實(shí)驗(yàn)使用的所有離子特征可在附件中查找.

2.1.3 離子強(qiáng)度建模

使用處理完成的libsvm格式文件進(jìn)行模型的構(gòu)建，使用XGBoost工具庫(kù)進(jìn)行建模.程序執(zhí)行完成之后模型將會(huì)保存到xgb.model，而dump.raw.txt中將model文件保存為人工可識(shí)別的決策樹(shù).

XGBoost中各項(xiàng)參數(shù)設(shè)置為：樹(shù)的最大深度為11，迭代計(jì)算次數(shù)：14，收縮步長(zhǎng)：0.04，目標(biāo)函數(shù)為：linear.

2.2 預(yù)測(cè)序列離子強(qiáng)度相似度結(jié)果

循環(huán)讀取待預(yù)測(cè)的肽序列，使用預(yù)測(cè)模型預(yù)測(cè)離子強(qiáng)度，并對(duì)預(yù)測(cè)的離子強(qiáng)度與實(shí)驗(yàn)離子強(qiáng)度求相似度得分.實(shí)驗(yàn)中Hela使用2660條肽序列數(shù)據(jù)進(jìn)行預(yù)測(cè)，Yeast使用1944條肽序列數(shù)據(jù)進(jìn)行預(yù)測(cè)，使用公式(3)求出每一個(gè)序列的相似度得分，最終求出平均值.根據(jù)文獻(xiàn)[13]中對(duì)肽序列分為3類(lèi)：移動(dòng)肽，非移動(dòng)肽，部分移動(dòng)肽.對(duì)實(shí)驗(yàn)結(jié)果分類(lèi)統(tǒng)計(jì)，見(jiàn)表3、表4、表5.

表3 實(shí)驗(yàn)整體離子強(qiáng)度相似度

數(shù)據(jù)源數(shù)據(jù)量平均相似度Hela266085．58%Yeast194484%

由表3結(jié)果顯示，使用GBDT算法構(gòu)建的預(yù)測(cè)模型，其預(yù)測(cè)肽序列的離子強(qiáng)度與實(shí)驗(yàn)離子強(qiáng)度有著較高的相似度，可以提取碎片離子屬性.

表4Hela數(shù)據(jù)碎裂離子強(qiáng)度相似度

參數(shù)移動(dòng)肽部分移動(dòng)肽非移動(dòng)肽總數(shù)228834626平均相似度86．01%83．28%78．37%

表5Yeast數(shù)據(jù)碎裂離子強(qiáng)度相似度

參數(shù)移動(dòng)肽部分移動(dòng)肽非移動(dòng)肽總數(shù)16452936平均相似度84．39%82．14%70．71%

由表4、表5可以看出，肽序列斷裂類(lèi)型主要為移動(dòng)肽，其次為部分移動(dòng)肽，最后為非移動(dòng)肽.前兩種平均相似度較非移動(dòng)肽有著更高的準(zhǔn)確性且數(shù)量更多.根據(jù)Mobilepeptides的概念：肽序列中堿性氨基酸的數(shù)量小于母離子電荷數(shù)，因此可以初步估計(jì)，堿性氨基酸與母離子電荷數(shù)，是影響離子強(qiáng)度的主要特征之一.

并且分析預(yù)測(cè)產(chǎn)生的決策樹(shù)，其中主要使用到的特征為：肽序列的質(zhì)量、電荷，肽序列與碎片離子的疏水性、氣相堿性、PI值、α螺旋的傾向，斷裂位置，肽序列長(zhǎng)度，碎片離子中組氨酸H、賴(lài)氨酸K、精氨酸R的比例等都對(duì)離子強(qiáng)度有著較大的影響，可以在肽譜匹配算法中給予這些特征以較高的權(quán)重.

本實(shí)驗(yàn)選取XGBoost作為模型的構(gòu)建工具，其優(yōu)點(diǎn)是預(yù)測(cè)速度快，并可以自動(dòng)對(duì)離子特征的優(yōu)先級(jí)進(jìn)行排序，結(jié)果的整體相似度基本達(dá)到了85%，但仍有一定的提升空間.分析原因在于pFind鑒定結(jié)果的覆蓋率未達(dá)到70%以上，并且在鑒定時(shí)打分算法只是取出最有可能的匹配，因此結(jié)果存在一定誤差；另外模型構(gòu)建時(shí)離子強(qiáng)度的選擇數(shù)量不夠，由于簡(jiǎn)化了實(shí)驗(yàn)碎片離子的選取，因此部分離子特征沒(méi)有選擇到，在后續(xù)的實(shí)驗(yàn)中，會(huì)加入其它的碎裂離子與離子特征進(jìn)行建模，提高相似度.

3 結(jié)束語(yǔ)

本文使用梯度提升算法工具XGBoost構(gòu)建肽序列的離子強(qiáng)度模型，并對(duì)實(shí)驗(yàn)步驟進(jìn)行了詳細(xì)的描述.最后針對(duì)具體肽序列使用文獻(xiàn)中查找到的相似度指標(biāo)來(lái)進(jìn)行評(píng)估.對(duì)提取的特征可以應(yīng)用到蛋白質(zhì)鑒定軟件的肽譜匹配算法中，進(jìn)一步提高肽識(shí)別的性能.本實(shí)驗(yàn)對(duì)CID裂解的肽段離子進(jìn)行了簡(jiǎn)化的處理，對(duì)子離子只選擇1電荷的b與y離子的數(shù)據(jù)，母離子選擇2電荷的數(shù)據(jù)，在后續(xù)的試驗(yàn)中將會(huì)考慮多電荷的復(fù)雜情況.實(shí)驗(yàn)使用到的特征及氨基酸屬性值可在http://pan.baidu.com/s/1pKTyiW7獲取.

[1] 付巖, 賀思敏, 孫瑞祥,等. 串聯(lián)質(zhì)譜蛋白質(zhì)鑒定的關(guān)鍵計(jì)算問(wèn)題[J]. 信息技術(shù)快報(bào), 2010,8(01):16-32.

[2]ZHANGZ.Predictionoflow-energycollision-induceddissociationspectraofpeptides[J].Analyticalchemistry, 2004, 76(14): 3908-3922.

[3]ELIASJE,GIBBONSFD,KingOD,etal.Intensity-basedproteinidentificationbymachinelearningfromalibraryoftandemmassspectra[J].Naturebiotechnology, 2004, 22(2): 214-219.

[4]TANGH.Amachinelearingapproachtopredictingpeptidefragmntationspectra[J].PacificSymposiumonBiocomputingPacificSymposiumonBiocomputing, 2006, 11:219-30.

[5]ZHOUC,BOWKERLD,FENGJ.Amachinelearningapproachtoexplorethespectraintensitypatternofpeptidesusingtandemmassspectrometrydata[J].BmcBioinformatics, 2008, 9(2):1-17.

[6]SUNS,YANGF,YANGQ,etal.MS-Simulator:PredictingY-IonIntensitiesforPeptideswithTwoChargesBasedontheIntensityRatioofNeighboringIons.[J].JProteomeRes, 2012, 11:4509-4516.

[7]CHENT,GUESTRINC.Xgboost:Ascalabletreeboostingsystem[J].arXivpreprintarXiv:1603.02754, 2016.

[8]SONGR,CHENS,DENGB,etal.eXtremeGradientBoostingforIdentifyingIndividualUsersAcrossDifferentDigitalDevices[C]//InternationalConferenceonWeb-AgeInformationManagement.SpringerInternationalPublishing, 2016: 43-54.

[9] 于長(zhǎng)永, 王國(guó)仁, 毛克明,等. 一種新穎的蛋白質(zhì)序列與其串聯(lián)質(zhì)譜的匹配打分算法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2010, 31(03):404-407.

[10]朱思敏, 李華梅. 基于泊松分布模型的蛋白質(zhì)串聯(lián)質(zhì)譜鑒定算法研究[J]. 云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2016, 25(2):179-184.

[11]NEUHAUSERN,MICHALSKIA,COXJ,etal.Expertsystemforcomputer-assistedannotationofMS/MSspectra[J].Molecular&CellularProteomics, 2012, 11(11): 1500-1509.

[12] 王中勝. 基于支持向量機(jī)分類(lèi)的b/y離子峰選取算法及肽序列標(biāo)簽生成算法的研究[D]. 北京：中國(guó)人民解放軍軍事醫(yī)學(xué)科學(xué)院, 2007.

[13]FRANKAM.Predictingintensityranksofpeptidefragmentions[J].JProteomeRes, 2009, 8:2226-2240.

(編輯：姚佳良)

Peptidefragmentionintensitymodelingbasedongradientboostingdecisiontree

HUAIHao,LIUXue,ZHANGLong-bo,WANGXiao-dan

(SchoolofComputerScienceandTechnology,ShandongUniversityofTechnology,Zibo255049,China)

Inordertofindthepeptidefragmentionsattributesthathaveagreaterinfluenceontheproteinidentificationalgorithm,andimprovetheaccuracyofidentificationresults,theforecastmodelbasedonfragmentionsioncharacteristicandintensityinformationisbuilt.Firstly,weuseofpFindtoidentifytandemmassspectrum,thenfilterouttheneededpeptidesequences；secondly,wecalculatetheresultofm/zandtheattributesvaluesofions,andgettheintensitiesbymatchingm/z,thenusetheinformationofintensityandtheattributesvalueofionstobuildalibsvmformatfile,andthenbuildapredictionmodelthroughtheXGBoostwhichusingtheGBDTalgorithm;finally,weusethebuiltpredictionmodeltopredictthetheoryintensitiesofpeptidesequencesionswhichproducedbyprotein.Theexperimentalresultsshowthattheintensitieswegotfromthepredictionmodelhadahighersimilaritytotheexperimentalintensities.Meanwhile,theanalysisofthepredictionmodelcanfindtheruleofpeptidefragmentationfromthepredictiontree.andextractthepeptidefragmentionsattributesthathadlargerinfluenceontheintensities.

tandemmassspectrometry;peptidefragmentionintensity;gradientboostingdecisiontree;modeling

2016-06-23

懷浩，男，haoyuexihuai@126.com；通信作者：張龍波，男，zhanglb@sdut.edu.cn

1672-6197(2017)02-0064-05

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于梯度提升決策樹(shù)的肽碎片離子強(qiáng)度建模

1 算法模型

2 實(shí)驗(yàn)與分析

3 結(jié)束語(yǔ)