張樹榮,吳海龍,翟敏,康超,尹小麗,俞汝勤
(化學(xué)生物傳感與計量學(xué)國家重點實驗室湖南大學(xué)化學(xué)化工學(xué)院,湖南長沙 410082)
復(fù)雜的基于蛋白質(zhì)的生命現(xiàn)象及其過程已經(jīng)難以用一兩個因素來簡單、孤立地描述。傳統(tǒng)的熒光探針技術(shù)因為受自身光譜分辨能力所限而造成信號重疊,已經(jīng)無法同時描述多個蛋白質(zhì)的生命功能。液相色譜-串聯(lián)質(zhì)譜聯(lián)用(LC-MS)技術(shù)已經(jīng)被證明是最有可能承載蛋白質(zhì)組系統(tǒng)性研究的基礎(chǔ)方法之一。目前,基于LC-MS 技術(shù)的Shotgun 策略[1-4]已經(jīng)能夠充分利用二級質(zhì)譜來準(zhǔn)確地識別肽段序列,從而識別體系中重要的蛋白質(zhì)。當(dāng)?shù)鞍踪|(zhì)識別的問題得到很好的解決之后,科研工作者開始前瞻性地考慮蛋白質(zhì)的定量問題——如何定量地從直接的生物標(biāo)記蛋白質(zhì)來描述生命現(xiàn)象及其過程。Shotgun策略雖然擅長于識別蛋白質(zhì),自身卻非常耗時[5],不能采集到體系中完整的數(shù)據(jù)[6],也不能同時給出定量性質(zhì)的結(jié)果[1,7-10]。在常規(guī)領(lǐng)域,質(zhì)譜儀器的MRM(multiple reaction monitoring)技術(shù)是很好的兼顧鑒定同時保證定量的方案。而肽段本身的二級質(zhì)譜會出現(xiàn)非常多的碎片離子信號,造成了各個碎片離子未必像常規(guī)小分子那樣具有一個主導(dǎo)的碎片峰,從而使得選擇定性和定量離子的工作非常繁瑣,且進(jìn)一步使電離條件的優(yōu)化復(fù)雜化。同一個肽段質(zhì)譜會受到多種因素影響,其中包括流動相條件、電離源技術(shù)、碎裂策略、環(huán)境因素等等,這又使得在一臺儀器上獲得的結(jié)果很難推廣到其它基于質(zhì)譜的定量工作中。MRM 方案具有特殊性,其普適性不明顯。而在高豐度肽段共存條件下對低豐度目標(biāo)肽段的定量分析,MRM 方法依然要面臨考驗。同時,目前一維色譜(1DLC)的峰容量是不能完全分離蛋白質(zhì)組學(xué)研究對象當(dāng)中所含有的多肽成分;盡管全二維色譜(2DLC)的峰容量理論上能夠達(dá)到2500[11,12],而實際上能識別的蛋白質(zhì)大概在50個,對于數(shù)以十萬計的多肽數(shù)目依然偏少。
然而,質(zhì)譜的數(shù)據(jù)特性和一般儀器的信號特性如紫外可見光、熒光等存在一定的差異。某物質(zhì)的純質(zhì)譜信號具有稀疏性,即質(zhì)荷比信號為正值,且不連續(xù)。本文就常規(guī)三線性分解算法能否適應(yīng)這樣的數(shù)據(jù)特性進(jìn)行探討,從而提出可行的解決方案。
本文利用人血清白蛋白(HSA)水解的動力學(xué)體系構(gòu)建具有代表性的數(shù)據(jù)集合。將HSA(購自Sigma-Aldrich 公司)用超純水(UP water)配成25 g/L的工作液備用。配制酸性氯化鈣溶液(濃度為0.005 mol/L,用鹽酸調(diào)節(jié)pH 為3),用于配制胰蛋白酶(trypsin)儲存液。用酸性氯化鈣溶液配制牛胰蛋白酶(購自Aladdin 公司)為2 g/L的儲存液。將氯化鈣溶于Tris-HCl 緩沖液(pH 8.2)中配成濃度為0.005 mol/L的堿性氯化鈣溶液(alkaline CaCl2)。最后實驗樣品的組成見表1。在線取樣用Agilent 1290 Infinity Autosampler 來實現(xiàn),動態(tài)水解樣品采取每隔30 min 取樣一次。對中等反應(yīng)速度樣本(medium-digest-rate-sample)重復(fù)取樣30次,對高反應(yīng)速率樣本(high-digest-rate-sample)和低反應(yīng)速率樣本(low-digest-rate-sample)各重復(fù)采樣15次。
表1 實驗樣品的配制與組成Table 1 Composition of the samples
三線性分解算法的目標(biāo)是將具有這樣的三線性結(jié)構(gòu)的數(shù)據(jù)最終分解為各個含有純組分信息的矩陣(如圖2所示)。根據(jù)算法的目標(biāo)函數(shù)不同,有PARAFAC(parallel factor analysis)[24-26]、ATLD(alternating trilinear decomposition)[14]、SWATLD(selfweighted alternating trilinear decomposition)[27]和APTLD(alternating penalty trilinear decomposition)[28]等算法可用于這樣的數(shù)據(jù)數(shù)學(xué)分離。這些系列算法的目標(biāo)都是最大限度地擬合三維響應(yīng)數(shù)陣,挖掘其中的定性、定量信息,因而具有很強(qiáng)的普適性,并且不需要人為設(shè)置一些條件參數(shù)。而對于雙線性方法,本研究則選擇了相關(guān)作者提供的MCR(multivariate curve resolution)工具箱進(jìn)行計算。
對于MCR 方法,盡管本研究嘗試了所有可能的參數(shù)設(shè)置,依然無法將目標(biāo)肽段的低豐度信號與背景進(jìn)行有效的分離。也就是說,對于低豐度肽段的分析,雙線性方法幾乎不適用。前面提及的多種三線性分解算法的應(yīng)用結(jié)果,其色譜圖(B 矩陣)和定
在上述動力學(xué)采樣的數(shù)據(jù)中,本研究選擇了15.80~15.98 min 一段具有代表性的信號作為各個算法的測試基準(zhǔn)。該段數(shù)據(jù)含有一個低豐度肽段(經(jīng)識別,其序列為IAEVENDEMP),其響應(yīng)約為實驗中主要峰強(qiáng)度的1/100,并且淹沒在基線波動當(dāng)中,是典型的低豐度肽段信號(如圖1所示)。該段數(shù)據(jù)是典型的干擾強(qiáng)、目標(biāo)分析物響應(yīng)低的雙組分三維數(shù)陣。
圖1 評價算法所選取的數(shù)據(jù)區(qū)間Fig.1 Range of retention time selected to test the algorithms
圖2 三線性分解的示意圖Fig.2 Diagram of trilinear decomposition
三維數(shù)陣內(nèi)含的三線性關(guān)系可以用公式(1)表量信息(C 矩陣)的直觀結(jié)果是可以接受的,將背景干擾和目標(biāo)肽段的信號分開了。但質(zhì)譜圖的質(zhì)量卻與客觀實際不相符合(見圖3),在肽段的質(zhì)譜信號本來為0的地方出現(xiàn)了明顯的負(fù)值,并且顯示出與色譜背景信號負(fù)相關(guān)的關(guān)系。這些經(jīng)典的算法在尋求對三維數(shù)陣最佳擬合的同時,的確沒有考慮到質(zhì)譜數(shù)據(jù)的稀疏特性。因而這樣獲得的結(jié)果顯然有些不符合實際。
圖3 常規(guī)三線性方法分解結(jié)果中表現(xiàn)出來的對質(zhì)譜數(shù)據(jù)特性的不適應(yīng)性(以ATLD 結(jié)果為例)Fig.3 Inadaptability of trilinear decomposition algorithm using the results of ATLD as an example(The resolved components contained obviously negative values)
要提高質(zhì)譜的三線性分解質(zhì)量,必須要在原來的三線性分解算法基礎(chǔ)上引入一些自動的約束條件,在提高結(jié)果質(zhì)量的同時減少人為操作,以便于高通量的數(shù)據(jù)處理。而與質(zhì)譜圖的稀疏特性相對應(yīng)的數(shù)學(xué)約束為“非負(fù)約束”,引入非負(fù)約束應(yīng)該能改善算法的結(jié)果質(zhì)量。對于PARAFAC 算法,在較早前已經(jīng)有研究者提出了各種非負(fù)求解的方案。Bro 等[29]曾提出展開方式求解,但是由于LC-MS 數(shù)據(jù)是非常龐大的,采用展開成矩陣或者向量求解的策略,即使使用64位的操作系統(tǒng),依然會耗盡軟件的內(nèi)存地址編碼數(shù)目。Paatero[30]則提出了通過引入懲罰項的方案來實現(xiàn)非負(fù)計算,然而懲罰項部分需要非常復(fù)雜的計算,不但衍生了更多的臨時變量,還附帶了很多對三維陣的計算操作,因而該方案的計算時間消耗非常大??梢?,基于PARAFAC 算法的改進(jìn)會產(chǎn)生對計算資源和時間的嚴(yán)重消耗,這樣的算法不適宜推廣。根據(jù)ATLD算法的計算策略具有計算資源節(jié)約和收斂快的特點,本文從ATLD 衍生出了新穎的帶有非負(fù)約束的算法NNATLD(non-negative alternating trilinear decomposition)。新算法交替優(yōu)化求解公式(2)中的目標(biāo)函數(shù),從而最終獲得良好的數(shù)學(xué)分辨結(jié)果。新的算法不但使用切片矩陣的方案,還對矩陣進(jìn)行了有效的壓縮,所以非常節(jié)約計算資源,同時具有非??斓氖諗克俣?。新算法對于本組測試數(shù)據(jù)會在10次迭代內(nèi)收斂到最終結(jié)果,比以往的算法都要快。新算法能自動給出組分?jǐn)?shù)估計的建議,用戶只要給出比實際組分?jǐn)?shù)多的估計,算法就能自動尋找合理的組分?jǐn)?shù)。
在計算結(jié)果方面,新算法能獲得非常好的色譜和定量結(jié)果,且質(zhì)譜圖的質(zhì)量能較好地符合定性的客觀要求(見圖4)。新算法不但滿足了質(zhì)譜圖的稀疏性特性,同時也符合肽段質(zhì)譜圖的結(jié)果并與理論的肽段質(zhì)譜圖吻合較好。在低豐度肽段的信號保留方面,新算法保留了m/z 1168.5的[M+Na]+準(zhǔn)分子離子峰。該峰的強(qiáng)度不到主峰(m/z 573.9)強(qiáng)度的1%。由此可以得出結(jié)論,新算法能較好地適應(yīng)高豐度與低豐度信號強(qiáng)度相差超過1萬倍的情況分析。
圖4 NNATLD的三線性分解結(jié)果Fig.4 Results of NNATLD for the test data
三線性分解策略與MRM 方法的不同之處:只需要采集一級質(zhì)譜譜圖并能做到采集全部離子信號,免除了在二級質(zhì)譜確定定量和定性離子的麻煩,減少了二級質(zhì)譜對離子信號強(qiáng)度的降低效應(yīng);由于自身能夠按照物理/化學(xué)意義分離信號及其定量信息,所以并不要進(jìn)行離子選擇;并且三線性分解算法要求的只是目標(biāo)分析物能在質(zhì)譜儀上有自身的信號,并不要求各個儀器上面的譜圖完全一樣,因而基于三線性分解算法建立蛋白質(zhì)定量策略是可以跨離子源/跨儀器使用的,該定量策略具有較好的通用性。
[1]Washburn M P,Wolters D,Yates III J R.Nature Biotechnology,2001,19(3):242
[2]Wolters D A,Washburn M P,Yates III J R.Anal Chem,2001,73(23):5683
[3]Fournier M L,Gilmore J M,Martin-Brown S A,et al.Chem Rev,2007,107(8):3654
[4]Nesvizhskii A I.Meth Mol Biol,2007,367:87
[5]Blonder J,Chan K C,Issaq H J,et al.Nature Protocols,2007,1(6):2784
[6]Liu H,Sadygov R G,Yates III J R.Anal Chem,2004,76(14):4193
[7]Kawamoto S,Matsumoto Y,Mizuno K,et al.Gene,1996,174(1):151
[8]Anderson L,Seilhamer J.Electrophoresis,1997,18(3/4):533
[9]Futcher B,Latter G I,Monardo P,et al.Mol Cell Biol,1999,19(11):7357
[10]Gygi S P,Rochon Y,F(xiàn)ranza B R,et al.Mol Cell Biol,1999,19(3):1720
[11]Opiteck G J,Lewis K C,Jorgenson J W,et al.Anal Chem,1997,69(8):1518
[12]Wall D B,Kachman M T,Gong S,et al.Anal Chem,2000,72(6):1099
[13]Wu H L,Nie J F,Yu Y J,et al.Anal Chim Acta,2009,650(1):131
[14]Wu H L,Shibukawa M,Oguma K.J Chemom,1998,12(1):1
[15]Zhang Y,Wu H L,Xia A L,et al.Talanta,2007,72(3):926
[16]Li S F,Wu H L,Yu Y J,et al.Talanta,2010,81(3):805
[17]Yu Y J,Wu H L,Shao S Z,et al.Talanta,2011,85(3):1549
[18]Jaumot J,Gargallo R,de Juan A,et al.Chemom Intell Lab Syst,2005,76(1):101
[19]Jaumot J,Tauler R.Chemom Intell Lab Syst,2010,103(2):96
[20]Olivieri A C,Wu H L,Yu R Q.Chemom Intell Lab Syst,2009,96(2):246
[21]Booksh K S,Kowalski B R.Anal Chem,1994,66(15):782A
[22]Strohalm M,Kavan D,Novak P,et al.Anal Chem,2010,82(11):4648
[23]Strohalm M,Hassman M,Kosata B,et al.Rapid Commun Mass Spectrom,2008,22(6):905
[24]Carroll J,Chang J J.Psychometrika,1970,35(3):283
[25]Harshman R A.UCLA Working Papers in Phonetics,1970,16(1):84
[26]Kiers H,Krijnen W.Psychometrika,1991,56(1):147
[27]Chen Z P,Wu H L,Jiang J H,et al.Chemom Intell Lab Syst,2000,52(1):75
[28]Xia A,Wu H,F(xiàn)ang D,et al.J Chemom,2005,19(2):65
[29]Bro R,De Jong S.J Chemom,1997,11(5):3931
[30]Paatero P.Chemom Intell Lab Syst,1997,38(2):223