孫 蕭 寒
(渭南師范學(xué)院 網(wǎng)絡(luò)安全與信息化學(xué)院, 陜西 渭南 714000)
快速液質(zhì)聯(lián)用數(shù)據(jù)峰對(duì)齊算法
孫 蕭 寒
(渭南師范學(xué)院 網(wǎng)絡(luò)安全與信息化學(xué)院, 陜西 渭南 714000)
液質(zhì)聯(lián)用(LC/MS)是一種將物理分離能力和質(zhì)量分析能力相結(jié)合的技術(shù),可用于檢測(cè)內(nèi)源性小分子代謝物,近年來(lái)在代謝組學(xué)研究中被廣泛應(yīng)用。然而該技術(shù)在輸出檢測(cè)出的離子峰數(shù)據(jù)時(shí)往往具有很強(qiáng)的噪聲,并且在保留時(shí)間上出現(xiàn)樣本間的非線性偏差,因此必須對(duì)LC/MS輸出的數(shù)據(jù)在各樣本間進(jìn)行峰對(duì)齊?,F(xiàn)有的LC/MS數(shù)據(jù)對(duì)齊方法由于結(jié)構(gòu)復(fù)雜、參數(shù)設(shè)置較多而不適用于快速峰對(duì)齊。針對(duì)此問(wèn)題提出快速LC/MS數(shù)據(jù)峰值對(duì)齊算法。該算法包括數(shù)據(jù)預(yù)處理、峰識(shí)別和峰匹配3個(gè)模塊,無(wú)需用戶選擇參數(shù),時(shí)間復(fù)雜度低。
液質(zhì)聯(lián)用; 峰對(duì)齊; 代謝譜
代謝組學(xué)(metabolomics)研究特定的分子過(guò)程所遺留的獨(dú)特化學(xué)標(biāo)志,其研究對(duì)象為代謝物圖譜[1-2]。代謝組學(xué)需要檢測(cè)并收集大量的代謝物數(shù)據(jù),目前用于檢測(cè)代謝物的主要技術(shù)是核磁共振波譜技術(shù)與質(zhì)譜分析技術(shù)[3-4]。近年來(lái),高效液相色譜分離技術(shù)與質(zhì)譜檢測(cè)技術(shù)的結(jié)合(LC/MS),因其具有的高通量、軟電離和代謝物覆蓋全的特點(diǎn)已經(jīng)成為代謝組學(xué)研究中檢測(cè)小分子化合物的主流平臺(tái)[5-6]。LC/MS數(shù)據(jù)包括3個(gè)維度:保留時(shí)間、質(zhì)量電荷比(m/z)和離子峰強(qiáng)度。在某一質(zhì)量電荷比下,離子峰強(qiáng)度曲線所形成的峰的部分即可能對(duì)應(yīng)小分子化合物。
然而,由于實(shí)驗(yàn)技術(shù)、實(shí)驗(yàn)設(shè)備、實(shí)驗(yàn)環(huán)境等因素的影響,不同樣本的離子峰強(qiáng)度曲線不盡相同,且峰的部分在保留時(shí)間上存在偏差,這種偏差會(huì)直接導(dǎo)致小分子化合物檢測(cè)與識(shí)別的錯(cuò)誤[7]。此外,峰的偏差也表現(xiàn)在峰的形態(tài)(峰的高度,峰的寬度,峰的形狀)上,因此在進(jìn)行小分子化合物分析前必須先將離子峰對(duì)齊。
現(xiàn)有的LC/MS數(shù)據(jù)對(duì)齊方法一般存在兩個(gè)問(wèn)題[8-9]:① 需要選擇參數(shù),并且峰對(duì)齊的結(jié)果對(duì)參數(shù)特別敏感;② 方法的時(shí)間復(fù)雜度高。以最主流的XCMS為例,不管是下載安裝R版本的軟件還是在線提交數(shù)據(jù),當(dāng)數(shù)據(jù)量較大時(shí),往往需要幾天甚至更長(zhǎng)的等待時(shí)間[10]。針對(duì)現(xiàn)有方法參數(shù)敏感和時(shí)間復(fù)雜度高問(wèn)題,本文提出快速LC/MS數(shù)據(jù)峰對(duì)齊算法。
快速LC/MS數(shù)據(jù)峰對(duì)齊算法包括數(shù)據(jù)預(yù)處理、峰識(shí)別和峰對(duì)齊3個(gè)模塊(見(jiàn)圖1)。
圖1 流程圖
本實(shí)驗(yàn)數(shù)據(jù)采用Ralf Tautenhahn等公開(kāi)的數(shù)據(jù)(http://msbi.ipb- halle.de/msbi/centwave/),包括121個(gè)樣本,每個(gè)樣本包括2 972個(gè)保留時(shí)間點(diǎn)(保留時(shí)間點(diǎn)作為保留時(shí)間的刻度),時(shí)間范圍從0.491~999.924 s(每個(gè)時(shí)間點(diǎn)間隔為0.336 s);每個(gè)樣本在每個(gè)保留時(shí)間點(diǎn)均檢測(cè)質(zhì)量電荷比和對(duì)應(yīng)的離子峰強(qiáng)度。其中檢測(cè)出的質(zhì)量電荷比的范圍94~1 005,離子峰的強(qiáng)度10~15 231。
由于LC/MS技術(shù)檢測(cè)出的質(zhì)量電荷比是一個(gè)精準(zhǔn)數(shù)據(jù),故可以選擇統(tǒng)一的質(zhì)量電荷比步長(zhǎng)(本文選擇0.5),取該質(zhì)量電荷比步長(zhǎng)范圍內(nèi)每一個(gè)保留時(shí)間點(diǎn)上最大的離子峰強(qiáng)度數(shù)據(jù)作為該保留時(shí)間點(diǎn)上的離子峰強(qiáng)度數(shù)據(jù)[11]。
(1) 峰形態(tài)分析。觀察每一個(gè)質(zhì)量電荷比數(shù)據(jù),發(fā)現(xiàn)離子峰強(qiáng)度在保留時(shí)間的維度上呈Z字形狀(見(jiàn)圖2)[12],即離子峰強(qiáng)度在某一保留時(shí)間點(diǎn)很強(qiáng),在下一保留時(shí)間很弱或?yàn)?(檢測(cè)不到),但在第3個(gè)保留時(shí)間又增強(qiáng),依次變化。
如果觀察整個(gè)保留時(shí)間段內(nèi)離子峰強(qiáng)度最大的質(zhì)量電荷比,可以發(fā)現(xiàn)在一段保留時(shí)間點(diǎn)內(nèi),總是有2個(gè)具有最大離子峰強(qiáng)度的質(zhì)量電荷比此消彼長(zhǎng)。這種Z字形的離子峰強(qiáng)度數(shù)據(jù)應(yīng)該是由于在同一質(zhì)量電荷比、同一保留時(shí)間段內(nèi)有不只一個(gè)小分子化合物被檢測(cè)到,但由于實(shí)驗(yàn)設(shè)備或技術(shù)原因?qū)е乱粋€(gè)質(zhì)量電荷比的離子峰強(qiáng)度被另一個(gè)所遮蔽。
圖2 離子峰強(qiáng)度Z字形態(tài)
(2) 數(shù)據(jù)降噪。由于原始離子峰強(qiáng)度數(shù)據(jù)的Z字形態(tài)并不符合自然情況,故使用離子峰強(qiáng)度與保留時(shí)間所形成的二維折線的面積代替原始的離子峰強(qiáng)度數(shù)據(jù),并基于面積數(shù)據(jù)采用小波變換進(jìn)一步降噪。
由于LC/MS數(shù)據(jù)的噪聲高且其噪聲特征未知,而小波降噪可以對(duì)信號(hào)去噪且能很好刻畫(huà)信號(hào)的非平穩(wěn)特征,Salvatore等的實(shí)驗(yàn)也證明基于非抽樣的離散小波變換更適合于LC/MS數(shù)據(jù)降噪[13]。本方法所采用的小波降噪的具體參數(shù)如下:多貝西小波(Daubechies Wavelet)db2、3層分解重構(gòu)、最大重復(fù)離散小波轉(zhuǎn)換、軟閾值、根據(jù)每一層小波分解的噪聲水平估計(jì)進(jìn)行調(diào)整。去噪后數(shù)據(jù)如圖3所示。
圖3 小波去噪曲線(質(zhì)量電荷比:980.123~980.625)
LC/MS數(shù)據(jù)的峰識(shí)別是要從離子峰強(qiáng)度中識(shí)別出由小分子化合物所引起的峰而過(guò)濾掉隨機(jī)噪聲。然而僅從離子峰強(qiáng)度很難區(qū)分豐度小的小分子化合物引起的峰與噪聲所引起的峰[14]。本文采用候選峰識(shí)別和候選峰過(guò)濾兩步方法進(jìn)行峰識(shí)別。
(1) 候選峰識(shí)別。本方法采用
來(lái)定義峰:峰是由峰頭與峰尾所界定的一截保留時(shí)間段。峰頭是加速度由負(fù)值或0值變?yōu)檎档谋A魰r(shí)間點(diǎn);峰尾是加速度由正值變?yōu)樨?fù)值或0值的保留時(shí)間點(diǎn)。
加速度的定義是基于離子峰強(qiáng)度所圍區(qū)域的面積,這意味如果一旦一個(gè)離子峰強(qiáng)度被抑制超過(guò)一個(gè)保留時(shí)間點(diǎn)就有很大的可能發(fā)生加速度符號(hào)的變化,此時(shí)一個(gè)完整的峰會(huì)被識(shí)別為兩個(gè)獨(dú)立的峰。為了將分離峰進(jìn)行合并,本文設(shè)計(jì)了相鄰峰合并測(cè)度,
[25]胡奇馨:《宋代銀銅礦考》,載《福建社會(huì)》第二卷1、2期合刊;《福建經(jīng)濟(jì)發(fā)展簡(jiǎn)史》,第163頁(yè),廈門(mén)大學(xué)出版社,1989年。
其中峰距=后峰峰頭-前峰峰尾。經(jīng)多次實(shí)驗(yàn),選取經(jīng)驗(yàn)值MNP≥7時(shí),合并相鄰峰。
(2) 候選峰過(guò)濾。僅由加速度所識(shí)別的候選峰含有由噪聲所引起的峰,為消除噪聲峰,本文基于降噪數(shù)據(jù)識(shí)別可能的峰頂點(diǎn)。由于LC/MS的各樣本的離子峰強(qiáng)度差異較大,所以根據(jù)降噪后數(shù)據(jù)單獨(dú)估計(jì)每一個(gè)樣本的經(jīng)驗(yàn)累積分布密度,選取累積分布密度≥95%的保留時(shí)間點(diǎn)。在這些保留時(shí)間點(diǎn)中選擇其離子峰強(qiáng)度高于其前一保留時(shí)間點(diǎn)及后一保留時(shí)間點(diǎn)的數(shù)據(jù)點(diǎn)作為峰頂點(diǎn)。對(duì)前一步得到的候選峰采用峰頂點(diǎn)進(jìn)一步篩選,只有那些包含有峰頂點(diǎn)的候選峰才作為識(shí)別出的峰(見(jiàn)圖4)。
圖4 峰識(shí)別(質(zhì)量電荷比:980.123~980.625)
(1) 峰匹配矩陣?;诿恳粋€(gè)樣本所識(shí)別出的候選峰,對(duì)2個(gè)樣本間的候選峰兩兩進(jìn)行匹配,并計(jì)算匹配值mv。首先根據(jù)LC/MS原始數(shù)據(jù)計(jì)算每一保留時(shí)間點(diǎn)的斜率和面積,并基于此計(jì)算2個(gè)樣本的候選峰之間匹配段的斜率余弦相似度和面積余弦相似度,以其和作為度量值,其中和最大的匹配段即為2個(gè)樣本間的匹配候選峰,
(hl+len-1),areaj_n(l1i+len-1))
(1)
式中:i,j是樣本號(hào);m,n是候選峰號(hào);k,l是候選峰中保留時(shí)間點(diǎn);len是2個(gè)候選峰中較短的候選峰長(zhǎng)度(len=min(leni_m,lenj_n))。由此,得到任意2個(gè)樣本間的候選峰匹配矩陣。
pvin,jn=abs(starl pvintpeaklm-start pointpeakjn+
(2)
式中,pv為最小的匹配段,即為兩樣本間的匹配峰。
此外,由于樣本間候選峰數(shù)也不一樣,存在某一個(gè)樣本的一個(gè)峰被匹配另一樣本多個(gè)不同的峰的可能性。此時(shí),取峰匹配段距離最接近的峰作為匹配峰。
本方法是基于原始數(shù)據(jù)的形態(tài)(每一時(shí)間點(diǎn)的斜率和面積)及峰之間的距離進(jìn)行樣本間離子峰對(duì)齊。對(duì)識(shí)別出的峰按過(guò)濾后的峰匹配矩陣移動(dòng)各樣本中的峰,最終形成峰對(duì)齊曲線(見(jiàn)圖5)。
圖5 峰對(duì)齊曲線(質(zhì)量電荷比:380.125~380.625,樣本數(shù):20)
由于樣本噪聲及樣本間差異,多個(gè)樣本都能對(duì)齊的離子峰有更高的可能性對(duì)應(yīng)于小分子化合物,表1列出了不同質(zhì)量電荷比下對(duì)齊的離子峰樣本數(shù)(說(shuō)明:質(zhì)量電荷為780.125~780.625的20個(gè)樣本中的12沒(méi)有檢測(cè)出峰)。
表1 對(duì)齊的離子峰樣本數(shù)表(20個(gè)樣本)
在峰對(duì)齊曲線中,將聚積在同一保留時(shí)間段上的峰為同一個(gè)峰。此外,那些只有一個(gè)樣本所表現(xiàn)出來(lái)的峰應(yīng)該是該樣本的特性而并不體現(xiàn)多樣本的共同對(duì)應(yīng)的小分子化合物,因此對(duì)對(duì)齊后的峰進(jìn)行進(jìn)一步過(guò)濾,刪除單樣本峰,最終得到可能對(duì)應(yīng)小分子化合物的離子峰。
LC/MS數(shù)據(jù)離子峰對(duì)齊是一個(gè)具有挑戰(zhàn)的問(wèn)題,主要的難度包括:峰檢測(cè)、峰整合、降噪和標(biāo)準(zhǔn)化等[15]。流行的離子峰數(shù)據(jù)對(duì)齊方法,如XCMS(https://xcmsonline.scripps.edu/landing_page.php?pgcontent=mainPage),MetaboAnalyst(http://www.metaboanalyst.ca/)和MetAlign(https://www.wur.nl/en/show/MetAlign-1.htm)等,往往需要經(jīng)過(guò)數(shù)據(jù)中心化、移去加合物、數(shù)據(jù)降噪、峰檢測(cè)、峰整合、窗口選擇等復(fù)雜的步驟,造成方法結(jié)構(gòu)復(fù)雜、時(shí)間復(fù)雜度很高。本文提出的方法是一種快速計(jì)算LC/MS數(shù)據(jù)離子峰對(duì)齊的方法,該方法具有以下特點(diǎn):
(1) 結(jié)構(gòu)簡(jiǎn)單。本方法只包含3個(gè)模塊:數(shù)據(jù)預(yù)處理、峰識(shí)別和峰對(duì)齊。
(2) 時(shí)間復(fù)雜度低。數(shù)據(jù)預(yù)處理階段時(shí)間復(fù)雜度為kmst(其中:m是質(zhì)量電荷比數(shù)量;s是樣本數(shù);t是保留時(shí)間點(diǎn)數(shù);k是一個(gè)常數(shù));峰檢測(cè)階段的時(shí)間復(fù)雜度為k1mst+k2msp,其中:p是候選峰數(shù)且p?t,因此本階段時(shí)間復(fù)雜度依然為kmst;峰對(duì)齊階段的時(shí)間復(fù)雜度為kms2p2,由于p?t,當(dāng)樣本數(shù)目不大時(shí),kms2p2 (3) 參數(shù)依賴少。本方法使用參數(shù)4個(gè)(已內(nèi)置于算法中,不需要用戶選擇):在數(shù)據(jù)處理階段選擇質(zhì)量電荷比的步長(zhǎng)值為0.25;在降噪階段選擇小波去噪及選擇相應(yīng)參數(shù);在峰檢測(cè)階段使用合并參數(shù)MNP,本方法中選取經(jīng)驗(yàn)值7作為域值;在峰過(guò)濾階段以累積分布密度≥95%作為域值過(guò)濾候選峰。 [1] Daviss B. Growing pains for metabolomics [J]. Scientist, 2005, 19: 25-28. [2] Fiehn O, Kopka J, Dormann P,etal. Metabolite profiling for plant functional genomics [J]. Nat Biotechnol, 2000, 18: 1157-1161. [3] Wandy J, Daly R, Breitling R,etal. Incorporating peak grouping information for alignment of multiple liquid chromatography-mass spectrometry datasets [J]. Bioinformatics, 2015, 31: 1999-2006. [4] Smith R, Ventura D, Prince J T. LC-MS alignment in theory and practice: a comprehensive algorithmic review [J]. Brief Bioinform, 2015, 16: 104-17. [5] Tautenhahn R, Bottcher C, Neumann S. Highly sensitive feature detection for high resolution LC/MS [J]. BMC Bioinformatics, 2008, 9: 504. [6] Zhou B, Xiao J F, Tuli L,etal. LC-MS-based metabolomics [J]. Mol Biosyst, 2012, 8: 470-481. [7] Aberg K M, Alm E, Torgrip R J. The correspondence problem for metabonomics datasets [J]. Anal Bioanal Chem, 2009, 394: 151-162. [8] Hoffmann N, Keck M, Neuweger H,etal. Combining peak- and chromatogram-based retention time alignment algorithms for multiple chromatography-mass spectrometry datasets [J]. BMC Bioinformatics, 2012, 13: 214. [9] Lange E, Tautenhahn R, Neumann S,etal. Critical assessment of alignment procedures for LC-MS proteomics and metabolomics measurements [J]. BMC Bioinformatics, 2008, 9: 375. [10] Smith C A, Want E J, O'maille G,etal. XCMS: Processing mass spectrometry data for metabolite profiling using Nonlinear peak alignment, matching, and identification [J]. Analytical Chemistry, 2006, 78: 779-787. [11] Azizan K A, Ibrahim S, Ghani N H A,etal. LC-MS Based Metabolomics Analysis to Identify Potential Allelochemicals in Wedelia trilobata [J]. Records of Natural Products, 2016, 10: 788-793. [12] Zhang W, Zhao P X. Quality evaluation of extracted ion chromatograms and chromatographic peaks in liquid chromatography/mass spectrometry-based metabolomics data [J]. BMC Bioinformatics, 2014, 15(Suppl 11): S5. [13] Cappadona S, Levander F, Jansson M,etal. Wavelet-based method for noise characterization and rejection in high-performance liquid chromatography coupled to mass spectrometry [J]. Anal Chem, 2008, 80: 4960-4968. [14] Zhang J, Gonzalez E, Hestilow T,etal. Review of peak detection algorithms in liquid-chromatography-mass spectrometry [J]. Curr Genomics, 2009, 10: 388-401. [15] Zhang X, Asara J M, Adamec J,etal. Data pre-processing in liquid chromatography-mass spectrometry-based proteomics [J]. Bioinformatics, 2005, 21: 4054-4059. QuickPeakAlignmentAlgorithmforLC/MS-basedData SUNXiaohan (School of Security and Informatization, Weinan Normal University, Weinan 714000, Shaanxi, China) Liquid chromatography-mass spectrometry (LC/MS) is a technique combining the physical separation and mass analysis. This technique is wisely applied in the metabolomics studies sinceit can detect endogenous metabolites. However, the output data are often accompanied with high noise, and the retention times of ion peaks are nonlinear among samples.There fore it is a necessary step to align the peaks among these samples. The available alignment methods on LC/MS data are not suitable to fast alignment of ion peaks be cause they usually have complex structures and too many parameters to be set. A novel algorithm is proposed to perform fast peak alignment, itincludes three modules: data preprocessing, peak detection and peak alignment. The algorithm is simple in structure, has no parameters to be set by users and low time complexity. liquid chromatography-mass spectrometry (LC/MS); peak alignment; metabolic profile TP 311 A 1006-7167(2017)11-0020-04 2017-03-23 國(guó)家自然科學(xué)基金面上項(xiàng)目(61571341);中國(guó)國(guó)家留學(xué)基金資助項(xiàng)目(210508615092);陜西省自然科學(xué)基金(2017JM6036);渭南師范學(xué)院重點(diǎn)項(xiàng)目(16YKP002) 孫蕭寒(1979-),女,陜西耀縣人,副教授,現(xiàn)主要從事生物信息計(jì)算研究。 Tel.:15319118920; E-mail:sxhjpj@sina.com