国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于皮爾遜相關(guān)系數(shù)的有機質(zhì)譜相似性檢索方法*

2015-12-29 03:27李宏彬赫光中果秋婷
化學(xué)分析計量 2015年3期
關(guān)鍵詞:皮爾遜同分異構(gòu)相似性

李宏彬,赫光中,果秋婷

(咸陽職業(yè)技術(shù)學(xué)院醫(yī)學(xué)院醫(yī)學(xué)技術(shù)研究所,陜西咸陽 712000)

基于皮爾遜相關(guān)系數(shù)的有機質(zhì)譜相似性檢索方法*

李宏彬,赫光中,果秋婷

(咸陽職業(yè)技術(shù)學(xué)院醫(yī)學(xué)院醫(yī)學(xué)技術(shù)研究所,陜西咸陽 712000)

對基于皮爾遜相關(guān)系數(shù)的有機質(zhì)譜譜圖相似性評估方法進行了研究。以質(zhì)量數(shù)為自變量,豐度為因變量,經(jīng)過一定的數(shù)據(jù)預(yù)處理過程后兩個化合物的譜圖轉(zhuǎn)化為兩個數(shù)組,這樣不同化合物就可套用皮爾遜相關(guān)系數(shù)進行相關(guān)性計算。采用皮爾遜相關(guān)系數(shù)方法對具有同分異構(gòu)相似性和化學(xué)結(jié)構(gòu)式相似性的兩組有機物質(zhì)譜圖譜組內(nèi)、組間進行相似性計算,具有一定相似性的同一組內(nèi),譜圖之間呈現(xiàn)較高的相關(guān)系數(shù)分值;不同組的譜圖呈現(xiàn)非常低的相關(guān)系數(shù)分值。因此使用皮爾遜相關(guān)系數(shù)方法進行譜圖相似性評估是可行的。對豐度進行非線性變換,可以大幅度提高算法的變異系數(shù),提高質(zhì)譜數(shù)據(jù)庫的搜索效率。

皮爾遜相關(guān)系數(shù);質(zhì)譜;相似性檢索

質(zhì)譜是通過制備、分離、檢測氣相離子質(zhì)荷比(質(zhì)量-電荷比)的分析方法來鑒定化合物的一種分析化學(xué)技術(shù)。質(zhì)譜分析具有極高的靈敏度,很少的樣品用量,快速和準(zhǔn)確等優(yōu)點,因此被廣泛地應(yīng)用于化工、環(huán)境、能源、材料、醫(yī)藥、生命科學(xué)等領(lǐng)域。不同的物質(zhì)有不同的質(zhì)譜,利用這一性質(zhì),可以進行化合物分子質(zhì)量和相關(guān)結(jié)構(gòu)信息的分析。質(zhì)譜分析的基礎(chǔ)是譜圖庫檢索,即將質(zhì)譜檢測獲得的譜圖同已驗證的質(zhì)譜數(shù)據(jù)庫內(nèi)的譜圖進行匹配,由于每張質(zhì)譜譜圖的數(shù)據(jù)量非常大,檢索過程通常由計算機來完成。檢索算法的準(zhǔn)則:(1)當(dāng)質(zhì)譜數(shù)據(jù)庫中存在待檢物質(zhì)的譜圖時可以將其析出;(2)當(dāng)質(zhì)譜數(shù)據(jù)庫中不存在與待檢物質(zhì)完全一致的譜圖時,能夠按照相似性程度次序列出數(shù)據(jù)庫中與待檢物質(zhì)近似的化合物。

目前已出現(xiàn)了一些質(zhì)譜譜圖相似性檢索策略,如日本島津QP5000-GC/MS氣相質(zhì)譜和色譜聯(lián)用儀的CLASS 5OOO[1]相似性系數(shù)計算,見式(1):

式中:SI——未知譜和參考譜之間的相似性分值;

Iui——未知譜在譜圖中某個位置的豐度;

Iri——參考譜在譜圖中某個位置的豐度。

使用唯一因子即質(zhì)譜豐度的相似性檢索方法還有美國LAM[2]提出的基于質(zhì)譜豐度內(nèi)積相似度的公式(2):

加拿大的Wu[3]提出的基于余弦相似度的公式(3):

式中:l——兩張質(zhì)譜中質(zhì)荷比在某一容差值范圍內(nèi)匹配峰的個數(shù)。

以上方法過多的強調(diào)了譜圖的豐度因素,而沒有考慮質(zhì)荷比m/z對相似性的貢獻,效果略差。南開大學(xué)律祥俊[4]對上述公式進行了改進,提出了用豐度I和質(zhì)荷比m/z的乘積作為峰權(quán)重因子的不相似性系數(shù)DI計算公式(4):

式中:[I(m/z)]ri——未知物譜某一譜線的豐度與質(zhì)荷比乘積;

[I(m/z)]ui——參考譜某一譜線的豐度與質(zhì)荷比乘積。

吉林大學(xué)的扈慶等[5]也提出含有I和m/z乘積因子的相似性系數(shù)公式(5):

天津大學(xué)宋爽[6]提出應(yīng)對未知譜和參考譜圖的譜峰進行非線性縮放,縮放的公式為(m/z)aIb,a和b的大小直接影響最后的相似性檢索結(jié)果,并建議使用a=3和b=0.5的基于P范數(shù)的公式(6):

式中:Wui,Wri=[(m/z)i]3I0.5。

這些算法各具優(yōu)勢,推動質(zhì)譜譜圖相似性檢索技術(shù)向更科學(xué)和高效發(fā)展。

1 實驗方法

一些基于相關(guān)性的方法如余弦相關(guān)和皮爾遜相關(guān)系數(shù)等常被用于化學(xué)指紋圖譜如光譜、色譜的相似性測量[7]。皮爾遜相關(guān)系數(shù)是反映兩個數(shù)據(jù)變量的關(guān)聯(lián)程度的一種統(tǒng)計學(xué)方法,它的取值r介于1和-1之間,絕對值越大,意味著兩個變量的關(guān)聯(lián)程度越強,絕對值越趨近于0,關(guān)聯(lián)程度越弱。在本研究中按3級劃分:|r|<0.4為不相關(guān);0.4≤|r|<0.7為顯著性相關(guān);0.7≤|r|<1為線性高度相關(guān)。皮爾遜相關(guān)系數(shù)r=1稱完全正相關(guān),r=-1稱完全負(fù)相關(guān)。針對質(zhì)譜譜圖的特點,筆者提出一種基于皮爾遜相關(guān)系數(shù)的質(zhì)譜譜圖相似性精確檢索方法,見公式(7):

式中:SI——未知譜圖X和參考譜圖Y的相似性分值;X——未知譜的豐度序列集合;Y——參考譜的豐度序列集合;N——待比較譜線數(shù)目。

在計算皮爾遜相關(guān)系數(shù)之前,對兩組質(zhì)譜數(shù)據(jù)進行預(yù)處理。首先,設(shè)定比較區(qū)間,比較區(qū)間設(shè)定為質(zhì)量數(shù)0與兩者質(zhì)量數(shù)最大值之間;其次,應(yīng)根據(jù)質(zhì)譜數(shù)據(jù)的質(zhì)量數(shù)精度設(shè)定數(shù)據(jù)步長,例如質(zhì)量數(shù)精度為0.1,則設(shè)定兩組待比較數(shù)據(jù)的質(zhì)量數(shù)步長均為0.1,并在兩組數(shù)據(jù)質(zhì)量數(shù)為小數(shù)后一位的位置進行插值生成擴編數(shù)據(jù)(若原兩組數(shù)據(jù)在該小數(shù)位置有值則值保留,否則均插值0);第三,設(shè)置質(zhì)譜數(shù)據(jù)豐度門限,數(shù)據(jù)中豐度高于門限的數(shù)據(jù)將被保留,否則將被置0。例如,對于質(zhì)譜數(shù)據(jù)A{11,5,30,51,8,13,4}和豐度門限10,則處理后的數(shù)據(jù)為分別為A1{11,0,30,51,0,13,0}。預(yù)處理之后兩組數(shù)據(jù)具有相同的數(shù)據(jù)長度,并保留了具有顯著豐度值的質(zhì)量數(shù)位置,然后套用皮爾遜相關(guān)系數(shù)進行相似度計算。2005版本的NIST/EPA/NIH的質(zhì)譜數(shù)據(jù)庫(NIST 05)包含163 198個不同有機化合物的190 825張質(zhì)譜數(shù)據(jù),利用NIST 05數(shù)據(jù)庫附帶新的質(zhì)譜查詢軟件MS Search Ver2.0的分子式查詢方式獲得一些待比較有機化合物的質(zhì)譜譜峰數(shù)據(jù)和結(jié)構(gòu)簡式,然后利用數(shù)值計算軟件MATLAB套用皮爾遜相關(guān)系數(shù)分析這些化合物之間的相似性分值。

2 結(jié)果與討論

為了檢驗皮爾遜相關(guān)系數(shù)作為有機質(zhì)譜譜圖相似性評估方法的合理性,選取具有同分異構(gòu)相似性和化學(xué)結(jié)構(gòu)式相似性的兩組數(shù)據(jù)。由于同分異構(gòu)體之間具有相同的分子式,化學(xué)結(jié)構(gòu)式相似的物質(zhì)具有若干類似的功能基,無論前者還是后者經(jīng)質(zhì)譜儀處理后都應(yīng)該擁有更多相似的碎片譜線,因此質(zhì)譜譜線數(shù)據(jù)的相似程度相對于關(guān)聯(lián)性少的物質(zhì)之間應(yīng)該更高一些。如圖1所示,首先利用從NIST 05數(shù)據(jù)庫下載的化學(xué)式同為C7H8的13種同分異構(gòu)體的質(zhì)譜數(shù)據(jù),兩兩進行皮爾遜相關(guān)系數(shù)計算,計算結(jié)果見表1。

圖1 化學(xué)式為C7H8的同分異構(gòu)體結(jié)構(gòu)簡式及其編號

表1 C7H8的13種同分異構(gòu)體之間的質(zhì)譜皮爾遜相關(guān)系數(shù)(組1)

計算后發(fā)現(xiàn)這些同分異構(gòu)體質(zhì)譜之間的相關(guān)系數(shù)非常高,平均值接近0.906,標(biāo)準(zhǔn)偏差為0.076 8,變異系數(shù)為8.48%。平均值反映這一組物質(zhì)之間的質(zhì)譜數(shù)據(jù)平均相似程度,標(biāo)準(zhǔn)偏差和變異系數(shù)反映數(shù)據(jù)之間的離散程度。

如圖2所示,從NIST 05數(shù)據(jù)庫下載了化學(xué)式不同但同為正烷烴相似結(jié)構(gòu)的甲烷到十三烷的質(zhì)譜數(shù)據(jù),兩兩進行了皮爾遜相關(guān)系數(shù)的計算,計算結(jié)果見表2,它們之間的平均相關(guān)系數(shù)達為0.540,相似性弱于表1數(shù)據(jù),標(biāo)準(zhǔn)偏差為0.412,變異系數(shù)為76.3%,數(shù)據(jù)離散程度遠(yuǎn)高于第一組。從表2數(shù)據(jù)中也可以發(fā)現(xiàn),分子結(jié)構(gòu)差異越小,則質(zhì)譜皮爾遜相關(guān)系數(shù)分值越高。

圖2 一些正烷烴的結(jié)構(gòu)簡式及其編號

表2 圖2中的不同正烷烴之間的質(zhì)譜皮爾遜相關(guān)系數(shù)(組2)

對分子結(jié)構(gòu)差異大的C7H8各同分異構(gòu)體與上述正烷烴之間的質(zhì)譜相關(guān)系數(shù)進行計算,計算結(jié)果見表3。由表3數(shù)據(jù)可知,它們之間的平均相關(guān)系數(shù)很小,為-0.082,遠(yuǎn)小于組1和組2,標(biāo)準(zhǔn)偏差為0.032 1,變異系數(shù)為-39.4%,數(shù)據(jù)之間的離散程度較大。

表3 C7H8的同分異構(gòu)體與一些正烷烴之間的質(zhì)譜皮爾遜相關(guān)系數(shù)(組3)

將上述組1(分子式為C7H8的同分異構(gòu)體兩兩之間)、組2(甲烷到十三烷兩兩之間)和組3(C7H8的同分異構(gòu)體同正烷烴之間)的質(zhì)譜相似性用其它質(zhì)譜譜圖相似性評估方法(1 島津,2 Lam,3 Wu,4律祥俊,5 扈慶,6 宋爽)進行計算,然后將計算得到的數(shù)據(jù)同皮爾遜相關(guān)系數(shù)進行相似性比較,結(jié)果如圖3所示。由圖3可知,皮爾遜法在組1和組2的相似性評估分值與方法1島津和方法5扈慶相關(guān)性較高,而在組3與上述其它方法評估后數(shù)據(jù)的相關(guān)性相對差一些。

圖3 皮爾遜相關(guān)系數(shù)評估法和其它質(zhì)譜圖相似性評估方法的相似性比較

變異系數(shù)是反映數(shù)據(jù)(序列數(shù)據(jù)和表數(shù)據(jù))離散性的一個參量,對于一組高度相關(guān)的質(zhì)譜數(shù)據(jù)例如C7H8的同分異構(gòu)體,數(shù)據(jù)變異系數(shù)越高,則越有利于數(shù)據(jù)篩選和計算機檢索。用不同方法對相關(guān)性較高的組1和組2的計分?jǐn)?shù)據(jù)進行了變異系數(shù)研究,研究結(jié)果如圖4所示。譜圖相似性更高的組1中,變異系數(shù)相對略低,而在相似性較高的組2中,變異系數(shù)相對較高。

圖4 不同的質(zhì)譜圖相似性評估方法對組1和組2數(shù)據(jù)評估后變異系數(shù)比較

組1、組2和組3質(zhì)譜數(shù)據(jù)經(jīng)不同的非線性變換后,用皮爾遜公式(7)計算相關(guān)系數(shù),得到相關(guān)系數(shù)的均值、標(biāo)準(zhǔn)偏差和變異系數(shù),結(jié)果見表4。

由表4可知,經(jīng)不同的非線性變換后進行皮爾遜相關(guān)系數(shù)計算,能夠改變數(shù)據(jù)間的變異系數(shù)。引入質(zhì)核比因子m/z(方法2到5)或?qū)υ钾S度值進行大于1的冪運算變換(方法6到8),都不能顯著提高組1數(shù)據(jù)(同分異構(gòu)體組,質(zhì)譜譜圖間相似度高)的變異系數(shù),而使用對原始豐度值進行小于1的冪運算變換,如方法9到13,可以有效提高組1數(shù)據(jù)間的變異系數(shù)。當(dāng)在數(shù)據(jù)庫中搜索匹配的譜圖出現(xiàn)多個相似性分值接近的候選譜圖時,可以進行適當(dāng)?shù)男∮?的冪運算變換,拉開分值間的差距,這樣能提高質(zhì)譜數(shù)據(jù)庫的搜索效率。

3 結(jié)論

對基于皮爾遜相關(guān)系數(shù)的有機質(zhì)譜譜圖相似性評估方法進行了研究,通過對具有同分異構(gòu)相似性和化學(xué)結(jié)構(gòu)式相似性的兩組有機物質(zhì)譜圖譜組內(nèi)和組間進行相似性計算,驗證了用皮爾遜相關(guān)系數(shù)方法進行譜圖相似性評估是可行的。實驗還發(fā)現(xiàn)對原始豐度值進行小于1的冪運算變換,可以大幅度提高算法的變異系數(shù),這對于提高質(zhì)譜數(shù)據(jù)庫的搜索效率有很大幫助。

表4 皮爾遜相關(guān)系數(shù)均值、標(biāo)準(zhǔn)偏差和變異系數(shù)

[1] 許祿.化學(xué)計量學(xué)[M].北京,中國科學(xué)出版社,1992.

[2] Lam H,Deutsch E W,Eddes J S,et al. Building Consensus Spectral Libraries for Peptide Identification in Proteomics[ J]. Nature Methods,2008,5(10): 873-875.

[3] Wu Zhan,Lajoie G,Ma Bin. MSDash: Mass spectrometry database and search[J]. Computational Systems Bioinformatics/Life Sciences Society Computational Systems Bioinformatics Conference,2008,7(1): 63-71.

[4] 律祥俊,林少凡,張金碚,等.一種有機質(zhì)譜譜圖的庫檢索新算法[J].高等學(xué)校化學(xué)學(xué)報,1994,15(5): 678-680.

[5] 扈慶,方向和田地.一種有機質(zhì)譜檢索的匹配算法[J].計算機與應(yīng)用化學(xué),2005,22(11): 977-979.

[6] 宋爽.氣相色譜-質(zhì)譜聯(lián)用儀的純凈譜圖提取與檢索算法的研究[D].天津大學(xué),2011.

[7] Christensen J H,Mortensen J,Hansen A B,et al. Chromatographic preprocessing of GC-MS data for analysis of complex chemical mixtures[J]. Journal of Chromatography A,2005,1 062(1): 113-123.

[8] Stein S E,Scott D R. Optimization and testing of mass spectral library search algorithms for compound identification[J]. Journal of the American Society for Mass Spectrometry,1994,5(9): 859-866.

[9] Jeffries N. Algorithms for alignment of mass spectrometry proteomic data[J]. Bioinformatics,2005,21(14): 3 066-3 073.

[10] 王耀君,孫世偉,卜東波,等.串聯(lián)質(zhì)譜譜庫搜索鑒定技術(shù)綜述[J].計算機工程,2012,38(7): 269-272.

日本研制出新型癌癥熒光檢測試劑

日本東京大學(xué)等機構(gòu)的研究人員研制出一種卵巢癌新型熒光檢測試劑。據(jù)稱,該試劑可檢測出1 mm以下的微小卵巢腫瘤。相關(guān)研究報告發(fā)表于不久前出版的英國《自然·通訊》雜志上。

在通過手術(shù)切除卵巢腫瘤時,如能切除1 mm以下的微小腫瘤,治療效果將大幅提高。但是,醫(yī)生很難將微小腫瘤與正常卵巢組織區(qū)分開來。東京大學(xué)浦野泰照教授等報告說,他們開發(fā)出一種名為“gGlu-HMRG”的熒光檢測試劑。這種試劑本身無色透明,但其與卵巢癌細(xì)胞的β-半乳糖苷酶發(fā)生反應(yīng)后,會發(fā)出強烈熒光。動物實驗顯示,在向患卵巢癌實驗鼠的腫瘤部位噴灑這種熒光檢測試劑后,數(shù)分鐘內(nèi)癌組織就會發(fā)出明亮熒光,肉眼便可觀察到,分辨精度小于1 mm。研究人員以熒光為標(biāo)記,成功切除了動物體內(nèi)的腫瘤。

研究人員認(rèn)為,由于檢測時只需使用微量試劑,所以副作用很小。如果改善試劑使其能與其它酶結(jié)合,這種試劑還有望用于檢測其它癌細(xì)胞。他們準(zhǔn)備進一步驗證這種試劑的安全性和精確性,爭取3~5年內(nèi)開展臨床試驗。

(儀器信息網(wǎng))

甘肅加快檢驗檢測認(rèn)證機構(gòu)整合

不久前,甘肅省整合檢驗檢測認(rèn)證機構(gòu)工作領(lǐng)導(dǎo)小組第一次會議在蘭州召開。會議審議了《甘肅省整合檢驗檢測認(rèn)證機構(gòu)領(lǐng)導(dǎo)小組議事規(guī)則》《甘肅省整合檢驗檢測認(rèn)證機構(gòu)指導(dǎo)意見》及慶陽產(chǎn)品質(zhì)量檢驗檢測中心、甘肅省特種設(shè)備檢驗研究集團和甘肅省建材研究設(shè)計院3家試點單位的整合試點方案。

副省長夏紅民指出,各地、各有關(guān)部門、各行業(yè)要充分認(rèn)識整合檢驗檢測機構(gòu)工作的重要性,在發(fā)展理念、體制機制創(chuàng)新、技術(shù)創(chuàng)新上有新突破,抓好整合試點工作。要落實整合檢驗檢測認(rèn)證機構(gòu)各項工作任務(wù),對檢驗檢測認(rèn)證機構(gòu)的功能定位進行科學(xué)界定,抓緊制定檢驗檢測認(rèn)證機構(gòu)整合實施方案,大力推動我省檢驗檢測認(rèn)證機構(gòu)做強做大,切實深化檢驗檢測認(rèn)證機構(gòu)體制機制改革。要加強組織領(lǐng)導(dǎo),完善配套政策,清理地方法規(guī),強化宣傳引導(dǎo),為做好檢驗檢測認(rèn)證機構(gòu)整合提供必要保障。

(儀器信息網(wǎng))

Similarity Retrieval Method of Organic Mass Spectrometry Based on the Pearson Correlation Coefficient

Li Hongbin, He Guangzhong, Guo Qiuting
(Institute of Medical Technology,Medical School,Xianyang Vocational and Technical College, Xianyang 712000, China)

A method for similarity evaluation of organic mass spectra based on the Pearson correlation coefficient was studied. With mass number as independent variable, abundance as the dependent variable, after certain data pretreatment process, the spectra of two compounds was transformed into two arrays, so that the spectrum correlation between two different compounds could be calculated with Pearson correlation coefficient. Pearson correlation coefficient method was used to calculate mass spectrum similarity between intra-group and inter-group of two groups organic material which has isomerism similarity and chemical structural similarity, the spectras between different groups showed very low correlation coefficient scores, so the Pearson correlation coefficient method was feasible to evaluate spectra similarity. Nonlinear transform of abundance could greatly improve the coefficient of variation of the algorithm and the efficiency of mass spectrum database search.

Pearson correlation coefficient; mass spectrometry; similarity retrieval

O657

:A

:1008-6145(2015)03-0033-05

10.3969/j.issn.1008-6145.2015.03.009

*咸陽職業(yè)技術(shù)學(xué)院2013科研基金項目(2013KYC05)

聯(lián)系人:李宏彬;E-mail: leehbin@126.com

2015-03-16

猜你喜歡
皮爾遜同分異構(gòu)相似性
一類上三角算子矩陣的相似性與酉相似性
“換、撲、拉、插”——同分異構(gòu)體書寫新招數(shù)
現(xiàn)代統(tǒng)計學(xué)之父:卡爾·皮爾遜
現(xiàn)代統(tǒng)計學(xué)之父:卡爾·皮爾遜
淺析當(dāng)代中西方繪畫的相似性
三十六計引領(lǐng) 突破同分異構(gòu)
Excel在水文學(xué)教學(xué)中的應(yīng)用
卡方分布的探源
有機物同分異構(gòu)體的判斷和推導(dǎo)難點突破
“同分異構(gòu)體”知識解談
永德县| 望奎县| 龙里县| 阳山县| 梅州市| 溆浦县| 柳河县| 临夏县| 吴堡县| 新沂市| 乌拉特前旗| 攀枝花市| 太白县| 新巴尔虎左旗| 梧州市| 江安县| 韶关市| 上蔡县| 嵊泗县| 天津市| 错那县| 中宁县| 娄底市| 大连市| 邛崃市| 准格尔旗| 东方市| 河津市| 太康县| 库尔勒市| 镇远县| 达日县| 石景山区| 丽水市| 太康县| 德阳市| 宜宾县| 青神县| 曲阜市| 通州市| 武乡县|