可持續(xù)發(fā)展
高效識(shí)別“已知的未知物質(zhì)”
盡管“大數(shù)據(jù)”一詞由來(lái)不久,但是科學(xué)家們?cè)缫言噲D尋找各種方法,從而對(duì)爆發(fā)式增長(zhǎng)的化學(xué)數(shù)據(jù)進(jìn)行管理和分析。當(dāng)年,美國(guó)化學(xué)文摘社旗下的CAS REGISTRY數(shù)據(jù)庫(kù)收錄第1 000萬(wàn)個(gè)獨(dú)一無(wú)二的有機(jī)和無(wú)機(jī)物質(zhì),歷時(shí)30余年。而如今,CAS REGISTRY數(shù)據(jù)庫(kù)最近收錄1 000萬(wàn)個(gè)物質(zhì)只需要半年不到的時(shí)間。目前,CAS REGISTRY數(shù)據(jù)庫(kù)收錄了數(shù)百萬(wàn)的化學(xué)物質(zhì)數(shù)據(jù),被業(yè)界譽(yù)為化學(xué)物質(zhì)信息的“黃金標(biāo)準(zhǔn)”。
事實(shí)上,收錄數(shù)據(jù)并非易事。處理大數(shù)據(jù)的挑戰(zhàn)在于,在確保即時(shí)結(jié)果有效性的前提下,還需使用不同方法對(duì)文本信息、物質(zhì)結(jié)構(gòu)以及數(shù)值數(shù)據(jù)進(jìn)行管理與分析。化學(xué)家們常常會(huì)依賴(lài)基于計(jì)算機(jī)的手段,對(duì)海量的信息進(jìn)行有效地解讀與分析,如此一來(lái),他們就可以快速回到實(shí)驗(yàn)室從事研究工作。我們可以從科學(xué)家收集并分析物質(zhì)性質(zhì)的角度來(lái)闡述這一個(gè)觀點(diǎn)。
作為物質(zhì)性質(zhì)數(shù)據(jù)的可靠信息來(lái)源,CAS REGISTRY數(shù)據(jù)庫(kù)在2014年3月份已經(jīng)收錄了8 600多萬(wàn)種有機(jī)和無(wú)機(jī)物質(zhì)?;瘜W(xué)家們可以通過(guò)CAS REGISTRY數(shù)據(jù)庫(kù)中獲得48億個(gè)預(yù)測(cè)及實(shí)驗(yàn)性質(zhì)和譜圖標(biāo)簽,同時(shí)還能基于物質(zhì)性質(zhì)的共性,對(duì)已知的化合物進(jìn)行性質(zhì)對(duì)比,對(duì)未知的化合物進(jìn)行探究。如通過(guò)可觀測(cè)的熔點(diǎn)檢索具備相似性質(zhì)的潛在化合物。
化學(xué)家們通常會(huì)利用大型的物質(zhì)數(shù)據(jù)庫(kù)去說(shuō)明質(zhì)譜分析法的結(jié)果。20世紀(jì)60年代末,絕大多數(shù)的質(zhì)譜儀只能測(cè)定標(biāo)稱(chēng)質(zhì)量數(shù)據(jù)。如今,新型的質(zhì)譜儀具備更強(qiáng)大的功能,不僅能夠測(cè)定精確的質(zhì)量數(shù)據(jù),還能將誤差控制在百萬(wàn)分之幾的范圍內(nèi)。即便先進(jìn)的儀器能夠提供分子式數(shù)據(jù),但熟練的質(zhì)譜分析員仍然急需解決一個(gè)問(wèn)題,那就是如何將這些數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)式數(shù)據(jù)。因此,基于計(jì)算機(jī)可獲得的物質(zhì)數(shù)據(jù)庫(kù)及其實(shí)驗(yàn)性數(shù)據(jù)能夠幫助科學(xué)家們節(jié)省時(shí)間和預(yù)算。
2011年,伊士曼公司研究員James Little在《美國(guó)質(zhì)譜學(xué)會(huì)志》上發(fā)表的一篇論文提到,他和同事引用了Donald Rumsfeld提出的“已知的未知物質(zhì)”來(lái)描述這樣一類(lèi)物質(zhì):雖然對(duì)于研究人員來(lái)說(shuō)是未知的,但它有可能已經(jīng)存在于已公開(kāi)的物質(zhì)數(shù)據(jù)庫(kù)中。Little的論文以一些細(xì)微樣品的發(fā)現(xiàn)歷史作為引言,并詳細(xì)介紹了如何將罐頭涂層工藝中發(fā)現(xiàn)的污染物識(shí)別為一種特定環(huán)狀二聚體的研究案例。通常情況下,當(dāng)合適的食品模擬溶劑接觸到食品包裝中的聚合物涂層后,會(huì)生成可萃取物。而美國(guó)食品藥物管理局對(duì)上述生成的萃取物有著非常嚴(yán)格的規(guī)定。在這個(gè)案例中,當(dāng)合作實(shí)驗(yàn)室的研究人員將伊士曼公司生產(chǎn)的聚酯涂層涂覆到金屬罐上時(shí),通過(guò)液相色譜質(zhì)譜聯(lián)用儀(LCMS)觀察發(fā)現(xiàn),罐頭涂層上的萃取物(即污染物)不僅包括常見(jiàn)的直鏈和環(huán)狀聚酯,還出現(xiàn)了一種意想不到的UV吸收物質(zhì)。
Little的團(tuán)隊(duì)利用精確的電噴霧質(zhì)譜分析,確認(rèn)該污染物中含有分子式C36H40O6,隨后使用CAS旗下的檢索工具SciFinder對(duì)這個(gè)分子式進(jìn)行檢索,得到近200個(gè)相關(guān)物質(zhì)的信息。由于研究人員熟悉一些樣品的來(lái)龍去脈,因此他們檢索了所有學(xué)術(shù)參考資料,并以“罐頭涂層”作為關(guān)鍵詞去篩選專(zhuān)利和期刊文章。最終,根據(jù)四篇參考文獻(xiàn)的資料,研究人員發(fā)現(xiàn)一種常見(jiàn)于環(huán)氧樹(shù)脂罐頭涂層的萃取物Cyclo-DiBADGE(CAS登記號(hào)為20583-87-3)與污染物的所有數(shù)據(jù)信息相匹配。原來(lái),合作實(shí)驗(yàn)室的研究人員不小心將另一家公司的環(huán)氧樹(shù)脂涂料涂染到伊士曼公司的聚酯涂層上,才發(fā)生了這次“小意外”。除了上述方法,研究人員還可以利用SciFinder最近新添的檢索功能來(lái)搜索并識(shí)別這一污染物,即根據(jù)物質(zhì)的分子量來(lái)檢索。盡管化學(xué)數(shù)據(jù)庫(kù)中有許多物質(zhì)的數(shù)值屬性信息,考慮到分子量與質(zhì)譜分析有著非常密切的關(guān)系,SciFinder數(shù)據(jù)庫(kù)還會(huì)專(zhuān)門(mén)將其收錄進(jìn)來(lái)。
如今的質(zhì)譜分析調(diào)查顯示,分子態(tài)離子的質(zhì)量可以通過(guò)直接檢索分子量獲得。隨后對(duì)列出的一系列物質(zhì)選項(xiàng)進(jìn)行篩選,即可破譯“已知的未知物質(zhì)”的結(jié)構(gòu)。例如,假設(shè)某一種巴比妥酸鹽可能會(huì)導(dǎo)致血液成分不均衡。同時(shí),質(zhì)譜分析儀顯示該物質(zhì)的分子態(tài)離子的質(zhì)量約為232.24。在此基礎(chǔ)上檢索該物質(zhì)的分子量,然后根據(jù)引用的頻率對(duì)檢索結(jié)果進(jìn)行排序,很快就會(huì)查到該物質(zhì)最有可能是苯巴比妥。最后利用SciFinder確認(rèn)這一結(jié)果,即在SciFinder中查詢實(shí)驗(yàn)性質(zhì)譜數(shù)據(jù),將其與該物質(zhì)最近測(cè)量的質(zhì)譜進(jìn)行對(duì)比。當(dāng)一個(gè)化學(xué)物質(zhì)數(shù)據(jù)庫(kù)擁有大量物質(zhì)性質(zhì)和質(zhì)譜信息時(shí),它能夠幫助研究人員提高研究效率、節(jié)省時(shí)間和金錢(qián)。
美國(guó)化學(xué)文摘社Roger Schenck
(本欄目編輯:涂閩)