張 匯,李彥威,張照昱
(太原理工大學(xué) 化學(xué)化工學(xué)院,太原 030024)
化學(xué)計(jì)量學(xué)是化學(xué)的一門分支學(xué)科,它運(yùn)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)及計(jì)算科學(xué),設(shè)計(jì)和選擇最佳實(shí)驗(yàn)方法,并通過解析化學(xué)測量數(shù)據(jù),獲得最大限度的化學(xué)信息[1]。近年來,化學(xué)計(jì)量學(xué)中的許多方法已被廣泛應(yīng)用于色譜分析中,如偏最小二乘法(Partial Least Squares,PLS)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)、信號(hào)處理、因子分析等,成功地解決了色譜峰型重疊、基線漂移等問題,并將其應(yīng)用于藥物識(shí)別、食品原料分類等領(lǐng)域[2-4]。本文將PLS和ANN分別與反相高效液相色譜法(RP-HPLC)相結(jié)合,建立了同時(shí)測定鄰、間、對(duì)甲基苯甲醛同分異構(gòu)體的預(yù)測模型,研究了同時(shí)測定三組分的適宜條件和適用范圍,并將所建立的模型用于合成樣品的分析,獲得了良好的實(shí)驗(yàn)結(jié)果,為有機(jī)化合物同分異構(gòu)體的測定提供了一種新的途徑。
PLS是一種基于因子分析的多變量校正方法,它同時(shí)對(duì)測量數(shù)據(jù)矩陣和濃度矩陣進(jìn)行主成分分解,將所得主成分?jǐn)?shù)代入偏最小二乘法,并通過迭代的方法,交換迭代變量,將兩個(gè)獨(dú)立的主成分分析過程聯(lián)系起來,對(duì)測量矩陣進(jìn)行校正,利用校正后的測量矩陣預(yù)測未知樣品的含量。
PLS建立校正模型最困難的問題之一就是如何確立建模所使用的主成分?jǐn)?shù)目。確定主成分?jǐn)?shù)的方法,目前最常用的是交互驗(yàn)證的預(yù)測殘差平方和S(prediction residual error sum of squares,PRESS)。其基本原理是將一組已知的標(biāo)準(zhǔn)混合溶液的響應(yīng)矩陣A中的數(shù)據(jù)分成n個(gè)子集,把這n個(gè)子集中的一個(gè)作預(yù)測集,其余(n-1)個(gè)作校正集。這樣將n個(gè)子集輪流作一次預(yù)測集樣品,經(jīng)n次校正-預(yù)測過程,就可用S來估計(jì)預(yù)測的誤差。S按下式計(jì)算:
其中,ρij是第j個(gè)組分在i個(gè)樣本子集中的真實(shí)質(zhì)量濃度是預(yù)測的質(zhì)量濃度值,m是主成分?jǐn)?shù),n為樣品數(shù)。分別取主成分?jǐn)?shù)m為1,2,…來構(gòu)造校正模型,并計(jì)算各個(gè)m值時(shí)的S值。因此,根據(jù)S值的大小,可確定主成分?jǐn)?shù)m的值。
ANN是一種模擬人腦功能的新型信息處理系統(tǒng),具有一定的自適應(yīng)、自組織、自學(xué)習(xí)及自動(dòng)建模功能,對(duì)于處理非線性體系有其獨(dú)到之處。目前比較成熟的三層BP神經(jīng)網(wǎng)絡(luò)模型,由輸入層、輸出層和隱含層組成,同層各節(jié)點(diǎn)互不連接,相鄰層的節(jié)點(diǎn)通過權(quán)連接。輸入層各點(diǎn)的輸入信號(hào)經(jīng)權(quán)重耦合到隱含層的各點(diǎn),由傳遞函數(shù)f(x)轉(zhuǎn)換后再耦合到輸出層的各點(diǎn)。將輸出信號(hào)與學(xué)習(xí)樣本的目標(biāo)數(shù)值進(jìn)行比較,兩者之間的誤差利用“反傳算法”沿原通道返回,通過修改各層節(jié)點(diǎn)的連接權(quán)重,使誤差達(dá)到最小。其結(jié)構(gòu)如圖1所示。
圖1 BP神經(jīng)網(wǎng)絡(luò)示意圖
ANN可用于高維數(shù)據(jù)的擬合,即在樣本點(diǎn)構(gòu)成的高維空間,生成一個(gè)逼近其變化趨勢(shì)(規(guī)律)的超曲面。如果它既能很好地?cái)M合已知樣本,又能很好地預(yù)測未知樣本,即稱所建的模型逼近了規(guī)律,是可靠的;若僅精確地逼近已知樣本,但預(yù)測未知樣本的能力變差,則產(chǎn)生了過擬合,模型不可靠。將已知樣本分成訓(xùn)練集和預(yù)測集兩部分,將訓(xùn)練集預(yù)測誤差反傳調(diào)節(jié)ANN權(quán)值,結(jié)合預(yù)測集預(yù)測誤差和訓(xùn)練集誤差,檢測過擬合及優(yōu)化模型。為此作出如下定義。
1)逼近誤差:
式中:e為逼近誤差;ex為訓(xùn)練集預(yù)測平均相對(duì)誤差;ey為預(yù)測集預(yù)測平均相對(duì)誤差;nx為訓(xùn)練集樣本數(shù);ny為預(yù)測集樣本數(shù);n為已知樣本數(shù)。
2)逼近度:
式中:D為逼近度;c為常數(shù)。通過調(diào)節(jié)c的大小,進(jìn)而調(diào)節(jié)D的大小以便于作圖。逼近度表示模型與規(guī)律的逼近程度,e越小,D越大,模擬越具有更好的預(yù)測能力。
日本島津公司LC-10A型高效液相色譜儀;TU-1901型紫外可見分光光度計(jì)(北京普析通用有限公司)。實(shí)驗(yàn)所用甲醇為色譜純(天津四友),鄰甲基苯甲醛(o-tolualdehyde,質(zhì)量分?jǐn)?shù)98%)、間甲基苯甲醛(m-tolualdehyde,質(zhì)量分?jǐn)?shù)97%)和對(duì)甲基苯甲醛(t-tolualdehyde,質(zhì)量分?jǐn)?shù)98%)(A Johnson Matthey Company)均為分析純;實(shí)驗(yàn)用水為二次蒸餾水,色譜用水為超純水。所有試劑均經(jīng)0.22μm的濾膜過濾并超聲脫氣后使用。
Shim-pack VP-ODS 色譜柱(150mm×4.6 mm,(4.6±0.3)μm)(日本島津);流動(dòng)相配比為V(甲醇)∶V(水)=40∶60;流速0.80mL/min;柱溫40℃;檢測波長250nm;進(jìn)樣量20μL。
分別準(zhǔn)確稱取鄰、間、對(duì)甲基苯甲醛0.0025g于25mL棕色容量瓶中,用純甲醇定溶至刻度,即配制成100.00μg/mL鄰、間、對(duì)甲基苯甲醛儲(chǔ)備液。準(zhǔn)確移取上述適量的鄰、間、對(duì)甲基苯甲醛儲(chǔ)備液于10mL棕色容量瓶中,用純甲醇定容,配制成各自的單組分溶液或一系列三組分混合溶液,待測。
在指定色譜條件下對(duì)供試液進(jìn)行測定,將得到的單組分及混合組分的色譜數(shù)據(jù)輸入用MATLAB7.0軟件編寫的PLS和ANN程序處理,分別計(jì)算混合溶液中各組分的含量。
配制o-T,m-T,p-T質(zhì)量濃度比為1∶1∶1的混合標(biāo)準(zhǔn)溶液,在2.2所述的色譜條件下進(jìn)行測定,結(jié)果如圖2所示。
由圖可知,此色譜條件下甲基苯甲醛三種同分異構(gòu)體的色譜峰是難以完全分離的,且均有較大程度的重疊,不能采用常規(guī)色譜法進(jìn)行定量分析。
按照實(shí)驗(yàn)方法,配制一系列濃度不同的鄰、間、對(duì)甲基苯甲醛標(biāo)準(zhǔn)溶液,分別在指定色譜條件下進(jìn)行測定,并進(jìn)行線性回歸。結(jié)果表明,三者質(zhì)量濃度在1.0~20.0μg/mL范圍內(nèi)均呈現(xiàn)良好的線性關(guān)系,其回歸方程分別為
圖2 三種異構(gòu)體混合物色譜圖
因此,本實(shí)驗(yàn)中校正集的質(zhì)量濃度選在該范圍內(nèi)。
3.3.1 校正集的建立
在初步試驗(yàn)的基礎(chǔ)上,采用正交試驗(yàn)方法,選擇三個(gè)L16(45)正交表作為校正集,質(zhì)量濃度范圍分為三個(gè)區(qū)間:3.00~6.00μg/mL,7.00~13.00μg/mL,14.00~20.00μg/mL,在指定色譜條件下進(jìn)行分析測定。
3.3.2 PLS模型的建立
在PLS法中,主成分?jǐn)?shù)的確定對(duì)預(yù)測結(jié)果的準(zhǔn)確性起著至關(guān)重要的作用。本實(shí)驗(yàn)采用交互驗(yàn)證法建立模型,為了避免“過擬合”引入更多的噪聲,通過F檢驗(yàn)來確定當(dāng)S達(dá)到最小時(shí)的主成分,即最佳主成分?jǐn)?shù)[6]。如圖3所示,當(dāng)選擇F檢驗(yàn)的置信度為0.75時(shí),得到鄰、間、對(duì)甲基苯甲醛的最佳主成分?jǐn)?shù)均為5。
圖3 S隨主成分?jǐn)?shù)變化曲線
3.3.3 ANN模型的建立
根據(jù)已經(jīng)建立的校正集可以確定,ANN模型的輸入層節(jié)點(diǎn)數(shù)為16、輸出層節(jié)點(diǎn)數(shù)為3,學(xué)習(xí)速率和動(dòng)量常數(shù)等其它參數(shù)都采用軟件Matlab7.0神經(jīng)網(wǎng)絡(luò)工具箱的默認(rèn)值。下面主要討論模型建立過程中最重要的三個(gè)參數(shù)如神經(jīng)元、訓(xùn)練次數(shù)和目標(biāo)誤差的選擇。
1)神經(jīng)元的選擇。
在試樣數(shù)量和輸入節(jié)點(diǎn)數(shù)確定的情況下,神經(jīng)元個(gè)數(shù)的選擇是建模的主要問題。若神經(jīng)元過少,則網(wǎng)絡(luò)中的權(quán)重不充分。此時(shí)的網(wǎng)絡(luò)不能夠較好地描述試樣集的固有規(guī)律,即不能夠得到好的預(yù)測數(shù)學(xué)模型。相反,若神經(jīng)元過多,則會(huì)發(fā)生過擬合。過擬合時(shí),對(duì)于預(yù)測集(未參加數(shù)學(xué)模型的構(gòu)造)來說,則誤差可能較大,這就是通常所說的數(shù)學(xué)模型的不穩(wěn)定。本實(shí)驗(yàn)通過改變神經(jīng)元個(gè)數(shù),分別計(jì)算訓(xùn)練集(即校正集)和預(yù)測集的預(yù)測相對(duì)誤差以及逼近度,取逼近度最大的點(diǎn)作為模型的神經(jīng)元個(gè)數(shù),如圖4所示,本實(shí)驗(yàn)中模型的神經(jīng)元個(gè)數(shù)選為14。
圖4 逼近度隨神經(jīng)元數(shù)的變化曲線
2)訓(xùn)練次數(shù)的選擇。
在建模過程中,訓(xùn)練次數(shù)的選擇也是一個(gè)重要問題。訓(xùn)練次數(shù)過少,訓(xùn)練不徹底,誤差無法趨近于目標(biāo)誤差;訓(xùn)練次數(shù)過大,將導(dǎo)致“過訓(xùn)練”,即所建立的模型去契合個(gè)別試樣,這樣的模型對(duì)于訓(xùn)練集(即校正集)來說誤差較小,但對(duì)于“未知”試樣(預(yù)測集)來說誤差可能就很大。如圖5所示,本文選擇訓(xùn)練次數(shù)為450次。
3)目標(biāo)誤差的選擇。
目標(biāo)誤差不但影響ANN模型的預(yù)測精度,而且對(duì)模型的泛化能力有嚴(yán)重的影響。本實(shí)驗(yàn)通過計(jì)算不同目標(biāo)誤差所對(duì)應(yīng)模型的逼近度,從而優(yōu)化模型的預(yù)測性能。以逼近度、訓(xùn)練集預(yù)測平均相對(duì)誤差和預(yù)測集預(yù)測平均相對(duì)誤差分別對(duì)目標(biāo)誤差作圖,結(jié)果如圖6所示。由圖可知,目標(biāo)誤差為0.6時(shí),逼近度最大,故選擇模型的目標(biāo)誤差為0.6。
圖5 逼近度隨訓(xùn)練次數(shù)的變化曲線
圖6 逼近度隨目標(biāo)誤差的變化曲線
3.3.4 模型預(yù)測性能的檢驗(yàn)
為了檢驗(yàn)所建立模型的預(yù)測能力,按照實(shí)驗(yàn)方法分別對(duì)所配制的八組模擬樣品作測定。將測得的色譜數(shù)據(jù)分別輸入建立的兩個(gè)模型進(jìn)行計(jì)算,以預(yù)測集各樣品中三種甲基苯甲醛質(zhì)量濃度的預(yù)測值對(duì)實(shí)際值作圖并進(jìn)行線性回歸,方程式見表1。
表1 預(yù)測模型回歸方程
由表1可看出,所建立的兩種模型對(duì)甲基苯甲醛三種同分異構(gòu)體的質(zhì)量濃度均具有良好的同時(shí)預(yù)測性能,其模型的有關(guān)指標(biāo)見表2。
表2 預(yù)測模型的有關(guān)指標(biāo)
配制鄰、間、對(duì)甲基苯甲醛質(zhì)量濃度分別為18.00,20.00,19.00μg/mL的標(biāo)準(zhǔn)混合溶液,按照實(shí)驗(yàn)方法平行測定8次。結(jié)果顯示PLS和ANN的相對(duì)標(biāo)準(zhǔn)偏差分別保持在0.84%~1.20%和0.11%~0.70%之間,表明這兩種模型均具有良好的精密度。
分別取質(zhì)量濃度為4.50,3.50,5.50μg/mL的鄰、間、對(duì)甲基苯甲醛配制成樣品溶液,同時(shí)加入不同含量的三種同分異構(gòu)體化合物的標(biāo)準(zhǔn)溶液,采用兩種模型進(jìn)行加標(biāo)回收率的測定,結(jié)果見表3。
由表3可知,本實(shí)驗(yàn)所建立的兩種同時(shí)測定甲基苯甲醛三種同分異構(gòu)體的預(yù)測模型回收率均在97.54%~116.77%之間,而相對(duì)偏差在±(1.69~15.4)%之間,表明該方法具有良好的準(zhǔn)確度。
表3 加標(biāo)回收率實(shí)驗(yàn)結(jié)果
高效液相色譜法與化學(xué)計(jì)量學(xué)方法結(jié)合,可有效解析色譜重疊峰,解決有機(jī)化合物同分異構(gòu)體同時(shí)測定的問題。本實(shí)驗(yàn)將其應(yīng)用于鄰、間、對(duì)甲基苯甲醛的同時(shí)測定,通過選擇偏最小二乘法和人工神經(jīng)網(wǎng)絡(luò)法的建模參數(shù),分別建立了兩種較為完善的預(yù)測模型,獲得了令人滿意的結(jié)果。通過對(duì)兩種模型的精密度和加標(biāo)回收率實(shí)驗(yàn)的結(jié)果進(jìn)行比較,發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)法在處理多組分同時(shí)測定的問題方面更顯示出優(yōu)越性。
[1]許祿.化學(xué)計(jì)量學(xué)——一些重要方法的原理及應(yīng)用[M].北京:科學(xué)出版社,2004:2-100.
[2]SarbuC,Nascu-Briciu R D,Kot-Wasik A,et al.Chromatographic lipophilicity determination using large volume injections of the solvents non-miscible with the mobile phase[J].Food Chemistry,2012,130:994-1002.
[3]Weldegergis B T,de Villiers A,Crouch A M.Chemometric investigation of the Volatile content of young South African wines[J].Food Chemistry,2011,128:1100-1109.
[4]Dumarey M,Put R,Van Gyseghem E,et al.Dissimilar or orthogonal reversed-phase chromatographic systems:A comparison of selection techniques[J].Anal Chim Acta,2008,609:223-234.
[5]劉平,梁逸曾,張林,等.人工神經(jīng)網(wǎng)絡(luò)用于化學(xué)數(shù)據(jù)解析的研究(Ⅰ)—逼近規(guī)律與過擬合[J].高等學(xué)?;瘜W(xué)學(xué)報(bào),1996,17(6):861-865.
[6]李彥威,方慧文,梁素霞,等.偏最小二乘紫外分光光度法同時(shí)測定丁烯二酸的順反異構(gòu)體[J].分析化學(xué),2008,36(1):95-98.