顏 凡, 朱啟兵*, 黃 敏, 劉財(cái)政, 雷澤民, 張 恒, 張麗文, 李 敏
1. 江南大學(xué)輕工過(guò)程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 無(wú)錫 214122 2. 北京卓立漢光儀器有限公司,北京 101102
近年來(lái),基于拉曼光譜的檢測(cè)分析方法由于具有無(wú)損、非接觸、無(wú)化學(xué)污染、檢測(cè)時(shí)間短、檢測(cè)結(jié)果準(zhǔn)確、重復(fù)性好、適用于大多數(shù)有機(jī)和無(wú)機(jī)化合物等優(yōu)點(diǎn),在微生物、法醫(yī)分析,鑒定可卡因和其他非法藥物的濫用、食品等領(lǐng)域得到了廣泛的應(yīng)用[1-3]。在利用拉曼光譜進(jìn)行混合物組分的定量分析時(shí),不同成分的光譜信號(hào)相互重疊,并且由于物質(zhì)分子之間的相互作用導(dǎo)致它們的振動(dòng)方式與純物質(zhì)相比有所不同,這給定量分析帶來(lái)了很大困難。
檀兵等[4]利用Voigt函數(shù)對(duì)原始光譜進(jìn)行擬合以解決多元素共存條件下的譜峰重疊問(wèn)題;在此基礎(chǔ)上,利用擬合譜峰的中心波長(zhǎng)、光強(qiáng)、半峰全寬和譜峰質(zhì)心構(gòu)建特征參數(shù)向量,解決了傳統(tǒng)譜峰識(shí)別方法難以提取譜峰波形形態(tài)特征導(dǎo)致的識(shí)別率難以保證的問(wèn)題。
劉燕德等[5]利用600~3 000 cm-1波段的拉曼光譜,并結(jié)合支持向量機(jī)(SVM), 偏最小二乘(PLS)等定量分析模型分別對(duì)三組分食用調(diào)和油中各組分進(jìn)行了快速定量檢測(cè),其中最優(yōu)PLS模型的決定系數(shù)和RMSE分別為0.990 4和0.018 8。高穎等[6]利用非線性最小二乘法將天然氣拉曼光譜分解為純物質(zhì)組分的拉曼光譜分量和若干個(gè)洛倫茲譜峰之和的形式,建立該組分特征峰面積和對(duì)應(yīng)的濃度之間的模型。粟暉等[7]根據(jù)混合物光譜向量與其組分參考光譜向量二者間的空間向量夾角值與組分的相對(duì)含量存在線性關(guān)系,通過(guò)少量已知樣本擬合出夾角值與其含量的標(biāo)準(zhǔn)曲線,實(shí)現(xiàn)混合物組分的定量分析。近年來(lái),深度學(xué)習(xí)方法在光譜定量分析中的應(yīng)用也得到了初步的應(yīng)用。Fan等[8]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型的混合物組分預(yù)測(cè)方法,得到了比傳統(tǒng)建模方法更優(yōu)的結(jié)果。Zhang等[9]提出了一種無(wú)需數(shù)據(jù)預(yù)處理的光譜定量分析方法,該方法利用一個(gè)由三個(gè)卷積層,一個(gè)平坦層,一個(gè)全連接層和一個(gè)輸出層組成的卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行組分定量分析,并報(bào)道了比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)更優(yōu)的結(jié)果。以上方法的預(yù)測(cè)精度與模型的建立好壞有直接聯(lián)系,要取得較高的預(yù)測(cè)精度則需要大量的已知樣本進(jìn)行訓(xùn)練。然而不同組分構(gòu)成的混合物模型也存在著差異,一旦測(cè)量環(huán)境和測(cè)量對(duì)象的組成發(fā)生改變,則需要重新收集樣本建立分析模型,因此這類方法難以滿足實(shí)際應(yīng)用需要。
針對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)方法存在的訓(xùn)練樣本難以獲得,模型推廣性能差的問(wèn)題,本研究基于混合物拉曼光譜及其各組分的關(guān)系特性,提出了一種非學(xué)習(xí)的已知混合物組分的拉曼光譜定量分析方法,解決了傳統(tǒng)建模方法需要大量已知樣本并且模型不具有推廣性等問(wèn)題。
本研究的拉曼光譜數(shù)據(jù)由北京卓立漢光儀器有限公司的手持式拉曼光譜儀(Finder Edge)進(jìn)行采集。其激發(fā)源為785 nm激光器,激光功率和積分時(shí)間可調(diào),光譜范圍為150~2 700 cm-1,光譜分辨率為8~10 cm-1。
本文采集了乙醇、乙腈、丙酮、環(huán)己烷、二丙酮醇、丙二酸二乙酯六種純凈物的拉曼光譜。利用這6種純凈物制備了十種不同類型的三元混合物,每種混合物樣本依據(jù)其組分配置九種不同的體積比,共90個(gè)樣本,表1為這6種純凈物構(gòu)成的不同組分的三元混合物。
表1 十種不同類型的三元混合物Table 1 Ten different types of ternary mixtures
圖1給出了這6種純凈物的原始拉曼光譜圖。由于這6種物質(zhì)在常溫下都為無(wú)色的有機(jī)溶劑,具有相似的官能團(tuán),而拉曼光譜主要反應(yīng)物質(zhì)的分子結(jié)構(gòu),因此從圖1中可以看出,任意兩種物質(zhì)的光譜都存在部分譜峰重疊的情況。
圖1 手持拉曼光譜儀采集的六種純凈物的原始光譜Fig.1 The raw spectra of six substances obtained by a handheld Raman spectrometer
本文提出的基于拉曼光譜譜峰強(qiáng)度最小二乘擬合的已知混合物組分直接定量分析方法主要包括光譜預(yù)處理、拉曼光譜譜峰分解、和分解后譜峰線性表示求解三個(gè)主要環(huán)節(jié)。其主要步驟說(shuō)明如下。
1.2.1 光譜預(yù)處理
由六種純凈物的拉曼光譜圖1可知,峰位主要集中于240~2 000 cm-1區(qū)域內(nèi),因此選擇該區(qū)域作為光譜區(qū)間。圖2(a)為S1樣本在九種不同體積比下的拉曼原始光譜圖,從中可以看出,拉曼光譜儀采集的原始光譜含有較強(qiáng)的熒光背景,為了減少熒光背景對(duì)定量分析的干擾,本文采用連續(xù)小波變換和懲罰最小二乘法相結(jié)合的方法進(jìn)行背景校正。圖2(b)給出了背景校正后的拉曼光譜圖,從圖中可以看出,校正后的曲線消除了熒光背景產(chǎn)生的基線對(duì)物質(zhì)拉曼光譜的影響,保留了光譜的有用信息。
1.2.2 拉曼光譜譜峰分解
圖2 (a)S1樣本的拉曼原始光譜;(b)S1樣本的預(yù)處理拉曼光譜Fig.2 (a) The raw Raman spectra of S1 sample;(b) The preprocess Raman spectra of S1 sample
拉曼光譜的譜峰形態(tài)本質(zhì)上是洛倫茲線型,由于受儀器和被測(cè)樣本自身特性的影響,實(shí)際測(cè)量得到的拉曼光譜譜峰波形通??捎蒝oigt函數(shù)來(lái)近似表達(dá)[11]
(1)
式(1)中,v為波數(shù);α為譜峰強(qiáng)度;w為譜峰所對(duì)應(yīng)的波數(shù);γ為譜峰的半峰全寬;θ為高斯-洛倫茲系數(shù),0≤θ≤1。對(duì)含有l(wèi)個(gè)譜峰區(qū)域的光譜y進(jìn)行解析,實(shí)際上就是對(duì)l個(gè)Voigt峰參數(shù)βi=(αi,wi,γi,θi), (i=1, …,l)進(jìn)行擬合
r(v,x)=y(v)-f(v,x)
(2)
利用LMF算法對(duì)方程(2)進(jìn)行求解。圖4為利用LMF算法將光譜分解成單個(gè)Voigt峰的示意圖,從圖中可以看出,分解后的Voigt峰能準(zhǔn)確反映各峰的形態(tài)。
圖3 區(qū)域劃分示意圖Fig.3 Schematic diagram of area division
圖4 基于Voigt的光譜分解示意圖Fig.4 Schematic diagram of spectral decomposition based on Voigt
1.2.3 譜峰的線性表示與求解
對(duì)于分解為L(zhǎng)個(gè)Voigt峰的三組分待測(cè)混合物光譜y,可得L個(gè)方程
(3)
(4)
利用最小二乘法擬合方程(4),獲得組分系數(shù),并對(duì)組分系數(shù)進(jìn)行歸一化處理,得到各組分的體積濃度。
本文利用線性相關(guān)系數(shù)r、均方根誤差RMSE和剩余預(yù)測(cè)偏差RPD作為算法的性能評(píng)價(jià)指標(biāo)。其中r反應(yīng)預(yù)測(cè)濃度與實(shí)際濃度之間的線性相關(guān)程度;RMSE反應(yīng)預(yù)測(cè)值與真實(shí)值之間的偏差;RPD是真實(shí)值的標(biāo)準(zhǔn)差與均方根誤差的比值,證明模型的預(yù)測(cè)能力,一般以RPD在2和2.5之間的值表示可以進(jìn)行粗略的定量預(yù)測(cè),而在2.5和3之間的值對(duì)應(yīng)較好的預(yù)測(cè)精度,在3以上則表示極好的預(yù)測(cè)精度。
圖5為純凈物乙醇、丙酮、環(huán)己烷以及由這三種組分構(gòu)成的S3樣本在V3(4∶3∶3)體積比混合下經(jīng)過(guò)連續(xù)小波變換尋峰方法尋找到光譜的峰位并預(yù)估其譜峰特征參數(shù),基于此作為L(zhǎng)MF算法的輸入進(jìn)行擬合分解,峰位在圖5中用空心圓標(biāo)記,從中可以看到主要的峰位被完全找到,極少出現(xiàn)漏峰和偽峰的情況。圖6為分解后的多個(gè)Voigt峰的疊加形式,每個(gè)獨(dú)立的Voigt譜峰都可以由某種特定成分的分子振動(dòng)所產(chǎn)生。例如,乙醇拉曼光譜分解后的主要特征峰的峰位882 cm-1(CC骨架伸縮)、1 052 cm-1(CC伸縮)、1 096 cm-1(CC伸縮)、1 247 cm-1(平面內(nèi)變形)、1 453 cm-1(CH3CH2變形),均能與原始峰位一一對(duì)應(yīng)。從圖6中可以看出,混合物S3-V3的每個(gè)Voigt譜峰均能與其三種組分的至少一個(gè)譜峰相對(duì)應(yīng)。
圖5 乙醇、丙酮、環(huán)己烷和S3-V3的預(yù)處理光譜和峰位Fig.5 The preprocessed spectra and peaks of Ethanol, Acetone, Cyclohexane and S3-V3
圖6 基于Voigt的乙醇,丙酮,環(huán)己烷和S3-V3的分解光譜Fig.6 The spectra decomposition of Ethanol, Acetone,Cyclohexane and S3-V3 base on Voigt
對(duì)于分解為L(zhǎng)個(gè)Voigt峰的待測(cè)混合物樣本,通過(guò)計(jì)算每種組分在混合物每個(gè)Voigt峰位光強(qiáng)的貢獻(xiàn)值,依據(jù)朗伯-比爾定律中光強(qiáng)與其所占濃度的正比例關(guān)系,利用式(4)得到混合物各組分的體積濃度。采用本文提出的算法對(duì)混合物及其組分在同一積分時(shí)間和功率下的光譜進(jìn)行定量分析,即選擇表1的S1—S5共5種混合物(每種混合物各9個(gè)體積濃度比),共45個(gè)樣本。表2為根據(jù)組分劃分的預(yù)測(cè)體積濃度與實(shí)際體積濃度的R,RMSE,RPD以及含有該組分的樣本個(gè)數(shù)。從表2中可以發(fā)現(xiàn),六種組分的預(yù)測(cè)結(jié)果相關(guān)系數(shù)均在0.95以上,均方根誤差都小于6%,并且RPD指標(biāo)僅乙醇相對(duì)較低,為2.921 5,其余五種組分RPD指標(biāo)均在3.0以上。圖7為6種組分的散點(diǎn)圖,橫軸為實(shí)際體積濃度,依據(jù)本研究選用的體積比,其取值為0.1,0.2,0.3,0.5和0.7,縱軸為通過(guò)算法預(yù)測(cè)的體積濃度比。從圖中可以看出,六種組分的濃度與其拉曼譜峰光強(qiáng)都呈現(xiàn)較強(qiáng)的正相關(guān)。
表2 混合物和其組分參考光譜同積分時(shí)間和功率下的結(jié)果Table 2 The quantitative analysis results of the mixture and its component reference spectra under same integration time and power
圖7 預(yù)測(cè)體積濃度與實(shí)際體積濃度的散點(diǎn)圖(a):乙醇;(b):乙腈;(c):丙酮;(d):環(huán)己烷;(e):二丙酮醇;(f):丙二酸二乙酯Fig.7 Scatter plot of predicted and actual volume concentrations(a):Ethanol;(b):Acetonitrile;(c):Acetone;(d):Cyclohexane;(e):Diacetone alcohol;(f):Diethyl malonate
在實(shí)際應(yīng)用中,為了得到信噪比適當(dāng)?shù)幕旌衔锢庾V數(shù)據(jù),往往需要對(duì)拉曼光譜儀的功率或積分時(shí)間進(jìn)行調(diào)整,從而導(dǎo)致混合物與各組分光譜測(cè)量條件的差異。為了驗(yàn)證算法的適應(yīng)性,論文也對(duì)不同積分時(shí)間和功率下的混合物識(shí)別結(jié)果做了測(cè)試,即選擇表1的S6—S10共5種混合物(每種混合物各9個(gè)體積濃度比),共45個(gè)樣本,組分的參考光譜統(tǒng)一選擇光源功率300 mW和積分時(shí)間2 s。表3給出了具體的定量分析結(jié)果。由表3可知,六種組分的r均大于0.93,最大均方根誤差為7.94%,除了組分乙醇、乙腈的RPD值小于2.5(分別為2.191 5和2.203 0),其余4種組分的RPD值均接近或大于3.0,證明了該算法具有較強(qiáng)的魯棒性。
表3 混合物和其組分參考光譜不同積分時(shí)間和功率下的定量分析結(jié)果Table 3 The quantitative analysis results of the mixture and its component reference spectra under different integration time and power
提出了一種基于拉曼光譜譜峰強(qiáng)度最小二乘擬合的混合物組分直接定量分析方法。為了驗(yàn)證算法的可行性,本研究配置了90個(gè)三元混合物樣本,其中樣本與其組分參考光譜同功率和積分時(shí)間下的45個(gè),不同功率和積分時(shí)間下的45個(gè)。結(jié)果表明,在同功率和積分時(shí)間下,所有組分的相關(guān)系數(shù)都在0.95以上,均方根誤差均小于6%,RPD最低為2.921 5,其余組分RPD指標(biāo)均在3.0以上;在不同功率和積分時(shí)間下,所有組分的相關(guān)系數(shù)均大于0.93,最大均方根誤差為7.94%,RPD指標(biāo)相比同功率和積分時(shí)間下的略有下降,但仍大于2.0,滿足混合物組分快速定量分析的要求,證明了該算法良好的魯棒性,在實(shí)際應(yīng)用中具有重要的價(jià)值。