秦云華,高 磊,李 超,龍雨蛟,朱 明,陳 達(dá)
1. 云南中煙工業(yè)有限責(zé)任公司技術(shù)中心,云南 昆明 650023 2. 天津大學(xué)精密儀器與光電子工程學(xué)院,天津 300072 3.中國昆侖工程有限公司吉林分公司,吉林 吉林市 132000 4.紅云紅河煙草(集團)有限責(zé)任公司,云南 昆明 650231
在卷煙燃燒時,卷煙主流煙氣經(jīng)由過濾棒直接吸入人體口腔,其包含的化學(xué)有害物質(zhì)將直接影響人體健康[1]。在主流煙氣的各類有害組分中,巴豆醛以其強烈的基因毒性,被公認(rèn)為卷煙主流煙氣中七種代表性有害成分之一,屬于三類致癌物質(zhì),并直接與人體呼吸系統(tǒng)接觸。大量研究表明,人體呼吸系統(tǒng)對巴豆醛特別敏感,長期接觸巴豆醛易損傷口腔粘膜、 氣管粘膜和肺泡等器官,引起疾病,甚至可能導(dǎo)致肺癌,其致病性與巴豆醛濃度密切相關(guān)[2]。因此,如何精準(zhǔn)檢測主流煙氣中的巴豆醛組分含量,成為當(dāng)前分析科學(xué)、 環(huán)境科學(xué)等領(lǐng)域的前沿?zé)狳c。
當(dāng)前卷煙主流煙氣中的巴豆醛濃度分析主要依賴于高效液相色譜法、 氣相色譜-質(zhì)譜聯(lián)用法等實驗室分析方法。Eldridge等采用劍橋濾片中截留的巴豆醛,通過色譜分析卷煙逐口主流煙氣中的巴豆醛釋放量[3]。Zhang等采用頂空氣相色譜-質(zhì)譜聯(lián)用法同時檢測主流煙氣中的巴豆醛、 甲醛等四種醛類[4]。這些分析方法均需要進(jìn)行捕集、 衍生化、 分離等一系列繁瑣的樣品前處理過程,難以有效滿足在線分析的要求。由于卷煙煙氣的形成是一個高度動態(tài)過程,其含有大量的自由基等活潑成分易與巴豆醛等組分進(jìn)行二次反應(yīng),導(dǎo)致高效液相色譜法只能對陳化煙氣及其解體的部分化學(xué)成分進(jìn)行分析,無法得到與人體吸入時相仿的巴豆醛組分動態(tài)特征,難以準(zhǔn)確評估巴豆醛對人體和環(huán)境的潛在影響[5]。為了進(jìn)一步提升巴豆醛的實時分析精度,迫切需要發(fā)展新型、 高效的主流煙氣成分在線檢測方法。
在各種檢測技術(shù)中,紅外光譜分析方法以其簡單、 快速、 靈敏等優(yōu)點成為氣體在線分析的最優(yōu)選技術(shù)之一,并開始得到廣泛的應(yīng)用。Lin等采用開放式紅外光譜技術(shù)檢測農(nóng)田上方的痕量溫室氣體[6]。管林強等采用紅外可調(diào)諧激光測量二硫化碳在2 180.5~2 180.74 cm-1主要四條中紅外吸收譜[7]。有研究采用傅里葉紅外光譜技術(shù)在線監(jiān)測固定污染源中的揮發(fā)性有機組分,其靈敏度優(yōu)于1.6 ppm[8]。大量的文獻(xiàn)分析結(jié)果表明,紅外光譜技術(shù)具備痕量氣體分析的能力,有望應(yīng)用于卷煙主流煙氣的在線分析中。
本工作嘗試將傅里葉變換紅外(Fourier transform infrared,F(xiàn)TIR)光譜系統(tǒng)與直線型吸煙機系統(tǒng)進(jìn)行耦合設(shè)計,并采用蠕動泵模擬人體的抽吸流量,在吸煙產(chǎn)生主流煙氣的同時采集其紅外光譜。在此基礎(chǔ)上,發(fā)展過采樣數(shù)據(jù)驅(qū)動光譜分析方法(oversampling data driven spectral analysis, ODDSA),從復(fù)雜、 變動的主流煙氣紅外光譜中準(zhǔn)確提取巴豆醛組分的特征光譜,由此構(gòu)建多元定量分析模型,實現(xiàn)了巴豆醛組分的在線檢測。相關(guān)技術(shù)為卷煙減焦除害和環(huán)境污染評估提供了一種新手段。
吸煙機耦合FTIR光譜分析系統(tǒng)采用模塊化設(shè)計思路,其主要核心部件包括: 直線型吸煙機、 FTIR光譜儀、 懷特氣體池、 雙閥聚氟乙烯采樣袋、 隔膜氣泵和蠕動泵等部件。當(dāng)卷煙在直線型吸煙機燃燒后,所產(chǎn)生的煙氣通過雙閥聚氟乙烯采樣袋進(jìn)行預(yù)混合,通過控制蠕動泵的吸氣速度,將主流煙氣勻速吸入儀器氣體池內(nèi)以實現(xiàn)紅外光譜的測量。在該系統(tǒng)中,直線型吸煙機(SM450,英國Cerulean公司)采用ISO抽吸模式產(chǎn)生主流煙氣,即單次抽吸容量為35 mL,單次抽吸持續(xù)時間為2 s,抽吸頻率為60 s。
在實驗中,F(xiàn)TIR光譜儀(Tensor II,Bruker,德國)的參數(shù)設(shè)置: 采集范圍800~4 000 cm-1,分辨率為2 cm-1,掃描次數(shù)為16次,每個樣品采集10次,取平均值作為該樣品的光譜值。自制懷特氣體池光程長為0.8 m,主腔體尺寸為52 mm×40 mm×52 mm,容積為53 mL,光路在腔體內(nèi)反射8次。雙閥聚氟乙烯采樣袋體積為50 mL,隔膜氣泵額度流量為1.5 L·min-1,蠕動泵的設(shè)定流量為50 mL·min-1。在實驗過程中,實驗環(huán)境溫度控制在23 ℃,濕度控制在60%RH,實驗室內(nèi)人數(shù)限制1~3人。
實驗選取15種不同牌號的市售中支卷煙,每個牌號采集8支樣品,合計120支卷煙樣品。在實驗中,按照煙草行業(yè)標(biāo)準(zhǔn)YC/T 255—2008對樣品主流煙氣中的巴豆醛含量進(jìn)行分析,相關(guān)樣品由云南中煙責(zé)任有限公司提供。在建模過程中,隨機選擇95個樣品為校正集,剩余25個樣品為驗證集,以驗證建模分析效果。
對每個樣品連續(xù)采集20次光譜,取平均后作為單支卷煙主流煙氣的采集光譜,共采集15種牌號卷煙。每種牌號各采集8支卷煙的主流煙氣光譜,其紅外光譜如圖1所示。
圖1 15種卷煙主流煙氣FTIR全譜圖Fig.1 FTIR spectra of mainstream smokefrom 15 kinds of cigarettes
卷煙主流煙氣是一種極為復(fù)雜的氣相混合體系,其包含著數(shù)以千計的氣體組分,極有可能掩蓋巴豆醛組分的紅外光譜信息[9]。為了從高度重疊的紅外光譜中準(zhǔn)確提取巴豆醛的特征信息,提出一種過采樣數(shù)據(jù)驅(qū)動光譜分析方法,其主要步驟如下: (1)采用隨機設(shè)計的思路盡可能采集代表性樣本,以模擬實際卷煙樣品的分布范圍,最大限度保證各組分的濃度向量之間呈隨機分布; (2)采用高密度離散小波變換法(higher-density discrete wavelet transform,HDWT)對主流煙氣紅外光譜數(shù)據(jù)進(jìn)行時域/頻域的雙倍過采樣,獲得HDWT系數(shù); (3)發(fā)展改良競爭自適應(yīng)重加權(quán)采樣方法(modified competitive adaptive reweighted sampling, MCARS),從HDWT系數(shù)中準(zhǔn)確選擇與巴豆醛信息相關(guān)的變量; (4)采用偏最小二乘法(partial least square, PLS)構(gòu)建巴豆醛的多元校正模型,用于后續(xù)巴豆醛組分濃度的預(yù)測。
ODDSA算法的核心原理:
1.4.1 高密度離散小波變換法
HDWT算法是一種基于過采樣策略的第二代小波變換,在提升待測信號的采樣分辨率的同時,也能有效防止信號的畸變[10]。與傳統(tǒng)的離散小波變換相比,HDWT算法在變換過程中對光譜信號的時域/頻域均進(jìn)行了兩倍的過采樣,有效拓展了復(fù)雜重疊譜的時域/頻域聯(lián)合特征[11]。HDWT具有間尺度以及近似平移不變性等特點,從而有效提高重疊峰的解析分辨率。
在HDWT的多尺度分解中,尺度函數(shù)和小波函數(shù)可分別由式(1)和式(2)表示
(1)
(2)
其中h0(k),h1(k)和h2(k)在k∈Z時,是緊湊支持的實值濾波器。利用式(1)和式(2)可推導(dǎo)出對偶數(shù)小波的希爾伯特變換對,當(dāng)采樣倍數(shù)為n時,動態(tài)范圍增加log2(n)位。HDWT通過頻域和時域的同時過采樣,不僅顯著提高了重疊信號的解析分辨率,同時還保留了細(xì)節(jié)信息,為后續(xù)主流煙氣紅外光譜的重疊峰解析提供了有力工具。
1.4.2 改良競爭自適應(yīng)重加權(quán)采樣方法
為了準(zhǔn)確提取HDWT系數(shù)中的特征信息,引入了競爭自適應(yīng)重加權(quán)采樣方法[12]。采用達(dá)爾文進(jìn)化論中的“適者生存”理論,通過在每次迭代過程中將部分權(quán)重較小的變量刪除,對產(chǎn)生的新變量重新分配權(quán)重,并繼續(xù)迭代直至變量個數(shù)減少至設(shè)定值為止[12]。然而,由于紅外光譜的數(shù)據(jù)量較大,一張譜圖往往包含了數(shù)千個變量,經(jīng)HDWT變換后,其變量數(shù)至少拓展了3~4倍以上,導(dǎo)致CARS算法的收斂性和精度均下降。為了進(jìn)一步提升CARS算法的性能,提出了MCARS方法,其核心在于設(shè)計了一種新的權(quán)重迭代策略
(3)
其中,si為變量i的方差,bi為變量i的回歸系數(shù),p為變量個數(shù)。由式(3)可見,該權(quán)重不僅考慮了變量在回歸方程中的重要性,同時也考慮了變量自身的變化程度,即譜峰變化越大的地方,變量所包含的信息越重要。因此,將回歸系數(shù)與變量方差相結(jié)合,將極大加快MCARS算法的收斂性和計算精度。通過MCARS算法與HDWT算法的有效結(jié)合,最終確定ODDSA模型,實現(xiàn)了卷煙主流煙氣中巴豆醛的在線分析。
為了有效剝離各種光譜干擾對巴豆醛光譜信息的影響,采用HDWT算法對光譜數(shù)據(jù)進(jìn)行預(yù)處理。在光譜預(yù)處理中,高密度離散小波的預(yù)處理結(jié)果與濾波器以及分解尺度參數(shù)密切相關(guān)。理論上,濾波器的消失矩越高,其導(dǎo)數(shù)階數(shù)越高,分解后的光譜信息分辨率越高,有利于后續(xù)的信息提取。選取3和4 vm這兩種小波濾波器來處理原始紅外光譜數(shù)據(jù),其消失矩分別為3階和4階,并比對不同分解尺度下的處理效果。采用留一法交叉驗證的均方根誤差(root mean square error of cross validation, RMSECV)最小化準(zhǔn)則作為驗證標(biāo)準(zhǔn),結(jié)果如圖2所示。在濾波器“3vm”和分解尺度4的條件下,RMSECV值最小。
在確定HDWT的最佳參數(shù)后,主流煙氣的紅外光譜經(jīng)HDWT處理后,將原始變量從3 038個拓展到11 776個,變換后的紅外光譜如圖3所示。HDWT的高擴增性為原始譜圖提供了額外的分辨率信息,但同時也存在許多冗余數(shù)據(jù),需要高效的特征選擇策略來剔除不重要的系數(shù)。本文采取MCARS算法進(jìn)行變量篩選。
在MCARS變量篩選過程中,權(quán)重低的變量被快速篩除,之后篩除變量的速度隨迭代次數(shù)增加而減緩,并趨于收斂。在迭代過程中,引入RMSECV最低原則,選擇36個變量作為最優(yōu)的回歸子集,并在此基礎(chǔ)上構(gòu)建巴豆醛的多元校正模型。為了進(jìn)一步驗證變量篩選的合理性,對相關(guān)變量進(jìn)行了光譜重構(gòu),結(jié)果表明,其特征大都集中在1 650~1 850 cm-1,與巴豆醛的特征吸收區(qū)域重疊較好。基于該多元校正模型,即可實現(xiàn)未知卷煙樣本的主流煙氣中巴豆醛濃度的在線定量分析,顯著提升了卷煙主流煙氣關(guān)鍵組分的分析效率和可靠性。
圖2 不同濾波器和分解尺度下的RMSECV值Fig.2 The RMSECV values obtained with differentfilters and decomposition scales
圖3 主流煙氣紅外光譜的HDWT系數(shù)圖Fig.3 The HDWT coefficients for infrared spectraof mainstream smoke
表1列出了ODDSA方法對主流煙氣中巴豆醛濃度的預(yù)測結(jié)果,并與其他算法的計算結(jié)果進(jìn)行比對。其中,RMSEP為檢驗集的均方根誤差,RRMSEP為RMSEP與檢驗集平均值的比值(代表相對誤差)。由表1可見,采用HDWT對主流煙氣紅外光譜進(jìn)行預(yù)處理后,變量數(shù)急劇增加,導(dǎo)致冗余信息惡化了原有的模型預(yù)測精度。因此,需要對HDWT系數(shù)進(jìn)行變量篩選,才能準(zhǔn)確提取巴豆醛的特征信息。
與預(yù)期相同,CARS-PLS和MCARS-PLS均在一定程度上提升了巴豆醛模型的定量預(yù)測精度。結(jié)果表明,ODDSA-PLS獲得了最佳的模型預(yù)測結(jié)果,說明在HDWT與MCARS結(jié)合后,更有利于算法以數(shù)據(jù)驅(qū)動的方式準(zhǔn)確提取巴豆醛的特征信息,并有效規(guī)避其他復(fù)雜基質(zhì)的干擾。為了進(jìn)一步說明ODDSA-PLS的計算結(jié)果,圖4列出了ODDSA-PLS模型的預(yù)測值與真實值擬合曲線。由圖可見,其擬合結(jié)果具備良好的線性相關(guān)性,能有效滿足主流煙氣中巴豆醛成分的定量分析要求。
表1 不同建模方法預(yù)測結(jié)果比對Table 1 Comparison of prediction resultsobtained with differenu methods
圖4 巴豆醛預(yù)測值與真實值擬合曲線Fig.4 The prediction results versus measurementresults of crotonaldehyde
提出了一種卷煙主流煙氣中巴豆醛的在線分析方法,并搭建了一套可直接與直線型吸煙機耦合的FTIR光譜分析系統(tǒng),該系統(tǒng)可有效模擬人體的吸煙過程,在線采集主流煙氣的紅外光譜信息。在此基礎(chǔ)上,為了準(zhǔn)確剝離巴豆醛的特征信息,開發(fā)了ODDSA算法。該算法首先從數(shù)據(jù)結(jié)構(gòu)入手,采用隨機設(shè)計的思路盡可能提升樣品的代表性,為后續(xù)的數(shù)據(jù)驅(qū)動提供信息引導(dǎo)。然后,利用HDWT算法以過采樣的方式極大拓展了紅外光譜的信息量,進(jìn)而顯著提升紅外光譜的數(shù)據(jù)分辨率。并且開發(fā)了MCARS算法,從大量冗余的HDWT系數(shù)矩陣中準(zhǔn)確提取巴豆醛的特征信息,最終構(gòu)建ODDSA光譜定量分析模型。結(jié)果表明,ODDSA是一種高效的紅外光譜特征提取方法,可有效消除光譜數(shù)據(jù)中其他復(fù)雜基質(zhì)的干擾,其分析精度能有效滿足主流煙氣中巴豆醛的在線分析需求,進(jìn)而為復(fù)雜體系的光譜在線分析提供新手段,具備良好的普適性。