王 驍,李 博,馮小琴
?
基于JADE的室內(nèi)多組分混合污染氣體定量分析
王 驍1,李 博1,馮小琴2
(1. 中北大學儀器科學與動態(tài)測試教育部重點實驗室,山西 太原 030051;2. 北方自動控制技術(shù)研究所,山西 太原 030006)
檢測室內(nèi)有害氣體得到的紅外光譜為混合有害氣體的紅外光譜,針對吸收譜帶相互交疊的混合氣體定性定量不容易的問題,提出基于特征矩陣聯(lián)合近似對角化(joint approximative diagonalization of eigenmatrix,JADE)的特征提取方法,該方法通過分析數(shù)據(jù)的高階統(tǒng)計量信息,充分挖掘原始數(shù)據(jù)隱含的信息,以便準確地區(qū)分出混合氣體中各物質(zhì)的光譜,同時應(yīng)用基于正則理論的支持向量機(SVM)對提取出來的獨立信號源建立多維數(shù)據(jù)定量分析的模型。實驗結(jié)果表明,混合氣體中各組分的定量分析相關(guān)系數(shù)均保持在0.9991以上,驗證了該特征提取方法的準確性。
特征矩陣聯(lián)合近似對角化;定量分析;多組分;支持向量機
隨著社會進步,人類日常生活水平提高,人們對于居住房屋的環(huán)境和氛圍要求逐漸增高,名類繁多的裝修風格則為各類人群提供了滿足需求的可能。我國房屋裝修以及家居用品中使用的新型復(fù)合材料和化學合成材料質(zhì)量參差不齊,大部分含有多類有毒有害的物質(zhì),長時間接觸這些有害物質(zhì)嚴重影響了人們的身心健康[1-3]。室內(nèi)空氣檢測旨在分析室內(nèi)空氣質(zhì)量現(xiàn)狀給人們提供一個數(shù)據(jù)考量,這在降低室內(nèi)空氣污染中有著重要的意義[4-5]。
利用紅外光譜表[6-7]征物質(zhì)物理屬性的良好能力對室內(nèi)多種污染氣體進行分析檢測,對于各組分污染氣體的定量分析則建立在良好的特征提取基礎(chǔ)之上,合理充分地挖掘測試數(shù)據(jù)的信息是一項繁雜重要的工作。而基于高階統(tǒng)計量信息的JADE有良好的盲源分離性能被用于矢量水聽器陣列信號辨識[8],雷達信號抗主瓣干擾[9],假藥快速檢測分析[10]。對于實際紅外測量應(yīng)用中,目標光譜特征上存在各種未知干擾成分、基線漂移和噪聲信號,吸收譜線上有較多的重疊,而我們感興趣的光譜信號僅有一小部分,針對紅外光譜數(shù)據(jù)的非線性、小樣本以及空間光譜維數(shù)大等問題,適當利用高階統(tǒng)計量挖掘信息全貌則為光譜的特征提取提供了一種新的嘗試。
支持向量機(support vector machine,SVM)是建立在統(tǒng)計學習理論的VC維理論和結(jié)構(gòu)風險最小原理基礎(chǔ)上的機器統(tǒng)計學習方法[11],對于小樣本、非線性高維模式識別有很大優(yōu)勢,兩者結(jié)合使用對污染氣體的高維度、非線性紅外光譜特征進行快速提取與識別,并定量解析,有效地發(fā)揮了2種方法的統(tǒng)計優(yōu)勢,揚長避短的結(jié)合提高了各氣體定性定量分析的準確度。
特征矩陣聯(lián)合近似對角化(joint approximative diagonalization of eigenmatrix,JADE)是由法國學者Cardoso提出的一種處理多導(dǎo)信號的方法,是獨立分量分析的一種批處理算法[12-13]。JADE是對引入的多變量數(shù)據(jù)的四維計量矩陣對其特征分解的簡化算法,它通過求原始數(shù)據(jù)球化后的全部四階累積量構(gòu)造一組加權(quán)重的階累積量矩陣,然后尋求一個酉變換矩陣對這組四階累積量矩陣進行聯(lián)合對角化逼近從而估計出混合矩陣和信源。本文采用這種方法對混合氣體紅外光譜進行特征提取。
設(shè)一個待觀測的維信號=[1,2, …,x]T由個源信號=[1,2, …,s]T線性混合而成:
=+(1)
式中:是線性混合矩陣;為噪聲信號矩陣。通過JADE可計算出混合矩陣,解混矩陣和源信號。對于紅外光譜信號來說,×(≤)可看做個測試點在處波長的紅外光譜信號矩陣,用×(≤)表示單一物質(zhì)的光譜矩陣,每一行均可看成是一種物質(zhì)的光譜信息,×則是混合矩陣,能體現(xiàn)出混合光譜中的相對濃度。使用JADE完成各成分分離時,令=[1,2, …,z]T為原始數(shù)據(jù)=[1,2, …,x]T球化后的觀察矢量,為任意×矩陣,的四階累積量矩陣()的第,元素定義如下:
式中:K()是中的第,,,四個分量的四維累積量,()是×的對稱陣,m是矩陣的第,個元素。()中,點上的元素反映了給定,下全部cum(x,x,x,x)的加權(quán)和,其權(quán)重是對應(yīng)于,點的元素值。由此矩陣()概括了多通道數(shù)據(jù)的全部四維累積量。酉陣表示為混合矩陣和球化陣的乘積=,且=。令v,=1~代表中各列=[1, …,, …,],且=[1, …,]T,則陣可取為:
其第,個元素為m=vv。四階累積量矩陣()可分解為:
()=(4)
其第,元素表示為[()]=m,式中=4()是信源的峰度,()的特征矩陣為,其特征值為=4()。由于[()]=4(),它的一個特征分解為=T,則()一定可表示為:
通過式(6)尋求能通過T()將()對角化的酉陣,對混合矩陣做出辨識和分解:
式中:為分離出的信源。
對多組分氣體進行定量分析實質(zhì)上是考慮實值函數(shù)的估計問題,目標是估計一個幾乎沒有先驗知識的函數(shù)()[14],其滿足:
=()+(8)
式中:為預(yù)估的偏差;是一個維輸入向量;是室內(nèi)混合污染氣體的標定濃度。估計是基于個樣本來實現(xiàn)的,Z~(x,y),=1, 2, …,是服從獨立同分布(,)=()(|)的概率。因此預(yù)估式(8)可以表示為:
學習過程中,選擇最優(yōu)函數(shù)(,0)來最小化預(yù)測的期望風險,∈是預(yù)測函數(shù)集合的廣義參量。通過方差損失函數(shù)進行回歸估計,以表征預(yù)測結(jié)果的好壞:
但學習方法所支持的函數(shù)集合(,)不一定包含式(9)所對應(yīng)的回歸函數(shù),因此學習的問題是僅使用訓(xùn)練樣本數(shù)據(jù)尋找預(yù)測函數(shù)(,0)實現(xiàn)最小化期望風險[15]:
函數(shù)泛化能力通常用風險大小來表示,實際中我們往往認為未知的函數(shù)()或是樣本分布()都是非時變的,所以利用先前的數(shù)據(jù)所做的估計才是有意義的,按照經(jīng)驗風險最小實現(xiàn)實際模型的參量估計:
建模的目標是最小化經(jīng)驗風險,雖說理論上許多分類函數(shù)在樣本集上的準確率很高,但是實際分類的結(jié)果卻不盡人意。因此即使確定了預(yù)測函數(shù)最小的經(jīng)驗風險,也還是無法保證期望風險為最小。因此統(tǒng)計學習的就是為了尋求結(jié)構(gòu)風險的最小化:
式中:(/)是學習的置信區(qū)域;是預(yù)測函數(shù)的VC維數(shù)(Vapnik-Chervonenkis dimension)。SVM正是這樣一種努力最小化結(jié)構(gòu)風險的算法。樣本數(shù)量與分類函數(shù)的VC維決定了置信風險的結(jié)果,大量的給定樣本數(shù)量和越小的VC維數(shù)會保證越小的置信風險。在根據(jù)式(12)中在有關(guān)學習復(fù)雜控制的結(jié)構(gòu)風險最小化框架下,可以依靠樣本靈活的適應(yīng)性把預(yù)測函數(shù)集(,)排列成一序列子集的嵌套。式S={(,),∈}中元素的VC維都具有有限性,為了確保在同一個預(yù)測函數(shù)都的置信范圍相同,必須利用式(13)使函數(shù)子集能夠分別按照VC維的大小進行排列,同時遵循結(jié)構(gòu)逢小最小化原則,為最優(yōu)模型提供最小真實風險的上界函數(shù)。為了確保在這個空間中可構(gòu)造最優(yōu)分類超平面作為決策曲面,最大化正例和反例之間的隔離邊緣。因此輸入向量可通過已確定的非線性映射映射到高維特征空間中內(nèi),所以在權(quán)空間中的優(yōu)化可以表達為:
式中:是調(diào)和常量,():R? R是核空間的映射函數(shù),是均方誤差和正則量化之和的損失函數(shù),映射函數(shù)與核函數(shù)可根據(jù)Mercer條件表示為:
因此最優(yōu)化的預(yù)測函數(shù)為:
使用北京瑞利分析儀器公司生產(chǎn)的WQF-520型傅里葉變換紅外光譜儀搭建實驗系統(tǒng),配套其提供的100mm常規(guī)密閉氣室。采用七星華創(chuàng)電子股份有限公司生產(chǎn)的質(zhì)量流量計精密的控制氣體濃度,為了保證實驗的準確性,需要對儀器用高純的N2進行沖洗,然后通入混合氣體,不同濃度的氨氣(NH3)、甲醛(CH2O)、氮氣(N2)通過流量計進入密閉氣室,經(jīng)過重復(fù)多次實驗采集到100條混合氣體樣品的光譜如圖1所示,其中光譜分辨率為4cm-1,波數(shù)范圍大氣窗口700~1300cm-1。
圖1 采集到的100條樣品透過率光譜
采集到的混合氣體的光譜數(shù)據(jù)經(jīng)過JADE算法的處理,將吸收峰交錯重疊的兩種純物質(zhì)氣體分離出來,并反演出兩種純物質(zhì)的光譜。
圖2為JADE分離出的獨立成分分量,其中上面的獨立成分為甲醛(CH2O)的透過率特征譜圖,下面的獨立成分為氨氣(NH3)的透過率特征譜圖。
圖2 JADE分離出的獨立成分
圖3是恢復(fù)重建的濃度分別為1000mol/L的氨氣(NH3)和95mol/L甲醛(CH2O)的透過率光譜。
圖3 恢復(fù)某濃度下的NH3和CH2O透過率光譜
根據(jù)上述分離實驗得到的100條氨氣和甲醛光譜透過率數(shù)據(jù),各自從中隨機挑選出80組數(shù)據(jù)作為訓(xùn)練樣本,剩下的20組數(shù)據(jù)作為建立濃度預(yù)測模型的測試樣本,利用SVM建立濃度預(yù)測模型,定量分析得到的測試集輸出濃度和相對誤差結(jié)果,如圖4和圖5所示。
由圖4、圖5的結(jié)果可計算得到NH3與CH2O相關(guān)系數(shù)分別為=0.9992和=0.9991,二者均方根誤差分別為MSE=27.9312和MSE=0.7931,相關(guān)系數(shù)和均方根誤差說明定量分析結(jié)果比較精確,從而說明JADE方法在多組分混合氣體定性分析中具有很高的分離性能,能夠精確的將吸收峰混疊的2種氣體區(qū)分開來。
圖4 NH3測試集預(yù)測結(jié)果
將特征矩陣聯(lián)合近似對角化算法應(yīng)用到室內(nèi)污染氣體檢測中,提高了定性分析的穩(wěn)定性,結(jié)合支持向量機良好的泛化學習能力和推廣能力構(gòu)建出混合污染氣體的定性定量分析模型,兩種算法的有機結(jié)合取長補短,基本能夠達到混合氣體的定性定量要求,而且這樣的結(jié)合也為精確測量多組分混合氣體提供了參考。
[1] 劉紫紅, 洪琦. 室內(nèi)裝修污染源分析及防治措施[J]. 綠色科技, 2015(5): 197-199.
LIU Zihong, HONG Qi. Analysis and prevention of indoor decoration pollution source[J]., 2015(5): 197-199.
[2] 鄭家鑫. 住宅裝修甲醛的釋放因素探究[J]. 產(chǎn)業(yè)與科技論壇, 2015, 15: 79-80.
ZHENG Jiaxin. Research on releasing factor of formaldehyde in residential decoration[J]., 2015, 15: 79-80.
[3] 陳猛. 試論室內(nèi)空氣污染危害與解決措施[J]. 黑龍江科技信息, 2014(4): 2-2.
CHEN Meng. Study on harm and solution of indoor air pollution[J]., 2014(4): 2-2.
[4] 陳希堯. 淺談室內(nèi)裝修帶來的環(huán)境污染及預(yù)防措施[J]. 資源節(jié)約與環(huán)保, 2014(11): 88-88.
CHEN Xiyao. Pollution and prevention of indoor decoration[J]., 2014(11): 88-88.
[5] 王登山. 室內(nèi)空氣污染危害及其凈化技術(shù)的探究[J]. 潔凈與空調(diào)技術(shù), 2015(2): 33-36.
WANG Dengshan.Research on health hazard and purification technology of indoor air pollution[J]., 2015(2): 33-36.
[6] 宋英華. 紅外光譜技術(shù)在環(huán)境安全領(lǐng)域中的應(yīng)用與展望[J]. 能源與節(jié)能, 2015(08): 104-105.
SONG Yinghua.On the application and prospect of infrared spectrum technology in the environmental safety field[J]., 2015(08): 104-105.
[7] 李吉光. 在線紅外結(jié)合獨立成分分析研究含能化合物合成反應(yīng)機理[D]. 西安: 西北大學, 2014.
LI Jiguang. Investigating the synthetic mechanism of energy compounds by on-line IR spectroscopy combined with independent component analysis[D]. Xi’an: Northwest University, 2014.
[8] 肖大為, 程錦房, 張景卓,等. 基于JADE算法的矢量水聽器陣列信號盲估計研究[J]. 武漢理工大學學報: 交通科學與工程版, 2013(5): 1012-1016.
XIAO Dawei, CHENG Jinfang, ZHANG Jingzhuo, et al.Blind signal estimation based on JADE algorithm for an vector hydrophone array[J].:, 2013(5): 1012-1016.
[9] 王文濤, 張劍云, 劉興華,等. JADE盲源分離算法應(yīng)用于雷達抗主瓣干擾技術(shù)[J]. 火力與指揮控制, 2015(09): 104-108.
WANG Wentao, ZHANG Jianyun, LIU Xinghua, et al.Radar anti-mainlobe-jamming based on blind source separation algorithm of JADE[J]., 2015(09): 104-108.
[10] 宋清. 獨立組分分析在光譜分析中的基礎(chǔ)與應(yīng)用研究[D]. 上海: 第二軍醫(yī)大學, 2012.
SONG Qing. The basic and applied research of independent component analysis in spectral analysis[D]. Shanghai: The Second Military Medical University, 2012.
[11] 邊雙微. 田納西—伊斯曼化工過程的故障診斷[D]. 武漢: 華中科技大學, 2011.
BIAN Shuangwei.Fault diagnosis on Tennessee-Eastman process [D]. Wuhan:Huazhong University of Science and Technology, 2011.
[12] Cardoso J F. Higher order contrast for independent component analysis[J]., 1999, 11(1): 157-193.
[13] Cardoso J F, Souloumiac A.Blind beam forming for non-gaussian signals[J].(), 1993, 140(6): 362-370.
[14] 林繼鵬, 劉君華. 光譜分析中的支持向量機方法及其性能優(yōu)化[J]. 光譜學與光譜分析, 2006, 26(12): 2232-2235.
LIN Jipeng, LIU Junhua. Support vector machine and optimized method for spectral analysis[J]., 2006, 26(12): 2232-2235.
[15] 林繼鵬, 劉君華. 光譜嚴重交疊的多組分混合氣體紅外定量分析技術(shù)[J].現(xiàn)代科學儀器, 2006(1): 53-57.
LIN Jipeng, LIU Junhua. A new technology study based on seriously overlapped spectrum of quantitative analyzing on multi-component hybrid gas[J]., 2006(1): 53-57.
Quantitative Analysis of Indoor Multi-component Gas Mixture Based on JADE
WANG Xiao1,LI Bo1,F(xiàn)ENG Xiaoqin2
(1.,,030051,; 2.,030006,)
The infrared spectrum obtained by indoor air pollution monitor is a variety of harmful mixture gas and absorption bands of mixture gas overlap makes qualitation a difficult question. A feature extraction method based on joint approximative diagonalization of eigenmatrix (JADE) is proposed. The method can fully mine implicit information in the original data by analyzing the Higher-order statistics information so that we can separate mixture gas spectrum into each material’s spectrum. SVM (support vector machine) based on the regular theory is applied to establish a multi-dimensional data quantitative analysis model by the extracted independent source. The experimental result shows that the relevant factors of mixture gas component quantitative analysis are maintained at 0.9991, which proves the accuracy of this feature extraction method.
joint approximative diagonalization of eigenmatrix,quantitative analysis,multi-component,SVM
TM930
A
1001-8891(2016)03-0255-05
2015-10-13;
2015-12-23.
王驍(1990-),男,碩士研究生,主要研究信號處理。E-mail:valor98@aliyun.com。
李博(1972-),碩士生導(dǎo)師,副教授,主要研究方向為精密檢測設(shè)備、信號采集與處理。E-mail:libo@nuc.edu.cn。
國家自然科學基金儀器專項基金項目(61127015)。