朱澤昊 田兵 樊小鵬 曾敏 楊志*
(1.薄膜與微細(xì)技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室 上海交通大學(xué) 上海市 200240)(2.南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司 廣東省廣州市 510700)
在煤礦開采業(yè)、石油生產(chǎn)和天然氣傳輸業(yè)中,常常伴隨著大量的易燃易爆和有毒氣體產(chǎn)生,諸如甲烷(CH4)、一氧化碳(CO)和氫氣(H2)等。準(zhǔn)確可靠地檢測CH4、CO 和H2以及預(yù)測它們的混合氣體的種類和濃度,對開采工作人員的安全健康、避免事故的發(fā)生以及環(huán)境保護(hù)有著重要的研究價值[1]。目前,電子鼻系統(tǒng)已被廣泛應(yīng)用于混合氣體的分類識別和濃度預(yù)測領(lǐng)域,但是仍面臨一些挑戰(zhàn)。比如電子鼻傳感器獲取的參數(shù)信號中存在來自溫濕度干擾和測量誤差等方面的復(fù)雜噪聲干擾,在分類識別時要求分類算法能夠處理多個輸入和輸出的模式識別算法,并且能夠甄別數(shù)據(jù)中的復(fù)雜關(guān)系[2]。如劉偉玲等人[3]采用結(jié)合主成分分析(PCA)的支持向量機(jī)(SVM)和反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)對甲硫醚、乙酸乙酯及其混合物進(jìn)行分類識別,其識別精度分別達(dá)到92%和94%。
混合氣體濃度預(yù)測的主要挑戰(zhàn)之一是不同濃度和比例的混合氣體在一起產(chǎn)生的復(fù)雜性,導(dǎo)致傳感器響應(yīng)信號和單一氣體組分濃度之間的關(guān)系往往是非線性關(guān)系,難以直觀地建立起相互之間的對應(yīng)關(guān)系[4]。最小二乘支持向量機(jī)(LSSVM)在SVM 的數(shù)學(xué)框架上結(jié)合了最小二乘優(yōu)化技術(shù),擁有很強(qiáng)的非線性擬合能力,在氣體的濃度預(yù)測中顯示出較高的精度。如Khalaf W 等人[5]通過建立LSSVM 模型來精確預(yù)測不同揮發(fā)性有機(jī)化合物的濃度。Huang L X 等人[6]用電子鼻系統(tǒng)鑒定蜂蜜的植物來源,實(shí)驗(yàn)結(jié)果表明LSSVM 在蜂蜜質(zhì)量預(yù)測方面具有高性能。Zhang W L 等人[7]用多層感知機(jī)(MLP)和LSSVM 等多種算法對四種空氣污染物(C6H6、NO2、SO2、SO2和NO2的混合物)進(jìn)行分析,結(jié)果表明LSSVM 獲得了最高的預(yù)測精度。
本文針對CH4、CO 和H2三種單一氣體組分及其二元混合物的分類識別及濃度預(yù)測問題,設(shè)計(jì)了可以實(shí)現(xiàn)高精度識別和預(yù)測的電子鼻系統(tǒng),通過時域特征提取來降低響應(yīng)信號受到的噪聲干擾。本文提出基于DN 算法的氣體分類模型,解決傳統(tǒng)機(jī)器學(xué)習(xí)算法在小樣本數(shù)據(jù)集下識別準(zhǔn)確率低的問題。針對混合氣體濃度預(yù)測的難點(diǎn),采用先分類再預(yù)測的“雙步策略”,結(jié)合DN 算法對氣體分類識別的結(jié)果建立LSSVM 模型。在小樣本數(shù)據(jù)集的訓(xùn)練情況下,DN-LSSVM 模型將進(jìn)一步提升電子鼻的濃度預(yù)測性能。
本文設(shè)計(jì)的電子鼻系統(tǒng)主要由三個部分組成:氣體傳感器陣列、硬件電路以及軟件系統(tǒng)。為了實(shí)現(xiàn)針對三種待測目標(biāo)氣體(CH4、CO 和H2)的檢測,購買了6 個商用氣體傳感器用來組成氣體傳感器陣列:TGS2600、TGS2612、TGS2619、TGS813、MQ-8 和MQ-9B。電子鼻硬件電路包括了信號調(diào)理及采集電路模塊、通訊傳輸電路模塊、電源電壓轉(zhuǎn)換模塊以及藍(lán)牙信號發(fā)射器等輔助配件。軟件系統(tǒng)主要實(shí)現(xiàn)了傳感器陣列響應(yīng)波形的可視化、多信道的數(shù)據(jù)實(shí)時存儲及分析等功能。
在密閉的氣體腔室中放入電子鼻系統(tǒng)后,采用氣體質(zhì)量流量控制器(MFC)調(diào)節(jié)通入腔室的待測氣體和空氣的流速和比率,從而配置出不同濃度的待測氣體。同時在電腦上通過藍(lán)牙信號接收每個氣體傳感器的實(shí)時響應(yīng)值。在完成一次數(shù)據(jù)采集后,通入純凈空氣直到氣體腔室內(nèi)部所有氣體傳感器恢復(fù)到無響應(yīng)狀態(tài),以便于進(jìn)行下一次采樣。整個實(shí)驗(yàn)裝置的設(shè)置和實(shí)驗(yàn)流程如圖1所示。對于某個單種氣體,從5ppm 開始,以5ppm 作為濃度間隔,然后增加到50ppm,每個濃度測試兩次,共獲得20 組與濃度相對應(yīng)的電子鼻響應(yīng)數(shù)據(jù)。對于混合氣體中的每種氣體,分別從5ppm 和10ppm 開始,以10ppm 作為濃度間隔相互混合,各類別混合氣體經(jīng)測試,可以得到150 組與濃度對應(yīng)的電子鼻響應(yīng)數(shù)據(jù)。
圖1:氣體采集實(shí)驗(yàn)的流程步驟
由于傳感器自身的漂移和實(shí)驗(yàn)環(huán)境中存在的噪聲干擾,直接使用原始響應(yīng)數(shù)據(jù)難以達(dá)到較好的效果,因此需要進(jìn)行特征提取。時域特征提取是指直接從傳感器的原始響應(yīng)中提取穩(wěn)態(tài)響應(yīng)和瞬態(tài)響應(yīng)等信息。本文采用分式差分法作為時域特征提取,如式(1)所示:
其中,Rair表示傳感器在空氣中的基線電阻值,Rgas表示傳感器在待測氣體響應(yīng)中的穩(wěn)定電阻值,F(xiàn)為所提取的時域特征。
傳統(tǒng)的氣體分類識別算法往往需要建立高復(fù)雜度的模型以適應(yīng)復(fù)雜的氣體特征空間,從而導(dǎo)致其泛化性能降低,容易出現(xiàn)過擬合問題。DN 算法主要由樹突模塊和線性模塊組成[8]。樹突模塊的計(jì)算僅包含矩陣乘法和Hadamard 乘積,其計(jì)算復(fù)雜度顯著低于非線性函數(shù),計(jì)算公式如下:
其中Al-1和Al分別是模塊的輸入和輸出。X表示原始輸入數(shù)據(jù),Wl,l-1是從第l-1 個模塊到第l個模塊的權(quán)重矩陣,L表示模塊的數(shù)量,°表示Hadamard 乘積。DN 的總體架構(gòu)如圖2 所示。
圖2:DN 模型的結(jié)構(gòu)圖
LSSVM 通過求解線性方程組更適合處理高維空間問題,不僅表現(xiàn)出卓越的泛化能力,而且解決問題的速度也更快[9]。假設(shè)給定訓(xùn)練數(shù)據(jù)集i為訓(xùn)練數(shù)據(jù)集的樣本個數(shù),xi為一組1×n維的向量,yi為函數(shù)y=f(x)的對應(yīng)輸出,則LSSVM 回歸的初始優(yōu)化問題為:
其中,w 為一組權(quán)值向量,b為閾值,ei為誤差,γ為正則化參數(shù), 為原空間向高維空間對應(yīng)的非線性映射。由于w 可能具有無限維數(shù),一般無法直接進(jìn)行求解,而是需要采用拉格朗日乘子法來求解上式。引入拉格朗日函數(shù)為:
其中,非負(fù)輔助變量 稱為拉格朗日乘子。構(gòu)造核函數(shù):
分別對式(4)中的w,b,,ei求偏導(dǎo)數(shù)并令其為0,結(jié)合核函數(shù)可得到下列線性方程組:
其中,為訓(xùn)練樣本的目標(biāo)值所構(gòu)成的一組向量,矩陣Ω 的第(i,j)個元素為,I 為維度合適的單位矩陣。求解式(6)的線性方程組得到a和b的表達(dá)式為:
根據(jù)式(7)求出的a和b構(gòu)造LSSVM 的解析函數(shù)表達(dá)式為:
PCA 是一種常用的降維算法,可以減少高維數(shù)據(jù)中的冗余信息[10]。為了保留氣體響應(yīng)信號中最重要的特征,本文對經(jīng)過時域特征提取的傳感器信號數(shù)據(jù)進(jìn)行PCA降維處理,其對應(yīng)的三維空間分布如圖3 所示。將PCA降維后的結(jié)果作為分類模型的輸入,可以降低計(jì)算的復(fù)雜性,并起到防止過度擬合的作用。
圖3:混合氣體樣本在三維空間上的分布圖
為了驗(yàn)證DN 算法的效果,本文使用四種傳統(tǒng)機(jī)器學(xué)習(xí)算法(隨機(jī)森林(RF)、隨機(jī)梯度下降(SGD)、SVM 和MLP)與DN 算法進(jìn)行了比較。不同算法的分類性能對比結(jié)果如圖4 所示。
圖4:不同分類算法的識別準(zhǔn)確率對比圖
從圖4 中可以看出,基于DN 算法的分類模型的識別準(zhǔn)確率達(dá)到96.2%,遠(yuǎn)優(yōu)于四種傳統(tǒng)的機(jī)器學(xué)習(xí)算法。
針對氣體的濃度預(yù)測,本文先利用DN 算法對樣本進(jìn)行分類識別,然后再針對每個分類結(jié)果建立LSSVM模型進(jìn)行氣體濃度的精確預(yù)測。LSSVM 模型和DNLSSVM 模型對CH4、CO 和H2的濃度預(yù)測結(jié)果如圖5所示。
圖5:CH4、CO 和H2 的濃度預(yù)測結(jié)果對比
從圖5 中可以看出,DN-LSSVM 模型的預(yù)測值相比于LSSVM 模型的預(yù)測值,更加接近中間的真實(shí)濃度直線。進(jìn)一步地分析了兩種模型預(yù)測結(jié)果的決定系數(shù)(R2)、均方根誤差(RMSE)以及平均絕對誤差(MAE)作為模型的評價指標(biāo),其具體值如表1 所示。
表1:不同氣體的濃度預(yù)測評價指標(biāo)
從表1 中可以看出,相較于LSSVM 模型,DNLSSVM 提高了模型對于混合氣體組分濃度預(yù)測的準(zhǔn)確性,其對CH4、CO 和H2濃度預(yù)測的R2分別提升到了0.909、0.896 和0.937。
本文完成了電子鼻系統(tǒng)的軟硬件設(shè)計(jì),可以實(shí)現(xiàn)針對CH4、CO 和H2的分類定性識別與濃度定量預(yù)測。首先采用時域特征提取降低了響應(yīng)信號受環(huán)境噪聲干擾的影響,基于DN 算法的分類定性識別模型對單一氣體組分及其二元混合物共6 種氣體類別的識別準(zhǔn)確率達(dá)到了96.2%,遠(yuǎn)優(yōu)于作為對比的四種傳統(tǒng)機(jī)器學(xué)習(xí)算法(RF、SGD、SVM 和MLP)。在針對混合氣體的濃度定量預(yù)測中,與傳統(tǒng)的直接建立預(yù)測模型相比,結(jié)合DN 算法先對混合氣體組分進(jìn)行定性識別,再建立LSSVM 模型進(jìn)行濃度預(yù)測,DN-LSSVM 模型有效地提升了混合氣體的濃度定量預(yù)測性能。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的電子鼻系統(tǒng)可以實(shí)現(xiàn)對CH4、CO 和H2三種氣體的高精度定性識別與濃度定量預(yù)測,為煤礦開采、石油生產(chǎn)和天然氣傳輸?shù)葢?yīng)用場景中易燃易爆危險氣體的高精度在線氣體傳感提供技術(shù)支持。