摘要 紅外光譜技術具有高效和無損等優(yōu)點,在石油類污染物分類檢測領域中具有重要的研究與應用價值。本研究提出了一種結合離散小波變換(DWT)算法和基于Inception 卷積模塊的一維卷積神經網(wǎng)絡(Inception-1D-CNN)的石油類污染物分類方法,首先使用DWT算法對原始紅外光譜數(shù)據(jù)進行去噪處理,消除因實驗環(huán)境、儀器誤差和人工操作等因素產生的干擾信息;再通過Inception-1D-CNN模型獲取多尺度的紅外光譜特征信息,并基于此模型對石油類污染物進行分類預測。實驗結果表明,與標準正態(tài)變換(SNV)、迭代自適應加權懲罰最小二乘法(AirPLS)和卷積平滑(S-G)預處理方法相比, DWT算法結合卷積核大小為3×1的1D-CNN模型的預測準確率為86.6%,分別提高了6.6%、6.6%和3.3%;DWT算法結合卷積核大小為5×1的1D-CNN模型的預測準確率為93.3%,分別提高了10.0%、7.0%和3.3%;DWT 算法結合卷積核大小為7×1的1D-CNN 模型的預測準確率為90.0%,分別提高了6.7%、10.0%和3.4%;DWT 算法結合Inception-1D-CNN 模型的預測準確率為100.0%,分別提高了10.0%、10.0%和3.4%。因此,結合DWT算法和Inception-1D-CNN模型能夠對石油類污染物準確分類預測,為后續(xù)海面溢油污染治理提供了一定的基礎。
關鍵詞 紅外光譜;石油類污染物;Inception 模塊;卷積神經網(wǎng)絡;離散小波變換
石油是世界三大能源之一,在現(xiàn)代社會的發(fā)展過程中發(fā)揮著極其重要的作用,是人類生產生活中不可缺少的一部分[1]。然而,在石油的開采、運輸和使用過程中,不可避免地會發(fā)生泄漏。含油污水排放、海上船舶故障或意外碰撞、海上石油開采和運輸[2]等都可能導致大量石油進入海洋環(huán)境,形成海面溢油污染。這不僅造成資源浪費和環(huán)境污染,還對人類健康構成威脅[3-4]??焖贉蚀_地鑒別石油類污染物種類是治理海面溢油污染的基礎與前提[5]。因此,實現(xiàn)石油類污染物種類的精準快速鑒別對海面溢油污染的治理具有重要意義。
紅外光譜(Infrared spectrum, IR)具有簡單、快速、無損和分辨率高等優(yōu)點[6],廣泛應用于石油[7]、醫(yī)藥[8]、煙草[9]、化工[10]和環(huán)境監(jiān)測[11]等領域。紅外光譜技術在光譜分析過程中主要包括數(shù)據(jù)預處理與建立模型兩個步驟。傳統(tǒng)模型的預測效果通常依賴于數(shù)據(jù)的準確性,然而,隨著紅外光譜數(shù)據(jù)量激增,數(shù)據(jù)之間存在信息冗余和共線性問題。此外,影響紅外光譜數(shù)據(jù)采集的因素較多,當實驗環(huán)境和儀器設備等因素發(fā)生變化時,紅外光譜信號也會發(fā)生改變,這使得傳統(tǒng)模型無法有效地提取紅外光譜數(shù)據(jù)的特征。
近年來,隨著人工智能理論的發(fā)展,卷積神經網(wǎng)絡(Convolutional neural network, CNN)通過卷積層和池化層的交替學習,可以有效提取紅外光譜數(shù)據(jù)的特征,在紅外光譜分析研究中取得了顯著成果[12]。郝惠敏等[13]利用VGG 深度卷積神經網(wǎng)絡結合紅外光譜實現(xiàn)了7 種單組分氣體的分類識別。Hu 等[14]利用1D-CNN 結合拉曼光譜實現(xiàn)了對農藥的分類。王磊等[15]提出了一種基于1D-CNN 的超參數(shù)自動搜索全流程近紅外光譜分析模型,實現(xiàn)了對玉米、柴油、牛奶和啤酒濃度的定量分析。然而,使用單一尺度的一維常規(guī)卷積所能提取的特征信息有限。Szegedy 等[16]提出的Inception 模型通過并聯(lián)不同尺寸的卷積層,實現(xiàn)了多尺度的特征融合,適合進行多尺度的特征學習。本研究采用該結構構建了基于紅外光譜技術的石油類污染物分類模型,提出了一種結合離散小波變換(DWT)算法和基于Inception 卷積模塊的一維卷積神經網(wǎng)絡(Inception-1D-CNN)模型的石油類污染物分類方法。采用DWT 算法對原始紅外光譜數(shù)據(jù)進行預處理,去除原始紅外光譜數(shù)據(jù)中的噪聲。引入Inception 模塊代替單一尺度的一維常規(guī)卷積,建立Inception-1D-CNN 模型對紅外光譜特征進行多尺度學習。從采集的4 種石油類污染物紅外光譜數(shù)據(jù)集中,結合DWT 算法和Inception-1D-CNN 模型能夠準確分類預測石油類污染物。
1 實驗部分
1.1 儀器與試劑
VERTEX 70 系列紅外光譜儀(德國Bruker 公司);79-1 磁力加熱攪拌器(上海江星儀器有限公司);HF-8 固定液體池和溴化鉀窗片(天津恒創(chuàng)立達科技發(fā)展有限公司)。
0#柴油(中國石化集團公司,純度gt;99%);生物柴油(濟南科瑞達化工有限公司,純度gt;99%);95#汽油(中化石油有限公司,純度gt;99%);航空煤油(山東桐鑫化工有限公司,純度gt;99.9%);Span-80 乳化劑和Tween-80 乳化劑(國藥集團化學試劑有限公司,純度≤100%);實驗用水為純凈水(杭州娃哈哈集團有限公司)。
采用OPUS 傅里葉紅外光譜采集軟件和Origin、MATLAB 和PyCharm 等數(shù)據(jù)處理軟件對紅外光譜數(shù)據(jù)進行采集和分析。
1.2 紅外光譜數(shù)據(jù)集
1.2.1 樣品制備
將定量的石油類污染物樣本與Span-80 乳化劑混合并攪拌均勻;將定量的純凈水與Tweeen-80 乳化劑混合并攪拌均勻。將上述兩種樣本溶液混合,倒入容量瓶中,定容至100 mL。將定容后的樣本溶液轉移至燒杯中,利用磁力攪拌器攪拌20 min,以確保溶液達到乳化狀態(tài)。攪拌完成后,將乳化后的樣本溶液密封,保存?zhèn)溆谩?/p>
在實驗過程中,為確保數(shù)據(jù)的準確性,采用精度為0.01 g 的電子天平進行稱量,并定期對天平進行校準。此外,所有操作均在穩(wěn)定的環(huán)境中進行,以避免環(huán)境因素對實驗結果的影響。
按照一定濃度梯度分別配制4 種石油類污染物各25 個樣本,共計100 個樣本。樣本濃度的配制信息見表1, 4 種石油類污染物樣本信息見表2。
1.2.2 紅外光譜采集
采用德國布魯克VERTEX 70 系列紅外光譜儀采集紅外光譜,掃描范圍為4000~500 cm–1,分辨率為4 cm–1,樣本掃描時間為16 s。每個樣本采集6 次,取6 次數(shù)據(jù)的平均值作為該樣本的紅外光譜數(shù)據(jù),共得到4 種石油類污染物的100 個樣本。4 種石油類污染物的高含油率紅外光譜數(shù)據(jù)如圖1 所示,高含水率紅外光譜數(shù)據(jù)如圖2 所示。
1.2.3 樣本集劃分
將4 種石油類污染物樣本數(shù)據(jù)集隨機劃分為訓練集和測試集。其中,訓練集樣本用于訓練模型,通過迭代對模型參數(shù)進行優(yōu)化,得到預測準確度最優(yōu)的模型;測試集樣本用于評估模型。按訓練集∶測試集=7∶3 的比例設置樣本,得到訓練集樣本70 個,測試集樣本30 個。
1.3 光譜預處理
在采集紅外光譜數(shù)據(jù)過程中,由于實驗環(huán)境、儀器誤差和人工操作等因素的影響,所獲取的紅外光譜數(shù)據(jù)不僅包含有效信息,還夾雜了大量干擾信息。本研究采用DWT 算法對原始紅外光譜數(shù)據(jù)進行去噪處理[17]。具體步驟包括:(1)信號分解 使用小波變換將原始紅外光譜數(shù)據(jù)分解為近似系數(shù)和細節(jié)系數(shù),其中,近似系數(shù)包含低頻信息,細節(jié)系數(shù)包含高頻信息,設置小波基函數(shù)為bior 3.3,分解層數(shù)為5;(2)閾值去噪 使用Brige-Massart 策略確定閾值,對細節(jié)系數(shù)進行軟閾值處理,去除噪聲信號;(3)信號重構 對經過閾值處理的小波系數(shù)進行逆小波變換,得到重構信號。
1.4 模型結構
1.4.1 1D-CNN模型
本研究搭建了3 種不同卷積核大小的單尺度1D-CNN 模型,包括2 個卷積層、2 個歸一化層、2 個最大池化層和2 個全連接層,分別標記為Conv1、Conv2、BatchNorm1、BatchNorm2、Maxpool1、Maxpool2、FC1 和FC2。其中,卷積核大小為3×1 的1D-CNN 模型結構,如圖3 所示, Conv1 和Conv2 的卷積核大小均為3×1,步長為1,卷積核數(shù)量依次為32 和64;BatchNorm1 和BatchNorm2 設置特征維數(shù)依次為32 和64;激活函數(shù)選擇ReLu 非線性激活函數(shù);Maxpool1 和Maxpool2 的池化核大小均為3×1,步長為3;FC1 和FC2 的神經元個數(shù)依次為12800 和256;Dropout 函數(shù)設置概率參數(shù)p 為0.5。
1.4.2 Inception模塊
Inception 模塊通過在同一層上使用不同尺寸的卷積核,可以同時進行小尺度和大尺度特征提取。本研究搭建的Inception 卷積模塊包含4 個并行的分支,分別為Branch1、Branch2、Branch3 和Branch4。其中, Branch1 使用一個大小為1×1 的卷積核;Branch2 使用兩個級聯(lián)的卷積核,卷積核大小分別為1×1 和3×1;Branch3 使用兩個級聯(lián)的卷積核,卷積核大小分別為1×1 和5×1;Branch4 使用一個最大池化核后級聯(lián)一個卷積核,其中池化核和卷積核大小分別為3×1 和1×1。具體Inception 卷積模塊結構如圖4 所示。
1.4.3 Inception-1D-CNN模型
使用Inception 卷積模塊代替1D-CNN 中單一尺度的一維常規(guī)卷積層,得到Inception-1D-CNN 模型,其網(wǎng)絡結構如圖5 所示。其中Inception 卷積模塊設置Branch1 中1×1 卷積核數(shù)量為8, Branch2 中1×1卷積核數(shù)量為8, 3×1 卷積核數(shù)量為16;Branch3 中1×1 卷積核數(shù)量為8, 5×1 卷積核數(shù)量為16, Branch4中1×1 卷積核數(shù)量為8。
Inception-1D-CNN 模型采用Adam 優(yōu)化器,學習率初始化為0.001,迭代次數(shù)為40,批處理大小為2,采用交叉熵損失(Cross entropy loss)函數(shù)對模型進行訓練。
2 結果與討論
2.1 紅外光譜分析
石油是由多種物質組成的有機混合物,包含多環(huán)芳烴、苯類和酚類等物質,其主要元素組成為C 和H,還有少量的O、N 和S[18-19]。本研究在0#柴油、生物柴油、95#汽油和航空煤油紅外光譜數(shù)據(jù)集基礎上進行, 4 種石油類污染物樣本在95%含油率下的原始紅外光譜數(shù)據(jù)如圖6 所示。
柴油主要由烷烴、芳香烴和硫化合物組成。結合圖6A 中0#柴油的紅外光譜特征峰分析可知,2950~2850 cm–1 處的吸收峰為烷烴的C–H 伸縮振動吸收峰, 1600~1585 cm–1 處的吸收峰為芳香烴的C=C 伸縮振動吸收峰, 1300~1000 cm–1 范圍內的吸收峰可能是硫化合物的特征吸收帶。生物柴油主要由甲酯類化合物和雜質組成。結合圖6B 中生物柴油的紅外光譜特征峰分析可知, 1750~1735 cm–1 處的吸收峰為甲酯類的C=O 伸縮振動吸收峰, 1300~1000 cm–1 范圍內的吸收峰為C–O 伸縮振動吸收峰。汽油主要由烷烴、芳香烴、烯烴和環(huán)烷烴類化合物組成。結合圖6C 中95#汽油的紅外光譜特征峰分析可知, 3000~2800 cm–1 處的吸收峰為烷烴的C–H 伸縮振動吸收峰, 1600~1585 cm–1 處的吸收峰為芳香烴的C=C 伸縮振動吸收峰。航空煤油主要由烷烴、環(huán)烷烴和芳香烴類化合物組成,結合圖6D 中航空煤油的紅外光譜特征峰分析可知, 2950~2850 cm– 1 處的吸收峰為烷烴的C–H 伸縮振動吸收峰,1500~1470 cm–1 處的吸收峰為環(huán)烷烴的C–H 彎曲振動吸收峰[20]。
2.2 不同建模方法的結果分析
采用標準正態(tài)變換(SNV)、卷積平滑(S-G)、迭代自適應加權懲罰最小二乘法(AirPLS)和DWT 預處理方法,分別結合3 種不同卷積核大小的單尺度1D-CNN 模型和Inception-1D-CNN 模型對4 種石油類污染物樣本進行分類預測,預測準確率結果如表3 所示。模型1、2、3 和4 分別代表卷積核大小為3×1的1D-CNN 模型、卷積核大小為5×1 的1D-CNN 模型、卷積核大小為7×1 的1D-CNN 模型和Inception-1D-CNN 模型。
預測準確率結果表明,原始光譜數(shù)據(jù)結合模型1、模型2、模型3 和模型4 對4 種石油類污染物的預測準確率較差,這是由于原始光譜數(shù)據(jù)中包含噪聲等干擾信息。與SNV、S-G 和AirPLS 這3 種預處理方法相比, DWT算法結合模型1、模型2、模型3 和模型4 的預測準確率最優(yōu)。其中, DWT算法結合模型1的預測準確率為86.6%,與其它3 種預處理方法相比分別提高了6.6%、6.6%和3.3%;DWT 算法結合模型2 的預測準確率為93.3%,與其它3 種預處理方法相比分別提高了10.0%、7.0%和3.3%;DWT 算法結合模型3 的預測準確率為90.0%,與其它3 種預處理方法相比分別提高了6.7%、10.0%和3.4%;DWT 算法結合模型4 的預測準確率為100.0%,與其它3 種預處理方法相比分別提高了10.0%、10.0%和3.4%。
采用DWT 算法對含油率為95%的4 種石油類污染物樣本的原始紅外光譜數(shù)據(jù)進行去噪處理,結果如圖7 所示,其中,黑色曲線a 為4 種石油類污染物的原始紅外光譜數(shù)據(jù),紅色曲線b 為使用DWT 算法對原始紅外光譜數(shù)據(jù)去噪后的結果。
由表3 可知,在4 種石油類污染物紅外光譜數(shù)據(jù)集中, DWT 算法結合Inception-1D-CNN 模型的預測準確率最高,為100%。其中, DWT 算法結合Inception-1D-CNN 模型預測結果的混淆矩陣如圖8 所示,其中,橫坐標代表真實值標簽,縱坐標代表預測值標簽。由圖8 可知,測試集包含4 個柴油樣本、10 個生物柴油樣本、10 個95#汽油樣本和6 個航空煤油樣本,使用DWT 算法結合Inception-1D-CNN 模型對4 種石油類污染物樣本的預測準確率均為100%。
綜上,結合DWT 算法和Inception-1D-CNN 模型能夠準確分類預測4 種石油類污染物。DWT 算法通過將原始紅外光譜信號分解成不同的分量,能夠有效分離出噪聲信號。Inception 卷積模塊使用不同大小的卷積核進行特征提取,然后在深度維度上聚合不同大小卷積核提取的特征,使得Inception-1D-CNN 模型具有良好的預測精度。
3 結論
DWT 算法是一種時頻分析方法,通過DWT 分離紅外光譜數(shù)據(jù)中的噪聲和信號。Inception-1D-CNN模型是一種基于CNN 的紅外光譜分類預測模型,使用Inception 卷積模塊代替一維常規(guī)卷積,可在不同的卷積尺寸上對紅外光譜信息進行特征提取。此外, Inception 卷積模塊中使用1×1 卷積實現(xiàn)跨通道的信息交互,彌補了基于單尺度卷積的1D-CNN 模型提取特征有限的不足,提高了模型的預測準確率。實驗結果表明,結合DWT 算法和Inception-1D-CNN 模型可以實現(xiàn)對石油類污染物的精準鑒別,為石油類污染物的快速準確檢測提供了參考。
References
[1] JHA M N, LEVY J, GAO Y. Sensors, 2008, 8(1): 236-255.
[2] CUI Hong-Ran. Chem. Engineer. Equip. , 2020, 282(7): 234-235.
崔洪然. 化學工程與裝備, 2020, 282(7): 234-235.
[3] LI P, CAI Q, LIN W, CHEN B, ZHANG B. Mar. Pollut. Bull. , 2016, 110(1): 6-27.
[4] LAFFON B, PASARO E, VALDIGLESIAS V. J. Toxicol. Environ. Health, Part B, 2016, 19(3-4): 105-128.
[5] AL-RUZOUQ R, GIBRIL M B A, SHANABLEH A, KAIS A, HAMED O, AL-MANSOORI S, KHALIL M A. Remote Sens. ,2020, 12(20): 3338.
[6] ZHOU Jun, YANG Yang, YAO Yao, LI Zi-Wen, WANG Jian, HOU Chang-Jun. Spectrosc. Spectral Anal. , 2022, 42(3):764-768.
周軍, 楊洋, 姚瑤, 李子文, 王健, 侯長軍. 光譜學與光譜分析, 2022, 42(3): 764-768.
[7] MOHAMMADI M, KHORRAMI M K, VATANI A, GHASEMZADEH H, VATANPARAST H, BAHRAMIAN A, FALLAH A. Spectrochim. Acta, Part A, 2020, 232: 118157.
[8] BEC K B, GRABSKA J, HUCK C W. Molecules, 2020, 25(12): 2948.
[9] ZHANG L, DING X Q, HOU R C. J. Anal. Methods Chem. , 2020, 2020(1): 9652470.
[10] ZHUANG J, LI M, PU Y, RAGAUSKAS A, YOO C. Appl. Sci. , 2020, 10(12): 4345.
[11] CHEN Y, WEN D, PEI J, FEI Y, OUYANG D, ZHANG H, LUO Y. Curr. Opin. Environ. Sci. Health, 2020, 18: 14-19.
[12] LI Q, ZENG J, LIN L, ZHANG J, ZHU J, YAO L, WANG S, DU J, WU Z. LWT-Food Sci. Technol. , 2021, 140: 110856.
[13] HAO Hui-Min, LIANG Yong-Guo, WU Hai-Bin, BU Ming-Long, HUANG Jia-Hai. Spectrosc. Spectral Anal. , 2021, 41(3):782-788.
郝惠敏, 梁永國, 武海彬, 卜明龍, 黃家海. 光譜學與光譜分析, 2021, 41(3): 782-788.
[14] HU J, ZOU Y, SUN B, YU X, SHANG Z, HUANG J, JIN S, LIANG P. Spectrochim. Acta, Part A, 2022, 265: 120366.
[15] WANG Lei, HUAN Ke-Wei, LIU Xiao-Xi, YUE Dan, HAN Feng-Di, ZHANG Wen-Jie. Chin. J. Anal. Chem. , 2022,50(12): 1918-1926.
王磊, 宦克為, 劉小溪, 岳丹, 韓豐地, 張文捷. 分析化學, 2022, 50(12): 1918-1926.
[16] SZEGEDY C, LIU W, JIA Y Q, SERMANET P, REED S, ANGUELOV D, ERHAN D, VANHOUCKE V, RABINOVICH A. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 1-9.
[17] YANG L, ZHANG Y, LIU J, ZHANG Z, XU M, JI F, CHEN J, ZHANG T, LU R. Rev. Sci. Instrum. , 2022, 93(3): 033002.
[18] KUMAR K, MISHRA A K. Anal. Methods, 2011, 3(11): 2616-2624.
[19] ZHANG Kun-Feng, CHANG Sheng, FU Qing, FAN Yue-Ting, WANG En-Rui, SUN Xing-Bin, WANG Shan-Jun. Environ.Sci. , 2022, 43(6): 3005-3015.
張坤鋒, 昌盛, 付青, 樊月婷, 王恩瑞, 孫興濱, 王山軍. 環(huán)境科學, 2022, 43(6): 3005-3015.
[20] CHEN Yuan-Yuan, WU Di, WANG Li-Lian, TIAN Mao-Hong. China Pet. Chem. Stand. Qual. , 2014, 34(8): 266-267.
陳圓圓, 吳嫡, 王麗蓮, 田茂宏. 中國石油和化工標準與質量, 2014, 34(8): 266-267.
國家自然科學基金項目(No. 62173289)資助。