何欣龍, 王繼芬*, 吳福璐, 李錦澤, 張 強, 陳 多
(1.中國人民公安大學刑事科學技術學院,北京 102600;2.吉林省長春市農(nóng)安縣公安局,吉林長春 130200; 3.中國人民公安大學信息技術與網(wǎng)絡安全學院,北京 102600; 4.中國人民公安大學交通管理工程學院,北京 102600)
橡膠顆粒的鑒別是司法鑒定中一項重要的工作。橡膠原材料主要有生膠、硫化體系、防護體系、填充補強體系和其他添加劑,而常見的橡膠成品有輪胎、膠鞋等,它在人們生活及尖端高科技等諸多領域都得到廣泛的應用[1]。在物證鑒定領域,輪胎橡膠作為一種微量物證,常見于交通肇事及其他一些訴訟案件中,因此,實現(xiàn)不同種類輪胎橡膠顆粒的精確識別與分類具有重要的意義,目前尚未見到較為普適的報道。
衰減全反射-傅里葉變換紅外(ATR-FTIR)光譜[2]作為一種無損檢驗技術,其特征性高、分析速度快、樣品用量少,可為一些無法用常規(guī)紅外光譜測量的樣品(橡膠)提供制樣攝譜技術,并實現(xiàn)非均勻樣品和不平整樣品表面的微區(qū)無損測量[3],極大滿足了對樣本快速準確且無損檢驗的需求。歐陽愛國等[4]借助紅外光譜對甲醇和乙醇柴油進行了鑒別和含量測定,模型誤判率低于7.1%,實驗結(jié)果十分理想。蔡嘉華等[5]則利用ATR-FTIR光譜結(jié)合小波和小波包變換,研究并提高了苯丙酮尿癥篩查模型的性能。史令飛等[6]采用最小二乘支持向量機(LS-SVM)結(jié)合紅外光譜法實現(xiàn)了對潤滑油酸值更為準確地測定。
聚類分析和神經(jīng)網(wǎng)絡是化學計量學研究中的熱門領域,其中神經(jīng)網(wǎng)絡具有強大的特征提取與抽象能力,能夠整合多源信息,處理異構數(shù)據(jù),是目前大數(shù)據(jù)分析中最成功的方法[7 - 8]。主要方法有前饋神經(jīng)網(wǎng)絡(FFNN)、徑向基函數(shù)神經(jīng)網(wǎng)絡(RBF)和霍普菲爾網(wǎng)絡(HN)等。其中,RBF可以根據(jù)具體問題確定相應的網(wǎng)絡拓撲結(jié)構,具有自學習、自組織、自適應功能,能夠以任意精度逼近任意連續(xù)函數(shù),特別適合于解決分類問題,同時其有很快的學習收斂速度,可以進行大范圍的數(shù)據(jù)融合,可以并行高速地處理數(shù)據(jù),進而發(fā)掘數(shù)據(jù)內(nèi)部難以解析的規(guī)律性[9 - 10]。本實驗借助ATR-FTIR光譜,結(jié)合凝聚型層次聚類分析(CHCA)和RBF對輪胎橡膠進行建模區(qū)分,同時對相關結(jié)果進行討論,以期為案發(fā)現(xiàn)場輪胎橡膠顆粒的種類鑒別提供一種新的準確研究方法。
Nicolet 5700型傅立葉變換紅外光譜儀(Thermo Fisher Scientific公司);衰減全反射套件(ATR,Thermo Fisher Scientific公司,選Ge晶體作為晶體材料),掃描次數(shù)32次;光譜分辨率4 cm-1;以空氣為背景進行光譜采集;光譜數(shù)據(jù)處理采用OPUS軟件(德國Bruker公司),選取波數(shù)在4 000~500 cm-1段譜圖,需注意避免CO2和水分對實驗結(jié)果的干擾,每個樣本采集3次,取平均值。
從建材市場收集75個不同品牌和生產(chǎn)廠家的輪胎橡膠樣本。
1.2.1 建模CHCA是一種有效的分類方法,其能有效處理大數(shù)據(jù)集,應付不同的數(shù)據(jù)類型,算法的效率能滿足大數(shù)據(jù)量高復雜性要求且對數(shù)據(jù)的輸入順序不敏感。RBF是一種將輸入矢量擴展或者預處理到高維空間中的神經(jīng)網(wǎng)絡學習方法[9],具有局部響應特性和唯一最佳逼近點,能以任意精度逼近任一連續(xù)函數(shù),常用于非線性系統(tǒng)的定量預測,快捷且準確度高[10]。它由輸入層、隱含層和輸出層3層構成,其中輸入層是將特征向量輸入神經(jīng)網(wǎng)絡,隱含層即傳遞函數(shù),將低維的模式輸入數(shù)據(jù)變換到高維空間內(nèi),以利于輸出層進行分類識別[11],隱層的轉(zhuǎn)移函數(shù)一般采用高斯函數(shù),其形式為:
f(‖x-xc‖)=exp{-‖x-xc‖2/(2×σ)2)}
(1)
其中,x是空間中的任意一點,xc為核函數(shù)中心,‖‖是歐式范數(shù),σ為函數(shù)的寬度參數(shù),直接控制函數(shù)的徑向作用范圍。
輸出層,即第j個輸出點為:
(2)
其中ω為神經(jīng)網(wǎng)絡權值,i=1,2,3,…,M。
1.2.2 方法借助ATR-FTIR光譜獲取樣本的紅外光譜數(shù)據(jù),剔除波數(shù)在2 406~2 271 cm-1(CO2峰)的干擾數(shù)據(jù),選擇Z標準化(即ZCore標準化)預處理,消除光譜數(shù)據(jù)量綱不一致影響,選擇主成分分析對樣本進行降維,簡化計算復雜性,篩選出具有高識別特征的變量,借助CHCA和RBF展開對特征變量的區(qū)分建模。
75個輪胎橡膠樣本主成分分析的特征根方差貢獻率摘要見表1。由表1可知,共提取到5個主成分,“Total”是特征根,即為主成分影響力度的指標,一般以1為標準,只需提取特征根大于1的主成分,同時滿足累計方差貢獻率(Cumulative%)大于85%,才能作為代表原始變量的主成分分數(shù)[12]。表中PCA1、PCA2、PCA3和PCA4的特征根分別為307.081、254.337、106.486和99.212,其值均大于1,可以作為代表原始變量的主成分分數(shù)。各成分方差貢獻率分別是33.342%、27.615%、11.562%、10.772%和4.899%,累計方差貢獻率為88.191%,其值大于85%,表明5個主成分可解釋樣本的特征信息,可作為特征變量建立分類模型。
表1 特征根方差貢獻率
選擇 “PCA1”、“PCA2”、“PCA3”、“PCA4”和“PCA5”為特征變量,借助CHCA分析構建模型,結(jié)果見表2。由表2可知,75個樣本分為了9大類,在此基礎上又分成了20小類。其中,A類共有12個樣本,是玲瓏品牌的輪胎橡膠;B類共有14個樣本,有佳通品牌的輪胎橡膠顆粒;C類是吉路爾品牌的輪胎橡膠顆粒,D類有朝陽和新陶品牌的輪胎橡膠顆粒,E類有WANALI品牌的輪胎橡膠顆粒,F(xiàn)類是青島平度豪邁輪橡膠顆粒,G類有朝陽和三角品牌的輪胎橡膠顆粒,H類有金宇品牌的輪胎橡膠顆粒,I類有Annait品牌的輪胎橡膠顆粒,J類有東風和泰發(fā)品牌的輪胎橡膠顆粒,K類是德國馬牌和正新品牌的輪胎橡膠顆粒,L類是MAXXIS和玲瓏品牌的輪胎橡膠顆粒,M類有DUNLOP品牌、佳通品牌、三角品牌的輪胎橡膠顆粒,N類是三角品牌的輪胎橡膠顆粒,O類是佳通品牌的輪胎橡膠顆粒,P類是韓泰品牌的輪胎橡膠顆粒,Q類是,R類是KUMHO品牌的輪胎,T類是米其林品牌的輪胎橡膠顆粒。
表2 75個樣本凝聚型層次聚類分析結(jié)果
圖1 特征變量重要性圖Fig.1 Significance chart of characteristic variables
為檢驗模型的重現(xiàn)性和準確率,采用RBF開展驗證性分析?;诰C合考慮神經(jīng)元個數(shù)和網(wǎng)絡性能,以及模型準確度的目的,輸入層選擇PCA1、PCA2、PCA3、PCA4和PCA5為變量因子,隱含層神經(jīng)元個數(shù)的確定采用遞增方法,即隱含層神經(jīng)元個數(shù)從零開始遞增,每增加一個神經(jīng)元都能最大限度的降低誤差,如果未達到網(wǎng)絡設計精度則繼續(xù)增加神經(jīng)元個數(shù),直到滿足精度[9]。選擇隨機生成種子數(shù)為229176228,防止過度擬合集合為30.0%,模型終止條件為達到精度或者達到最大神經(jīng)元個數(shù),構建RBF輪胎橡膠分類的標準模型。得到了特征變量重要性圖如圖1所示。圖1可直觀看出5個特征變量在做出分類預測時的重要程度。“特征4”為區(qū)分貢獻最大的特征,其重要性達0.22,其次為“特征3”,重要性為0.21,“特征1”重要性為0.20,“特征5” 重要性為0.19,“特征2”為區(qū)分貢獻最小的特征,重要性為0.18,所有特征變量的重要程度值總和為1。
表3即模型對各類別樣本的預測結(jié)果。第1類中,31個樣本實現(xiàn)了準確的歸類,2個樣本(1105-5和1221-15)預測錯誤,準確率為93.94%;第3類中,2個樣本(1221-16和1221-48)預測有誤;第4類中,1113-8和1130-5樣本預測有誤;其他幾類均實現(xiàn)了100%的準確預測??傮w預測準確率為92.0%,模型結(jié)果分類理想。
表3 RBF模型對樣本的預測結(jié)果
對歸屬類別存在差異樣本的紅外譜圖展開解析,結(jié)果見圖2。由圖2a可知,樣本1221-15與第1和3類樣本譜圖的走向基本一致,在波數(shù)1 250~1 500 cm-1處均有三個尖峰,在波數(shù)1 000 cm-1均有一個寬峰,相比較第3類樣本,1221-15與第1類樣本的譜圖更相近,故而仍將其歸為第1類樣本。由圖2b可知,樣本1105-5與第1和3類樣本譜圖的走向基本一致,在波數(shù)1 000 cm-1左右均有一個寬峰,樣本1105-5與第1類樣本的峰強基本一樣,與第3類樣本之間的區(qū)分較為分明顯,故而仍將其歸為第1類樣本。圖2c中,樣本1221-16與第3類樣本譜圖走向基本一致,與第1類樣本譜圖差異明顯,仍然將其歸為第1類樣本。圖2d中,樣本1221-48與第2和3類樣本走向基本一致,在波數(shù)為750 cm-1左右1221-48與第3類樣本均有一個尖峰,而第2類樣本沒有,故而將樣本1221-48歸為第3類。圖2e中,樣本1113-8和1130-5和第2類樣本(1221-2和1221-47)相比較,其譜圖走向不一致,出峰位置各有差異,仍將其歸為單獨一類。綜上,75個樣本的歸屬情況如表2所示。
圖2 差異樣本紅外(IR)光譜圖比較Fig.2 Comparison of IR spectra for samplesa.The spectra comparison of 1221-15 with 1 and 3;b.The spectra comparison of 1105-5 with 1 and 3;c.The spectra comparison of 1221-16 with 1 and 3;d.The spectra comparison of 1105-5 with 2 and 3;e.The spectra comparison of 1113-8 with 1130-5 and 2.
本實驗利用紅外光譜檢測、凝聚型層次聚類分析和徑向基函數(shù)模型對輪胎橡膠顆粒進行了準確的識別與分類,不僅實現(xiàn)了量少、快速和無損檢驗的目的,而且借助數(shù)學模型展開模式識別,實現(xiàn)了對輪胎橡膠顆粒更為合理和有效地鑒別。模型對各樣本的總體分類準確率達92.0%,分類結(jié)果較為理想,這也為其他物證的分類識別提供了一種新的思路和參考。后期將針對性收集相關樣本,同時考慮各個類別樣本的內(nèi)部差異,進而更深入地構建分類模型,以期實現(xiàn)對輪胎橡膠健全的分類研究體系,為法庭科學中輪胎橡膠物證的鑒別提供一定的參考和借鑒。