田陸川, 楊 俊, 姜 紅
(中國人民公安大學(xué) 偵查學(xué)院, 北京 100038)
塑料拖鞋鞋底是案件現(xiàn)場常見物證之一,通過分析現(xiàn)場殘留的塑料拖鞋鞋底或殘?jiān)⑴c已知來源樣品比對(duì),可以推斷拖鞋的產(chǎn)地等信息,為獲取偵查線索、開拓偵查思路提供幫助。目前,法庭科學(xué)檢驗(yàn)塑料的方法有:紅外光譜法[1]、拉曼光譜法[2]、X射線熒光光譜法[3]、掃描電鏡/能譜法[4]、薄層色譜法、熱分析法、裂解氣相色譜法等。其中,拉曼光譜法具有操作簡單、靈敏度高、無需前處理等優(yōu)點(diǎn),因此被廣泛應(yīng)用于司法鑒定中。
塑料拖鞋是最常見的拖鞋種類,一般由樹脂及塑料助劑(增塑劑、阻燃劑等)制成。由于不同拖鞋的用途與使用場景不同,生產(chǎn)廠家所選擇的主要成分和填料也不盡相同,相同成分的配比也可能不同,這種差異導(dǎo)致了不同拖鞋對(duì)應(yīng)拉曼光譜圖的峰數(shù)和峰位的不同,為檢驗(yàn)區(qū)分拖鞋鞋底種類和材質(zhì)提供了依據(jù)。筆者創(chuàng)新性地將統(tǒng)計(jì)學(xué)方法應(yīng)用到了拉曼數(shù)據(jù)解析中,利用主成分分析對(duì)拉曼數(shù)據(jù)降維,將提取到的3個(gè)主成分代替原有數(shù)據(jù)進(jìn)行系統(tǒng)聚類,將收集到的43個(gè)樣本分為4類,再利用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)與Fisher判別分析(FDA)建立基于系統(tǒng)聚類結(jié)果的預(yù)測模型(簡稱RBFNN-FDA模型),經(jīng)驗(yàn)證后FDA的準(zhǔn)確率為97.7%,RBFNN的準(zhǔn)確率為100%,效果顯著。
實(shí)驗(yàn)儀器:FinderVista顯微共聚焦激光拉曼光譜儀,北京卓立漢光儀器有限公司。
實(shí)驗(yàn)條件:激光光源為785 nm,激光功率為20 mW,積分時(shí)間為50 s,波數(shù)為190~2 900 cm-1,掃描次數(shù)為5,點(diǎn)掃描方式。
不同來源、不同廠家的塑料拖鞋鞋底樣本43個(gè)(樣本表略)。
將樣本用酒精棉簽擦拭晾干,放在激光頭下待測,反復(fù)調(diào)節(jié)激光頭高度使光點(diǎn)最小;在20 mW下積分50 s,重復(fù)掃描5次,將得到的譜圖進(jìn)行比較,選擇其中雜峰數(shù)量較少的拉曼光譜圖進(jìn)行保存。
1.4.1 主成分分析
主成分分析是一種因子提取的降維方式[5-6],通過某種正交變換從原始高維數(shù)據(jù)中提取出一個(gè)或多個(gè)與原變量線性不相關(guān)的重要變量,克服原始數(shù)據(jù)的線性相關(guān)關(guān)系。
1.4.2 系統(tǒng)聚類
系統(tǒng)聚類又稱分層聚類或凝聚性層次聚類,其主要思想是將每個(gè)研究對(duì)象視為獨(dú)立的一個(gè)簇,根據(jù)某種標(biāo)準(zhǔn)不斷合并相似度最高的兩個(gè)簇成為新簇,直到所有研究對(duì)象都被歸為一個(gè)簇[7]。聚類分析要求不同組間的差異較大,個(gè)體的差異距離通常用距離來表示。筆者采用平方歐式距離進(jìn)行聚類分析,其數(shù)學(xué)定義式為:
(1)
式中:dxy為平方歐式距離;xi、yi為i點(diǎn)的坐標(biāo);n為樣點(diǎn)數(shù)量。
1.4.3 FDA
FDA是將未知分類的個(gè)體并入已有分類進(jìn)行預(yù)測的一種多元統(tǒng)計(jì)分析方法[8],其分析過程為:根據(jù)已知分類的樣本中的某些指標(biāo),按照一定的判別準(zhǔn)則建立起一個(gè)或多個(gè)判別函數(shù),利用樣本的大量數(shù)據(jù)確定判別函數(shù)系數(shù),并計(jì)算判別指標(biāo)。對(duì)于一個(gè)未知分類的新樣本,只需將其代入到判別函數(shù)中即可確定其分類歸屬。
FDA利用了投影的思想,使高維問題在一維空間中處理,通過判別函數(shù)得出變量在各個(gè)典型變量上的坐標(biāo),同時(shí)得出樣本與類中心的距離,從而作為分類依據(jù)[9]。
1.4.4 RBFNN
徑向基函數(shù)(RBF)是以函數(shù)逼近為基礎(chǔ)的前反饋神經(jīng)網(wǎng)絡(luò),相較多層感知器,RBF只有一個(gè)隱層。其主要思想是用在RBF的隱藏層內(nèi)將原本的低維數(shù)據(jù)轉(zhuǎn)化到高維空間中,使得原本不可分的變量在高維空間內(nèi)可分[10-11]。目前最常用的RBF是高斯核函數(shù),其公式為:
(2)
式中:k(·)為高斯核函數(shù);ac為中心點(diǎn)坐標(biāo);a為待分類的坐標(biāo);σ為可調(diào)平滑程度參數(shù)。相較于BP神經(jīng)網(wǎng)絡(luò),RBFNN的結(jié)構(gòu)簡單,訓(xùn)練簡潔,學(xué)習(xí)收斂速度快,廣泛應(yīng)用于分類預(yù)測,系統(tǒng)控制等領(lǐng)域[12]。
將收集到的譜圖與標(biāo)準(zhǔn)拉曼特征峰進(jìn)行對(duì)照,即可得知樣本所含物質(zhì)。常見塑料及填料的標(biāo)準(zhǔn)拉曼特征峰見表1[13-14]。
表1 常見塑料及填料的標(biāo)準(zhǔn)拉曼特征峰
隨機(jī)選取6#與37#樣本進(jìn)行分析比較,結(jié)果見圖1。由圖1可以看出:6#樣本有11個(gè)特征峰,37#樣本有13個(gè)特征峰,樣本的峰數(shù)不同;6#樣本在640 cm-1、1 165 cm-1、1 290 cm-1、1 424 cm-1處有特征峰,說明6#樣本主要成分為聚氯乙烯,可能含有二氧化硅;37#樣本在440 cm-1、637 cm-1、1 185 cm-1、1 600 cm-1處有特征峰,說明樣本主要成分為聚碳酸酯,可能含有二氧化鈦。根據(jù)以上不同即可實(shí)現(xiàn)對(duì)樣本的區(qū)分。
(a) 6#樣本
(b) 37#樣本
拉曼數(shù)據(jù)是由拉曼位移及拉曼強(qiáng)度構(gòu)成的高維數(shù)據(jù),故需要對(duì)數(shù)據(jù)進(jìn)行降維提取主成分替換原始數(shù)據(jù),以消除原始高維數(shù)據(jù)間可能存在的線性關(guān)系,提高聚類分析準(zhǔn)確度。
在提取主成分時(shí),一般要求所提取的主成分累計(jì)方差貢獻(xiàn)率大于85%[15]。從43個(gè)樣本中提取到了3個(gè)主成分,累計(jì)方差貢獻(xiàn)率達(dá)到了96.283%(見表2),可以充分解釋原始數(shù)據(jù)。
表2 主成分累計(jì)方差貢獻(xiàn)率
2.3 系統(tǒng)聚類
系統(tǒng)聚類是一種無監(jiān)督式的統(tǒng)計(jì)方法,廣泛應(yīng)用于數(shù)據(jù)分類與醫(yī)學(xué)統(tǒng)計(jì)上。常用的聚類方法有組間聯(lián)接法、組內(nèi)聯(lián)接法、最近鄰元素法、ward法等。筆者采用ward法,以平方歐式距離作為區(qū)間進(jìn)行系統(tǒng)聚類,系統(tǒng)聚類譜系圖見圖2。
由圖2可以看出:當(dāng)并類距離為1時(shí),樣本被分為6類;當(dāng)并類距離為3時(shí),樣本被分為4類;當(dāng)并類距離為5時(shí),樣本被分為3類;當(dāng)并類距離為25時(shí),凝聚停止,所有樣本被歸為1類。
FDA是一種常用的有監(jiān)督機(jī)器學(xué)習(xí),可以對(duì)樣本的分類進(jìn)行預(yù)測[16],將系統(tǒng)聚類的結(jié)果作為判別模型的分組,定義變量范圍1~4,以提取到的主成分作為自變量建立判別函數(shù),其判別函數(shù)系數(shù)見表3。
圖2 樣本的系統(tǒng)聚類譜系圖
表3 判別函數(shù)系數(shù)
FDA將高維數(shù)據(jù)轉(zhuǎn)化到低維空間中進(jìn)行區(qū)分,根據(jù)樣本間在Fisher判別函數(shù)分布圖的投影位置來確定分類歸屬,4個(gè)分組的組質(zhì)心位置見表4。
表4 4個(gè)類的組質(zhì)心位置
建立起的判別函數(shù)并不都能較好地實(shí)現(xiàn)對(duì)樣本分類歸屬的預(yù)測,故對(duì)3個(gè)判別函數(shù)的特征值進(jìn)行分析(見表5),方差百分比代表函數(shù)對(duì)樣本分類解釋能力的強(qiáng)弱。由表5可以看出:第一、第二、第三判別函數(shù)的方差百分比分別為88.3%、11.4%和0.2%,第一、第二判別函數(shù)顯著優(yōu)于第三判別函數(shù),且第一、第二判別函數(shù)的累計(jì)百分比達(dá)到了99.8%,可以較好地對(duì)樣本分類歸屬進(jìn)行預(yù)測,故考慮舍棄第三判別函數(shù)。
表5 判別函數(shù)特征值
為進(jìn)一步驗(yàn)證上述方法的可行性,引入威爾克Lambda值(見表6)對(duì)判別函數(shù)進(jìn)一步討論,威爾克Lambda值越小,函數(shù)影響力越大。
表6 威爾克Lambda值摘要
一般認(rèn)為當(dāng)概率小于顯著性水平0.05時(shí),認(rèn)為當(dāng)前判別函數(shù)整體的判別能力較強(qiáng)。由表6可以看出:第三判別函數(shù)的顯著性水平為0.124,大于0.05,故可以舍棄[17]。以第一、第二判別函數(shù)建立聯(lián)合分布圖,見圖3。
圖3 樣本的聯(lián)合分布圖
由圖3可以看出:樣本在函數(shù)1方向區(qū)分明顯,說明第一判別函數(shù)的效果更好,故可以使用第一判別函數(shù)對(duì)塑料拖鞋鞋底進(jìn)行分類預(yù)測。經(jīng)交叉驗(yàn)證后,模型的準(zhǔn)確率為97.7%,效果較好。
為消除樣本間的量綱關(guān)系,首先對(duì)已經(jīng)降維的3個(gè)主成分進(jìn)行標(biāo)準(zhǔn)化,將分組作為因變量,將43個(gè)樣品以80%和20%的比例隨機(jī)分配分成訓(xùn)練集和測試集以避免人工分類的誤差。輸入層神經(jīng)元為3,輸出層神經(jīng)元為3,隱含層設(shè)置為10,激活函數(shù)為Softmax,訓(xùn)練次數(shù)為3 000。各節(jié)點(diǎn)間線段的粗細(xì)表示神經(jīng)元之間相互連接的權(quán)重的大小,權(quán)重由輸入層的3個(gè)主成分訓(xùn)練得出。RBFNN結(jié)構(gòu)圖見圖4,繪制的操作特性曲線見圖5。
圖4 RBFNN結(jié)構(gòu)示意圖
圖5 模型操作特性曲線曲線
操作特性曲線又稱受試工作特征曲線[18],用以驗(yàn)證某分類器模型性能。對(duì)于給出的模型,輸入正負(fù)類的一組數(shù)據(jù),與待測模型對(duì)數(shù)據(jù)的預(yù)測進(jìn)行比對(duì),從而對(duì)模型性能進(jìn)行評(píng)估。操作特性曲線的線下面積(AUC)是操作特性曲線的量化指標(biāo),AUC越大,分類效果越好。由圖5可以得出,4組樣品的AUC均為1,診斷準(zhǔn)確率高,誤判率低。測試集和訓(xùn)練集的準(zhǔn)確率為100%,證明可以在已知分類的樣品上建立RBFNN模型,對(duì)位置樣品的歸屬進(jìn)行預(yù)測。
利用顯微共聚焦激光拉曼光譜儀對(duì)塑料拖鞋鞋底樣本進(jìn)行了區(qū)分檢驗(yàn),根據(jù)樣本間的特征峰不同,可以實(shí)現(xiàn)對(duì)樣本的區(qū)分。建立了基于系統(tǒng)聚類的RBFNN-FDA模型,最終樣本被分為4組,且達(dá)到了對(duì)樣本100%和97.7%的分類準(zhǔn)確率。對(duì)于未知?dú)w屬的樣本,只需將其代入判別函數(shù)及神經(jīng)網(wǎng)絡(luò)中即可得知其分類。
未來可以通過搜集足夠多樣本建立起塑料拖鞋鞋底數(shù)據(jù)庫,通過大量反復(fù)訓(xùn)練使模型更加準(zhǔn)確可靠,從而實(shí)現(xiàn)更好的區(qū)分效果。所建立的模型可以可以為縮小偵查范圍、獲取偵查線索、打擊犯罪等提供一定幫助。