基于RBFNN-FDA模型對(duì)塑料拖鞋鞋底的拉曼光譜研究

2022-08-29 10:59田陸川

上海塑料 2022年4期

田陸川，楊俊，姜紅

(中國人民公安大學(xué) 偵查學(xué)院，北京 100038)

0 前言

塑料拖鞋鞋底是案件現(xiàn)場常見物證之一，通過分析現(xiàn)場殘留的塑料拖鞋鞋底或殘?jiān)⑴c已知來源樣品比對(duì)，可以推斷拖鞋的產(chǎn)地等信息，為獲取偵查線索、開拓偵查思路提供幫助。目前，法庭科學(xué)檢驗(yàn)塑料的方法有：紅外光譜法[1]、拉曼光譜法[2]、X射線熒光光譜法[3]、掃描電鏡/能譜法[4]、薄層色譜法、熱分析法、裂解氣相色譜法等。其中，拉曼光譜法具有操作簡單、靈敏度高、無需前處理等優(yōu)點(diǎn)，因此被廣泛應(yīng)用于司法鑒定中。

塑料拖鞋是最常見的拖鞋種類，一般由樹脂及塑料助劑(增塑劑、阻燃劑等)制成。由于不同拖鞋的用途與使用場景不同，生產(chǎn)廠家所選擇的主要成分和填料也不盡相同，相同成分的配比也可能不同，這種差異導(dǎo)致了不同拖鞋對(duì)應(yīng)拉曼光譜圖的峰數(shù)和峰位的不同，為檢驗(yàn)區(qū)分拖鞋鞋底種類和材質(zhì)提供了依據(jù)。筆者創(chuàng)新性地將統(tǒng)計(jì)學(xué)方法應(yīng)用到了拉曼數(shù)據(jù)解析中，利用主成分分析對(duì)拉曼數(shù)據(jù)降維，將提取到的3個(gè)主成分代替原有數(shù)據(jù)進(jìn)行系統(tǒng)聚類，將收集到的43個(gè)樣本分為4類，再利用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)與Fisher判別分析(FDA)建立基于系統(tǒng)聚類結(jié)果的預(yù)測模型(簡稱RBFNN-FDA模型)，經(jīng)驗(yàn)證后FDA的準(zhǔn)確率為97.7%，RBFNN的準(zhǔn)確率為100%，效果顯著。

1 實(shí)驗(yàn)部分

1.1 實(shí)驗(yàn)儀器及條件

實(shí)驗(yàn)儀器：FinderVista顯微共聚焦激光拉曼光譜儀，北京卓立漢光儀器有限公司。

實(shí)驗(yàn)條件：激光光源為785 nm，激光功率為20 mW，積分時(shí)間為50 s，波數(shù)為190～2 900 cm-1，掃描次數(shù)為5，點(diǎn)掃描方式。

1.2 實(shí)驗(yàn)樣本

不同來源、不同廠家的塑料拖鞋鞋底樣本43個(gè)(樣本表略)。

1.3 譜圖采集

將樣本用酒精棉簽擦拭晾干，放在激光頭下待測，反復(fù)調(diào)節(jié)激光頭高度使光點(diǎn)最小;在20 mW下積分50 s，重復(fù)掃描5次，將得到的譜圖進(jìn)行比較，選擇其中雜峰數(shù)量較少的拉曼光譜圖進(jìn)行保存。

1.4 實(shí)驗(yàn)原理

1.4.1 主成分分析

主成分分析是一種因子提取的降維方式[5-6]，通過某種正交變換從原始高維數(shù)據(jù)中提取出一個(gè)或多個(gè)與原變量線性不相關(guān)的重要變量，克服原始數(shù)據(jù)的線性相關(guān)關(guān)系。

1.4.2 系統(tǒng)聚類

系統(tǒng)聚類又稱分層聚類或凝聚性層次聚類，其主要思想是將每個(gè)研究對(duì)象視為獨(dú)立的一個(gè)簇，根據(jù)某種標(biāo)準(zhǔn)不斷合并相似度最高的兩個(gè)簇成為新簇，直到所有研究對(duì)象都被歸為一個(gè)簇[7]。聚類分析要求不同組間的差異較大，個(gè)體的差異距離通常用距離來表示。筆者采用平方歐式距離進(jìn)行聚類分析，其數(shù)學(xué)定義式為：

(1)

式中：dxy為平方歐式距離；xi、yi為i點(diǎn)的坐標(biāo);n為樣點(diǎn)數(shù)量。

1.4.3 FDA

FDA是將未知分類的個(gè)體并入已有分類進(jìn)行預(yù)測的一種多元統(tǒng)計(jì)分析方法[8],其分析過程為：根據(jù)已知分類的樣本中的某些指標(biāo)，按照一定的判別準(zhǔn)則建立起一個(gè)或多個(gè)判別函數(shù)，利用樣本的大量數(shù)據(jù)確定判別函數(shù)系數(shù)，并計(jì)算判別指標(biāo)。對(duì)于一個(gè)未知分類的新樣本，只需將其代入到判別函數(shù)中即可確定其分類歸屬。

FDA利用了投影的思想，使高維問題在一維空間中處理，通過判別函數(shù)得出變量在各個(gè)典型變量上的坐標(biāo)，同時(shí)得出樣本與類中心的距離，從而作為分類依據(jù)[9]。

1.4.4 RBFNN

徑向基函數(shù)(RBF)是以函數(shù)逼近為基礎(chǔ)的前反饋神經(jīng)網(wǎng)絡(luò)，相較多層感知器，RBF只有一個(gè)隱層。其主要思想是用在RBF的隱藏層內(nèi)將原本的低維數(shù)據(jù)轉(zhuǎn)化到高維空間中，使得原本不可分的變量在高維空間內(nèi)可分[10-11]。目前最常用的RBF是高斯核函數(shù)，其公式為:

(2)

式中：k(·)為高斯核函數(shù);ac為中心點(diǎn)坐標(biāo)；a為待分類的坐標(biāo)；σ為可調(diào)平滑程度參數(shù)。相較于BP神經(jīng)網(wǎng)絡(luò)，RBFNN的結(jié)構(gòu)簡單，訓(xùn)練簡潔，學(xué)習(xí)收斂速度快，廣泛應(yīng)用于分類預(yù)測，系統(tǒng)控制等領(lǐng)域[12]。

2 結(jié)果與討論

2.1 譜圖解析與區(qū)分

將收集到的譜圖與標(biāo)準(zhǔn)拉曼特征峰進(jìn)行對(duì)照，即可得知樣本所含物質(zhì)。常見塑料及填料的標(biāo)準(zhǔn)拉曼特征峰見表1[13-14]。

表1 常見塑料及填料的標(biāo)準(zhǔn)拉曼特征峰

隨機(jī)選取6#與37#樣本進(jìn)行分析比較，結(jié)果見圖1。由圖1可以看出：6#樣本有11個(gè)特征峰，37#樣本有13個(gè)特征峰，樣本的峰數(shù)不同；6#樣本在640 cm-1、1 165 cm-1、1 290 cm-1、1 424 cm-1處有特征峰，說明6#樣本主要成分為聚氯乙烯，可能含有二氧化硅；37#樣本在440 cm-1、637 cm-1、1 185 cm-1、1 600 cm-1處有特征峰，說明樣本主要成分為聚碳酸酯，可能含有二氧化鈦。根據(jù)以上不同即可實(shí)現(xiàn)對(duì)樣本的區(qū)分。

(a) 6#樣本

(b) 37#樣本

2.2 主成分分析

拉曼數(shù)據(jù)是由拉曼位移及拉曼強(qiáng)度構(gòu)成的高維數(shù)據(jù)，故需要對(duì)數(shù)據(jù)進(jìn)行降維提取主成分替換原始數(shù)據(jù)，以消除原始高維數(shù)據(jù)間可能存在的線性關(guān)系，提高聚類分析準(zhǔn)確度。

在提取主成分時(shí)，一般要求所提取的主成分累計(jì)方差貢獻(xiàn)率大于85%[15]。從43個(gè)樣本中提取到了3個(gè)主成分，累計(jì)方差貢獻(xiàn)率達(dá)到了96.283%(見表2)，可以充分解釋原始數(shù)據(jù)。

表2 主成分累計(jì)方差貢獻(xiàn)率

2.3 系統(tǒng)聚類

系統(tǒng)聚類是一種無監(jiān)督式的統(tǒng)計(jì)方法，廣泛應(yīng)用于數(shù)據(jù)分類與醫(yī)學(xué)統(tǒng)計(jì)上。常用的聚類方法有組間聯(lián)接法、組內(nèi)聯(lián)接法、最近鄰元素法、ward法等。筆者采用ward法，以平方歐式距離作為區(qū)間進(jìn)行系統(tǒng)聚類，系統(tǒng)聚類譜系圖見圖2。

由圖2可以看出：當(dāng)并類距離為1時(shí)，樣本被分為6類；當(dāng)并類距離為3時(shí)，樣本被分為4類；當(dāng)并類距離為5時(shí)，樣本被分為3類；當(dāng)并類距離為25時(shí)，凝聚停止，所有樣本被歸為1類。

2.4 FDA

FDA是一種常用的有監(jiān)督機(jī)器學(xué)習(xí)，可以對(duì)樣本的分類進(jìn)行預(yù)測[16]，將系統(tǒng)聚類的結(jié)果作為判別模型的分組，定義變量范圍1～4，以提取到的主成分作為自變量建立判別函數(shù)，其判別函數(shù)系數(shù)見表3。

圖2 樣本的系統(tǒng)聚類譜系圖

表3 判別函數(shù)系數(shù)

FDA將高維數(shù)據(jù)轉(zhuǎn)化到低維空間中進(jìn)行區(qū)分，根據(jù)樣本間在Fisher判別函數(shù)分布圖的投影位置來確定分類歸屬，4個(gè)分組的組質(zhì)心位置見表4。

表4 4個(gè)類的組質(zhì)心位置

建立起的判別函數(shù)并不都能較好地實(shí)現(xiàn)對(duì)樣本分類歸屬的預(yù)測，故對(duì)3個(gè)判別函數(shù)的特征值進(jìn)行分析(見表5)，方差百分比代表函數(shù)對(duì)樣本分類解釋能力的強(qiáng)弱。由表5可以看出:第一、第二、第三判別函數(shù)的方差百分比分別為88.3%、11.4%和0.2%，第一、第二判別函數(shù)顯著優(yōu)于第三判別函數(shù)，且第一、第二判別函數(shù)的累計(jì)百分比達(dá)到了99.8%，可以較好地對(duì)樣本分類歸屬進(jìn)行預(yù)測，故考慮舍棄第三判別函數(shù)。

表5 判別函數(shù)特征值

為進(jìn)一步驗(yàn)證上述方法的可行性，引入威爾克Lambda值(見表6)對(duì)判別函數(shù)進(jìn)一步討論，威爾克Lambda值越小，函數(shù)影響力越大。

表6 威爾克Lambda值摘要

一般認(rèn)為當(dāng)概率小于顯著性水平0.05時(shí)，認(rèn)為當(dāng)前判別函數(shù)整體的判別能力較強(qiáng)。由表6可以看出：第三判別函數(shù)的顯著性水平為0.124，大于0.05，故可以舍棄[17]。以第一、第二判別函數(shù)建立聯(lián)合分布圖,見圖3。

圖3 樣本的聯(lián)合分布圖

由圖3可以看出：樣本在函數(shù)1方向區(qū)分明顯，說明第一判別函數(shù)的效果更好，故可以使用第一判別函數(shù)對(duì)塑料拖鞋鞋底進(jìn)行分類預(yù)測。經(jīng)交叉驗(yàn)證后，模型的準(zhǔn)確率為97.7%，效果較好。

2.5 RBFNN

為消除樣本間的量綱關(guān)系，首先對(duì)已經(jīng)降維的3個(gè)主成分進(jìn)行標(biāo)準(zhǔn)化，將分組作為因變量，將43個(gè)樣品以80%和20%的比例隨機(jī)分配分成訓(xùn)練集和測試集以避免人工分類的誤差。輸入層神經(jīng)元為3，輸出層神經(jīng)元為3，隱含層設(shè)置為10，激活函數(shù)為Softmax，訓(xùn)練次數(shù)為3 000。各節(jié)點(diǎn)間線段的粗細(xì)表示神經(jīng)元之間相互連接的權(quán)重的大小，權(quán)重由輸入層的3個(gè)主成分訓(xùn)練得出。RBFNN結(jié)構(gòu)圖見圖4，繪制的操作特性曲線見圖5。

圖4 RBFNN結(jié)構(gòu)示意圖

圖5 模型操作特性曲線曲線

操作特性曲線又稱受試工作特征曲線[18]，用以驗(yàn)證某分類器模型性能。對(duì)于給出的模型，輸入正負(fù)類的一組數(shù)據(jù)，與待測模型對(duì)數(shù)據(jù)的預(yù)測進(jìn)行比對(duì)，從而對(duì)模型性能進(jìn)行評(píng)估。操作特性曲線的線下面積(AUC)是操作特性曲線的量化指標(biāo)，AUC越大，分類效果越好。由圖5可以得出，4組樣品的AUC均為1，診斷準(zhǔn)確率高，誤判率低。測試集和訓(xùn)練集的準(zhǔn)確率為100%，證明可以在已知分類的樣品上建立RBFNN模型，對(duì)位置樣品的歸屬進(jìn)行預(yù)測。

3 結(jié)語

利用顯微共聚焦激光拉曼光譜儀對(duì)塑料拖鞋鞋底樣本進(jìn)行了區(qū)分檢驗(yàn)，根據(jù)樣本間的特征峰不同，可以實(shí)現(xiàn)對(duì)樣本的區(qū)分。建立了基于系統(tǒng)聚類的RBFNN-FDA模型，最終樣本被分為4組，且達(dá)到了對(duì)樣本100%和97.7%的分類準(zhǔn)確率。對(duì)于未知?dú)w屬的樣本，只需將其代入判別函數(shù)及神經(jīng)網(wǎng)絡(luò)中即可得知其分類。

未來可以通過搜集足夠多樣本建立起塑料拖鞋鞋底數(shù)據(jù)庫，通過大量反復(fù)訓(xùn)練使模型更加準(zhǔn)確可靠，從而實(shí)現(xiàn)更好的區(qū)分效果。所建立的模型可以可以為縮小偵查范圍、獲取偵查線索、打擊犯罪等提供一定幫助。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡