朱曉晗 胡越寧 何歆沂 黃國璽 姜 紅,* 陳敏璠
(1.中國人民公安大學(xué),北京,100038;2.北京鑒知技術(shù)有限公司,北京,100084)
作為許多家庭和公共場所中常用的飲水工具,一次性紙杯在各類案件現(xiàn)場都有可能會被提取到,為了使公安機(jī)關(guān)明確此類物證的偵破方向,通過對一次性紙杯進(jìn)行拉曼光譜(RAMAN)檢驗(yàn)和化學(xué)計(jì)量分析,根據(jù)各個(gè)紙杯的拉曼特征峰進(jìn)而推測一次性紙杯的品牌、來源等相關(guān)信息。常見的一次性紙杯內(nèi)壁主要淋膜食品級聚乙烯(PE)薄膜,用來隔水等用途[1-2]。生產(chǎn)廠家在一次性紙杯生產(chǎn)過程中,為了降低生產(chǎn)成本,滿足盛裝熱水、冷水等不同需求,不同品牌、不同用途的一次性紙杯所使用的原料種類與配比存在差異,這就為一次性紙杯的拉曼光譜檢驗(yàn)區(qū)分提供可能。
為了使拉曼光譜檢驗(yàn)一次性紙杯實(shí)驗(yàn)的分類結(jié)果更加科學(xué)合理,對樣本拉曼光譜數(shù)據(jù)進(jìn)行降維處理,選擇主成分分析法,保留了一次性紙杯拉曼光譜數(shù)據(jù)的大部分信息。本研究以主成分分析法指定提取的因子作為變量進(jìn)行層次聚類和K-Means快速聚類,對27個(gè)不同品牌、不通用途的一次性紙杯進(jìn)行分類,利用Fisher 判別分析法、聚類方法之間相互驗(yàn)證,在得到最佳聚類數(shù)的同時(shí)可直觀看出樣本各類別的類中心在判別分析圖中的位置關(guān)系,實(shí)現(xiàn)對未知樣本的類別判斷,進(jìn)而判斷未知樣本的品牌、來源等信息,該方法可為公安機(jī)關(guān)檢驗(yàn)此類物證提供借鑒[3-5]。
1.1實(shí)驗(yàn)儀器及條件
RT2000 便捷式拉曼光譜儀(北京鑒知技術(shù)有限公司),實(shí)驗(yàn)條件見表1。
表1 拉曼光譜實(shí)驗(yàn)條件
1.2實(shí)驗(yàn)樣本
不同品牌不同用途的一次性紙杯樣本27 個(gè)(見表2),分別編號為1#~27#。
表2 一次性紙杯樣本表
1.3拉曼光譜分析
拉曼光譜(RAMAN)作為一種散射光譜,通過與入射光頻率不同的散射光譜進(jìn)行分析,進(jìn)而得到所測樣本分子振動(dòng)、轉(zhuǎn)動(dòng)方面信息,并應(yīng)用于分子結(jié)構(gòu)研究的一種快速無損簡便的分析方法[6-7]。本實(shí)驗(yàn)利用拉曼光譜法檢測一次性紙杯樣本內(nèi)壁上的平整部分,用指定拉曼光譜檢測儀對此處進(jìn)行數(shù)據(jù)采集,記錄樣本檢測數(shù)據(jù)與拉曼光譜圖。
1.4因子分析數(shù)學(xué)模型
因子分析的核心是用較少的互相獨(dú)立的因子反映原有變量的絕大部分信息。本研究使用因子分析中的主成分分析法對拉曼光譜數(shù)據(jù)進(jìn)行降維處理,將大量變量減少為3 個(gè)變量。設(shè)有k個(gè)原有變量x1、x2、x3,…,xk,且每個(gè)變量(經(jīng)標(biāo)準(zhǔn)化處理后)的均值均為0,標(biāo)準(zhǔn)差為1。現(xiàn)將每個(gè)原有變量用h(h<k)個(gè)因子f1、f2、f3,…,fh(標(biāo)準(zhǔn)化值)的線性組合來表示,見式(1)。
式(1)為因子分析的數(shù)學(xué)模型,也可以用矩陣的形式表示見式(2)。
式中,F(xiàn)為因子,由于出現(xiàn)在每個(gè)原有變量的線性表達(dá)式中,因此又稱公共因子,fj(j=1,2,…,k)彼此不相關(guān);A稱為因子載荷矩陣;aij(i=1,2,…,p;j=1,2,…,k)稱為載荷因子,是第i個(gè)原有變量在第j個(gè)因子上的載荷;ε稱為特殊因子,表示原有變量不能被因子解釋的部分,其均值為0,獨(dú)立于fj(j=1,2,…,k)。
1.5層次聚類
SPSS 數(shù)據(jù)處理軟件在層次聚類分析中,需要計(jì)算的是個(gè)體間的“親疏程度”,根據(jù)個(gè)體間相似度和差異性對其進(jìn)行測量。實(shí)驗(yàn)中使用平方歐式距離(SEUCLID)作為層次聚類計(jì)算方式,其數(shù)學(xué)表達(dá)式見式(3)。式中,xi是個(gè)體x的第i個(gè)變量的變量值;yi是個(gè)體y的第i個(gè)變量的變量值。
1.6K-Means聚類分析
K-Means 聚類分析是將數(shù)據(jù)看成p維空間上的點(diǎn),以距離作為測度個(gè)體“親疏程度”的指標(biāo),并以犧牲多個(gè)解為代價(jià)換得高執(zhí)行效率。首先,指定聚類數(shù)目K,再確定K個(gè)初始類中心點(diǎn),根據(jù)距離最近原則進(jìn)行分類,接著重新確定K個(gè)類中心點(diǎn),并判斷是否已經(jīng)滿足終止聚類的條件,如滿足,則終止聚類[8-10]。
2.1拉曼光譜分析
根據(jù)27 個(gè)一次性紙杯拉曼譜圖(見圖1)發(fā)現(xiàn),27 個(gè)紙杯樣本均在1059、1125、1288 和1429 cm-1處出現(xiàn)特征峰,經(jīng)分析,該特征峰與聚乙烯(PE)的特征峰分別對應(yīng),可確定所檢驗(yàn)一次性紙杯淋膜的主要成分為PE[11-12]。由于不同品牌不同用途一次性紙杯的拉曼譜圖中特征峰的峰位置和峰強(qiáng)度存在差異,因此可以對其進(jìn)行區(qū)分。如“妙潔”紙杯樣本在1380 cm-1和1439 cm-1處有特征峰,而“清清美”紙杯樣本沒有,因此可以將二者分開。
圖1 27個(gè)一次性紙杯樣本拉曼譜圖比較
2.2拉曼數(shù)據(jù)主成分分析
在進(jìn)行拉曼光譜分析時(shí),由于拉曼數(shù)據(jù)信息量龐大,存在信息重疊等問題,使得分析結(jié)果出現(xiàn)偏差,因此常常使用降維手段對數(shù)據(jù)進(jìn)行處理,減少數(shù)據(jù)維數(shù)。主成分分析是一種常見的降維方法,在保留原數(shù)據(jù)主要信息的前提下,將多變量問題處理成一組新的相互無關(guān)的少數(shù)綜合變量的問題,可以有效降低多個(gè)變量之間的信息重疊,提高分析結(jié)果的準(zhǔn)確度。
因子fj方差貢獻(xiàn)的數(shù)學(xué)定義見式(4)。
式(4)表明,因子fj的方差貢獻(xiàn)是因子載荷矩陣A中第j列元素的平方和。因子fj的方差貢獻(xiàn)反映了因子fj對原有變量總方差的解釋能力??偡讲罱忉屢姳?,該值越大說明相對應(yīng)的因子越重要。
表3 總方差解釋
前k個(gè)因子的累計(jì)方差貢獻(xiàn)率定義為式(5),其中,λj代表相關(guān)系數(shù)矩陣特征值,p代表原有p個(gè)變量的總方差。
在表3 中,因子1 的方差貢獻(xiàn)為1681.91,解釋原有變量總方差的84.10% ,累計(jì)方差貢獻(xiàn)率為84.10% ;其他數(shù)據(jù)含義類推。由表3 可知,指定提取3 個(gè)因子,3 個(gè)因子共解釋了原有變量的99.09% ??傮w上,原有變量的信息丟失較少,因子分析結(jié)果較理想。
2.3基于SPSS分析軟件的聚類分析
2.3.1層次聚類和K-Means快速聚類
為了實(shí)現(xiàn)對樣本的分類研究,確保分類結(jié)果的合理性,利用SPSS 分析軟件對主成分分析法降維后的樣本數(shù)據(jù)進(jìn)行層次聚類與K-Means快速聚類分析。利用層次聚類中的凝聚方式聚類,首先,每個(gè)觀測個(gè)體自成一類,再按照某種方法度量所有個(gè)體間的“親疏程度”,并將其中最“親密”的個(gè)體聚成一小類,形成n-1 個(gè)類,然后再次度量剩余觀測個(gè)體和小類間的“親疏程度”,并將當(dāng)前最親密的個(gè)體或小類再聚成一類,重復(fù)上述過程,不斷將所有個(gè)體和小類聚集成越來越大的類,直至所有個(gè)體聚到一起,形成一個(gè)巨大的類為止。K-Means 快速聚類是一個(gè)反復(fù)迭代的過程,在聚類過程中,觀測所屬的類不斷調(diào)整,直至最終達(dá)到穩(wěn)定為止。
層次聚類結(jié)果表明,在并類距離為1時(shí),27個(gè)一次性紙杯樣本被分為8 類。K-Means 聚類分析法證明了層次聚類結(jié)果的合理性。表4 顯示了K-Means 聚類分析后,8 類變量中心點(diǎn)每次迭代時(shí)的偏移情況。共經(jīng)歷3 次迭代。第3 次迭代后,8 類中心點(diǎn)偏移量均小于指定的判別標(biāo)準(zhǔn)0.02,聚類結(jié)束。
表4 迭代歷史記錄
表5顯示了8類變量最終聚類中心點(diǎn)的情況。8個(gè)最終類中心點(diǎn)的數(shù)據(jù)分別為(-0.91,2.23,-1.65)(4.02,1.37,1.92)(-0.19,2.85,-0.59)(-1.21,-1.02,-1.99)(1.15,0.39,1.19)(-0.39,-0.54,-0.98)(0.29,-0.17,0.63)(-0.45,-0.58,-0.03),這些中心點(diǎn)的數(shù)據(jù)展示了每一類樣本在因子1、2、3下的最終聚類中心。
表5 K-Means算法最終聚類中心
2.3.2Fisher判別分析
為了驗(yàn)證層次聚類和K-Means 快速聚類的準(zhǔn)確合理性,對數(shù)據(jù)進(jìn)行Fisher 判別分析,得到了8 類樣本在所建立的分類函數(shù)上的判別分析圖。判別分析是一種經(jīng)典的多元統(tǒng)計(jì)分析方法,用于對分類型變量取值的分析。Fisher 判別分析是先投影再判別,投影是其核心。所謂投影,是將原來p維X空間的觀測點(diǎn)投影到m(m≤p)維Y空間中(這里的Y空間稱為Fisher判別空間)。圖2為8類樣本類中心在Fisher 判別分析圖中的位置分布情況。由圖2 可知,相比函數(shù)2 判別軸,函數(shù)1判別軸對各類別的區(qū)分情況更加明顯,如果想?yún)^(qū)分未知變量,只需要輸入相應(yīng)位置,在圖中會顯示出新數(shù)據(jù)的位置,就能區(qū)別新數(shù)據(jù)是哪一類別。8 個(gè)類別中心很明顯地彼此區(qū)別開且各類別觀測點(diǎn)分布相對比較集中,從而驗(yàn)證了將27個(gè)樣本分為8類較為準(zhǔn)確合理。
圖2 Fisher判別分析圖
以上聚類分析方法將27個(gè)一次性紙杯樣本分為8類,所有一次性紙杯樣本的分類結(jié)果見表6。其中,第1類樣本數(shù)量最大,樣本普遍為源自北京的中等體積(高度8~9 cm,杯口直徑7~8 cm)的熱飲杯;第3類樣本數(shù)量為7 個(gè),樣本普遍為中等體積(高度8~9 cm,杯口直徑7~8 cm)的紙杯;第4 類樣本為冷飲杯;第5類樣本為統(tǒng)一高度9.3 cm、杯口直徑8 cm的紙杯;第6 類樣本為較大體積(高度10.5 cm 以上)的熱飲杯??梢?,每類樣本的用途和大小不盡相同,據(jù)此,根據(jù)未知樣本碎片的拉曼光譜檢測結(jié)果可對其進(jìn)行歸類研究,進(jìn)而推斷未知樣本的品源和來源信息。
表6 一次性紙杯分類結(jié)果
本實(shí)驗(yàn)利用拉曼光譜儀結(jié)合化學(xué)計(jì)量學(xué)對27 個(gè)不同品牌、不同用途的一次性紙杯樣本進(jìn)行檢驗(yàn)研究。采用主成分分析和聚類方法對拉曼光譜數(shù)據(jù)進(jìn)行處理,對紙杯進(jìn)行聚類。
3.1拉曼光譜結(jié)果表明,所得27 個(gè)一次性紙杯樣本拉曼光譜圖中,樣本均在1059、1125、1288 和1429 cm-1處出現(xiàn)特征峰,表明樣本內(nèi)壁所測薄膜主要成分為聚乙烯(PE)。通過拉曼光譜特征峰峰位置和峰強(qiáng)度的不同,可以達(dá)到區(qū)分一次性紙杯檢驗(yàn)的目的。
3.2為減少進(jìn)行聚類分析時(shí)所用變量,對拉曼光譜數(shù)據(jù)進(jìn)行主成分分析,指定提取3個(gè)因子,累計(jì)貢獻(xiàn)率達(dá)到99.09% ,在減少變量的同時(shí),保存了大量信息。
3.3以指定提取的3 個(gè)因子作為變量進(jìn)行層次聚類和K-Means 快速聚類分析,將27 個(gè)紙杯樣本聚成了8類,并對K-Means 算法下8 類變量最終聚類中心點(diǎn)位置進(jìn)行描述。根據(jù)未知一次性紙杯樣本碎片的拉曼光譜檢測結(jié)果可對其進(jìn)行歸類研究,進(jìn)而推斷未知樣本的品牌和來源等信息。
3.4在Fisher判別分析中,將8類變量的類中心位置在判別分析圖中進(jìn)行描繪,8 類變量的類中心可以很好地區(qū)分開且各類別觀測點(diǎn)分布相對比較集中,證明了聚類結(jié)果的科學(xué)合理性。