田師思,姜 紅*,齊恒慧,王一端,滿 吉
(1.中國人民公安大學(xué) 偵查學(xué)院,北京 100038;2.中國人民大學(xué) 統(tǒng)計學(xué)院,北京 100044;3.北京華儀宏盛技術(shù)有限公司,北京 100123)
隨著電腦的普及,人們的書寫習(xí)慣已經(jīng)逐漸由傳統(tǒng)的手寫轉(zhuǎn)變?yōu)榇蛴?、?fù)印。各種案件中打印或復(fù)印文件成為常出現(xiàn)的物證之一。通過對打印、復(fù)印墨粉成分進行分析,區(qū)分出不同品牌的墨粉,能為公安機關(guān)偵破案件提供有效線索[1]。
通常打印機所使用的墨粉是以荷電添加劑、染料、樹脂等成分為原料的復(fù)合產(chǎn)物[2]。不同的生產(chǎn)廠家采用不同的生產(chǎn)方式,使用不同的樹脂、染料、載體、荷電添加劑,導(dǎo)致不同品牌的墨粉在成分上存在差異,故可作為區(qū)分鑒別激光打印機打印文件的重要依據(jù)[3]。
目前,用來鑒別激光打印/復(fù)印墨粉成分的方法主要有喇曼光譜法[4]、掃描電鏡/能譜法[5]、紅外光譜技術(shù)[6]、裂解氣相色譜/質(zhì)譜連用(pyrolysis gas chromatography mass spectroscopy, Py-GC/MS)法[7]等。喇曼光譜法因其所需樣品量小而廣泛應(yīng)用于微量物證領(lǐng)域。但喇曼信號易受熒光干擾且靈敏度較低。在對有機化合物進行鑒定時,紅外光譜法優(yōu)勢顯著,但樣品制備較為復(fù)雜。掃描電鏡/能譜法作為聯(lián)用技術(shù),定性結(jié)果準確,但操作更為復(fù)雜。裂解氣相色譜/質(zhì)譜聯(lián)用法則比較耗時。而X射線熒光光譜法具有樣品制備簡單,操作便利,分析速度快,且能同時分析復(fù)雜樣本中多種元素的優(yōu)點。因其對輕元素的檢測具有局限性,目前對墨粉的檢測中大多用于測定墨粉中重金屬含量[8],將其應(yīng)用于法庭科學(xué)中不同品牌墨粉的鑒別則是一種較為新穎的思路。
聚類分析是通過比較各數(shù)據(jù)源的相似程度,并將數(shù)據(jù)源分類到不同的簇中。優(yōu)化k均值(powerk-means)聚類分析[9]針對普通k均值算法初值敏感進行優(yōu)化,既削弱了初值對聚類結(jié)果的干擾,同時提高了算法的高維度表現(xiàn),并且維度越高其優(yōu)勢更為明顯。
X-MET7000e能量散射型X射線熒光光譜儀(英國Oxford牛津儀器 ),Rh為陽極靶;電壓40kV,電流60μA。測試時間110s。
不同品牌、廠家的常見打印、復(fù)印墨粉樣本28個(樣品表略)。
測定最優(yōu)實驗時間為110s后進行重現(xiàn)性實驗,確證實驗在110s時具有良好的重現(xiàn)性,故以之為最優(yōu)測定時間。
使用脫脂棉蘸取酒精擦拭樣品盒后,依此將墨粉放入樣品盒中,封膜,測定。其結(jié)果見表1。
由表1可知,F(xiàn)e,Ti,Cr,Ca,Mn,Zn這6種元素幾乎存在于所有樣本中,而含有Co,Sn,Ba,Cu 4種元素的樣本數(shù)量則較少,故上述10種元素的有無對初步分類價值較低,但其含量可以作為進一步分組的依據(jù)。因此選用Sr和Ni兩種元素的有無對28種樣本進行初步分類,可劃分為4類,如表2所示。其中,“+”代表“含有”;“-”代表“不含”。
Table 1 The results of detection
Table 2 The classification results according to element composition
2.2.1 數(shù)據(jù)分析 1類的12個樣本,2類的7個樣本和3類的6個樣本單純依賴人工分析,難以準確地以12種元素含量為變量將其進一步分組,得到可靠的分組結(jié)果,故而采用R語言[10],先利用肘方法[11]確定出最優(yōu)簇的數(shù)目,再運用優(yōu)化k均值算法以1~3類樣本的12種可穩(wěn)定檢出的元素含量為變量分別進行聚類分析,獲得深入分組結(jié)果,最后采用矩積相關(guān)系數(shù)[12]驗證分組結(jié)果的可靠性。
2.2.2 最優(yōu)簇數(shù)目的確定 在實現(xiàn)聚類算法時需要預(yù)設(shè)一個k值,即將數(shù)據(jù)源分為k個類別,k值的確定影響整個算法。在k值接近于真實值時,誤差平方和(sum of squares due to error,SSE)的斜率會發(fā)生驟變,從而在圖像上形成一個“肘部”,該拐點即為真實的k值。其中SSE可以作為評價聚類結(jié)果好壞的標準[13]。
運用R語言來確定真實k值,以1類為例,如圖1所示。折線在簇的數(shù)目為2時由陡直變?yōu)槠骄?,故而可以確定k=2。依此方法依此可得2類、3類的k值亦為2。
Fig.1 The first group inflection point graph
2.2.3 優(yōu)化k均值聚類分析 經(jīng)典的k均值算法進行聚類分析時有著簡單高效的優(yōu)點[12],但是該種方法對初值十分敏感,倘若初值選擇不當,將會導(dǎo)致聚類結(jié)果無效。并且當數(shù)據(jù)維度非常高時,計算速度則會明顯下降。而優(yōu)化k均值聚類分析能夠提升高維度表現(xiàn)力并且弱化對初值的要求[14]。
經(jīng)典k均值算法是一種無監(jiān)督分類算法,使用貪心策略,多重迭代求得近似解。其目標函數(shù)如下式所示:
(1)
式中,k為簇的個數(shù),xi為第i個樣本點,θj為第j個簇心。每次迭代,通過最小化歐幾里得距離‖xi-θj‖將每個樣本點xi分配到指定簇Ci。k均值算法得到的聚類結(jié)果比較依賴于簇心的初始值選擇,如果初始化不好,則可能僅得到局部最優(yōu)解。
優(yōu)化k均值算法在形成簇心的過程中使用加權(quán)算法,其目標函數(shù)如下:
‖xi-θk‖2)
(2)
式中,s為控制系數(shù),Ms(y1,y2,…,yk)為借助連續(xù)且嚴格單調(diào)的指數(shù)函數(shù)g(y)取柯爾莫戈洛夫均值:
g(y)=ys
(3)
Ms(y1,y2,…,yk)=
(4)
具體聚類步驟如下:
(1)在樣本中隨機選取k個樣本點充當初始聚集各個簇的中心點,選擇控制系數(shù)s的值。
(2)通過距離,計算第i個樣本對第j個簇心的權(quán)重ωij,其中:
(5)
(3)計算完所有樣本點對所有簇心的權(quán)重后,更新新的第j個簇心θj,其中:
(6)
(4)反復(fù)迭代第(2)步和第(3)步直至收斂。
優(yōu)化k均值算法在保持了原k均值算法的簡潔和時間復(fù)雜性的同時,降低了對簇心初值的依賴性。
2.2.4 分組結(jié)果 借助肘方法獲得的k值,分別使用優(yōu)化k均值聚類分析對1~3類內(nèi)的樣本進一步分類,將每一大組又分別分為兩小組,共將28個樣本分為7組,分組結(jié)果如表3所示。
Table 3 The classification results of power k-means
2.3.1 聚類效果評估 為驗證分組結(jié)果的有效性,計算組內(nèi)數(shù)據(jù)的矩積相關(guān)系數(shù)。矩積相關(guān)系數(shù)用以描述兩個定距變量間聯(lián)系的緊密程度,當矩積相關(guān)系數(shù)越接近1時,表明兩個變量相關(guān)度越高。隨機抽取1#樣本,選取2-2組組內(nèi)樣本,各組內(nèi)抽取1個組間樣本,計算矩積相關(guān)系數(shù)。結(jié)果如表4所示,1#樣本與同一組內(nèi)的10#、23#樣本相關(guān)度均在0.001水平上呈顯著相關(guān)[15],與組間樣本的矩積相關(guān)系數(shù)小于組內(nèi)樣本,表明分組結(jié)果較為理想。
2.3.2 結(jié)果分析 聚類分析法分組結(jié)果中,3#、21#這兩個簡特美(JANTMY)的樣本均在2-1組,1#、23#這兩個冰彩(ICE COLOR)的樣本均在2-2組,穗彩(OAREN)、佳彩(JCS)、頤印(YI YIN)樣本亦與本品牌樣本歸為一類,沒有同一品牌的樣本被分為不同組。由此可知,上述5種品牌的打印、復(fù)印墨粉在元素的種類及含量上具備較強的同源性。領(lǐng)盛(LEDS)品牌的兩個樣本被分在不同組別中,可能由于產(chǎn)地不同所致。其余不同品牌的樣本,也可因墨粉元素含量的差異而被區(qū)別成若干組別。
Table 4 The correlation coefficient of sample 1#
以所含樣本數(shù)量最多的1-1組為例,根據(jù)Ti/Cr值的大小可以繼續(xù)劃分為3組,如表5所示。再以1-1-1組為例,24#樣本Ca/Mn值為12.20,28#樣本Ca/Mn值
Table 5 The classification results based on Ti/Cr
為1.99,差距較大,所以根據(jù)Ca/Mn值的大小能將組內(nèi)2種樣本區(qū)分開來。依照該方法,根據(jù)元素含量比值的差異可以分別將7組樣本繼續(xù)分組,能夠達到對打印、復(fù)印墨粉細化區(qū)分目的。
首先采用X射線熒光光譜法對墨粉樣本的金屬元素含量進行測定。而后依據(jù)元素成分的不同進行分類,又通過聚類分析法進一步分組,經(jīng)矩積系數(shù)驗證后證明,該分組方法科學(xué)有效,且分組后各組數(shù)據(jù)特征明顯,能夠達到一定程度上區(qū)分不同品牌打印、復(fù)印墨粉的目的。構(gòu)建了一種快速、無損對墨粉檢材進行鑒別的模型,分組效果理想,為司法鑒定墨粉物證提供了思路。