陳壯,姜紅
基于因子分析和系統(tǒng)聚類的一次性紙杯XRF分析
陳壯1,姜紅2*
(1.甘肅政法大學(xué) 司法警察學(xué)院(公安分院),蘭州 730070; 2.中國人民公安大學(xué) 偵查學(xué)院,北京 100038)
構(gòu)建一次性紙杯物證分類新方法。利用X射線熒光光譜法(X-ray fluorescence spectrometry,XRF)對31個(gè)不同公司的一次性紙杯樣品進(jìn)行檢驗(yàn),并利用因子分析法確定光譜數(shù)據(jù)的2個(gè)主因子,2個(gè)主因子包含原始光譜數(shù)據(jù)79.209%的信息;利用2個(gè)主因子分別建立4個(gè)因子分析模型和因子得分函數(shù),計(jì)算因子得分,用因子得分代替原始數(shù)據(jù)進(jìn)行系統(tǒng)聚類;最后利用Fisher判別分析驗(yàn)證聚類結(jié)果的準(zhǔn)確性和合理性,并利用定性半定量分析法進(jìn)一步將一次性紙杯樣品進(jìn)行分類。將31個(gè)一次性紙杯樣品分成3類時(shí),同一公司的一次性紙杯樣品聚為一類,樣品的區(qū)分性較好,分類正確率為100%。利用X射線熒光光譜法、因子分析和系統(tǒng)聚類可實(shí)現(xiàn)一次性紙杯物證的無損、快速且有效的檢驗(yàn)和分類。
X射線熒光光譜法;因子分析;系統(tǒng)聚類;判別分析;一次性紙杯
一次性紙杯是犯罪現(xiàn)場常見的物證,構(gòu)建紙杯物證分類新方法將為基層公安工作帶來新的思路。離子色譜法、X射線熒光光譜法(X-ray fluorescence spectrometry, XRF)、近紅外光譜法等是檢驗(yàn)紙張常用的方法[1-3],部分方法存在有損、靈敏度低等不足。XRF是一種測定紙張所含元素種類及其含量的快速、無損且準(zhǔn)確的檢驗(yàn)方法。一次性紙杯的原材料為紙張,在再加工過程中會(huì)添加鈦白粉(TiO2)、碳酸鈣(CaCO3)等輔料,不同公司生產(chǎn)的一次性紙杯添加的輔料種類不同,使得一次性紙杯所含元素的種類及含量也不相同,這是檢驗(yàn)并區(qū)分一次性紙杯的前提。
在法庭科學(xué)領(lǐng)域內(nèi)對于XRF測定的光譜數(shù)據(jù)的分析處理,科研工作者通常直接對原始實(shí)驗(yàn)數(shù)據(jù)進(jìn)行聚類、K均值、多元統(tǒng)計(jì)分析、主成分分析等處理[4-5]。基于多個(gè)化學(xué)指標(biāo)變量的因子分析,采用聚類方法研究不同物證的分類尚未見報(bào)道。
這里采用X射線熒光光譜法對31個(gè)一次性紙杯樣品進(jìn)行檢驗(yàn),得到光譜數(shù)據(jù),依據(jù)樣品中元素的種類和含量的不同,利用因子分析法確定主因子,建立因子分析模型,計(jì)算因子得分,并進(jìn)行系統(tǒng)聚類,最后驗(yàn)證一次性紙杯分類的準(zhǔn)確性,利用定性半定量分析法進(jìn)一步將一次性紙杯樣品進(jìn)行分類。文中構(gòu)建了一種一次性紙杯物證分類新方法,擬為公安機(jī)關(guān)偵查破案提供新途徑。
因子分析和主成分分析都是化學(xué)計(jì)量分析方法之一,二者有區(qū)別。主成分分析是將過多變量指標(biāo)綜合為少數(shù)幾個(gè)概括性的新指標(biāo),以便對原始目標(biāo)進(jìn)行解釋的一種降維方法。因子分析是主成分分析的延伸和推廣,其基本思想是通過探究眾多變量間協(xié)方差矩陣的內(nèi)部疏密關(guān)系[6],提取具有代表性且能綜合所有變量信息的主因子,以便減少變量的數(shù)目,再現(xiàn)原始變量與因子之間的線性關(guān)系,并用主因子代替所有變量去分析整個(gè)問題[7]。
設(shè)若干樣本、個(gè)變量指標(biāo)為隨機(jī)向量,=(1,2, …,X)T,主因子=(1,2, …,F)T,則因子分析模型[8]見式(1)—(3)。
……
式中:a為因子載荷,矩陣=(a),即因子載荷矩陣;為特殊因子。因子載荷反映變量X依賴主因子F的程度,即第變量X對于第主因子F的重要性,因子載荷通過方差最大正交旋轉(zhuǎn),得到新的因子載荷矩陣,使得因子分析模型更為合理[9]。
因子通常包括很多個(gè)子項(xiàng),因子得分指這些子項(xiàng)按照一定的加權(quán)規(guī)則計(jì)算出來的數(shù)值,因子得分可以進(jìn)一步對樣本進(jìn)行比較[10]。由因子分析模型導(dǎo)出因子得分函數(shù),見式(4)。
系統(tǒng)聚類是一門多元統(tǒng)計(jì)分類法?;舅枷耄簩⒚總€(gè)樣品各看成一類,規(guī)定類與類之間的歐式距離,將最靠近的樣品合并為新的一類,再將已聚合的新類和其他類按類間距離再合并,重復(fù)上述步驟,直至將所有的子類合為一類[12]。這里選擇系統(tǒng)聚類中的最遠(yuǎn)鄰元素法對因子得分進(jìn)行聚類。
判別分析是在聚類結(jié)果已明晰時(shí),基于判別準(zhǔn)則,建立判別函數(shù),根據(jù)研究對象的特征值判別其歸屬于哪一組的統(tǒng)計(jì)判別和分組技術(shù)[13]。這里利用Fisher判別分析[14]驗(yàn)證基于因子得分的一次性紙杯樣品系統(tǒng)聚類結(jié)果的準(zhǔn)確性。
收集“味多美”“McDonald's”“西貝筱面村”等不同公司的一次性紙杯樣品共31個(gè),將其清潔干凈后分別編號(hào)。其中,3#、4#樣品來自同一公司(McDonald's),20#、21#、22#樣品來自同一公司(妙潔),24#、31#樣品來自同一公司。
主要儀器:X-MET8000能量色散型XRF光譜儀,牛津儀器。實(shí)驗(yàn)條件:電壓為40 kV,電流為50 μA,采樣時(shí)間為110 s[15]。
首先,利用實(shí)驗(yàn)儀器對31個(gè)一次性紙杯樣品進(jìn)行XRF檢驗(yàn),每個(gè)樣品的測定時(shí)間為110 s,分別測定3次,取平均值,將平均值作為樣品XRF光譜數(shù)據(jù)的最終測定結(jié)果。其次,利用SPSS Statistics 23.0軟件將31個(gè)樣品的XRF光譜數(shù)據(jù)分別進(jìn)行標(biāo)準(zhǔn)化分析、因子分析,再確定主因子,建立因子分析模型,計(jì)算因子得分,并依據(jù)因子得分進(jìn)行系統(tǒng)聚類。最后,對聚類結(jié)果進(jìn)行判別檢驗(yàn)。
檢驗(yàn)結(jié)果表明,31個(gè)一次性紙杯樣品所含的主要元素為Cl、Ca、Ti、Fe,且不同樣品所含元素的種類和含量各不相同,在光譜曲線圖中也有所差異,如圖1所示。20#、21#、22#樣品來自同一家公司(妙潔),其光譜曲線卻明顯不同。
圖1 20#、21#和22#的光譜曲線
利用SPSS Statistics 23.0軟件對光譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,利用KMO檢驗(yàn)和Bartlett球狀檢驗(yàn)對標(biāo)準(zhǔn)化處理后的光譜數(shù)據(jù)進(jìn)行因子分析的適用性檢驗(yàn)[16]。結(jié)果表明,KMO檢驗(yàn)值為0.666,Bartlett球狀檢驗(yàn)sig值為0.05。上述2項(xiàng)檢驗(yàn)結(jié)果表明,各元素變量之間具有相關(guān)性,因子分析有效,且適用性較好,可以得出較滿意的因子分析模型。
3.3.1 基于因子分析法確定主因子
對31個(gè)一次性紙杯樣品光譜數(shù)據(jù)中的元素變量進(jìn)行因子分析。利用因子分析法,將標(biāo)準(zhǔn)化后的實(shí)驗(yàn)數(shù)據(jù)中的Cl、Ca等4種元素變量降維,并進(jìn)行線性組合,得到4個(gè)因子。4個(gè)因子解釋了Cl、Ca、Ti、Fe等4種元素變量的全部信息,各因子的特征值和貢獻(xiàn)率如表1所示。在實(shí)際應(yīng)用中,往往取特征值大于1的因子為主因子。由表1可知,前2個(gè)因子的特征值大于1,包含了一次性紙杯中測定的Cl、Ca等4種元素變量79.209%的信息,具有一定的代表性,可以作為新的具有實(shí)際意義的一次性紙杯分類綜合指標(biāo)。
表1 各因子的特征值和貢獻(xiàn)率
Tab.1 Eigenvalue and contribution rate of each factor
3.3.2 建立因子分析模型及計(jì)算因子得分
經(jīng)標(biāo)準(zhǔn)化處理后,將光譜數(shù)據(jù)中Cl、Ca、Ti、Fe等4種元素的指標(biāo)分別設(shè)定為1、2、3、4,2個(gè)主因子分別設(shè)定為1和2。對初始因子載荷矩陣進(jìn)行最大方差旋轉(zhuǎn),并建立一次性紙杯分類指標(biāo)的因子分析模型,見式(5)—(8)。
由因子分析模型可知,第1個(gè)主因子1主要由Cl、Ca、Fe 3項(xiàng)指標(biāo)決定,這3項(xiàng)指標(biāo)除了4在主因子1上的載荷為79%以上,其余2項(xiàng)指標(biāo)在主因子1上的載荷均超過83%。第2個(gè)主因子2由Ti元素的變量指標(biāo)決定,且此項(xiàng)指標(biāo)在主因子2上的載荷超過98%。利用回歸方法求得因子得分系數(shù)矩陣[17],結(jié)果見表2。
表2 因子得分系數(shù)矩陣
Tab.2 Factor score coefficient matrix
根據(jù)表2,建立了因子得分函數(shù),見式(9)—(10)。
根據(jù)式(9)—(10)計(jì)算因子得分,結(jié)果見表3。
表3 因子得分匯總
Tab.3 Summary of factor scores
利用SPSS Statistics 23.0軟件,用2個(gè)主因子得分代替原始光譜數(shù)據(jù)作為新的變量進(jìn)行系統(tǒng)聚類,聚類結(jié)果如圖2所示。
圖2 31個(gè)一次性紙杯樣品的聚類分析結(jié)果
如果類間距離不同,則聚類結(jié)果不同。選擇合適的類間距離可將同一公司的一次性紙杯樣品聚為同一類。由圖2可知,當(dāng)類間距離為5時(shí),可將31個(gè)一次性紙杯樣品聚為3類,聚類結(jié)果見表4。
表4 在類間距離為5時(shí)一次性紙杯樣品的聚類結(jié)果
Tab.4 Clustering results of disposable paper cup samples when inter-class distance is 5
一次性紙杯作為一種紙容器,由化學(xué)木漿經(jīng)過機(jī)械加工、膠黏等一系列工藝制成。由于不同生產(chǎn)廠家的制造工藝不同,因此紙杯所含的元素和含量也不同。利用因子分析和系統(tǒng)聚類分析可以客觀地分析一次性紙杯的X射線熒光光譜數(shù)據(jù),將來自同一廠家的一次性紙杯樣品聚成一類。由表4可知,當(dāng)類間距離為5時(shí),來自“McDonald's”公司的一次性紙杯樣品(3#和4#樣品)被分在同一類別,來自“妙潔”公司的一次性紙杯樣品(20#、21#、22#樣品)被分在同一類別。由此可知,將31個(gè)一次性紙杯樣品聚為3類時(shí),部分公司所生產(chǎn)的一次性紙杯樣品的聚合性較好。
利用Fisher判別分析驗(yàn)證上述聚類結(jié)果的準(zhǔn)確性。當(dāng)類間距離為5時(shí),利用因子分析和系統(tǒng)聚類將31個(gè)一次性紙杯樣品分為3類。根據(jù)聚類結(jié)果,建立了2個(gè)判別函數(shù),判別函數(shù)的具體信息見表5。由表5可知,判別函數(shù)1和判別函數(shù)2的特征值的方差貢獻(xiàn)率分別為87.400%和12.600%,并且典型相關(guān)性分別為0.968、0.824,說明可以將2個(gè)判別函數(shù)作為判別一次性紙杯樣品系統(tǒng)聚類結(jié)果準(zhǔn)確性的依據(jù)。
表5 判別函數(shù)的具體信息
Tab.5 Discriminant function details
從一次性紙杯樣品的聚類結(jié)果可知,如果類間距離不同,則聚類數(shù)不同,進(jìn)而各類別樣品的組質(zhì)心在Fisher判別函數(shù)圖的分布情況也不相同。當(dāng)類間距離為5時(shí),一次性紙杯樣品被分成3類,各組質(zhì)心在Fisher判別函數(shù)的分布情況如圖3所示。由圖3可知,當(dāng)類間距離為5時(shí),各組質(zhì)心分散均勻,不同組間的樣品具有較強(qiáng)的區(qū)分性。
圖3 判別函數(shù)分布
利用Fisher判別函數(shù)模型對31個(gè)一次性紙杯樣品進(jìn)行原始分類驗(yàn)證和交叉分類驗(yàn)證。結(jié)果表明,當(dāng)31個(gè)一次性紙杯樣品被分為3類時(shí),原始分類的正確率為100%,交叉驗(yàn)證的正確率為96.8%,表明基于因子分析的聚類分析能正確地識(shí)別一次性紙杯樣品分類。
為了滿足公安機(jī)關(guān)獲取更多偵查信息的破案需求,可以利用定性半定量分析法對同類一次性紙杯樣品進(jìn)行區(qū)分。以類別3為例,依據(jù)是否含有Ti元素,將一次性紙杯樣品分成2類,進(jìn)一步分類結(jié)果如圖4所示。
圖4 類別3一次性紙杯樣品進(jìn)一步分類結(jié)果
利用X射線熒光光譜法對一次性紙杯中所含的元素及其含量進(jìn)行了檢驗(yàn),基于因子分析和系統(tǒng)聚類挖掘了各變量指標(biāo)之間的內(nèi)在關(guān)系,實(shí)現(xiàn)了一次性紙杯的光譜分析,構(gòu)建了一次性紙杯分類的新方法。同時(shí)建立了因子分析模型和因子得分函數(shù),分析了主因子與原始變量指標(biāo)間的線性關(guān)系,并且利用Fisher判別分析建立了判別函數(shù),驗(yàn)證了分類結(jié)果準(zhǔn)確性。結(jié)合公安機(jī)關(guān)偵查破案的實(shí)際需求,利用定性半定量法進(jìn)一步對一次性紙杯樣品進(jìn)行了分類。
今后應(yīng)著重研究一次性紙杯樣品量的擴(kuò)充、多種檢驗(yàn)方法的比較、數(shù)據(jù)處理方法的優(yōu)化、在公安機(jī)關(guān)的實(shí)際運(yùn)用等方面,進(jìn)一步推進(jìn)法庭科學(xué)領(lǐng)域內(nèi)紙張檢驗(yàn)鑒定的發(fā)展。
[1] 劉彤彤. 離子色譜法在紙張鑒別中的應(yīng)用[J]. 中國刑警學(xué)院學(xué)報(bào), 2021(4): 118-123.
LIU Tong-tong. Application of Ion Chromatography in Paper Identification[J]. Journal of Criminal Investigation Police University of China, 2021(4): 118-123.
[2] 李春宇, 劉金坤, 姜紅, 等. 基于支持向量機(jī)算法的X射線熒光光譜紙張灰燼識(shí)別研究[J]. 激光與光電子學(xué)進(jìn)展, 2021, 58(3): 358-364.
LI Chun-yu, LIU Jin-kun, JIANG Hong, et al. Identification of X-Ray Fluorescent Spectral Paper Ashes Based on Support Vector Machine Algorithm[J]. Laser & Optoelectronics Progress, 2021, 58(3): 358-364.
[3] 夏靜靜, 杜夏瑜, 閆紅, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的紙張年代紅外光譜分類建模方法研究[J]. 光譜學(xué)與光譜分析, 2020, 40(S1): 61-62.
XIA Jing-jing, DU Xia-yu, YAN Hong, et al. Research on Paper Age Classification Model Based on Convolutional Neural Network[J]. Spectroscopy and Spectral Analysis, 2020, 40(S1): 61-62.
[4] 姜紅, 鞠晨陽, 務(wù)瑞杰, 等. 聚類分析法的塑料飲料瓶光譜分析[J]. 紅外與激光工程, 2018, 47(8): 358-363.
JIANG Hong, JU Chen-yang, WU Rui-jie, et al. Spectral Analysis of Plastic Beverage Bottles Based on Cluster Analysis[J]. Infrared and Laser Engineering, 2018, 47(8): 358-363.
[5] 陳壯, 姜紅, 郝丁成, 等. 基于K-means和簇內(nèi)誤差平方和的塑料快遞包裝袋X射線熒光光譜檢驗(yàn)[J]. 激光與光電子學(xué)進(jìn)展, 2022, 59(11): 489-495.
CHEN Zhuang, JIANG Hong, HAO Ding-cheng, et al. X-Ray Fluorescence Spectral Inspection of Plastic Express Packaging Bags Based on K-Means and Within-Cluster Sum of Squared Errors[J]. Laser & Optoelectronics Progress, 2022, 59(11): 489-495.
[6] 孫德山. 主成分分析與因子分析關(guān)系探討及軟件實(shí)現(xiàn)[J]. 統(tǒng)計(jì)與決策, 2008(13): 153-155.
SUN De-shan. Discussion on the Relationship between Principal Component Analysis and Factor Analysis and Its Software Implementation[J]. Statistics & Decision, 2008(13): 153-155.
[7] 林海明, 張文霖. 主成分分析與因子分析的異同和SPSS軟件——兼與劉玉玫、盧紋岱等同志商榷[J]. 統(tǒng)計(jì)研究, 2005, 22(3): 65-69.
LIN Hai-ming, ZHANG Wen-lin. The Relationship between Principal Component Analysis and Factor Analysis and SPSS Software—To Discuss with Comrade Liu Yumei, Lu Wendai Etc[J]. Statistical Research, 2005, 22(3): 65-69.
[8] 林海明, 劉照德, 詹秋泉. 因子分析綜合評(píng)價(jià)應(yīng)該注意的問題[J]. 數(shù)理統(tǒng)計(jì)與管理, 2019, 38(6): 1037-1047.
LIN Hai-ming, LIU Zhao-de, ZHAN Qiu-quan. Issues that should be Noted on Factor Analysis for Comprehensive Evaluation[J]. Journal of Applied Statistics and Management, 2019, 38(6): 1037-1047.
[9] TSOULFIDIS L, ATHANASIADIS I. A New Method of Identifying Key Industries: A Principal Component Analysis[J]. Journal of Economic Structures, 2022, 11(1): 1-23.
[10] 趙慧琴, 石立, 劉金山, 等. SPSS軟件計(jì)算主成分分析的缺陷與糾正[J]. 統(tǒng)計(jì)與決策, 2020, 36(15): 56-59.
ZHAO Hui-qin, SHI Li, LIU Jin-shan, et al. Defects and Correction of Principal Component Analysis in SPSS Software Calculation[J]. Statistics & Decision, 2020, 36(15): 56-59.
[11] TEKLER D Z, LOW R, CHUNG Y S, et al. A Waste Management Behavioural Framework of Singapore's Food Manufacturing Industry Using Factor Analysis[J]. Procedia CIRP, 2019, 80: 578-583.
[12] 田兵. 系統(tǒng)聚類法及其應(yīng)用研究[J]. 陰山學(xué)刊(自然科學(xué)版), 2014, 28(2): 11-16.
TIAN Bing. Hierarchical Clustering Method and Its Research about Application[J]. Yinshan Academic Journal (Natural Science Edition), 2014, 28(2): 11-16.
[13] 劉曙, 張博, 閔紅, 等. X射線熒光光譜結(jié)合判別分析識(shí)別鐵礦石產(chǎn)地及品牌: 應(yīng)用拓展[J]. 光譜學(xué)與光譜分析, 2021, 41(1): 285-291.
LIU Shu, ZHANG Bo, MIN Hong, et al. X-Ray Fluorescence Spectroscopy Combined with Discriminant Analysis to Identify Imported Iron Ore Origin and Brand: Application Development[J]. Spectroscopy and Spectral Analysis, 2021, 41(1): 285-291.
[14] 朱曉晗, 姜紅, 崔傲松, 等. 基于Fisher判別分析的一次性塑料手套光譜鑒別[J]. 塑料工業(yè), 2020, 48(7): 108-112.
ZHU Xiao-han, JIANG Hong, CUI Ao-song, et al. Spectrum Identification of Disposable Plastic Gloves Based on Fisher Discriminant Analysis[J]. China Plastics Industry, 2020, 48(7): 108-112.
[15] 陳壯, 姜紅, 李春宇, 等. X射線熒光光譜法檢驗(yàn)一次性紙杯的研究[J]. 中華紙業(yè), 2018, 39(22): 32-36.
CHEN Zhuang, JIANG Hong, LI Chun-yu, et al. A Study on Disposable Paper Cups Tested by X-Ray Fluorescence Spectroscopy[J]. China Pulp & Paper Industry, 2018, 39(22): 32-36.
[16] 解坤, 張俊芳. 基于KMO-Bartlett典型風(fēng)速選取的PCA-WNN短期風(fēng)速預(yù)測[J]. 發(fā)電設(shè)備, 2017, 31(2): 86-91.
XIE Kun, ZHANG Jun-fang. Short-Term Wind Speed Forecasting Using PCA-WNN Based on KMO-Bartlett Typical Wind Speed Selection[J]. Power Equipment, 2017, 31(2): 86-91.
[17] BAUNACK S, OSWALD S. Application of Factor Analysis in Electron Spectrometry (AES, XPS) for Materials Science[J]. International Journal of Materials Research, 2022, 96(9): 972-982.
X-ray Fluorescence Spectrum Analysis of Disposable Paper Cups Based on Factor Analysis and Systematic Clustering
CHEN Zhuang1, JIANG Hong2*
(1. Judicial Police Academy (Public Security Branch),Gansu University of Political Science and Law, Lanzhou 730070, China; 2. School of Criminal Investigation, People's Public Security University of China, Beijing 100038, China)
The work aims to develop a new method for classifying paper cup evidences. Thirty-one disposable paper cups from different manufacturers were tested through X-ray fluorescence spectrometry. Meanwhile, for spectral data, two main factors containing 79.209% of the information of the original spectral data were determined by factor analysis. Four factor analysis models and factor score functions were established with the two main factors so as to calculate the factor score, and then the original data were replaced by factor scores for systematic clustering. Finally, Fisher's discriminant analysis was performed to verify the accuracy and reasonableness of the clustering results. When 31 disposable paper cup samples were divided into three categories, the disposable paper cup samples of the same company were grouped into one category. The samples had good discrimination, and the classification accuracy was 100%. By means of X-ray fluorescence spectrometry, factor analysis and systematic clustering, the nondestructive, rapid and effective inspections as well as classification of different paper cups can be achieved with accurate and reliable results.
X-ray fluorescence spectrometry; factor analysis; systematic clustering;discriminant analysis; disposable paper cup
TS7;TB99
A
1001-3563(2023)19-0217-06
10.19554/j.cnki.1001-3563.2023.19.028
2022-05-13
甘肅政法大學(xué)“引才專項(xiàng)項(xiàng)目”(gszf2020xyc004)
責(zé)任編輯:彭颋