倪曉鋒 張寅升 周亞 趙亞菊 郭芳婕 王姍姍 王海燕
摘要:市場上銷售的食用鹽品種繁多,主要以海鹽、井鹽、巖鹽和湖鹽為原料來源,而不同來源食用鹽的品質(zhì)和價格相差甚遠。該研究使用配備532 nm激光器的拉曼光譜儀,采集得到4種食用鹽樣品共80個原始拉曼光譜,采用主成分分析(PCA)和偏最小二乘(PLS)進行數(shù)據(jù)降維,Kennard-Stone(KS)算法將樣本按3∶1劃分為訓(xùn)練集與測試集后,結(jié)合K近鄰(KNN)、支持向量機(SVM)和BP神經(jīng)網(wǎng)絡(luò)(BPNN)3種分類器,對4種不同食用鹽的品種來源進行鑒別分析。結(jié)果表明,相較于原始光譜的分類模型對測試集的預(yù)測準確度在30%~50%和PCA的30%~40%之間,PLS-KNN、PLS-SVM和PLS-BPNN模型的預(yù)測準確度分別為90%、100%和100%。PLS降維后只需6個維度的信息即可保留原始變量信息解釋性98%以上,并且PLS-SVM在建模速度快的同時保留了較高的分類精度和穩(wěn)定性,為提高食用鹽產(chǎn)品品質(zhì)、改善評價標準和完善管理體系提供了技術(shù)支持。
關(guān)鍵詞:拉曼光譜;主成分分析;偏最小二乘;K近鄰;支持向量機;BP神經(jīng)網(wǎng)絡(luò)
中圖分類號:TS264.2? ? ? 文獻標志碼:A? ? ?文章編號:1000-9973(2023)05-0183-06
Abstract: There are many kinds of edible salt sold on the market, mainly from sea salt, well salt, rock salt and lake salt, but the quality and price of edible salt from different sources vary greatly. In this study, Raman spectrometer equipped with a 532 nm laser is used to collect a total of 80 original Raman spectra from four edible salt samples. Principal component analysis (PCA) and partial least squares (PLS) are used to reduce the dimension of data. After the samples are divided into training set and testing set by 3∶1 using Kennard-Stone (KS) algorithm, combined with three classifiers, K-nearest neighbor (KNN), support vector machine (SVM) and BP neural network (BPNN), the sources of four different edible salt varieties are identified and analyzed. The results show that the prediction accuracy for the testing set of PLS-KNN, PLS-SVM and PLS-BPNN models is 90%, 100% and 100% respectively, compared with the prediction accuracy of original spectral classification model of 30%~50% and PCA of 30%~40%. After PLS dimension reduction, only six dimensions of information can retain more than 98% of the original variable information interpretability, and PLS-SVM maintains high classification accuracy and stability while maintaining high modeling speed, which has provided technical support for improving the quality of edible salt products, improving evaluation standards and perfecting the management system.
Key words: Raman spectroscopy; PCA; partial least squares; K-nearest neighbor; support vector machine; BP neural network
收稿日期:2022-12-28
基金項目:國家自然科學(xué)基金資助項目(91746202,61806177);浙江省自然科學(xué)基金資助項目(LQ20C200004)
作者簡介:倪曉鋒(1987—),男,講師,博士,研究方向:快速檢測與模式識別。
*通信作者:王海燕(1968—),女,教授,博士,研究方向:質(zhì)量可靠性與質(zhì)量控制。
食用鹽在我國有著悠久的發(fā)展歷史,是僅次于糧食的生活必需品,在經(jīng)濟體制改革的大背景下,食用鹽市場活力得到進一步激發(fā),品牌間的競爭日益激烈。品種鹽不斷增加,細分市場開始出現(xiàn),海鹽、巖鹽、湖鹽、井鹽等不同來源的鹽逐漸占據(jù)市場,低鈉鹽、營養(yǎng)強化鹽、海藻鹽等健康鹽豐富了食用鹽市場,滿足了消費者的需求。然而,隨著品類的不斷細分,鹽的價格也參差不齊,有的甚至相差幾十倍,在利益的驅(qū)使下,產(chǎn)品質(zhì)量難免出現(xiàn)差異,摻假問題逐漸顯現(xiàn)。因此,加強食用鹽的質(zhì)量監(jiān)管顯得尤為重要。
由于拉曼光譜技術(shù)無需樣品制備,樣品可直接通過光纖探頭或通過玻璃、石英和光纖測量,能提供快速、簡單、可重復(fù)且無損傷的定性定量分析,所以其在快速檢測領(lǐng)域得到了大量的實踐應(yīng)用[1-3]。拉曼光譜是一種能夠反映化合物化學(xué)鍵構(gòu)成的分析手段,但是分子振動相對復(fù)雜,并不能非常準確地將所有的譜峰進行歸類,僅靠拉曼光譜的譜圖信息并不能非常準確地判斷化合物的結(jié)構(gòu)組成。模式識別是一種利用計算機技術(shù),根據(jù)各樣品間的距離或距離函數(shù)對樣品進行聚類、分類和判別的多變量數(shù)值分析方法[4-6]。將拉曼光譜與模式識別相結(jié)合是一種行之有效的提高分析鑒別能力的分析手段。
本研究利用拉曼光譜分析技術(shù)對不同品種來源的食用鹽進行檢測,將海鹽、井鹽、巖鹽和湖鹽樣本作為實驗對象,采集原始光譜數(shù)據(jù),采用PCA和PLS進行數(shù)據(jù)降維,最后以原始全波段光譜變量、PCA變量和PLS變量作為KNN、SVM和BPNN建模輸入進行食用鹽品種來源的鑒別。
1 實驗部分
1.1 樣品
實驗共收集不同品種來源的食用鹽共40個樣品,選自市售的海鹽、井鹽、巖鹽和湖鹽各5個樣品,2個批次,每批次采集2個點的數(shù)據(jù),共采集80個拉曼光譜數(shù)據(jù)。樣品經(jīng)粉碎機粉碎后裝入塑封袋中保存,進行圖譜采集前取適量樣品置于潔凈透明的載玻片上,將樣品壓平待檢。
1.2 儀器設(shè)備與方法
DXR 2xi顯微拉曼成像光譜儀(美國Thermo Fisher Scientific公司),配備有532 nm激光器。儀器參數(shù)設(shè)置:激光功率為10 mW,曝光時間內(nèi)1 s,掃描次數(shù)為500,共采集80組拉曼光譜數(shù)據(jù),每組數(shù)據(jù)拉曼位移范圍在100~3 000 cm-1。
1.3 數(shù)據(jù)降維
PCA是一種經(jīng)典的數(shù)據(jù)降維方法,它可以將多指標數(shù)據(jù)降低到較低維度,同時能夠最大程度地反映原始數(shù)據(jù)的相關(guān)信息[7-8]。相比于PCA的無監(jiān)督降維,PLS作為一種有監(jiān)督學(xué)習(xí)方法,在主成分分析的基礎(chǔ)上與多元線性分析相結(jié)合,PLS降維在提取主成分的同時不僅要最大程度地概括輸入變量的相關(guān)信息,還要使這些信息與輸出變量的相關(guān)系數(shù)達到最大[9]。本研究獲得的食用鹽拉曼光譜中變量數(shù)為1 505個,維度較高,因此通過PCA和PLS降維,使降維后的變量保留原始變量99%以上的貢獻率,便于構(gòu)建分類模型,降低模型的復(fù)雜度。
1.4 樣本劃分
在進行訓(xùn)練集與測試集樣本劃分時,劃分的數(shù)據(jù)需要有一定的代表性,從而使樣本數(shù)據(jù)得到合理的分配,形成的模型具有較好的穩(wěn)定性。KS算法是基于樣品間的歐氏距離,將距離最遠的兩個樣本作為初始訓(xùn)練集,然后計算剩余樣品與已選樣品之間的距離,將最遠以及最近兩個樣本選入訓(xùn)練集,重復(fù)上述步驟直到樣本數(shù)量達到要求,該方法所選的訓(xùn)練集樣本分布均勻[10]。本研究共4類食用鹽樣本,每個類別包含20個拉曼光譜數(shù)據(jù),利用KS算法將每個類別中75%的光譜數(shù)據(jù)共計60個用于訓(xùn)練集構(gòu)建分類模型,剩余的20個光譜數(shù)據(jù)用于測試集檢驗?zāi)P头诸惖臏蚀_度。
1.5 建模方法
本研究使用Matlab R2021b進行拉曼光譜數(shù)據(jù)分析和建模,拉曼譜圖為100~3 000 cm-1范圍段的數(shù)據(jù),將全譜數(shù)據(jù)、PCA降維數(shù)據(jù)和PLS降維數(shù)據(jù)作為輸入,結(jié)合KNN、SVM和BPNN 3種分類器建立相應(yīng)的分類模型,采用預(yù)測集分類準確率來評價模型效果。
2 結(jié)果與分析
2.1 拉曼光譜分析
不同品種來源食用鹽的拉曼光譜見圖1。
由圖1中a可知,海鹽相比井鹽、巖鹽和湖鹽并沒有明顯的特征峰。由圖1中b可知,井鹽拉曼譜圖中,1 008 cm-1出現(xiàn)特征峰,由硫酸鈣中的S-O對稱伸縮振動引起,可能與井鹽鹵水中存在的硫酸鈣有關(guān)[11]。趙忠光[12]報道硫酸鹽溶液的拉曼光譜有4個位置的特征峰,分別是450,610 cm-1附近的O-S-O鍵彎曲振動,980 cm-1附近的S-O對稱伸縮振動和1 100 cm-1附近的S-O反對稱伸縮振動,其中980 cm-1處的振動最明顯。由圖1中c可知,巖鹽的拉曼光譜在990 cm-1附近出現(xiàn)的特征峰與鹽中的一些硫酸鹽礦物相關(guān),1 018 cm-1特征峰與Si-O的反對稱伸縮振動有關(guān),可能存在一定的硅酸鹽礦物[13]。由圖1中d可知,湖鹽的拉曼光譜在1 008,1 048 cm-1附近分別出現(xiàn)了硫酸鈣S-O對稱伸縮振動和硝酸鈉N-O對稱伸縮振動的特征峰[14]。
由于一些礦物元素在樣品中的分布并不均勻,因此在實際的檢測中發(fā)現(xiàn)不同品種來源的食用鹽的特征峰信息有時候并不是非常明顯,而要想達到快速檢測的目的,需要對拉曼光譜的全譜數(shù)據(jù)進行建模。
2.2 數(shù)據(jù)降維
原始拉曼光譜數(shù)據(jù)維度較高,其中存在很多的冗余特征,這些冗余特征不僅對分類的準確率產(chǎn)生影響,而且會增加分類模型的計算資源消耗,降低分類的效率,因此需要對原始拉曼光譜數(shù)據(jù)進行降維。PCA和PLS是基于數(shù)學(xué)變換的降維方法,可以將高維空間的特征映射到低維空間,用映射后的變量特征表示原有的總體特征。本文利用PCA和PLS對4種食用鹽的拉曼光譜進行降維,提取前3個主成分進行可視化,見圖2和圖3。
由圖2中a可知,4種食用鹽在進行PCA降維后,在前3個主成分構(gòu)成的三維空間中不能形成很好的同源聚類效果,圖2中b為主成分對光譜變量的累計貢獻率,前3個主成分的貢獻率為22%,并不能較好地解析原始光譜的主要信息,當累計貢獻率超過99%時,所需的主成分數(shù)為75個。與PCA相比,PLS降維的三維空間中4種食用鹽各自聚焦,并且在分離性上可以進行較好的劃分(見圖3中a),降維后的前3個主成分累計貢獻率超過91%,前6個主成分超過99%(見圖3中b),在大大降低數(shù)據(jù)維度的同時很好地保留了原始光譜的有用變量信息。
2.3 分類模型建立
分別利用降維后的數(shù)據(jù)構(gòu)建KNN、多分類SVM和BPNN模型,其中PCA選取前75個主成分,PLS選取前6個主成分,將劃分的訓(xùn)練集用于構(gòu)建對應(yīng)的模型,為了對比研究,同時建立了基于原始光譜1 505維數(shù)據(jù)的分類模型。
KNN即每個樣本與它距離最近的K個樣本,一般通過計算其與所有已知樣本的歐氏距離來確定,是數(shù)據(jù)分類技術(shù)中較簡單的方法,在小樣本、多分類問題上有著較好的分類效率和泛化能力。KNN算法的過程是在一些已經(jīng)樣本標簽的空間中,當未知樣本出現(xiàn)時,找到與之歐氏距離最近的K個鄰近樣本,這K個樣本多數(shù)所屬的那一類別即為該未知樣本屬于的類別,因此K值的選擇對于KNN算法的分類準確率有著重要的影響[15-16]。K值選擇與預(yù)測準確率的變化情況見圖4,分別確定全光譜、PCA和PLS的K值為8,6和6。
由表1和圖5可知,基于全光譜和PCA建立的KNN分類模型中測試集的準確率分別為50%和35%,分別出現(xiàn)了10,13個誤分類,說明模型的預(yù)測能力和穩(wěn)定性較差,而基于PLS降維建立的KNN模型,測試集的準確率為90%,誤分類2個,相較前兩個分類模型有明顯的提高,表明PLS降維可以很好地降低原始光譜數(shù)據(jù)的維度,減小模型的復(fù)雜性,提高測試的準確率。
SVM是一類對數(shù)據(jù)進行二分類的線性分類器,其決策邊界是構(gòu)造線性最優(yōu)邊距超平面,使兩類樣本之間間隔最大而實現(xiàn)數(shù)據(jù)分類,SVM雖然是一種線性分類器,但其可以通過不同的核方法(RBF、Sigmoid等)進行非線性分類[17-18]。傳統(tǒng)的SVM分類器只能解決二分類問題,而當多標簽多類別出現(xiàn)時,可以通過一對一法,即在任意兩類樣本之間構(gòu)建一個二分類SVM,這樣在K個類別中,共計構(gòu)造k×(k-1)/2個SVM。當對未知樣本進行分類時,通過累計投票數(shù),投票數(shù)最多的即為該未知樣本所屬類別。本研究采用徑向基函數(shù)(RBF)建立多分類SVM模型,同時利用grid search對懲罰系數(shù)c和核函數(shù)參數(shù)g進行了優(yōu)化,SVM分類結(jié)果見表2和圖6。
由表2和圖6可知,基于全光譜和PCA構(gòu)建的SVM模型分類準確率為35%和40%,與KNN模型相近,分別有13,2個誤分類,表明建立的模型對食用鹽品種來源的鑒別效果較差,而基于PLS降維的SVM模型對測試集的判別準確率提高到了100%。
BPNN是一種誤差逆向傳播的多層前饋網(wǎng)絡(luò)。其核心思路是梯度下降法,通過數(shù)據(jù)集對BPNN進行不斷的訓(xùn)練,優(yōu)化網(wǎng)絡(luò)模型中的權(quán)值和閾值,使實際輸出值與期望輸出值之間的誤差均方差最小。BPNN包括正向傳播和反向傳播兩個過程,正向傳播時,輸入層數(shù)據(jù)經(jīng)隱含層向輸出層逐層傳遞,通過非線性變換產(chǎn)生輸出結(jié)果,如輸出結(jié)果不如期望,則自動進入反向傳播過程,此時的輸出誤差將通過原路進行反傳,將誤差信號分攤到各層神經(jīng)元,通過調(diào)整各神經(jīng)元的權(quán)值和閾值,經(jīng)過反復(fù)的網(wǎng)絡(luò)訓(xùn)練,使得最終誤差信號最小,因此高維度的數(shù)據(jù)集也會增加收斂的耗費時長[19-20]。本文利用訓(xùn)練集數(shù)據(jù)建立的BPNN,其中包含60個樣本的輸入層、4個神經(jīng)元的隱藏層、4個食用鹽種類的輸出層。各層傳遞使用S型函數(shù),誤差的期望值設(shè)為1e-3,學(xué)習(xí)率0.01,迭代次數(shù)1 000次,BPNN對測試集進行預(yù)測的結(jié)果見表3。
由表3和圖7可知,食用鹽種類預(yù)測樣本的準確率最高的是PLS-BPNN模型的100%,表明該模型能夠滿足食用鹽品種來源的準確分類鑒別要求,相比而言,全光譜和PCA構(gòu)建的BPNN模型的預(yù)測準確度僅為30%,整體的識別精度不高。
模型的運行時間也是衡量分類模型的一個重要指標,基于PLS降維結(jié)合KNN、SVM和BPNN構(gòu)建的分類模型的預(yù)測準確率都較高,所構(gòu)建模型的運行時間分析見表4。相同的數(shù)據(jù)集下,KNN模型的運行時間最短,BPNN模型的運行時間最長。基于PLS-SVM的分類模型,不僅在預(yù)測精度上有較好的保證,且在運行時間上更快,對于食用鹽品種來源的快速鑒別是一個切實可靠的分類模型。
3 結(jié)論
利用拉曼光譜對海鹽、井鹽、巖鹽的和湖鹽4種不同品種來源食用鹽進行光譜數(shù)據(jù)采集,通過PCA和PLS降維處理,結(jié)合KNN、多分類SVM和BPNN分類模型對品種來源進行快速分類識別。PCA和PLS能夠在不同程度上對原始光譜數(shù)據(jù)進行降維和信息解釋,基于PCA降維的PCA-KNN、PCA-SVM和PCA-BPNN模型對測試集的預(yù)測準確率分別為35%、40%和30%,相比于原始光譜的分類模型在分類精度上并沒有得到提高,原因可能是PCA依據(jù)協(xié)方差對原始光譜數(shù)據(jù)進行降維,在這個過程中引入了干擾信息,因此分類的準確率受到了影響?;赑LS降維的PLS-KNN、PLS-SVM、PLS-BPNN模型對測試集預(yù)測準確度分別為90%、100%和100%,說明PLS對于不同品種來源的食用鹽在數(shù)據(jù)降維、消除冗余、保留原始變量信息解釋性上比PCA更有優(yōu)勢,并且PLS-SVM模型運行的時間更短,具有較好的穩(wěn)定性和預(yù)測能力,對于食用鹽的品質(zhì)控制與利益摻假是一種較好的快速定性分析手段。
參考文獻:
[1]PEGAH S V, JORG H, BERND H. Establishing a novel procedure to detect deviations from standard milk processing by using online Raman spectroscopy[J].Food Control,2022,131:108442.
[2]JAKUB D, FATIH C A, ALEKSANDRA W, et al. Trends in biomedical analysis of red blood cells-Raman spectroscop against other spectroscopic, microscopic and classical techniques[J].TrAC Trends in Analytical Chemistry,2022,146:116481.
[3]DU Y W, HAN D P, LIU S, et al. Raman spectroscopy-based adversarial network combined with SVM for detection of foodborne pathogenic bacteria[J].Talanta,2022,237:122901.
[4]JOZEF R, VIT S, VERONIKA H Z, et al. Pattern recognition as a new strategy in high-resolution spectroscopy:application to methanol OH-stretch overtones[J].Physical Chemistry Chemical Physics: PCCP,2021,23(69):20193-20200.
[5]MA D D, WANG L J, JIN Y B, et al. Application of UHPLC fingerprints combined with chemical pattern recognition analysis in the differentiation of six Rhodiola species[J].Molecules,2021,26(22):6855.
[6]TIZIANO Z, MARK G K, FLORENCIO C B, et al. Instrumental odour monitoring system classification performance optimization by analysis of different pattern-recognition and feature extraction techniques[J].Sensors,2021,21(1):114.
[7]CASTURA J C, RUTLEDGE D N, ROSS C F, et al.Discriminability and uncertainty in principal component analysis (PCA) of temporal check-all-that-apply (TCATA) data[J].Food Quality & Preference,2022,96:104370.
[8]ALI A, MARGETTS B M, ZAINUDDIN A A. Exploration of the principal component analysis (PCA) approach in synthesizing the diet quality of the Malaysian population[J].Nutrients,2021,13(1):70.
[9]LIU Y S, RAYENS W. PLS and dimension reduction for classification[J].Computational Statistics,2007,22(2):189-208.
[10]LI T Y, WU Y Y, WU F, et al. Sleep pattern inference using IoT sonar monitoring and machine learning with Kennard-stone balance algorithm[J].Computers & Electrical Engineering,2021,93:107181.
[11]PARK D J, SUPEKAR O D, GREENBERG A R, et al. Real-time monitoring of calcium sulfate scale removal from RO desalination membranes using Raman spectroscopy[J].Desalination,2021,497:114736.
[12]趙忠光.基于拉曼光譜的硫酸鹽定量方法研究[D].北京:華北電力大學(xué),2020.
[13]GARDNER D W, LI J Q, MORSHEDIFARD A, et al. Silicate bond characteristics in calcium-silicate-hydrates determined by high pressure Raman spectroscopy[J].Journal of Physical Chemistry C,2020,124(33):18335-18345.
[14]FARSANI M H, DARBANI S M R, MOBASHERY A. Application of deep Raman spectroscopy to detect ammonium nitrate concealed in color fabrics[J].Vibrational Spectroscopy,2022,121:103405.
[15]ZHU X Y, YING C Z, WANG J Y, et al. Ensemble of ML-KNN for classification algorithm recommendation[J].Knowledge-Based Systems,2021,221:106933.
[16]SINLAE A A J, ALAMSYAH D, SUHERY L, et al. Classification of broadleaf weeds using a combination of K-nearest neighbor (KNN) and principal component analysis (PCA)[J].Sinkron,2022,7(1):93-100.
[17]HE Y, ZHANG W, MA Y C, et al. The classification of rice blast resistant seed based on Raman spectroscopy and SVM[J].Molecules,2022,27:4091.
[18]DING Y H, YAN Y L, LI J, et al. Classification of tea quality levels using near-infrared spectroscopy based on CLPSO-SVM[J].Foods,2022,11:1658.
[19]ZHANG D H, LOU S. The application research of neural network and BP algorithm in stock price pattern classification and prediction[J].Future Generation Computer Systems,2021,115:872-879.
[20]趙志磊,王雪妹,劉冬冬.基于BP-ANN和PLS的近紅外光譜無損檢測李果實品質(zhì)的研究[J].光譜學(xué)與光譜分析,2022,42(9):2836-2842.