国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LIBS與化學(xué)計(jì)量學(xué)的植物葉片分類研究

2021-02-03 10:08張大成王博文馮中琦劉旭陽朱江峰
光譜學(xué)與光譜分析 2021年2期
關(guān)鍵詞:女貞正確率樹葉

丁 捷,張大成,王博文,馮中琦,劉旭陽,朱江峰

西安電子科技大學(xué)物理與光電工程學(xué)院,陜西 西安 710071

引 言

激光誘導(dǎo)擊穿光譜(laser-induced breakdown spectr-oscopy,LIBS)是原子發(fā)射光譜技術(shù),將高能量脈沖激光聚焦入射在樣品表面上時(shí),可以使樣品聚焦區(qū)域獲得足夠高的能量而形成等離子體。隨著等離子體的膨脹,等離子體溫度快速降低,處于高能級(jí)的離子和原子會(huì)向低能級(jí)或基態(tài)躍遷,并輻射出特征譜線。通過特征譜線波長(zhǎng)可以確定樣品所含元素,同時(shí)譜線強(qiáng)度與其所對(duì)應(yīng)的元素含量之間存在定量關(guān)系[1]。這就是LIBS技術(shù)對(duì)樣品中的元素進(jìn)行定性和定量分析的基本原理。LIBS技術(shù)是一種消耗樣品量極少(亞微克級(jí))、非接觸、可實(shí)時(shí)在線的元素分析手段[2],目前已經(jīng)被應(yīng)用于玉石,液體[3]等物質(zhì)成分分析領(lǐng)域中。

LIBS技術(shù)直接測(cè)量到的主要是元素的特征譜線。對(duì)于元素種類組成相似、譜線分布沒有明顯差異的有機(jī)物或復(fù)雜樣品等難以快速識(shí)別。將LIBS技術(shù)與化學(xué)計(jì)量學(xué)方法結(jié)合可以有效識(shí)別這些樣品的LIBS光譜特征。在過去的二十多年里,國(guó)際許多研究團(tuán)隊(duì)將LIBS技術(shù)與化學(xué)計(jì)量學(xué)結(jié)合開展了大量的物質(zhì)分類方面的研究工作。法國(guó)科學(xué)研究中心的Sirven等為模擬火星巖石樣品的遠(yuǎn)程識(shí)別,將簇類獨(dú)立軟模式(soft independent modeling of class analogy,SIMCA)與偏最小二乘判別分析(partial least squares discrimination analysis,PLS-DA)用于6塊巖石樣品的LIBS光譜分類,兩種方法的識(shí)別正確率分別達(dá)到77.5%和85.9%。在測(cè)試集里加入訓(xùn)練集中不存在的巖石時(shí),二者均表現(xiàn)出了很強(qiáng)的魯棒性,該結(jié)果對(duì)于火星的實(shí)地探測(cè)分析十分重要[4]。西班牙馬德里康普頓斯大學(xué)的Moncayo等測(cè)量了多個(gè)人的骨骼與牙齒樣本的LIBS光譜數(shù)據(jù),利用骨骼或牙齒樣本光譜數(shù)據(jù)與人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)結(jié)合均能實(shí)現(xiàn)95%以上的識(shí)別精度。該技術(shù)可應(yīng)用于災(zāi)害遇難者的身份識(shí)別中[5]。美國(guó)麻省理工學(xué)院的Dingari等對(duì)布洛芬,葡萄糖胺,維生素C等藥物進(jìn)行了LIBS分類的研究,比較了非線性方法支持向量機(jī)(support vector machines,SVM)和其他兩種傳統(tǒng)的線性方法SIMCA和PLS-DA的分類結(jié)果。研究表明這三種方法對(duì)測(cè)試集樣本的識(shí)別準(zhǔn)確率都達(dá)到94%以上。但是在魯棒性測(cè)試中,SVM方法優(yōu)于SIMCA和PLS-DA兩種方法。此方法可以為假藥的鑒別提供新技術(shù)[6]。捷克馬薩里克大學(xué)的Vítková等對(duì)考古中常見的材料(如貝殼、磚塊、陶瓷和骨頭等)進(jìn)行了LIBS光譜分析,利用線性判別分析(linear discriminant analysis,LDA)和ANN對(duì)考古材料進(jìn)行分類,識(shí)別正確率分別為75%和87.5%。該方法可以幫助考古研究人員快速分辨現(xiàn)場(chǎng)作業(yè)中發(fā)現(xiàn)的各種材料碎片[7]。美國(guó)特拉華大學(xué)的Celani等通過手持LIBS設(shè)備與K近鄰(k-nearest neighbor,KNN)和PLS-DA兩種方法結(jié)合,實(shí)現(xiàn)了對(duì)9種瀕危樹種92%以上的高識(shí)別準(zhǔn)確率。該技術(shù)可以在海關(guān)口岸檢查瀕危樹種的非法貿(mào)易[8]。近年來,國(guó)內(nèi)研究團(tuán)隊(duì)也在LIBS分類方面開展了許多研究工作。北京理工大學(xué)的王茜倩團(tuán)隊(duì)提出了分別利用主成分權(quán)重(important weights based on principal component analysis,IW-PCA)和隨機(jī)森林(random forests,RF)對(duì)LIBS光譜進(jìn)行重要性分析,從而提取最優(yōu)譜線用于分類器輸入的方法,然后結(jié)合SVM對(duì)6種典型病原菌進(jìn)行了鑒別,兩種模型正確率分別達(dá)到95.79% 和96.51%[9]。哈爾濱工業(yè)大學(xué)的李曉暉等采集了5種豬肉組織的LIBS光譜,利用KNN和SVM兩種方法對(duì)脂肪、皮、肌肉達(dá)到99.83%的平均識(shí)別率。該結(jié)果可為分析臨床上微小組織變化、早期病變的診斷提供新方法[10]。有報(bào)道利用SVM和PLS-DA等算法對(duì)來自5個(gè)不同產(chǎn)地的和田玉樣品進(jìn)行了分析,對(duì)產(chǎn)地分析的識(shí)別正確率分別達(dá)到了99.3%和97.8%[11]。

以上研究結(jié)果表明LIBS技術(shù)與化學(xué)計(jì)量學(xué)方法相結(jié)合是一種在物質(zhì)分類和產(chǎn)地溯源等領(lǐng)域非常有應(yīng)用前景的技術(shù)。有機(jī)物的分類對(duì)于食品溯源、爆炸物分析、藥品鑒別等諸多領(lǐng)域有著重要的意義。然而在元素組成相似度較高的新鮮有機(jī)物識(shí)別上,目前研究工作相對(duì)有限,分類效果仍有提升空間。本文開展了三種植物樹葉(女貞、珊瑚樹、竹子)的LIBS鑒別工作,探索了將PCA分別與LDA和SVM這兩種化學(xué)計(jì)量學(xué)方法結(jié)合以提高有機(jī)物分類正確率的可行性。

1 實(shí)驗(yàn)部分

采用的LIBS實(shí)驗(yàn)裝置如圖1所示。利用Nd∶YAG激光器(Dawa-300,Beamtech,CHN)作為燒蝕光源,激光脈沖寬度為6 ns,重復(fù)頻率為10 Hz,實(shí)驗(yàn)中所用脈沖能量為30 mJ。用石英透鏡將激光束聚焦在樣品表面,通過一組平凸透鏡將等離子體發(fā)射光譜收集到光纖中,并傳輸至雙通道光譜儀(AvaSpec-ULS2048-2-USB2,Avantes,NLD)內(nèi)進(jìn)行光譜分析。光譜儀的測(cè)量范圍為220~432 nm,積分時(shí)間為2 ms。為減少連續(xù)輻射譜對(duì)元素光譜線的干擾,實(shí)驗(yàn)中激光器和光譜儀均由數(shù)字信號(hào)延遲發(fā)生器(DG645,SRS Inc,USA)觸發(fā),并將激光脈沖和光譜儀采集之間的延遲時(shí)間優(yōu)化為300 ns。

圖1 LIBS實(shí)驗(yàn)裝置示意圖Fig.1 Schematic diagram of LIBS experimental setup

實(shí)驗(yàn)選擇了西安電子科技大學(xué)校園中常見的三種植物(女貞、珊瑚樹、竹子)的樹葉作為待測(cè)樣品。用蒸餾水浸泡樣品10 min,以清洗掉樹葉表明沉積的灰塵,經(jīng)自然晾干后粘于樣品臺(tái)上。樣品臺(tái)固定在二維電控位移平臺(tái)上,按“弓”字形的方式運(yùn)動(dòng)。實(shí)驗(yàn)測(cè)量時(shí),以每片葉子的葉脈為軸,兩側(cè)對(duì)稱采集光譜。每種植物各采集100片葉子,1片樹葉只測(cè)量1組光譜,共得到300組光譜數(shù)據(jù)(女貞、珊瑚樹和竹子光譜的RSD分別為23.2%,24.3%和19.6%)。為降低激光脈沖能量波動(dòng)對(duì)所測(cè)得的譜線強(qiáng)度的影響,每組光譜是100個(gè)激光脈沖作用得到的平均光譜。圖2為這三種樹葉的典型LIBS光譜,其譜線形狀表現(xiàn)出很高的相似性,難以直接區(qū)分。

圖2 三種樹葉的LIBS光譜Fig.2 LIBS spectra of three kinds of leaves

2 結(jié)果與討論

2.1 主成分分析

主成分分析(principal component analysis,PCA)是用來研究如何將多指標(biāo)問題轉(zhuǎn)化為較少綜合指標(biāo)(主成分)問題的方法,這些主成分是傳遞數(shù)據(jù)集中包含的主要信息的線性組合,其本質(zhì)是一種降維的統(tǒng)計(jì)過程。PCA利用正交變換可以將可能具有相關(guān)性的譜線數(shù)據(jù)轉(zhuǎn)化為線性不相關(guān)的一組新變量(principal components,PCs)。這種轉(zhuǎn)化令第一主成分具有盡可能大的方差,意味著其包含盡可能多的信息量,并且后續(xù)每個(gè)成分在保持與前面成分正交的條件下選取方差最大的。

主成分得分圖上的散點(diǎn)分布可以表征光譜之間的相似性。圖3是300組光譜數(shù)據(jù)的第一主成分(PC1)和第二主成分(PC2)的得分圖,分別包含了81.70%和12.26%的方差信息,代表了原始光譜93.96%以上的主要信息??梢钥闯?,三種樹葉的各自類內(nèi)聚類效果較為分散,竹子幾乎處于另外兩種的中間,重疊比較嚴(yán)重。說明三種樹葉的光譜數(shù)據(jù)具有較高的相似性,在元素組成和含量上非常接近。PCA方法雖然可以很大程度地壓縮數(shù)據(jù)并盡可能保留有效信息,但是難以通過光譜數(shù)據(jù)的主成分得分圖對(duì)樹葉種類做有效分類。為此,將PCA的特征提取作用進(jìn)一步應(yīng)用在LDA和SVM這兩種化學(xué)計(jì)量學(xué)方法上,研究這兩種方法對(duì)三種植物樣本種類的識(shí)別效果。

圖3 三種樹葉光譜的主成分得分圖(前兩個(gè)主成分)Fig.3 Scores of the first two principal components of three kinds of leaves

2.2 線性判別分析與支持向量機(jī)

將每種植物葉片的100組LIBS光譜數(shù)據(jù)中的70組作為訓(xùn)練集,30組作為測(cè)試集,以PCA對(duì)原始光譜的2 000多個(gè)譜線數(shù)據(jù)中提取得到的前20個(gè)主成分(累計(jì)方差大于99.9%)作為樣本屬性數(shù)據(jù),并為訓(xùn)練集和測(cè)試集中同種樹葉的每組屬性值設(shè)定相同的標(biāo)簽。將女貞、珊瑚樹、竹子的標(biāo)簽分別標(biāo)記為1,2和3。由此,訓(xùn)練集中每個(gè)樣本數(shù)據(jù)就包括一組屬性值和一個(gè)標(biāo)簽。分類時(shí)先根據(jù)訓(xùn)練集中的屬性值和標(biāo)簽建立識(shí)別模型,然后由模型根據(jù)測(cè)試集中待測(cè)樣本的屬性值預(yù)測(cè)出其對(duì)應(yīng)標(biāo)簽,將其與該樣本實(shí)際對(duì)應(yīng)標(biāo)簽對(duì)比得到正確率以檢驗(yàn)?zāi)P汀?/p>

2.2.1 線性判別分析

線性判別分析(linear discriminant analysis,LDA)是一種有監(jiān)督的降維方法,被廣泛用于多元統(tǒng)計(jì)、模式識(shí)別和機(jī)器學(xué)習(xí)等領(lǐng)域中。其基本思想是將高維的樣本數(shù)據(jù)投影到最佳鑒別的低維矢量空間,以達(dá)到抽取分類信息和壓縮特征空間維數(shù)的目的。該算法的核心則在于尋找最能區(qū)分不同類數(shù)據(jù)的最佳投影方向,使得類間距離與類內(nèi)距離的比值最大化。數(shù)據(jù)經(jīng)過處理后在空間上表現(xiàn)出同一種類別數(shù)據(jù)的投影點(diǎn)盡可能接近,而不同類別的數(shù)據(jù)的投影點(diǎn)相互遠(yuǎn)離的趨勢(shì)。

隨機(jī)選取每種樹葉的70組光譜數(shù)據(jù)用于建立判別模型。訓(xùn)練集中的每組光譜數(shù)據(jù)經(jīng)過模型分析后可得到一系列判別函數(shù)值,利用前兩個(gè)判別函數(shù)值可作出如圖4所示的散點(diǎn)圖。與圖3相比,圖4中三種植物樹葉的聚類效果更好,不同類樣本數(shù)據(jù)之間的間隔也更為明顯,未出現(xiàn)某個(gè)樣本處于其他種類植物樹葉樣本聚集區(qū)域的情況。由于LDA可以使所獲得的新數(shù)據(jù)中同種樹葉的數(shù)據(jù)相似性提高,不同種植物樹葉數(shù)據(jù)差異擴(kuò)大。相對(duì)于PCA僅僅處理了數(shù)據(jù)間的相關(guān)性和冗雜性,LDA的判別能力更強(qiáng)。通過得到的判別模型對(duì)剩余每種樹葉的30個(gè)樣本(共90組數(shù)據(jù))進(jìn)行驗(yàn)證分析,利用前兩個(gè)判別函數(shù)值可作出圖5。可以看出同一種類的樣本也都各自聚在一起,僅有個(gè)別不同種類的樣本間距較近。其中1個(gè)竹子樣本非??拷憳颖救旱倪吘?,2個(gè)竹子樣本幾乎處于三種樣本的交界中心。此外,還有2個(gè)珊瑚樹樣本離珊瑚樹樣本群和竹子樣本群的遠(yuǎn)近程度相當(dāng)。

圖4 訓(xùn)練集樣本的前兩個(gè)判別函數(shù)的散點(diǎn)圖Fig.4 The scatter diagram of the firsttwo discriminant functions of training set samples

圖5 測(cè)試集樣本的前兩個(gè)判別函數(shù)的散點(diǎn)圖Fig.5 The scatter diagram of the first two discriminant functions of test set samples

為了定量表征測(cè)試集中的待測(cè)樣本屬于各種類的可能性,引入馬氏距離定量描述測(cè)試集中的未知樣本與訓(xùn)練集每種樣本群的“相似程度”,將未知樣本劃入與其相似性最高的類別。馬氏距離是一種無量綱、與變量尺度無關(guān)且考慮了數(shù)據(jù)集相關(guān)性的廣義距離,它可以用來測(cè)量任一樣品點(diǎn)A與某一樣品集P之間的距離。其在計(jì)算過程中引入?yún)f(xié)方差矩陣,使得實(shí)驗(yàn)中均值較高的變量影響減小,同時(shí)均值較低的變量影響增大,最終令所有變量對(duì)分類的貢獻(xiàn)趨于一致。為了明確各個(gè)樣品所屬分類,分別計(jì)算測(cè)試集中所有待測(cè)試樣本與三種植物葉片訓(xùn)練集樣本群的馬氏距離,馬氏距離越小,說明其與對(duì)應(yīng)類別相似性越高,反之相似性越低。如圖6所示,藍(lán)色,綠色和紅色標(biāo)志分別表示該待測(cè)樣本與訓(xùn)練集中女貞、珊瑚樹和竹子樣本集的馬氏距離。從圖6中可以看出待測(cè)樣本與其實(shí)際類別對(duì)應(yīng)樣本集的馬氏距離大多接近于0,并且另外兩個(gè)馬氏距離遠(yuǎn)大于0,距離差異很大,即相似性差異明顯。這表明經(jīng)過LDA處理,光譜數(shù)據(jù)按類別在空間上完全分離開來。因此,選擇3個(gè)馬氏距離中最小值所對(duì)應(yīng)的類別作為該樣品的預(yù)測(cè)類別。根據(jù)馬氏距離計(jì)算得到測(cè)試集分類結(jié)果如圖7所示,測(cè)試集中30個(gè)女貞樣本(1—30)和30個(gè)珊瑚樹樣本(30—60)全部分類正確;竹子樣本(60—90)中有2個(gè)被誤分為女貞,1個(gè)被誤分為珊瑚樹。最終,在90個(gè)測(cè)試集樣本中正確分類87個(gè),平均正確率達(dá)到96.67%。

圖6 每個(gè)測(cè)試集樣本的3個(gè)馬氏距離Fig.6 Three Mahalanobis distances of each test set sample

圖7 測(cè)試集樣本分類結(jié)果圖Fig.7 Classification results of test set samples

2.2.2 支持向量機(jī)

支持向量機(jī)(support vector machines,SVM)是Cortes和Vapnik提出的一種較新的非線性分類方法[14]。SVM是定義在特征空間上的間隔最大分類器,通過將數(shù)據(jù)映射到在高維空間,利用兩類間距離最近的訓(xùn)練點(diǎn)(支持向量)求得一系列對(duì)兩類分割的超平面。而所求的最佳超平面距兩類的支持向量一樣遠(yuǎn),使得不同類數(shù)據(jù)之間的分布間隔最大化,其本質(zhì)是一種二分類模型。在應(yīng)對(duì)多類問題時(shí),采取“一類對(duì)其余”的方法,每次仍然解一個(gè)二分類的問題。SVM在分類數(shù)據(jù)集時(shí)不存在必須線性可分的限制,在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì)。

本工作使用了基于MATLAB的Library for Support Vector Machines (LISVM)工具箱[13]對(duì)三種植物葉片的LIBS光譜建模。其中,核函數(shù)為徑向基函數(shù)(RBF),由于工具箱中懲戒因子C,核參數(shù)g會(huì)直接影響對(duì)最優(yōu)分類超平面的求解,因此,需要對(duì)C,g進(jìn)行參數(shù)尋優(yōu)才能建立更準(zhǔn)確的SVM分類器模型。采用交互驗(yàn)證法尋找最佳(C,g)??紤]到建模時(shí)間和準(zhǔn)確性,將C與g的調(diào)節(jié)范圍均設(shè)置為(2-5,25),參數(shù)的步進(jìn)值設(shè)為20.5。圖8是(C,g)的參數(shù)尋優(yōu)圖,從圖8可以看出不同(C,g)對(duì)應(yīng)的訓(xùn)練集平均正確率,程序給出的最優(yōu)參數(shù)(C,g)為(20.5,2-0.5),對(duì)應(yīng)最高訓(xùn)練集正確率為100%。利用該參數(shù)對(duì)應(yīng)的分類器可對(duì)測(cè)試集每組屬性值的類別進(jìn)行預(yù)測(cè)。圖9給出了測(cè)試集中90個(gè)待測(cè)樣本的預(yù)測(cè)類別與實(shí)際類別,竹子葉中有1個(gè)被誤分為女貞樹葉,而這個(gè)樣本在LDA中被誤分為珊瑚樹。結(jié)果中共89個(gè)正確分類,測(cè)試集的平均正確率達(dá)到98.89%。

圖8 SVM參數(shù)尋優(yōu)圖Fig.8 SVM parameter optimization

圖9 SVM分類結(jié)果圖Fig.9 Classification results of SVM

3 結(jié) 論

采集了女貞、珊瑚樹和竹子三種植物葉片在220~432 nm波段的LIBS光譜。利用PCA對(duì)三種植物葉片的光譜數(shù)據(jù)進(jìn)行可視化分析,在得分圖上得到的樣本點(diǎn)重疊嚴(yán)重,難以實(shí)現(xiàn)女貞、珊瑚樹、竹子的準(zhǔn)確識(shí)別。將PCA提取的前20個(gè)主成分輸入LDA和SVM模型進(jìn)行三種植物葉片光譜數(shù)據(jù)的分類。在測(cè)量結(jié)果中,LDA結(jié)合馬氏距離時(shí),測(cè)試集90個(gè)待測(cè)樣本對(duì)訓(xùn)練集中各類樣本集的距離差異明顯,僅對(duì)3個(gè)竹子樣品分類錯(cuò)誤,女貞與珊瑚樹樣品全部正確歸類,平均正確率達(dá)到96.67%;SVM經(jīng)過參數(shù)尋優(yōu)后,得到的最優(yōu)參數(shù)對(duì)應(yīng)的模型在訓(xùn)練集中得到了100%的分類正確率,而對(duì)于測(cè)試集樣本,僅有1個(gè)竹子葉片被誤分,平均正確率為98.89%。研究表明,將PCA與LDA、SVM這兩種有監(jiān)督的化學(xué)計(jì)量學(xué)方法結(jié)合能夠?qū)崿F(xiàn)對(duì)新鮮植物樣品LIBS光譜的準(zhǔn)確識(shí)別,并且PCA與SVM結(jié)合的分類結(jié)果優(yōu)于PCA與LDA方法結(jié)合的分類結(jié)果。該方法有助于LIBS技術(shù)在食品快速溯源、生物組織原位鑒別、有機(jī)爆炸物遠(yuǎn)程分析等領(lǐng)域應(yīng)用。

猜你喜歡
女貞正確率樹葉
女貞和烏鶇
門診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
樹葉的不同稱呼
綠化用女貞樹上的果實(shí),可以采來入藥嗎?
大葉女貞銹壁虱藥物防治試驗(yàn)
生意
品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
鹽脅迫對(duì)金森女貞生理特征的影響
一片樹葉
生意