鮑珮瑾,陳全莉, 3*,趙安迪,任躍男
1.中國地質(zhì)大學(武漢)珠寶學院,湖北 武漢 430074 2.國檢珠寶培訓中心,北京 102627 3.滇西應用技術(shù)大學珠寶學院,云南 大理 671000
近年來寶石產(chǎn)地溯源的研究越來越重要,由于價格和市場需求的影響,越來越多的方法被運用在寶石的產(chǎn)地溯源上。軟玉中目前價值相對較高的是產(chǎn)自于新疆昆侖山和阿爾金山地區(qū)的軟玉,該產(chǎn)地所產(chǎn)的軟玉結(jié)構(gòu)細膩、質(zhì)地溫潤、質(zhì)量較高,而由于產(chǎn)地效應而在價格上略占優(yōu)勢的哥倫比亞祖母綠、緬甸紅寶石、克什米爾藍寶石等都是主要的受益者。所以軟玉也具有產(chǎn)地效應,在此情況下,對軟玉進行產(chǎn)地溯源就顯得尤為重要。
目前寶石的產(chǎn)地溯源所使用的方法大致可分為以下幾種:(1)從內(nèi)外部特征上區(qū)分。例如緬甸紅寶石的“鴿血紅”、“糖漿狀”顏色特點,克什米爾藍寶石的“矢車菊”濃重藍色、哥倫比亞祖母綠的三相包體等[1];(2)從特殊光學效應上區(qū)分,這個適用于那些具有特殊光學效應的寶石,如變石。不同產(chǎn)地變石的變色效應有差別,如斯里蘭卡變石在日光下偏黃綠色,在燭光下顯棕或橙色調(diào),而巴西變石在日光下偏藍綠色,在燭光下為偏紫的紅色[2];(3)從化學元素上區(qū)分,不同產(chǎn)地的寶石因其形成原因不同,所含有的化學元素種類和含量也有一定差別。一般來說,由于是同種寶石,所以主要化學元素上差別不大,若要進行產(chǎn)地區(qū)分,從元素和同位素上入手可有較好效果[3-4]。
隨著計算機和多元統(tǒng)計方法的發(fā)展,數(shù)理模型越來越多地被應用在更廣泛的學科上。傳統(tǒng)的利用元素含量進行寶石產(chǎn)地溯源的方法是二維或三維投點圖[3-5],但所用的微量元素往往傾向于高維,若進行降維,可能會損失很多必要的分類信息。人工神經(jīng)網(wǎng)絡又稱為深度學習,它能夠使計算機通過層次概念來學習經(jīng)驗和理解世界。屬于機器學習的一種[6]。
本研究旨在利用激光誘導擊穿光譜儀結(jié)合人工神經(jīng)網(wǎng)絡技術(shù),通過自主學習的模型達到利用數(shù)據(jù)中盡可能多的信息來對青白色軟玉進行產(chǎn)地鑒別,也是光譜技術(shù)結(jié)合人工神經(jīng)網(wǎng)絡在寶石溯源方面的一次嘗試。
選取以下六個產(chǎn)地——新疆、廣西大化、江蘇小梅嶺、青海、韓國和俄羅斯的樣品。其中新疆樣品18塊、廣西大化7塊、青海20塊、韓國9塊、俄羅斯15塊、江蘇小梅嶺1塊,每個樣品的表面為輕微拋光的平面,之后選擇相對均勻干凈的區(qū)域測試五個點,因江蘇小梅山的樣品太少,為使得不同產(chǎn)地間數(shù)據(jù)樣本大致相同,在其上測試五十個點。綜上,新疆樣品采集的光譜數(shù)據(jù)共90個,廣西大化樣品共35個,江蘇小梅嶺樣品共50個,青海樣品共100個,韓國樣品共45個,俄羅斯樣品共采集75個光譜數(shù)據(jù)。
圖1 軟玉樣品
所選用的儀器為中國地質(zhì)大學(武漢)珠寶學院自制的激光誘導擊穿光譜儀,主要由樣品臺、激光器、光譜儀和計算機四部分組成,分為激光光源、等離子體信號采集系統(tǒng)、分光系統(tǒng)和光電探測系統(tǒng)。波長為1 064 nm的Nd∶YAG脈沖激光器,脈沖寬度為20 ns,激光重復頻率1~20 Hz;4CCD光纖光譜儀(AvaSpec-2048FT-4-DT), 內(nèi)置延遲系統(tǒng),光譜分辨率為0.1 nm。儀器參數(shù)如表1所示。激光累積次數(shù)為20次、激光能量為70 mJ、采集延時為1.1 μs。
表1 LIBS儀器參數(shù)表
為消除基底效應、激發(fā)光能量、收集效率等測量誤差和參數(shù)對實驗數(shù)據(jù)的影響,一般需要對光譜進行歸一化預處理。強度歸一化與面積歸一化都可以增強值的穩(wěn)定性,在此選用較為便捷的強度歸一化的處理方式。軟玉為硅酸鹽礦物,其中Si元素在樣品中穩(wěn)定出現(xiàn)且含量都為56%左右,可以此進行峰值歸一化,選擇強度最大的Si的波長作為歸一化的數(shù)據(jù)。
圖2 軟玉LIBS光譜圖
軟玉樣品屬于硅酸鹽礦物,主要成分是透閃石-陽起石類質(zhì)同象系列礦物。其中鎂、鐵可呈完全類質(zhì)同象替代。在激光誘導擊穿光譜實驗中,由于光譜儀的分辨率限制,有些相鄰譜線靠的太近無法分辨,測得的譜線很可能是很多譜線疊加在一起。根據(jù)王亞軍的選線原則,不同元素的選擇譜線分立、信噪比高、發(fā)射強度大、譜線輪廓清晰對稱的譜線;同種元素的則選擇強度大的譜線。
不同產(chǎn)地的樣品中不同元素的含量不同,有些元素幾乎在每一個產(chǎn)地的每一個樣品上都能都檢測到,但有些元素只有在少數(shù)幾個樣品上能夠檢測到,這對于數(shù)據(jù)分析非常不利。因此為了后期的數(shù)據(jù)分析,選擇相對穩(wěn)定的元素,即相同產(chǎn)地的每個樣品上幾乎都有的元素,剔除掉那些不確定因素,以排除干擾。本工作的樣品中出現(xiàn)的元素種類有稀土元素、過渡元素、造巖元素以及鐵族元素等,根據(jù)各類元素特點以及樣品所能檢測到的最終數(shù)據(jù)對元素進行篩選。
在剔除掉過于少量的元素、不穩(wěn)定元素及非金屬元素之后,留下所需要的金屬元素種類,通過篩選最終選擇CeⅡ 413.80 nm,ErⅠ400.80 nm,HfⅡ 273.92 nm,MnⅡ 259.31 nm,NaⅠ 589.08 nm,TiⅡ 334.98 nm作為最終使用的數(shù)據(jù)樣本,部分數(shù)據(jù)如表2所示。
表2 不同產(chǎn)地的軟玉LIBS數(shù)據(jù)
建立人工神經(jīng)網(wǎng)絡模型需要及其龐大的數(shù)據(jù),數(shù)據(jù)量越大,得出的效果就越好[6]。為了能對現(xiàn)有的少量數(shù)據(jù)進行隨機排列組合以增加數(shù)據(jù)量,利用因子分析和線性回歸分析判斷不同元素之間是否存在相關(guān)性。
利用因子分析可得如下KMO和巴特利特檢驗表。其中KMO值為0.514,小于0.6,表明變量間的相關(guān)性較低,因此可看做相互獨立的變量[7-9]。
表3 KMO和巴特利特檢驗
以產(chǎn)地為因變量,利用線性回歸分析可得表4,每個變量的VIF值都小于5,表明這些變量之間不存在嚴格的多重共線性,與因子分析結(jié)論相符合,因此變量之間的信息幾乎不重疊[7-9]。
表4 線性回歸分析結(jié)果
在進行深度學習的數(shù)據(jù)分析前,一般會進行可視化,用以對數(shù)據(jù)進行直觀了解。當我們想要對高維數(shù)據(jù)進行分類但是又不確定數(shù)據(jù)是否可分時,先對數(shù)據(jù)進行降維,把數(shù)據(jù)投到二維或三維空間中觀察,若在低維空間中是可分的,則數(shù)據(jù)可分。目前來說t-SNE是效果最好的數(shù)據(jù)降維和可視化方法,因為所用的數(shù)據(jù)有六個產(chǎn)地并且每個產(chǎn)地都有六個元素特征因此屬于高維數(shù)據(jù),僅用肉眼并不能觀察出數(shù)據(jù)是否可分,因此用t-SNE對所用數(shù)據(jù)進行降維和可視化處理,得到圖3。
圖3 軟玉t-SNE圖
圖3顯示,經(jīng)過降維和可視化處理后的數(shù)據(jù)全都堆疊在一起,表明此數(shù)據(jù)進行簡單聚類和相關(guān)分析是無法區(qū)分產(chǎn)地的。
鑒于以上結(jié)論,需要對數(shù)據(jù)進行深度學習訓練。由于這些數(shù)據(jù)均可做為相互獨立的數(shù)據(jù),所以可把每個產(chǎn)地的數(shù)據(jù)進行排列組合,得到大化產(chǎn)地軟玉有166個數(shù)據(jù)組、新疆產(chǎn)地軟玉有406個數(shù)據(jù)組、江蘇小梅嶺產(chǎn)地軟玉有126個數(shù)據(jù)組、青海產(chǎn)地軟玉有276個數(shù)據(jù)組、俄羅斯產(chǎn)地軟玉有186個數(shù)據(jù)組,韓國有96個數(shù)據(jù)組。
為簡化訓練過程,每個產(chǎn)地僅產(chǎn)生十萬個數(shù)據(jù)點,然后隨機選取五分之四的數(shù)據(jù)作為訓練集,剩下五分之一作為測試集。
把訓練集的數(shù)據(jù)組輸入Keras模型中讓其進行自主學習和結(jié)果收斂,如圖4所示構(gòu)建了一個三層的神經(jīng)網(wǎng)絡模型(輸入層一般不算一層神經(jīng)網(wǎng)絡,圖中中間層就是隱含層,為兩個隱含層的神經(jīng)網(wǎng)絡)。
圖4 三層神經(jīng)網(wǎng)絡結(jié)構(gòu)圖
神經(jīng)網(wǎng)絡具體的參數(shù)為;第一層有128個神經(jīng)元,選取“relu”激活方式,dropout的比率為0.5,第二層也有128個神經(jīng)元,同樣選取“relu”激活方式,dropout的比率為0.5,第三層有6個神經(jīng)元(因為是6個產(chǎn)地),采用“softmax”激活方式。
從六十萬個數(shù)據(jù)中隨機抽取五分之四作為訓練集供神經(jīng)網(wǎng)絡學習,在經(jīng)過不停的迭代學習后,可以得到一個成型的神經(jīng)網(wǎng)絡模型。然后輸入測試集中的數(shù)據(jù)對模型進行測試,所得到的結(jié)果為模型的正確率是93.84%,錯誤率僅為0.198。此時的各個參數(shù)所對應的模型為我們所需要的模型。
抽取預測集中六個產(chǎn)地的數(shù)據(jù)進行測試,如表5所示,發(fā)現(xiàn)韓國的軟玉正確率最高,高達99%,而青海的最低只為80%。對此結(jié)果進行分析,初步推斷對于測試的6個微量元素來說,青海的軟玉所含的微量元素含量與其他產(chǎn)地相比差別最小,而韓國與其他產(chǎn)地差別較大,因此分辨正確率較高。
表5 神經(jīng)網(wǎng)絡結(jié)論表
寶石的產(chǎn)地溯源是近些年來寶石行業(yè)及市場和消費者最為關(guān)心的問題,傳統(tǒng)的鑒別方法不僅需要鑒定者多年的積累、無法普及而且耗時長、準確性低。由于不同產(chǎn)地的同種寶石因為地質(zhì)礦床的不同而具有不同的微量元素成分和含量,近些年有些學者利用不同元素的含量進行二維或者三維投點圖的繪制,以期劃分出不同產(chǎn)地元素含量范圍。然而微量元素屬于高維數(shù)據(jù),降維勢必會造成數(shù)據(jù)信息的損失,人工神經(jīng)網(wǎng)絡能夠充分利用高維數(shù)據(jù)中的信息,建立自主學習的網(wǎng)絡模型,對未知產(chǎn)地的數(shù)據(jù)進行產(chǎn)地的判別。本研究顯示,利用人工神經(jīng)網(wǎng)絡結(jié)合激光誘導擊穿光譜儀測試得到的元素數(shù)據(jù)進行青白色軟玉的產(chǎn)地溯源,正確率可以達到93.84%,錯誤率僅為0.198,表明此方法在寶石產(chǎn)地溯源方面具有很大的潛力。