翟司潯
(河北經貿大學信息技術學院,河北 石家莊 050000)
玻璃的主要原材料是石英砂,化學成分為二氧化硅及其他氧化物。純石英砂熔點較高,淬煉時需要添加助熔劑,降低熔化溫度。草木灰、硝石和鉛礦石是過去常用的助熔劑,需添加石灰石作為穩(wěn)定劑,煅燒后的主要成分為氧化鈣。由于添加的助熔劑不同,其主要化學成分也不同。
玻璃風化情況與埋藏環(huán)境有著極大的關系,風化過程中玻璃內部元素與環(huán)境中的元素反應,導致成分比例發(fā)生變化,會影響對類型的判斷。無風化的玻璃制品可明顯看到表面的紋飾、顏色及圖案等,但不排除輕微風化情況。風化嚴重的玻璃制品表面會裸露出大面積的灰黃色區(qū)域,是明顯的風化層。通過數學建模對其進行研究,可使文物研究更加科學有效,促進玻璃制品的生產制造。
由圖1可知,無風化的文物樣品-高鉀玻璃的二氧化硅含量最高,占60%以上,其他各元素含量均低于20%,其中氧化鎂、氧化鉛、氧化鋇、五氧化二磷、氧化鍶、氧化錫、二氧化硫含量均低于2%左右。風化的文物樣品-高鉀玻璃的二氧化硅含量最高,占90%以上,遠高于其他化學成分,基本無法檢測到氧化鈉、氧化鉛、氧化鋇、氧化鍶、氧化錫、二氧化硫的含量。
圖1 有無風化的高鉀玻璃化學成分含量統(tǒng)計Fig.1 Statistics of the chemical composition of high potassium glass with or without weathering
使用SPSS 26.0得到的卡方檢驗值如表1所示:
表1 卡方檢驗Tab.1 Chi-square test
類型*表面風化Pearson卡方P1=0.009<0.05,拒絕原假設,認為類型對玻璃表面是否風化的影響顯著。紋飾*表面風化Pearson卡方P2=0.084>0.05,顏色*表面風化Pearson卡方P3=0.481>0.05,均接受原假設,認為紋飾和顏色對玻璃表面是否風化的影響不顯著。
斯皮爾曼相關系數計算式:
使用Matlab求解斯皮爾曼相關系數并繪制熱力圖,正值用深色系標準,負值用淺色標注,如圖2所示:
圖2 斯皮爾曼相關系數圖Fig.2 Spearman correlation coefficient graph
相關系數定量刻畫出X和Y之間的相關程度,即|ρ|越大,相關程度越大,相關性越好;|ρ|=0時,對應的相關程度最低。由圖2可知,表面風化情況與玻璃文物類型之間的相關程度較大,而紋飾對表面風化程度影響較小,相關性較小。
均值法是根據風化前后同一采樣點化學成分含量變化進行預測,模型如下:
風化前,第i個采樣點所有化學成分含量之和為:
Pij=m11+m12+m13+…+mij
風化前,第i個采樣點的第j種化學成分所占比例為:
Mij=mij/Pij
風化后,第i個采樣點所有化學成分含量之和為:
Sij=n11+n12+n13+…+nij
風化后,第i個采樣點的第j種化學成分所占比例為:
Nij=nij/Sij
風化前后,第i個采樣點的第j種化學成分含量的變化值為:
Δhij=|Nij-Mij|
風化前,第i個采樣點的第j種化學成分含量為:
kij=nij-Δhij
根據玻璃類型,將玻璃劃分為兩種,即高鉀玻璃和鉛鋇玻璃,使用 Matlab采用均值法,分別預測這兩種玻璃風化前各個風化點檢測數據的化學成分含量,部分高鉀玻璃采樣點處各化學物質比例預測結果如表2所示。
表2 高鉀玻璃風化前的化學成分含量Tab.2 Chemical content of high potassium glass before weathering
決策樹是一種用于數據分類的方法,具有如流程圖一樣的樹狀結構,每個內部節(jié)點表示在一個屬性上的測試,每個分支節(jié)點表示一個測試輸出,每個葉子節(jié)點表示類或類分布,其本質是一種自上向下的逐步構造方法,構造標準一般采用信增益度量,信息增益越大,表明數據集在分類過程中能夠最大化減小其不確定性,因此ID3在構建算法的過程中所挑選的特征具有更好的分類效果。信息熵(H)及信息增益(G)定義如下:
H(p)=-∑p×lgp
G(D,A)=H(D)-H(D|A)
其中,p表示隨機變量概率,A表示特征,D代表數據集,H(D)定義為經驗熵,H(Y|X)定義為條件熵,H(D|A)表示特征A在數據集D條件下的經驗條件熵。
針對給出的數據集,選取70%的數據作為訓練集,30%的數據作為測試集,運用spss modeler得到如圖3所示的分類決策樹。
圖3 分類決策樹Fig.3 Classification decision tree
該決策樹深度為4層,根節(jié)點包含39個樣本,其中鉛鋇玻璃占64.1%,高鉀玻璃占35.9%。分析可知,高鉀玻璃和鉛鋇玻璃決策樹的第一分類標準是紋飾,若紋飾為B,那么該玻璃類別為高鉀玻璃,若紋飾為A或C,則有75.758%的概率為鉛鋇玻璃。第二分類標準為表面是否風化,若紋飾為A或C且表面風化,則類型為鉛鋇玻璃,若紋飾為A或C且表面無風化,則有53%的可能是鉛鋇玻璃,47%的概率為高鉀玻璃。第三分類標準為顏色,若紋飾為A或C且表面無風化且顏色為藍綠,則類別為高鉀玻璃。
通過計算斯皮爾曼相關系數得出文物表面風化與文物類型有較強相關性,而紋飾對表面風化程度影響較小,有較弱相關性。使用決策樹模型探究高鉀玻璃與鉛鋇玻璃的分類規(guī)律,可得出劃分玻璃類別標準的順序,再根據每個標準中的概率判斷玻璃種類。由于決策樹模型需要訓練的數據規(guī)模較小,降低了算法時間復雜度,生成的決策樹規(guī)模更小,具有更少的葉子結點數,比其他機器學習模型更容易構建,可視性強。