張 博,閔 紅,劉 曙*,安雅睿,李 晨,朱志秀
1. 上海理工大學(xué)理學(xué)院化學(xué)系,上海 200093 2. 上海出入境檢驗(yàn)檢疫局工業(yè)品與原材料檢測(cè)技術(shù)中心,上海 200135
鐵礦石是鋼鐵工業(yè)的重要原材料,不同產(chǎn)地來源的鐵礦石由于地質(zhì)成因差異,主次元素含量存在一定區(qū)域特征。中國(guó)是全球最大的鐵礦石進(jìn)口國(guó),2017年進(jìn)口量超過全世界海運(yùn)鐵礦石貿(mào)易量的75%。進(jìn)口鐵礦石中不泛存在摻雜、 摻假、 以次充好的現(xiàn)象,雖然集中于個(gè)案,但對(duì)我國(guó)國(guó)門安全,經(jīng)濟(jì)安全的危害不容小覷。澳大利亞、 巴西、 南非是全球鐵礦石最主要的出口國(guó),涉及國(guó)際大型礦業(yè)集團(tuán)數(shù)十種品牌鐵礦石。品牌鐵礦石批次多、 數(shù)量大、 質(zhì)量相對(duì)穩(wěn)定。品牌鐵礦石的識(shí)別,可支撐進(jìn)口鐵礦石的風(fēng)險(xiǎn)監(jiān)管,保障貿(mào)易便利化。
可見光-近紅外光譜、 微波介電光譜、 激光誘導(dǎo)擊穿光譜[1-3]結(jié)合化學(xué)計(jì)量學(xué)或機(jī)器學(xué)習(xí),可實(shí)現(xiàn)不同種類鐵礦石的識(shí)別。波長(zhǎng)色散-X射線熒光光譜具有制樣簡(jiǎn)單、 無損分析、 穩(wěn)定性好、 靈敏度高等優(yōu)點(diǎn),能實(shí)現(xiàn)鐵礦石中主次元素的快速測(cè)定,在海關(guān)系統(tǒng)應(yīng)用非常廣泛,有利于進(jìn)口鐵礦石的快速通關(guān)。孟海東[4]、 Navid Khajehzadeh[5]等分別應(yīng)用X射線熒光光譜結(jié)合神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)鐵礦石與銅礦石、 赤鐵礦與磁鐵礦的識(shí)別。判別分析是一種多變量統(tǒng)計(jì)分析方法,逐步判別能實(shí)現(xiàn)有效變量篩選,特別是變量間相關(guān)系數(shù)較大時(shí),能剔除不合適的變量,從而提高判別準(zhǔn)確率。武素茹等[6]以67個(gè)已知國(guó)別鐵礦石樣本X射線熒光光譜無標(biāo)樣分析數(shù)據(jù)為基礎(chǔ),采用逐步判別法篩選出CaO,MgO,Al2O3,CuO,V2O5五個(gè)特征變量,利用非參數(shù)判別方法建立進(jìn)口國(guó)別的判別模型,準(zhǔn)確率為74.6%。至目前為止,尚沒有參數(shù)判別分析方法在不同鐵礦石識(shí)別中的報(bào)道。
澳大利亞、 巴西、 南非作為全球鐵礦石最主要的出口國(guó),主要鐵礦產(chǎn)區(qū)相對(duì)集中。如:澳大利亞90%的鐵礦石資源量和產(chǎn)量都來自于西澳洲皮爾巴拉克拉通的哈默斯利成礦省,主要鐵礦床包括芒特維爾貝克、 湯姆普萊斯山、 帕拉伯杜等,它們均產(chǎn)于元古宙早期布羅克曼BIF型含鐵建造中[7],這些礦床產(chǎn)出了PB粉、 PB塊、 楊迪粉、 紐塊、 紐粉、 津布巴粉、 國(guó)王粉(見表1)等知名鐵礦石品牌。由于地質(zhì)成因相似,與產(chǎn)地國(guó)別的識(shí)別相比,同一國(guó)家不同品牌鐵礦石的識(shí)別更有難度。目前亦未有進(jìn)口品牌鐵礦石識(shí)別方法的報(bào)道。
表1 鐵礦石樣品信息Table 1 The information of iron ore samples
在全國(guó)主要鐵礦石進(jìn)口口岸采集了來自澳大利亞、 巴西、 南非的14種品牌鐵礦石,236批進(jìn)口鐵礦石代表性樣品(見表1)。采用波長(zhǎng)色散-X射線熒光光譜無標(biāo)樣分析法共計(jì)檢出24種元素,選擇236批樣品全部檢出的12種元素含量用于判別分析,逐步判別法篩選出其中10種元素含量作為特征變量,采用 Fisher判別分析建立了針對(duì)進(jìn)口鐵礦石產(chǎn)地和品牌的判別模型,討論了不同品牌鐵礦石的化學(xué)成分差異,通過建模樣品驗(yàn)證、 交叉驗(yàn)證、 測(cè)試樣品驗(yàn)證,確證了模型的準(zhǔn)確性和適用性。
根據(jù)GB/T 10322.1—2014《鐵礦石取樣和制樣方法》,從我國(guó)主要的鐵礦石進(jìn)口口岸采集并制備來自澳大利亞、 南非、 巴西3個(gè)國(guó)家的進(jìn)口鐵礦石化學(xué)分析樣品,包含14個(gè)品牌的共計(jì)236批次樣品。樣品容量大、 種類豐富,有一定的獨(dú)立性、 代表性,包含了我國(guó)進(jìn)口鐵礦石主要來源國(guó)及主流品牌礦種。樣品信息如表1所示,所在礦區(qū)及位置如圖1所示。
圖1 品牌鐵礦石分布圖Fig.1 Distribution map of brand iron ore
將樣品分裝到干燥瓶中于105 ℃下烘干4 h。采用壓片機(jī)對(duì)烘干樣品進(jìn)行壓片,壓片前用乙醇清洗模具,使用聚乙烯環(huán)使粉末樣品聚攏,壓制樣品在30 t壓力下維持30 s。檢查壓制樣品表面均勻且無裂紋、 脫落現(xiàn)象,測(cè)量前用洗耳球吹凈樣品表面。
使用德國(guó)布魯克公司S4 Pioneer波長(zhǎng)色散-X射線熒光光譜儀中的無標(biāo)樣分析方法檢測(cè)鐵礦石中元素的含量。無標(biāo)樣分析也稱半定量分析,它的基本思路是由儀器和軟件制造商測(cè)定校準(zhǔn)樣品,儲(chǔ)存元素譜線強(qiáng)度和校準(zhǔn)曲線,然后將這些數(shù)據(jù)轉(zhuǎn)到用戶的X射線熒光分析系統(tǒng)中,并用參考樣品校正儀器的漂移,無標(biāo)樣分析法最大的優(yōu)點(diǎn)是快速。檢測(cè)中使用銠靶光管,四個(gè)分析儀晶體(LiF200,XS-55,PET和Ge),流氣計(jì)數(shù)器(FC),閃爍計(jì)數(shù)器(SC)等元件。表2列出了儀器的部分測(cè)量條件。
表2 儀器測(cè)量條件Table 2 Instrument measurement conditions
逐步判別分析屬于有監(jiān)督的分類方式,先對(duì)已知的樣品進(jìn)行分類來建立模型,再對(duì)未知樣品來進(jìn)行預(yù)測(cè)分類。其中一個(gè)重要的思想就是逐步引入變量,每次只引入一個(gè)變量,同時(shí)也檢驗(yàn)先前引入的變量;如果引入的新變量導(dǎo)致之前變量的判別能力不再顯著,就將先前引入的變量從判別式中移除,篩選至判別式中的變量都很顯著[8]。
Fisher判別的基本原理是投影,將高維數(shù)據(jù)投影到某個(gè)方向,使得組與組之間區(qū)別最大,組內(nèi)的區(qū)別最小,其判別函數(shù)的建立利用了方差分析的思想[9]。根據(jù)該原則確定判別式,將一未知樣品的變量代入判別式。根據(jù)判別函數(shù)和組質(zhì)心處坐標(biāo)函數(shù),計(jì)算每個(gè)樣品坐標(biāo)與質(zhì)心的距離,與哪個(gè)類別的質(zhì)心最近,該樣品就判定為哪個(gè)類別。
本文分析來自我國(guó)主要鐵礦石進(jìn)口口岸的14個(gè)品牌共計(jì)236個(gè)鐵礦石樣品,建模過程中選取191個(gè)樣品作為訓(xùn)練集,45個(gè)樣品作為驗(yàn)證集檢驗(yàn)?zāi)P偷臏?zhǔn)確性。訓(xùn)練樣品及測(cè)試樣品的選取如表1所示。
針對(duì)采集的236個(gè)鐵礦石樣品,采用波長(zhǎng)色散-X射線熒光光譜無標(biāo)樣分析共計(jì)檢出Fe,O,Si,Ca,Al,Mn,Tb,Ti,Mg,P,K,S,Cr,Na,Sr,Zr,Zn,V,Cu,Gd,Ba,Cl,Ni和Co共24種元素,其中K,Cu,Zr,Zn,Na,Cl,V,Sr,Gd,Ni,Ba和Co共12個(gè)元素含量存在未檢出的情況,未檢出比例分別為18.20%,50.00%,51.00%,69.90%,70.30%,73.30%,78.00%,83.90%,84.30%,91.50%,92.80%和97.00%,建立鐵礦產(chǎn)地及品牌的識(shí)別模型,在滿足實(shí)際應(yīng)用的前提下,應(yīng)選擇鐵礦樣品檢出比例盡量高的元素,本文選取236個(gè)樣品全部檢出的Fe,O,Si,Ca,Al,Mn,Tb,Ti,Mg,P,Cr和S共12種元素含量用于后續(xù)分析。
針對(duì)不同進(jìn)口國(guó)家、 品牌鐵礦石的模式識(shí)別,采用逐步判別分析對(duì)Fe,O,Si,Ca,Al,Mn,Tb,Ti,Mg,P,Cr和S共12個(gè)元素含量進(jìn)行變量篩選,變量能否進(jìn)入模型主要取決于協(xié)方差分析的F檢驗(yàn)的顯著性水平,當(dāng)F值大于指定值時(shí)保留該變量,而F值小于指定值時(shí),該變量從模型中剔除。選取合適的F值可以用最少的變量達(dá)到最佳的判別效果。本文選取的F值為3.84,經(jīng)過逐步判別分析,F(xiàn)e,O,Si,Ca,Al,Mn,Ti,Mg,P和S共10個(gè)元素保留在了模型中,Tb與Cr因未通過F檢驗(yàn)(F值<3.84)而從模型中剔除[10],最終10個(gè)元素用于建立識(shí)別模型。
14種品牌鐵礦石12個(gè)元素(Fe,O,Si,Ca,Al,Mn,Tb,Ti,Mg,P,Cr,S)含量的均值對(duì)比分析(圖2)表明:澳精粉Fe,Si和O含量與其他類別有顯著差異,巴西粉和混合粉的Si,Mn含量與其他類別有顯著差異,南非精粉Ca,Ti,Mg,P和S的含量明顯高于其他類別,不同類別鐵礦石之間的Al,Mn,Mg,P和S的含量也存在明顯的差異。因此可以利用不同元素的含量組合建立線性判別模型,對(duì)鐵礦石進(jìn)口國(guó)別、 品牌進(jìn)行識(shí)別。不同品牌鐵礦石Tb和Cr含量的平均值在直方圖上差異性不大,這也解釋了逐級(jí)判別分析將這兩個(gè)元素剔除的原因。
圖2 鐵礦石樣本的元素平均含量條形圖(a):Fe,O;(b):Si,Al;(c):Ca,Mn;(d):Mg,Ti;(e):P,Tb;(f):S,CrFig.2 Bar chart of element average content in iron ore samples(a):Fe,O;(b):Si,Al;(c):Ca,Mn;(d):Mg,Ti;(e):P,Tb;(f):S,Cr
使用Fe,O,Si,Ca,Al,Mn,Ti,Mg,P和S共10個(gè)元素含量建立Fisher判別模型,得到2組判別函數(shù)和相應(yīng)的組質(zhì)心處的坐標(biāo)。判別函數(shù)與各變量之間的相關(guān)性如圖3所示,橫坐標(biāo)為函數(shù)1(F1)與各變量的相關(guān)系數(shù),縱坐標(biāo)為函數(shù)2(F2)與各變量的相關(guān)系數(shù),系數(shù)為正表示正相關(guān),系數(shù)為負(fù)表示負(fù)相關(guān),絕對(duì)值越大相關(guān)性越高。Ca,O,Ti,Mg,P各元素含量與函數(shù)1(F1)的相關(guān)系數(shù)分別為0.277,-0.236,0.234,0.230,0.193,Mn,O,F(xiàn)e,S各元素含量與函數(shù)2(F2)的相關(guān)系數(shù)分別為-0.279,0.268,-0.181,0.160,是相關(guān)性相對(duì)較大的元素。
圖3 變量與判別函數(shù)間的相關(guān)性Fig.3 Correlation between variables and discriminant functions
判別函數(shù):
F1=0.525X1-0.598X2+1.4X3+32.627X4+0.654X5-3.936X6+37.01X7-29.4X8-58.953X9-24.002X10-16.337
F2=0.569X1+0.855X2+0.122X3+7.559X4+1.23X5-4.789X6-9.846X7+4.281X8-128.56X9+147.622X10-61.555
式中X1—X10分別代表Fe,O,Si,Ca,Al,Mn,Ti,Mg,P和S的含量。
用函數(shù)1和函數(shù)2的判別得分作散點(diǎn)圖(圖4),橫坐標(biāo)為函數(shù)1得分,縱坐標(biāo)為函數(shù)2得分,可以看出模型對(duì)南非鐵礦石和澳大利亞,巴西兩個(gè)國(guó)家的鐵礦石區(qū)分明顯,澳大利亞與巴西散點(diǎn)存在重疊交叉的現(xiàn)象。
圖4 判別函數(shù)得分散點(diǎn)圖Fig.4 Discriminant function decentralized point map
建模樣品為構(gòu)建模型所用的樣品,可以回代到模型,驗(yàn)證模型識(shí)別的準(zhǔn)確性。交叉驗(yàn)證是一種重要的判別效果驗(yàn)證方法,該法可以非常有效地避免強(qiáng)影響點(diǎn)的干擾。本文采用留一交叉驗(yàn)證法對(duì)建模所用的樣品進(jìn)行驗(yàn)證,每次留出一個(gè)作為驗(yàn)證,其余用來建模,最后計(jì)算平均準(zhǔn)確率作為對(duì)模型的評(píng)價(jià)。測(cè)試樣品為建模過程中預(yù)留的用于測(cè)試模型識(shí)別正確率的樣品。該模型對(duì)建模樣品分類正確率為97.40%,對(duì)南非的鐵礦石樣品識(shí)別正確率為100%,對(duì)澳大利亞、 巴西鐵礦石樣品存在識(shí)別錯(cuò)誤的情況,正確率分別為97.40%,91.70%。模型交叉驗(yàn)證正確率為95.30%,交叉驗(yàn)證的正確率高于80%,說明該模型有很好的分類準(zhǔn)確度。為了確定模型是否可以對(duì)未包含在模型中的樣品進(jìn)行識(shí)別,分析了建模時(shí)選擇的45個(gè)作為測(cè)試樣品的鐵礦石樣品,模型對(duì)測(cè)試樣品識(shí)別正確率達(dá)到95.50%,其中對(duì)南非和巴西樣品識(shí)別正確度都達(dá)到100%,說明此模型可以對(duì)鐵礦石的國(guó)別進(jìn)行很好的識(shí)別[11]。
與進(jìn)口鐵礦石國(guó)別的識(shí)別相比較,進(jìn)口鐵礦石品牌的識(shí)別更加具有難度,因?yàn)椴煌放频蔫F礦石可能會(huì)來自相同國(guó)家相同的礦區(qū),它們物相結(jié)構(gòu)一致,元素含量的差異性也有可能不大。在對(duì)鐵礦石國(guó)別已能進(jìn)行很好識(shí)別的基礎(chǔ)上,嘗試對(duì)鐵礦石品牌做進(jìn)一步識(shí)別。采用Fe,O,Si,Ca,Al,Mn,Ti,Mg,P,S10個(gè)元素含量建立Fisher判別模型,得到10個(gè)判別函數(shù)和相應(yīng)的組質(zhì)心處的坐標(biāo)。
判別函數(shù):
F1=0.286X1-0.372X2+0.404X3-9.8X4-0.575X5-2.551X6+54.081X7+18.203X8-95.378X9-17.295X10-12.937
F2=0.726X1-1.244X2+2.718X3-2.715X4-0.808X5-5.169X6-23.321X7+15.246X8-160.116X9-18.187X10-2.608
F3=0.587X1-1.372X2+1.45X3+8.922X4+3.122X5+3.139X6+9.551X7-15.179X8+180.272X9+21.586X10-4.251
F4=0.257X1-0.263X2+0.896X3+33.291X4-1.573X5+1.075X6+37.848X7-34.022X8-62.815X9+25.649X10-6.865
F5=-0.4X1-0.453X2+1.121X3-13.49X4-1.417X5+11.016X6+9.278X7+0.466X8+19.539X9+87.158X10+35.004
F6=-0.012X1+0.213X2+1.171X3+6.748X4+2.843X5-6.586X6+12.703X7-2.634X8-138.53X9-59.512X10-9.303
F7=-0.189X1+0.221X2+2.048X3-4.649X4-3.679X5-0.974X6+10.841X7-7.985X8+221.911X9-69.058X10-0.463
F8=0.337X1+0.494X2+0.457X3+7.023X4-0.625X5-1.537X6-17.619X7+2.087X8+6.88X9+229.064X10-38.458
F9=0.518X1-0.035X2+0.885X3-14.995X4-0.257X5-5.636X6+26.099X7-4.9X8-30.377X9+159.188X10-31.76
F10=1.526X1+1.558X2+1.681X3-1.042X4-0.188X5+4.851X6+6.292X7+0.682X8+7.995X9-75.431X10-145.479
式中X1—X10分別代表Fe,O,Si,Ca,Al,Mn,Ti,Mg,P,S的含量。
前3個(gè)判別函數(shù)(F1,F(xiàn)2,F(xiàn)3)分別解釋了總信息的90.6%,5.7%,2.0%,累計(jì)解釋98.40% ,用前3個(gè)函數(shù)建立判別模型,并用判別得分來繪制三維散點(diǎn)圖(圖5),F(xiàn)1,F(xiàn)2,F(xiàn)3分別為判別函數(shù)F1,F(xiàn)2,F(xiàn)3的得分。三維散點(diǎn)圖分布表明,14個(gè)品牌的鐵礦石可明顯地被劃分為四個(gè)區(qū)域,澳精粉和南非精粉與其他類別區(qū)分最為明顯。從圖中還可以看出PB塊與紐曼塊分類略有重疊,楊迪粉與國(guó)王粉的集群非常接近。所建立判別模型的分類正確率如表3所示。結(jié)果表明:模型對(duì)澳精粉與南非精粉識(shí)別完全正確,因?yàn)榕c其他類別的鐵礦石相比,這兩類的Ti與Mg的含量與其他類別有明顯不同。模型對(duì)于PB塊,楊迪粉,紐塊會(huì)存在識(shí)別錯(cuò)誤的情況。這三個(gè)品牌的鐵礦石都產(chǎn)于澳大利亞皮爾巴拉地區(qū)的哈默斯利鐵礦帶,礦石成因類似,元素含量比較接近,因此相對(duì)于其他類別更難以區(qū)分。
圖5 判別函數(shù)得分三維散點(diǎn)圖Fig.5 Discriminant function score three-dimensional scatter plot
為追求更高的識(shí)別準(zhǔn)確率,選擇使用全部10個(gè)函數(shù)來建立判別模型。所建立判別模型的分類正確率如表3所示。結(jié)果表明:當(dāng)使用全部10個(gè)函數(shù)建模時(shí),模型對(duì)測(cè)試樣品識(shí)別的準(zhǔn)確率有明顯提高,正確率達(dá)到了100%,所建立識(shí)別模型具有很好識(shí)別效果。
表3 判別模型的預(yù)測(cè)正確率(%)Table 3 Prediction accuracy of discriminant model(%)
利用波長(zhǎng)色散-X射線熒光光譜無標(biāo)樣分析法測(cè)定澳大利亞、 南非、 巴西3個(gè)國(guó)家14個(gè)品牌236份鐵礦石樣品的元素含量,選擇191個(gè)樣品作為訓(xùn)練樣本,45個(gè)樣品作為測(cè)試樣本,采用逐步判別分析篩選出Fe,O,Si,Ca,Al,Mn,Ti,Mg,P和S共10種元素含量作為特征變量,建立了識(shí)別鐵礦石產(chǎn)地、 品牌的Fisher判別模型。該模型為鐵礦石品牌與元素之間的關(guān)系提供了基礎(chǔ)數(shù)據(jù)與理論依據(jù),僅通過無標(biāo)樣分析法測(cè)量鐵礦石樣品10種元素含量建立判別模型,便可以快速進(jìn)行產(chǎn)地、 品牌的識(shí)別。當(dāng)然,模型樣品產(chǎn)地和品牌的確證和樣本數(shù)量是限制模型正確率的關(guān)鍵要素,當(dāng)樣本數(shù)量達(dá)到一定數(shù)量級(jí)之后,所建立識(shí)別模型的準(zhǔn)確率和普適性將得到進(jìn)一步的提升。