王誠(chéng) 劉碩
(蘭州石化職業(yè)技術(shù)學(xué)院信息處理與控制工程學(xué)院,甘肅 蘭州730060)
比色法是目前常用的一種檢測(cè)物質(zhì)濃度的方法,即把待測(cè)物質(zhì)制備成溶液后滴在特定的白色試紙表面,等其充分反應(yīng)以后獲得一張有顏色的試紙,再把該顏色試紙與一個(gè)標(biāo)準(zhǔn)比色卡進(jìn)行對(duì)比,就可以確定待測(cè)物質(zhì)的濃度檔位了。由于每個(gè)人對(duì)顏色的敏感差異和觀測(cè)誤差,使得這一方法在精度上受到很大影響。隨著照相技術(shù)和顏色分辨率的提高,希望建立顏色讀數(shù)和物質(zhì)濃度的數(shù)學(xué)模型,即只要給模型輸入照片中的顏色讀數(shù)就能夠通過(guò)計(jì)算獲得待測(cè)物質(zhì)的濃度,而模型的精度直接關(guān)系著待測(cè)物質(zhì)濃度的準(zhǔn)確性,見(jiàn)于監(jiān)測(cè)數(shù)據(jù)呈現(xiàn)明顯的類狀或族狀,可以將物質(zhì)濃度判斷問(wèn)題歸結(jié)為類別辨誤問(wèn)題或模式識(shí)別問(wèn)題。為此,本文在已知顏色讀數(shù)和相應(yīng)物質(zhì)濃度實(shí)驗(yàn)數(shù)據(jù)的基礎(chǔ)上建立了基于logistic回歸的物質(zhì)濃度識(shí)別模型,該模型是實(shí)質(zhì)上是一種多元非線性概率回歸分析模型,實(shí)例分析表明用該模型預(yù)測(cè)物質(zhì)濃度具有很高的精確度,好于支持向量機(jī)[1-2]、神經(jīng)網(wǎng)絡(luò)[3-4]等辨識(shí)模型,值得工程技術(shù)人員借鑒。
設(shè)表征物質(zhì)濃度的常用顏色有:藍(lán)色B、綠色G、紅色R、色調(diào)H、飽和度S,其讀數(shù)分別為x1、x2、x3和x4;對(duì)物質(zhì)濃度進(jìn)行類別劃分,類別值{1,2,…,J}(J為總類別數(shù));設(shè)研究對(duì)象(物體)記為X,其樣本集X={X1,X2,…,Xn}(Xi為樣本,i=1,2,…,n),且Xi=(xi1,xi2,xi3,xi4)。物質(zhì)濃度類別Y∈{1,2,…,J}與其特征值(顏色讀數(shù))之間存在非線性概率關(guān)系。設(shè)樣本Xi的濃度屬于第J類的概率為PJ,以Y=J作為參考類別,則對(duì)于Y=J(j=1,2,…,J-1),其logistic變換logit模型[5-6]為:
其中:Bj0,Bj1,…,Bj4為logistic回歸的偏回歸系數(shù),表示變量xi對(duì)Y的影響大小,B0j為常數(shù)項(xiàng);為樣本的第j個(gè)參數(shù)值;而對(duì)于參考類別, 其模型中的所有系數(shù)均為0,即GJ=0。由式(1)得:
式(1)中的模型系數(shù)Bj0,Bj1,…,Bj4,由建模樣本數(shù)據(jù)及統(tǒng)計(jì)軟件SPSS19[7-8]完成。
2017年全國(guó)大學(xué)生數(shù)學(xué)建模C題給出一組二氧化硫的濃度與其顏色的讀數(shù),見(jiàn)表1所示。
表1 二氧化硫的濃度與顏色讀數(shù)
首先按濃度大小分類,將濃度為0,20,30,50,80,100,150對(duì)應(yīng)的樣本分別看成一類,共7類,類別值分別為1,2,3,4,5,6,7。當(dāng)類別值為1時(shí),則對(duì)應(yīng)的濃度為0;當(dāng)類別值為2時(shí),則對(duì)應(yīng)的濃度為20;當(dāng)類別值3時(shí),則對(duì)應(yīng)的濃度為30;當(dāng)類別值4時(shí),則對(duì)應(yīng)的濃度為50;依次類推。
將表1中二氧化硫指標(biāo)數(shù)據(jù)及相應(yīng)類別值列導(dǎo)入SPSS19中,選擇“分析”|“回歸”|“多項(xiàng)logistic”命令,按提示對(duì)話框完成所有操作,求得到的模型系數(shù)及模型見(jiàn)下式(4)~(10):
由SPSS19得出模型擬合信息見(jiàn)表2,偽R方值見(jiàn)表3,擬合優(yōu)度見(jiàn)表4。
表2 模型擬合信息
表3 三個(gè)偽決定系數(shù)R方
表4 擬合優(yōu)度
從表2、表3及表4可知模型整體的顯著性非常高,因?yàn)閜值遠(yuǎn)小于0.05;從表3及表4可看出三個(gè)偽決定系數(shù)及擬合優(yōu)度都很高,說(shuō)明模型擬合效果非常好。下面給出模型的反向檢驗(yàn)結(jié)果。
表5 歸類概率及判斷結(jié)果(精確到萬(wàn)分位)
利用式(4)~(10)及式(3)可求出樣本隸屬各類的概率,并按最大概率原則歸類,計(jì)算結(jié)果見(jiàn)表5。
說(shuō)明:從表5的判定結(jié)果知該模型的擬合預(yù)測(cè)精確為100%,表明logistic回歸為概率型非線性回歸模型具有很高的區(qū)分度,也說(shuō)明將此類問(wèn)題轉(zhuǎn)化成類別識(shí)別或模式識(shí)別問(wèn)題來(lái)解決完全可行。另外,將該類問(wèn)題看成決策問(wèn)題用概率統(tǒng)計(jì)理論方法解答克服了傳統(tǒng)單一模型方法精確不高的缺點(diǎn)。
下面給同3個(gè)測(cè)試樣本(2017年全國(guó)大學(xué)生數(shù)學(xué)建模C題),見(jiàn)表6。
表6 測(cè)試樣本的二氧化硫的濃度與顏色讀數(shù)
將表6中3個(gè)樣本的特征指標(biāo)值代入式(4)至式(10),并按式(3)求得樣本屬于各類的概率,并按最大概率歸類,如表7所示。
表7 測(cè)試樣本的濃度預(yù)測(cè)結(jié)果(精確到萬(wàn)分位)
可見(jiàn)預(yù)測(cè)精度為100%,說(shuō)明多項(xiàng)logistic概率回歸模型具有非常高的擬合預(yù)測(cè)能力,用物質(zhì)濃度預(yù)測(cè)、以及其他模式識(shí)別或類別辨識(shí)完全可行。
logistic回歸模型是一種基于概率的多元非線性問(wèn)題的處理方法。實(shí)例分析表明該方法用于類別辨識(shí)或模式識(shí)別具有很高的精確度。對(duì)樣本物質(zhì)濃度進(jìn)行適當(dāng)類別劃分,用表征濃度的特征數(shù)值創(chuàng)建多項(xiàng) logistic回歸模型,并用統(tǒng)計(jì)軟件SPSS估算模型系數(shù),通過(guò)對(duì)建模樣本和測(cè)試樣本的擬合預(yù)測(cè)精度的分析,準(zhǔn)確度均達(dá)到100%,表明該模型預(yù)測(cè)效果很好,值得工程技術(shù)人員借鑒。