logistic回歸概率模型在物質(zhì)濃度辨識(shí)中的應(yīng)用

2018-12-06 02:01王誠(chéng)劉碩

中國(guó)建材科技 2018年4期

王誠(chéng) 劉碩

（蘭州石化職業(yè)技術(shù)學(xué)院信息處理與控制工程學(xué)院，甘肅蘭州730060）

0 引言

比色法是目前常用的一種檢測(cè)物質(zhì)濃度的方法，即把待測(cè)物質(zhì)制備成溶液后滴在特定的白色試紙表面，等其充分反應(yīng)以后獲得一張有顏色的試紙，再把該顏色試紙與一個(gè)標(biāo)準(zhǔn)比色卡進(jìn)行對(duì)比，就可以確定待測(cè)物質(zhì)的濃度檔位了。由于每個(gè)人對(duì)顏色的敏感差異和觀測(cè)誤差，使得這一方法在精度上受到很大影響。隨著照相技術(shù)和顏色分辨率的提高，希望建立顏色讀數(shù)和物質(zhì)濃度的數(shù)學(xué)模型，即只要給模型輸入照片中的顏色讀數(shù)就能夠通過(guò)計(jì)算獲得待測(cè)物質(zhì)的濃度，而模型的精度直接關(guān)系著待測(cè)物質(zhì)濃度的準(zhǔn)確性,見(jiàn)于監(jiān)測(cè)數(shù)據(jù)呈現(xiàn)明顯的類狀或族狀，可以將物質(zhì)濃度判斷問(wèn)題歸結(jié)為類別辨誤問(wèn)題或模式識(shí)別問(wèn)題。為此，本文在已知顏色讀數(shù)和相應(yīng)物質(zhì)濃度實(shí)驗(yàn)數(shù)據(jù)的基礎(chǔ)上建立了基于logistic回歸的物質(zhì)濃度識(shí)別模型，該模型是實(shí)質(zhì)上是一種多元非線性概率回歸分析模型，實(shí)例分析表明用該模型預(yù)測(cè)物質(zhì)濃度具有很高的精確度，好于支持向量機(jī)[1-2]、神經(jīng)網(wǎng)絡(luò)[3-4]等辨識(shí)模型，值得工程技術(shù)人員借鑒。

1 logistic回歸概率模型

設(shè)表征物質(zhì)濃度的常用顏色有：藍(lán)色B、綠色G、紅色R、色調(diào)H、飽和度S，其讀數(shù)分別為x1、x2、x3和x4；對(duì)物質(zhì)濃度進(jìn)行類別劃分，類別值{1,2,…,J}（J為總類別數(shù)）；設(shè)研究對(duì)象（物體）記為X，其樣本集X={X1,X2,…,Xn}（Xi為樣本，i=1,2,…,n），且Xi=（xi1,xi2,xi3,xi4）。物質(zhì)濃度類別Y∈{1,2,…,J}與其特征值（顏色讀數(shù)）之間存在非線性概率關(guān)系。設(shè)樣本Xi的濃度屬于第J類的概率為PJ，以Y=J作為參考類別，則對(duì)于Y=J（j=1,2,…,J-1），其logistic變換logit模型[5-6]為：

其中：Bj0,Bj1,…,Bj4為logistic回歸的偏回歸系數(shù)，表示變量xi對(duì)Y的影響大小，B0j為常數(shù)項(xiàng)；為樣本的第j個(gè)參數(shù)值；而對(duì)于參考類別, 其模型中的所有系數(shù)均為0，即GJ=0。由式（1）得：

式（1）中的模型系數(shù)Bj0,Bj1,…,Bj4，由建模樣本數(shù)據(jù)及統(tǒng)計(jì)軟件SPSS19[7-8]完成。

2 數(shù)據(jù)來(lái)源及模型建立

2017年全國(guó)大學(xué)生數(shù)學(xué)建模C題給出一組二氧化硫的濃度與其顏色的讀數(shù)，見(jiàn)表1所示。

表1 二氧化硫的濃度與顏色讀數(shù)

首先按濃度大小分類，將濃度為0，20，30，50，80，100，150對(duì)應(yīng)的樣本分別看成一類，共7類，類別值分別為1，2，3，4，5，6，7。當(dāng)類別值為1時(shí)，則對(duì)應(yīng)的濃度為0；當(dāng)類別值為2時(shí)，則對(duì)應(yīng)的濃度為20；當(dāng)類別值3時(shí)，則對(duì)應(yīng)的濃度為30；當(dāng)類別值4時(shí)，則對(duì)應(yīng)的濃度為50；依次類推。

將表1中二氧化硫指標(biāo)數(shù)據(jù)及相應(yīng)類別值列導(dǎo)入SPSS19中，選擇“分析”｜“回歸”｜“多項(xiàng)logistic”命令，按提示對(duì)話框完成所有操作，求得到的模型系數(shù)及模型見(jiàn)下式（4）～（10）：

由SPSS19得出模型擬合信息見(jiàn)表2，偽R方值見(jiàn)表3，擬合優(yōu)度見(jiàn)表4。

表2 模型擬合信息

表3 三個(gè)偽決定系數(shù)R方

表4 擬合優(yōu)度

從表2、表3及表4可知模型整體的顯著性非常高，因?yàn)閜值遠(yuǎn)小于0.05；從表3及表4可看出三個(gè)偽決定系數(shù)及擬合優(yōu)度都很高，說(shuō)明模型擬合效果非常好。下面給出模型的反向檢驗(yàn)結(jié)果。

表5 歸類概率及判斷結(jié)果（精確到萬(wàn)分位）

利用式（4）～（10）及式（3）可求出樣本隸屬各類的概率，并按最大概率原則歸類，計(jì)算結(jié)果見(jiàn)表5。

說(shuō)明:從表5的判定結(jié)果知該模型的擬合預(yù)測(cè)精確為100%，表明logistic回歸為概率型非線性回歸模型具有很高的區(qū)分度，也說(shuō)明將此類問(wèn)題轉(zhuǎn)化成類別識(shí)別或模式識(shí)別問(wèn)題來(lái)解決完全可行。另外，將該類問(wèn)題看成決策問(wèn)題用概率統(tǒng)計(jì)理論方法解答克服了傳統(tǒng)單一模型方法精確不高的缺點(diǎn)。

下面給同3個(gè)測(cè)試樣本（2017年全國(guó)大學(xué)生數(shù)學(xué)建模C題），見(jiàn)表6。

表6 測(cè)試樣本的二氧化硫的濃度與顏色讀數(shù)

將表6中3個(gè)樣本的特征指標(biāo)值代入式（4）至式（10），并按式（3）求得樣本屬于各類的概率，并按最大概率歸類，如表7所示。

表7 測(cè)試樣本的濃度預(yù)測(cè)結(jié)果（精確到萬(wàn)分位）

可見(jiàn)預(yù)測(cè)精度為100%，說(shuō)明多項(xiàng)logistic概率回歸模型具有非常高的擬合預(yù)測(cè)能力，用物質(zhì)濃度預(yù)測(cè)、以及其他模式識(shí)別或類別辨識(shí)完全可行。

3 結(jié)語(yǔ)

logistic回歸模型是一種基于概率的多元非線性問(wèn)題的處理方法。實(shí)例分析表明該方法用于類別辨識(shí)或模式識(shí)別具有很高的精確度。對(duì)樣本物質(zhì)濃度進(jìn)行適當(dāng)類別劃分，用表征濃度的特征數(shù)值創(chuàng)建多項(xiàng) logistic回歸模型，并用統(tǒng)計(jì)軟件SPSS估算模型系數(shù)，通過(guò)對(duì)建模樣本和測(cè)試樣本的擬合預(yù)測(cè)精度的分析，準(zhǔn)確度均達(dá)到100%，表明該模型預(yù)測(cè)效果很好，值得工程技術(shù)人員借鑒。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

logistic回歸概率模型在物質(zhì)濃度辨識(shí)中的應(yīng)用

0 引言

1 logistic回歸概率模型

2 數(shù)據(jù)來(lái)源及模型建立

3 結(jié)語(yǔ)