蒲寶卿,劉代娜
比色法是目前常用的一種檢測(cè)物質(zhì)濃度的方法,即把待測(cè)物質(zhì)制備成溶液后滴在特定的白色試紙表面,等其充分反應(yīng)后獲得一張有顏色的試紙,再把該顏色試紙與一個(gè)標(biāo)準(zhǔn)比色卡進(jìn)行對(duì)比,就可以確定待測(cè)物質(zhì)的濃度檔位了.本方法廣泛應(yīng)用在科學(xué)實(shí)驗(yàn)、醫(yī)藥衛(wèi)生、農(nóng)業(yè)生產(chǎn)等領(lǐng)域,比如礦物質(zhì)中銻含量的測(cè)定、金黃色葡萄球菌腸毒素B的檢測(cè)、牛乳中蛋白質(zhì)的含量測(cè)定等[1].
然而此類研究大部分注重的是溶液配制、光波吸收度對(duì)物質(zhì)濃度的影響,使用比色卡顏色讀數(shù)來測(cè)量物質(zhì)濃度的研究較少,而且由于每個(gè)人對(duì)顏色的敏感差異和觀測(cè)誤差,使得這一方法在精度上受到很大影響.隨著照相技術(shù)和顏色分辨率的提高,希望建立顏色讀數(shù)和物質(zhì)濃度的數(shù)量關(guān)系,即只要輸入照片中的顏色讀數(shù)就能夠獲得待測(cè)物質(zhì)的濃度[2].
根據(jù)5種物質(zhì):組胺、溴酸鉀、工業(yè)堿、硫酸鋁鉀、奶中尿素,在不同濃度下的顏色讀數(shù)[2],分別建立五種散點(diǎn)圖觀察分析.例如對(duì)第一種物質(zhì)組胺建立顏色讀數(shù)和濃度(ppm)的平滑散點(diǎn)關(guān)系圖(見圖1),發(fā)現(xiàn)二者之間的線性關(guān)系明顯.
圖1 組胺濃度和顏色讀數(shù)的關(guān)系
利用同樣的方法分析其余四組數(shù)據(jù):
1)溴酸鉀溶液濃度與飽和度色卡讀數(shù)存在顯著的正相關(guān)性,濃度在0~25ppm之間時(shí)讀數(shù)變化幅度最大.
2)工業(yè)堿溶液濃度在0~8ppm之間時(shí)顏色讀數(shù)基本沒有變化,濃度在8~12ppm之間時(shí)讀數(shù)變化幅度大.
3)硫酸鋁鉀溶液濃度在0~2ppm之間時(shí)顏色讀數(shù)有較明顯變化,濃度在2~5ppm之間時(shí)顏色讀數(shù)基本沒有變化.
4)奶中尿素溶液濃度在0~2500ppm之間變化時(shí)(濃度變化區(qū)間相對(duì)前四種物質(zhì)區(qū)間很大),但是顏色讀數(shù)基本沒有變化或者變化幅度很小.
通過分析發(fā)現(xiàn)除了色調(diào)H與物質(zhì)濃度變化關(guān)系不太明顯以外,其余四項(xiàng)讀數(shù)藍(lán)色顏色值B、綠色顏色值G、紅色顏色值R、飽和度S與物質(zhì)濃度的線性關(guān)系明顯,尤其是和飽和度S正線性相關(guān)關(guān)系最為顯著.
通過以上分析發(fā)現(xiàn),雖然各種物質(zhì)濃度受不同讀數(shù)的影響程度不同,但總體來講都有影響.現(xiàn)假設(shè)物質(zhì)濃度用符號(hào)C表示,物質(zhì)濃度與顏色讀數(shù)的各個(gè)不同顏色讀數(shù)之間關(guān)系可表示為
首先討論特殊情況:在測(cè)定組胺、溴酸鉀、工業(yè)堿、硫酸鋁鉀、奶中尿素等五種物質(zhì)濃度時(shí),待測(cè)物質(zhì)濃度為0時(shí)的顏色讀數(shù)如表1所示.
表1 濃度為0時(shí)顏色讀數(shù)對(duì)比
從表1可以看出,不同物質(zhì)溶液在濃度為0的情況下顏色大不相同,甚至同種物質(zhì)濃度為0時(shí)的讀數(shù)也不盡同.引起這些測(cè)試結(jié)果的原因是由于不同物質(zhì)的測(cè)試試紙的差異、同種試紙反應(yīng)誤差、對(duì)照試紙時(shí)的光線強(qiáng)弱不同等原因造成的.通過對(duì)比發(fā)現(xiàn),同種物質(zhì)的讀數(shù)有變化但不是很大,而不同物質(zhì)之間的讀數(shù)差別非常大,這說明測(cè)定不同物質(zhì)的試紙,顏色讀數(shù)隨物質(zhì)濃度變化的規(guī)律不同,需要分別針對(duì)每種物質(zhì)構(gòu)建顏色讀數(shù)與物質(zhì)濃度模型.
1)存在非線性關(guān)系.顏色讀數(shù)和物質(zhì)濃度之間可能存在非線性關(guān)系,例如工業(yè)堿顏色讀數(shù)和濃度之間的關(guān)系.通過變化圖可以看出顏色讀數(shù)和濃度之間明顯不是線性關(guān)系.
2)數(shù)據(jù)量太少引起過度擬合問題.由于測(cè)量中得到的數(shù)據(jù)量太少,數(shù)據(jù)觀測(cè)次數(shù)也太少.例如溴酸鉀、組胺兩種物質(zhì)只測(cè)定了5種不同的濃度,每種濃度測(cè)量數(shù)僅為2.工業(yè)堿雖然測(cè)了7種不同濃度,但是測(cè)量次數(shù)僅為1次.根據(jù)一般數(shù)據(jù)統(tǒng)計(jì)的規(guī)律,數(shù)據(jù)量太少而自變量過多時(shí),很容易出現(xiàn)過度擬合問題[3].過度擬合是指為了得到一致假設(shè)而使假設(shè)變得過度嚴(yán)格,基于這樣的數(shù)據(jù)建立的模型不具有普遍適用性.避免過度擬合通常采用增大數(shù)據(jù)量和測(cè)試樣本集的方法.
評(píng)價(jià)數(shù)據(jù)優(yōu)劣可以采用灰色相關(guān)性、層次聚類等方法分析.但最終都是要判斷誤差大小,對(duì)于某種特定物質(zhì)而言,同種濃度下的顏色讀數(shù)之間差別是由誤差造成的,差別越小則數(shù)據(jù)質(zhì)量越高[4].本文中使用相對(duì)標(biāo)準(zhǔn)偏差來評(píng)價(jià)比色方法的精密度,所有標(biāo)準(zhǔn)偏差值的均值可作為數(shù)據(jù)整體質(zhì)量好壞的評(píng)價(jià)標(biāo)準(zhǔn).
針對(duì)顏色讀數(shù)與物質(zhì)濃度的關(guān)系,我們假設(shè)以下兩種模型.
其中,C:物質(zhì)濃度,X1:藍(lán)色顏色值B,X2:綠色顏色值G,X3:紅色顏色值R,X4:色調(diào)H,X5:飽和度S,β1為常量,β2、β3、β4、β5、β6均為系數(shù).
其中,C:物質(zhì)濃度,X:降維后確定的顏色值,a為系數(shù),b為X的指數(shù).
由于給出的數(shù)據(jù)有可能出現(xiàn)異常,所以首先進(jìn)行數(shù)據(jù)預(yù)處理.按照第一題中的方法分析數(shù)據(jù)質(zhì)量,分別計(jì)算不同濃度下每種顏色維度的相對(duì)標(biāo)準(zhǔn)偏差RSD值,計(jì)算結(jié)果如表2所示.
表2 二氧化硫各種顏色維度RSD值(%)
表2中所有RSD的均值為0.8423,其中四項(xiàng)RSD值大于1,如上表對(duì)應(yīng)的異常值.通過對(duì)二氧化硫不同濃度的測(cè)量數(shù)據(jù)[2]分析可知,有三次測(cè)量值存在嚴(yán)重誤差,如表3所示.
表3 異常數(shù)據(jù)項(xiàng)
表3中去除異常數(shù)據(jù)后濃度為0時(shí)色調(diào)H的RSD值為2.9425,濃度為0時(shí)飽和度S的RSD值為0.4225,平均RSD值變?yōu)?.4736,遠(yuǎn)低于原始數(shù)據(jù)0.8423,由此可見,去掉異常數(shù)據(jù)后,數(shù)據(jù)質(zhì)量得到明顯提高.
由前面的分析發(fā)現(xiàn),用單純的多元線性回歸擬合效果可能不好.考慮分別采用多元線性模型、非線性模型分析濃度與各顏色維度之間的關(guān)系,比較后得到較優(yōu)的模型.
1)多元線性模型.首先去掉三次異常數(shù)據(jù)后構(gòu)建一個(gè)多元線性模型.在Excel中進(jìn)行多元線性回歸得到的結(jié)果
本次線性回歸分析中,R2=0.878,標(biāo)準(zhǔn)誤差RMSE達(dá)到20.14,整體擬合效果不是很好.本次回歸涉及到五個(gè)顏色維度,不同顏色維度之間可能存在一些相互關(guān)聯(lián),比如色調(diào)與紅、藍(lán)、綠有關(guān)系,飽和度同樣與紅、藍(lán)、綠三種顏色有關(guān),這樣很難避免多重共線性問題.多重共線性是指線性回歸模型中的解釋變量之間由于存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系而使模型估計(jì)失真或難以估計(jì)準(zhǔn)確.一般來說,由于數(shù)據(jù)的限制使得模型設(shè)計(jì)不當(dāng),導(dǎo)致設(shè)計(jì)矩陣中解釋變量間存在普遍的相關(guān)關(guān)系[5].可以用逐步回歸法解決多重共線問題.
2)非線性模型.通過前面多元線性回歸發(fā)現(xiàn)色調(diào)值與濃度之間的變化關(guān)系比較明顯,可以考慮建立非線性關(guān)系模型.在Matlab中采用擬合方法構(gòu)建二氧化硫濃度與色調(diào)讀數(shù)之間的模型,如圖2所示,相關(guān)參數(shù)如表4所示.
圖2 二氧化硫濃度與色調(diào)讀數(shù)關(guān)系擬合
表4 非線性模型擬合參數(shù)
本次擬合中,R2的值達(dá)到0.9433,RMSE的值為13.59,擬合效果比第一種要好.
數(shù)據(jù)量和顏色維度對(duì)模型的影響有兩方面:多重共線性和過度擬合.當(dāng)數(shù)據(jù)量多而顏色維度少時(shí)模型將沒有足夠的解釋能力;當(dāng)數(shù)據(jù)量少而顏色維度較高時(shí)會(huì)造成過度擬合問題.本文在處理過程中通過逐步回歸的方法進(jìn)行降維處理,最后得到的非線性模型要優(yōu)于線性模型.