姚春燕 歐陽 付佳 劉念
摘 要: 文章對玉米光譜響應(yīng)數(shù)據(jù)和蛋白含量的生化檢測值進(jìn)行橫向、縱向整理分析與比較,分析蛋白含量引起光譜響應(yīng)數(shù)據(jù)的變化,最終通過多元線性回歸得到單一成分光譜分析模型.并且采用殘差分析方法,從殘差圖中將異常點剔除,從而達(dá)到模型的優(yōu)化.
關(guān)鍵詞: 控制變量法 多元線性回歸 最大似然理論 偏最小二乘法 殘差分析
近紅外光譜定量分析就是利用化學(xué)分析數(shù)據(jù)和近紅外光譜數(shù)據(jù)建立模型,確定模型參數(shù),然后以這個模型定量預(yù)測某些信息.
首先從廣西某屆研究生數(shù)學(xué)建模競賽題中獲取玉米樣品的光譜響應(yīng)數(shù)據(jù)和蛋白含量的生化檢測值,建立單一成分光譜分析模型.
在研究該模型中,最關(guān)鍵的是要找出蛋白含量的生化檢測值與光譜相應(yīng)數(shù)據(jù)之間的關(guān)系模型.對此,可根據(jù)前100個樣品的光譜響應(yīng)數(shù)據(jù)和蛋白含量的生化檢測值,從而檢測我們所建立的模型是否合理.因其中的營養(yǎng)成分和影響因素不唯一,我們采用控制變量法,即當(dāng)纖維含量與脂肪含量相同的情況下,為建立模型提供了明確的方向.
1.數(shù)據(jù)的分析
首先篩選出9組纖維含量與脂肪含量相同的樣品,具體反應(yīng)如下表所示:
2.數(shù)據(jù)的處理
2.1光譜波長的選取
對9組樣品的光譜響應(yīng)數(shù)據(jù)與光譜波長的變化作多元線性回歸(如圖1所示),設(shè)波長為自變量X、每一組樣品的光譜響應(yīng)數(shù)據(jù)為因變量Y.通過對9組樣品所顯示的圖像進(jìn)行分析,我們可得出蛋白含量在光譜波長為這些范圍內(nèi)時波動是最大的,詳細(xì)可見下圖:
對9組樣品圖像的峰值進(jìn)行分析,得出7個波長值,即光譜響應(yīng)數(shù)據(jù)在該七個波長處光譜響應(yīng)數(shù)據(jù)波動最活躍,七個光譜波長對應(yīng)的光譜響應(yīng)數(shù)據(jù)如表2所示:
2.2回歸分析
根據(jù)上表的七個波長分別得出前100樣品光譜響應(yīng)數(shù)據(jù)的對應(yīng)值建立線性回歸方程來預(yù)測因變量.設(shè)七個波長為自變量,波長對應(yīng)的前100樣品光譜響應(yīng)數(shù)據(jù)的對應(yīng)值為因變量.得出蛋白含量與前100樣品光譜響應(yīng)數(shù)據(jù)單一成分的光譜分析模型:
3.結(jié)論分析
3.1殘差分析
對上述公式進(jìn)行殘差分析,并對異常數(shù)據(jù)進(jìn)行剔除,用剩余數(shù)據(jù)重新建立回歸方程,提高回歸方程質(zhì)量.對殘差在置信帶以外的數(shù)據(jù)都要進(jìn)行檢查,辨別是否是異常數(shù)據(jù),如果是異常數(shù)據(jù)就要剔除.(如圖2所示)
從殘差圖可看出數(shù)據(jù)的殘差離零點的遠(yuǎn)近,當(dāng)殘差的置信區(qū)間均包含零點,這說明回歸模型符合原始數(shù)據(jù),否則可視為異常點,從而剔除7個異常點,即干擾數(shù)據(jù).
3.2顯著性檢驗
對多元線性回歸進(jìn)行回歸方程及各自變量的偏回歸系數(shù)于常數(shù)項的顯著性檢驗.
從表3看出多元線性回歸相關(guān)系數(shù)為0.000<0.05,具有顯著性水平.
另外下圖表明該模型的殘差服從正態(tài)分布.
其對應(yīng)的線性回歸方程為:
剩余標(biāo)準(zhǔn)差為1.1232,說明此回歸模型的顯著性較好.
4.結(jié)論
通過模型的建立與分析,得到了比較良好的蛋白含量與前100樣品光譜響應(yīng)數(shù)據(jù)單一成分的光譜分析模型: