賈利紅 張國(guó)宏* 王 毅 閆曉劍 王小琴 郭 艷 宋廷富 安明哲
(1.四川長(zhǎng)虹電器股份有限公司,綿陽(yáng) 621000;2.宜賓五糧液股份有限公司,宜賓 644000)
隨著微機(jī)電技術(shù)的發(fā)展,近幾年,便攜式近紅外光譜儀被廣泛應(yīng)用于化工[1,2]、食品[3,4]、飲料[5]、醫(yī)藥[6,7]等各個(gè)領(lǐng)域,相較于傳統(tǒng)的大型傅里葉變換光譜分析系統(tǒng),其具有結(jié)構(gòu)簡(jiǎn)單、成本低廉、攜帶方便、結(jié)果實(shí)時(shí)可見等優(yōu)勢(shì),目前已成為光譜領(lǐng)域的熱門產(chǎn)品[8]。但其自身也存在一定的不足,如預(yù)測(cè)結(jié)果不穩(wěn)定、預(yù)測(cè)準(zhǔn)確率略低等[9,10],尤其是針對(duì)待檢樣本形態(tài)不穩(wěn)定的定量分析場(chǎng)景,如酒醅樣品,其固液混合的物理形態(tài),及隨著時(shí)間的推移、環(huán)境的變化,持續(xù)發(fā)酵的狀態(tài)[11-13],均對(duì)近紅外光譜儀模型的穩(wěn)定性及可靠性提出了很高的要求。
在近紅外光譜數(shù)據(jù)建模方面,何思洋等利用PLS建模算法對(duì)能源高粱莖、葉的近紅外光譜建立能源轉(zhuǎn)化相關(guān)化學(xué)成分分析模型,通過(guò)光譜一階導(dǎo)和光譜點(diǎn)“競(jìng)爭(zhēng)性自適應(yīng)權(quán)重(CARS)”篩選等方法對(duì)模型進(jìn)行優(yōu)化[14]。譚惠芬等將反滲透復(fù)合膜近紅外原始光譜用Savitziky-Golay法平滑、二階微分法預(yù)處理后,通過(guò)選擇間苯二胺、三乙胺和十二烷基苯磺酸鈉的PLS因子數(shù)及特定波長(zhǎng)區(qū)間對(duì)模型進(jìn)行優(yōu)化[15]。徐杰等在傅立葉變換紅外光譜儀上采集不同混合比例的黏纖與氨綸樣品的近紅外光譜圖,利用偏最小二乘法(PLS)建立黏氨織物的近紅外光譜定量分析模型。通過(guò)選擇不同的分辨率、掃描次數(shù)、預(yù)處理方法和波段對(duì)模型進(jìn)行優(yōu)化[16]。綜上所述,目前行業(yè)內(nèi)近紅外光譜數(shù)據(jù)建模優(yōu)化工作,主要集中于數(shù)據(jù)源篩選、預(yù)處理算法優(yōu)化、模型篩選算法優(yōu)化等基于PLS算法的單模型建模優(yōu)化工作,此類建模算法主要適用于高精度的傅里葉近紅外光譜儀數(shù)據(jù)或樣本為單一固態(tài)或液態(tài)的近紅外光譜數(shù)據(jù)。對(duì)于自身硬件分辨率較低的便攜式近紅外光譜儀以及一些自身形態(tài)較復(fù)雜的樣本,適用性較差。因此本文在基于PLS算法建模的基礎(chǔ)上,引入集成建模方法,將提取的相對(duì)較穩(wěn)定、準(zhǔn)確率較高的若干個(gè)酒醅基模型利用設(shè)定的特定準(zhǔn)則進(jìn)行集成,以此來(lái)提升便攜式近紅外光譜儀模型整體性能,為其批量應(yīng)用于產(chǎn)線提供有效的算法支撐。
選取釀酒車間共計(jì)1750個(gè)酒醅樣品作為實(shí)驗(yàn)樣本,其中出窖酒醅、入窖酒醅各875個(gè)。樣本待檢成分主要有入窖水分、入窖酸度、入窖淀粉、出窖水分、出窖酸度、出窖淀粉,各成分標(biāo)定值由車間技術(shù)人員通過(guò)標(biāo)準(zhǔn)的理化分析實(shí)驗(yàn)所得。
本次實(shí)驗(yàn)數(shù)據(jù)采集選用四川長(zhǎng)虹自主研發(fā)的PV800R-I便攜式近紅外光譜儀套件,圖1a為便攜式近紅外光譜儀及配套移動(dòng)終端,圖1b為制備酒醅樣品的工裝件。其中光譜儀波段范圍為1350 nm~2150 nm,采樣間隔為6 nm,重量約750g。
圖1 PV800R-I便攜式近紅外光譜儀套件
本次實(shí)驗(yàn)在常溫條件下,將固液混合態(tài)的酒醅樣品裝入光譜儀的配套工裝件中,填滿壓實(shí)備用。具體的采樣過(guò)程為PV800R-I通過(guò)藍(lán)牙與智能移動(dòng)終端連接,利用智能移動(dòng)終端的客戶端,控制近紅外光譜儀對(duì)已經(jīng)制備好的樣品進(jìn)行采樣,然后將采集的數(shù)據(jù)通過(guò)無(wú)線網(wǎng)絡(luò)傳送到樣品光譜數(shù)據(jù)庫(kù)中以備分析使用。為了保證光譜數(shù)據(jù)采樣的準(zhǔn)確性及穩(wěn)定性,每一個(gè)樣本的原始光譜數(shù)據(jù)均通過(guò)光譜儀在工裝件上均勻旋轉(zhuǎn)采樣6次,取平均所得。
由于便攜式近紅外光譜儀本身精度限制及酒醅樣本自身的復(fù)雜形態(tài),造成了基于此類樣本采集的近紅外光譜數(shù)據(jù)進(jìn)行建模,模型針對(duì)同一樣本多次預(yù)測(cè),結(jié)果重復(fù)性差,穩(wěn)定性欠佳;同時(shí)模型對(duì)樣本各成分的預(yù)測(cè)準(zhǔn)確率較低,遲遲達(dá)不到產(chǎn)線要求。考慮到這些影響因素的原發(fā)性,本實(shí)驗(yàn)摒棄傳統(tǒng)的單模型優(yōu)化思路,嘗試將效果欠佳的各個(gè)單模型利用集成建模方法,按設(shè)定的特定準(zhǔn)則進(jìn)行集成,利用集成模型對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),進(jìn)而提升便攜式近紅外光譜儀的預(yù)測(cè)準(zhǔn)確率。具體建模流程如圖2所示。
圖2 集成建模流程圖
1.3.1 樣本集合劃分
選定出窖、入窖各774條作為樣本集T,利用隨機(jī)抽樣方式提取100條樣本為驗(yàn)證集V1,剩余樣本為訓(xùn)練集T1;將樣本集T按采集時(shí)間排序,選取最新采集的100條樣本為驗(yàn)證集V2,剩余樣本為訓(xùn)練集T2。
1.3.2 數(shù)據(jù)建模
近紅外光譜數(shù)據(jù)建模主要分為兩部分,即數(shù)據(jù)預(yù)處理及線性擬合。其中預(yù)處理算法采用高斯平滑(半窗寬∈[1,2,…,12])、高斯求導(dǎo)(多項(xiàng)式階次∈[2,4,6])、SG平滑(半窗寬∈[1,2,…,12],多項(xiàng)式階次∈[1,2,…,6])、去趨勢(shì)(階次∈[1,2,…,4])、SNV及l(fā)og,共計(jì)93種。數(shù)據(jù)線性擬合采用偏最小二乘法(主成分區(qū)間∈[1,2,…,15])。基于以上組合,每個(gè)樣本集的建模數(shù)量總計(jì)為1395種。
1.3.3 基模篩選
將樣本集T作為訓(xùn)練集,進(jìn)行數(shù)據(jù)建模,選取RMSECV最小的模型作為最優(yōu)基模型,其中為標(biāo)定值,Yp為采用留一法交叉驗(yàn)證的預(yù)測(cè)值,n為訓(xùn)練集樣本數(shù)量;對(duì)于包含驗(yàn)證集的樣本集合,計(jì)算驗(yàn)證集最大準(zhǔn)確率P,選定系數(shù)?(??(0.5,1)),提取準(zhǔn)確率大于?P的所有模型中RMSECV最小的模型為最優(yōu)基模型。根據(jù)以上篩選指標(biāo)進(jìn)行基模篩選后,保存最優(yōu)基模型相應(yīng)的建模參數(shù),包括預(yù)處理方法及參數(shù),Beta值(線性擬合參數(shù)值)以及模型的R2值。
1.3.4 權(quán)重計(jì)算
對(duì)所有基模的R2值進(jìn)行歸一化,即
其中n為基模的個(gè)數(shù),ti為對(duì)應(yīng)基模的權(quán)重值。
經(jīng)過(guò)以上光譜數(shù)據(jù)處理,最終得到實(shí)驗(yàn)中入窖、出窖各成分集成模型參數(shù)如表1所示。其中每個(gè)集成模型均由5個(gè)基模型組合而成,其樣本集劃分采用了1.3.1中原始樣本、隨機(jī)樣本、臨近樣本的劃分方式,同時(shí)對(duì)隨機(jī)樣本、臨近樣本分別采取了?=0.9及?=0.95兩種篩選標(biāo)準(zhǔn)。對(duì)于每個(gè)基模型,分別給出了可以表征模型解釋性能、預(yù)測(cè)性能相應(yīng)的R2值、留一法下的RMSECV值及驗(yàn)證集預(yù)測(cè)準(zhǔn)確率值等。
表1 集成模型參數(shù)
1.3.5 集成預(yù)測(cè)
引入本次實(shí)驗(yàn)需要預(yù)測(cè)的出窖、入窖光譜數(shù)據(jù)各101條,對(duì)其進(jìn)行基模對(duì)應(yīng)的預(yù)處理,將預(yù)處理后的數(shù)據(jù)與基模的Beta值相乘得到基模的預(yù)測(cè)結(jié)果,將多個(gè)基模的預(yù)測(cè)結(jié)果結(jié)合其權(quán)重值,最終生成理想的集成模型的預(yù)測(cè)結(jié)果。待預(yù)測(cè)樣本的預(yù)測(cè)值Yp計(jì)算公式為:
其中Xpi為待預(yù)測(cè)樣本的光譜數(shù)據(jù)經(jīng)基模對(duì)應(yīng)的預(yù)處理方法處理后得到的數(shù)據(jù)集合,n為基模的個(gè)數(shù),本次實(shí)驗(yàn)中n=5。
結(jié)合余梅[17]等提出的優(yōu)化光譜預(yù)處理算法及李良[18]等在酒醅分析中提出的基于PLS的單模型建模算法對(duì)本實(shí)驗(yàn)酒醅數(shù)據(jù)進(jìn)行建模,通過(guò)多種預(yù)處理組合優(yōu)化,有效剔除了光譜數(shù)據(jù)中的大量無(wú)用信息,并結(jié)合PLS算法,將高達(dá)300維的光譜數(shù)據(jù)進(jìn)行有效降維,提升了光譜數(shù)據(jù)的有效性及準(zhǔn)確度。最后以RMSECV作為模型篩選指標(biāo),利用篩選的最優(yōu)模型對(duì)101條未知樣本進(jìn)行模型外驗(yàn)證。圖3a~圖3f依次給出了入窖水分、出窖水分、入窖酸度、出窖酸度、入窖淀粉、出窖淀粉6個(gè)指標(biāo)的模型外預(yù)測(cè)分布情況,圖中橫坐標(biāo)Y為標(biāo)定值,縱坐標(biāo)Yp為預(yù)測(cè)值,黃色區(qū)域?yàn)槟P驮试S的誤差范圍(水分、淀粉允許誤差為絕對(duì)偏差±1,酸度允許誤差范圍為絕對(duì)偏差±0.3)。
由圖3可知,單模型整體表現(xiàn)較穩(wěn)定,各個(gè)指標(biāo)預(yù)測(cè)分布均集中在目標(biāo)線周圍,體現(xiàn)了相應(yīng)優(yōu)化建模算法整體的可靠性。但縱觀入窖酒醅、出窖酒醅自身各成分模型間的對(duì)比,其模型外的表征能力出現(xiàn)了較大的差異性,如圖3a與圖3e其模型預(yù)測(cè)出現(xiàn)了非常明顯的相反趨勢(shì),即水分模型普遍預(yù)測(cè)值小于標(biāo)定值,而淀粉模型則反之。同理在圖3b與圖3d間也出現(xiàn)了類似的情況;對(duì)于同成分模型,入窖酒醅、出窖酒醅也表現(xiàn)出了較大的差異性,如該光譜儀模型對(duì)圖3c中入窖酸度預(yù)測(cè)效果良好,但對(duì)3e中的出窖酸度預(yù)測(cè)效果欠佳;統(tǒng)計(jì)分析以上6個(gè)模型的預(yù)測(cè)結(jié)果,其中圖3a、圖3b、圖3d、圖3e模型均未達(dá)到產(chǎn)線要求,即高達(dá)2/3的模型表現(xiàn)不佳。單模型建模方法對(duì)樣本數(shù)據(jù)具有高度依賴性,而本實(shí)驗(yàn)中的固液混合態(tài)酒醅樣本組成成分復(fù)雜,且處于一種持續(xù)發(fā)酵的狀態(tài)中,再疊加以便攜式近紅外光譜儀自身的識(shí)別誤差,從而造成了光譜數(shù)據(jù)波動(dòng),進(jìn)而造成了單模型的泛華能力弱、識(shí)別準(zhǔn)確率低的情況發(fā)生。如何在特定硬件條件下,削弱模型對(duì)原始數(shù)據(jù)、硬件狀態(tài)的高依賴性,提升特殊樣本模型的泛化能力成為了一個(gè)亟待解決的實(shí)際問題。
圖3 出入窖各指標(biāo)單模型預(yù)測(cè)結(jié)果
酒醅樣本會(huì)隨著溫度的變化、時(shí)間的推移,發(fā)生緩慢變化,進(jìn)而會(huì)造成樣本光譜特性發(fā)生變化。集成建模方法中,臨近方式的樣本劃分,充分考慮了酒醅樣本發(fā)酵的時(shí)序特性,用采樣時(shí)間最臨近預(yù)測(cè)樣本集的樣本來(lái)表征,保證了模型的局部穩(wěn)定性;同時(shí)隨機(jī)方式的樣本劃分,旨在保證訓(xùn)練集及驗(yàn)證集光譜樣本的分布均勻,可有效提升模型的全局穩(wěn)定性;最后結(jié)合RMSECV及驗(yàn)證集最優(yōu)準(zhǔn)確率多指標(biāo)相結(jié)合篩選,有效提升了模型的可靠性。相較于單模型的建模方法,集成模型建模方法生成的模型,可以極大地彌補(bǔ)硬件、樣本、環(huán)境等因素造成的波動(dòng),提升了模型的魯棒性及預(yù)測(cè)準(zhǔn)確率。表2中給出了單模型及集成建模模型外預(yù)測(cè)準(zhǔn)確率統(tǒng)計(jì),表2中單模型的統(tǒng)計(jì)結(jié)果對(duì)應(yīng)于圖3a~圖3f中的各個(gè)模型。
表2 單模型與集成模型預(yù)測(cè)準(zhǔn)確率對(duì)比
將表2中集成建模預(yù)測(cè)結(jié)果與表1中各個(gè)基模型驗(yàn)證集預(yù)測(cè)結(jié)果加以對(duì)比,發(fā)現(xiàn)以R2為模型集成的權(quán)重計(jì)量標(biāo)準(zhǔn),有效將集成模型中的各個(gè)基模型間的波動(dòng)差異拉至其整體預(yù)測(cè)能力的中上水平以上,保證了最終結(jié)果的可靠性、穩(wěn)定性及高準(zhǔn)確性。橫向?qū)Ρ缺?中集成模型在出窖酒醅、入窖酒醅各個(gè)成分的預(yù)測(cè)水平,其總體分布均衡,預(yù)測(cè)能力相當(dāng),表現(xiàn)了較高的穩(wěn)定性。與單模型縱向?qū)Ρ?,各指?biāo)準(zhǔn)確率均有不同幅度提升,其中在出窖水分、出窖酸度、入窖水分、入窖淀粉方面提升明顯,6個(gè)指標(biāo)準(zhǔn)確率平均提升約8.0%。各指標(biāo)準(zhǔn)確率均達(dá)到了釀酒車間的應(yīng)用要求,除去出窖酸度指標(biāo),其余指標(biāo)甚至已逼近實(shí)驗(yàn)室大型傅里葉光譜儀設(shè)備性能指標(biāo)。
利用便攜式近紅外光譜儀,對(duì)釀酒車間出窖酒醅、入窖酒醅各774個(gè)樣本,分別以單模型建模方法、集成建模方法進(jìn)行酒醅各成分光譜建模,并對(duì)101個(gè)未知樣本進(jìn)行模型外部驗(yàn)證分析。結(jié)果表明,基于集成模型的建模方法,可以有效彌補(bǔ)便攜式光譜儀在采樣精度、穩(wěn)定性等方面的不足,以及酒醅樣本的復(fù)雜形態(tài)造成的數(shù)據(jù)波動(dòng)。相較于單模型預(yù)測(cè)準(zhǔn)確率,其性能有穩(wěn)定提升,甚至可有效逼近大型傅里葉光譜儀設(shè)備預(yù)測(cè)效果。本實(shí)驗(yàn)研究為便攜式光譜儀落地應(yīng)用提供了一種實(shí)用建模方法,可有效推動(dòng)便攜式光譜儀在產(chǎn)線上大面積應(yīng)用、指導(dǎo)生產(chǎn),進(jìn)而產(chǎn)生可觀經(jīng)濟(jì)效益。