付 碩,劉淑梅,張金龍,張曉瑞,韓方凱
(1.安徽創(chuàng)佳安全環(huán)境科技有限公司,安徽宿州 234000;2.江蘇大學(xué),江蘇鎮(zhèn)江 212013;3.宿州學(xué)院,安徽宿州 234000)
致腐菌導(dǎo)致食品腐敗變質(zhì),易產(chǎn)生有害物質(zhì),如小分子含氮化合物組胺等,直接威脅食品安全。因此,對食品中微生物污染狀況的監(jiān)測,對保障膳食安全極為重要?;罹倲?shù)(Total Viable Counts,TVC)是定量描述食品微生物污染狀況的指標(biāo)。然而TVC 的常規(guī)檢測方法,即平板計數(shù)法通常需要經(jīng)過48 h 的搖床培養(yǎng),待平板上微生物生長、繁殖成可觀察的菌落后,再對菌落進(jìn)行計數(shù),經(jīng)過換算,得到最終結(jié)果。平板計數(shù)法耗時、費力[1],無法快速反映食品微生物污染狀況,以及時調(diào)整食品保藏、銷售、加工等策略。
常見的食品快速檢測方法,如電子舌[2]、電子鼻[3]等智能仿生檢測方法以及近紅外[4]、高光譜[5]等光譜學(xué)檢測方法等,均已應(yīng)用于不同種類食品保藏期間TVC 的定量預(yù)測。然而,這些方法得到的電化學(xué)傳感器或光譜學(xué)信號,受食品基質(zhì)干擾嚴(yán)重[6],因此建立快速檢測方法所得到的傳感器信號與TVC之間精確度較高的定量預(yù)測模型,成為食品快速檢測方法應(yīng)用于生產(chǎn)實際的限制性因素之一。基于此,本研究以最常見的金屬氧化物半導(dǎo)體型電子鼻傳感器數(shù)據(jù)為輸入,對比采用偏最小二乘法(Partial Least Squares Regression,PLS)和快速人工神經(jīng)網(wǎng)絡(luò)極限學(xué)習(xí)機(Extreme Learning Machine,ELM)算法構(gòu)建牛肉貯藏期間TVC 快速定量預(yù)測模型的精確度,以期推進(jìn)食品快速檢測技術(shù)在食品生產(chǎn)實際中的應(yīng)用。
本研究數(shù)據(jù)來源于DEDY 等[7]于2018 年發(fā)表在《Data in Brief》的數(shù)據(jù)論文。所用的電子鼻系統(tǒng)是基于金屬氧化物半導(dǎo)體型氣敏傳感器陣列,該系統(tǒng)包含9 根MOS 傳感器。電子鼻試驗在密閉樣品室下持續(xù)36 h,每分鐘采集1 次傳感器信號,共計得到2 160 組電子鼻傳感器陣列數(shù)據(jù)。樣品共5 組,最終得到5×2 160 行9 列的數(shù)據(jù)矩陣用于本研究的模型構(gòu)建。電子鼻試驗期間,牛肉樣品的TVC 從3 lgCFU·g-1以下(微生物污染程度輕微)增殖到近5 lgCFU·g-1(微生物污染程度嚴(yán)重)。圖1 展示出所有樣品在電子鼻測試期間傳感器數(shù)據(jù)及TVC 數(shù)值,包含原始數(shù)據(jù)及歸一化至[0,1]后的數(shù)據(jù)。
圖1 模型構(gòu)建所用電子鼻傳感器陣列數(shù)據(jù)及牛肉活菌總數(shù)數(shù)據(jù)
研究以電子鼻傳感器所有數(shù)據(jù)為輸入,以對應(yīng)樣本TVC 實測值為輸出,對比采用線性的PLS 和非線性的ELM 構(gòu)建基于電子鼻技術(shù)的牛肉貯藏期間TVC 定量預(yù)測模型。選擇ELM 的主要原因是其計算速度顯著快于常見的BP-人工神經(jīng)網(wǎng)絡(luò)算法[8]。
在模型的構(gòu)建過程中,隨機選取1/3 的樣本作為測試集,其余樣本作為訓(xùn)練集,且在PLS 和ELM 模型構(gòu)建過程中保持一致。評估所采用的定量預(yù)測模型,本文依賴以下指標(biāo)。①相關(guān)系數(shù)(r)。該系數(shù)衡量電子鼻預(yù)測的牛肉TVC 值與實際值之間的相關(guān)性,r值越接近1,證明預(yù)測的相關(guān)性越高,具體計算方法見式(1)。②預(yù)測均方根誤差(Root Mean Square Error,RMSE)也作為關(guān)鍵指標(biāo),它用于測量電子鼻預(yù)測的牛肉TVC 值與實際值的誤差程度,RMSE 越低,代表預(yù)測精度越高,反之則預(yù)測精度較差。
式中:yi和分別為樣本集(訓(xùn)練集和預(yù)測集)中第i個牛肉樣本TVC 的實測值和預(yù)測值,lgCFU·g-1;為樣本集中所有牛肉樣本TVC 實測值的平均值,lgCFU·g-1[9];n為樣本數(shù)。
式中:yi和分別為預(yù)測集中第i個牛肉樣本TVC 的實測集和預(yù)測值,lgCFU·g-1;n為預(yù)測集樣本數(shù)[9]。
PLS 用于處理多個自變量和一個或多個因變量之間的關(guān)系,在解決多重共線性和高維數(shù)據(jù)問題時優(yōu)勢明顯。PLS 通過找到自變量和因變量之間的最大協(xié)方差來構(gòu)建線性回歸模型,用于預(yù)測未知樣本的因變量值。
基于PLS 的基礎(chǔ)理念,模型預(yù)測能力受到PLS主成分?jǐn)?shù)量的顯著影響。因此,在構(gòu)建PLS 模型過程中,對輸入的PLS 主成分?jǐn)?shù)進(jìn)行優(yōu)化是必要的。這一優(yōu)化過程采用了“留一法”交叉驗證。這種驗證方法的核心思想是將每個樣本視為驗證集,用剩下的(N-1)個樣本來創(chuàng)建PLS 模型,然后運用驗證集來檢測新構(gòu)建的PLS 模型,以預(yù)測值和實測值誤差的均值作為優(yōu)化PLS 主成分?jǐn)?shù)的指標(biāo)。如果對應(yīng)的RMSE 值最小,則認(rèn)為當(dāng)前條件下的PLS 模型是最優(yōu)的。PLS 主成分篩選結(jié)果如圖2 所示。
圖2 不同PLS 主成分下訓(xùn)練集預(yù)測誤差
從圖2 可以看出,當(dāng)主成分因子數(shù)為8 時,PLS模型的RMSE 最低,為0.319 7 lg CFU·g-1。此條件下,PLS 模型訓(xùn)練集和測試集對魚細(xì)菌總數(shù)的預(yù)測值和實測值之間的相關(guān)關(guān)系如圖3 所示,其測試集相關(guān)系數(shù)為0.937,預(yù)測RMSE 為0.324 lgCFU·g-1。
圖3 最佳PLS 主成分下模型預(yù)測值與實測值相關(guān)關(guān)系圖
ELM 是一種新型的單隱藏層前饋神經(jīng)網(wǎng)絡(luò)算法,具有出色的泛化性能和極快的學(xué)習(xí)速度。根據(jù)ELM理論,對于一個特定的模式識別問題,隱含層的神經(jīng)元個數(shù)和傳遞函數(shù)可供篩選和優(yōu)化,以獲得預(yù)測性能較優(yōu)的預(yù)測模型。鑒于人工神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元個數(shù)優(yōu)化范圍尚無統(tǒng)一范式可供遵循,本研究采用典型的試湊法,設(shè)定范圍為[1,50],優(yōu)化ELM隱含層神經(jīng)元個數(shù)。在ELM 隱含層傳遞函數(shù)的篩選上,對比采用3 種典型的函數(shù)[8],公式為
圖4 顯示了在隱含層神經(jīng)元個數(shù)[1,50]范圍內(nèi),3 種傳遞函數(shù)條件下,ELM 模型訓(xùn)練集和測試集的相關(guān)系數(shù)。從圖4 中可以看出,當(dāng)選擇Sin 函數(shù)作為傳遞函數(shù),且隱含層神經(jīng)元個數(shù)為45 的時候,ELM預(yù)測性能最佳,其訓(xùn)練集相關(guān)系數(shù)為0.976,測試集相關(guān)系數(shù)為0.972。
圖4 不同隱層激活函數(shù)及節(jié)點數(shù)下對ELM 模型訓(xùn)練集和測試集相關(guān)系數(shù)
最優(yōu)ELM 模型的基本結(jié)構(gòu)為9-45-1,包含9個電子鼻傳感器輸入變量,45 個單隱含層神經(jīng)元,1個樣品TVC 預(yù)測輸出變量。模型訓(xùn)練集和測試集對牛肉樣本TVC 的預(yù)測值及實測值依樣本序號排列結(jié)果如圖5 所示,此時訓(xùn)練集和測試集的RMSE 分別為0.040 lgCFU·g-1和0.047 lgCFU·g-1,優(yōu)于PLS 模型。
圖5 所建最優(yōu)ELM 模型訓(xùn)練集和測試集預(yù)測值與實測值情況
牛肉富含水分、蛋白質(zhì)、脂肪等營養(yǎng)成分,極易變質(zhì)腐敗。微生物的生長繁殖是引發(fā)牛肉變質(zhì)的主要原因。微生物生長繁殖過程中,釋放出大量的蛋白酶、脂肪氧化酶、過氧化物酶,使牛肉中的蛋白質(zhì)和脂肪等營養(yǎng)元素分解為低分子化合物。蛋白質(zhì)會被水解成肽,進(jìn)而分解成氨基酸。氨基酸經(jīng)過脫羧化、脫氨化、脫硫化等作用會生成相應(yīng)的氨、小分子胺、有機酸等。脂質(zhì)會在水解作用下生成游離脂肪酸、甘油、甘油酯和甘油二酯等。脂肪酸還可以進(jìn)一步分解成酮酸或酮等[10]。這些產(chǎn)物中的烴類、酮類、醇類、醛類、酸類、酯類、含硫及雜環(huán)化合物等是牛肉保藏期間產(chǎn)生揮發(fā)性有機化合物的主要成分[11]。電子鼻傳感器可以識別食品揮發(fā)性成分,進(jìn)而實現(xiàn)微生物污染狀況的間接預(yù)測。
從構(gòu)建的PLS 模型及ELM 模型的預(yù)測性能來看,ELM 模型的訓(xùn)練集和測試集相關(guān)系數(shù)分別為0.976 和0.972,高 于PLS 模 型 的0.938 和0.937,ELM 模型的訓(xùn)練集和測試集的預(yù)測誤差分別為0.040 lgCFU·g-1和0.047 lgCFU·g-1,均明顯低于PLS模型的0.319 7 lgCFU·g-1和0.324 lgCFU·g-1。主要是因為電子鼻傳感器信號與預(yù)測目標(biāo)TVC 值之間是非常復(fù)雜的非線性關(guān)系,這是由電子鼻傳感器特性所決定的,即傳感器非特異性,且相互之間交互敏感,對食品揮發(fā)性物質(zhì)的敏感性存在一定程度的交叉。ELM 具有出色的自學(xué)習(xí)和自適應(yīng)能力,獲得的結(jié)果優(yōu)于線性的PLS 算法[12]。
本文研究構(gòu)建了基于MOS 型電子鼻信號處理的牛肉貯藏期間TVC 定量預(yù)測模型。結(jié)果表明,非線性的ELM 算法獲得的結(jié)果較線性的PLS 算法好,其訓(xùn)練集或測試集對樣本TVC 的預(yù)測值與實測值之間的相關(guān)系數(shù)均高于0.97,預(yù)測誤差均低于或等于0.04 lgCFU·g-1。ELM 模型預(yù)測精度高,運算速度快,能夠滿足實際需求,可為牛肉質(zhì)量安全控制提供借鑒。