邢素霞, 王九清, 陳 思, 王 睿
(北京工商大學(xué)食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室/計(jì)算機(jī)與信息工程學(xué)院,北京100048)
雞肉品質(zhì)變化受到多種因素的影響,其腐敗程度僅憑某一個(gè)參數(shù)并不能準(zhǔn)確辨別,根據(jù) GB 16869—2005《鮮、凍禽產(chǎn)品》[1],生鮮雞肉的品質(zhì)檢測(cè)應(yīng)包括感官性狀檢測(cè)、理化檢測(cè)、微生物檢測(cè)3類。感官檢測(cè)主要通過(guò)組織狀態(tài)、色澤、氣味等外觀判別雞肉的品質(zhì)優(yōu)劣;理化檢測(cè)包括揮發(fā)性鹽基氮、微量元素、抗生素殘留等項(xiàng)目;微生物檢測(cè)主要包括大腸菌群、沙門(mén)氏菌、出血性大腸埃希氏菌等菌落總數(shù)。因此,雞肉品質(zhì)檢測(cè)是一個(gè)從外在品質(zhì)到內(nèi)在品質(zhì)的綜合評(píng)測(cè)過(guò)程,單憑某一個(gè)參數(shù)無(wú)法全面衡量雞肉新鮮程度。
高光譜成像技術(shù)是新一代光電檢測(cè)技術(shù),將傳統(tǒng)二維成像技術(shù)和光譜技術(shù)有機(jī)結(jié)合,具有連續(xù)多波段、高光譜分辨率和圖譜合一等特點(diǎn)[2-7]。其圖像信息可以反映肉品的外部特征,而光譜信息則可以用來(lái)檢測(cè)內(nèi)部品質(zhì)特性,實(shí)現(xiàn)對(duì)肉品外部特征和內(nèi)部品質(zhì)的綜合定性判別和定量分析。
擬通過(guò)K-means-RBF集成神經(jīng)網(wǎng)絡(luò)智能數(shù)據(jù)融合處理方法,以高光譜成像光譜特征、圖像紋理、顏色特征為并行輸入量,實(shí)現(xiàn)雞肉內(nèi)、外部多項(xiàng)品質(zhì)指標(biāo)的并行檢測(cè),建立雞肉品質(zhì)多源數(shù)據(jù)融合檢測(cè)模型,對(duì)雞肉進(jìn)行檢測(cè)和識(shí)別。
北京老山市場(chǎng)購(gòu)買(mǎi)當(dāng)日鮮白羽雞胸肉62份,剔除結(jié)節(jié)組織,編號(hào)高光譜1~62、理化1~62。每個(gè)高光譜樣品長(zhǎng)5 cm、寬3 cm、高1 cm,每個(gè)理化樣本100 g,放在冷藏室里。
GaiaSorter“蓋亞”型高光譜分選儀系統(tǒng),北京卓立漢光儀器有限公司;恒溫恒濕箱,北京雅士林試驗(yàn)設(shè)備有限公司;8011S型組織搗碎機(jī),美國(guó)Waring Commercial公司;MATLAB軟件,美國(guó) MathWorks公司。
1.3.1 揮發(fā)性鹽基氮和菌落總數(shù)測(cè)定
根據(jù)GB/T 5009.44-2003《肉與肉制品衛(wèi)生標(biāo)準(zhǔn)的分析方法》[8]中半微量定氮法測(cè)定揮發(fā)性鹽基氮含量;根據(jù)GB 4789.2—2016《食品安全國(guó)家標(biāo)準(zhǔn)食品微生物學(xué)檢驗(yàn) 菌落總數(shù)測(cè)定》[9]測(cè)定菌落總數(shù)。62個(gè)樣本的揮發(fā)性鹽基氮、菌落總數(shù)含量如表1。
表1 雞肉樣品揮發(fā)性鹽基氮、菌落總數(shù)理化指標(biāo)Tab.1 Physical and chemical indexes of total volatile basic nitrogen and total bacterial count of chicken samples
1.3.2 高光譜數(shù)據(jù)采集與預(yù)處理
每隔一段時(shí)間(1、2、8 h不等),從冷藏室拿出2個(gè)相鄰序號(hào)的樣品放入20℃的恒溫箱里,62個(gè)樣品中,1、2號(hào)20℃ 的恒溫箱存放時(shí)間最短為0 h,61、62號(hào)在20℃環(huán)境中存放40 h(同時(shí)取2個(gè)號(hào)是為了獲得更準(zhǔn)確的數(shù)據(jù),避免樣品的單一性)。40 h后,利用GaiaSorter“蓋亞”型高光譜分選儀系統(tǒng)采集樣品1~62號(hào)的高光譜數(shù)據(jù),同時(shí)利用國(guó)標(biāo)法檢測(cè)1~62號(hào)的揮發(fā)性鹽基氮(total volatile basic nitrogen,TVB-N)含量和菌落總數(shù)。
為了保證圖像的清晰程度,樣品進(jìn)行圖像采集前預(yù)先對(duì)相機(jī)的曝光時(shí)間進(jìn)行設(shè)定。為了克服光強(qiáng)分布不均和暗電流的影響,對(duì)采集到的樣本高光譜圖像Ds,進(jìn)行黑白校正,校正后的相對(duì)樣品高光譜圖像反射率R見(jiàn)公式(1)[10]。
式(1)中,Dw為白板標(biāo)定圖像,Dd為全黑標(biāo)定圖像。高光譜圖像數(shù)據(jù)分析采用ENVI軟件平臺(tái),高光譜圖像數(shù)據(jù)中的每個(gè)像素點(diǎn),均有一條對(duì)應(yīng)的光譜曲線,如圖1。選擇高光譜圖像的感興趣區(qū)域,設(shè)置感興趣區(qū)域長(zhǎng)和寬均為150 px,獲取該區(qū)域的平均光譜曲線,作為該樣本的光譜曲線。
光譜預(yù)處理方法主要有微分、矢量歸一化、多元散射校正(multiplicative scatter correction,MSC)等[11-12],矢量歸一化主要是消除由微小光程或者樣品厚度引起的光譜變化。微分預(yù)處理可有效地分辨重疊峰,其主要功能是將明顯但較小的特征峰辨識(shí)出來(lái),消除背景干擾,提高分辨率,但同時(shí)會(huì)引入一定的噪聲。MSC可以有效地消除樣品顆粒參差不齊和分布不均所產(chǎn)生的散射影響,同時(shí)也對(duì)近紅外掃描樣品的光程長(zhǎng)短誤差進(jìn)行修正。綜合比較,選用MSC作為預(yù)處理方法。
1.3.3 光譜、紋理、顏色特征提取
高光譜數(shù)據(jù)信息量大,存在大量冗余的多重共線性信息[13],既含有大量的有用信息(灰度值、紋理、TVB-N、菌落總數(shù)等),也存在大量冗余信息和附加隨機(jī)誤差(噪聲),需要一定的數(shù)據(jù)降維和多源數(shù)據(jù)融合方法,有效去除冗余、分離混合信號(hào),提取相互獨(dú)立的觀測(cè)信息,建立多源數(shù)據(jù)融合的雞肉綜合評(píng)價(jià)方法。
主成分分析(principal component analysis,PCA)[14-15]是一種可以去除波段間多余信息、沿著協(xié)方差最大的方向由高維數(shù)據(jù)壓縮到更有效的少數(shù)幾個(gè)特征波段的方法。通過(guò)主成分分析,數(shù)據(jù)按方差貢獻(xiàn)率大小排列,選取累計(jì)方差貢獻(xiàn)率大于85% ~95%的主成分,代表原始變量所能提供的絕大部分信息。每個(gè)主成分圖像都是經(jīng)過(guò)原始數(shù)據(jù)中各波長(zhǎng)經(jīng)線性組合而成,通過(guò)比較線性組合權(quán)重系數(shù),優(yōu)選出最優(yōu)波長(zhǎng)。本文利用主成分分析法提取所有樣品的特征波長(zhǎng)。
灰度-梯度共生矩陣是一種獲取灰度梯度的二階統(tǒng)計(jì)紋理分析方法[16]。它可以從62個(gè)主成分灰度圖像中提取出15個(gè)紋理信息變量,分別為:(大、小)梯度優(yōu)勢(shì)、灰度分布不均勻性、灰度均值、梯度均值、灰度均方差、梯度均方差、灰度熵、梯度熵、混合熵、慣性等。
雞肉圖像在采集過(guò)程中可能受到噪聲干擾,對(duì)圖像顏色值提取造成影響,本研究采用中值濾波法對(duì)圖像進(jìn)行去噪,濾波后的圖像邊緣信息更加清楚完整。圖像顏色特征提取用MATLAB實(shí)現(xiàn),為了充分利用顏色數(shù)據(jù),使用RGB和HSI雙色空間模型,并計(jì)算出R、G、B、H、S、I六個(gè)顏色分量一階矩和二階矩共12個(gè)顏色特征參數(shù),對(duì)肉品顏色進(jìn)行量化表述。其中肉質(zhì)顏色一階矩用來(lái)表示平均顏色特性,二階矩用來(lái)表示顏色變化范圍,使雞肉顏色特征更加精確、全面。
1.3.4 K-means-RBF多源數(shù)據(jù)融合算法
對(duì)高光譜數(shù)據(jù)進(jìn)行特征提取后,得到6個(gè)波長(zhǎng)特征、5個(gè)紋理特征和12個(gè)顏色特征,通過(guò) K-means-RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行多源數(shù)據(jù)融合,實(shí)現(xiàn)對(duì)雞肉品質(zhì)的綜合評(píng)價(jià)。
1.3.4.1 RBF神經(jīng)網(wǎng)絡(luò)
RBF神經(jīng)網(wǎng)絡(luò)是一個(gè)前向神經(jīng)網(wǎng)絡(luò),由輸入層、隱含層和輸出層3層組成[17],如圖2。利用徑向基函數(shù)作為隱含層,輸入向量直接映射到隱含層,不需要權(quán)重的連接,為非線性過(guò)程。RBF隱含層到輸出層為線性疊加,權(quán)值為網(wǎng)絡(luò)的可調(diào)參數(shù)。設(shè)xi∈RN,i=1,2…n是第i個(gè)雞肉樣本,每個(gè)雞肉樣品都是由6個(gè)光譜特征值、5個(gè)紋理特征、12個(gè)顏色特征組成,則RBF神經(jīng)網(wǎng)絡(luò)的輸出如式(2)。
圖2 徑向基神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Radial basis function neural network structure
式(2)中,yj為輸出層的第j個(gè)輸出,即雞肉品質(zhì)分級(jí)類型;h為輸入樣品的個(gè)數(shù);wij為第i個(gè)隱含層神經(jīng)元第j個(gè)輸出的權(quán)重;xp為輸入向量,ci和di分別表示第i個(gè)隱含層神經(jīng)元中心和寬度。因此,RBF的網(wǎng)絡(luò)參數(shù)設(shè)計(jì)主要為RBF的中心、方差、隱含層到輸出層的權(quán)重系數(shù)。
1.3.4.2 K-means-RBF聚類算法
RBF的聚類中心利用 K-means算法得到。K-means算法是一種聚類分析算法[18-22],其根本思想是:任意選用空間k個(gè)點(diǎn)作為聚類中心,根據(jù)其余對(duì)象與該聚類中心的相似度,把最接近的樣本歸類。隨后通過(guò)迭代來(lái)不斷更新聚類中心值,直到最優(yōu)聚類結(jié)果得出為止。
當(dāng)神經(jīng)網(wǎng)絡(luò)的基函數(shù)是高斯函數(shù)時(shí),方差為式(3)。
式(3)中,cmax為所選取中心之間的最大距離。
利用最小均方誤差原則,計(jì)算從隱含層到輸出層的神經(jīng)元連接權(quán)值,可以用最小二乘法直接計(jì)算得到,見(jiàn)式(4)。
具體步驟如下:
1)隨機(jī)選取4個(gè)訓(xùn)練樣本作為聚類中心ci(i=1,2,3,4);
2)計(jì)算剩余數(shù)據(jù)集樣本到每個(gè)聚類中心的歐氏距離,將樣本加入到使其離聚類中心歐氏距離最短的那個(gè)類別簇中,并記下該樣本編號(hào);
3)計(jì)算每個(gè)聚類幾何中訓(xùn)練樣本的平均值,即新的聚類中心ci(i=1,2,3,4),若新聚類中心與原聚類中心相等,則迭代終止,否則,就返回繼續(xù)迭代;
4)計(jì)算每個(gè)聚類中心之間的距離,取最大距離cmax,利用式(3)計(jì)算RBF神經(jīng)網(wǎng)絡(luò)的高斯基函數(shù)的方差;
5)利用式(4)最小二乘法,計(jì)算隱含層到輸出層之間的連接權(quán)值w;
6)根據(jù)式(2),對(duì)驗(yàn)證集樣本進(jìn)行聚類分析,得到分類結(jié)果。
利用PCA對(duì)每個(gè)樣品的不同波段圖像進(jìn)行主成分分析,選能量集中在前90%的圖像,結(jié)果如圖3。由圖3看出,PC1的圖像非常清晰,反映了雞肉的絕大部分的信息,由此選擇PC1的權(quán)重系數(shù)作為特征波段。PC1主成分圖像由256個(gè)波段下的圖像經(jīng)線性組合而成,見(jiàn)式(5)。
圖3 主成分分析得到的前5個(gè)圖像Fig.3 Top 5 images of principal component analysis
通過(guò)比較256個(gè)波長(zhǎng)下對(duì)應(yīng)的權(quán)重系數(shù),權(quán)重系數(shù)比較大的是21、39、79、110、136、181六個(gè)波長(zhǎng),對(duì)應(yīng)的波長(zhǎng)分別為 943.28、1 003.20、1 136.53、1 240.03、1 326.95、1 477.64 nm。
通過(guò)灰度-梯度共生矩陣從62個(gè)主成分灰度圖像中提取出15個(gè)紋理信息變量。通過(guò)計(jì)算結(jié)果發(fā)現(xiàn),灰度均值、梯度均值、灰度均方差、梯度均方差、慣性等5個(gè)特征變量的數(shù)值變化較為明顯,前15個(gè)樣品的5個(gè)紋理特征向量值見(jiàn)表2。
表2 紋理特征參數(shù)Tab.2 Texture characteristic parameters
RGB和HIS顏色空間分別可以獲得6個(gè)顏色特征,顏色一階矩用來(lái)表示平均顏色特性,二階矩用來(lái)表示顏色變化范圍,前11個(gè)樣品的顏色特征數(shù)據(jù)如表3。
根據(jù)檢測(cè)到的揮發(fā)性鹽基氮和菌落總數(shù)的理化數(shù)據(jù)以及GB 16869—2005《鮮、凍禽產(chǎn)品》[1],將雞肉品質(zhì)等級(jí)劃分為放心食用、可食用、不建議實(shí)用、不可食用4個(gè)等級(jí),劃分依據(jù)如表4。
將62個(gè)雞肉樣本的高光譜圖像數(shù)據(jù),分別通過(guò)光譜分析法、圖像處理法提取感興趣區(qū)域的特征光譜、圖像紋理、顏色特征,其中選取42個(gè)樣本作為訓(xùn)練集,訓(xùn)練K-means-RBF集成神經(jīng)網(wǎng)絡(luò)模型,得到聚類中心、方差及輸出權(quán)值。將剩余20個(gè)樣本作為測(cè)試集以檢測(cè)分類模型的準(zhǔn)確度。實(shí)驗(yàn)結(jié)果如圖4,圖4a為經(jīng)過(guò)K-means-RBF集成神經(jīng)網(wǎng)絡(luò)模型對(duì)20個(gè)測(cè)試集得到的分類結(jié)果。
而圖4b、4c、4d分別為以顏色特征、紋理特征、以及綜合紋理和顏色(其中紋理特征向量權(quán)重是0.8,顏色特征向量權(quán)重是0.2)為輸入,以LS_SVM為分類器的分類結(jié)果。
實(shí)驗(yàn)結(jié)果顯示,基于紋理特征的雞肉品質(zhì)分級(jí)(圖4b)準(zhǔn)確率為85%,基于顏色特征的雞肉品質(zhì)分級(jí)(圖4c)準(zhǔn)確率是80%,基于紋理特征和顏色特征融合的雞肉品質(zhì)分級(jí)(圖4d)準(zhǔn)確率是95%。驗(yàn)證了高光譜圖像信息在雞肉品質(zhì)分類中的可行性,但是利用紋理和顏色融合的技術(shù)方法建立的分類預(yù)測(cè)模型準(zhǔn)確率更高,均高于基于單一特征的分級(jí)模型。而基于K-means-RBF集成神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果(圖4a)與真實(shí)值完全吻合,精確度達(dá)到100%,說(shuō)明了雞肉的外在特征與內(nèi)在特征在雞肉品質(zhì)分級(jí)中的重要性,同時(shí)證明K-means-RBF數(shù)據(jù)融合方法在雞肉品質(zhì)分類預(yù)測(cè)中的可行性。
表3 顏色特征參數(shù)Tab.3 Color characteristic parameter
表4 雞肉品質(zhì)分級(jí)標(biāo)準(zhǔn)Fig.4 Chicken quality grading standards
圖4 模型驗(yàn)證和分類預(yù)測(cè)結(jié)果Fig.4 Model verification and classification prediction results
研究以國(guó)家生化檢驗(yàn)結(jié)果(揮發(fā)性鹽基氮和菌落總數(shù))為標(biāo)準(zhǔn),以高光譜數(shù)據(jù)的光譜特征、紋理特征、顏色特征為特征向量,設(shè)計(jì)了基于K-means-RBF的多源數(shù)據(jù)融合雞肉品質(zhì)分類方法,達(dá)到了100%的預(yù)測(cè)精度,與通過(guò)單一特征或僅外部綜合特征的分類方法相比,該方法的分類精度大大提高。首先,該方法獲取的信息更加豐富,綜合了高光譜的光譜信息與圖像信息,分別反映了雞肉的內(nèi)在品質(zhì)與外在品質(zhì),符合國(guó)家對(duì)生鮮禽類的感官加理化的評(píng)價(jià)標(biāo)準(zhǔn);其次,通過(guò)雞肉的外在特征(紋理、顏色以及紋理與顏色綜合特征)建立的LS_SVM分類器,分別獲得了85%、80%、95%的分類正確率,說(shuō)明高光譜圖像信息在雞肉品質(zhì)分類中的有效性,也驗(yàn)證了單一特征在分類中的局限性。最后通過(guò)光譜特征、紋理特征以及顏色特征對(duì)K-means-RBF集成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,得到100%的分類正確率,驗(yàn)證了K-means-RBF融合方法在高光譜數(shù)據(jù)分析中的有效性,能夠精確地預(yù)測(cè)雞肉品質(zhì),實(shí)現(xiàn)快速、精確地分類。