, ,, ,
(南京農業(yè)大學工學院,江蘇南京 210031)
基于隱馬爾可夫模型的乳制品種類判別
趙盈盈,羅慧*,肖鵬飛,盧偉,崔夢潔
(南京農業(yè)大學工學院,江蘇南京 210031)
為構建基于光譜分析和隱馬爾科夫模型的乳制品種類判別的新方法,首先采集4種乳制品的光譜數(shù)據(jù)樣本,其次分別采用小波變換法、多點平滑法和多元散射校正法對光譜數(shù)據(jù)進行預處理,通過主成分分析法提取樣本數(shù)據(jù)主特征。將處理后的數(shù)據(jù)分成兩個集合,一部分數(shù)據(jù)用于訓練隱馬爾科夫分類模型,其余數(shù)據(jù)進行測試。實驗對15種不同數(shù)據(jù)處理條件下的數(shù)據(jù)進行了測試,結果表明不同預處理和特征維度會影響分類模型的檢測精度,平均檢測結果達到99%以上,隱馬爾科夫模型用于乳制品種類判別具有較穩(wěn)定的判別準確性。
光譜分析,乳制品種類判別,主成分分析法,隱馬爾可夫模型
乳品是現(xiàn)代人生活中不可或缺的重要食品之一,然而乳品安全問題層出不窮,這些問題不僅損害了乳品行業(yè)的形象,更損害了消費者的利益[1]。不同類別乳制品中乳蛋白含量明顯不同,乳品中各項營養(yǎng)成分也與其類別息息相關[2],對乳品進行質量檢測和品種鑒別具有重要的現(xiàn)實意義。
在乳品檢測中光譜分析技術已被驗證是一種有效的檢測方法,該方法具有速度快、效率高、分析成本低、無污染、測試重現(xiàn)性好等特點,是目前該領域的研究熱點。在國外,Cassoli、González-Martín和Kawamura等學者將紅外光譜技術應用到乳品濃度檢測、脂肪等物質含量檢測、乳品等級檢測等方面[4-7]。 在國內,魯超、吳迪、何勇等研究學者也將光譜技術如近紅外和中紅外光譜用于乳品成分檢測和品種判別中[8-10]?,F(xiàn)有的基于光譜技術的乳品檢測方法中神經網絡法[10-12]、偏最小二乘法[13-14]和支持向量機法[15]等模式識別方法常用于乳品種類判別,這些方法主要是基于機器學習的模式識別法,這類方法具有很強的非線性擬合能力,可映射任意復雜的非線性關系,學習規(guī)則簡單,然而對于一些復雜問題,算法收斂速度慢,模型訓練時間長,模型參數(shù)并不能保證全局最優(yōu),模型判別性能不穩(wěn)定。
本實驗研究一種基于光譜分析和隱馬爾可夫模型(Hidden Markov Model,HMM)的乳品種類判別方法,這種方法是基于統(tǒng)計分析的乳品判別方法。HMM用來描述一個含有隱含未知參數(shù)的馬爾可夫過程[16-18],是一個輸出符號序列的統(tǒng)計模型,具有二重隨機性,算法效率高,易于訓練,且不需要訓練全局最優(yōu)參數(shù),模型性能穩(wěn)定[19-20]。本實驗中采集不同乳制品的光譜樣本,通過小波變換等三種方法對數(shù)據(jù)樣本進行預處理,并用主成分分析提取光譜樣本主要特征信息,分析了不同種數(shù)據(jù)條件下HMM乳品分類的準確性。
牛奶樣品 購自南京市沃爾瑪超市,保鮮冷藏(牛奶品牌為蒙牛乳業(yè),酸奶品牌為莫斯利安)。
PC4000型光纖光譜儀 上海聞奕光電科技有限公司;FSH-2A型號牛奶均質機 浙江金壇新瑞有限公司。
1.2.1 光譜采集 樣本選自4種不同種類的乳制品,分別為核桃牛奶、酸奶、全脂純牛奶和低脂純牛奶。實驗室的溫度保持在25±1 ℃。所有乳制品用均質機均質,使乳制品中各成分分布均勻。樣本放置于光程1 mm的石英比色皿中,并占比色皿容積的3/4。使用光纖光譜儀對樣本進行漫透射,每種乳制品采集200組樣本光譜,共800組樣本。測定背景光譜消除背景噪聲,每個樣本測定3次取平均光譜,截取波長在600~800 nm間的光譜數(shù)據(jù)作為原始光譜數(shù)據(jù)。
1.2.2 數(shù)據(jù)處理 本實驗對采集的光譜數(shù)據(jù)進行預處理,以消除背景噪聲、光的雜散射、樣品狀態(tài)和儀器狀態(tài)等因素的影響,實驗中采用了3種預處理方法,分別是小波變換、平滑處理和多元散射校正。將預處理后的數(shù)據(jù)進行PCA特征降維后,一部分樣本訓練HMM模型,剩余樣本進行測試,所有數(shù)據(jù)處理采用Matlab軟件編程實現(xiàn),數(shù)據(jù)處理的流程如圖1所示。
圖1 數(shù)據(jù)處理的流程圖Fig.1 Flow chart of data processing
小波變換能夠提供一個隨頻率改變的“時間-頻率”窗口,可對信號進行時頻分析和處理[11]。本實驗采用sym8小波5層變換,它的主要特點是左右對稱性好,在sym小波的應用中最為廣泛。平滑處理能夠減少測量數(shù)據(jù)中的統(tǒng)計誤差,多用于無法多次測量求平均和有陡然變化的情況[21-22],本實驗中采用移動平均法對數(shù)據(jù)進行平滑處理。多元散射校正能夠有效地消除散射對原始光譜的影響,提高光譜的信噪比,增強與成分含量相關的光譜的信息吸收[23]。PCA是將原特征進行線性變換、映射至低緯度空間中,可用于提取數(shù)據(jù)的主要特征分量[23],本實驗對預處理后的光譜數(shù)據(jù)分別進行10維、30維、50維、100維和200維的降維處理,計算不同維數(shù)樣本的特征累計貢獻率,降維后的數(shù)據(jù)用于HMM模型建立和測試。
1.2.3 HMM模型 建立HMM是用來描述含有隱含未知參數(shù)的馬爾可夫過程的統(tǒng)計模型。HMM是馬爾可夫鏈的一種,它的狀態(tài)需要通過觀測向量序列來觀察,每個觀測向量由一個具有相應概率密度分布的狀態(tài)序列產生并表現(xiàn)出來[24-26]。HMM由2個狀態(tài)集合和3個概率矩陣共5個元素進行描述,其中狀態(tài)集為隱含狀態(tài)集和觀測狀態(tài)集,概率矩陣為初始狀態(tài)概率矩陣、隱含狀態(tài)轉移概率矩陣和觀測狀態(tài)轉移概率矩陣[19]。
(1)隱含狀態(tài)Q通常無法通過直接觀測得到,n為可能的狀態(tài)數(shù)。
Q={q1,q2,…,qn}
式(1)
(2)觀測狀態(tài)O在模型中與隱含狀態(tài)相關聯(lián),可直接觀測得到,m為可能的觀測數(shù)。
O={o1,o2,…,om}
式(2)
(3)初始狀態(tài)概率矩陣π表示隱含狀態(tài)在初始時刻的概率矩陣。
π=(πi)
式(3)
式(3)中,πi=P(i1=qi),i=1,2,…,n是時刻t=1處于狀態(tài)qi的概率。
(4)隱含狀態(tài)轉移概率矩陣A描述了HMM模型中各狀態(tài)之間的轉移概率。
A=[aij]n×n
式(4)
式(4)中,aij=P(it+1=qj|it=qi),i,j=1,2,…,n是時刻t處于狀態(tài)qi的條件下在時刻t+1轉移到狀態(tài)qj的概率。
(5)觀測狀態(tài)轉移概率矩陣B是生成觀測狀態(tài)的概率。
B=[bij]n×m
式(5)
式(5)中,bij=P(oj|qi),i=1,2,…,n,j=1,2,…m是時刻t且隱含狀態(tài)是qi的條件下,觀測狀態(tài)是oj的概率。
建立HMM乳制品種類判別模型時,將訓練數(shù)據(jù)集作為觀測向量,根據(jù)訓練數(shù)據(jù)集中的最大值和最大值與最小值之間的數(shù)值數(shù),確定觀察數(shù)和狀態(tài)數(shù)。用訓練數(shù)據(jù)集訓練隱含狀態(tài)矩陣得到HMM種類判別模型,代入測試數(shù)據(jù)集進行測試。
實驗中將三種預處理后的光譜數(shù)據(jù)分別提取10維、30維、50維、100維和200維PCA特征值,從每類乳制品的200組樣本數(shù)據(jù)中隨機抽取50組作為訓練數(shù)據(jù)集對HMM進行訓練,用訓練后的HMM測試剩余的150組樣本數(shù)據(jù)。計算匹配度表示乳品種類判別的準確率,其中匹配度是通過計算訓練后的HMM參數(shù)與測試數(shù)據(jù)集之間的對數(shù)似然率得到。實驗中HMM模型的觀察數(shù)為50組數(shù)據(jù)中的最大值,狀態(tài)數(shù)為50組數(shù)據(jù)中最大值與最小值之差加1。
本實驗共采集800組乳制品樣本的光譜數(shù)據(jù),每種乳制品有200組,原始光譜如圖2所示。
圖2 原始樣品的光譜圖Fig.2 Original sample spectrum
圖3~圖5顯示了原始光譜數(shù)據(jù)分別經小波變換、平滑處理和多元散射校正處理后的結果,每類乳制品有200組光譜數(shù)據(jù)。
圖3 小波變換處理后的光譜圖Fig.3 Sample spectrum by the processing of wavelet transform
圖4 多點平滑移動平均法處理后的光譜圖Fig.4 Sample spectrum by the processing of multi-point smoothing-moving average
圖5 多元散射校正處理后的光譜圖Fig.5 Sample spectrum by the processing of multivariate scattering correction
預處理后的光譜數(shù)據(jù)為776維,為降低數(shù)據(jù)復雜度并減少運算時間,對其進行10維、30維、50維、100維和200維的PCA降維處理,計算不同維數(shù)特征的累計貢獻率,用于分析提取主特征后特征樣本對原始特征的表現(xiàn)特性,結果如表1所示。
表1 PCA降維結果Table 1 Results of PCA
本實驗在15種不同數(shù)據(jù)處理條件下對4類乳制品的600組樣本進行了測試,每類乳制品測試樣本為150組。HMM模型對乳制品種類判別的結果如表2所示。由表2可知,60次訓練和測試的平均結果達到了99%以上。
三種不同預處理方法得到的乳制品判別準確率如表3所示,3種預處理方法得到的準確率均大于98%。
5種不同PCA降維得到的乳制品種類判別準確率如表4所示。在200維特征條件下準確率均達100%。該結論也可由表1得到,在200維特征條件下,其PCA的累計貢獻率為100%。
表2 15種處理條件下的乳制品判別準確率Table 2 Classification accuracy of dairy products under 15 kinds of treatment conditions
表3 3種預處理方法的乳制品判別準確率Table 3 Classification accuracy of dairy products with 3 pretreatment methods
本實驗的結果從三個方面進行討論。1)光譜數(shù)據(jù)的預處理方法對HMM的種類判別準確率有影響。小波變換預處理后的光譜樣本得到的判別準確率最低,測試數(shù)據(jù)集的結果為98.93%,多元散射校正得到的準確率最高,測試集和訓練集的結果分別為99.80%和99.87%,因此多元散射校正預處理方法用于HMM模型的光譜數(shù)據(jù)處理效果最佳。2)PCA特征提取的維數(shù)會影響HMM的乳品種類判別準確率。PCA特征提取的維度越高,處理后的光譜特征數(shù)據(jù)含有的有效特征成份越多,HMM的種類判別準確率越高,隨著主特征維度的增加,累計貢獻率相應增大,當特征提取維數(shù)達到200維時,3種預處理方法后的PCA累計貢獻率達到100%,對應的HMM模型的種類判別準確率也最高。3)4種乳制品的60組測試數(shù)據(jù)的平均準確率均大于99%,實驗結果表明基于HMM和光譜分析的乳制品檢測方法是可行的,且具有較高的判別準確率。
與傳統(tǒng)的基于機器學習和模式識別的乳品檢測方法不同,本實驗首次將基于統(tǒng)計學習的HMM應用到乳品種類檢測中。本實驗方法構建一個基于隨機序列分析的HMM統(tǒng)計模型,算法效率高,模型收斂速度快,不需要搜索全局最優(yōu)參數(shù),通過計算HMM參數(shù)與測試數(shù)據(jù)集之間的對數(shù)似然率判斷判別的準確性,在不同數(shù)據(jù)處理條件下,本實驗中的HMM均具有較高的準確率,可見基于統(tǒng)計分析的HMM具有穩(wěn)定的判別性能,能夠有效對乳制品進行種類檢測。本實驗方法對于基于光譜數(shù)據(jù)用于乳品識別的相關研究工作具有一定的參考價值。
[1]孫紅敏,金慶誼,李曉明,等. 基于ARM的近紅外原料奶成分檢測設備研發(fā)[J]. 東北農業(yè)大學學報,2014(8):103-109.
[2]李雙紅,劉永峰,韓裕睿,等. 不同胎次奶牛乳中乳蛋白含量的近紅外光譜定量分析[J]. 食品工業(yè)科技,2014,35(4):60-65.
[3]李長濱,張荷麗,王姍姍,等. 近紅外光譜技術在食品品質方面的應用[J]. 食品研究與開發(fā),2015(10):98-101.
[4]Cassoli L D,Sartori B,Machado P F. The use of the Fourier Transform Infrared spectroscopy to determine adulterants in raw milk[J]. Revista Brasileira De Zootecnia,2011,40(11):2591-2596.
[5]Gonzálezmartín I,Hernándezhierro J M,Revilla I,et al. The mineral composition(Ca,P,Mg,K,Na)in cheeses(cow’s,ewe’s and goat’s)with different ripening times using near infrared spectroscopy with a fibre-optic probe[J]. Food Chemistry,2011,127(1):147-152.
[6]Kawamura S,Kawasaki M,Nakatsuji H,et al. Near-infrared spectroscopic sensing system for online monitoring of milk quality during milking[J]. Journal of Food Measurement and Characterization,2007,1(1):37-43.
[7]Masataka K,Shuso K,Maki T,et al. Near-infrared spectroscopic sensing system for on-line milk quality assessment in a milking robot[J]. Computers & Electronics in Agriculture,2008,63(1):22-27.
[8]魯超,皮付偉,劉毅,等. 基于牛乳加工工藝的NIRS研究[J]. 光譜學與光譜分析,2008,28(1):84-87.
[9]吳迪,曹芳,馮水娟,等. 基于支持向量機算法的紅外光譜技術在奶粉蛋白質含量快速檢測中的應用[J]. 光譜學與光譜分析,2008,28(5):1071-1075.
[10]何勇,馮水娟,李曉麗,等. 應用近紅外光譜快速鑒別酸奶品種的研究[J]. 光譜學與光譜分析,2006,26(11):2021-2023.
[11]王磊,郭中華,金靈,等. 基于近紅外光譜技術乳制品品種快速無損鑒別[J]. 激光與紅外,2013,43(10):1133-1137.
[12]方雄武,王田子,鄭麗敏. 基于近紅外透射技術的乳制品成分含量檢測[J]. 中國奶牛,2015,306(22):30-34.
[13]Luo W,Huan S,Fu H,et al. Preliminary study on the application of near infrared spectroscopy and pattern recognition methods to classify different types of apple samples[J]. Food Chemistry,2011,128(2):555-561.
[14]Viegas T R,Mata A L,Duarte M M,et al. Determination of quality attributes in wax jambu fruit using NIRS and PLS[J]. Food Chemistry,2016,190:1-4.
[15]楊延榮,楊仁杰,張志勇,等. 基于參量化二維相關紅外譜和最小二乘支持向量機判別摻雜牛奶[J]. 光子學報,2013,42(9):1123-1128.
[16]李和平,胡占義,吳毅紅,等. 基于半監(jiān)督學習的行為建模與異常檢測[J]. 軟件學報,2007,18(3):527-537.
[17]Netzer O,Lattin J M,Srinivasan V. A Hidden Markov Model of Customer Relationship Dynamics[M]. INFORMS,2008.
[18]王岳斌,陽國貴,鄺祝芳. 基于HMM的數(shù)據(jù)庫異常檢測系統(tǒng)設計與實現(xiàn)[J]. 計算機應用與軟件,2009,26(1):96-99.
[19]騰格爾,賀昌政,蔣曉毅. 隱馬爾可夫模型研究進展及其管理領域應用[J]. 軟科學,2012,26(2):122-126.
[20]朱明,郭春生. 隱馬爾可夫模型及其最新應用與發(fā)展[J].計算機系統(tǒng)應用,2010,19(7):255-259.
[21]王明,于峰,劉新,等. 采用近紅外漫反射技術對牛奶中蛋白質、脂肪檢測[J]. 激光雜志,2015(1):70-73.
[22]王林舸,籍保平,慶兆砷,等. 基于不同波段近紅外光譜的原料奶主要成分品質檢測研究[J]. 中國食物與營養(yǎng),2011,17(8):52-55.
[23]穆海波,殷秀秀,艾連中,等. 基于傅里葉變換紅外光譜技術和軟獨立模式分類法的牛奶分類識別[J]. 乳業(yè)科學與技術,2012,35(2):34-37.
[24]岳夏. 基于HMM的復雜條件故障診斷技術研究[D]. 廣州:華南理工大學,2012.
[25]Zhang Y,Wu S,Luo Y. Applications and recognition of gesture trajectory using HMM[J]. Bandaoti Guangdian/Semiconductor Optoelectronics,2015,36(4):650-656.
[26]劉寶菊. 基于HMM的商標詞識別研究與應用[D]. 成都:西南交通大學,2016.
ClassificationofdairyproductsbasedonHiddenMarkovModel
ZHAOYing-ying,LUOHui*,XIAOPeng-fei,LUWei,CUIMeng-jie
(Department of Electrical Engineering,Nanjing Agricultural University,Nanjing 210031,China)
A new method was studied for determining the classification of dairy products based on spectrum analysis and Hidden Markov Model(HMM). Firstly,the spectrum data were collected,which sampled from 4 kinds of dairy product. Secondly,wavelet transform method,multi-point smoothing method and multivariate scattering correction method were used to preprocess spectral data,and the main characteristics of sample data were extracted by principal component analysis(PCA). Then,the processed data was divided into two collections,part of which was used to train the Hidden Markov classification model(HMM)and the residual data was tested. The experiment results under 15 processing conditions showed that different pretreatment methods and main feature dimensions of PCA could affect the detection accuracy of the classification model. The experimental average result was more than 99%. In conclusion,HMM could be used in dairy products classification and had a stable classification accuracy.
spectrum analysis;classification of dairy products;principal component analysis(PCA);Hidden Markov Model(HMM)
2017-05-05
趙盈盈(1996-),女,本科,研究方向:基于光譜技術的農產品檢測,E-mail:xsclmy@163.com。
*通訊作者:羅慧(1982-),女,博士,講師,研究方向:農產品檢測,E-mail:lh821005@njau.edu.cn。
國家自然科學基金青年基金項目(61401215);江蘇省自然科學基金青年基金項目(BK20130696);中央高?;究蒲袠I(yè)務經費專項基金項目(KYZ201763)。
TS252
A
1002-0306(2017)23-0064-05
10.13386/j.issn1002-0306.2017.23.014