殷 勇,趙玉珍,于慧春
(河南科技大學(xué)食品與生物工程學(xué)院,洛陽 471023)
食醋作為人們?nèi)粘I钪胁豢苫蛉钡恼{(diào)味品,具有重要的營(yíng)養(yǎng)與藥理價(jià)值[1-2],如促進(jìn)消化與吸收、抗病毒、降血糖等等。食醋的產(chǎn)品質(zhì)量直接影響人們的健康,因此食醋的識(shí)別檢測(cè)是非常重要的。目前,食醋檢測(cè)主要采用感官評(píng)定[3]、微生物檢測(cè)[4-5]和物理化學(xué)指數(shù)評(píng)估[6-7]等傳統(tǒng)方法,但這些方法存在主觀性強(qiáng)、操作繁瑣、耗時(shí)等缺點(diǎn)。電子鼻作為一種非常有潛力的鑒別工具,在食醋鑒別分析中已有諸多研究報(bào)道[8-11]。由于食醋屬于復(fù)雜樣品,且對(duì)質(zhì)量等級(jí)相近的多類樣品進(jìn)行鑒別時(shí),鑒別難度大幅提升。同時(shí),傳感器之間的交叉響應(yīng)所產(chǎn)生的冗余信息,對(duì)鑒別結(jié)果也極為不利。因此,采用電子鼻對(duì)食醋進(jìn)行檢測(cè)時(shí),可利用特征提取與選擇[12-14]優(yōu)化表征特征,實(shí)現(xiàn)食醋樣品的有效鑒別。據(jù)文獻(xiàn)[15]報(bào)道,多特征表征模式可有效表征電子鼻信號(hào)的響應(yīng)信息,提高電子鼻的鑒別能力。此外,面對(duì)所提取特征的多樣性,進(jìn)行電子鼻的特征優(yōu)化,選取能夠有效表征電子鼻響應(yīng)信號(hào)的特征也是十分必要的。目前,關(guān)于電子鼻特征優(yōu)化方法的研究不斷涌現(xiàn),如相關(guān)性分析[16-17]、聚類分析[18-19]、多重共線性分析[20]、Wilks Λ統(tǒng)計(jì)量[9,21]等等,但這些方法的適用性皆因不同的鑒別目標(biāo)而存在應(yīng)用效能上的差異。
本文在提取了 6種食醋電子鼻原始信息的多個(gè)特征值基礎(chǔ)上,提出一種采取載荷分析進(jìn)行電子鼻傳感器陣列優(yōu)選,并運(yùn)用主成分分析(principal component analysis,PCA)融合Wilks Λ統(tǒng)計(jì)量進(jìn)行多特征表征的選擇策略。即采用載荷分析優(yōu)選傳感器,運(yùn)用PCA消除傳感器特征數(shù)據(jù)間的相關(guān)性,以更好、更準(zhǔn)確地構(gòu)造Wilks Λ統(tǒng)計(jì)量,并借助于生成主成分變量的線性組合系數(shù),探索電子鼻數(shù)據(jù)的最佳表征特征變量集的構(gòu)成。最后,為檢驗(yàn)該特征選擇策略的有效性,采用 Fisher判別分析(Fisher discriminant analysis,F(xiàn)DA)和 BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)對(duì)特征選擇前后的數(shù)據(jù)進(jìn)行鑒別分析,并通過巴氏距離說明FDA和BPNN結(jié)果的可信性。
試驗(yàn)材料為6種食醋,含3個(gè)品牌,每個(gè)品牌都包含質(zhì)量等級(jí)相近但不同的2種樣品。它們分別為建洛袋裝、建洛桶裝、來福瓶裝、來福桶裝、紫林瓶裝、紫林桶裝6種食醋,并且分別標(biāo)記為JLDZ、JLTZ、LFPZ、LFTZ、ZLPZ、ZLTZ。各樣品的基本信息見表1。為了使統(tǒng)計(jì)鑒別結(jié)果更可靠,每種樣品準(zhǔn)備54個(gè)平行試驗(yàn)樣本,總計(jì)6×54=324個(gè)樣本。每種樣品隨機(jī)抽取36個(gè)樣本(占每種樣本總數(shù)的2/3)構(gòu)成訓(xùn)練集,訓(xùn)練集樣本數(shù)共有6×36=216個(gè),剩余的18個(gè)樣本(占每種樣本總數(shù)的1/3)構(gòu)成測(cè)試集,測(cè)試集樣本數(shù)共有6×18=108個(gè)。為了使研究結(jié)果具有穩(wěn)健性與可靠性,共隨機(jī)生成5組平行的訓(xùn)練集和對(duì)應(yīng)的測(cè)試集進(jìn)行比較分析。
表 1 食醋樣品的基本信息Table 1 Basic information of vinegar samples
試驗(yàn)所使用的電子鼻系統(tǒng)是實(shí)驗(yàn)室自行研制的。該系統(tǒng)主要由氣敏傳感器陣列、測(cè)量箱、數(shù)據(jù)采集裝置及計(jì)算機(jī)等部分組成。氣敏傳感器陣列作為電子鼻系統(tǒng)的關(guān)鍵部分,主要由14個(gè)TGS型金屬氧化物傳感器組成,即 TGS813,TGS800,TGS821,TGS822,TGS824,TGS816,TGS812,TGS825,TGS826,TGS831,TGS832,TGS830,TGS880和 TGS842,它們所檢測(cè)的典型氣體詳見文獻(xiàn)[22]。在電子鼻測(cè)試過程中,各氣敏傳感器的加熱電壓為(5.0±0.05)V,回路的測(cè)量電壓是(10.0±0.01)V。另外,為補(bǔ)償測(cè)量環(huán)境對(duì)測(cè)量結(jié)果所造成的影響,該裝置還配備有溫度傳感器和濕度傳感器。溫、濕度傳感器為集成部件(奧松電子),型號(hào)為DHT11,其測(cè)量電壓為(10±0.01)V,溫度傳感器的測(cè)量范圍是 0~50℃,濕度傳感器的測(cè)量范圍是20%~90%RH。
電子鼻在開始工作前,首先需要進(jìn)行大約30 min的預(yù)熱,以期消除儀器本身不穩(wěn)定所造成的影響。每個(gè)樣本測(cè)試前進(jìn)行空載測(cè)試,產(chǎn)生空載響應(yīng)值(測(cè)量環(huán)境的響應(yīng)值)作為傳感器復(fù)原時(shí)的基準(zhǔn)值;然后進(jìn)行樣本的測(cè)試;最后進(jìn)行傳感器復(fù)原,以便于下1個(gè)樣本的測(cè)試。圖1給出了傳感器TGS800對(duì)1個(gè)建洛袋裝樣本的響應(yīng)曲線圖。根據(jù)圖1可知,傳感器在1 500 s后處于相對(duì)穩(wěn)定響應(yīng)狀態(tài)。另外,由預(yù)試驗(yàn)知,傳感器恢復(fù)960 s時(shí)可至基準(zhǔn)狀態(tài)。因此,電子鼻工作參數(shù)設(shè)置為:數(shù)據(jù)采集間隔時(shí)間1 s,空采時(shí)間20 s,樣本采樣時(shí)間1 500 s,復(fù)原時(shí)間960 s。
圖1 傳感器TGS800對(duì)1個(gè)建洛袋裝樣本的響應(yīng)曲線Figure 1 Curve of sensor TGS800 response to one sample of bagged Jianluo vinegar
1.3.1 數(shù)據(jù)預(yù)處理
為減少環(huán)境溫、濕度以及信號(hào)噪聲的影響,首先對(duì)電子鼻數(shù)據(jù)進(jìn)行去基準(zhǔn)處理[23],即每個(gè)樣本采集的1 500個(gè)響應(yīng)值減去其空載響應(yīng)平均值,以部分補(bǔ)償環(huán)境對(duì)氣敏傳感器的影響;然后,采用Savitzky-Golay五點(diǎn)二次多項(xiàng)式[24]對(duì)去基準(zhǔn)處理后的數(shù)據(jù)進(jìn)行平滑處理,以期消除噪聲信號(hào)的影響。文中所有的數(shù)據(jù)處理工作在MATLAB R2014b軟件平臺(tái)實(shí)現(xiàn)。
1.3.2 特征提取
在實(shí)際應(yīng)用中,積分值、方差、平均微分值等作為常見的特征參量[13]被應(yīng)用于電子鼻信號(hào)表征領(lǐng)域,且均取得不錯(cuò)的應(yīng)用效果。同時(shí),不僅樣本的響應(yīng)曲線對(duì)鑒別結(jié)果有一定的影響,傳感器的復(fù)原曲線也有一定的作用[25]。因此,在綜合分析了電子鼻信號(hào)特征參量的基礎(chǔ)上,本文擬采用樣本響應(yīng)曲線的積分值(integral value,INV)、方差(variance value,VARV)、相對(duì)穩(wěn)態(tài)平均值(relation steady-state response average value,RSAV)、平均微分值(average differential value,ADV)、小波能量值(wavelet energy value,WEV)以及傳感器復(fù)原曲線的平均微分值(average differential value of recuperation curve,ADVRC)6種特征作為食醋電子鼻信號(hào)的特征參量。由于 6種特征參量的量綱不同,各特征參量的提取結(jié)果均進(jìn)行了數(shù)據(jù)歸一化處理。
圖2給出了每個(gè)傳感器對(duì)1個(gè)建洛袋裝樣本響應(yīng)信號(hào)的特征柱狀圖。由圖 2可知,對(duì)于同一個(gè)傳感器,不同的特征參量表現(xiàn)了不同的響應(yīng)信息,揭示了氣敏傳感器的廣譜響應(yīng)特性;而同一特征參量對(duì)不同的傳感器也存在一定程度的差異,體現(xiàn)了傳感器的選擇特性。因此,這6個(gè)特征參量可有效表征6種食醋的電子鼻信號(hào)。由于樣品在測(cè)量過程中,溫、濕度響應(yīng)信息是變化的,因此選取能夠反映其總體變化程度的積分值作為溫、濕度響應(yīng)信息的表征。對(duì)于單個(gè)特征表征時(shí),電子鼻信號(hào)由14個(gè)氣敏傳感器對(duì)應(yīng)的14個(gè)特征、1個(gè)溫度傳感器特征和1個(gè)濕度傳感器特征表征。當(dāng)由6個(gè)特征表征時(shí),電子鼻信號(hào)由14×6個(gè)特征、1個(gè)溫度傳感器特征和1個(gè)濕度傳感器特征表征。因此,初始特征矩陣為 324個(gè)樣本×86個(gè)特征。
圖2 各傳感器對(duì)1個(gè)建洛袋裝樣本的6個(gè)特征的柱狀圖Figure 2 Bar results of six kinds of features for each gas sensor to one bagged Jianluo vinegar
1.3.3 特征表征策略
由于不同的特征對(duì)電子鼻鑒別性能有著不同的貢獻(xiàn)度,所以進(jìn)行特征參量的篩選,以選取對(duì)樣本判別最為有效的特征是十分必要的。
1)載荷分析。對(duì)傳感器陣列進(jìn)行優(yōu)化,不僅可減少冗余信息,還可減少數(shù)據(jù)量以降低計(jì)算的工作量。根據(jù)文獻(xiàn)[12,26-27],對(duì)6種食醋共計(jì)324個(gè)樣本第1 400 s時(shí)刻的電子鼻響應(yīng)值進(jìn)行載荷分析,分析結(jié)果如圖3所示,橫軸是第1主成分,縱軸是第2主成分。綜合各個(gè)傳感器所處的橫縱坐標(biāo)位置來看,所有傳感器離原點(diǎn)都較遠(yuǎn),表明這些傳感器對(duì)樣本檢測(cè)都有貢獻(xiàn)。傳感器TGS822、TGS800、TGS813和TGS816的因子載荷分布較接近,表明這些傳感器對(duì)食醋的檢測(cè)信息比較相近,因此可以考慮去掉響應(yīng)信號(hào)相似的部分傳感器,以減少信息冗余。經(jīng)計(jì)算分析,這 4個(gè)傳感器的距原點(diǎn)歐氏距離依次為0.276 8、0.277 8、0.285 8和0.292 2,因此在這4個(gè)傳感器中,選擇剔除相對(duì)距原點(diǎn)較近的傳感器 TGS822和TGS800。所以,經(jīng)載荷分析后選擇了12個(gè)傳感器進(jìn)行后續(xù)的數(shù)據(jù)分析。
2)相關(guān)性分析。相關(guān)性分析[20]是利用相關(guān)系數(shù)值對(duì)傳感器間的相關(guān)程度進(jìn)行評(píng)估。相關(guān)系數(shù)值的取值范圍為[-1,1],相關(guān)系數(shù)絕對(duì)值越大,表明傳感器響應(yīng)信號(hào)之間的相關(guān)程度越高,也意味著對(duì)應(yīng)的特征參量無關(guān)性不強(qiáng)。由于積分值反映了傳感器對(duì)樣本的總體響應(yīng)[28],因此,對(duì)載荷分析優(yōu)選出的12個(gè)氣敏傳感器之間用積分特征值進(jìn)行相關(guān)分析,發(fā)現(xiàn)相關(guān)系數(shù)大于0.9的多達(dá)26對(duì)傳感器,表明從這些傳感器信號(hào)中提取的特征參量無關(guān)性不顯著。在多元判別分析中,Wilks Λ統(tǒng)計(jì)量作為一種有效的特征變量選擇方法,要求所提取的特征變量之間應(yīng)該是獨(dú)立的[29],故由電子鼻數(shù)據(jù)提取的特征參量不可直接用于構(gòu)建Wilks Λ統(tǒng)計(jì)量。因此,需用數(shù)據(jù)變換方法來消除特征變量間的相關(guān)性,為選取能有效提高電子鼻鑒別能力的特征變量奠定基礎(chǔ)。
圖3 6種食醋的載荷分析圖Figure 3 Loadings analysis plot for six kinds of vinegar samples
3)主成分變量選擇。PCA作為一種重要的數(shù)據(jù)變換方法,它通過變換將原始數(shù)據(jù)空間投影到一個(gè)正交空間,將原始變量轉(zhuǎn)換為獨(dú)立的新變量[30]。因此,采用PCA處理電子鼻特征數(shù)據(jù)以消除特征變量之間的相關(guān)性,在獲得主成分變量的基礎(chǔ)上,構(gòu)造Wilks Λ統(tǒng)計(jì)量并計(jì)算每個(gè)主成分變量的Wilks Λ值。Wilks Λ統(tǒng)計(jì)量[31]可以對(duì)多類樣品中各變量的判別能力進(jìn)行評(píng)估,因此在計(jì)算各主成分變量的Wilks Λ值后,并按照從小到大對(duì)Wilks Λ值進(jìn)行排序,選出有利于分類的主成分變量。Wilks Λ值的數(shù)學(xué)表達(dá)見式(1)。
式中T為食醋電子鼻信號(hào)原始特征矩陣中每一列數(shù)值的總離差,D為原始特征矩陣中每一列數(shù)值的組內(nèi)離差。
當(dāng)T比較大,而D又很小時(shí),Wilks Λ值則越小,各個(gè)類別間的差異性就越顯著,越有利于鑒別。因此,適當(dāng)?shù)匾瞥龑?duì)應(yīng)于較大 Wilks Λ值的主成分變量可能會(huì)進(jìn)一步提高樣品的鑒別效果。當(dāng)移除不同數(shù)目的主成分變量時(shí),食醋樣品的鑒別結(jié)果也隨之變化。圖 4給出了基于不同數(shù)目的主成分變量對(duì)應(yīng)的食醋樣品測(cè)試集的 FDA結(jié)果。
圖4 移除不同的主成分變量數(shù)對(duì)應(yīng)的鑒別正確率Figure 4 Relationship between correct discrimination rates and removed principal component variables
從圖4可以看出,隨著移除主成分變量數(shù)目的增加,鑒別正確率先上升后急劇下降;當(dāng)剔除10個(gè)主成分變量時(shí),鑒別正確率達(dá)到最高值(86.11%),此時(shí)余下的 76個(gè)主成分變量即為鑒別能力最優(yōu)的主成分變量集。
4)原始特征變量選擇。在選擇了鑒別能力最優(yōu)的主成分變量后,利用選擇的主成分變量選取原始特征變量是特征選擇策略中的另一項(xiàng)重要內(nèi)容。以主成分變量選擇的76個(gè)主成分的每一個(gè)原始特征變量為對(duì)象,計(jì)算所選擇的主成分變量對(duì)應(yīng)于每一個(gè)原始特征變量的線性組合系數(shù)的絕對(duì)值之和,其計(jì)算公式見式(2)。
式中 P為一個(gè)原始特征變量對(duì)應(yīng)生成主成分的線性組合系數(shù)的絕對(duì)值之和,t為被選擇主成分的個(gè)數(shù),Si為第i個(gè)被選擇主成分對(duì)應(yīng)的線性組合系數(shù)值。
當(dāng)對(duì)應(yīng)于某些原始特征變量的線性組合系數(shù)的絕對(duì)值之和大于某個(gè)指定值時(shí),就形成了對(duì)應(yīng)的原始特征變量集,指定值不同,原始特征變量集也隨之不同,如表2所示。由于每個(gè)主成分變量是所有原始特征變量的線性組合,而對(duì)于每一個(gè)原始特征變量,線性組合系數(shù)的絕對(duì)值之和越大,說明該原始特征變量對(duì)生成的主成分變量貢獻(xiàn)率越大,也越有利于食醋樣品的鑒別。研究發(fā)現(xiàn),線性系數(shù)絕對(duì)值之和較大的原始特征變量是少數(shù)的。但是,特征變量數(shù)目較少時(shí),其所能表征的信息也較少,使鑒別性能下降。因此,尋找合適的原始特征變量集,以使鑒別性能達(dá)到最佳。
表2 線性組合系數(shù)的絕對(duì)值之和與原始特征變量數(shù)目的對(duì)應(yīng)關(guān)系Table 2 Relationship between sum of absolute value of linear combination coefficients and number of original feature variables
圖5給出了不同數(shù)量的原始特征變量集對(duì)應(yīng)的測(cè)試集鑒別正確率。由圖5可知,隨著原始特征變量數(shù)目的變化,鑒別結(jié)果也發(fā)生了明顯變化;當(dāng)原始特征變量數(shù)目為48(對(duì)應(yīng)的線性組合系數(shù)的絕對(duì)值之和大于5.4)時(shí),鑒別正確率最高(92.59%)。因此選擇48 個(gè)原始特征變量來表征食醋電子鼻信號(hào)?;谧罴炎兞考牟煌瑐鞲衅餍盘?hào)的特征表征結(jié)果如表3所示。根據(jù)表3可知,特征選擇后每個(gè)傳感器的表征特征發(fā)生了很大的變化,只有傳感器TGS821和TGS830用6 個(gè)特征參量來表征樣品,且僅有小波能量值這一特征適用于12 個(gè)氣敏傳感器。這說明在食醋鑒別時(shí),特征參量的選擇是非常重要的,選擇合適的特征表征參量將有利于提高電子鼻的鑒別性能。
圖5 不同數(shù)量的原始特征變量集對(duì)應(yīng)的鑒別正確率Figure 5 Relationship between correct discrimination rate and number of original feature variables
表3 特征選擇后各傳感器的表征參量Table 3 Feature parameters of each sensor after feature selection strategy
為了驗(yàn)證特征選擇策略的有效性和選擇的特征表征參量的合理性,分別采用FDA、BPNN以及巴氏距離對(duì)6種食醋樣品進(jìn)行分析。另外,為了更好地說明研究結(jié)果的可靠性和魯棒性,用隨機(jī)生成的 5組訓(xùn)練集及其對(duì)應(yīng)的測(cè)試集進(jìn)行比較分析。
采用選擇的48個(gè)原始特征參量來表征食醋樣品的電子鼻信號(hào),并進(jìn)行FDA鑒別分析,發(fā)現(xiàn)5組訓(xùn)練集的FDA鑒別正確率均達(dá)93%以上,5組測(cè)試集的FDA鑒別正確率也在 90%以上。以第一組樣本訓(xùn)練集及對(duì)應(yīng)的測(cè)試集為例,F(xiàn)DA鑒別結(jié)果如圖6所示。從圖6可以看出,6種食醋樣品基本上可以鑒別開來,充分表明所提出的特征選擇策略是可行的。
為了進(jìn)一步驗(yàn)證特征選擇策略的有效性和可行性,采用BPNN對(duì)6種食醋樣品進(jìn)行鑒別分析。其BPNN的各參數(shù)為:迭代次數(shù)1 000,訓(xùn)練目標(biāo)0.000 01,學(xué)習(xí)效率0.01。當(dāng)訓(xùn)練函數(shù)為trainscg函數(shù),隱層神經(jīng)元函數(shù)為logsig函數(shù),輸出層神經(jīng)元函數(shù)為tansig函數(shù),隱層神經(jīng)元的個(gè)數(shù)為23時(shí),訓(xùn)練結(jié)果較好。表4給出了BPNN的鑒別結(jié)果。從表 4中可以看出,食醋樣品的訓(xùn)練集鑒別正確率均在98%以上,測(cè)試集鑒別正確率可達(dá)93%以上,這充分說明特征選擇策略對(duì)食醋樣品的鑒別是非常有效和可靠的。
圖6 基于特征選擇策略的FDA結(jié)果Figure 6 FDA results based on feature selection strategy
表4 BPNN的鑒別結(jié)果Table 4 Discrimination results of BPNN
巴氏距離[32]作為類別可分性的量度指標(biāo),在 2類模式中,巴氏距離的數(shù)學(xué)表達(dá)見式(3)。
式中,Bij為類別i與類別 j之間的巴氏距離值,u、σ分別為均值和標(biāo)準(zhǔn)差。
在2類模式中,巴氏距離值越大,類別可分性越好。各食醋樣品間的巴氏距離值如圖7所示,其中,數(shù)字1~6分別表示JLDZ、JLTZ、LFPZ、LFTZ、ZLPZ和ZLTZ樣品,如B12表示JLDZ和JLTZ之間的巴氏距離值。從圖7可以看出,JLTZ和LFPZ,JLTZ和LFTZ,LFPZ和LFTZ,LFTZ和ZLTZ,ZLPZ和ZLTZ之間的巴氏距離值小于其他類別間,說明這些類別間的食醋樣品較難區(qū)分;此外,以第一組樣本測(cè)試集為例,F(xiàn)DA和BPNN樣本測(cè)試集的類別錯(cuò)分情況如表5所示,可以看出,類別錯(cuò)分情況與巴氏距離分析結(jié)果相一致。上述判斷解釋了FDA和BPNN的鑒別正確率未達(dá)到100%的原因;同時(shí)也間接說明了特征選擇策略的合理性。
圖7 各食醋樣品之間的巴氏距離值Figure 7 Value of B-distance between vinegar samples type combination
表5 樣本測(cè)試集的類別錯(cuò)分情況Table 5 Misclassification results of test set for vinegar samples
針對(duì)6種食醋樣品的電子鼻檢測(cè),在提取6種特征參量構(gòu)成原始特征矩陣的基礎(chǔ)上,運(yùn)用載荷分析、主成分分析以及 Wilks Λ統(tǒng)計(jì)量提出了一種多特征變量的選擇策略。運(yùn)用這一策略,最終選取了48個(gè)特征參量組成的特征矩陣來表征食醋電子鼻信號(hào)。同時(shí),借助于 FDA和BPNN鑒別方法,對(duì)5組平行的訓(xùn)練集和對(duì)應(yīng)的測(cè)試集進(jìn)行鑒別分析,2種方法測(cè)試集的鑒別正確率可分別達(dá)到 90%和 93%以上。另外,采用巴氏距離進(jìn)一步闡述 6種食醋樣品的可分離性,更好地解析了FDA和BPNN鑒別結(jié)果的可信性。研究結(jié)果充分證明了所提出的特征選擇策略是有效的,并且我們認(rèn)為該特征選擇策略對(duì)其他復(fù)雜樣品的電子鼻鑒別分析也具有參考價(jià)值。
農(nóng)業(yè)工程學(xué)報(bào)2018年15期