張智峰,韓小平,秦剛,宋海燕
(山西農(nóng)業(yè)大學(xué) 工學(xué)院,山西 太谷,030800)
苦蕎麥?zhǔn)且环N食藥兩用的小雜糧,素有五谷之王的美稱,在我國各地都有廣泛的栽培種植,主要集中在云南、四川、貴州、陜西、山西、內(nèi)蒙古等高寒地區(qū),其籽粒含有高營養(yǎng)價(jià)值和多種保健功能的蛋白質(zhì)、膳食纖維、抗性淀粉、生物類黃酮、不飽和脂肪酸(如亞油酸和亞麻酸)、維生素以及豐富的鈣、磷、鐵、鋅、銅、鎂、硒等人體所必需的礦物質(zhì)[1]。已有研究證實(shí),蕎麥富含 18 種氨基酸,其中8種必需氨基酸的組成比例較好[2-3]。蘆丁是蕎麥獨(dú)有的生物類黃酮主要成分,具有較高的營養(yǎng)和醫(yī)用價(jià)值,近年來得到了人們廣泛的關(guān)注。
近紅外光譜定量分析技術(shù)具有樣品制備簡單,分析速度快,可以同時(shí)進(jìn)行多組分測定,實(shí)現(xiàn)無損和在線檢測,被廣泛應(yīng)用[5-6]。馬續(xù)瑩等[7]應(yīng)用近紅外光譜漫反射技術(shù),采用偏最小二乘法和留一全交叉驗(yàn)證方法對燕麥和苦蕎樣品中膳食纖維的含量進(jìn)行預(yù)測,相關(guān)系數(shù)達(dá)到0.927 2。結(jié)果表明,采用近紅外光譜漫反射方法能夠?qū)ρ帑湣⒖嗍w等產(chǎn)品中膳食纖維含量進(jìn)行快速定量或半定量分析。席志勇[8]采用近紅外光譜技術(shù)結(jié)合主成分分析和神經(jīng)網(wǎng)絡(luò)分別建立蕎麥蛋白質(zhì)、淀粉和總黃酮含量預(yù)測模型,其中總黃酮相關(guān)度較高,能夠達(dá)到蕎麥總黃酮含量預(yù)測的目的。張晶等[9]采集其近紅外漫反射光譜圖,結(jié)合化學(xué)計(jì)量學(xué)軟件對光譜進(jìn)行主成分分析(principal components analysis, PCA),可明顯區(qū)分甜蕎粉、苦蕎粉、小麥粉和燕麥粉;利用偏最小二乘(partial least squares,PLS) 模型可以半定量判別蕎麥粉摻假。由此可見,近紅外光譜分析技術(shù)可以實(shí)現(xiàn)苦蕎及相關(guān)產(chǎn)品的定性判別和內(nèi)部品質(zhì)定量檢測。此外,由于有機(jī)硒以半胱氨酸和硒蛋氨酸2種形式共價(jià)結(jié)合在蛋白質(zhì)中[10],碳水化合物包括糖類或者淀粉,以及纖維素類型的生物分子,它們主要是帶—OH的脂肪環(huán)化合物[11],一些國際學(xué)者據(jù)此為尋找對象的地域特征指標(biāo)進(jìn)行了積極探索,也為本文尋找特征吸收譜帶和苦蕎產(chǎn)地溯源提供了理論依據(jù)[12-13]。然而上述研究沒有很深入地探討影響其定性判別的主要品質(zhì)指標(biāo)。
本文對來自朔州、內(nèi)蒙古、云貴高原、四川大涼山、陜西5個(gè)產(chǎn)地的苦蕎樣本進(jìn)行光譜分析,結(jié)合PCA和灰色關(guān)聯(lián)分析,以實(shí)現(xiàn)苦蕎產(chǎn)地溯源以及確定成分對苦蕎產(chǎn)地溯源的影響程度。
從市場上購買5個(gè)不同產(chǎn)地的苦蕎,分別來自朔州、內(nèi)蒙古、云貴高原、四川大涼山、陜西,其中大涼山產(chǎn)地的苦蕎包括2個(gè)不同品牌(安喜企業(yè)和西昌正中食品有限公司)。這6種苦蕎作為待測樣本,其成分參數(shù)由原產(chǎn)品包裝給出,如表1。
表1 不同產(chǎn)地苦蕎營養(yǎng)成分含量(每100 g)Table 1 Component content of tartary buckwheat from different areas
光譜掃描實(shí)驗(yàn)使用ASD公司的FieldSpec3光譜儀:波長范圍350~2 500 nm,掃描次數(shù)3,用于全光譜范圍的原始數(shù)據(jù)采集。掃描光譜數(shù)據(jù)在室溫下進(jìn)行,為了避免外界因素影響,光譜采集在暗室進(jìn)行。每個(gè)樣本旋轉(zhuǎn)2次,同時(shí)采集3次掃描光譜值[14]。
光譜數(shù)據(jù)處理軟件為ViewSpecPro,將每個(gè)樣本的3次光譜數(shù)據(jù)取平均值作為原始光譜,對原始光譜進(jìn)行拼接校正,并且將光譜反射率轉(zhuǎn)化為吸光度值。再經(jīng)過ASCII Export導(dǎo)出數(shù)據(jù),應(yīng)用MTLAB2015a實(shí)現(xiàn)主成分分析和灰色關(guān)聯(lián)分析分析。
原始光譜400 nm之前的波長段具有很大的噪聲,為了減少干擾,本文研究的波長范圍為400~2 500 nm。近紅外光譜中包含了大量與本身性質(zhì)無關(guān)或冗余信息,影響了建模和相關(guān)性分析,因此需要提取可以表征被測物體特性的特征波長,以增加分析的準(zhǔn)確性并簡化分析過程。PCA是非常有效的多變量分析技術(shù)[15-16],已有很多人實(shí)現(xiàn)對研究對象的產(chǎn)地溯源[17-18]。主成分方法可以避免信息間的互相重疊,而且進(jìn)行了數(shù)據(jù)簡化,從而提取最具代表性的變量子集[19]。
PCA的步驟如下:
(1)利用獲得的原始光譜數(shù)據(jù)構(gòu)建X=m*n階的矩陣,其中m代表樣本數(shù)目,n為原始光譜數(shù)據(jù)的維數(shù);
(2)將m*n階矩陣X的每一列進(jìn)行歸一化處理,即樣本的每個(gè)屬性;
(3)求出協(xié)方差矩陣D,并求解該矩陣的特征值和對應(yīng)的特征向量;
(4)將求出的特征值從小到大排列,選擇最大的k個(gè),然后將其對應(yīng)的特征向量組成新特征矩N;
(5)通過上述求解將原始的數(shù)據(jù)降到k維,通過計(jì)算累計(jì)貢獻(xiàn)率得到原始數(shù)據(jù)的信息保留量。
要定量研究兩個(gè)事物間的關(guān)聯(lián)程度,可以用相關(guān)系數(shù)和相似系數(shù)等,但這需要足夠多的樣本數(shù)或者要求數(shù)據(jù)服從一定概率分布。在實(shí)際情況下,有許多因素之間的關(guān)系是灰色的,難以區(qū)分因素的密切程度,這樣難以找到主要特性[20-21]?;疑到y(tǒng)理論就是以“信息部分明確、部分未知”的“小樣本”的灰色系統(tǒng)為研究對象[22-24]。而灰色因素關(guān)聯(lián)分析(grey relation analysis,GRA)目的是定量表征多因素之間的關(guān)聯(lián)程度,從而揭示灰色系統(tǒng)的主要特性。關(guān)聯(lián)分析是灰色系統(tǒng)分析和預(yù)測的基礎(chǔ)[25-26]。其步驟為:
(1)整理苦蕎成分含量和提取的特征波長對應(yīng)的光譜吸收度;
(2)選定一個(gè)參考列和n個(gè)比較序列并進(jìn)行歸一化處理,消除量綱;
(3)計(jì)算每個(gè)參考列一個(gè)關(guān)聯(lián)度得到關(guān)聯(lián)矩陣,根據(jù)矩陣元素的大小分析得出結(jié)論。
圖1是將不同產(chǎn)地的苦蕎樣本光譜數(shù)據(jù)取均值作為該產(chǎn)地的原始光譜曲線,橫坐標(biāo)為波長,縱坐標(biāo)為吸光度。
圖1 不同產(chǎn)地的苦蕎原始光譜Fig.1 Primitive spectra of different areas
從圖1可以看出,不同產(chǎn)地的苦蕎樣本光譜吸收度不同,但峰谷趨勢基本一致,900 ~2 500 nm有多個(gè)明顯的吸收峰,表明該波段范圍對苦蕎內(nèi)部品質(zhì)檢測具有決定性意義。另外由于空氣中含有水蒸氣會對掃描光譜產(chǎn)生一定的影響,因此在1 450、1 930、2 200 nm左右波段苦蕎樣本的原始光譜曲線有明顯的吸收峰。與ZHU等[27]得到的水分敏感波段1 400、1 940、2 250 nm相近。
將獲得的原始光譜進(jìn)行主成分分析,主成分屬于無監(jiān)督的數(shù)據(jù)降維,即得到的降維結(jié)果與因變量無關(guān),因此不會受到變量的干擾[29-30]。進(jìn)行主成分分析后得到表2和圖2。
表2 前5個(gè)主成分的特征值及貢獻(xiàn)率Table 2 Characteristic value and contribution rate of the first five principal components
從表2可以看出,前4個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到了99.72%,表示前4個(gè)主成分已經(jīng)可以解釋99.72%的原始光譜信息,因此只保留前4個(gè)主成分作為提取的特征波長。然后根據(jù)得到的主成分載荷大小順序得到4個(gè)特征波長,分別為1 370、1 680、870、971 nm。
圖2 主成分得分圖Fig.2 Principal component score
從圖2可以看出,除朔州產(chǎn)地樣本中存在一個(gè)異常樣本外,其余不同產(chǎn)地苦蕎樣本的聚類效果較好。由于四川大涼山的苦蕎樣本來自兩個(gè)品牌,所以其樣本聚類效果較為分散,但也能很好地與其他產(chǎn)地的樣本進(jìn)行有效區(qū)分,說明主成分分析基本可以實(shí)現(xiàn)苦蕎產(chǎn)地的溯源。
利用提取的特征波長分別與苦蕎的6種成分進(jìn)行灰色關(guān)聯(lián)分析,得到表3。
表3 苦蕎成分和特征波長的灰色關(guān)聯(lián)度Table 3 Grey relation between characteristic wavelength and composition of tartary buckwheat
從表3可以得出,1 370、870、971 nm波長與對應(yīng)苦蕎成分的關(guān)聯(lián)度由大到小排列為:碳水化合物>蛋白質(zhì)>脂肪>鈉>硒>黃酮,1 680 nm對應(yīng)的關(guān)聯(lián)度由大到小排列為:蛋白質(zhì)>碳水化合物>脂肪>鈉>硒>黃酮,根據(jù)上述關(guān)聯(lián)度排序得出苦蕎的6個(gè)成分中碳水化合物和蛋白質(zhì)跟提取的敏感波長關(guān)聯(lián)度最大。此外通過主成分分析提取的特征波長1 680 nm與杰爾·沃克提到的1 688~1 691 nm波段是折疊結(jié)構(gòu)的CONH2吸收譜帶基本吻合,而主成分分析提取的敏感波長971 nm與杰爾·沃克曼[11]得出糖類的二級倍頻為972 nm的結(jié)果一致。
為了實(shí)現(xiàn)苦蕎產(chǎn)地溯源以及確定苦蕎成分對苦蕎產(chǎn)地溯源的影響程度,對朔州、內(nèi)蒙古、云貴高原、四川大涼山、陜西5個(gè)產(chǎn)地的36個(gè)苦蕎樣本的近紅外光譜數(shù)據(jù)進(jìn)行了主成分分析和灰色關(guān)聯(lián)分析。主要研究結(jié)論如下:
(1)主成分分析提取的4個(gè)特征波長(1 370、1 680、870、971 nm)的累計(jì)貢獻(xiàn)率達(dá)到99.72%,主成分得分圖的產(chǎn)地聚類效果明顯,說明主成分分析可以實(shí)現(xiàn)不同產(chǎn)地苦蕎的溯源;
(2)為了確定6種苦蕎成分對產(chǎn)地溯源的影響程度,將主成分分析提取的特征波長與苦蕎成分進(jìn)行灰色關(guān)聯(lián)分析,得到關(guān)聯(lián)度由大到小為:碳水化合物>蛋白質(zhì)>脂肪>鈉>硒>黃酮。且從官能團(tuán)層面找到了碳水化合物和蛋白質(zhì)是對苦蕎產(chǎn)地溯源影響最大的2個(gè)成分。