王 廣,劉 宇,夏蘭欣,李 偉,程 超,
(1.生物資源與利用湖北省重點(diǎn)實(shí)驗(yàn)室(湖北民族大學(xué)),湖北 恩施 445000;2.湖北民族大學(xué)生物科學(xué)與技術(shù)學(xué)院,湖北 恩施 445000)
淀粉由直鏈淀粉和支鏈淀粉兩大主要部分構(gòu)成,這兩種淀粉在理化性質(zhì)、分子結(jié)構(gòu)和相對(duì)分子質(zhì)量等方面存在一定差異,直鏈淀粉含量是影響淀粉產(chǎn)品加工品質(zhì)的重要指標(biāo)之一,如稻米中直鏈淀粉含量高則米質(zhì)松散,而支鏈淀粉含量高的米質(zhì)較黏稠[1],因此能及時(shí)快速掌握原料中直鏈淀粉的含量對(duì)其加工產(chǎn)品種類具有一定指導(dǎo)作用。近年來發(fā)展起來的測定支鏈淀粉和直鏈淀粉含量的方法有單標(biāo)單波長法、單標(biāo)雙波長法、雙標(biāo)單波長法、雙標(biāo)雙波長法、自動(dòng)分析檢測法、伴刀豆球蛋白法及排阻色譜分析法,這些方法需要將產(chǎn)品進(jìn)行復(fù)雜的前處理才能測得直鏈淀粉含量,且此過程易導(dǎo)致淀粉損失,這不僅使得研究數(shù)據(jù)不準(zhǔn)確,還限制了某些領(lǐng)域的生產(chǎn)速度[2]。
近年來快速、無損紅外定量檢測技術(shù)發(fā)展迅速,如利用近紅外和中紅外光譜定量分析肉制品、乳制品等產(chǎn)品中摻假成分[3-8]、米酒和巧克力的抗氧化能力[9-10]、脂肪酸、淀粉結(jié)晶度等指標(biāo)測定[11-14]等。有資料報(bào)道中紅外定量分析效果略優(yōu)于近紅外,如向伶俐等[15]用近、中紅外光譜儀采集中國4 個(gè)不同葡萄主栽產(chǎn)地153 個(gè)葡萄酒樣品的近紅外透射光譜和中紅外衰減全反射光譜,建模后發(fā)現(xiàn)4 個(gè)產(chǎn)區(qū)葡萄酒判別模型建模集的平均準(zhǔn)確率為78.21%(近紅外)和82.57%(中紅外),檢驗(yàn)集平均準(zhǔn)確率為82.50%(近紅外)和81.98%(中紅外),但二者融合后均優(yōu)于單獨(dú)采用一種光譜技術(shù)。鄒小波等[16]發(fā)現(xiàn)中紅外光譜建立的玉米淀粉回生模型較近紅外光譜更佳。熊艷梅等[17]用近紅外和中紅外法測定氰戊菊酯、馬拉硫磷定量模型的相關(guān)系數(shù)分別為0.998 1、0.999 4和0.994 6、0.999 8,外部驗(yàn)證集標(biāo)準(zhǔn)差分別為0.082、0.081和0.092、0.075,中紅外的定量方法略優(yōu)于近紅外。Musingarabwi等[18]利用傅里葉變換近紅外和衰減全反射中紅外光譜技術(shù)對(duì)不同發(fā)育階段的白蘇維翁葡萄漿果進(jìn)行了定性和定量分析,結(jié)果發(fā)現(xiàn)中紅外光譜分析結(jié)果更可靠。
多組分樣品紅外光譜數(shù)據(jù)相對(duì)較大,很難辨析目標(biāo)成分的特征分析光譜,需要選擇合理的光譜區(qū)間進(jìn)行分析,合適、準(zhǔn)確的波段區(qū)間能減少計(jì)算量,同時(shí)提高精度[19],因此區(qū)間選擇法和變量篩選法等在優(yōu)化紅外光譜模型方面得到了廣泛的應(yīng)用,如肖朝耿等[20]利用區(qū)間偏最小二乘(partial least squares,PLS)法,向后PLS法、向前PLS法進(jìn)行波譜區(qū)間選擇,結(jié)果發(fā)現(xiàn)向后PLS法模型效果最優(yōu)。此外詹雪艷等[21]利用MATLAB軟件的移動(dòng)窗口PLS、組合間隔PLS和競爭自適應(yīng)抽樣方法進(jìn)行建模的變量篩選,發(fā)現(xiàn)競爭自適應(yīng)抽樣方法能實(shí)現(xiàn)目標(biāo)成分紅外特征大部分化學(xué)特征的解析,有利于增強(qiáng)模型的解釋性。
鑒于此,本實(shí)驗(yàn)以馬鈴薯直鏈淀粉與支鏈淀粉標(biāo)準(zhǔn)品為原材料,在iD7ATR Transmission衰減全反射附件上對(duì)樣品進(jìn)行掃描,獲取其紅外圖譜,嘗試?yán)肧imca軟件的主成分分析(principal component analysis,PCA)和正交偏最小二乘(orthogonal partial least squares,OPLS)回歸分析篩選影響直鏈淀粉含量的全反射中紅外光譜的特征波段,而后結(jié)合TQ analyst軟件對(duì)比分析以此波段建立的直鏈淀粉含量定量分析預(yù)測模型的可行性和準(zhǔn)確性。
馬鈴薯直鏈淀粉標(biāo)準(zhǔn)品、馬鈴薯支鏈淀粉標(biāo)準(zhǔn)品美國Sigma公司。
PTY-224/323電子天平 福州華志科學(xué)儀器有限公司;iS5傅里葉紅外光譜儀、iD7 ART Transmission衰減全反射附件 美國Thermo公司。
1.3.1 樣品制備
準(zhǔn)確稱取馬鈴薯直鏈淀粉、馬鈴薯支鏈淀粉兩種標(biāo)準(zhǔn)品,使其直鏈淀粉質(zhì)量分?jǐn)?shù)分別為0%、2%、4%、6%、8%、10%、12%、14%、16%、18%、20%、22%、24%、26%、28%、30%、32%、34%、36%、38%、40%、42%、44%、46%、48%、50%、52%、54%、56%、58%、60%、62%、64%、66%、68%、70%、72%、74%、76%、78%、80%、82%、84%、86%、88%、90%、92%、94%、96%、98%、100%,將上述稱取的樣品裝入PE管中,擰緊管蓋,旋渦振蕩混合均勻,備用。
1.3.2 中紅外光譜數(shù)據(jù)的采集
用藥匙取少量1.3.1節(jié)制備的淀粉樣品,置于傅里葉紅外光譜儀的iD7 Transmission衰減全反射附件上,進(jìn)行紅外掃描,波數(shù)范圍為400~4 000 cm-1,掃描次數(shù)共32 次,分辨率為8 cm-1,掃描間隔為2 cm-1[22]。每個(gè)直鏈淀粉含量的樣品做2 次平行實(shí)驗(yàn)。
利用Simca14.1軟件對(duì)不同直鏈淀粉含量的中紅外圖譜進(jìn)行PCA和OPLS回歸分析[23],而后采用TQ analyst 8軟件對(duì)光譜數(shù)據(jù)進(jìn)行處理,使用PLS建立定量模型并驗(yàn)證。所有圖形均利用Origin2018作圖。
一般認(rèn)為紅外光譜中4 000~1 500 cm-1區(qū)域?yàn)楣倌軋F(tuán)區(qū);1 500~400 cm-1為指紋區(qū)[24],當(dāng)分子結(jié)構(gòu)略有變化時(shí)即可在指紋區(qū)的吸收峰上表現(xiàn)出細(xì)微差異。純直鏈淀粉和支鏈淀粉及二者混合樣品的衰減全反射中紅外圖譜見圖1。
圖1 直鏈淀粉和支鏈淀粉及其混合樣品的傅里葉全反射中紅外圖譜Fig.1 FT-MIR spectra of amylose, amylopectin and their mixed samples
由圖1可看出,在指紋區(qū)含有兩種淀粉的特征結(jié)構(gòu),該區(qū)間含有淀粉基本結(jié)構(gòu)α-D-吡喃葡萄糖環(huán)、淀粉晶體和無定形結(jié)構(gòu)的特征振動(dòng),將圖譜進(jìn)行解卷積處理后發(fā)現(xiàn),1 047 cm-1和1 022 cm-1分別具有淀粉結(jié)晶區(qū)和非結(jié)晶區(qū)域的特征振動(dòng),這與文獻(xiàn)[16,25]的研究結(jié)果一致,同時(shí)測定發(fā)現(xiàn)同等濃度時(shí)由于不同樣品結(jié)晶度不同,這兩個(gè)波段的吸收峰也有差異。此外在900~1 000 cm-1為α-1,4-糖苷鍵的C—O—C伸縮振動(dòng)等[26-28],因此可以利用這些振動(dòng)信息與直鏈淀粉含量相關(guān)聯(lián)建立預(yù)測模型。
每種化合物都具有特征紅外吸收光譜,因此才得以進(jìn)行定性和定量分析。由于樣品組分眾多,其獲取的紅外光譜分析數(shù)據(jù)集相對(duì)較大,因此要選擇合適的波段,減少計(jì)算量、提高計(jì)算精度。
2.2.1 直鏈淀粉含量與其中紅外圖譜相關(guān)性確定
利用Simca軟件對(duì)所有不同含量直鏈淀粉的中紅外光譜數(shù)據(jù)進(jìn)行PCA,為降低噪音的影響,對(duì)中紅外光譜數(shù)據(jù)進(jìn)行Ctr中心化處理后進(jìn)行PCA,結(jié)果發(fā)現(xiàn)可以分為4 個(gè)PC,其中R2X為0.986,Q2為0.982,表明4 個(gè)PC包含了樣品的大部分信息,能代表樣品中直鏈淀粉含量的主要光譜特征,PCA的scoreplot見圖2。由圖2可看出,PCA結(jié)果可以客觀地分析中紅外光譜數(shù)據(jù)和直鏈淀粉含量的分布態(tài)勢,隨著PC1在-10~8、PC2在-2.5~1.5范圍的遷移,直鏈淀粉的含量逐漸增加,說明傅里葉中紅外圖譜數(shù)據(jù)與直鏈淀粉含量具有一定的相關(guān)性。
2.2.2 直鏈淀粉含量與中紅外圖譜回歸模型分析
為進(jìn)一步探索傅里葉中紅外光譜數(shù)據(jù)是否能足夠預(yù)測直鏈淀粉含量,利用Simca軟件進(jìn)行OPLS回歸模型分析。
OPLS是一種新型的多元統(tǒng)計(jì)數(shù)據(jù)分析方法,可研究Y變量和多元X變量之間的關(guān)系,最大特點(diǎn)是可去除自變量中與分類變量無關(guān)的數(shù)據(jù)變異,使分類信息主要集中在一個(gè)或幾個(gè)PC中,模型變得簡單和易于解釋,其判別效果及PC得分圖可視化效果更明顯[29],因此利用Simca軟件建立直鏈淀粉含量與中紅外圖譜的OPLS回歸模型,模型的R2X為0.979,R2Y為0.958,Q2為0.940,說明此回歸模型較好,為進(jìn)一步考察此回歸模型的可靠性,對(duì)此OPLS模型進(jìn)行擬合和置換檢驗(yàn),結(jié)果見圖3和圖4。
圖3 基于OPLS法回歸模型的直鏈淀粉含量擬合效果Fig.3 Fitting of actual amylose contents to predicted values from OPLS regression model
由圖3可以看出,R2為0.958 1,說明此回歸方程擬合程度較高。從圖4的R2和Q2可以看出,隨機(jī)數(shù)據(jù)產(chǎn)生的模型比現(xiàn)有模型差很多,說明現(xiàn)有OPLS模型可靠。為深入了解在400~4 000 cm-1中對(duì)直鏈淀粉含量影響最顯著的波段,對(duì)OPLS模型進(jìn)行變量重要度投影[30](variable importance for the projection,VIP)分析,結(jié)果見圖5。
圖4 基于OPLS回歸模型的置換檢驗(yàn)圖Fig.4 Permutation plot based on OPLS regression model
圖5 基于OPLS回歸模型VIP圖Fig.5 VIP plot based on OPLS regression model
由圖5可看出,直鏈淀粉含量模型擬合貢獻(xiàn)比較大波段主要有400~765、969~1 158、3 250~3 329 cm-1,這3 個(gè)波段區(qū)間的VIP大于1,因此可以認(rèn)為此波段可作為影響直鏈淀粉含量預(yù)測的特征波段。
鑒于400~765 cm-1的噪音干擾過大,3 250~3 329 cm-1受羥基影響大,因此只選擇VIP大于1的969~1 158 cm-1作為不同直鏈淀粉含量的中紅外圖譜檢測的分析波段。利用TQ analyst軟件對(duì)傅里葉中紅外的全波段和此分析波段分別進(jìn)行建模預(yù)測和驗(yàn)證。使用TQ analyst8軟件進(jìn)行數(shù)據(jù)分析,選擇原始光譜數(shù)據(jù)、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)的處理方法,在PLS法的基礎(chǔ)上建模。
2.3.1 直鏈淀粉混合樣品定量模型的建立
分別用隨機(jī)數(shù)生成器,在淀粉紅外圖譜中隨機(jī)選擇2/3為建模集,1/3為驗(yàn)證集,驗(yàn)證集為隨機(jī)選擇包含高中低濃度的樣品圖譜,依次選用400~2 000 cm-1、主要指紋峰波段800~1 200 cm-1、OPLS分析的VIP大于1的969~1 158 cm-1三大波段為建模波段,在PLS方法基礎(chǔ)上,每個(gè)波段分別以原始圖譜數(shù)據(jù)、一階導(dǎo)數(shù)和二階導(dǎo)數(shù)處理的光譜數(shù)據(jù)建立兩個(gè)模型,模型內(nèi)部采用交叉驗(yàn)證的方法。表1為400~4 000、800~1 200、969~1 158 cm-1建模和交叉驗(yàn)證的結(jié)果。
表1 不同分析波段PLS建模的模型參數(shù)Table 1 Parameters of PLS models within different bands
所構(gòu)建的模型,其內(nèi)部穩(wěn)健性和擬合效果是根據(jù)決定系數(shù)(RC2)和校正集均方根誤差(root mean square error for calibration,RMSEC)為指標(biāo)進(jìn)行綜合評(píng)定。模型內(nèi)部預(yù)測能力以決定系數(shù)(RV2)和交互驗(yàn)證均方根誤差(root mean squares error of cross-validation,RMSECV)為評(píng)價(jià)指標(biāo)。其中決定系數(shù)越大,其均方差越小,對(duì)應(yīng)的模型擬合效果就越好。
比較表1的3 個(gè)波段的PLS建模參數(shù)可知,選用400~4 000 cm-1建模時(shí),在兩個(gè)模型中,原始光譜的建模效果均顯著優(yōu)于一階導(dǎo)數(shù)、二階導(dǎo)數(shù)處理后,這可能是由于全光譜建模會(huì)將很多噪聲信息納入,這些噪音信息和反映直鏈淀粉含量的光譜信息混合,而光譜導(dǎo)數(shù)處理同時(shí)也放大了噪聲信息,進(jìn)而對(duì)模型造成嚴(yán)重干擾[31]。以800~1 200 cm-1和969~1 158 cm-1兩個(gè)波段的光譜數(shù)據(jù)的建模效果顯著優(yōu)于400~4 000 cm-1,這兩個(gè)波段建模的RC2和RV2基本上均大于0.97,說明模型的擬合效果和內(nèi)部預(yù)測能力均較好,通過比較可以看出這兩個(gè)波段建模效果的順序均為二階導(dǎo)數(shù)>一階導(dǎo)數(shù)>原始光譜,尤其是以Simca軟件篩選VIP大于1的969~1 158 cm-1RC2顯著優(yōu)于800~1 200 cm-1,達(dá)到了0.999 8;這可能是由于Simca篩選的分析變量去除光譜中噪音變量和冗余變量,從而提高模型的穩(wěn)定性,此外對(duì)原始光譜數(shù)據(jù)經(jīng)一階導(dǎo)數(shù)和二階導(dǎo)數(shù)處理后,反映直鏈淀粉的信息量得到放大,使光譜之間的差異更加明顯,能將重疊的峰分開,提供了比原光譜更高的分辨率和更清晰的光譜輪廓變化,因此二階導(dǎo)數(shù)處理的建模效果最優(yōu)。
2.3.2 模型驗(yàn)證結(jié)果
進(jìn)一步用驗(yàn)證集對(duì)模型進(jìn)行外部驗(yàn)證,由于400~4 000 cm-1建模效果較差,同時(shí)800~1 200、969~1 168 cm-1的原始數(shù)據(jù)建模效果也較差,因而驗(yàn)證時(shí)舍棄。驗(yàn)證集數(shù)據(jù)預(yù)測結(jié)果如表2所示。為更直觀地比較預(yù)測效果,將模型中驗(yàn)證效果良好的800~1 200 cm-1波段和969~1 158 cm-1的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)建模的預(yù)測值與真實(shí)值進(jìn)行擬合作圖,結(jié)果見圖6。
表2 全波長驗(yàn)證數(shù)據(jù)預(yù)測效果Table 2 Validation of prediction models based on full-band spectra
圖6 驗(yàn)證集驗(yàn)證效果Fig.6 Validation with validation set in the region of 800 -1 200 cm-1 and 969-1 158 cm-1
所構(gòu)建好的模型,根據(jù)驗(yàn)證樣品的預(yù)測能力,以線性相關(guān)系數(shù)(RP2)和預(yù)測集均方根誤差(root mean square error for prediction,RMSEP)作為評(píng)價(jià)指標(biāo)觀測實(shí)驗(yàn)結(jié)果,相關(guān)系數(shù)越接近1,RMSEP越小,則其所對(duì)應(yīng)模型的預(yù)測效果就越好。此外,相對(duì)分析誤差(relative percent deviation,RPD)也是評(píng)價(jià)模型預(yù)測能力的關(guān)鍵指標(biāo)之一,RPD可以對(duì)不同樣本集造成的影響進(jìn)行有效消除,并能夠提高實(shí)驗(yàn)預(yù)測的準(zhǔn)確性,使其更加標(biāo)準(zhǔn)化。RPD越大,表征其相對(duì)應(yīng)模型的預(yù)測能力越好。當(dāng)RPD>3時(shí),表明模型有很好的預(yù)測效果。
由表2可以看出,驗(yàn)證集的RPD都大于3,線性相關(guān)系數(shù)在0.93以上,說明這兩個(gè)波段模型1、2具有很好的預(yù)測效果。但通過對(duì)比發(fā)現(xiàn),以969~1 158 cm-1為分析波段經(jīng)二階導(dǎo)數(shù)數(shù)據(jù)處理后建模驗(yàn)證時(shí),其預(yù)測相關(guān)系數(shù)最高可達(dá)到0.962 7,而預(yù)測均方差也相對(duì)較低,同時(shí)圖6B的驗(yàn)證結(jié)果也說明中紅外光譜模型預(yù)測值與真實(shí)值接近,具有較好的線性關(guān)系。
本實(shí)驗(yàn)利用傅里葉衰減全反射中紅外光譜建模定量分析直鏈淀粉含量,為提高預(yù)測模型的準(zhǔn)確性,利用Simca軟件的PCA和OPLS分析篩選了中紅外定量分析的特征波段,結(jié)果發(fā)現(xiàn)969~1 158 cm-1特征波段,主要對(duì)應(yīng)直鏈淀粉的結(jié)晶區(qū)和非結(jié)晶區(qū),同時(shí)也是α-1,4-糖苷鍵C—O—C伸縮振動(dòng)的特征波段,基于此特征波段、全波段等,利用TQ analyst軟件采用PLS法使用原始光譜、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)的處理方法建模驗(yàn)證時(shí)發(fā)現(xiàn),969~1 158 cm-1光譜數(shù)據(jù)進(jìn)行二階導(dǎo)數(shù)處理后建模的效果最優(yōu),模型的預(yù)測性能較全波段等得到了提高,模型相關(guān)系數(shù)為0.999 8,RMSEC和RMSEP分別為0.587%和6.26%,RPD為5.177 8,預(yù)測值和真實(shí)值相關(guān)系數(shù)為0.962 7。因此OPLS篩選的變量能實(shí)現(xiàn)直鏈淀粉中紅外區(qū)大部分化學(xué)特征的解析,可增強(qiáng)預(yù)測模型的解析性。