王靖會(huì),劉洋,鄭淇友,程曉棠,王朝輝
(1.吉林農(nóng)業(yè)大學(xué)信息技術(shù)學(xué)院,吉林 長(zhǎng)春,130118;2.吉林農(nóng)業(yè)大學(xué)食品科學(xué)與工程學(xué)院,吉林 長(zhǎng)春,130118)
大豆是中國(guó)第四大糧食作物,營(yíng)養(yǎng)全面,其中人體必需脂肪酸、無(wú)機(jī)鹽和微量元素含量豐富[1]。大豆的品質(zhì)與其生長(zhǎng)環(huán)境密切相關(guān),黑龍江省農(nóng)墾九三管理局區(qū)域內(nèi)土壤有機(jī)質(zhì)豐富,化肥、農(nóng)藥用量少,其出產(chǎn)的“九三大豆”是全國(guó)農(nóng)產(chǎn)品地理標(biāo)志產(chǎn)品,營(yíng)養(yǎng)指標(biāo)參數(shù)高,品質(zhì)優(yōu)越,在市場(chǎng)上受到消費(fèi)者的喜愛(ài),價(jià)格相對(duì)于其他大豆產(chǎn)區(qū)略高。近年來(lái),市場(chǎng)上出現(xiàn)了在地理標(biāo)志區(qū)域外種植的大豆,包裝成“九三大豆”出售,導(dǎo)致“九三大豆”的聲譽(yù)和商業(yè)價(jià)值受到損害,同時(shí)對(duì)消費(fèi)者的切身利益也造成了影響,干擾了大豆市場(chǎng)的正常秩序,需要得到原產(chǎn)地保護(hù)政策和產(chǎn)地鑒別技術(shù)支持。
目前,國(guó)內(nèi)外研究人員深入分析不同產(chǎn)地大豆在近紅外光譜、穩(wěn)定同位素、礦物質(zhì)元素、DNA 等方面的特征,應(yīng)用聚類(lèi)分析、隨機(jī)森林、支持向量機(jī)等方法進(jìn)行大豆產(chǎn)地鑒別研究。其中,礦物質(zhì)元素因來(lái)源于所處的環(huán)境,其組成和含量帶有產(chǎn)地特征,故常用于農(nóng)產(chǎn)品產(chǎn)地鑒別研究[2]。而脂肪酸分析技術(shù)在大豆[3]、黑果枸杞[4]、核桃[5]等產(chǎn)地鑒別方面也有一定的研究報(bào)道。然而,產(chǎn)地鑒別的特征指標(biāo)受到多種因素的干擾,以礦物質(zhì)元素或脂肪酸等單源數(shù)據(jù)為基礎(chǔ)提取的特征指標(biāo)尚不穩(wěn)定,研究人員正不斷探索能夠篩選出有效、穩(wěn)定的產(chǎn)地鑒別指標(biāo)的方法。
數(shù)據(jù)融合技術(shù)也被稱作信息融合,是一種多源信息處理技術(shù)。它通過(guò)對(duì)來(lái)自不同傳感器的數(shù)據(jù)進(jìn)行分析和綜合,消除不同傳感器的信息之間可能存在的冗余和矛盾,加以互補(bǔ),增加了系統(tǒng)的穩(wěn)定性,提高數(shù)據(jù)的傳遞效率,可以獲得被測(cè)對(duì)象及其性質(zhì)的最佳一致估計(jì)。相比單一信息源,它所做出的估計(jì)與判斷顯得更加精準(zhǔn)、完整和可靠,大大提升了數(shù)據(jù)使用效率。
本研究提出了數(shù)據(jù)融合技術(shù)結(jié)合支持向量機(jī)進(jìn)行鄰近區(qū)域大豆產(chǎn)地鑒別的方法。以黑龍江省九三農(nóng)墾管理局產(chǎn)出的地理標(biāo)志產(chǎn)品“九三大豆”作為研究對(duì)象,以地理標(biāo)志區(qū)域外綏化地區(qū)的大豆為參考對(duì)象,分別建立基于礦物質(zhì)元素、脂肪酸、數(shù)據(jù)級(jí)融合和特征級(jí)融合的四種數(shù)據(jù)源的支持向量機(jī)模型,通過(guò)比較模型的分類(lèi)結(jié)果,探討該方法的可行性,以期為大豆地理標(biāo)志產(chǎn)品追溯體系的建立提供支持。
在黑龍江省地理標(biāo)志區(qū)域內(nèi)外大豆的主產(chǎn)區(qū)采用五點(diǎn)采樣法隨機(jī)采集大豆樣品216份,其中,地理標(biāo)志區(qū)域內(nèi)嫩江和五大連池地區(qū)采集108 份樣品,地理標(biāo)志區(qū)域周邊的綏化地區(qū)采集108份樣品。將所有大豆樣品先后分別用蒸餾水和去離子水沖洗干凈,放入烘箱中,設(shè)置60 ℃鼓風(fēng)干燥8 h,用研磨儀研磨成粉,并過(guò)100目篩封存?zhèn)溆么郎y(cè)。
TOPEX+全能型微波化學(xué)工作平臺(tái),上海屹堯儀器科技發(fā)展有限公司生產(chǎn);Milli-Q ACADEEMIC純水機(jī),法國(guó)MILLIQ 公司生產(chǎn);Thermo XSeries2 賽默飛電感耦合等離子體質(zhì)譜儀,美國(guó)熱電公司生產(chǎn);RM200 研磨儀,弗爾德(上海)儀器有限公司生產(chǎn);Agilent 7890A氣相色譜儀,美國(guó)安捷倫科技有限公司生產(chǎn);京立離心機(jī)(LD5-2B),北京京立離心機(jī)有限公司生產(chǎn)。
參考趙海燕[6]等方法,使用電感耦合等離子體質(zhì)譜儀測(cè)定樣品中鎂(Mg)、鋁(Al)、磷(P)、鉀(K)、鈣(Ca)、錳(Mn)、鐵(Fe)、銅(Cu)、鋅(Zn)、銣(Rb)、鍶(Sr)、鉬(Mo)、鈀(Ba)共計(jì)13種礦物質(zhì)元素含量。對(duì)每個(gè)樣品進(jìn)行3 次重復(fù)性檢測(cè),最終含量以3 次結(jié)果的平均值為準(zhǔn)。
參考范勝栩[7]等方法,使用氣相色譜儀對(duì)大豆樣品中棕櫚酸、硬脂酸、油酸、亞油酸、亞麻酸共計(jì)5種脂肪酸含量進(jìn)行檢測(cè)。根據(jù)5種脂肪酸標(biāo)準(zhǔn)樣品的峰面積和保留時(shí)間進(jìn)行定性定量分析,得到大豆樣品中5種脂肪酸含量。
1.4.1 散布矩陣 散布矩陣用于粗略展現(xiàn)N 列數(shù)據(jù)中,不同列之間的關(guān)系,可用于估計(jì)變量的正負(fù)相關(guān)性,進(jìn)而為下一步數(shù)據(jù)分析提供決策。方差膨脹系數(shù)VIF計(jì)算公式如下:
其中,Ri為第i個(gè)變量Xi與其他全部變量Xj(i=1,2,...,k;i≠j)的負(fù)相關(guān)系數(shù)。
1.4.2 數(shù)據(jù)融合技術(shù) 按數(shù)據(jù)融合的層次可分為數(shù)據(jù)級(jí)融合和特征級(jí)融合。其中,數(shù)據(jù)級(jí)融合是將測(cè)定的數(shù)據(jù)進(jìn)行簡(jiǎn)單的串聯(lián),行成單個(gè)矩陣,其具有與分析樣本數(shù)據(jù)同樣的行和利用各種儀器測(cè)定的變量列。數(shù)據(jù)級(jí)融合保留了原始數(shù)據(jù)的全部信息,同樣也包括一些可能會(huì)對(duì)模型識(shí)別準(zhǔn)確度造成干擾的信息[8]。特征級(jí)融合首先從各個(gè)不同數(shù)據(jù)源所測(cè)量的數(shù)據(jù)中提取若干特征變量,再將它們組合成一個(gè)用于多變量分類(lèi)和回歸的單個(gè)數(shù)組[9]。特征級(jí)融合大大降低了計(jì)算數(shù)據(jù)量,同時(shí)提取了建立模型的有效信息。
1.4.3 主成分分析 主成分分析(Principal Component Analysis,PCA)是一種使用廣泛的數(shù)據(jù)降維和特征提取的方法。合理提取主成分?jǐn)?shù)對(duì)于建立特征級(jí)數(shù)據(jù)融合模型具有重要意義,主成分?jǐn)?shù)選取過(guò)多會(huì)發(fā)生過(guò)度擬合的情況,選取過(guò)少則會(huì)降低模型的分類(lèi)精度,因此合理地選擇主成分?jǐn)?shù)是特征級(jí)數(shù)據(jù)融合的核心所在。
1.4.4 支持向量機(jī) 支持向量機(jī)(Support Vector Machine,SVM)是一種用于分類(lèi)的基于邊距的監(jiān)督式機(jī)器學(xué)習(xí)方法,在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì)。支持向量機(jī)的分類(lèi)性能主要取決于核函數(shù)的選擇,常用核函數(shù)見(jiàn)表1。
表1 常用核函數(shù)Table 1 Common kernel functions
通過(guò)Python 計(jì)算機(jī)編程語(yǔ)言進(jìn)行數(shù)據(jù)分析并建立支持向量機(jī)模型。
通過(guò)Scale(Z-score)的方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后,使不同數(shù)據(jù)來(lái)源、不同量級(jí)的數(shù)據(jù)轉(zhuǎn)化到統(tǒng)一的范圍之內(nèi),以減少規(guī)模、特征和分布差異等對(duì)數(shù)據(jù)分析和模型的影響[10]。在此基礎(chǔ)上,使用Pandas庫(kù)中scatter_matrix 函數(shù)繪制標(biāo)準(zhǔn)化數(shù)據(jù)的散點(diǎn)矩陣圖,如圖1所示。按公式(1)計(jì)算數(shù)據(jù)集所有變量之間的相關(guān)性,結(jié)果顯示各變量間的方差膨脹系數(shù)(VIF)均小于5,各特征指標(biāo)之間相關(guān)性較弱,均可作為分析變量。
圖1 數(shù)據(jù)散點(diǎn)矩陣圖Fig.1 Data scatter matrix diagram
由于數(shù)據(jù)中存在著“離散點(diǎn)”,為了避免少數(shù)離散數(shù)據(jù)導(dǎo)致整體特征的偏移,通過(guò)figure 函數(shù)繪制數(shù)據(jù)的箱型圖(Box-plot),進(jìn)行t test 雙邊檢驗(yàn)后,將P 值標(biāo)記于箱型圖上,如圖2 所示。探討結(jié)果顯示,九三管理局和綏化地區(qū)大豆中的礦物質(zhì)元素和脂肪酸含量數(shù)據(jù)的分布特征中除了銅(Cu)和鍶(Sr)指標(biāo)差異較小,其他指標(biāo)P值均小于0.05,差異明顯,初步判定可以利用礦物質(zhì)元素和脂肪酸數(shù)據(jù)建立“九三大豆”產(chǎn)地鑒別模型。
圖2 數(shù)據(jù)箱型圖Fig.2 Data Box-plot
圖3 和圖4 分別是礦物質(zhì)元素和脂肪酸組成前3 個(gè)主成分的散點(diǎn)圖,從圖中散點(diǎn)的分布情況上來(lái)看,不同產(chǎn)地大豆所提取的礦物質(zhì)元素和脂肪酸具有一定的聚類(lèi)特征。
圖3 礦物質(zhì)元素主成分分析圖Fig.3 PCA diagram of mineral elements
圖4 脂肪酸主成分分析圖Fig.4 PCA diagram of fatty acids
礦物質(zhì)元素和脂肪酸主成分分析結(jié)果如表2和表3 所示,選取特征值大于1 的成分作為主成分,礦物質(zhì)元素提取了4 個(gè)有效主成分,累積貢獻(xiàn)率為70.486%,脂肪酸提取了2 個(gè)有效主成分,累積貢獻(xiàn)率為76.649%。可充分達(dá)到反映原始數(shù)據(jù)信息的目的。
表2 礦物質(zhì)元素含量主成分分析結(jié)果Table 2 Principal component analysis results of mineral element content
表3 脂肪酸含量主成分分析結(jié)果Table 3 Principal component analysis results of fatty acid content
分別基于礦物質(zhì)元素?cái)?shù)據(jù)、脂肪酸數(shù)據(jù)以及二者的數(shù)據(jù)級(jí)融合數(shù)據(jù)和特征級(jí)融合數(shù)據(jù),利用支持向量機(jī)在默認(rèn)參數(shù)下對(duì)于4個(gè)常用核函數(shù)建立產(chǎn)地鑒別模型,其中數(shù)據(jù)級(jí)融合數(shù)據(jù)是將13種礦物質(zhì)元素和5 種脂肪酸數(shù)據(jù)進(jìn)行簡(jiǎn)單串聯(lián),構(gòu)成一個(gè)18 ×216 數(shù)據(jù)矩陣。特征級(jí)數(shù)據(jù)采用主成分分析方法分別選取特征值大于1的礦物質(zhì)元素和脂肪酸信息的特征,共計(jì)6 個(gè)主成分信息組成的6 × 216 數(shù)據(jù)矩陣。
為保證數(shù)據(jù)代表性,建模數(shù)據(jù)采用分層抽樣方法,運(yùn)用Stratified Shuffle Split 函數(shù)按訓(xùn)練集和測(cè)試集7:3的比例對(duì)數(shù)據(jù)集進(jìn)行劃分。訓(xùn)練集樣本用于分析數(shù)據(jù)、建立和優(yōu)化模型,測(cè)試集用于驗(yàn)證模型的識(shí)別準(zhǔn)確度,具體訓(xùn)練集和測(cè)試集的數(shù)據(jù)量及分類(lèi)如表4所示。
表4 數(shù)據(jù)集劃分情況Table 4 Data set division
建立支持向量機(jī)模型后,輸入測(cè)試集數(shù)據(jù),通過(guò)混淆矩陣計(jì)算的模型準(zhǔn)確率如表5 所示,結(jié)果表明,使用線性核函數(shù)時(shí)分類(lèi)效果最佳。
表5 不同核函數(shù)的支持向量機(jī)模型識(shí)別率比較Table 5 Comparison of recognition rates of SVM models with different kernel functions/%
為進(jìn)一步提高產(chǎn)地鑒別模型的分類(lèi)精度,本研究通過(guò)網(wǎng)格搜索算法結(jié)合五折交叉驗(yàn)證對(duì)識(shí)別率最高的線性核函數(shù)SVM 模型做進(jìn)一步優(yōu)化。在[0,100]區(qū)間內(nèi),步長(zhǎng)為0.2,對(duì)最優(yōu)線性核參數(shù)Cost進(jìn)行遍歷搜索,輸出線性核函數(shù)Cost值為2.2時(shí),模型識(shí)別率最高為95.38%,根據(jù)模型得到的混淆矩陣?yán)L制對(duì)應(yīng)ROC 曲線,并計(jì)算模型AUC 值(ROC 曲線下方面積大?。?,如圖5所示,AUC值為0.90,顯示該組合的分類(lèi)器性能優(yōu)異。
圖5 ROC曲線Fig.5 ROC curve
表6為各數(shù)據(jù)源優(yōu)化前后的線性核函數(shù)SVM模型的分類(lèi)準(zhǔn)確率。對(duì)比結(jié)果發(fā)現(xiàn),相同數(shù)據(jù)源經(jīng)網(wǎng)格搜索算法,結(jié)合五折交叉驗(yàn)證參數(shù)優(yōu)化后的模型,預(yù)測(cè)精度均有一定提高,其中基于特征級(jí)數(shù)據(jù)融合技術(shù)的SVM 模型產(chǎn)地鑒別效果最好,能夠有效地將“九三大豆”與非地理標(biāo)志大豆產(chǎn)品區(qū)分開(kāi)來(lái)。脂肪酸模型較礦物質(zhì)元素模型識(shí)別準(zhǔn)確率略高,而由于數(shù)據(jù)級(jí)融合是將礦物質(zhì)元素和脂肪酸數(shù)據(jù)簡(jiǎn)單進(jìn)行串聯(lián),會(huì)把礦物質(zhì)元素和脂肪酸數(shù)據(jù)中的中一些噪聲點(diǎn)融合起來(lái),對(duì)模型造成干擾,導(dǎo)致數(shù)據(jù)級(jí)融合模型分類(lèi)準(zhǔn)確率低于礦物質(zhì)元素模型和脂肪酸模型的分類(lèi)準(zhǔn)確率。
表6 模型準(zhǔn)確率比較Table 6 Comparison of model accuracy/%
本研究討論了數(shù)據(jù)融合技術(shù)結(jié)合支持向量機(jī)對(duì)鄰近區(qū)域大豆進(jìn)行產(chǎn)地鑒別的可行性。通過(guò)運(yùn)用主成分分析法提取數(shù)據(jù)特征,聚合大豆樣品特性,完成特征級(jí)數(shù)據(jù)融合。在此基礎(chǔ)上分別利用礦物質(zhì)元素、脂肪酸、數(shù)據(jù)級(jí)融合和特征級(jí)融合數(shù)據(jù)建立支持向量機(jī)產(chǎn)地鑒別模型,根據(jù)混淆矩陣計(jì)算得到的分類(lèi)結(jié)果,利用網(wǎng)格搜索算法結(jié)合五折交叉驗(yàn)證對(duì)模型做進(jìn)一步優(yōu)化。結(jié)果表明,特征級(jí)數(shù)據(jù)融合技術(shù)結(jié)合支持向量機(jī)的線性核函數(shù)算法建立的產(chǎn)地鑒別模型表現(xiàn)出最優(yōu)的預(yù)測(cè),準(zhǔn)確率為95.38%。實(shí)現(xiàn)了對(duì)鄰近區(qū)域大豆產(chǎn)地的準(zhǔn)確、有效的區(qū)分,能夠?yàn)榻窈蟮乩順?biāo)志產(chǎn)品保護(hù)提供一定的技術(shù)支持。