賓俊,周冀衡,范偉,李鑫,梁逸曾,肖志新,李春順
1 湖南農(nóng)業(yè)大學(xué),生物科學(xué)技術(shù)學(xué)院,湖南長沙農(nóng)大路1號 410128;2 中南大學(xué),化學(xué)化工學(xué)院,湖南長沙麓山南路932號 410083;3 云南省煙草公司保山市公司,云南保山正陽北路186號 678000;4 江蘇中煙工業(yè)有限責任公司,江蘇南京夢都大街30號 210019
基于NIR 技術(shù)和ELM 的烤煙煙葉自動分級
賓俊1,周冀衡1,范偉1,李鑫1,梁逸曾2,肖志新3,李春順4
1 湖南農(nóng)業(yè)大學(xué),生物科學(xué)技術(shù)學(xué)院,湖南長沙農(nóng)大路1號 410128;2 中南大學(xué),化學(xué)化工學(xué)院,湖南長沙麓山南路932號 410083;3 云南省煙草公司保山市公司,云南保山正陽北路186號 678000;4 江蘇中煙工業(yè)有限責任公司,江蘇南京夢都大街30號 210019
為解決初烤煙葉收購中人工分級主觀因素影響較大的問題,提出了一種基于近紅外(NIR)光譜技術(shù)結(jié)合極限學(xué)習(xí)機(ELM)算法自動鑒別煙葉等級的方法。文章首次提出基于品質(zhì)相似、價格接近原則的煙葉收購分組方法,通過交互檢驗優(yōu)化ELM分組、分級模型的隱節(jié)點數(shù),并與K最近鄰法(KNN)、支持向量機(SVM)和隨機森林(RF)等多分類算法進行了比較。結(jié)果表明:ELM分類模型參數(shù)自動優(yōu)化、訓(xùn)練時間短、穩(wěn)定性和預(yù)測能力較好,2014年(數(shù)據(jù)集A)、2015年(數(shù)據(jù)集B)煙葉收購國標樣本上、中、下等煙外部預(yù)測分組正確率分別為95.77%和94.23%,數(shù)據(jù)集A和B的上、中、下等煙各組樣本外部預(yù)測分級正確率分別為85.71%、86.67%、100%和100%、92.86%、92.86%。因此,采用NIR技術(shù)結(jié)合ELM能準確鑒別初烤煙葉等級,可為烤煙煙葉收購質(zhì)量等級評價提供一種新技術(shù)。
煙葉分級;近紅外光譜;極限學(xué)習(xí)機;分類模型;多分類算法
烤煙作為重要的經(jīng)濟作物,其品質(zhì)檢驗與等級劃分必須嚴格規(guī)范。目前,烤煙煙葉分級是根據(jù)煙葉的成熟度、葉片結(jié)構(gòu)、身份、油分、色度、長度和傷殘等因素進行的等級優(yōu)劣劃分,由于現(xiàn)行的42級分級標準中大部分煙葉等級特征的規(guī)定僅是對外觀定性的描述,分級人員無法對煙葉等級進行定量評判。同時,由于當前主要的煙葉分級方式依靠分級人員的感官和經(jīng)驗來判斷,而不同人的感官、經(jīng)驗以及對標準的理解都存在一定差異,單憑感官評定帶有較強的主觀性和經(jīng)驗性,易導(dǎo)致煙葉收購等級評定不準確,嚴重阻礙了煙葉的收購和卷煙生產(chǎn)。
因此,為了避免煙葉收購過程中分級人員的主觀隨意性對級別評定的影響,采用自動智能技術(shù)替代人工對煙葉進行等級劃分[1-4]是煙草工業(yè)發(fā)展的趨勢。當前,煙葉自動分級技術(shù)的研究獲得了較大發(fā)展,主要可分為以下幾個方面:(1)利用機器視覺技術(shù)提取煙葉特征信息結(jié)合BP神經(jīng)網(wǎng)絡(luò)、ANN和SVM等神經(jīng)網(wǎng)絡(luò)算法建立分類模型[5-10],實現(xiàn)煙葉等級的劃分,但此類方法僅提取了煙葉的表面特征,對煙葉這種復(fù)雜生物樣本的分類準確度偏差較大。(2)基于模糊數(shù)學(xué)、粗糙集理論等理論數(shù)學(xué)方法結(jié)合煙葉化學(xué)指標建立煙葉分級決策規(guī)則[11-12],實現(xiàn)煙葉的分組、分級,但化學(xué)指標測量耗時,規(guī)則推理復(fù)雜,分級正確率不高。(3)利用紅外、近紅外(NIR)等光譜技術(shù)結(jié)合DA、SVM等化學(xué)計量學(xué)算法建立煙葉的分級模型[13-14],可實現(xiàn)對煙葉的快速分級。由于NIR光譜技術(shù)是一種快速、簡單、非破壞性的分析技術(shù),在食品、制藥、煙草、石化、紡織、農(nóng)產(chǎn)品等領(lǐng)域得到了廣泛應(yīng)用[15-17],其不僅可以獲取煙葉顏色等外觀特征,同時也可反映煙葉內(nèi)在品質(zhì)信息,較人工、圖像視覺提取技術(shù)和數(shù)學(xué)推理方法等分級技術(shù)有天然的優(yōu)勢,故而,NIR光譜技術(shù)結(jié)合一種優(yōu)秀建模方法是煙葉快速分級的不錯選擇。
鑒于此,本文提出了基于NIR光譜技術(shù)結(jié)合極限學(xué)習(xí)機(ELM)[18-20]的初烤煙葉快速分級方案,該方案充分利用兩者的優(yōu)勢,構(gòu)建了煙葉快速分級模型;同時還首次提出基于品質(zhì)相似、價格接近原則的煙葉分組方法,先將質(zhì)量和價格相差不大的煙葉分成上等煙、中等煙和下等煙三個組分,然后分別對三個組分進行等級劃分,這與常規(guī)的利用煙葉顏色、部位進行分組的方法不同,可有效避免上、中、下等煙三個不同組分之間的誤判,減少損失,提高分級正確率。該方案采用自動技術(shù)代替人工經(jīng)驗判別,可有效解決當前煙葉分級存在的問題,提高煙葉等級純度,充分利用煙葉資源優(yōu)勢,滿足卷煙工業(yè)的需求。此外,該方案兼顧了分級正確率和分級速度,具有簡捷、高效、可靠等特點,可為設(shè)計實用的煙葉自動、快速分級設(shè)備提供理論支撐。
試驗所用煙葉樣本為云南省煙草公司保山東方煙草有限責任公司提供,收購品種為K326,數(shù)據(jù)集A為2014年烤煙煙葉收購國標樣本428個,數(shù)據(jù)集B為2015年烤煙煙葉收購國標樣本317個,所有煙葉樣本均由國家級分級師按照烤煙分級國家標準(42級)《烤煙GB2635—1992》進行定級,具體樣本信息見表1。
表1 數(shù)據(jù)集A和B的樣本信息Tab.1 The sample information of dataset A and dataset B
試驗儀器采用B&W Tek Opto-Electronics公司的i-Spec BWS004光柵掃描型近紅外光譜儀,配套標準探頭、標準光纖和漫反射白板,采樣軟件為儀器自帶的BWSpec4.0,所有數(shù)據(jù)分析和處理都在Matlab R2015a (Mathworks, Natick, USA) 軟件平臺上完成。
光譜采集時,先將皺縮煙葉樣本平整鋪開,然后用近紅外標準探頭垂直壓緊煙葉葉面進行漫反射光譜掃描,掃描測定時,每片煙葉按圖1所示,根據(jù)煙葉葉片化學(xué)成分分布規(guī)律[21],以主脈為軸對稱劃分出上下2個區(qū)域,每個區(qū)域再由葉尖至葉柄分為3個小區(qū),共計6個測量區(qū),然后在每個區(qū)的中心取1個點(避開葉脈)進行光譜掃描,每個點測3次求平均,6個測量點的平均光譜作為該煙葉的測量光譜。掃描前,光譜儀開機預(yù)熱30 min,光譜掃描范圍為 11111~5882 cm-1(900~1700 nm),分辨率為 3.5 nm,采樣間隔1.6 nm,積分時間設(shè)置為10 ms,掃描次數(shù)為32次,儀器工作室溫控制在(25±1) ℃。
圖1 光譜采集位置分布示意圖Fig.1 The schematic diagram of location distribution of spectral collection
ELM是由新加坡學(xué)者Huang Guang-bin于2004年提出的一種新型單隱含層前饋神經(jīng)網(wǎng)絡(luò)(SLFNs)學(xué)習(xí)算法,算法執(zhí)行過程中自動調(diào)整網(wǎng)絡(luò)的輸入權(quán)值以及隱含層神經(jīng)元偏置,學(xué)習(xí)速度快,泛化性能好且能產(chǎn)生唯一的最優(yōu)解。一般而言,具有L個隱含節(jié)點的標準SLFNs與激勵函數(shù)g(x)組合的數(shù)學(xué)模型為:
其 中aj=[aj1,aj2,… ,ajn]∈ Rn為 第j個 隱 層神經(jīng)元與輸入神經(jīng)元的連接權(quán)重,即輸入權(quán)重,bj∈R (j = 1,2,… ,L)表示第j個隱層神經(jīng)元學(xué)習(xí)參數(shù),即神經(jīng)元偏置, βj=[βj1,βj2,… ,βjm]T∈Rm表示第j個隱層神經(jīng)元與輸出神經(jīng)元的連接權(quán)重,即輸出權(quán)重。與傳統(tǒng)的梯度下降算法不同,SLFNs能以接近零誤差來逼近樣本矩陣,即則存在 βj,αj和bj滿足:
上式也可以簡寫為:
其中H 為隱含層輸出矩陣,T為目標輸出矩陣。Huang Guang-bin等研究表明,SLFNs的輸入權(quán)重和隱層偏置對神經(jīng)網(wǎng)絡(luò)性能沒有影響,故而,對于任意給定的輸入權(quán)重αj和隱層偏置bi,訓(xùn)練SLFNs就相當于給式(3)的線性系統(tǒng)找到最小二乘解,即
其最小范數(shù)的最小二乘解為:
其中H?為H的Moore-Penrose廣義逆。
(1)任意給定輸入權(quán)重αi和隱層偏置bi,i=1,…,N ;
(2)計算隱層輸出矩陣H;
(3)計算輸出權(quán)重β:β=H?T。在激活函數(shù)無窮可微、基于隨機數(shù)定律和大數(shù)定律設(shè)定輸入權(quán)值和隱層偏置的情況下,ELM神經(jīng)網(wǎng)絡(luò)的參數(shù)不必迭代調(diào)整,并且通過一步計算即可求出網(wǎng)絡(luò)的輸出權(quán)值,算法結(jié)構(gòu)簡單、計算速率快;而且在大多數(shù)的應(yīng)用中,ELM的泛化能力優(yōu)于基于梯度的算法;同時ELM直接構(gòu)建單隱層反饋神經(jīng)網(wǎng)絡(luò),可避免處理傳統(tǒng)的基于梯度的算法需要解決的諸如局部最小、合適的學(xué)習(xí)率、過擬合等棘手問題。
采集到的煙葉原始近紅外光譜數(shù)據(jù)夾雜儀器操作、樣品背景和雜散光等引起的噪聲和基線偏移,因此在對光譜數(shù)據(jù)進行操作之前,需要對光譜進行預(yù)處理,預(yù)處理有助于消除干擾因素、促進有用信息的提取。兩個光譜數(shù)據(jù)皆采用如下預(yù)處理方法:(1)采用Savitzky-Golay平滑法對光譜進行平滑,平滑點數(shù)為9,多項式次數(shù)為3;(2)應(yīng)用多元散射校正(MSC)算法消除由于煙葉樣品表面不光滑產(chǎn)生的光譜散射影響,增強與成分含量相關(guān)的光譜吸收信息。(3)使用Savitzky-Golay求導(dǎo)算法對光譜進行二階求導(dǎo)。預(yù)處理前后的光譜見圖2。
圖2 煙葉近紅外光譜Fig.2 NIR spectra of tobacco leaves
劃分樣本時按照等級的不同將響應(yīng)值y定義為‘1’、‘2’、‘3’、…、‘n’的類別向量,先利用SPXY樣本劃分方法[22]選擇整個數(shù)據(jù)集的1/6作為預(yù)測集,然后用SPXY方法將剩下數(shù)據(jù)集的3/4劃作訓(xùn)練集,1/4劃作驗證集。具體的樣本劃分信息見表2。
表2 樣本劃分信息Tab.2 The dividing information of samples
ELM算法在執(zhí)行過程中無需設(shè)置網(wǎng)絡(luò)輸入權(quán)值和隱層神經(jīng)元偏置,學(xué)習(xí)速度快,建立ELM模型僅需要選擇激勵函數(shù)以及隱節(jié)點數(shù)。ELM算法共有5種激勵函數(shù)可供選擇,分別為:Sigmoidal、Sine、Hardlim、Triangular basis和Radial basis函數(shù)。圖3是5種激勵函數(shù)對數(shù)據(jù)集A的預(yù)測分類正確率,除Hardlim函數(shù)的分類正確率較低外,其他4種激勵函數(shù)都隨著隱節(jié)點數(shù)的增加,預(yù)測分類正確率逐漸穩(wěn)定。因此,選擇常用的Sigmoid函數(shù)作為建模的激勵函數(shù)。
圖3 激勵函數(shù)的選擇(以數(shù)據(jù)集A為例)Fig.3 The selection of excitation functions (for dataset A as an example)
激勵函數(shù)選擇后,采用10折交互檢驗對隱層節(jié)點數(shù)進行選擇,圖4和圖5為數(shù)據(jù)集A和B的交互檢驗分類正確率隨著隱節(jié)點個數(shù)的變化曲線,如圖所示,當訓(xùn)練集和驗證集的分類正確率達到最大時,數(shù)據(jù)集A和B的分組模型的隱節(jié)點數(shù)分別選擇為97和75,數(shù)據(jù)集A的上等煙、中等煙和下等煙各組的分級模型選擇的隱節(jié)點數(shù)分別為35、41和19,數(shù)據(jù)集B各組分級模型選擇的隱節(jié)點數(shù)分別為15、27和17。根據(jù)選擇的激勵函數(shù)和隱節(jié)點數(shù),建立的ELM模型兩個數(shù)據(jù)集的分組和分級正確率(運行100次、出現(xiàn)次數(shù)最多的結(jié)果)見表3和表4。
圖4 數(shù)據(jù)集A隱節(jié)點數(shù)的選擇,(a)為分組數(shù)據(jù),(b)、(c)、(d)分別為上、中、下等煙數(shù)據(jù)Fig.4 The selection of hidden node number of dataset A, (a)grouping dataset, (b) high-quality group, (c) medium-quality group, (d) low-quality group
圖5 數(shù)據(jù)集B隱節(jié)點數(shù)的選擇,(a)為分組數(shù)據(jù),(b)、(c)、(d)分別為上、中、下等煙數(shù)據(jù)Fig.5 The selection of hidden node number of dataset B, (a)grouping dataset, (b) high-quality group, (c) medium-quality group, (d) low-quality group
表3 數(shù)據(jù)集A分類正確率Tab.3 The classi fi cation accuracy of dataset A %
表4 數(shù)據(jù)集B分類正確率Tab.4 The classi fi cation accuracy of dataset B %
由于ELM是一種基于隨機策略的分類算法,故需要對其模型的穩(wěn)定性進行檢驗。目前,隨機算法的穩(wěn)定性檢驗一般采用多次運行計算分布頻率的方法,雖簡單但卻能有效表征算法的穩(wěn)定性能。本文統(tǒng)計了數(shù)據(jù)集A和B分組、分級ELM模型分別運行1000次的結(jié)果,計算出的數(shù)據(jù)集A和B分組模型標準偏差分別為0.0148和0.0297,數(shù)據(jù)集A的分級模型標準偏差分別為0.0740、0.0432和0.0327,數(shù)據(jù)集B的分級模型標準偏差分別為0.0930、0.0355和0.0397,標準偏差都較小,說明ELM模型的穩(wěn)定性較好。
為了驗證ELM烤煙煙葉分級模型的有效性,我們使用外部預(yù)測集對建立的模型進行了外部預(yù)測,分組分級預(yù)測結(jié)果(運行100次、出現(xiàn)次數(shù)最多的結(jié)果)見表5。從表中可以看出,由于訓(xùn)練集較大,ELM模型分組預(yù)測效果較好;預(yù)測集A的上等煙和中等煙分級預(yù)測效果不太理想,可能是由于類別太多導(dǎo)致正確率下降,若增大模型樣本容量,預(yù)測正確率應(yīng)當有一定提高。通過對模型進行外部樣本驗證,進一步說明模型的合理性和預(yù)測能力均較好。
表5 模型外部預(yù)測結(jié)果Tab.5 The external prediction results of models %
為了充分檢驗ELM分類模型的性能,將其與KNN、SVM和RF三種方法[23-24]建立的分類模型進行了比較。
K最近鄰(KNN)[25-26]作為一種經(jīng)典的懶惰分類算法,采用邊測試邊訓(xùn)練的被動方式建立分類模型,以同類樣本在模式空間相互較靠近的模式識別假設(shè)作為分類依據(jù),在模式識別、計算機視覺、編碼理論和文本分類等領(lǐng)域獲得了廣泛應(yīng)用。本文采用10折交互驗證對K值進行選擇,數(shù)據(jù)集A和B分組模型的K值分別選擇5和4,數(shù)據(jù)集A上、中、下等煙分級模型的K值分別選擇7、3和6,數(shù)據(jù)集B分級模型K值分別選擇5、5和7。雖然KNN分類算法使用簡單,但對測試樣本分類時計算量大,可解釋性較差,無法給出決策樹那樣的規(guī)則,煙葉分級效果也較其他方法差。
支持向量機(SVM)[27-28]是一種機器學(xué)習(xí)的多元技術(shù),通過選擇的核函數(shù)將輸入向量映射到高維特征空間,并在該空間構(gòu)造最優(yōu)超平面,達到分類的目的。為了得到最佳效果,先用PCA對樣本進行降維處理,然后對SVM的參數(shù)進行優(yōu)化,包括核函數(shù)、懲罰參數(shù)C和內(nèi)核參數(shù)γ,根據(jù)核校準方法,兩個數(shù)據(jù)均選擇徑向基核函數(shù)(RBF),通過指數(shù)增長序列的網(wǎng)格搜索方法選擇懲罰因子C和核參數(shù)γ,數(shù)據(jù)集A和B分組模型的懲罰參數(shù)C和核參數(shù)γ分別為4.1360和0.2585、7.1997和0.0490,數(shù)據(jù)集A分級模型的C分別為 66.2341、200.5035和 65.9754,γ分別為0.0162、0.0093和0.0161,數(shù)據(jù)集B分級模型的C分別為 1.3707、38.1604和 2.4163,γ分別為 0.0283、0.0283和 0.0094。
SVM模型具有較好的泛化性能,能避免對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的選擇,但SVM方法需要對樣本進行降維,前期處理復(fù)雜,且經(jīng)驗性優(yōu)化參數(shù),從表3、4中可知,SVM存在分類性能不穩(wěn)定、對訓(xùn)練樣本數(shù)據(jù)比較敏感等問題。
隨機森林(RF)[29-30]是一種將bootstrap重抽樣方法與決策樹相結(jié)合的分類算法,“雙隨機”策略能使RF的子分類器之間具有較大的差異性,保證算法分類性能。RF分類器訓(xùn)練過程需要優(yōu)化兩個參數(shù):分類樹的數(shù)量(ntree)和隨機選擇變量數(shù)(mtry),采用袋外數(shù)據(jù)(OOB)錯誤率來評估這兩個參數(shù)。ntree在1~500范圍內(nèi),OOB錯誤率不斷降低;當ntree在500~2000范圍內(nèi)變化時,OOB錯誤率變化很小,因此ntree采用默認值500。mtry通過重復(fù)運行RF算法100次來優(yōu)化,初始值設(shè)為默認值22(總變量數(shù)的平方根),步長設(shè)為2,隨著mtry的變化,OOB誤差基本不變化,因此,mtry值均取為總變量數(shù)的平方根。
但是,RF存在輕微的過擬合,每個分組、分級模型的訓(xùn)練分類正確率都達到100%,而預(yù)測分類正確率較低;RF分類器還有一個缺點就是要求樣本屬性劃分比較均衡,對樣本劃分較多的屬性會對RF分類器產(chǎn)生更大的影響,降低了分類器性能,表6為各種方法建模訓(xùn)練時間的對比數(shù)據(jù),從中可知,RF分類器訓(xùn)練時間較其他方法都長。
從表3、4中的分類結(jié)果可知,ELM算法在各個組別、級別的內(nèi)部分類驗證中都具有優(yōu)良的表現(xiàn),分級正確率均超過91.67%,從表5可知,ELM模型外部煙葉樣本預(yù)測正確率較其他方法高,說明ELM算法有較好的泛化性能,從表6可知,ELM模型的訓(xùn)練時間比其他方法都短,說明ELM基于隨機數(shù)定律和大數(shù)定律的解決策略,不必迭代調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),僅一步計算即可求出網(wǎng)絡(luò)的輸出權(quán)值,模型簡單,建模效率較高。綜上所述,ELM算法在兩個數(shù)據(jù)集的分組、分級中均有較好表現(xiàn),ELM算法建模參數(shù)自動優(yōu)化,模型的預(yù)測正確率和可解釋性較其他三種方法高,是處理煙葉分組、分級問題的首選算法,復(fù)雜體系的化學(xué)計量學(xué)方法結(jié)合NIR技術(shù)可能是烤煙煙葉收購質(zhì)量等級評價的新方向。
表6 模型訓(xùn)練時間比較Tab.6 The comparison of model training time s
NIRS技術(shù)不僅能獲取煙葉顏色等外觀特征,也可反映煙葉內(nèi)在品質(zhì)信息,較圖像提取技術(shù)和理論數(shù)學(xué)有明顯優(yōu)勢。ELM方法建模時間短,在解決多分類問題上具有優(yōu)良性能。本文將二者結(jié)合起來建立了烤煙煙葉自動分級預(yù)測模型,并與常用的多分類算法KNN、SVM和RF進行了比較,分組、分級結(jié)果表明:ELM模型訓(xùn)練時間短、分類正確率高,具有較強的穩(wěn)定性,能較好的實現(xiàn)烤煙煙葉的自動分級。同時,文章首次提出基于品質(zhì)相似、價格接近原則的煙葉收購分組方法,避免高低價位煙葉之間的誤判,減少損失。本文建立的烤煙煙葉自動分級模型,可實現(xiàn)“整葉”品質(zhì)無損檢測評價,保證了煙葉分級的客觀性,達到了較好的分級效果,可為改善我國煙葉分級手段落后的局面提供理論支持。
由于目前我們使用單探頭近紅外光譜手動掃描煙葉,每片煙葉僅有一條代表光譜,對殘缺煙和雜色煙適用性不好,且每測量一片煙葉需耗時5~6 s,但是,近紅外光譜檢測時間為毫秒級,快速無損檢測潛力較大,若將其與成像技術(shù)、計算機軟件技術(shù)和自動傳送技術(shù)等結(jié)合,一定能實現(xiàn)煙葉的快速自動分級。
[1] 韓力群,何為,段振剛,等. 烤煙煙葉自動分級的智能技術(shù)[J]. 農(nóng)業(yè)工程學(xué)報, 2002, 18(6):173-175.Han Liqun, He Wei, Duan Zhengang, et al. Intelligent technologies in automatic grading of fl ue-cured tobacco[J].Transactions of the CSAE, 2002, 18(6): 173-175. (in Chinese)
[2] 韓力群,何為,蘇維均,等. 基于擬腦智能系統(tǒng)的烤煙煙葉分級研究[J]. 農(nóng)業(yè)工程學(xué)報, 2008, 24(7):137-140.Han Liqun, He Wei, Su Weijun, et al. Grading flue-cured tobacco leaf based on arti fi cial brain intelligent system[J].Transactions of the CSAE, 2008, 24(7): 137-140. (in Chinese)
[3]李浩. 基于數(shù)字圖像處理技術(shù)的烤煙煙葉自動分組模型研究[D]. 武漢:華中農(nóng)業(yè)大學(xué)出版社,2007:26-35.Li Hao. The research on auto-grouping model of fluecured tobacco leaves based on digital image processing[D].Wuhan: Huazhong University of Science and Technology Press, 2007: 26-35. (in Chinese)
[4]焦艷華,張雪萍,林楠. 支持向量機在烤煙煙葉自動分級中的應(yīng)用[J]. 微計算機信息, 2009, 25(8-1):195-196.Jiao Yanhua, Zhang Xueping, Lin Nan. Application of support vector machine in the automatic grading of fluecured tobacco leaf[J]. Control & Automation, 2009, 25(8-1): 195-196. (in Chinese)
[5]劉華波,賀立源,馬文杰. 基于反射與透射圖像結(jié)合的煙葉自動分級研究[J]. 應(yīng)用基礎(chǔ)與工程科學(xué)學(xué)報, 2009,17(3):343-350.Liu Huabo, He Liyuan, Ma Wenjie. Grading tobacco leaves based on combination of reflectance and transmittance images[J]. Journal of Basic Science and Engineering, 2009,17(3): 343-350. (in Chinese)
[6]牛文娟. 基于圖像處理的煙葉分級研究[D]. 鄭州:鄭州大學(xué)出版社,2010:11-24.Niu Wenjun. Tobacco classification based on image processing[D]. Zhengzhou: Zhengzhou University Press,2010: 11-24. (in Chinese)
[7]馬建元,伍鐵軍. 基于圖像處理和模糊識別的煙葉分級技術(shù)研究[J]. 機械制造與自動化, 2011, 40(1):90-93.Ma Jianyuan, Wu Tiejun. Research on tobacco leaves grading based on image processing and fuzzy recognition[J].Jiangsu Machine Building &Automation, 2011, 40(1): 90-93. (in Chinese)
[8]胡厚利. 圖像處理技術(shù)與支持向量機在煙葉分級中的應(yīng)用研究[D]. 昆明:昆明理工大學(xué)出版社,2014:21-31.Hu Houli. Application of image processing technology and support vector machine in tobacco leaf grading[D].Kunming: Kunming University of Science and Technology Press, 2014: 21-31. (in Chinese)
[9]魏揚帆. 一種基于顏色特征的煙葉分級算法設(shè)計及系統(tǒng)實現(xiàn)[D]. 北京:北京交通大學(xué)出版社,2014:23-27.Wei Yangfan. Design and implementation of a tobacco images grading algorithm based on color characteristic[D].Beijing: Beijing Jiaotong University Press, 2014: 23-27. (in Chinese)
[10]申振宇,申金媛,劉劍君,等. 基于神經(jīng)網(wǎng)絡(luò)的特征分析在煙葉分級中的應(yīng)用[J]. 計算機與數(shù)學(xué)工程, 2012,40(7):122-124.Shen Zhenyu, Shen Jinyuan, Liu Jianjun, et al. Application of automatic classification of tobacco based on feature analysis of neural networks[J]. Computer&Digital Engineering, 2012, 40(7): 122-124. (in Chinese)
[11]張帆,張新紅,張彤. 模糊數(shù)學(xué)在煙葉分級中的應(yīng)用[J].中國煙草學(xué)報, 2002, 8(3):44-48.Zhang Fan, Zhang Xinhong, Zhang Tong. Application of fuzzy mathematics in the classi fi cation of tobacco leaves[J].Acta Tabacaria Sinica, 2002, 8(3): 44-48. (in Chinese)
[12]譚旭,唐云嵐,陳英武. 基于粗糙集的烤煙煙葉智能分級方法[J]. 農(nóng)業(yè)機械學(xué)報, 2009, 40(6):170-174.Tan Xu, Tang Yunlan, Chen Yingwu. Intelligent grading of fl ue-cured tobacco leaves based on rough set theory[J].Transactions of the Chinese Society for Agricultural Machinery, 2009, 40(6): 170-174. (in Chinese)
[13]劉劍君,申金媛,彭丹青,等. 基于SVM的煙葉光譜分級[J]. 通信技術(shù), 2009, 42(11):197-199.Liu Jianjun, Shen Jinyuan, Peng Danqing, et al. Infrared spectrum of tobacco grading based on support vector machine[J]. Communications Technology, 2009, 42(11):197-199. (in Chinese)
[14]章英,賀立源. 基于近紅外光譜的烤煙煙葉自動分組方法[J]. 農(nóng)業(yè)工程學(xué)報, 2011, 27(4):350-354.Zhang Ying, He Liyuan. Auto-grouping method of fluecured tobacco leaves based on near infrared spectra technology[J]. Transactions of the CSAE, 2011, 27(4): 350-354. (in Chinese)
[15]蔣錦鋒,李莉,趙明月. 應(yīng)用近紅外檢測技術(shù)快速測定煙葉主要化學(xué)成分[J]. 中國煙草學(xué)報, 2006, 12(2):8-12.Jiang Jinfeng, Li Li, Zhao Mingyue. Rapid determination of main chemical components in tobacco leaf by NIR di ff use reflectance spectroscopy[J]. Acta Tabacaria Sinica, 2006,12(2): 8-12. (in Chinese)
[16]張優(yōu)茂,沈光林,孔浩輝,等. 煙堿含量近紅外光譜預(yù)測模型的評價[J]. 中國煙草學(xué)報, 2007, 13(5):6-9.Zhang Youmao, Shen Guanglin, Kong Haohui, et al.Evaluation on near infrared prediction model of nicotine in tobacco[J]. Acta Tabacaria Sinica, 2007, 13(5): 6-9. (in Chinese)
[17]夏駿,陸揚,蘇燕,等. 煙草水溶性糖近紅外定量模型中光譜范圍選擇方法的研究[J]. 中國煙草學(xué)報, 2014,21(2):19-22.Xia Jun, Lu Yang, Su Yan, et al. Spectral range selection method in NIR quantitative model of tobacco water-soluble sugar[J]. Acta Tabacaria Sinica, 2014, 21(2): 19-22. (in Chinese)
[18]Huang Guangbin, Zhu Qinyu, Siew C K. Extreme learning machine: theory and application[J]. Neurocomputing, 2006,70: 489-501.
[19]Huang Guangbin, Zhou Hongming, Ding Xiaojian, et al.Extreme learning machine for regression and multiclass classi fi cation[J]. IEEE T Syst Man CY B, 2012, 42(2): 513-529.
[20]Ding Shifei, Xu Xinzheng, Nie Ru. Extreme learning machine and its applications[J]. Neural Comput & Applic,2014, 25: 549-556.
[21]楊晨龍. 初烤煙葉葉片化學(xué)成分分布規(guī)律研究[D]. 昆明:昆明理工大學(xué)出版社,2013:11-26.Yang Chenlong. Research on distribution regularity of chemical components in flue-cured tobacco leaf[D].Kunming: Kunming University of Science and Technology Press, 2013: 11-26. (in Chinese)
[22]Galv?o R K H, Araujo M C U, José G E, et al. A method for calibration and validation subset partitioning[J]. Talanta,2005, 67: 736-740.
[23]Qiu Shanshan, Wang Qiujun, Tang Chen, et al. Comparison of ELM, RF, and SVM on E-nose and E-tongue to trace the quality status of mandarin[J]. J Food Eng, 2015, 166: 193-203.
[24]Hastie T, Tibshirani R. Disceiminant adaptive nearest neighbor classification[J]. IEEE T Pattern Anal, 1996,18(6): 607-616.
[25]楊錦忠,宋希云. 多元統(tǒng)計分析及其在煙草學(xué)中的應(yīng)用[J]. 中國煙草學(xué)報, 2014, 20(5):134-138.Yang Jinzhong, Song Xiyun. Multivariate statistical analysis methods and their application in tobacco science[J]. Acta Tabacaria Sinica, 2014, 20(5): 134-138. (in Chinese)
[26]Wu Xindong, Kumar V, Quinlan J R, et al. Top 10 algorithms in data mining[J]. Knowl Inf Syst, 2008, 14:1-17.
[27]Cortes C, Vapnik V. Support vector networks[J]. Mach Learn, 1995, 20(1): 273-297.
[28]Li Hongdong, Liang Yizeng, Xu Qingsong, et al. Support vector machines and its applications in chemistry[J].Chemometr Intell Lab, 2009, 95: 188-198.
[29]Breiman L. Random forests[J]. Mach Learn, 2001, 45(1):5-32.
[30]Liaw A, Wiener M. Classification and Regression by random Forest[J]. R News, 2002, 2/3: 18-22.
:BIN Jun, ZHOU Jiheng, FAN Wei, et al. Automatic grading of fl ue-cured tobacco leaves based on NIR technology and extreme learning machine algorithm [J]. Acta Tabacaria Sinica, 2017,23(2)
*Corresponding author.Email:jihengzhou211@163.com
Automatic grading of fl ue-cured tobacco leaves based on NIR technology and extreme learning machine algorithm
BIN Jun1, ZHOU Jiheng1*, FAN Wei1, LI Xin1, LIANG Yizeng2, XIAO Zhixin3, LI Chunshun4
1 College of Bioscience and Biotechnology, Hunan Agricultural University, Changsha 410128, China;2 College of Chemistry and Chemical Engineering, Central South University, Changsha 410083, China;3 Yunnan Provincial Tobacco Company Baoshan Branch, Baoshan 678000, China;4 China Tobacco Jiangsu Industrial Co., Ltd., Nanjing 210019, China
In order to minimize the influence of artificial experience on flue-cured tobacco leaf grading in purchasing process, a rapid grading method using near-infrared (NIR) spectroscopy combined with extreme learning machine (ELM) algorithm was proposed. A grouping method based on principle of similar quality and close price of flue-cured tobacco leaves was put forward. Cross validation was used to optimize the number of hidden nodes of ELM. The method was compared with commonly used multi-class classification algorithms, including K nearest neighbor (KNN), support vector machine (SVM), and random forest (RF) algorithm. Results showed that ELM classi fi cation model was superior to other methods with automatic optimization parameters, short training time, and high stability and predictability. The classi fi cation prediction accuracy of tobacco dataset A and B into high, medium, and low groups was 95.77% and 94.23%, respectively. Furthermore, classi fi cation accuracy of subdividing high, medium, and low groups of tobacco prediction samples A was 85.71%, 86.67%, and 100%, respectively, and subdivision accuracy of tobacco prediction samples B was 100%, 92.86% and 92.86%,respectively. Therefore, application of NIR technology combined with ELM could accurately determine flue-cured tobacco leaf grade,providing a promising tool for quality evaluation in fl ue-cured tobacco leaf purchasing process.
tobacco grading; near-infrared spectroscopy; extreme learning machine; classi fi cation model; multi-class classi fi cation algorithm
賓俊,周冀衡,范偉,等. 基于NIR技術(shù)和ELM的烤煙煙葉自動分級[J]. 中國煙草學(xué)報,2017,23(2)
國家自然科學(xué)基金資助項目(No. 21275164),湖南省研究生科研創(chuàng)新資助項目(No. CX2015B237)
賓 俊(1987—),在讀博士,主要從事近紅外光譜、煙草品質(zhì)化學(xué)方面的研究,Tel:0731-84635356,Email:binjun2009@gmail.com
周冀衡(1957—),Tel:0731-84785708,Email:jihengzhou211@163.com
2015-11-22;< class="emphasis_bold">網(wǎng)絡(luò)出版時間:
時間:2017-04-25