摘要:為探究江西省煙葉的質(zhì)量特征,利用方差分析、區(qū)間估計(jì)等統(tǒng)計(jì)學(xué)方法分析不同感官質(zhì)量檔次(A類、B類、C類)上、中、下3個(gè)部位江西省煙葉11項(xiàng)化學(xué)指標(biāo)的差異性及協(xié)調(diào)性等特征,在此基礎(chǔ)上構(gòu)建支持向量機(jī)(SVM)和隨機(jī)森林(RF)2種模型用于煙葉感官質(zhì)量分類預(yù)測。結(jié)果表明,上、中、下3個(gè)部位C類煙葉分別有7、6、6項(xiàng)化學(xué)指標(biāo)高于A類、B類,B類煙葉分別有3、3、2項(xiàng)高于A類、C類,而A類煙葉分別有0、2、3項(xiàng)高于B類、C類;從區(qū)間長度來看,上、中、下3個(gè)部位C類煙葉分別有9、9、7項(xiàng)化學(xué)指標(biāo)高于A類、B類,B類煙葉分別有1、0、3項(xiàng)高于A類、C類,而A類煙葉分別有1、2、1項(xiàng)高于B類、C類,3個(gè)部位C類煙葉化學(xué)成分的協(xié)調(diào)性遠(yuǎn)差于A類、B類,這可能是導(dǎo)致感官質(zhì)量變差的重要原因。SVM和RF 2種模型的精確率、召回率和F1分?jǐn)?shù)的加權(quán)平均值均超過84%,且SVM模型的3項(xiàng)指標(biāo)稍高于RF模型。C類煙葉化學(xué)指標(biāo)特征與A類、B類存在明顯區(qū)別,而A類、B類之間差別相對較??;SVM模型對A類、B類煙葉樣品的分類性能優(yōu)于RF模型,RF模型對C類的識(shí)別性能優(yōu)于SVM模型。
關(guān)鍵詞:煙葉;化學(xué)指標(biāo);感官質(zhì)量;分類模型;江西省
中圖分類號(hào):S572 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):0439-8114(2024)10-0153-07
DOI:10.14088/j.cnki.issn0439-8114.2024.10.028 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Abstract: In order to explore the quality characteristics of tobacco leaves in Jiangxi Province, statistical methods such as analysis of variance and interval estimation were used to analyze the differences and coordination of 11 chemical indicators in the upper, middle, and lower parts of tobacco leaves with different sensory quality grades (Class A, Class B, Class C) in Jiangxi Province. On this basis, this study constructed support vector machine (SVM) models and random forest (RF) models for predicting the sensory quality classification of tobacco leaves. The results showed that Class C tobacco leaves in the upper, middle, and lower parts had 7, 6, and 6 chemical indicators higher than Class A and Class B, respectively. Class B tobacco leaves in the upper, middle, and lower parts had 3, 3, and 2 chemical indicators higher than Class A and Class C, respectively, while Class A tobacco leaves in the upper, middle, and lower parts had 0, 2, and 3 chemical indicators higher than Class B and Class C, respectively; from the perspective of interval length, class C tobacco leaves in the upper, middle, and lower parts had 9, 9, and 7 chemical indicators higher than Class A and Class B, respectively. Class B tobacco leaves in the upper, middle, and lower parts had 1, 0, and 3 chemical indicators higher than Class A and Class C, respectively, while Class A tobacco leaves in the upper, middle, and lower parts had 1, 2, and 1 chemical indicators higher than Class B and Class C, respectively. The coordination of chemical components in Class C tobacco leaves was much worse than that in Class A and Class B, which might be an important reason for the deterioration of sensory quality. The weighted average of accuracy, recall, and F1 score for both SVM and RF models exceeded 84%, and the SVM model had slightly higher three indicators than the RF model. There were significant differences in the chemical index characteristics of Class C tobacco leaves compared to Class A and Class B, while the differences between Class A and Class B were relatively small;the SVM model had better classification performance for Class A and B tobacco samples than the RF model, while the RF model had better recognition performance for Class C than the SVM model.
Key words: tobacco leaves; chemical indicators; sensory quality; classification model; Jiangxi Province
感官質(zhì)量是評價(jià)煙葉質(zhì)量的重要因子,也是決定煙葉工業(yè)可用性的主要依據(jù)[1]?;瘜W(xué)成分是影響煙葉感官質(zhì)量的內(nèi)在物質(zhì)基礎(chǔ)[2,3],因此有關(guān)煙葉感官質(zhì)量與其內(nèi)在化學(xué)成分的關(guān)系研究一直是煙草行業(yè)關(guān)注的熱點(diǎn)和難點(diǎn)問題。目前文獻(xiàn)報(bào)道較多的煙葉感官質(zhì)量與化學(xué)成分關(guān)系研究采用的方法主要包括簡單相關(guān)性分析[4-6]、灰色關(guān)聯(lián)度分析[7]、典型相關(guān)分析[8,9]以及回歸分析[10]等,它們通過對煙葉感官質(zhì)量進(jìn)行定量打分,然后與其化學(xué)成分含量建立相關(guān)或回歸等統(tǒng)計(jì)學(xué)關(guān)系,進(jìn)而實(shí)現(xiàn)感官質(zhì)量與化學(xué)成分的內(nèi)在關(guān)聯(lián)研究。但是,基于煙葉感官質(zhì)量定性劃分研究不同檔次煙葉化學(xué)成分差異性和區(qū)間分布等方面的特征以及基于化學(xué)成分的感官質(zhì)量分類模型的報(bào)道較少。近年來,機(jī)器學(xué)習(xí)等人工智能技術(shù)成為煙草領(lǐng)域的研究熱點(diǎn),在智能化烘烤[11]、香型識(shí)別[12]、煙葉分級(jí)[13-15]、非煙物質(zhì)識(shí)別[16]、煙葉成熟度判別[17-19]以及病害識(shí)別[20]等方面已有相關(guān)報(bào)道。在煙葉感官質(zhì)量預(yù)測模型構(gòu)建方面,別瑞等[21]開展了基于XGBoost算法的山東省煙葉感官質(zhì)量預(yù)測模型構(gòu)建及可解釋性等方面的研究,但該研究同樣缺少對不同感官質(zhì)量檔次煙葉化學(xué)成分的差異性以及區(qū)間分布的分析。綜上,本研究以感官質(zhì)量為導(dǎo)向,將江西省煙葉按照感官質(zhì)量劃分為A類、B類、C類3個(gè)檔次,探究不同檔次煙葉還原糖、總糖、總氮、總植物堿、淀粉、鉀、氯、兩糖差、糖堿比、氮堿比和鉀氯比等化學(xué)指標(biāo)的差異性以及區(qū)間分布,在此基礎(chǔ)上,采用支持向量機(jī)(SVM)和隨機(jī)森林(RF)2種算法構(gòu)建感官質(zhì)量分類模型,并考察2種算法對不同感官質(zhì)量檔次江西省煙葉的分類性能。本研究可為不同產(chǎn)區(qū)煙葉質(zhì)量特征評價(jià)以及感官質(zhì)量分類模型構(gòu)建提供參考借鑒。
1 材料與方法
1.1 試驗(yàn)設(shè)計(jì)
本試驗(yàn)于2021年、2022年在江西中煙基地贛州市石城縣開展,栽培品種為K326,根據(jù)各煙站土壤氣候等生態(tài)條件、生產(chǎn)水平及往年的煙葉質(zhì)量狀況,共確定39個(gè)試驗(yàn)點(diǎn),其中2021年29個(gè),2022年10個(gè)。每個(gè)試驗(yàn)點(diǎn)的煙田為1個(gè)煙農(nóng)所有,且種植面積為1.2 hm2(滿足1個(gè)烤房單次裝煙量)。每個(gè)試驗(yàn)點(diǎn)內(nèi)的農(nóng)事操作均按照當(dāng)?shù)貙?shí)際生產(chǎn)方案,保證田間煙株長勢均勻一致。
1.2 樣品采集
為保證樣品的代表性,按照上部、中部、下部3個(gè)部位采集煙葉樣品,分別以第1、3、5次采集的煙葉作為各試驗(yàn)點(diǎn)的下部、中部和上部煙葉的代表性樣品,剔除青雜煙葉后不再分級(jí),用牛皮紙等包裹好裝入樣品袋中以備后續(xù)使用。
1.3 化學(xué)成分檢測
煙葉樣品中還原糖、總糖、總氮、總植物堿、淀粉、鉀、氯等化學(xué)成分的測定方法如下:總糖含量、還原糖含量按照YC/T 159—2019《煙草及煙草制品 水溶性糖的測定 連續(xù)流動(dòng)法》標(biāo)準(zhǔn)測定,總氮含量按照YC/T 33—1996《煙草及煙草制品 總氮的測定 克達(dá)爾法》標(biāo)準(zhǔn)測定,總植物堿含量按照YC/T 468—2021《煙草及煙草制品 總植物堿的測定 連續(xù)流動(dòng)(硫氰酸鉀)法》標(biāo)準(zhǔn)測定,淀粉含量按照YC/T 216—2013《煙草及煙草制品 淀粉的測定 連續(xù)流動(dòng)法》標(biāo)準(zhǔn)測定,鉀含量按照YC/T 217—2007《煙草及煙草制品 鉀的測定 連續(xù)流動(dòng)法》標(biāo)準(zhǔn)測定,氯含量按照YC/T 162—2011《煙草及煙草制品 氯的測定 連續(xù)流動(dòng)法》標(biāo)準(zhǔn)測定。兩糖差為總糖含量和還原糖含量的差值,糖堿比為還原糖含量與總植物堿含量的比值,氮堿比為總氮含量與總植物堿含量的比值,鉀氯比為鉀含量與氯含量的比值。
1.4 感官質(zhì)量評吸
對每個(gè)試驗(yàn)點(diǎn)的下部、中部和上部代表性煙葉樣品分別進(jìn)行感官質(zhì)量賦分,然后按照下部、中部、上部權(quán)重系數(shù)(5%、70%、25%)計(jì)算得到各試驗(yàn)點(diǎn)煙葉樣品感官質(zhì)量的綜合得分,并根據(jù)綜合得分高低將感官質(zhì)量劃分為A類、B類、C類 3個(gè)檔次,其中A類代表煙葉感官質(zhì)量較好,B類代表煙葉感官質(zhì)量中等,C類代表煙葉感官質(zhì)量較差。本研究中共有11個(gè)試驗(yàn)點(diǎn)煙葉感官質(zhì)量為A類,17個(gè)試驗(yàn)點(diǎn)的煙葉感官質(zhì)量為B類,11個(gè)試驗(yàn)點(diǎn)煙葉感官質(zhì)量為C類。
1.5 分類模型與評價(jià)指標(biāo)
1.5.1 數(shù)據(jù)集劃分 將不同感官質(zhì)量煙葉樣品按照7∶3的比例隨機(jī)劃分為訓(xùn)練集和測試集,彼此之間樣品不重疊。其中訓(xùn)練集用于模型構(gòu)建,測試集用于評價(jià)模型的泛化能力。
1.5.2 分類模型 采用支持向量機(jī)(SVM)和隨機(jī)森林(RF)對不同感官質(zhì)量煙葉樣品數(shù)據(jù)集進(jìn)行建模。SVM是一種對數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其決策函數(shù)由少數(shù)的支持向量確定,是一個(gè)具有稀疏性和穩(wěn)健性的分類器,通過引入核函數(shù)可實(shí)現(xiàn)非線性分類。RF是Breiman等[22]提出的一種基于決策樹的集成算法,對數(shù)據(jù)噪聲容忍度好,具有人工干預(yù)少、運(yùn)算速度快等優(yōu)點(diǎn)。
1.5.3 模型評價(jià)指標(biāo)
1)混淆矩陣。表1為混淆矩陣,包括真正例(True positive,TP)、假正例(False positive,F(xiàn)P)、假反例(False negative,F(xiàn)N)和真反例(True negative,TN)4種情況。根據(jù)測試集中每個(gè)樣品預(yù)測情況,分別放到這4個(gè)格子的相應(yīng)位置。
2)準(zhǔn)確率(Accuracy)。準(zhǔn)確率表示分類正確的樣本占總樣本的比例,計(jì)算公式如下。
3)精確率(Precision)。精確率又叫查準(zhǔn)率,表示預(yù)測結(jié)果為正確的樣本數(shù)量占該類別預(yù)測數(shù)量的比例,計(jì)算公式如下。
4)召回率(Recall)。召回率又稱為查全率,表示預(yù)測結(jié)果正確的樣本數(shù)量占該類別真實(shí)數(shù)量的比例,計(jì)算公式如下。
5)F1分?jǐn)?shù)(F1 score)。F1分?jǐn)?shù)是綜合了精確率和召回率的一個(gè)判斷指標(biāo),F(xiàn)1分?jǐn)?shù)取值范圍為0~1,1是最好,0是最差,F(xiàn)1分?jǐn)?shù)越高,說明模型越穩(wěn)健,計(jì)算公式如下。
6)加權(quán)平均值(Weighted average)。
式中,Wa表示加權(quán)平均值;Ci表示每個(gè)類別數(shù)量在樣本數(shù)量中的占比;Xi表示每個(gè)類別的準(zhǔn)確率(召回率或F1分?jǐn)?shù))。
1.6 數(shù)據(jù)分析
本研究采用Microsoft Excel軟件、Origin軟件以及R語言等進(jìn)行數(shù)據(jù)處理、圖形繪制及統(tǒng)計(jì)分析等工作。
2 結(jié)果與分析
2.1 煙葉化學(xué)指標(biāo)特征分析
2.1.1 不同感官質(zhì)量煙葉化學(xué)指標(biāo)的差異性分析 表2展示了3個(gè)部位不同感官質(zhì)量煙葉各項(xiàng)化學(xué)指標(biāo)的平均值、標(biāo)準(zhǔn)差以及方差分析結(jié)果。
1)下部葉樣品。3個(gè)類別(A類、B類、C類)還原糖含量表現(xiàn)為C類>B類>A類,C類還原糖含量極顯著高于A類、B類(P<0.01);總糖含量表現(xiàn)為C類>A類>B類,C類總糖含量極顯著高于A類、B類(P<0.01);總植物堿含量表現(xiàn)為A類>B類>C類,A類極顯著高于C類(P<0.01),B類顯著高于C類(0.01<P<0.05);總氮含量表現(xiàn)為B類>A類>C類,A類、B類極顯著高于C類(P<0.01);鉀含量表現(xiàn)為A類>B類>C類,A類、B類極顯著高于C類(P<0.01);氯含量表現(xiàn)為B類>C類>A類,B類顯著高于A類(0.01<P<0.05);淀粉含量表現(xiàn)為C類>B類>A類,C類極顯著高于A類、B類(P<0.01);兩糖差表現(xiàn)為C類>A類>B類,C類極顯著高于B類(P<0.01),顯著高于A類(0.01<P<0.05);糖堿比表現(xiàn)為C類>B類>A類,C類極顯著高于A類、B類(P<0.01);氮堿比表現(xiàn)為C類>B類>A類,C類顯著高于A類(0.01<P<0.05);鉀氯比表現(xiàn)為A類>C類>B類,A類顯著高于B類(0.01<P<0.05)。綜上,下部葉C類煙葉還原糖含量、總糖含量、淀粉含量、兩糖差、糖堿比、氮堿比最大,且還原糖含量、總糖含量、淀粉含量、兩糖差和糖堿比顯著高于A類、B類,氮堿比顯著高于A類;B類煙葉的總氮含量、氯含量最高,且總氮含量極顯著高于C類,氯含量顯著高于A類;A類煙葉總植物堿含量、鉀含量和鉀氯比最高,且總植物堿含量、鉀含量極顯著高于C類,鉀氯比顯著高于B類。
2)中部葉樣品。3個(gè)類別(A類、B類、C類)還原糖含量表現(xiàn)為C類>B類>A類,C類極顯著高于A類(P<0.01)、顯著高于B類(0.01<P<0.05);總糖含量表現(xiàn)為C類>A類>B類,C類極顯著高于A類、B類(P<0.01);總植物堿含量表現(xiàn)為B類>A類>C類,B類極顯著高于C類(P<0.01);總氮含量表現(xiàn)為B類>A類>C類,B類極顯著高于C類(P<0.01);鉀含量表現(xiàn)為A類>B類>C類,但3個(gè)類別間無顯著差異;氯含量表現(xiàn)為 B類>C類>A類,B類極顯著高于A類(P<0.01),顯著高于C類(0.01<P<0.05);淀粉含量表現(xiàn)為C類>A類>B類,C類顯著高于B類(0.01<P<0.05);兩糖差表現(xiàn)為C類>A類>B類,C類極顯著高于B類(P<0.01),A類顯著高于B類(0.01<P<0.05);糖堿比表現(xiàn)為C類>B類>A類,C類極顯著高于A類、B類(P<0.01);氮堿比表現(xiàn)為C類>B類>A類,3個(gè)類別之間無顯著差異;鉀氯比表現(xiàn)為A類 >C類>B類,A類極顯著高于B類(P<0.01)。綜上,中部葉C類煙葉還原糖含量、總糖含量、淀粉含量、兩糖差、糖堿比、氮堿比最高,且還原糖含量、總糖含量、糖堿比顯著高于A類、B類,淀粉含量、兩糖差顯著高于B類;B類煙葉總植物堿含量、總氮含量、氯含量最高,且總植物堿含量、總氮含量顯著高于C類,氯含量極顯著高于A類;A類煙葉鉀含量、鉀氯比最高,且鉀氯比顯著高于B類。
3)上部葉樣品。3個(gè)類別(A類、B類、C類)還原糖含量表現(xiàn)為C類>B類>A類,但3個(gè)類別間均無顯著差異;總糖含量表現(xiàn)為C類>A類>B類,C類顯著高于B類(0.01<P<0.05);總植物堿含量表現(xiàn)為B類>A類>C類,B類顯著高于C類(0.01<P<0.05);總氮含量表現(xiàn)為B類>A類>C類,B類顯著高于C類(0.01<P<0.05);鉀含量表現(xiàn)為C類>B類>A類,但3個(gè)類別間無統(tǒng)計(jì)學(xué)差異;氯含量表現(xiàn)為B類> C類>A類,B類極顯著高于A類、C類;淀粉含量表現(xiàn)為C類>A類>B類,C類極顯著高于B類;兩糖差表現(xiàn)為A類>B類 =C類,3個(gè)類別間無顯著差異;糖堿比表現(xiàn)為C類>B類>A類,3個(gè)類別間無顯著差異;氮堿比表現(xiàn)為C類>B類>A類,3個(gè)類別間無顯著差異;鉀氯比表現(xiàn)為C類>A類>B類,C類、A類顯著高于B類(0.01<P<0.05)。綜上,上部葉C類煙葉還原糖含量、總糖含量、鉀含量、淀粉含量、糖堿比、氮堿比和鉀氯比最高,且總糖含量、淀粉含量顯著高于B類;B類煙葉總植物堿含量、總氮含量、氯含量最高,且總植物堿含量、總氮含量顯著高于C類,氯含量顯著高于A類、C類;A類煙葉兩糖差最高,3個(gè)類別間無顯著差異。
2.1.2 不同感官質(zhì)量煙葉化學(xué)指標(biāo)區(qū)間分析 根據(jù)表3可知,不同感官質(zhì)量煙葉化學(xué)指標(biāo)的區(qū)間長度存在差異。
1)下部葉。3個(gè)類別(A類、B類、C類)還原糖含量區(qū)間長度表現(xiàn)為B類(4.17%)>C類(3.15%)>A類(2.86%),總糖含量表現(xiàn)為C類(5.56%)>B類(4.50%)> A類(3.97%),總植物堿含量表現(xiàn)為A類(0.48%)>B類(0.39%)>C類(0.28%),總氮含量表現(xiàn)為B類(0.23%)>A類(0.19%)> C類(0.17%),鉀含量表現(xiàn)為B類(0.58%)>C類(0.42%)>A類(0.41%),氯含量表現(xiàn)為C類(0.32%)>B類(0.18%)>A類(0.17%),淀粉含量表現(xiàn)為C類(2.13%)>B類(0.68%)=A類(0.68%),兩糖差表現(xiàn)為C類(5.87%)>A類(3.69%)>B類(2.66%),糖堿比表現(xiàn)為C類(5.15)>B類(4.41)>A類(4.21),氮堿比表現(xiàn)為C類(0.27)>A類(0.25)>B類(0.20),鉀氯比表現(xiàn)為C類(9.97)>A類(5.00)>B類(2.21)。綜上,下部葉C類煙葉總糖含量、氯含量、淀粉含量、兩糖差、糖堿比、氮堿比和鉀氯比的區(qū)間長度最大,B類還原糖含量、總氮含量、鉀含量的區(qū)間長度最大,而A類總植物堿含量區(qū)間長度最大。
2)中部葉。3個(gè)類別(A類、B類、C類)還原糖含量區(qū)間長度表現(xiàn)為C類(3.80%)>B類(3.02%)>A類(2.07%),總糖含量表現(xiàn)為C類(5.82%)>A類(3.71%)>B類(3.02%),總植物堿含量表現(xiàn)為C類(0.68%)>B類(0.53%)>A類(0.38%),總氮含量表現(xiàn)為C類(0.19%)>A類(0.17%)>B類(0.15%),鉀含量表現(xiàn)為A類(0.50%)>B類(0.43%)>C類(0.25%),氯含量表現(xiàn)為C類(0.20%)>B類(0.15%)>A類(0.12%),淀粉含量表現(xiàn)為C類(3.25%)>A類(2.97%)>B類(1.66%),兩糖差表現(xiàn)為A類(4.36%)>C類(4.23%)>B類(2.28%),糖堿比表現(xiàn)為C類(4.48)>B類(2.40)>A類(1.87),氮堿比表現(xiàn)為C類(0.18)>B類(0.14)>A類(0.07),鉀氯比表現(xiàn)為C類(7.29)>A類(6.27)>B類(2.70)。綜上,中部葉C類煙葉還原糖含量、總糖含量、總植物堿含量、總氮含量、氯含量、淀粉含量、糖堿比、氮堿比和鉀氯比區(qū)間長度最大,A類鉀含量、兩糖差區(qū)間長度最大。
3)上部葉。3個(gè)類別(A類、B類、C類)還原糖含量區(qū)間長度表現(xiàn)為C類(3.97%)>B類(2.66%)>A類(2.43%),總糖含量表現(xiàn)為C類(3.00%)>B類(1.95%)>A類(1.50%),總植物堿含量表現(xiàn)為C類(0.78%)>B類(0.55%)>A類(0.30%),總氮含量表現(xiàn)為C類(0.20%)>A類(0.18%)>B類(0.14%),鉀含量表現(xiàn)為C類(0.30%)>A類(0.26%)>B類(0.19%),氯含量表現(xiàn)為 B類(0.19%)>A類(0.16%)>C類(0.15%),淀粉含量表現(xiàn)為C類(2.55%)>A類(2.21%)>B類(1.22%),兩糖差表現(xiàn)為 A類(2.82%)>B類(2.71%)>C類(2.41%),糖堿比表現(xiàn)為C類(3.53)>B類(1.92)>A類(1.21),氮堿比表現(xiàn)為C類(0.16)>B類(0.10)>A類(0.05),鉀氯比表現(xiàn)為C類(5.48)>A類(3.69)>B類(1.72)。綜上,上部葉C類煙葉還原糖含量、總糖含量、總植物堿含量、總氮含量、鉀含量、淀粉含量、糖堿比、氮堿比和鉀氯比區(qū)間長度最大,B類氯含量區(qū)間長度最大,A類兩糖差區(qū)間長度最大。
2.2 煙葉感官質(zhì)量分類模型的構(gòu)建及評價(jià)
本研究通過訓(xùn)練集優(yōu)化了SVM和RF 2種模型的參數(shù),得到煙葉感官質(zhì)量最優(yōu)分類模型,然后將測試集中的煙葉樣品輸入到2種模型中得到分類結(jié)果。圖1為SVM和RF 2種模型判別測試集中不同感官質(zhì)量煙葉樣品的混淆矩陣。mTSc4kPbdsLsgsx9LLlx4w==2種模型均有2個(gè)樣品發(fā)生了誤判,總體的判別準(zhǔn)確率均為85%。在SVM模型中,1個(gè)B類樣品被誤判為A類,1個(gè)C類樣品被誤判為B類,而在RF模型中,1個(gè)A類樣品被誤判為B類,1個(gè)B類被誤判為A類。
基于混淆矩陣結(jié)果,進(jìn)一步計(jì)算2種模型判別不同感官質(zhì)量煙葉樣品的精確率、召回率以及F1分?jǐn)?shù)(表4)。對于A類煙葉樣品,SVM模型和 RF模型的精確率均為75%,但SVM模型的召回率和F1分?jǐn)?shù)均高于RF模型;對于B類煙葉樣品,SVM模型的精確率、召回率和F1分?jǐn)?shù)均高于RF模型;對于C類煙葉樣品,SVM模型和RF模型的精確率均為100%,而RF模型的召回率、F1分?jǐn)?shù)均高于SVM模型。綜上,SVM模型對A類、B類煙葉樣品的分類性能優(yōu)于RF模型,RF模型對C類煙葉樣品的分類性能優(yōu)于SVM模型。
由圖2可知,2種模型的精確率、召回率和F1分?jǐn)?shù)的加權(quán)平均值均超過84%,其中SVM模型的3項(xiàng)指標(biāo)稍高于RF模型,表明SVM模型對煙葉樣品的整體分類性能稍優(yōu)于RF模型。
3 討論
煙葉化學(xué)成分含量以及協(xié)調(diào)性是影響感官質(zhì)量的主要因素。上、中、下3個(gè)部位C類煙葉分別有7、6、6項(xiàng)化學(xué)指標(biāo)高于A類、B類,B類煙葉分別有3、3、2項(xiàng)高于A類、C類,而A類煙葉分別有0、2、3項(xiàng)高于B類、C類。3個(gè)部位C類煙葉的還原糖含量、總糖含量、淀粉含量、糖堿比、氮堿比偏高,而總植物堿含量、總氮含量偏低,這些因素可能是制約C類煙葉感官質(zhì)量的主要因素,因此為改善C類煙葉的感官質(zhì)量,需整體上降低3個(gè)部位煙葉的還原糖含量、總糖含量、淀粉含量、糖堿比和氮堿比,提高總植物堿含量、總氮含量。許威等[23]的研究發(fā)現(xiàn),江西省煙葉存在部分淀粉含量、糖堿比、氯含量、氮堿比、兩糖比偏高,鉀含量、鉀氯比偏低等問題。李曉等[24]的研究發(fā)現(xiàn),下部煙葉表現(xiàn)為高糖、高鉀、高糖堿比和低煙堿,中部煙葉表現(xiàn)為高糖、高鉀、高糖堿比和中煙堿,上部煙葉表現(xiàn)為中糖、高煙堿、高鉀的特性。王得強(qiáng)等[25]的研究發(fā)現(xiàn),江西省煙葉表現(xiàn)出高糖、高堿、中氮、富鉀、低氯的規(guī)律。以上結(jié)論差異可能是由煙葉生長年份、生態(tài)環(huán)境、氣候土壤等因素不同造成的。
區(qū)間長度是衡量煙葉化學(xué)成分離散程度的直觀指標(biāo),區(qū)間長度越大,化學(xué)成分離散程度越高,意味著化學(xué)成分之間協(xié)調(diào)性越差;反之,區(qū)間長度越小,化學(xué)成分離散程度越低,協(xié)調(diào)性越好。上、中、下3個(gè)部位C類煙葉分別有9、9、7項(xiàng)化學(xué)指標(biāo)高于A類、B類,B類煙葉分別有1、0、3項(xiàng)高于A類、C類,而A類分別有1、2、1項(xiàng)高于B類、C類。由此可見,3個(gè)部位C類煙葉化學(xué)成分的協(xié)調(diào)性遠(yuǎn)差于A類、B類,這可能也是導(dǎo)致感官質(zhì)量變差的重要原因。其中,總糖含量、淀粉含量、糖堿比、氮堿比和鉀氯比5項(xiàng)指標(biāo)在3個(gè)部位C類煙葉上的區(qū)間長度最大,說明這5項(xiàng)指標(biāo)的協(xié)調(diào)性較差;氯含量在中部、下部C類煙葉上的區(qū)間長度最大,說明中部、下部煙葉的氯含量協(xié)調(diào)性較差;還原糖含量和總植物堿含量在中部、上部C類煙葉上的區(qū)間長度最大,說明中部、上部C類煙葉的還原糖含量和總植物堿含量的協(xié)調(diào)性較差。
目前煙葉感官質(zhì)量依靠人工評價(jià),存在工作強(qiáng)度大、對評吸人員素質(zhì)要求高等問題。機(jī)器學(xué)習(xí)技術(shù)在農(nóng)產(chǎn)品品質(zhì)判別方面已有較多研究[26],因此構(gòu)建機(jī)器學(xué)習(xí)模型用于煙葉感官質(zhì)量預(yù)測是一個(gè)值得研究的問題。本研究基于煙葉化學(xué)成分構(gòu)建了SVM、RF 2種機(jī)器學(xué)習(xí)模型,雖然SVM模型的整體性能優(yōu)于RF模型,但RF模型對C類煙葉樣品具有更好的分類性能,可用于預(yù)測感官質(zhì)量較差的煙葉,減輕評吸人員的工作量,具有更好的實(shí)用性。
4 小結(jié)
本研究采用方差分析、區(qū)間估計(jì)等方法分析江西省煙葉化學(xué)指標(biāo)特征,并構(gòu)建感官質(zhì)量分類模型。研究發(fā)現(xiàn),C類煙葉化學(xué)指標(biāo)的差異性、協(xié)調(diào)性等特征與A類、B類存在明顯區(qū)別,而A類、B類之間差異較小。SVM模型綜合性能指標(biāo)稍優(yōu)于RF模型,但RF模型對C類煙葉的識(shí)別能力強(qiáng)于SVM模型,具有更好的實(shí)用性。
參考文獻(xiàn):
[1] 歐陽文. 卷煙工藝與評吸[M]. 成都: 西南財(cái)經(jīng)大學(xué)出版社, 2008.
[2] 尹啟生, 過偉民, 張艷玲, 等. 烤煙品種間理化特征的差異及其與感官質(zhì)量的關(guān)系[J]. 煙草科技, 2016, 49(5): 23-29.
[3] 曹仕明, 高遠(yuǎn)峰, 曹勤華, 等. 湖北典型生態(tài)區(qū)烤煙質(zhì)量風(fēng)格特征及其影響因子分析[J]. 中國煙草科學(xué), 2015, 36(1): 14-18.
[4] 楊景全, 于國鋒, 馮 媛, 等. 初烤煙葉顏色與常規(guī)化學(xué)成分及感官質(zhì)量相關(guān)性研究[J]. 江西農(nóng)業(yè)學(xué)報(bào), 2019, 31(5): 79-83.
[5] 趙友根, 拓陽陽, 李貴剛, 等. 復(fù)烤煙葉C3F等級(jí)主要化學(xué)成分與感官評吸質(zhì)量的相關(guān)性[J]. 貴州農(nóng)業(yè)科學(xué), 2018, 46(9): 126-129.
[6] 王 芳, 王玉平, 楊 輝, 等. 貴州有機(jī)生態(tài)煙葉主要化學(xué)成分與感官質(zhì)量的相關(guān)分析研究[J]. 中國農(nóng)學(xué)通報(bào), 2013, 29(22): 103-108.
[7] 王育軍, 周冀衡, 李 強(qiáng), 等. 曲靖煙葉化學(xué)成分可用性及其對感官評吸質(zhì)量的影響[J]. 煙草科技, 2014(11): 67-73.
[8] 武廣鵬, 李許濤, 李欽奎, 等. 河南煙葉化學(xué)成分與感官質(zhì)量的相關(guān)性分析[J]. 江西農(nóng)業(yè)學(xué)報(bào), 2022, 34(10): 25-29.
[9] 焦紹赫, 何寬信, 王念磊, 等. 江西烤煙主要理化指標(biāo)對感官評吸質(zhì)量的影響[J]. 貴州農(nóng)業(yè)科學(xué), 2018, 46(1): 21-24.
[10] 沈 晗, 楊 凱, 任 偉, 等. 影響上部煙葉感官質(zhì)量的主要化學(xué)成分分析[J]. 中國煙草學(xué)報(bào), 2019, 25(6): 18-26.
[11] ZHANG J, TIAN F, YANG S, et al. An intelligent and automatic control method for tobacco flue-curing based on machine learning[J]. International journal of robotics and automation technology, 2016, 31: 509-518.
[12] 邱昌桂, 孔蘭芬, 楊式華, 等. 基于GA-SVM算法的烤煙香型自動(dòng)識(shí)別研究[J]. 煙草科技, 2019, 52(2): 101-108.
[13] 魯夢瑤, 周 強(qiáng), 姜舒文, 等. 基于深度學(xué)習(xí)與多尺度特征融合的烤煙煙葉分級(jí)方法[J]. 中國農(nóng)機(jī)化學(xué)報(bào), 2022, 43(1): 158-166.
[14] LI R, ZHANG X, LI K, et al. Nondestructive and rapid grading of tobacco leaves by use of a hand-held near-infrared spectrometer, based on a particle swarm optimization-extreme learning machine algorithm[J]. Spectroscopy letters, 2020, 53(9): 685-691.
[15] 張 慧, 張文偉, 張永毅, 等. 基于高光譜與紋理融合的烤煙分類方法研究[J]. 中國煙草學(xué)報(bào), 2022, 28(3): 72-80.
[16] 李智慧, 梅吉帆, 李 輝, 等. 高光譜成像的非煙物質(zhì)分類識(shí)別研究[J]. 中國煙草學(xué)報(bào), 2022, 28(3): 81-88.
[17] 李 鑫, 湯衛(wèi)榮, 張永輝, 等. 基于高光譜成像技術(shù)的煙葉田間成熟度判別模型[J]. 煙草科技, 2022, 55(7): 17-24.
[18] 鄧建強(qiáng),王大彬,乾 艷,等.基于高光譜成像技術(shù)的烤煙上部煙葉成熟度光譜特征分析及判別模型構(gòu)建應(yīng)用研究[J].中國煙草學(xué)報(bào),2024,30(1):36-45.
[19] LI J X, ZHAO H, ZHU S P, et al. An improved lightweight network architecture for identifying tobacco leaf maturity based on deep learning[J]. Journal of intelligent & fuzzy systems, 2021, 41(2): 4149-4158.
[20] ZHU H, CHU B, ZHANG C, et al. Hyperspectral imaging for presymptomatic detection of tobacco disease with successive projections algorithm and machine-learning classifiers[J]. Scientific reports, 2017, 7(1): 4125.
[21] 別 瑞, 周婷云, 周顯升, 等. 基于XGBoost算法的山東煙葉質(zhì)量預(yù)測模型初探[J]. 中國煙草科學(xué),2022,43(5): 80-86.
[22] BREIMAN L. Random forests[J]. Machine learning,2001,45(1):5-32.
[23] 許 威, 宋紀(jì)真, 諶 劍, 等. 贛州煙葉主要化學(xué)成分最優(yōu)適宜范圍研究[J]. 安徽農(nóng)業(yè)科學(xué), 2023, 51(2): 199-205, 211.
[24] 李 曉, 萬應(yīng)發(fā), 劉建永, 等. 江西黎川基地?zé)熑~質(zhì)量特點(diǎn)與穩(wěn)定性分析[J]. 中國煙草科學(xué), 2013, 34(3): 89-93.
[25] 王得強(qiáng), 曾 兵, 陳若星, 等. 江西煙葉質(zhì)量特性分析[J]. 安徽農(nóng)業(yè)科學(xué), 2019, 47(17): 201-203, 206.
[26] 王 聰,姜舒文, 黃 坤, 等. 機(jī)器學(xué)習(xí)在農(nóng)產(chǎn)品供應(yīng)鏈關(guān)鍵環(huán)節(jié)中的應(yīng)用進(jìn)展研究綜述[J]. 中國農(nóng)機(jī)化學(xué)報(bào),2021,42(5): 182-190.
收稿日期:2023-09-28
基金項(xiàng)目:江西中煙工業(yè)有限責(zé)任公司科技項(xiàng)目(贛煙工科計(jì)2021-11)
作者簡介:黃 建(1979-),男,江西南昌人,高級(jí)農(nóng)藝師,主要從事煙草栽培研究,(電話)13657088933(電子信箱)nccfhuangjian@163.com。