褚旭 許強 殷瑜東 趙勇 韋剛 周永建 宋松 胡宗玉
摘要:為辨析不同聚類分析方法在卷煙葉組配方模塊中的分類效果,以不同配方模塊煙葉的10項感官指標為研究對象,在利用因子分析提取主成分的基礎上,通過3種聚類分析方法對不同配方模塊進行分類,并對分類結果進行比較和統(tǒng)計檢驗。結果表明不同配方模塊煙葉的差異規(guī)律各不相同,說明煙葉感官質量的不同指標間存在高度的信息重疊。因子分析共提取2個主成分因子,累計方差貢獻率為81.96%,特征值分別為7.02、1.18。3種聚類分析方法的分類結果不盡相同,其中加權主成分距離聚類的分類效果最佳,錯分率為6.67%;加權主成分聚類次之,錯分率為10.83%;一般主成分聚類的分類效果最差,錯分率達到18.33%。統(tǒng)計檢驗結果表明,加權主成分距離聚類的F檢驗均值最大(98.17),加權主成分聚類次之(91.05),一般主成分聚類F檢驗的均值最低,為70.14。加權主成分距離聚類的分類效果優(yōu)于其他2類聚類方法,分類結果的統(tǒng)計檢驗結果更好,適合不同卷煙配方模塊的分類研究。
關鍵詞:卷煙葉組;配方模塊;聚類分析;自適應賦權
中圖分類號:TS44+2 文獻標志碼:A
文章編號:1002-1302(2023)15-0149-06
基金項目:江蘇中煙工業(yè)有限責任公司戰(zhàn)略課題項目。
作者簡介:褚 旭(1987—),男,江蘇揚州人,碩士,農(nóng)藝師,主要從事煙葉原料研究。E-mail:chuxu@jszygs.com。
通信作者:胡宗玉,工程師,主要從事煙葉原料研究。E-mail:huzy@jszygs.com。
卷煙產(chǎn)品質量的穩(wěn)定性對于提高其市場競爭力,擴大品牌關注度具有重要作用[1]。長期以來,傳統(tǒng)卷煙葉組配方內(nèi)在質量的表征主要依據(jù)煙葉原料的感官評吸特性,不同配方模塊分類的穩(wěn)定性受到評吸人員技能和喜好的影響,缺乏直觀的定量描述[2]。如何更加客觀、快速地選取合適的庫存煙葉進行配方替換,維持配方的穩(wěn)定性,是卷煙產(chǎn)品維護的關鍵環(huán)節(jié)之一[3]。聚類分析是通過數(shù)學方法研究數(shù)據(jù)內(nèi)在特征上的相似性與差異性的多元統(tǒng)計方法[4]。傳統(tǒng)聚類分析方法無法解決樣本指標間的高度相關性,評價結果的質量難以把控[5]。為滿足多指標評價的要求,克服指標間高度相關性對分類結果的影響[6],王德青等多采用一般主成分聚類分析方法進行分類評價[7-8]。為進一步提高分類結果的準確性,王德青等提出基于方差貢獻率的加權主成分聚類分析方法[9];呂巖威等提出加權主成分距離聚類分析方法,并從理論層面解決傳統(tǒng)聚類分析方法中存在的問題[10]。褚旭等的研究多集中于煙葉質量的差異性對比[11-12]。為進一步挖掘卷煙品牌的自身特色,客觀探尋煙葉原料的替代原料,本研究以3種聚類分析方法為基礎,分析不同方法在卷煙葉組配方模塊分類上的應用效果,并以錯分率[10]和F值為檢驗依據(jù),比較不同方法的分類效果,以期為提高卷煙產(chǎn)品品質的穩(wěn)定性,拓展不同煙葉的使用范圍打開一個新的思路。
1 材料與方法
1.1 材料
煙葉樣品取自江蘇中煙工業(yè)有限責任公司(簡稱江蘇中煙)在庫已醇化的單料煙葉,共計120份。依據(jù)煙葉原料在蘇產(chǎn)卷煙品牌配方中的使用特點劃分為3個不同的葉組配方模塊,即提質、平衡和填充模塊。其中,提質模塊煙葉香氣質較好,香氣量較足,評吸指標得分較高;平衡模塊煙葉在卷煙配方中主要起平衡煙氣狀態(tài),降低刺激性和干燥感的作用,對香氣質和香氣量起修飾效果;填充模塊煙葉的各感官評價指標得分相對較低,對卷煙香氣質和香氣量沒有明顯作用,在配方中主要起填充作用。每個模塊40份樣品,采集的樣品用于單料煙感官指標的測定。
1.2 指標測定
由江蘇中煙評吸委員會組織評吸專家按照《烤煙 煙葉質量風格特色感官評價方法》(YC/T 530—2015)對煙葉樣品進行感官評吸,具體評價指標為香氣質、香氣量、透發(fā)性、雜氣、細膩程度、柔和程度、圓潤感、刺激性、干燥感和余味,按0~5分等距標度評分法進行打分并取平均值[13],其中雜氣的得分取其9個子指標中的最大值,雜氣(d)、刺激性(h)、干燥感(i)的分值分別為(5-d)、(5-h)、(5-i)[14]。
1.3 因子分析
因子分析是將n個產(chǎn)區(qū)煙葉樣本的p個指標構成因子分析相關矩陣[15]。表示為
利用因子分析,提取特征值大于1的主成分因子。其中,各產(chǎn)區(qū)的主成分綜合得分為各提取主成分得分與該主成分貢獻率的乘積之和[16]。
1.4 聚類分析
聚類分析是一種分類方法,其在計算樣品之間的距離和類與類之間距離的基礎上,逐級合并,直至所有樣品都成為一類為止[17]。
1.4.1 一般主成分聚類
一般主成分聚類借助因子分析提取主成分因子,并以等權的形式代替原始指標進行聚類分析[17]。其中,規(guī)定一般主成分聚類分析方法所定義的樣本Ii和Ii1之間的距離為[18]
式中:dii1(q)表示樣本Ii和Ii1之間的距離,距離越小表示2個樣本相似程度越大,距離越大表示2個樣本相似程度越小。
1.4.2 加權主成分聚類
在實際應用時,一般主成分聚類采用等權的主成分因子代替原始指標直接進行聚類分析,會削弱特征權重較大的第一主成分因子的重要性[9-10],從而導致聚類結果失真。
為解決上述問題,王德青等提出基于方差貢獻率的加權主成分聚類分析方法[18],其定義的樣本Ii和Ii1之間的距離為
式中:βk(k=1,2,…,s)表示主成分因子Fk所對應的特征權重,可表示為
加權主成分聚類進一步考慮不同主成分因子對分類重要性的客觀差異[7,9],在一定程度上可以彌補一般主成分聚類存在的失真問題。
1.4.3 加權主成分距離聚類
在加權主成分聚類中,同樣可能存在失真的問題[4],進而提出加權主成分距離聚類[4],其定義的樣本Ii和Ii1之間的距離為
與加權主成分聚類的距離定義不同,加權主成分距離聚類在計算距離時并非直接對主成分因子賦權,而是按照各主成分因子所對應的特征權重對不同主成分因子下的樣本距離進行自適應賦權[10]。
1.5 統(tǒng)計檢驗
1.5.1 錯分率
在已知所有煙葉樣品所屬葉組配方模塊的情況下,將不同方法計算的分類結果與其實際所屬配方模塊進行對比,以錯分率的高低判斷不同聚類方法的優(yōu)劣[10]。
1.5.2 F檢驗
結合呂巖威等的研究成果[4],通過計算不同聚類分析方法分類結果類間(SSA)和類內(nèi)(SSE)的離差平方和進行F檢驗。
式中:ni表示第i類的樣本個數(shù);x表示所有樣本的均值;xi表示第i類的樣本均值;xij表示單個樣本得分;k表示聚類數(shù);n表示參與分類的樣本數(shù)。
1.6 數(shù)據(jù)處理
煙葉感官質量指標的標準化采用灰色局勢決策中的效果測度法進行測定[19]。
應用Matlab 2009b和SPSS 18.0軟件進行數(shù)據(jù)分析,利用Excel軟件進行統(tǒng)計作圖。不同煙葉樣品的各項感官評吸得分在計算所有樣品的基礎上進行匯總后平均得到。
2 結果與分析
2.1 不同配方模塊煙葉感官質量情況及各指標間的相關關系
由表1可知,不同模塊煙葉感官質量的得分狀況存在較大差異。多重比較分析結果顯示,提質模塊在香氣質、香氣量、細膩程度、圓潤感方面的評吸情況顯著好于其他2個模塊。與之相比,平衡模塊相應指標的得分稍低,但煙葉的透發(fā)性、雜氣、柔和程度、余味與提質模塊相當,刺激性和干燥感的得分情況好于提質模塊,這與其模塊配方的初衷相吻合。填充模塊煙葉感官指標的得分情況整體較低,與提質和平衡模塊煙葉的感官指標得分大部分存在顯著差異。不同模塊煙葉質量指標的差異規(guī)律各不相同。進一步探究不同感官質量指標間的相關關系可知,煙葉感官指標中除煙葉透發(fā)性和刺激性外,其余指標均呈現(xiàn)極顯著相關關系。煙葉不同感官指標間顯著或極顯著的相關關系表明,不同指標間存在多重信息重疊(表2)。綜上,不同配方模塊煙葉的感官質量指標大小不一、差異規(guī)律各異,而表征其感官質量的各個指標間又存在高度的信息重疊,在分類前可對相關信息進行合并,提取具有代表性的綜合指標。
2.2 基于因子分析的主成分提取
對標準化后的煙葉不同感官指標數(shù)據(jù)進行因子分析和主成分提取。KMO檢驗結果為0.81,表明指標間存在高度相關性。Bartlett檢驗的相伴概率接近0.00,說明相關系數(shù)矩陣與單位矩陣有顯著差異[4],適合進行因子分析。應用因子分析方法提取主成分因子,特征值大于1的主成分共有2個(表3),累計方差貢獻率達到81.96%,說明2個主成分因子能夠解釋原始指標的絕大多數(shù)信息。
因子載荷矩陣可以顯示各指標與主成分之間的關系,指標與某一主成分的相關系數(shù)的絕對值越大,則該成分與指標間的聯(lián)系越緊密[16]。由表3可知,不同感官質量指標中香氣質、香氣量、透發(fā)性、細膩程度、柔和程度、圓潤感與第一主成分因子的載荷最高,說明第一主成分因子可以反映這6項指標的信息,方差貢獻率達到70.15% 這些指標主要反映煙葉的香氣和煙氣特性,將第一主成分因子稱為品質因子1。相對應地,第二主成分與煙葉感官的雜氣、刺激性、干燥感、余味等4項指標的載荷最高,方差貢獻率達11.81%,主要反映煙葉的香氣和口感特性,可稱為品質因子2。
從不同主成分因子的方差貢獻率來看,第一主成分因子的方差貢獻率最高,為70.15%,第二主成分因子的方差貢獻率為11.81%,較第一主成分因子低58.34百分點,在主成分因子中占據(jù)最重要的作用。通過分析不同主成分散點圖的分布可知,第一主成分因子中提質、平衡、填充3個不同類之間區(qū)分度明顯(圖1-a)。與之相對的,上述3個模塊在第二主成分因子中的分布較密集(圖1-b)。2類主成分中,第一主成分對于正確區(qū)分葉組配方模塊的作用大于第2類,為了提高分類精度須要考慮不同主成分因子對分類結果作用的客觀差異(圖1)。
2.3 不同聚類分析方法的分類結果
為提高不同聚類分析方法間的可比性,統(tǒng)一以歐式距離(q=2)作為樣本間相似程度的統(tǒng)計量,并以Ward方法測度類間距離[20],以此劃分標準將煙葉劃分為3類(表4)。由表4可知,在3種聚類分析方法中,錯分率最高的是一般主成分聚類,其次為加權主成分聚類,錯分率最低的是加權主成分距離聚類。可見,一般主成分聚類分類效果最差,錯分率達到18.33%;加權主成分聚類分類效果稍好,錯分率為10.83%;加權主成分距離聚類分類效果最佳,錯分率為6.67%。對比不同配方模塊的分類結果,3種聚類分析方法對于填充模塊的分類效果均較好;而在平衡模塊和提質模塊的分類過程中,加權主成分距離聚類效果最好,其次為加權主成分聚類,一般主成分聚類表現(xiàn)最差,不同方法的錯分現(xiàn)象主要集中于提質與平衡模塊上。
從分類思想來看,一般主成分聚類未對不同主成分的分類重要性進行區(qū)分。相對應地,加權主成分聚類則會放大第一主成分對分類的重要性[9]。結合不同配方模塊多重比較的分析結果,在與第一主成分聯(lián)系緊密的6項感官指標中,提質模塊與平衡模塊在香氣質、香氣量、細膩程度、圓潤感等4項指標間均有顯著差異,而在表征煙葉香氣與口感特性的第二主成分的4項指標中,提質模塊與平衡模塊有2項指標(雜氣和余味)未達到顯著差異。從實際分類效果來看,放大差異較顯著的第1類主成分的加權主成分聚類方法能夠更好地區(qū)分提質模塊和平衡模塊,而以等權思維進行聚類分析的一般主成分聚類對2類配方模塊的區(qū)分效果欠佳。
加權主成分距離聚類對不同配方模塊的錯分率最低,在3種聚類方法中分類效果最佳。分析其原因可能是提取的2類主成分因子的方差貢獻率分別為70.15%、11.81%,在主成分因子信息含量相差較大的情況下,一般主成分聚類和加權主成分聚類的分類結果均存在失真的問題。而借助對不同主成分因子進行自適應賦權,加權主成分距離聚類取得最符合實際的分類結果,聚類效果優(yōu)于其他2類聚類分析方法。
2.4 分類結果的統(tǒng)計檢驗
對不同聚類分析方法的分類結果進行F檢驗,定量考察不同方法的分類質量。依據(jù)系統(tǒng)聚類的分類原則,合理聚類的目標在于盡可能大的類內(nèi)相似性和盡可能小的類間相似性[4],以離差平方和的大小表征相似性的高低,離差平方和越大表示相似性越低,離差平方和越小則表示相似性越高。
利用公式(6)~公式(8)計算加權主成分距離聚類分類結果的總類間離差平方和、總類內(nèi)離差平方和、F值,進而比較不同聚類分析方法的統(tǒng)計結果(表5)。由表5可知,一般主成分聚類的F值最低,為70.14,總類間離差平方和最小,總類內(nèi)離差平方和最大,分類效果劣與其他2種聚類分析方法。在第一主成分因子方差貢獻率較大的情況下,一般主成分聚類忽略不同主成分因子分類重要性的客觀差異會導致分類結果的效果下降[4]。
加權主成分聚類的F值為91.05,高于一般主成分聚類,低于加權主成分距離聚類。一方面,加權主成分聚類將不同主成分因子的信息差異納入分類結果,較一般主成分聚類的分類效率更高,但分類效果較加權主成分距離聚類稍遜。
相對上述2種聚類分析方法,加權主成分距離聚類分類結果的F值最高,為98.17。一方面是由于加權主成分距離聚類可以簡化數(shù)據(jù)結構[9],另一方面則得益于加權主成分距離聚類考慮到不同主成分因子對分類的貢獻度,以自適應的思維準確賦予各主成分因子不同的權重,賦權方法更加合理,因此所得的分類結果更加客觀。
3 結論與討論
在卷煙生產(chǎn)過程中,葉組配方是由多種不同的單等級片煙按照一定比例配伍而成,是維持卷煙品牌質量穩(wěn)定的重要內(nèi)容[3]。目前,葉組配方的設計大多依靠配方人員積累的經(jīng)驗,通過反復評吸和感官評價實現(xiàn)卷煙配方的維護[21],評價結果具有一定的主觀性,缺乏穩(wěn)定性[22]。
基于煙葉感官質量不同指標提取的主成分因子,利用一般主成分聚類、加權主成分聚類和加權主成分距離聚類3種聚類分析方法對不同配方模塊煙葉進行分類,比較不同聚類分析方法的分類結果,并結合錯分率和F檢驗情況考察分類效果。結果表明,一般主成分聚類和加權主成分聚類在對不同主成分因子的賦權過程中,會降低或放大第一主成分因子在分類中的作用,分類均存在結果失真的現(xiàn)象。統(tǒng)計檢驗結果也說明在3種聚類分析方法中,加權主成分距離聚類分類結果的可解釋性更強,能夠應用于不同卷煙配方模塊的分類研究。
在實際運用過程中,由于第一主成分因子的方差貢獻率往往較大,等權地將不同主成分展開系數(shù)向量聚類分析,會抹煞不同主成分重要性客觀存在的懸殊差異[10],故一般主成分聚類更多表現(xiàn)為低效率的分類結果;加權主成分聚類提出一種自適應賦權的函數(shù)型數(shù)據(jù)聚類分析模型,在一定程度上可以體現(xiàn)聚類指標分類效率的差異,顯著降低計算成本[9],并能夠有效解決傳統(tǒng)聚類算法在極端情況下失效的問題,但當存在非第一主成分因子信息含量不容忽視的情況下,分類結果依然不夠理想。在需要綜合考慮不同主成分因子對分類結果的作用差異時,以自適應思維賦予不同主成分因子合理權重的加權主成分距離聚類的分類結果勢必更加客觀、可信。
在卷煙市場競爭日趨激烈的當下,葉組配方的穩(wěn)定性日益成為制約卷煙品牌發(fā)展的瓶頸[22]。借助不同聚類分析方法對卷煙配方模塊的分類研究,為更加客觀探索卷煙品牌主要煙葉原料的替換技術奠定理論基礎,對拓寬煙葉的使用范圍,解決原料供需的結構性矛盾,助力卷煙品牌健康發(fā)展具有十分重要的意義。同時,本試驗的取樣數(shù)據(jù)具有一定的代表性,但由于樣本數(shù)量的限制,在今后的研究中仍需在更加廣泛的范圍內(nèi)進行研究。
參考文獻:
[1]謝有超. 基于近紅外光譜的卷煙相似性度量及數(shù)字化葉組配方設計研究[D]. 貴陽:貴州大學,2021.
[2]馬慧婷,趙銘欽,于海順,等. 基于模糊綜合評判煙葉原料使用類群的初步劃分[J]. 中國煙草科學,2015,36(2):1-7.
[3]王 楠,雒興剛,張忠良,等. 基于非負矩陣分解的卷煙配方維護方法[J]. 煙草科技,2019,52(8):67-76.
[4]呂巖威,樓賢駿,李 平. 加權主成分距離聚類分析法及其應用[J]. 統(tǒng)計與決策,2018,34(15):87-90.
[5]朱建平,王德青,方匡南. 中國區(qū)域創(chuàng)新能力靜態(tài)分析——基于自適應賦權主成分聚類模型[J]. 數(shù)理統(tǒng)計與管理,2013,32(5):761-768.
[6]陳軍飛,陳 琳. 基于加權主成分距離聚類的江蘇省環(huán)境質量評價[J]. 資源開發(fā)與市場,2018,34(10):1383-1388.
[7]王德青,朱建平,謝邦昌. 主成分聚類分析有效性的思考[J]. 統(tǒng)計研究,2012,29(11):84-87.
[8]賴燕華,陳翠玲,歐陽璐斯,等. 卷煙質量穩(wěn)定性綜合評價——基于多特征相似度分析和主成分分析[J]. 中國煙草學報,2017,23(5):22-30.
[9]王德青,朱建平,王潔丹. 基于自適應權重的函數(shù)型數(shù)據(jù)聚類方法研究[J]. 數(shù)理統(tǒng)計與管理,2015,34(1):84-92.
[10]呂巖威,李 平. 一種加權主成分距離的聚類分析方法[J]. 統(tǒng)計研究,2016,33(11):102-108.[HJ2mm]
[11]褚 旭,王珂清,魏建榮,等. 基于綜合賦權法的烤煙煙葉質量評價[J]. 煙草科技,2019,52(10):28-36.
[12]胡鐘勝,陳晶波,周興華,等. 模糊評判與歐氏距離法在煙葉化學成分評價中的應用[J]. 煙草科技,2012,45(11):33-37.
[13]鄧小華,鄧井青,肖春生,等. 湖南產(chǎn)區(qū)濃香型煙葉香韻分布[J]. 中國煙草學報,2014,20(2):39-46.
[14]范幸龍,褚 旭,賀 彪,等. 我國不同生態(tài)區(qū)云煙97煙葉主要品質性狀差異分析[J]. 中國煙草科學,2019,40(5):77-83.
[15]褚 旭,王珂清,魏建榮,等. 云南植煙土壤肥力狀況的組合評價法研究[J]. 中國煙草學報,2019,25(2):48-54.
[16]招啟柏,陳晶波,魏建榮,等. 組合評價法在煙葉化學質量綜合評價中的應用研究[J]. 中國煙草學報,2013,19(3):1-6.
[17]陳軍飛,吳銘峰. 主成分分析在城市復合系統(tǒng)發(fā)展評價中的應用[J]. 軟科學,2006,20(1):9-11.
[18]王德青,劉曉葳,朱建平. 基于自適應迭代更新的函數(shù)型數(shù)據(jù)聚類方法研究[J]. 統(tǒng)計研究,2015,32(4):91-96.
[19]鄧小華,楊麗麗,陸中山,等. 湘西煙葉質量風格特色感官評價[J]. 中國煙草學報,2013,19(5):22-27.
[20]李 華,趙妹穎,孫秋柏,等. 加權主成分距離聚類下金融安全指標評價體系構建與分析[J]. 數(shù)學的實踐與認識,2018,48(1):90-102.
[21]劉 偉,劉 波,馬 戎,等. 基于卷煙品牌風格特征的配方構建及工藝技術[J]. 食品工業(yè),2021,42(7):96-100.
[22]馮潤澤,雒興剛,張忠良,等. 基于單料片煙互信息的卷煙配方維護方法[J]. 煙草科技,2021,54(3):65-71.