張生英 ,岳 勇 ,楊 寧
(1.中國海洋大學(xué) 信息科學(xué)與工程學(xué)院,山東 青島 266071;2.山東中煙工業(yè)有限責(zé)任公司技術(shù)中心,山東 青島266071;3.青島海大新星計算機(jī)工程中心,山東 青島 266100)
卷煙產(chǎn)品主要是通過點(diǎn)燃、吸食,從而給吸煙者帶來生理、心理的強(qiáng)烈滿足感和舒適愉悅心情的一類產(chǎn)品。煙葉原料、葉組配方、香精香料、輔料搭配、工藝改進(jìn)等都會對卷煙內(nèi)在品質(zhì)產(chǎn)生較大影響,進(jìn)而影響卷煙的感官質(zhì)量,最終直接影響卷煙受消費(fèi)者青睞的程度。感官評吸能客觀、直接地檢驗并監(jiān)控卷煙內(nèi)在品質(zhì)的變化,評價員站在消費(fèi)者的角度專業(yè)地對卷煙進(jìn)行吸味評定并提出寶貴指導(dǎo)意見,從而更好地指導(dǎo)原料選擇、配方調(diào)整等工作的開展。評價員通過視覺、嗅覺、感官對卷煙品類、地方吸食喜好符合性和真?zhèn)螣煹某醪借b別都可以有一個現(xiàn)場及時的總體把握[1]。由此可見卷煙的感官評價對卷煙產(chǎn)品的重要性。但是由于傳統(tǒng)的感官評價數(shù)據(jù)比較分散,沒有對評價數(shù)據(jù)進(jìn)行系統(tǒng)的統(tǒng)一管理,數(shù)據(jù)比較容易丟失,并且也不利于對數(shù)據(jù)的進(jìn)一步研究利用,更不利于實(shí)現(xiàn)信息的共享,因此,本系統(tǒng)旨在對單料煙感官質(zhì)量數(shù)據(jù)進(jìn)行系統(tǒng)的管理。
由于參與感官評價的評委眾多,并且每位評委對同一種煙的評價也褒貶不一,因此在對評價信息進(jìn)行詞頻統(tǒng)計之后,需要按照文本情感分析原理對其進(jìn)行分析,確定每位評委的情感傾向,進(jìn)而實(shí)現(xiàn)評價數(shù)據(jù)的管理。
本系統(tǒng)旨在將手工方式管理感官評價數(shù)據(jù)轉(zhuǎn)變成計算機(jī)錄入管理。該系統(tǒng)可以將多個評委評吸數(shù)據(jù)進(jìn)行綜合評價,形成質(zhì)量分析報告,實(shí)現(xiàn)卷煙感官質(zhì)量評價管理與分析的方便性和高效性。
系統(tǒng)在軟件架構(gòu)上采用C/S架構(gòu)模式。為了更好滿足企業(yè)多點(diǎn)研發(fā)模式,采用Microsoft Visual C#.NET 2.0開發(fā)平臺和SQL Server 2005數(shù)據(jù)庫,服務(wù)器部署方式為應(yīng)用服務(wù)器—數(shù)據(jù)服務(wù)器分離的分布式構(gòu)架、“雙機(jī)熱備”技術(shù)。本系統(tǒng)與ERP系統(tǒng)在企業(yè)局域網(wǎng)中實(shí)現(xiàn)信息集成,通過接口傳輸原料基本信息和質(zhì)量數(shù)據(jù)。同時為了保證數(shù)據(jù)具有良好的安全性,系統(tǒng)采用CA認(rèn)證、多級多層次權(quán)限控制、MD5等加密技術(shù)的安全機(jī)制。
1.2.1 數(shù)據(jù)庫結(jié)構(gòu)
根據(jù)卷煙國家標(biāo)準(zhǔn)、感官評價方法標(biāo)準(zhǔn)和卷煙感官標(biāo)準(zhǔn)樣品,該單料煙感官評價系統(tǒng)的數(shù)據(jù)庫包括:卷煙樣品信息表、評吸數(shù)據(jù)模板、感官評吸數(shù)據(jù)表、測試平臺數(shù)據(jù)表、評吸標(biāo)準(zhǔn)數(shù)據(jù)表、評吸人員數(shù)據(jù)表和感官評價測試結(jié)果視圖。數(shù)據(jù)庫的結(jié)構(gòu)如圖1所示。
圖1 數(shù)據(jù)庫結(jié)構(gòu)圖
1.2.2 系統(tǒng)結(jié)構(gòu)
本功能旨在管理卷煙產(chǎn)品的質(zhì)量綜合測試與評價過程,并對測試評價數(shù)據(jù)進(jìn)行統(tǒng)計分析。整個系統(tǒng)可分為3大模塊:評價數(shù)據(jù)管理、評價數(shù)據(jù)統(tǒng)計分析和系統(tǒng)管理。系統(tǒng)結(jié)構(gòu)圖如圖2所示。
圖2 系統(tǒng)結(jié)構(gòu)圖
其中,評價數(shù)據(jù)管理模塊的作用是錄入評吸數(shù)據(jù)模板、錄入評吸數(shù)據(jù)、錄入評吸標(biāo)準(zhǔn)及錄入評價人員檔案信息等信息的錄入,實(shí)現(xiàn)的功能為:對市場測試評價數(shù)據(jù)的統(tǒng)一管理,用于市場測試評價數(shù)據(jù)的統(tǒng)計分析。為減輕數(shù)據(jù)管理員的工作強(qiáng)度,可將相關(guān)的質(zhì)量數(shù)據(jù)直接導(dǎo)入到本系統(tǒng)中。導(dǎo)入數(shù)據(jù)的格式可采用Excel文件格式,這使整個數(shù)據(jù)導(dǎo)入工作快速高效,也減少了操作人員錄入數(shù)據(jù)時出現(xiàn)的錯誤,提高了工作效率。評價數(shù)據(jù)統(tǒng)計分析模塊主要實(shí)現(xiàn)的功能是對市場測試評價數(shù)據(jù)的統(tǒng)計分析功能,主要評價描述的摘要統(tǒng)計,并能實(shí)現(xiàn)摘要信息的Excel格式導(dǎo)出,為管理和改進(jìn)卷煙配方提供參考依據(jù)。系統(tǒng)管理模塊旨在管理系統(tǒng)的權(quán)限,保障系統(tǒng)的安全性,當(dāng)系統(tǒng)操作數(shù)據(jù)出現(xiàn)異常情況時,便于管理員通過系統(tǒng)日志找出出現(xiàn)問題的原因,并及時改正;還有利于管理各個人的角色,有利于責(zé)任的落實(shí),如果哪個角色的工作沒做完或出現(xiàn)了問題,便于部門領(lǐng)導(dǎo)將相應(yīng)的責(zé)任落實(shí)到個人,便于下一步工作的部署。
1.3.1 詞頻統(tǒng)計算法實(shí)現(xiàn)
詞頻統(tǒng)計[2]是一種用于情報檢索與文本挖掘的常用加權(quán)技術(shù),用以評估一個詞對于一個文件或者一個語料庫中的一個領(lǐng)域文件集的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。利用詞頻統(tǒng)計方法實(shí)現(xiàn)產(chǎn)品特征的出現(xiàn)頻率的統(tǒng)計,以句子為單位,實(shí)現(xiàn)名詞與形容詞的匹配,并將名詞按出現(xiàn)頻率從高到低排序,將形容詞按權(quán)值加權(quán)求值,實(shí)現(xiàn)評價信息的概括、歸納的功能。
可以將評價數(shù)據(jù)Execl表格格式導(dǎo)入,導(dǎo)入數(shù)據(jù)如表1所示。
表1 評價數(shù)據(jù)Excel表
詞頻統(tǒng)計過程如圖3所示。
圖3 詞頻統(tǒng)計過程
文本情感分析又稱意見挖掘,是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。情感分析可歸納為3項層層遞進(jìn)的研究任務(wù),即情感信息的抽取、情感信息的分類以及情感信息的檢索與歸納。
首先,建立卷煙感官評價指標(biāo)詞庫,例如香氣、外觀、口感、刺激性、余味、勁頭、煙氣、包裝等;建立情感詞庫,例如很好、好、較好、一般、差、小、較小、柔和等。
將由詞頻統(tǒng)計后的結(jié)果,即其中的名稱與卷煙感官評價指標(biāo)詞庫進(jìn)行相似度匹配,形容詞與情感詞庫進(jìn)行匹配,進(jìn)而判斷該句評價信息的評價指標(biāo)和對該指標(biāo)的評價情感,匹配規(guī)則如下:
其中,S2、L分別表示文本標(biāo)引詞串和知識庫中的詞串。
1.3.3 用戶管理與系統(tǒng)維護(hù)的解決方案
本平臺采用多級權(quán)限多層次管理模式,定義多個角色,通過關(guān)聯(lián)用戶和角色的定義關(guān)系,實(shí)現(xiàn)用戶權(quán)利分配。系統(tǒng)將菜單和功能按鈕、數(shù)據(jù)列都作為權(quán)限控制的范疇,建立程序資源和權(quán)限的關(guān)聯(lián)關(guān)系的同時建立程序資源和界面功能組件(菜單,功能按鈕)的關(guān)聯(lián)關(guān)系,定義分級管理的授權(quán)模型,系統(tǒng)基于角色對用戶組進(jìn)行訪問控制,同時支持角色的繼承和多重繼承。
由于卷煙產(chǎn)品配方的重要性,系統(tǒng)提供對產(chǎn)品各類配方數(shù)據(jù)管理權(quán)限的控制功能,僅開放給授權(quán)用戶操作相關(guān)產(chǎn)品牌號的配方數(shù)據(jù),他人不能操作,以確保關(guān)鍵數(shù)據(jù)的保密性。
數(shù)據(jù)管理可以實(shí)現(xiàn)對卷煙感官評價過程中的數(shù)據(jù)的集中的、系統(tǒng)的管理,方便以后對數(shù)據(jù)的處理和研究,避免出現(xiàn)數(shù)據(jù)丟失的問題,同時也便于數(shù)據(jù)的共享。該功能模塊主要包括兩部分:(1)評價人員檔案管理,系統(tǒng)對相關(guān)人員的所屬測試平臺、檔案信息及評價水平進(jìn)行分類管理,方便數(shù)據(jù)有效性的責(zé)任落實(shí)。其中測試平臺分為內(nèi)部測試平臺和外部測試平臺,包括中煙評煙委員會、煙草公司、零售戶等。(2)測試數(shù)據(jù)管理,實(shí)現(xiàn)對質(zhì)量評價結(jié)果的管理,用于評價數(shù)據(jù)統(tǒng)計。測試數(shù)據(jù)的錄入有手動錄入和批量錄入兩種方式。系統(tǒng)支持Execl文件導(dǎo)入功能,這使整個數(shù)據(jù)導(dǎo)入工作快速高效,也減少了操作人員錄入數(shù)據(jù)時出現(xiàn)的錯誤。在導(dǎo)入數(shù)據(jù)時,系統(tǒng)根據(jù)事先建立好的評價數(shù)據(jù)模板,將導(dǎo)入的數(shù)據(jù)與其進(jìn)行匹配,自動根據(jù)評吸人員姓名與測試平臺人員檔案信息進(jìn)行關(guān)聯(lián),對于未關(guān)聯(lián)上的評吸人員進(jìn)行系統(tǒng)提示,由用戶手工指定關(guān)聯(lián)關(guān)系。
評價數(shù)據(jù)統(tǒng)計分析功能模塊實(shí)現(xiàn)對市場測試評價數(shù)據(jù)的統(tǒng)計分析功能,包括評價人數(shù)統(tǒng)計和評價描述的摘要統(tǒng)計,方便用戶對卷煙感官評價有一個整體的把握,為后續(xù)的卷煙配方的調(diào)整提供可靠依據(jù),如圖4所示。利用文本情感分析、詞頻統(tǒng)計算法、中文語義識別算法和專有名詞庫,對測試小組的全部評價描述語言進(jìn)行語義識別,提取出產(chǎn)品質(zhì)量評價匯總摘要,對市場測試數(shù)據(jù)進(jìn)行統(tǒng)計匯總,并將匯總結(jié)果保存在系統(tǒng)中。
圖4 評價數(shù)據(jù)統(tǒng)計分析
卷煙產(chǎn)品的吸食特點(diǎn),決定了卷煙感官質(zhì)量評價的重要性,它是與消費(fèi)者直接接觸的,直接決定著消費(fèi)者的喜惡。本系統(tǒng)能夠系統(tǒng)地管理感官評價信息,采用文本情感分析技術(shù)和詞頻統(tǒng)計技術(shù)做技術(shù)支撐,對感官質(zhì)量評價數(shù)據(jù)做了科學(xué)深入的處理,方便用戶整體把握卷煙感官評價,為后續(xù)的卷煙配方的調(diào)整提供可靠依據(jù)。
今后系統(tǒng)還應(yīng)考慮添加卷煙市場銷量規(guī)律管理功能,通過分析市場銷量數(shù)據(jù)與感官質(zhì)量數(shù)據(jù)之間的相關(guān)性研究,得出市場銷量與感官質(zhì)量評價之間的關(guān)系,并作進(jìn)一步研究。
[1]劉忠祥.卷煙感官分析與評價[DB/OL].全國煙草品種審定委員會,2011.
[2]費(fèi)洪曉,康松林,朱小娟,等.基于詞頻統(tǒng)計的中文分詞的研究[J].計算機(jī)工程與應(yīng)用,2005(7):67-68.
[3]陸文星,王燕飛.中文文本情感分析研究綜述[J].計算機(jī)應(yīng)用研究,2012(6):2014-2017.