周武慶,康向平,張超
1. 中國(guó)煙草總公司 山西省公司,山西 太原 030006 2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006
大數(shù)據(jù)時(shí)代,信息化輔助決策在煙草行業(yè)顯得愈發(fā)重要,基于數(shù)據(jù)挖掘和人工智能技術(shù)的煙草信息化系統(tǒng)近年來(lái)得到了快速發(fā)展。經(jīng)過(guò)十余年的信息化建設(shè),全國(guó)煙草行業(yè)的信息化網(wǎng)絡(luò)已初步建成[1]。然而,當(dāng)前煙草信息系統(tǒng)中仍存在一些瓶頸,尤其是輔助決策系統(tǒng)主要依賴于簡(jiǎn)單的統(tǒng)計(jì)學(xué)方法,針對(duì)現(xiàn)實(shí)中諸多不確定性信息還無(wú)法有效處理[2-3]。隨著《煙草行業(yè)信息化發(fā)展規(guī)劃(2014—2020)》的正式發(fā)布,煙草行業(yè)對(duì)信息化建設(shè)的深度愈加緊迫,因此有必要研究不確定環(huán)境下的行業(yè)數(shù)據(jù)挖掘方法。
在構(gòu)建面向復(fù)雜問(wèn)題的輔助決策系統(tǒng)時(shí),通常需要處理兩大任務(wù),即評(píng)價(jià)或決策信息的表示,以及評(píng)價(jià)或決策信息的分析處理[4-5]。在信息表示方面,模糊理論將經(jīng)典集合論中隸屬度的取值范圍由0或1推廣到閉區(qū)間[0,1],可有效表示不確定性信息。隨后,諸多推廣模糊數(shù)據(jù)分析模型相繼被提出,從不同的角度完善了不確定性信息的表示手段[6-7]。其中,為了合理描述專家在決策過(guò)程中猶豫不決這一心理狀態(tài),美國(guó)學(xué)者Smarandache[8]于上世紀(jì)末同時(shí)引入了包含隸屬度、猶豫度和非隸屬度的序?qū)?lái)表示不確定性信息,隨后,猶豫模糊分析理論被建立,并在管理決策領(lǐng)域產(chǎn)生了廣泛的影響[9-11]。2015年,Ye[12]進(jìn)一步發(fā)展了猶豫模糊分析理論,提出了一種廣義的猶豫模糊理論,建立了猶豫中智集的概念,其可為煙草輔助決策信息的表示提供有效的理論工具[13-14]。此外,在評(píng)價(jià)和決策信息分析處理方面,RS理論從確定性規(guī)則與可能性規(guī)則的角度出發(fā),通過(guò)下近似集合與上近似集合來(lái)進(jìn)行數(shù)據(jù)挖掘,是一種行之有效的管理決策工具[15-18]。在眾多RS模型之中,概率粗糙集(probabilistic rough set,PRS)模型通過(guò)引入條件概率,能夠降低錯(cuò)誤分類對(duì)最終決策結(jié)果的影響,可為煙草輔助決策信息的分析提供具有較強(qiáng)穩(wěn)定性和魯棒性的方案[19-21]。
總的來(lái)講,針對(duì)復(fù)雜的評(píng)價(jià)和決策問(wèn)題,傳統(tǒng)統(tǒng)計(jì)學(xué)存在一定局限性,相關(guān)研究正逐步向更高級(jí)更復(fù)雜的方向持續(xù)演進(jìn),在此背景下,本文研究,無(wú)論是對(duì)于豐富相關(guān)理論,還是更好地輔助管理決策,顯然都是有意義的。
通常,在處理復(fù)雜評(píng)價(jià)和決策問(wèn)題時(shí),人們往往會(huì)從多個(gè)不同角度去看待問(wèn)題,盡管角度不同,結(jié)果會(huì)有差異,但綜合起來(lái)卻可能是一個(gè)相對(duì)全面客觀的評(píng)價(jià),在這方面,正反兩方面評(píng)價(jià)就是一種最常見(jiàn)的方式。例如,當(dāng)對(duì)一個(gè)人的品行進(jìn)行評(píng)價(jià)時(shí),如果基于正面評(píng)價(jià)的結(jié)論是:“他是一個(gè)有擔(dān)當(dāng)、講責(zé)任、明規(guī)矩的人”,基于反面評(píng)價(jià)的結(jié)論是“他不是一個(gè)卑劣、庸俗、自私的人”,盡管正反兩方面評(píng)價(jià)出發(fā)點(diǎn)不一樣,但目標(biāo)指向卻是一致的,在此情形下,綜合起來(lái)更能充分說(shuō)明:這個(gè)人是一個(gè)具有良好品行的人。事實(shí)上,無(wú)論是對(duì)于什么樣的評(píng)價(jià)客體,只要是遵循上述評(píng)價(jià)理念,評(píng)價(jià)的結(jié)果一般都不會(huì)出現(xiàn)太大的偏差。
當(dāng)然,在實(shí)際評(píng)價(jià)和決策中,除了多視角綜合分析外,可能更需要人們統(tǒng)籌考慮以下影響因素:
1)應(yīng)注重評(píng)價(jià)人的自身心理狀態(tài)。評(píng)價(jià)時(shí),評(píng)價(jià)人可能會(huì)猶豫不決。猶豫,說(shuō)明對(duì)事物的評(píng)價(jià)沒(méi)有足夠把握,結(jié)果不一定準(zhǔn)確、可信度較低;相反,不猶豫,則說(shuō)明可信度較高。事實(shí)上,這樣的心理因素是非常重要的。一定程度上來(lái)講,評(píng)價(jià)人不僅僅是評(píng)價(jià)主體,同時(shí)也是評(píng)價(jià)客體,需要對(duì)自身猶豫心理給出一個(gè)客觀合理的評(píng)價(jià),只有這樣,才能從根源上客觀反映出評(píng)價(jià)結(jié)果的合理性。
2)應(yīng)注重評(píng)價(jià)和決策結(jié)果的不唯一性。以正面評(píng)價(jià)為例,如果滿分是100分的話,結(jié)論也許是一個(gè)范疇,如80~90分,亦或是這個(gè)范疇中的多個(gè)值,如80分、85分、88分等,這些值可能無(wú)法取舍,都具有一定的合理性。在此情形下,如果一味強(qiáng)調(diào)評(píng)價(jià)結(jié)果的唯一性,而忽視評(píng)價(jià)結(jié)果的多樣性,那么評(píng)價(jià)結(jié)果可能是片面的,是不完整的。同樣,對(duì)于反面評(píng)價(jià),或者是評(píng)價(jià)人對(duì)自身心理狀態(tài)的評(píng)價(jià),都可能會(huì)面臨評(píng)價(jià)結(jié)果不唯一這樣的實(shí)際情況。
3)應(yīng)注重評(píng)價(jià)和決策的模糊性。在確定性邏輯下,人們對(duì)于事物的判定結(jié)果只有“0”和“1”兩種情況,非此即彼,二者必居其一。然而,邊界的模糊性是普遍存在的,甚至是像高與底、強(qiáng)與弱、好與壞等這些明顯對(duì)立特征的概念也沒(méi)有絕對(duì)分明的邊界。在此情形下,確定性邏輯盡管簡(jiǎn)單易懂易用,但在處理一些復(fù)雜的評(píng)價(jià)或決策時(shí),往往不利于人們從看似不相關(guān)的復(fù)雜數(shù)據(jù)中發(fā)現(xiàn)一些潛在的有價(jià)值的知識(shí)。例如,當(dāng)評(píng)價(jià)一個(gè)人是否年輕時(shí),也許沒(méi)有一個(gè)肯定的回答(用“1”表示),或一個(gè)否定的回答(用“0”表示),只能是給出一個(gè)介于“0”和“1”之間的中間值,即用“隸屬于年輕人群體的大小程度”去度量這種模糊情況。
在實(shí)際應(yīng)用中,當(dāng)人們統(tǒng)籌考慮上述因素去處理一些相對(duì)復(fù)雜的評(píng)價(jià)和決策問(wèn)題時(shí),如果僅僅是依賴于一些傳統(tǒng)的評(píng)價(jià)方法或模型,評(píng)價(jià)結(jié)果可能會(huì)失真,與實(shí)際存在較大的偏差。近年來(lái),盡管相關(guān)研究取得了一定進(jìn)展,但尚處于初始階段,尤其是,猶豫,這種反映評(píng)價(jià)人心理的客觀事實(shí),在數(shù)據(jù)建模關(guān)鍵步驟中尚未得到足夠的重視,心理學(xué)與統(tǒng)計(jì)學(xué)的融合問(wèn)題仍有待進(jìn)一步深入研究。
為有效應(yīng)對(duì)復(fù)雜數(shù)據(jù)背景下不確定性問(wèn)題建模、分析與計(jì)算任務(wù),適應(yīng)更復(fù)雜環(huán)境下的評(píng)價(jià)和決策需求,為解決煙草行業(yè)輔助決策系統(tǒng)在處理不確定性決策信息時(shí)存在的局限性,本文統(tǒng)籌考慮正反兩個(gè)方面的模糊評(píng)價(jià)、評(píng)價(jià)人對(duì)自身心理狀態(tài)的評(píng)價(jià),以及評(píng)價(jià)結(jié)果的多樣性,嘗試借助模糊論、概率論,以及RS理論等,從信息表示與信息分析兩個(gè)層面出發(fā),去探討一種廣義上的數(shù)學(xué)分析方法。該方法涉及心理因素分析,應(yīng)用范圍較廣,可以為卷煙品牌發(fā)展評(píng)價(jià)、生產(chǎn)經(jīng)營(yíng)管理決策提供一定的理論支持,也可以為科學(xué)合理設(shè)計(jì)煙草行業(yè)計(jì)算機(jī)輔助決策系統(tǒng)提供有益參考。
基于上一節(jié)對(duì)評(píng)價(jià)或決策理念的認(rèn)知,本文選用廣義猶豫模糊理論,即基于猶豫中智集作為信息表示工具,其中猶豫中智集的形式化定義為:
對(duì)于數(shù)據(jù)集U,一個(gè)猶豫中智集A由3個(gè)函數(shù)來(lái)刻畫(huà),即隸屬函數(shù) C TA:U→int[0,1],猶豫函數(shù)CIA:U→int[0,1]和非隸屬函數(shù) C FA:U→int[0,1],int[0,1]代表[0,1]的冪集。在此意義下,猶豫中智集A被描述為[12]
基于不同的表示方法,展現(xiàn)的內(nèi)容和方式是不一樣的。事實(shí)上,相對(duì)于傳統(tǒng)方法,基于猶豫中智集的信息表示相對(duì)更為合理,信息量也更為豐富。例如:
模糊理論:隸屬度(單一值),非隸屬度(單一值),如〈 0 .6,0.1〉,其中0.6為隸屬度、0.1為非隸屬度。
猶豫模糊理論:隸屬度(單一值)、猶豫度(單一值)、非隸屬度(單一值),如 〈0 .6,0.1,0.1〉,其中0.6為隸屬度、0.1為猶豫度、0.1為非隸屬度。
廣義猶豫模糊理論(即猶豫中智集):隸屬度(單一值或多個(gè)值)、猶豫度(單一值或多個(gè)值)、非隸屬度(單一值或多個(gè)值),如〈(0.6,0.7),(0.1,0.2),其中0.6和0.7均為隸屬度、0.1和0.2均為猶豫度、0.05和0.1均為非隸屬度。
在信息分析處理方面,傳統(tǒng)方法同樣無(wú)法提供考慮錯(cuò)誤分類對(duì)最終結(jié)論影響的機(jī)制,因此本文嘗試引用PRS模型作為信息分析工具。
假設(shè)U是一個(gè)數(shù)據(jù)集,(U, R )是一個(gè)近似空間,P是一個(gè)基于σ代數(shù)的概率度量,則(U, R,P)是一個(gè)概率近似空間。常見(jiàn)的概率分布如正態(tài)分布的概率密度函數(shù):
拉普拉斯分布概率密度函數(shù)(:)
伯努利分布概率密度函數(shù):
上述PRS模型,主要是用于數(shù)據(jù)分類處理,即將待評(píng)價(jià)數(shù)據(jù)集最終劃分為3個(gè)不同的類:一類是正域 P OS(X,α,β),正域中的數(shù)據(jù)肯定屬于集合X;一類是邊界域 B ND(X,α,β),邊界域中的數(shù)據(jù)可能包含于集合X;最后一類是負(fù)域 N EG(X,α,β),負(fù)域中的數(shù)據(jù)肯定不屬于集合X。此外,閾值參數(shù)α、β,代表對(duì)于決策失誤的容忍度,即專家做出錯(cuò)誤決策在一定程度下也不會(huì)影響正確決策結(jié)論的得出。
在現(xiàn)實(shí)生活中,人們通常會(huì)做出各種各樣的評(píng)價(jià)和決策,但大多數(shù)情況下,這些決策更多是一種匹配性的決策。例如,當(dāng)消費(fèi)者在選擇卷煙品牌時(shí),其購(gòu)買前,一定是有內(nèi)在訴求的,即每個(gè)消費(fèi)者心目中都會(huì)有一個(gè)理想的品牌,以及相應(yīng)的理想評(píng)價(jià)集合(即,針對(duì)理想品牌每一項(xiàng)評(píng)價(jià)指標(biāo)預(yù)先給出的理想期待值,如品牌焦油含量要低、卷煙質(zhì)量要過(guò)硬、香型要清香、濃香、中間香或雅香、外包裝設(shè)計(jì)要精美、品牌文化要得到認(rèn)同、價(jià)格要適中……)。在實(shí)際購(gòu)買中,當(dāng)面對(duì)n個(gè)不同的卷煙品牌,消費(fèi)者同樣也會(huì)從焦油含量、香型、外包裝設(shè)計(jì)、品牌文化、價(jià)格等m個(gè)角度做出現(xiàn)場(chǎng)評(píng)價(jià)(本質(zhì)上是建立n個(gè)品牌與m個(gè)評(píng)價(jià)指標(biāo)之間的評(píng)價(jià)矩陣),與消費(fèi)者內(nèi)心期待相近、相吻合、匹配程度較高的即為消費(fèi)者心儀的卷煙品牌(本質(zhì)上是將理想評(píng)價(jià)集合與決策矩陣進(jìn)行匹配)。
對(duì)于如何匹配,本文引入了條件概率的建模思想。從本質(zhì)上來(lái)講,條件概率模型本身就是一個(gè)典型的匹配性決策模型,通常,條件概率模型表示為
即在事件B發(fā)生的條件下,事件B和事件A同時(shí)發(fā)生的概率。在本文中,決策矩陣可以理解為“條件部分”,對(duì)應(yīng)事件B;理想評(píng)價(jià)集合可以理解為事件A;事件A和B同時(shí)發(fā)生的概率可以理解為它們之間的匹配情況。
當(dāng)然,基于上述條件概率思想得到的結(jié)果通常表現(xiàn)為具體的數(shù)值,尚不能給出最終的決策結(jié)論,后續(xù),仍需要通過(guò)某種機(jī)制將數(shù)值轉(zhuǎn)化為具體的決策方案。為此,本文擬引入閾值、融入RS理論建模思想,通過(guò)對(duì)數(shù)據(jù)進(jìn)行篩選,可以進(jìn)一步確定理想評(píng)價(jià)集合的正域、負(fù)域、邊界域,并最終得到問(wèn)題的決策方案,其中,正域與理想目標(biāo)最接近,其次分別為邊界域和負(fù)域,正域中方案即為最佳決策方案。
遵循上述建模機(jī)理,本文設(shè)計(jì)了如下數(shù)據(jù)分析模型。
猶豫中智集合A,本文將其下近似集合與上近似集合分別定義為
上述模型是一種多理論融合的形態(tài),也是一種相對(duì)通用的知識(shí)表示和分析處理框架,能充分體現(xiàn)評(píng)價(jià)人的主觀意識(shí)和決策心理,可以為復(fù)雜情況下相關(guān)評(píng)價(jià)和決策提供一定的理論支撐。
在卷煙品牌選擇中,上述模型可以勾勒出消費(fèi)者所心儀品牌的范圍,范圍之內(nèi)的區(qū)域稱為正域,范圍之外的區(qū)域稱為負(fù)域,范圍邊界上的區(qū)域稱為邊界域。如果一個(gè)品牌經(jīng)過(guò)匹配,確定其處于正域,則說(shuō)明該品牌一定是消費(fèi)者心儀的品牌;相反,確定其處于負(fù)域,則說(shuō)明該品牌距離消費(fèi)者的訴求還有很大差距;如果一個(gè)品牌經(jīng)過(guò)匹配,確定其處于邊界域,則說(shuō)明該品牌介于上述心儀和不心儀兩種情況之間,消費(fèi)者購(gòu)買欲可能會(huì)不太強(qiáng)烈。
本文能為卷煙品牌定性定量分析評(píng)價(jià)、生產(chǎn)經(jīng)營(yíng)管理決策提供更為合理的理論支持。以煙草品牌發(fā)展?jié)摿Ψ治鰹槔?,假設(shè)數(shù)據(jù)集U:x1,x2,···,xm是待評(píng)價(jià)的煙草品牌集合, V :y1,y2,···,yn是由若干個(gè)評(píng)價(jià)指標(biāo)組成的評(píng)價(jià)指標(biāo)集,A是行業(yè)或企業(yè)針對(duì)理想品牌每一項(xiàng)評(píng)價(jià)指標(biāo)預(yù)先給出的理想評(píng)估值。
首先,針對(duì)兩個(gè)數(shù)據(jù)集U和V,由專家建立U×V上的一個(gè)猶豫中智關(guān)系R。在此基礎(chǔ)上,基于
在概率近似空間中,對(duì)照理想品牌的指標(biāo)符合性狀態(tài),確定4個(gè)待評(píng)估品牌與理想目標(biāo)A的匹配情況,在此基礎(chǔ)上,求解A的正域、負(fù)域、邊界域,其中正域中的品牌均為潛力品牌;負(fù)域中的品牌不具有發(fā)展?jié)摿?;邊界域中的品牌為待定品牌,需要進(jìn)一步評(píng)估。具體求解步驟如下。
輸入 品牌集U,指標(biāo)集V,理想品牌的理想評(píng)估值集A。
輸出 有發(fā)展?jié)摿Φ臒煵萜放啤?/p>
3) 設(shè)定閾值α、β、ε;
6) 依據(jù)正域、負(fù)域、邊界域,確定各類卷煙品牌的發(fā)展?jié)摿?,其中正域中品牌即為潛力品牌?/p>
end
接上例,假設(shè)集合U中包含4個(gè)待評(píng)價(jià)的卷煙品牌x1,x2,x3,x4;集合V中包含5個(gè)具體的評(píng)價(jià)指標(biāo)y1,y2,y3,y4,y5,如品牌市場(chǎng)狀態(tài)、銷售規(guī)模體量、創(chuàng)新性、消費(fèi)者普遍接受程度等指標(biāo);集合A是一個(gè)理想評(píng)價(jià)集合,即針對(duì)每一項(xiàng)評(píng)價(jià)指標(biāo),由行業(yè)或企業(yè)預(yù)先給定的理想評(píng)價(jià)值,其中
專家給定的閾值:
為簡(jiǎn)化分析,暫不考慮ε因素?;谏鲜銮爸眯孕畔?,依據(jù)專家評(píng)價(jià)意見(jiàn)構(gòu)建U×V上的猶豫中智關(guān)系R,詳見(jiàn)表1。
表1 一個(gè)猶豫中智關(guān)系
確定理想目標(biāo)集A的正域、負(fù)域、邊界域:
依據(jù)上述計(jì)算結(jié)果,得到最終決策結(jié)論:
1)正域結(jié)論:品牌x1具有發(fā)展?jié)摿Α?/p>
2)負(fù)域結(jié)論:品牌x4不具有發(fā)展?jié)摿Α?/p>
3)邊界域結(jié)論:品牌x2和x3為待定品牌,需要進(jìn)一步評(píng)估。
1) 針對(duì)目前多大數(shù)煙草輔助決策系統(tǒng)依賴傳統(tǒng)統(tǒng)計(jì)學(xué)分析,無(wú)法對(duì)復(fù)雜評(píng)價(jià)和決策信息有效表示與分析的局限性,本文通過(guò)融合RS理論、概率論、模糊論,以及心理學(xué)等,提出了一種合理的數(shù)據(jù)分析模型。
2) 該模型能充分體現(xiàn)評(píng)價(jià)人的主觀意識(shí)和決策心理,具有較強(qiáng)的容錯(cuò)能力,一定程度上可以為煙草行業(yè)輔助決策系統(tǒng)建設(shè)提供有益參考。