高艷蘋(píng),呂王勇,王玲玲,蔡琳芝
(四川師范大學(xué) 數(shù)學(xué)與軟件科學(xué)學(xué)院,成都 610068)
云模型由三個(gè)云參數(shù)期望Ex、熵En、超熵He構(gòu)成,并且自1995年由李德毅院士提出至今有著十分廣泛的應(yīng)用,包括智能控制[1]、數(shù)據(jù)挖掘[2,3]、多屬性決策[4,5]和分析評(píng)價(jià)[6]等。這些應(yīng)用領(lǐng)域大部分將精確的數(shù)量值變?yōu)槎ㄐ缘恼Z(yǔ)言值,這種轉(zhuǎn)換最關(guān)鍵的部分就是通過(guò)精確的數(shù)量值估計(jì)出云參數(shù)值。經(jīng)典的云參數(shù)估計(jì)方法有矩估計(jì)法和極大似然估計(jì)法,二者的共同點(diǎn)是在將樣本均值作為期望估計(jì)值的前提下,分別求得熵、超熵的矩估計(jì)和極大似然估計(jì)。在期望不是一個(gè)未知參數(shù),而是一個(gè)隨機(jī)變量,且分布已知的假設(shè)下,應(yīng)用貝葉斯理論,得到期望的后驗(yàn)分布及其后驗(yàn)估計(jì),然后通過(guò)期望的后驗(yàn)估計(jì)求得熵、超熵的后驗(yàn)矩估計(jì)和后驗(yàn)極大似然估計(jì)。貝葉斯理論在云模型中的應(yīng)用除此之外還包括:空戰(zhàn)態(tài)勢(shì)評(píng)估[7]、空中目標(biāo)威脅評(píng)估[8]、公路物流供應(yīng)鏈整體協(xié)調(diào)[9]、航空發(fā)動(dòng)機(jī)性能評(píng)估[10]等。
本文將Ex作為一個(gè)隨機(jī)變量,根據(jù)其先驗(yàn)分布推得其后驗(yàn)分布與后驗(yàn)估計(jì);再根據(jù)Ex的后驗(yàn)估計(jì)得到關(guān)于En、He的后驗(yàn)矩估計(jì)和后驗(yàn)極大似然估計(jì);最后運(yùn)用均方誤差準(zhǔn)則,通過(guò)仿真實(shí)驗(yàn)對(duì)這幾種估計(jì)方法加以比較,得到后驗(yàn)的極大似然估計(jì)法效果最優(yōu)的結(jié)論。
云是利用自然語(yǔ)言值表示的某個(gè)定性概念A(yù)與其定量表示之間的不確定性的轉(zhuǎn)換模型。設(shè)U是一個(gè)用精確數(shù)值表示的論域,A是U上對(duì)應(yīng)的定性概念,對(duì)于任意的x∈U,都存在一個(gè)[0,1] 區(qū)間上具有穩(wěn)定傾向的隨機(jī)數(shù)μA(x),μA(x)叫做x對(duì)A概念的確定度,x在論域上的分布稱為云模型,簡(jiǎn)稱為云。云由數(shù)字特征期望Ex、熵En、超熵He來(lái)反映定性概念整體上的定量特征[11]。期望Ex是整個(gè)論域的重心,也是概念量化的最典型樣本;熵En是概念A(yù)不確定性的度量,熵越大,概念越宏觀,模糊性和隨機(jī)性也越大;超熵He是熵的不確定性度量,即熵的熵。云將定性概念的整體特性用三個(gè)數(shù)字特征值來(lái)定量反映,對(duì)理解定性概念的內(nèi)涵和外延有著極其重要的意義,而且通過(guò)三個(gè)數(shù)字特征,可以設(shè)計(jì)不同的算法來(lái)生成云滴及其確定度,得到不同的云模型[11,12]。
在云模型中,兩個(gè)最關(guān)鍵、最重要的算法是正向云算法[11]和逆向云算法。正向云算法是在已知云模型的三個(gè)參數(shù)Ex、En、He值的情況下,產(chǎn)生帶有確定度的云滴樣本。逆向云發(fā)生器是根據(jù)一定數(shù)量的云滴樣本得到表征定性概念的三個(gè)參數(shù)Ex、En、He的值。兩種算法綜合應(yīng)用,共同實(shí)現(xiàn)定性語(yǔ)言值與定量數(shù)值之間的自然轉(zhuǎn)換。
由于正態(tài)云的普適性[12]及其在云模型中的重要地位,所以本文主要研究正態(tài)云模型。在正態(tài)云中,設(shè)X是一隨機(jī)變量,且X~N(Ex,y2)。
其中:
則y的概率密度函數(shù)為:
當(dāng)y為定值時(shí),X的條件概率密度函數(shù)為:
根據(jù)式(1)和式(2),又由條件概率密度公式[13],可知X的概率密度函數(shù):
由此可得[14,15]:
云滴的產(chǎn)生過(guò)程如下:
(1)生成期望值En、標(biāo)準(zhǔn)差He的正態(tài)隨機(jī)數(shù)y;
(2)生成期望值Ex、標(biāo)準(zhǔn)差y的正態(tài)隨機(jī)數(shù)x;
產(chǎn)生云滴之后需要將這些云滴送入云滴檢驗(yàn)器,通過(guò)檢驗(yàn)的云滴才可以使用。
(1)因?yàn)樵频畏腘(Ex,En2+He2)的正態(tài)分布,由中心極限定理知,當(dāng)時(shí),定型概念的確定度可以達(dá)到1-α,其中為標(biāo)準(zhǔn)正態(tài)分布的雙側(cè)百分位點(diǎn)。計(jì)算出的云滴點(diǎn)的均值XL和的云滴點(diǎn)的均值XH。當(dāng)滿足時(shí):其中d=XH為在給定α?xí)r定性概念覆蓋達(dá)到1-α的范圍,則可認(rèn)為云滴聚集度較高,即專家意見(jiàn)差異較小,可以接受,若不符合,需要修正[16]。
(2)將置信范圍1-α之外的云滴去除,利用初始的Ex、En、He重新生成等量的云滴。
(3)將新生成的及沒(méi)被剔除掉的云滴樣本,運(yùn)用矩估計(jì)[15],得到新的參數(shù)Ex、En、He的估計(jì)值。
有了樣本并且對(duì)樣本進(jìn)行了檢驗(yàn),通過(guò)檢驗(yàn)的樣本就可以進(jìn)行云參數(shù)的估計(jì),下面介紹兩種經(jīng)典的云參數(shù)估計(jì)方法。
設(shè)x1,x2,…,xn是來(lái)自隨機(jī)變量X且通過(guò)檢驗(yàn)的一簇云滴樣本,根據(jù)式(4)至式(6)并結(jié)合樣本求得云參數(shù)的矩估計(jì)如下:
沿用上面的假設(shè),x1,x2,…,xn是來(lái)自X并且通過(guò)檢驗(yàn)的一簇云滴樣本,X~N(Ex,y2),y~N(En,He2)。因?yàn)樵颇P凸灿腥齻€(gè)未知參數(shù),其中樣本均值是參數(shù)Ex的無(wú)偏估計(jì),所以在這里參數(shù)Ex的估計(jì)值依舊使用樣本均值代替,即由式(3)知X的密度函數(shù)為:
所以這組樣本點(diǎn)的似然函數(shù)為:
記:
將式(11)取對(duì)數(shù),得到:
然后將式(11)分別對(duì)He,En求導(dǎo),得到:
滿足式(12)的解就是En,He的極大似然估計(jì)。
不管是矩估計(jì)還是極大似然估計(jì),在對(duì)參數(shù)Ex進(jìn)行估計(jì)時(shí)都是用的樣本均值。假設(shè)Ex不是一個(gè)未知參數(shù),而是一個(gè)隨機(jī)變量,并且知其先驗(yàn)分布,那么就可以應(yīng)用貝葉斯理論得到Ex的后驗(yàn)分布,下面給出Ex的后驗(yàn)分布推導(dǎo)過(guò)程及參數(shù)的后驗(yàn)估計(jì)。
設(shè)x1,x2,…,xn是來(lái)自X并且通過(guò)檢驗(yàn)的一簇云滴樣本,其中En,He是未知參數(shù)。假設(shè)Ex的先驗(yàn)分布服從正態(tài)分布,這里的c0表示Ex的期望,是Ex的方差,可得樣本X的分布和Ex的先驗(yàn)分布分別為:
由此可以寫(xiě)出X和Ex的聯(lián)合分布:
可見(jiàn)A、B、C均與Ex無(wú)關(guān),由此容易算得樣本的邊際密度函數(shù)和Ex的后驗(yàn)分布:
這說(shuō)明在樣本給定后,Ex的后驗(yàn)分布為,即:
后驗(yàn)分布的均值即為Ex的后驗(yàn)估計(jì),記為
其中,是En,He的矩估計(jì)。有了Ex的后驗(yàn)估計(jì)就可以得到參數(shù)En、He的后驗(yàn)矩估計(jì)和后驗(yàn)極大似然估計(jì)。
公式(13)是Ex的后驗(yàn)估計(jì),再根據(jù)式(5)和式(6)得到En、He的后驗(yàn)矩估計(jì)為:
其中s為云滴的樣本標(biāo)準(zhǔn)差。
有了Ex的后驗(yàn)估計(jì),也可以據(jù)此構(gòu)造參數(shù)En、He的后驗(yàn)極大似然估計(jì)。
上文給出了求得En、He極大似然估計(jì)的方法,后驗(yàn)的En、He的極大似然估計(jì)法與其原理相同,唯一不同的是,經(jīng)典的En、He極大似然估計(jì)所使用的Ex的值是由樣本均值代替的,后驗(yàn)的En、He的極大似然估計(jì)所使用的Ex的估計(jì)值是通過(guò)貝葉斯理論得到的,將Ex的后驗(yàn)估計(jì)值帶入到公式(12)中,求得滿足方程組的解就是En、He的后驗(yàn)極大似然估計(jì)。
無(wú)偏性是對(duì)估計(jì)量的一個(gè)重要而常見(jiàn)的要求,但是很多時(shí)候無(wú)偏估計(jì)是不存在的,也不一定比有偏估計(jì)更優(yōu)。從直觀上理解,一個(gè)好的估計(jì)應(yīng)該在真值周?chē)▌?dòng),同時(shí)擁有較小的均方誤差,所以均方誤差也是一個(gè)評(píng)價(jià)估計(jì)優(yōu)劣的有力標(biāo)準(zhǔn)。本文用均方誤差綜合評(píng)價(jià)估計(jì)的優(yōu)劣。
設(shè)初始云參數(shù)為Ex=25,En=3,He=0.1,并用此組值產(chǎn)生云滴樣本。剔除掉隸屬度大于99.99%的樣本點(diǎn)和偏離很大的云滴樣本,然后等數(shù)量取樣,將重新得到的云滴加上沒(méi)被剔除的云滴送入到云滴檢驗(yàn)器進(jìn)行檢驗(yàn)云滴,檢驗(yàn)通過(guò)的云滴樣本進(jìn)行計(jì)算。根據(jù)云滴樣本容易求得經(jīng)典的云參數(shù)的矩估計(jì)值;在使用經(jīng)典的云參數(shù)的極大似然估計(jì)方法時(shí),由于式(12)是無(wú)窮積分,所以根據(jù)6σ原則[13],將無(wú)窮積分變?yōu)槎ǚe分,利用復(fù)合梯形求復(fù)雜定積分的方法計(jì)算式(12)中的每一個(gè)積分,而后將En、He設(shè)定區(qū)間和步長(zhǎng),每取一次En、He的值,帶入到計(jì)算后的積分中,找到使式(12)結(jié)果最接近0的En、He的值,那么這組En、He即為所求。
在求Ex的后驗(yàn)估計(jì)時(shí),En、He的值是已知的,即為參數(shù)En、He的矩估計(jì)值;然后根據(jù)求得的Ex的后驗(yàn)估計(jì)得到了En、He的后驗(yàn)矩估計(jì)。En、He的后驗(yàn)極大似然估計(jì)就是將式(12)中Ex的值用Ex的后驗(yàn)估計(jì)值代替,其余的求解方程組的步驟與經(jīng)典的極大似然估計(jì)求解步驟相同,最后得到的使式(12)結(jié)果最接近0的En、He的值就是En、He的后驗(yàn)極大似然估計(jì)。
四種算法下熵En和超熵He的均方誤差比較如下頁(yè)圖1和圖2所示。
圖1是四種算法下熵En均方誤差的比較。由圖1可知,經(jīng)典熵的矩估計(jì)的均方誤差最大,熵的后驗(yàn)極大似然估計(jì)的均方誤差最小,所以四種算法中熵的后驗(yàn)極大似然估計(jì)算法效果最優(yōu)。參數(shù)的矩估計(jì)隨著樣本量變化的增加波動(dòng)較大,而極大似然估計(jì)的波動(dòng)較為平緩,且極大似然估計(jì)的均方誤差要小于矩估計(jì)的均方誤差,所以極大似然估計(jì)法的估計(jì)效果比矩估計(jì)法要好。在兩種極大似然估計(jì)算法中,后驗(yàn)的熵的極大似然估計(jì)的均方誤差最小,說(shuō)明其效果最優(yōu)。
圖2是四種算法下超熵He均方誤差的比較。由圖2可知,經(jīng)典超熵的矩估計(jì)的均方誤差最大,超熵的后驗(yàn)極大似然估計(jì)的均方誤差最小,所以四種算法中超熵的后驗(yàn)極大似然估計(jì)算法效果最優(yōu)。參數(shù)的矩估計(jì)隨著樣本量變化的增加波動(dòng)較大,而極大似然估計(jì)的波動(dòng)較為平緩,且極大似然估計(jì)的均方誤差要小于矩估計(jì)的均方誤差,所以極大似然估計(jì)法的估計(jì)效果比矩估計(jì)法要好。在兩種極大似然估計(jì)算法中,后驗(yàn)的超熵的極大似然估計(jì)的均方誤差最小,說(shuō)明其效果最優(yōu)。
圖1 四種算法下熵En均方誤差比較
圖2 四種算法下超熵He均方誤差的比較
本文主要研究了云參數(shù)的估計(jì)方法,在經(jīng)典參數(shù)估計(jì)的理論基礎(chǔ)上,應(yīng)用貝葉斯理論得到了后驗(yàn)的參數(shù)估計(jì)方法,并將經(jīng)典的參數(shù)估計(jì)法與后驗(yàn)的參數(shù)估計(jì)法加以比較,得到了后驗(yàn)的極大似然估計(jì)效果最優(yōu)的結(jié)論,所以在今后估計(jì)云參數(shù)時(shí)應(yīng)使用后驗(yàn)的極大似然估計(jì)法以使云參數(shù)值更加準(zhǔn)確。