王 杰,劉 琪,黨勤華
(1.鄭州大學電氣工程學院,河南鄭州450001;2.周口師范學院物理與電子工程系,河南周口466001)
具有不確定性的現(xiàn)象與事物,普遍存在于自然界和人類社會中.如何表示和處理不確定性現(xiàn)象與事物,一直是自然科學研究的熱點和重點,也是一個瓶頸性問題[1].Zadeh 博士[2]1965 年發(fā)表了模糊集合的開創(chuàng)性成果,提出了利用隸屬度來表示事物的亦此亦彼性,隸屬度函數(shù)的形式主要包括分段線性函數(shù)和非線性函數(shù)[3]兩種.
隸屬度函數(shù)的確定方法[4]一直沒有得到根本解決.實際應(yīng)用中,隸屬度的確定一般采用主觀取值,是不可靠的,若采用統(tǒng)計的方法,往往成本很高,有時根本不可能做到.筆者提出了基于密度指標的單次聚類方法,通過曲線擬合,確定了非線性隸屬度函數(shù),方法簡單,易于推廣.
非線性隸屬度函數(shù)主要有高斯型、sigmoid型、S型、拋物線型等.其中高斯型隸屬度函數(shù)和sigmoid型隸屬度函數(shù)具有很好的光滑性,圖形沒有零點而且具有比較清晰的物理意義,是描述不確定性最為常用的隸屬度函數(shù).
高斯型隸屬度函數(shù)[3]表達式如式(1),其主要參數(shù)是函數(shù)中心a和函數(shù)曲線的寬度σ,如圖1所示.
圖1 高斯型隸屬度函數(shù)Fig.1 Gaussian membership function
sigmoid型隸屬度函數(shù)[3]表達式如式(2),適用于“很”、“很不”修飾的語言值的隸屬度函數(shù),由b,c兩個參數(shù)確定,當b為正,sigmoid型隸屬度函數(shù)曲線向右開口;當b為負,sigmoid型隸屬度函數(shù)曲線向左開口,如圖2所示.
圖2 sigmoid型隸屬度函數(shù)Fig.2 Sigmoid membership function
模糊聚類分析是許多分類和系統(tǒng)建模的基礎(chǔ).聚類的目的是從大量的數(shù)據(jù)中抽取固有的特征,以獲得系統(tǒng)行為的簡潔表示.Bezdek提出用隸屬度確定數(shù)據(jù)點屬于某個聚類程度的模糊C均值聚類(FCM)方法[5]是目前比較成熟的模糊聚類方法[6],但算法結(jié)果嚴重依賴隨機生成的初始聚類中心.筆者提出一種基于密度指標的單次算法,它的計算量與輸入數(shù)據(jù)數(shù)目成線性關(guān)系.
對于 X={x1,x2,...,xn} ? RS的樣本點集合,單次聚類方法如下:
Step1:設(shè)定鄰域半徑ra、模糊指數(shù)b和聚類中心個數(shù)m;
Step2:計算每一個點xi的密度指標:
其中,
是該點的領(lǐng)域半徑,選取最高的密度指標點xc1作為首個聚類中心;
Step3:對每個數(shù)據(jù)點的密度指標進行修正:
其中,rb是密度指標函數(shù)顯著減小的鄰域半徑,一般為rb=1.2ra,取最高的密度指標點xck+1作為新的聚類中心;
Step4:再修訂每個數(shù)據(jù)點的密度指標,直到得到m個聚類中心,將聚類中心定義為wk,k=1,2,...,m;
Step5:計算xi對wk的隸屬度uik:
在上述方法中,領(lǐng)域半徑ra是某點的密度貢獻顯著減小的度量,一般采用式(4)確定,實際分析中,只要能得到m個聚類中心,其值大小對聚類結(jié)果沒有影響,其值越大聚類中心出現(xiàn)越早,但如果過大,得到的聚類中心數(shù)目將會小于m.模糊指數(shù)b的確定比較復雜,實際分析表明,聚類結(jié)果對模糊指數(shù)b的變化并不敏感,最佳選取區(qū)間為[1.5,2.5],一般情況下可取 b=2.
單次聚類方法可以得到聚類中心和每個數(shù)據(jù)點對聚類中心的隸屬度,這些參數(shù)可以確定隸屬度函數(shù),仿真實例選用鄂北石油鉆井[7]現(xiàn)場總體積數(shù)據(jù)EB_Da51,確定總體積變化量的隸屬度函數(shù),總體積變化量是石油鉆井井涌、井漏等事故的主要判別參數(shù)之一.EB_Da51中的200個數(shù)據(jù)分布如圖3.
圖3 石油鉆井中EB_Da51數(shù)據(jù)Fig.3 Data EB_Da51 of the petroleum drilling
單次聚類方法預設(shè)定的聚類中心個數(shù)m、聚類得到聚類中心和數(shù)據(jù)點對聚類中心的隸屬度等參數(shù)確定隸屬度函數(shù)的具體方法如下:
Step1:數(shù)據(jù)統(tǒng)一論域,并根據(jù)實際情況確定語言值數(shù)目,筆者尋求石油鉆井中總體積變化量的隸屬度函數(shù),將EB_Da51數(shù)據(jù)映射到統(tǒng)一的論域空間,取無、小、中、大4個語言值,即m=4.
Step2:單次聚類,求解聚類中心wk和數(shù)據(jù)對聚類中心的隸屬度uik,如圖4所示.可以看出,中間語言值基本服從正態(tài)分布,可用高斯型隸屬度函數(shù)表征,兩極語言值出現(xiàn)了邊緣失真,用sigmoid型隸屬度函數(shù)曲線表征可以避免這種失真.
圖4 數(shù)據(jù)變化量的隸屬度Fig.4 Membership degree of data variable quantity
Step3:將中間語言值(本例中為“小”和“中”)的論域用高斯型隸屬度函數(shù)曲線擬合,得到其參數(shù).筆者采用Matlab7中曲線擬合工具箱(Curve Fitting)的Trust-Region方法進行擬合得到參數(shù),如表1所示.
Step4:將兩極語言值(本例中為“無”和“大”)的論域用sigmoid型隸屬度函數(shù)曲線擬合,得到其參數(shù).筆者采用Matlab7中曲線擬合工具箱(Curve Fitting)的Trust-Region方法進行擬合得到參數(shù)如表1所示.
表1 隸屬度函數(shù)的參數(shù)Tab.1 Parameters of membership function
Step5:根據(jù)曲線擬合得到的參數(shù),可以確定隸屬度函數(shù)如圖5所示.
圖5 EB_Da51的隸屬度函數(shù)Fig.5 Membership function of data EB_Da51
經(jīng)實例研究表明,筆者提出的單次聚類方法不需迭代,避免了模糊均值聚類方法容易陷入局部極小點的可能性,快速得到了聚類中心和數(shù)據(jù)的隸屬度,它的計算量僅與輸入數(shù)據(jù)數(shù)目成線性關(guān)系.采用單次聚類方法,通過曲線擬合確定了高斯型和sigmoid型隸屬度函數(shù),解決了非線性隸屬度函數(shù)難以確定的難題.
[1]李德毅.知識表示中的不確定性[J].中國工程科學,2002(10):73-79.
[2]ZADEH L A.Fuzzy sets[J].Information and Control,1965(8):338-353.
[3]黃士濤,胡全義,馬進元,等.自適應(yīng)神經(jīng)模糊推理系統(tǒng)在起重機穩(wěn)鉤控制中的應(yīng)用[J].鄭州大學學報:工學版,2007,28(1):21-25.
[4]陸建江,張亞非,宋自林.模糊關(guān)聯(lián)規(guī)則的研究與應(yīng)用[M].北京:科學出版社,2008:43-51.
[5]劉琪,張鴻輝,黃貞貞.基于模糊C均值聚類方法的石油鉆井工作狀態(tài)分析[J].周口師范學院學報,2009(5):47-49.
[6]黎燦兵,曲芳,王曉寧,等.基于模糊聚類的電力系統(tǒng)負荷特性分析[J].鄭州大學學報:工學版,2010,29(1):107-110.
[7]王杰,陳東海,朱曉東,等.基于分層模糊系統(tǒng)的石油鉆井事故預警系統(tǒng):中國,200710055178.6[P].2007-06-01.