鮑國(guó)強(qiáng),應(yīng)文豪,蔣亦樟,張英,王駿,王士同
(1. 江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122; 2. 江蘇省媒體設(shè)計(jì)與軟件技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214122;3. 常熟理工學(xué)院 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 常熟 215500)
近年來,面向復(fù)雜非線性數(shù)據(jù)的模糊聚類問題得到了研究人員的廣泛關(guān)注[1-6]。在無監(jiān)督學(xué)習(xí)環(huán)境中為了提高復(fù)雜非線性數(shù)據(jù)的可分性,一個(gè)重要的研究思路是使用非線性映射將數(shù)據(jù)映射到高維空間中。在眾多非線性映射方法中,核方法作為經(jīng)典的隱性映射方法得到了廣泛的應(yīng)用[5-13]。研究表明,核方法通過使用核函數(shù)代替內(nèi)積運(yùn)算,將待分類數(shù)據(jù)隱性地映射到高維空間,從而有助于復(fù)雜非線性數(shù)據(jù)的學(xué)習(xí)。但是,核方法還存在著諸多局限性,尤其是如何針對(duì)不同的問題選擇合適的核函數(shù)和相關(guān)參數(shù),這都會(huì)影響算法的聚類效果。
模糊系統(tǒng)因其強(qiáng)大的不確定性系統(tǒng)建模能力、優(yōu)良的可解釋性和出色的泛化能力,近年來在復(fù)雜非線性數(shù)據(jù)學(xué)習(xí)問題中得到了大量的研究。在已有的經(jīng)典模糊系統(tǒng)中,Takagi-Sugeno-Kang(TSK)[14-17]模糊系統(tǒng)由于其良好的解釋性和簡(jiǎn)潔性得到了廣泛應(yīng)用。在TSK模糊系統(tǒng)中,其規(guī)則前件部分通過顯性映射方式(本文稱之為模糊特征映射),將輸入數(shù)據(jù)映射到高維空間中去。從本質(zhì)上講,模糊特征映射可以視為一種特殊的非線性映射方式?;诖?,本文將輸入數(shù)據(jù)進(jìn)行相應(yīng)的非線性映射。在具體實(shí)現(xiàn)過程中我們發(fā)現(xiàn),經(jīng)模糊特征映射后的特征維數(shù)過高,這會(huì)增加計(jì)算量,同時(shí)也導(dǎo)致了數(shù)據(jù)的冗余。為此,本文通過引入多層遞階融合機(jī)制和主成分分析,提出新型的基于多層遞階融合的模糊特征映射新方法。并將之與經(jīng)典模糊聚類技術(shù)相結(jié)合,進(jìn)一步提出基于多層遞階融合模糊特征映射的模糊C均值聚類新方法。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文算法在處理復(fù)雜非線性數(shù)據(jù)時(shí)能夠取得比傳統(tǒng)模糊聚類算法更有效的聚類效果。
Takagi-Sugeno-Kang模糊系統(tǒng)模型[18-23]是最重要的用于建模與智能控制的模糊模型之一。對(duì)于經(jīng)典的TSK模糊模型,最常用的模糊推理規(guī)則的定義如下:
第k條模糊規(guī)則:
通常采用高斯函數(shù)作為模糊隸屬函數(shù),其計(jì)算公式為
TSK模糊模型的訓(xùn)練問題轉(zhuǎn)化為式(13)線性回歸模型的參數(shù)學(xué)習(xí)問題[24]:
從式(13)中可以觀察到,輸入向量經(jīng)式(8)~(10)計(jì)算,可以變換為一個(gè)維的高維向量,本文中我們將這一轉(zhuǎn)換過程稱為模糊特征映射。與已有核方法中的隱性映射相比,模糊特征映射具有以下特點(diǎn):1)它是一種顯性映射方式,用戶可以在高維特征空間中得到數(shù)據(jù)的顯式表示方法;2)模糊特征映射基于模糊規(guī)則進(jìn)行構(gòu)建,而模糊規(guī)則本身具有較強(qiáng)的可解釋性;3)輸入向量經(jīng)模糊特征映射后得到的高維特征向量的維數(shù)可以由模糊規(guī)則數(shù)確定,這有利于用戶控制高維空間中數(shù)據(jù)的復(fù)雜程度。
原數(shù)據(jù)通過模糊特征映射,得到其在高維空間中的新表示。但是作為單層映射結(jié)構(gòu),會(huì)因映射后的特征維數(shù)過高使得數(shù)據(jù)變得混亂和冗余,繼而影響算法后續(xù)的聚類效果。研究表明[25-26],將單層映射結(jié)構(gòu)改造為多層映射結(jié)構(gòu),可以有效地提高算法對(duì)復(fù)雜非線性數(shù)據(jù)的學(xué)習(xí)能力。為此,本文引入多層遞階融合的概念來構(gòu)造新型的映射,提出基于多層遞階融合的模糊特征映射新方法(MLHFFFM)。通過對(duì)每層模糊特征映射之后的高維特征表示進(jìn)行PCA降維,再進(jìn)行相應(yīng)的信息補(bǔ)充,形成新的融合層,依次進(jìn)入下一層的壓縮融合過程,其結(jié)構(gòu)如圖1所示。
圖 1 MLHFFFM算法結(jié)構(gòu)圖Fig. 1 Structure of MLHFFFM algorithm
基于多層遞階融合的模糊特征映射新方法MLHFFFM算法描述如下:
輸入 給定一個(gè)數(shù)據(jù)集D={X, Y},設(shè)置初始模糊規(guī)則數(shù)K,分層融合層數(shù)S。
1) 對(duì)原數(shù)據(jù)進(jìn)行第一層的模糊特征映射(初始層)
④ 再經(jīng)過式(8)~(10)的轉(zhuǎn)化,得到映射后高維空間中的數(shù)據(jù)矩陣。
2) 多層遞階融合
② For i=2:(S-1);
③ 重復(fù)步驟1),對(duì)原數(shù)據(jù)進(jìn)行模糊特征映射,得到數(shù)據(jù)矩[陣];
⑥ end;
本節(jié)中,將多層遞階融合模糊特征映射與經(jīng)典模糊聚類算法FCM相結(jié)合,提出基于多層遞階融合模糊特征映射的模糊C均值聚類算法。MLHFFFM-FCM算法描述如下:
輸入 給定一個(gè)數(shù)據(jù)集D={X, Y},設(shè)置初始模糊規(guī)則數(shù)K,分層融合層數(shù)S。
1) 通過基于多層遞階融合的模糊特征映射,將輸入數(shù)據(jù)X轉(zhuǎn)化為。
輸出 模糊劃分矩陣U。
為了驗(yàn)證MLHFFFM-FCM算法在復(fù)雜非線性數(shù)據(jù)分析上的有效性,本節(jié)從3個(gè)方面進(jìn)行對(duì)比分析:1)各FCM演變算法之間聚類效果的對(duì)比實(shí)驗(yàn);2)單層映射結(jié)構(gòu)與多層遞階融合映射結(jié)構(gòu)的聚類效果對(duì)比實(shí)驗(yàn); 3)關(guān)鍵參數(shù)敏感性的對(duì)比實(shí)驗(yàn)。
為了對(duì)各類算法的聚類性能進(jìn)行對(duì)比,本文采用NMI(normalized mutual information)和RI(rand index)作為實(shí)驗(yàn)評(píng)價(jià)指標(biāo)。這兩個(gè)指標(biāo)的值越接近1,說明算法聚類性能越好。其計(jì)算公式如下:
1) NMI
2) RI
我們采用UCI真實(shí)數(shù)據(jù)集(http://archive.ics.uci.edu/ml/)來評(píng)估本文算法。為了測(cè)試實(shí)驗(yàn)應(yīng)用數(shù)據(jù)集的廣泛性以及避免選取數(shù)據(jù)集的偶然性,選擇其中7個(gè)具有代表性的數(shù)據(jù)集Ar2、Diabetes、Zoo、Australian、Breast、Heart、Chronic_Kidney_Disease進(jìn)行測(cè)試,其中數(shù)據(jù)集的相關(guān)信息如表1所示。同時(shí)本文選取5種經(jīng)典的聚類算法與MLHFFFM-FCM算法進(jìn)行對(duì)比實(shí)驗(yàn),分別為FCM算法、PCA-FCM算法、ELM-FCM算法、KFCM-K算法以及KFCM-F算法。所有實(shí)驗(yàn)運(yùn)行平臺(tái)的配置如下:酷睿 i3 3.6 GHz CPU,3.42 G RAM,32位Windows 7操作系統(tǒng),MATLAB R2012b編程環(huán)境。另外各算法相關(guān)說明及其參數(shù)設(shè)置如表2所示,其中各算法涉及的模糊指數(shù)m的尋優(yōu)范圍均為{1.2, 1.4, 1.6, 1.8, 2.0, 2.2, 2.4, 2.6, 2.8, 3.0, 3.2,3.4, 3.6, 3.8, 4.0}。
表 1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental data sets
表 2 各算法的說明以及相關(guān)參數(shù)設(shè)置Table 2 The description of the algorithm and related parameters
為了驗(yàn)證MLHFFFM-FCM算法的有效性,本節(jié)對(duì)算法進(jìn)行對(duì)比實(shí)驗(yàn)測(cè)試。在本實(shí)驗(yàn)中,將初始模糊規(guī)則數(shù)r設(shè)置為30,多層遞階融合層數(shù)設(shè)置為5層,并根據(jù)表2的實(shí)驗(yàn)相關(guān)參數(shù)設(shè)置,分別對(duì)各算法重復(fù)運(yùn)行10次。最終的實(shí)驗(yàn)中各算法的參數(shù)取值情況和實(shí)驗(yàn)結(jié)果如表3和表4所示。
表 3 各算法參數(shù)取值情況Table 3 Parameter values of each algorithm
表 4 各算法的運(yùn)行結(jié)果Table 4 Results of each algorithm
從表4中可以明顯地看出,在聚類精度上,文中涉及的對(duì)比算法只能在某個(gè)或某幾個(gè)數(shù)據(jù)集上取得較優(yōu)的結(jié)果,而MLHFFFM-FCM算法不僅在所有的測(cè)試數(shù)據(jù)集上取得滿意的結(jié)果,并且還有著明顯的提高。這說明了MLHFFFM-FCM算法的有效性,也進(jìn)一步說明了該算法處理復(fù)雜非線性數(shù)據(jù)的強(qiáng)大能力。
為了體現(xiàn)本文算法引入的多層遞階融合方法的優(yōu)越性,本節(jié)實(shí)驗(yàn)針對(duì)多層遞階融合映射結(jié)構(gòu)對(duì)FCM算法性能的影響進(jìn)行實(shí)驗(yàn)與分析。實(shí)驗(yàn)在模糊規(guī)則數(shù)設(shè)置相同的情況下,分別采用單層映射結(jié)構(gòu)和多層遞階融合映射結(jié)構(gòu)對(duì)原輸入數(shù)據(jù)進(jìn)行非線性映射,將映射后的數(shù)據(jù)采用FCM進(jìn)行聚類。實(shí)驗(yàn)最終的參數(shù)取值情況和結(jié)果如表5和表6所示,其中因受篇幅所限,僅在表6中給出RI指標(biāo)結(jié)果,NMI與之有類似的結(jié)果,不再列出。
從表5和表6中可以明顯地觀察出,相比于單層映射結(jié)構(gòu),基于多層遞階融合映射結(jié)構(gòu)的模糊聚類方法能夠取得更好的學(xué)習(xí)效果。這是由于在單層映射之后的數(shù)據(jù)存在冗余信息,而在壓縮之后又會(huì)導(dǎo)致信息缺失。但是多層遞階融合的映射結(jié)構(gòu)是建立在單層映射結(jié)構(gòu)的基礎(chǔ)上,采用PCA技術(shù)對(duì)每一層模糊特征映射得到的高維特征表示進(jìn)行壓縮,再對(duì)應(yīng)地結(jié)合每一層數(shù)據(jù)信息融合形成的。因此通過多層遞階融合的方法,可以有效地精簡(jiǎn)冗余信息,同時(shí)對(duì)每一層進(jìn)行適當(dāng)?shù)男畔浹a(bǔ)。這也充分體現(xiàn)了本文提出的多層遞階融合映射結(jié)構(gòu)的優(yōu)越。
表 5 兩種算法結(jié)構(gòu)的參數(shù)取值情況Table 5 Parameter selection of two algorithms
表 6 兩種算法結(jié)構(gòu)的RI_mean性能指標(biāo)Table 6 Performance index of two algorithms
模糊規(guī)則數(shù)r作為MLHFFFM-FCM算法中的關(guān)鍵參數(shù),本節(jié)針對(duì)該參數(shù)進(jìn)行參數(shù)敏感性實(shí)驗(yàn)。這里為了讓實(shí)驗(yàn)結(jié)果能夠直觀地進(jìn)行觀察與對(duì)比,我們同時(shí)對(duì)KFCM-F算法中的關(guān)鍵參數(shù)進(jìn)行參數(shù)敏感性實(shí)驗(yàn),進(jìn)而研究模糊規(guī)則數(shù)這一關(guān)鍵參數(shù)對(duì)MLHFFFM-FCM算法性能的影響。實(shí)驗(yàn)中,MLHFFFM-FCM模糊規(guī)則數(shù)r的實(shí)驗(yàn)取值范圍為{5, 10, 15, 20, 25, 30, 35, 40, 45, 50},KFCM-F算法中核參數(shù)的實(shí)驗(yàn)取值范圍為{0.1,1.5, 10, 50, 100, 150, 200, 500, 1 000},實(shí)驗(yàn)最終結(jié)果分別如圖2和圖3所示。
圖 2 KFCM-F算法性能隨變化的影響Fig. 2 Effect of on the performance of KFCM-F
圖 3 MLHFFFM-FCM算法性能隨模糊規(guī)則數(shù)r變化的影響Fig. 3 Effect of fuzzy rules r on the performance of MLHFFFM-FCM
本文提出的MLHFFFM-FCM算法,是一種采用新型的顯性映射方式來處理復(fù)雜非線性數(shù)據(jù)的無監(jiān)督學(xué)習(xí)方法。相比于現(xiàn)有的核函數(shù)映射方法,MLHFFFM-FCM算法在取得良好聚類效果的同時(shí),還對(duì)算法中模糊規(guī)則數(shù)不敏感,這更有利于算法在實(shí)際應(yīng)用中的選用。但是本文提出的MLHFFFM-FCM算法仍然具有一定的缺陷,例如對(duì)于高維數(shù)據(jù),其時(shí)間開銷較大。如何有效克服這些問題,將是今后進(jìn)一步研究的重點(diǎn)。