多層遞階融合模糊特征映射的模糊C均值聚類算法

2018-09-19 01:05:20鮑國(guó)強(qiáng)應(yīng)文豪蔣亦樟張英王駿王士同

智能系統(tǒng)學(xué)報(bào) 2018年4期

鮑國(guó)強(qiáng)，應(yīng)文豪，蔣亦樟，張英，王駿，王士同

（1. 江南大學(xué) 數(shù)字媒體學(xué)院，江蘇無錫 214122; 2. 江蘇省媒體設(shè)計(jì)與軟件技術(shù)重點(diǎn)實(shí)驗(yàn)室，江蘇無錫 214122;3. 常熟理工學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院，江蘇常熟 215500）

近年來，面向復(fù)雜非線性數(shù)據(jù)的模糊聚類問題得到了研究人員的廣泛關(guān)注[1-6]。在無監(jiān)督學(xué)習(xí)環(huán)境中為了提高復(fù)雜非線性數(shù)據(jù)的可分性，一個(gè)重要的研究思路是使用非線性映射將數(shù)據(jù)映射到高維空間中。在眾多非線性映射方法中，核方法作為經(jīng)典的隱性映射方法得到了廣泛的應(yīng)用[5-13]。研究表明，核方法通過使用核函數(shù)代替內(nèi)積運(yùn)算，將待分類數(shù)據(jù)隱性地映射到高維空間，從而有助于復(fù)雜非線性數(shù)據(jù)的學(xué)習(xí)。但是，核方法還存在著諸多局限性，尤其是如何針對(duì)不同的問題選擇合適的核函數(shù)和相關(guān)參數(shù)，這都會(huì)影響算法的聚類效果。

模糊系統(tǒng)因其強(qiáng)大的不確定性系統(tǒng)建模能力、優(yōu)良的可解釋性和出色的泛化能力，近年來在復(fù)雜非線性數(shù)據(jù)學(xué)習(xí)問題中得到了大量的研究。在已有的經(jīng)典模糊系統(tǒng)中，Takagi-Sugeno-Kang(TSK)[14-17]模糊系統(tǒng)由于其良好的解釋性和簡(jiǎn)潔性得到了廣泛應(yīng)用。在TSK模糊系統(tǒng)中，其規(guī)則前件部分通過顯性映射方式(本文稱之為模糊特征映射)，將輸入數(shù)據(jù)映射到高維空間中去。從本質(zhì)上講，模糊特征映射可以視為一種特殊的非線性映射方式?；诖?，本文將輸入數(shù)據(jù)進(jìn)行相應(yīng)的非線性映射。在具體實(shí)現(xiàn)過程中我們發(fā)現(xiàn)，經(jīng)模糊特征映射后的特征維數(shù)過高，這會(huì)增加計(jì)算量，同時(shí)也導(dǎo)致了數(shù)據(jù)的冗余。為此，本文通過引入多層遞階融合機(jī)制和主成分分析，提出新型的基于多層遞階融合的模糊特征映射新方法。并將之與經(jīng)典模糊聚類技術(shù)相結(jié)合，進(jìn)一步提出基于多層遞階融合模糊特征映射的模糊C均值聚類新方法。經(jīng)實(shí)驗(yàn)驗(yàn)證，本文算法在處理復(fù)雜非線性數(shù)據(jù)時(shí)能夠取得比傳統(tǒng)模糊聚類算法更有效的聚類效果。

1 Takagi-Sugeno-Kang模糊系統(tǒng)及模糊特征映射

Takagi-Sugeno-Kang模糊系統(tǒng)模型[18-23]是最重要的用于建模與智能控制的模糊模型之一。對(duì)于經(jīng)典的TSK模糊模型，最常用的模糊推理規(guī)則的定義如下：

第k條模糊規(guī)則：

通常采用高斯函數(shù)作為模糊隸屬函數(shù)，其計(jì)算公式為

TSK模糊模型的訓(xùn)練問題轉(zhuǎn)化為式(13)線性回歸模型的參數(shù)學(xué)習(xí)問題[24]：

從式(13)中可以觀察到，輸入向量經(jīng)式(8)～(10)計(jì)算，可以變換為一個(gè)維的高維向量，本文中我們將這一轉(zhuǎn)換過程稱為模糊特征映射。與已有核方法中的隱性映射相比，模糊特征映射具有以下特點(diǎn)：1)它是一種顯性映射方式，用戶可以在高維特征空間中得到數(shù)據(jù)的顯式表示方法；2)模糊特征映射基于模糊規(guī)則進(jìn)行構(gòu)建，而模糊規(guī)則本身具有較強(qiáng)的可解釋性；3)輸入向量經(jīng)模糊特征映射后得到的高維特征向量的維數(shù)可以由模糊規(guī)則數(shù)確定，這有利于用戶控制高維空間中數(shù)據(jù)的復(fù)雜程度。

2 基于多層遞階融合模糊特征映射的模糊C均值聚類算法

2.1 基于多層遞階融合的模糊特征映射新方法

原數(shù)據(jù)通過模糊特征映射，得到其在高維空間中的新表示。但是作為單層映射結(jié)構(gòu)，會(huì)因映射后的特征維數(shù)過高使得數(shù)據(jù)變得混亂和冗余，繼而影響算法后續(xù)的聚類效果。研究表明[25-26]，將單層映射結(jié)構(gòu)改造為多層映射結(jié)構(gòu)，可以有效地提高算法對(duì)復(fù)雜非線性數(shù)據(jù)的學(xué)習(xí)能力。為此，本文引入多層遞階融合的概念來構(gòu)造新型的映射，提出基于多層遞階融合的模糊特征映射新方法(MLHFFFM)。通過對(duì)每層模糊特征映射之后的高維特征表示進(jìn)行PCA降維，再進(jìn)行相應(yīng)的信息補(bǔ)充，形成新的融合層，依次進(jìn)入下一層的壓縮融合過程，其結(jié)構(gòu)如圖1所示。

圖 1 MLHFFFM算法結(jié)構(gòu)圖Fig. 1 Structure of MLHFFFM algorithm

基于多層遞階融合的模糊特征映射新方法MLHFFFM算法描述如下：

輸入給定一個(gè)數(shù)據(jù)集D={X, Y}，設(shè)置初始模糊規(guī)則數(shù)K，分層融合層數(shù)S。

1) 對(duì)原數(shù)據(jù)進(jìn)行第一層的模糊特征映射(初始層)

④ 再經(jīng)過式(8)～(10)的轉(zhuǎn)化，得到映射后高維空間中的數(shù)據(jù)矩陣。

2) 多層遞階融合

② For i=2:(S-1)；

③ 重復(fù)步驟1)，對(duì)原數(shù)據(jù)進(jìn)行模糊特征映射，得到數(shù)據(jù)矩[陣]；

⑥ end；

2.2 基于多層遞階融合模糊特征映射的模糊C均值聚類算法MLHFFFM-FCM

本節(jié)中，將多層遞階融合模糊特征映射與經(jīng)典模糊聚類算法FCM相結(jié)合，提出基于多層遞階融合模糊特征映射的模糊C均值聚類算法。MLHFFFM-FCM算法描述如下：

輸入給定一個(gè)數(shù)據(jù)集D={X, Y}，設(shè)置初始模糊規(guī)則數(shù)K，分層融合層數(shù)S。

1) 通過基于多層遞階融合的模糊特征映射，將輸入數(shù)據(jù)X轉(zhuǎn)化為。

輸出模糊劃分矩陣U。

3 實(shí)驗(yàn)研究與分析

為了驗(yàn)證MLHFFFM-FCM算法在復(fù)雜非線性數(shù)據(jù)分析上的有效性，本節(jié)從3個(gè)方面進(jìn)行對(duì)比分析：1)各FCM演變算法之間聚類效果的對(duì)比實(shí)驗(yàn)；2)單層映射結(jié)構(gòu)與多層遞階融合映射結(jié)構(gòu)的聚類效果對(duì)比實(shí)驗(yàn)； 3)關(guān)鍵參數(shù)敏感性的對(duì)比實(shí)驗(yàn)。

3.1 算法性能的評(píng)價(jià)指標(biāo)

為了對(duì)各類算法的聚類性能進(jìn)行對(duì)比，本文采用NMI(normalized mutual information)和RI(rand index)作為實(shí)驗(yàn)評(píng)價(jià)指標(biāo)。這兩個(gè)指標(biāo)的值越接近1，說明算法聚類性能越好。其計(jì)算公式如下：

1) NMI

2) RI

3.2 實(shí)驗(yàn)設(shè)置

我們采用UCI真實(shí)數(shù)據(jù)集(http://archive.ics.uci.edu/ml/)來評(píng)估本文算法。為了測(cè)試實(shí)驗(yàn)應(yīng)用數(shù)據(jù)集的廣泛性以及避免選取數(shù)據(jù)集的偶然性，選擇其中7個(gè)具有代表性的數(shù)據(jù)集Ar2、Diabetes、Zoo、Australian、Breast、Heart、Chronic_Kidney_Disease進(jìn)行測(cè)試，其中數(shù)據(jù)集的相關(guān)信息如表1所示。同時(shí)本文選取5種經(jīng)典的聚類算法與MLHFFFM-FCM算法進(jìn)行對(duì)比實(shí)驗(yàn)，分別為FCM算法、PCA-FCM算法、ELM-FCM算法、KFCM-K算法以及KFCM-F算法。所有實(shí)驗(yàn)運(yùn)行平臺(tái)的配置如下：酷睿 i3 3.6 GHz CPU，3.42 G RAM，32位Windows 7操作系統(tǒng)，MATLAB R2012b編程環(huán)境。另外各算法相關(guān)說明及其參數(shù)設(shè)置如表2所示，其中各算法涉及的模糊指數(shù)m的尋優(yōu)范圍均為{1.2, 1.4, 1.6, 1.8, 2.0, 2.2, 2.4, 2.6, 2.8, 3.0, 3.2,3.4, 3.6, 3.8, 4.0}。

表 1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental data sets

表 2 各算法的說明以及相關(guān)參數(shù)設(shè)置Table 2 The description of the algorithm and related parameters

3.3 聚類效果對(duì)比實(shí)驗(yàn)

為了驗(yàn)證MLHFFFM-FCM算法的有效性，本節(jié)對(duì)算法進(jìn)行對(duì)比實(shí)驗(yàn)測(cè)試。在本實(shí)驗(yàn)中，將初始模糊規(guī)則數(shù)r設(shè)置為30，多層遞階融合層數(shù)設(shè)置為5層，并根據(jù)表2的實(shí)驗(yàn)相關(guān)參數(shù)設(shè)置，分別對(duì)各算法重復(fù)運(yùn)行10次。最終的實(shí)驗(yàn)中各算法的參數(shù)取值情況和實(shí)驗(yàn)結(jié)果如表3和表4所示。

表 3 各算法參數(shù)取值情況Table 3 Parameter values of each algorithm

表 4 各算法的運(yùn)行結(jié)果Table 4 Results of each algorithm

從表4中可以明顯地看出，在聚類精度上，文中涉及的對(duì)比算法只能在某個(gè)或某幾個(gè)數(shù)據(jù)集上取得較優(yōu)的結(jié)果，而MLHFFFM-FCM算法不僅在所有的測(cè)試數(shù)據(jù)集上取得滿意的結(jié)果，并且還有著明顯的提高。這說明了MLHFFFM-FCM算法的有效性，也進(jìn)一步說明了該算法處理復(fù)雜非線性數(shù)據(jù)的強(qiáng)大能力。

3.4 單層映射結(jié)構(gòu)與多層遞階融合映射結(jié)構(gòu)的聚類效果對(duì)比實(shí)驗(yàn)與分析

為了體現(xiàn)本文算法引入的多層遞階融合方法的優(yōu)越性，本節(jié)實(shí)驗(yàn)針對(duì)多層遞階融合映射結(jié)構(gòu)對(duì)FCM算法性能的影響進(jìn)行實(shí)驗(yàn)與分析。實(shí)驗(yàn)在模糊規(guī)則數(shù)設(shè)置相同的情況下，分別采用單層映射結(jié)構(gòu)和多層遞階融合映射結(jié)構(gòu)對(duì)原輸入數(shù)據(jù)進(jìn)行非線性映射，將映射后的數(shù)據(jù)采用FCM進(jìn)行聚類。實(shí)驗(yàn)最終的參數(shù)取值情況和結(jié)果如表5和表6所示，其中因受篇幅所限，僅在表6中給出RI指標(biāo)結(jié)果，NMI與之有類似的結(jié)果，不再列出。

從表5和表6中可以明顯地觀察出，相比于單層映射結(jié)構(gòu)，基于多層遞階融合映射結(jié)構(gòu)的模糊聚類方法能夠取得更好的學(xué)習(xí)效果。這是由于在單層映射之后的數(shù)據(jù)存在冗余信息，而在壓縮之后又會(huì)導(dǎo)致信息缺失。但是多層遞階融合的映射結(jié)構(gòu)是建立在單層映射結(jié)構(gòu)的基礎(chǔ)上，采用PCA技術(shù)對(duì)每一層模糊特征映射得到的高維特征表示進(jìn)行壓縮，再對(duì)應(yīng)地結(jié)合每一層數(shù)據(jù)信息融合形成的。因此通過多層遞階融合的方法，可以有效地精簡(jiǎn)冗余信息，同時(shí)對(duì)每一層進(jìn)行適當(dāng)?shù)男畔浹a(bǔ)。這也充分體現(xiàn)了本文提出的多層遞階融合映射結(jié)構(gòu)的優(yōu)越。

表 5 兩種算法結(jié)構(gòu)的參數(shù)取值情況Table 5 Parameter selection of two algorithms

表 6 兩種算法結(jié)構(gòu)的RI_mean性能指標(biāo)Table 6 Performance index of two algorithms

3.5 參數(shù)敏感性實(shí)驗(yàn)

模糊規(guī)則數(shù)r作為MLHFFFM-FCM算法中的關(guān)鍵參數(shù)，本節(jié)針對(duì)該參數(shù)進(jìn)行參數(shù)敏感性實(shí)驗(yàn)。這里為了讓實(shí)驗(yàn)結(jié)果能夠直觀地進(jìn)行觀察與對(duì)比，我們同時(shí)對(duì)KFCM-F算法中的關(guān)鍵參數(shù)進(jìn)行參數(shù)敏感性實(shí)驗(yàn)，進(jìn)而研究模糊規(guī)則數(shù)這一關(guān)鍵參數(shù)對(duì)MLHFFFM-FCM算法性能的影響。實(shí)驗(yàn)中，MLHFFFM-FCM模糊規(guī)則數(shù)r的實(shí)驗(yàn)取值范圍為{5, 10, 15, 20, 25, 30, 35, 40, 45, 50}，KFCM-F算法中核參數(shù)的實(shí)驗(yàn)取值范圍為{0.1,1.5, 10, 50, 100, 150, 200, 500, 1 000}，實(shí)驗(yàn)最終結(jié)果分別如圖2和圖3所示。

圖 2 KFCM-F算法性能隨變化的影響Fig. 2 Effect of on the performance of KFCM-F

圖 3 MLHFFFM-FCM算法性能隨模糊規(guī)則數(shù)r變化的影響Fig. 3 Effect of fuzzy rules r on the performance of MLHFFFM-FCM

4 結(jié)束語(yǔ)

本文提出的MLHFFFM-FCM算法，是一種采用新型的顯性映射方式來處理復(fù)雜非線性數(shù)據(jù)的無監(jiān)督學(xué)習(xí)方法。相比于現(xiàn)有的核函數(shù)映射方法，MLHFFFM-FCM算法在取得良好聚類效果的同時(shí)，還對(duì)算法中模糊規(guī)則數(shù)不敏感，這更有利于算法在實(shí)際應(yīng)用中的選用。但是本文提出的MLHFFFM-FCM算法仍然具有一定的缺陷，例如對(duì)于高維數(shù)據(jù)，其時(shí)間開銷較大。如何有效克服這些問題，將是今后進(jìn)一步研究的重點(diǎn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡