賈鶴鳴,張棕淇,姜子超,馮榆淇
(1.三明學(xué)院 信息工程學(xué)院,福建 三明 365004; 2.東北林業(yè)大學(xué) 機(jī)電工程學(xué)院,黑龍江 哈爾濱 150040)
在計算科學(xué)中,機(jī)器學(xué)習(xí)是計算方法的重要研究領(lǐng)域。隨著人工智能技術(shù)的飛速發(fā)展,海量數(shù)據(jù)涌現(xiàn)于人類社會中,數(shù)據(jù)較易存儲,但數(shù)據(jù)處理的計算準(zhǔn)確率與效率受數(shù)據(jù)維度與數(shù)目等原因的影響較大,而機(jī)器學(xué)習(xí)可以有效提升數(shù)據(jù)處理的效果[1-2],但是要想通過機(jī)器學(xué)習(xí)獲得準(zhǔn)確的模型,就需要大量具有標(biāo)簽和規(guī)律特點(diǎn)的數(shù)據(jù)。這種需求正是數(shù)據(jù)預(yù)處理過程所能提供的。所以將優(yōu)化技術(shù)用于數(shù)據(jù)預(yù)處理過程以獲得高質(zhì)量數(shù)據(jù),具有廣闊的應(yīng)用場景及需求。如何進(jìn)一步顯著提高數(shù)據(jù)預(yù)處理的性能已成為目前機(jī)器學(xué)習(xí)領(lǐng)域中的熱點(diǎn)內(nèi)容。聚類分析因其獨(dú)特的優(yōu)勢:能夠在無標(biāo)簽、海量的數(shù)據(jù)中快速、準(zhǔn)確挖掘數(shù)據(jù)自身的規(guī)律及特點(diǎn),完成數(shù)據(jù)統(tǒng)計與分類任務(wù),進(jìn)而大幅度提升機(jī)器學(xué)習(xí)的準(zhǔn)確性與效率[3],成為數(shù)據(jù)預(yù)處理的重要技術(shù)之一。
作為聚類技術(shù)的其中一種方法,無監(jiān)督機(jī)器學(xué)習(xí)聚類的實質(zhì)是將物理或抽象對象的集合分成由類似的對象組成的多個類別的過程,這些由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異,能夠揭示數(shù)據(jù)內(nèi)部特有的信息價值[4],完成數(shù)據(jù)分類任務(wù)。經(jīng)過諸多學(xué)者深入研究,目前的主流聚類分析算法包含:基于密度的方法、基于網(wǎng)格的方法、基于層次的方法、基于模型的方法和基于劃分式方法等。其中,C-均值聚類[5]是一種廣泛應(yīng)用于探索性數(shù)據(jù)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、圖像檢索和數(shù)學(xué)編程中的聚類技術(shù),但此方法計算和分類都局限于硬子空間集合,所以其存在時間復(fù)雜度高、對噪聲不敏感,處理數(shù)據(jù)維度較低等缺點(diǎn)與局限性。為改善其聚類效果,Dunn等[6]基于模糊數(shù)學(xué)的概念提出了模糊C-均值聚類(fuzzy C-mean, FCM)技術(shù),使得分類問題不再局限于硬子空間集,每個樣本可同時隸屬于不同的類別,有效克服了C-均值聚類算法的缺點(diǎn)與局限,具有良好的聚類效果,但FCM依舊沒有解決經(jīng)典聚類技術(shù)中所存在的初始化敏感、迭代的過程中易陷入局部最優(yōu)、穩(wěn)定性不足等問題。Kennedy等[7]通過模仿鳥群的覓食運(yùn)動方式提出了一種粒子群優(yōu)化(particle swarm optimization,PSO)算法,并將其應(yīng)用于聚類問題中,效果良好;Niknam等[8]將蟻群優(yōu)化和模擬退火相結(jié)合,提出了一種有效的混合進(jìn)化算法,同樣應(yīng)用于聚類問題,提高了數(shù)據(jù)分類的準(zhǔn)確率;Ozturk等[9]利用改進(jìn)后的二進(jìn)制人工蜂群算法對聚類問題進(jìn)行優(yōu)化,顯著改善了數(shù)據(jù)處理的效率;蒙祖強(qiáng)等[10]提出一種混合蛙跳與陰影集優(yōu)化的粗糙模糊聚類算法,效果顯著;張新明等[11]將灰狼優(yōu)化(grey wolf optimizer, GWO)算法用于FCM的聚類問題,提升了實際聚類性能。以上所述研究表明,使用啟發(fā)式群智能優(yōu)化算法對聚類分析問題進(jìn)行優(yōu)化可獲得良好的分類準(zhǔn)確率與效率,因此本文基于以上研究的有效性以及模糊C均值自身不足引入新穎的啟發(fā)式群智能優(yōu)化對FCM聚類技術(shù)加以改進(jìn)研究。
啟發(fā)式群智能優(yōu)化發(fā)展已近20余年,黏菌優(yōu)化算法(slime mould algorithm, SMA)是Li等[12]最近基于黏菌覓食的策略提出的一種新穎、有效的優(yōu)化算法,因其優(yōu)化求解效果好,已有許多學(xué)者將其算法用于實際的工程優(yōu)化問題中,如Zhou等[13]將SMA與WOA[14]算法相結(jié)合用于X射線圖像分割;Mostafa等[15]將SMA模型用于太陽能電池板最優(yōu)模型參數(shù)提??;Mohamed Abdel-Basset等將SMA算法進(jìn)行優(yōu)化得到了一種高效的二進(jìn)制黏菌算法[16]。Bogara等[17]基于青少年的成長軌跡進(jìn)行建模分析,提出了一種青少年身份優(yōu)化算法 (adolescent identity search algorithm, AISA),其中特有的社會行為、榜樣機(jī)制與身份特征更新策略提高了群智能類算法的優(yōu)化求解精度。近年來啟發(fā)式群智能優(yōu)化算法多數(shù)應(yīng)用于實際工程問題的參數(shù)優(yōu)化,如賈鶴鳴等[1,3]利用此類算法同步優(yōu)化支持向量機(jī)的參數(shù)選取與特征選擇,極大改善了數(shù)據(jù)分類的準(zhǔn)確率,但此類算法難以改變自身的邏輯收斂效果,而聚類算法的核心是將一組數(shù)據(jù)集劃分成各個子集,兩者均為閉環(huán)迭代計算模式,因此本文將SMA優(yōu)化作為一種聚類的迭代策略融入FCM算法中,對其進(jìn)行計算優(yōu)化。但SMA算法的收斂是以各黏菌領(lǐng)域作為主要搜索區(qū)域,若各粒子之間信息交流不夠緊密,容易導(dǎo)致收斂速率慢、求解精度低,搜索域重復(fù)等問題。因此本文通過融合AISA算法中的社會群體性迭代方式,提出了混合青少年搜索黏菌優(yōu)化(adolescent identity search algorithm-slime mould algorithm, AISA-SMA)算法,以提高SMA算法尋優(yōu)求解性能,減少算法的不穩(wěn)定因素。在啟發(fā)式群智能優(yōu)化FCM聚類中,利用AISA-SMA算法優(yōu)秀的收斂效果,將其引入FCM聚類迭代過程中,提出新的融合聚類算法AISA-SMA-FCM來改善算法精度,以獲得更優(yōu)秀的聚類效果。
本文首先將AISA算法與SMA算法進(jìn)行混合改進(jìn)研究,改善SMA算法的高維及混峰求解能力,并通過測試函數(shù)仿真實驗證明所提混合算法求解精度高,收斂能力強(qiáng);隨后將本文混合AISASMA算法應(yīng)用于FCM聚類技術(shù)當(dāng)中,使得FCM算法每次迭代都具有開發(fā)和搜索兩種行為,并對經(jīng)典UCI數(shù)據(jù)集進(jìn)行聚類仿真測試,分析所得適應(yīng)度值等指標(biāo),對比其他聚類方法證明AISA-SMA-FCM算法具有更優(yōu)秀的聚類能力。
模糊C-均值聚類算法是用隸屬度來確定每個數(shù)據(jù)點(diǎn)屬于某個聚類程度的一種聚類算法,首先給出樣本觀測數(shù)據(jù)矩陣:
式中矩陣每行為一個樣本,每列為一個變量的n個觀測值,即式(1)是由n個樣本的p個觀測值構(gòu)成的矩陣。
聚類目的是將這n個樣本劃分為c類(2<c<n),記V= (v1,v2,···,vc)為c個類的聚類中心,其中vi= (vi1,vi2,···,vip)(i=1,2,···,c)。 在 模 糊C均值聚類中,每個樣本是以一定的隸屬度劃分為某一類,其定義目標(biāo)函數(shù):
其中,U=(uik)c×n為 隸屬度矩陣,dik=||xk-vi||。J(U,V)表示各類中的樣本到該聚類中心的加權(quán)平方距離之和,權(quán)重是樣本xk屬于第i類隸屬度的m次方。模糊C均值聚類算法的聚類準(zhǔn)則是求取U、V,使得J(U,V)取得最小值。模糊C均值聚類算法的具體步驟如下:
1)確定類的個數(shù)c,冪指數(shù)m(m>1)和初始隸屬度矩陣U(0)=(u(ik0)),通??梢匀0,1]上均勻分布隨機(jī)數(shù)來確定隸屬度矩陣U(0),令l= 1來表示第1步迭代(l迭代次數(shù))。
2)計算第l步的聚類中心V(l):
3)更新隸屬度矩陣U(l):
4)計算目標(biāo)函數(shù)J(l),其中di(
kl)=||xk-v(il)||:
5)本文不設(shè)置停止精度,達(dá)到迭代上限,停止迭代,否則重復(fù)步驟2)。
6)經(jīng)過不斷的迭代之后,可以求得最終的隸屬度矩陣U和聚類中心V,使得目標(biāo)函數(shù)J(U,V)達(dá)到最小。根據(jù)最終的隸屬度矩陣的取值可以確定所有樣本的分類,當(dāng)ujk=m1≤ai≤xc{uik}時,可以將xk歸為第k類,以完成分類過程。
黏菌算法是一種新穎的元啟發(fā)式群智能優(yōu)化算法。該算法受啟發(fā)于黏菌擴(kuò)散和覓食行為進(jìn)而獲得連接食物的最佳路徑。其捕食過程主要分為兩個階段。
在黏菌覓食活動的第一階段,當(dāng)黏菌搜索食物時,會根據(jù)空氣中的氣味來接近食物。在搜索第二階段中,黏菌開始包圍食物,模擬黏菌靜脈結(jié)構(gòu)中的收縮模式,并根據(jù)食物質(zhì)量調(diào)整位置。依據(jù)黏菌的搜索行為,可以利用式(6)來模擬其覓食行為
式中:vc從1線性減少到0;t表示當(dāng)前迭代;tmax為最大迭代數(shù);Xb為當(dāng)前發(fā)現(xiàn)氣味濃度最高的位置;S(t)為當(dāng)前黏菌的位置;S(t+1)為黏菌將要占據(jù)的下一個位置;SA、SB代表從黏菌群體中隨機(jī)選擇的兩個個體;r為0和1間隨機(jī)數(shù);vb∈(-a,a),W為權(quán)重:
當(dāng)食物濃度較高時,區(qū)域權(quán)重較大;反之權(quán)重轉(zhuǎn)移到其他區(qū)域。bF、 ωF分別為當(dāng)前迭代中獲得的最佳、最差適應(yīng)度值, c ondition 為S(i)在整個種群中排名靠前的半部分。參數(shù)p的表達(dá)式如下:
式中:i∈ 1,2,···,n,f(i)是當(dāng)前的位置適應(yīng)度,DF是所有迭代中獲得的最佳適應(yīng)度值。
最后增補(bǔ)黏菌的全局搜索行為。此時對黏菌位置重新建模,得到完整的黏菌算法如下式所示。
式中: r and 、r屬于[0,1],UB和LB是搜索空間的上限和下限,z是黏菌將尋找其他食物來源或在當(dāng)前最佳食物來源附近進(jìn)行搜索的概率,W、vb、vc用于模擬黏菌靜脈寬度變化。
AISA算法通過身份特征(行為、喜好、思想、能力、信念等)來描述青少年的身份,本算法中青少年通過推理觀察社會行為、榜樣機(jī)制和不良特征選擇這3種策略來形成自己的身份。
1)推理觀察社會行為:青少年可以通過觀察并推理同伴群體的行為,來形成自己的身份。假定青少年可以通過識別組中的最佳特征并模仿他們,其中青少年的最佳身份為局部最佳適應(yīng)度。通過Chebyshev函數(shù)連接功能網(wǎng)絡(luò),并通過最小二乘法估計實現(xiàn)局部優(yōu)化,所涉及切比雪夫多項式{Tk(x)}k-0,1,2,···遞歸方 程如下:
其中k是Chebyshev多項式系數(shù)。歸一化后的初始種群矩陣定義為,算法每個輸入元素定義如式(14):
本文采用wj∈R1×k為權(quán)重輸入,通過式(16)獲得局部適應(yīng)度值,?為次回歸向量,如式(15)中矩陣所示。
2)榜樣機(jī)制:青少年通過模仿具有較高地位、權(quán)力和威望的榜樣來形成自己身份,榜樣為具有最佳適應(yīng)度值的個體。
式中:r2是[0,1]中的隨機(jī)數(shù);xrm表示榜樣(最佳個人)。p≠rm,xp表示p個青少年。
3)不良特征選擇:青少年可能會具有吸煙、吸毒和霸凌等不良特征,假定不良特征xu是從總體矩陣中隨機(jī)選擇的元素,青春期身份可以通過式(21)表示:
式中:r3為[0,1]內(nèi)均勻分布的1 ×n維數(shù)字行向量;xq表示如下所示的負(fù)同一性向量。
將3種結(jié)果組合,得到新的青少年身份身份,如式(23)所示,其中r4是[0,1]內(nèi)的隨機(jī)數(shù),用于3種不同策略的選擇。
黏菌算法是受到黏菌捕食中行為和形態(tài)的變化的啟發(fā)。在捕食的過程中,根據(jù)食物量的多少,黏菌的捕食行為將會產(chǎn)生正反饋和負(fù)反饋,從而在黏菌算法中總結(jié)出了3種捕食形態(tài)。對比于其他群智能類算法,如粒子群、灰狼、人工魚群或蝗蟲算法等依托于個體行為與群體行為相結(jié)合作為搜索方式的群智能優(yōu)化算法,黏菌算法更類似于鯨魚算法、樽海鞘算法等在自身算法中憑借個體本身的多種探索、開發(fā)機(jī)制作為優(yōu)化方式的算法。但這種以個體搜索作為優(yōu)化策略核心的算法往往出現(xiàn)精度高的搜索特點(diǎn),但是同時每個個體搜索機(jī)制中的廣域搜索和局部開發(fā)無法針對當(dāng)前的迭代情況做到有效的平衡,個體與群體的聯(lián)系較弱,無法有效地學(xué)習(xí)其他個體的經(jīng)驗,導(dǎo)致每次迭代效果較差,穩(wěn)定性不足,針對混峰和多峰問題性能較弱等情況。因此本文將側(cè)重于將SMA算法與社會性質(zhì)較強(qiáng)的AISA算法相結(jié)合,替換黏菌算法的部分搜索機(jī)制,使得SMA算法的每個個體具有社會屬性。從社會群體的角度調(diào)整探索與開發(fā)的比重,避免陷入局部最優(yōu),改善優(yōu)化求解精度,增強(qiáng)穩(wěn)定性。
在黏菌算法中,黏菌個體通過式(6)、(12)來進(jìn)行迭代運(yùn)算,其中式(12)是負(fù)責(zé)SMA算法的全局探索,黏菌個體概率z進(jìn)行全局內(nèi)的搜索。但SMA算法本身缺乏有效的探索機(jī)制,全局搜索是一種效率較低的搜索機(jī)制,單純的式(12)無法保證黏菌算法擁有足夠大搜索比重。所以本文將AISA算法中青少年不良特征選擇與SMA算法的全局域搜索相結(jié)合,拓展搜索范圍。更新后的公式為
式中:xq為不良個體集合,xq表示負(fù)同一性向量,r3是一個1 ×n區(qū)間中均勻分布的數(shù)字行向量[0,1]。R1為社會選擇量,具體參數(shù)因數(shù)據(jù)而定,本文中為0.3。更新后的搜素公式將有較大的幾率根據(jù)目前黏菌群體的位置確定與開發(fā)區(qū)域相反的探索度較低區(qū)域,使得其他個體執(zhí)行進(jìn)行廣域搜索時可以提升搜索效率。
SMA算法中式(6)主要模仿了黏菌個體通過靜脈液寬進(jìn)行包圍食物。在此過程中黏菌個體將通過向食物中心Sb(t)靠攏的方式進(jìn)行包圍。但SA(t)-SB(t)使得黏菌個體在向最佳點(diǎn)靠攏時依舊具有局部探索的能力。這個策略本身十分優(yōu)秀,但是在SMA-AISA算法的全局搜索部分已經(jīng)加強(qiáng)了其搜索能力,則此部分算法中,將引入社會屬性,以獲得更為激進(jìn)的開發(fā)策略以保證開發(fā)與搜索的平衡。將AISA算法中的青少年推理觀察社會行為與黏菌的食物包圍機(jī)制相結(jié)合,通過使用式(19)替換包圍機(jī)制中的食物最佳點(diǎn)Sb(t),使得包圍機(jī)制可以向整個群體中局部最佳的位置進(jìn)行包圍,提升探索效率。
其中x*的計算式(19)與上文中AISA的青少年群體觀察機(jī)制相同,黏菌通過觀察群體行為,確定群體特征局部最優(yōu)情況進(jìn)行包圍。為防止過擬合的發(fā)生,設(shè)置R2為群體學(xué)習(xí)概率,群體學(xué)習(xí)概率決定策略烈度,具體參數(shù)因數(shù)據(jù)而定,本文設(shè)定為0.5。
SMA算法中式(6)主要模仿了黏菌個體對于食物的捕食機(jī)制,此公式是SMA算法主要的開發(fā)策略。但是在針對數(shù)據(jù)維度高且復(fù)雜的情況時,黏菌的開發(fā)能力不是十分理想。為了保證本文的收縮曲線能夠保持平滑和快速,將AISA算法中的榜樣學(xué)習(xí)機(jī)制作為增補(bǔ)機(jī)制,防止算法在前期過度收縮。具體計算公式如下:
此更新公式中,?是青少年學(xué)習(xí)能力因子,公式為式(11)。學(xué)習(xí)因子保證了增補(bǔ)的公式(11)具有前期學(xué)習(xí)能力強(qiáng),后期能力弱的特點(diǎn),保證收斂速度。 ? (xp-xrm)調(diào)整收斂的步長,防止個體粒子在前期過度收斂陷入局部最佳,故設(shè)置R3為榜樣學(xué)習(xí)意愿,調(diào)整開發(fā)策略,具體參數(shù)因數(shù)據(jù)決定,本文設(shè)定為從1線性減少到0。綜合3種更新公式,得到新的啟發(fā)式混合群智能優(yōu)化算法即青少年身份黏菌算法,實際運(yùn)行過程如下所示。首先隨機(jī)初始化種群數(shù)值,產(chǎn)生隸屬度矩陣,確認(rèn)參數(shù),隨后將進(jìn)入While循環(huán),計算每個個體的適應(yīng)度;并對個體進(jìn)行操作,通過個體適應(yīng)度計算其本身的黏菌權(quán)重如式(9)所示;隨后進(jìn)入兩個判斷過程判斷幾率是否大于z;判斷隨機(jī)數(shù)是否大于R1,通過式(24)進(jìn)行全球域搜索。最后若式(9)中幾率小于z;判斷隨機(jī)數(shù)是否大于R2,若大于則通過式(25)中第一策略對目前最優(yōu)位置進(jìn)行包圍和開發(fā),反之則通過式(25)中第二策略通過青少年身份形成機(jī)制,優(yōu)化收斂位置,進(jìn)行包圍和開發(fā)。完成前兩個步驟后,個體通過式(26)進(jìn)行捕食,通過劇烈收縮得到最佳適應(yīng)值。完成循環(huán),若迭代次數(shù)不滿足最大迭代次數(shù)。則跳轉(zhuǎn)回到While循環(huán)。
對AISA算法的搜索策略進(jìn)行分析,可以發(fā)現(xiàn)其推理觀察社會行為機(jī)制如式(19),是具有一定的創(chuàng)新性的。在本策略中通過Chebyshev函數(shù)連接功能網(wǎng)絡(luò)和最小二乘法估計實現(xiàn)局部優(yōu)化。式(17)和式(18)使得算法可以根據(jù)當(dāng)前群體適應(yīng)度及特征,對最優(yōu)點(diǎn)進(jìn)行預(yù)估計,使得搜索個體在迭代的前期可以快速的向最優(yōu)方向包圍和開發(fā)。這個策略相較于SMA算法所使用的策略,即利用目前個體最優(yōu)解作為當(dāng)前循環(huán)的收斂中心,在收斂速度方面具有很大優(yōu)勢。所以本文在式(25)基礎(chǔ)上引入式(19)的局部預(yù)測機(jī)制,以改善其收斂速度較慢的弱點(diǎn)。
從SMA算法搜索策略進(jìn)行分析,式(6)作為SMA算法核心公式,式(9)獨(dú)特的收縮包圍策略,使得SMA算法在局部的開發(fā)與探索通過權(quán)重的調(diào)整達(dá)到了很好的平衡,這使得該算法在處理數(shù)據(jù)結(jié)構(gòu)相對簡單的局部尋優(yōu)問題時有極其優(yōu)異的性能。但也是因為這個機(jī)制,所以算法在迭代的過程中,局部的開發(fā)與探索占用了大量的計算資源,所以在面對數(shù)據(jù)結(jié)構(gòu)復(fù)雜,維度較高的全局尋優(yōu)問題時,無論精度還是收斂速度都顯示出了疲態(tài)。而AISA算法恰巧與其相反,得益于群體信息共享機(jī)制、相對高效的全局搜索機(jī)制,可使得AISA算法在面對數(shù)據(jù)結(jié)構(gòu)復(fù)雜,維度較高的全局尋優(yōu)問題時可以獲得良好的效果,這正是SMA算法所缺少的部分。所以本文在式(24)中引入了不良特征選擇策略,并且在式(26)中引入榜樣策略。這樣的改進(jìn)目的是提升原算法的穩(wěn)定性,及高緯度、復(fù)雜數(shù)據(jù)的處理能力。
FCM算法受模糊理論的影響,相較于C-均值(K-means)聚類為代表的硬子空間集聚類算法提供了更為靈活的聚類思路。但傳統(tǒng)的FCM算法在聚類的迭代時通常是一個中心連續(xù)移動的過程,這種聚類的方式無法兼顧全局的搜索,算法對初始化依賴程度較大并且容易陷入局部最佳;同時在高維度的聚類過程中,原算法通常無法有效地進(jìn)行聚類分析。針對以上缺點(diǎn),本文利用AISA-SMA算法精度高、收斂快和穩(wěn)定性強(qiáng)的特點(diǎn)來優(yōu)化原始FCM算法,通過調(diào)整迭代過程,即將AISA-SMA算法的搜索和開發(fā)特性引入FCM的每一次迭代過程,改善算法性能,這樣既引入了全新的搜索模式也保留模糊C均值算法的模糊數(shù)學(xué)思路。提出融合算法AISA-SMA-FCM,意在通過AISA-SMA算法較好的開發(fā)、探索能力和較強(qiáng)的收斂策略,提升FCM算法的單次循環(huán)聚類效果,以及盡量減少參數(shù)優(yōu)化所增加的時間復(fù)雜度帶來的影響。使得原FCM算法聚類精度、穩(wěn)定性及分類準(zhǔn)確率得到提升。
首先,AISA-SMA算法在初始化處理聚類問題時與其他聚類算法類似,首先在算法的初始階段讀入數(shù)據(jù)矩陣:
所得矩陣為N×a,其中N為數(shù)據(jù)特征數(shù),a為數(shù)據(jù)總量。此時需要定義AISA-SMA算法迭代過程中的個體,賦予每個個體初值?。這一步與其他啟發(fā)式群智能優(yōu)化算法中的初始化相同。
為一個N×K×n的矩陣,其中K為需要聚類的中心數(shù),n為AISA-SMA算法中總共設(shè)定的個體數(shù)。每一個個體都為K個聚類中心,每個中心在初始化階段由式(29)隨機(jī)產(chǎn)生。
其次,所得到的初始化個體通過ASIA-SMA算法中數(shù)據(jù)更新式(24)~(26)迭代得到全新的聚類中心點(diǎn)位置,此過程可以視為N維空間中K×n個搜索粒子圍繞K個聚類中心進(jìn)行的探索和開發(fā)。此時聚類中心點(diǎn)的適應(yīng)度值應(yīng)為K個聚類中心一組,由式(30)計算:
適應(yīng)度越高則代表此時聚類結(jié)果的組內(nèi)距最小,組間間距最大,即聚類結(jié)果的種群內(nèi)部相似度更高,聚類效果越好。
具體AISA-SMA算法處理FCM聚類問題流程圖如圖1所示,其中AISA-SMA算法中的個體可以看做搜索粒子,通過式(24)~(26)對聚類中心的分布情況進(jìn)行迭代優(yōu)化,通過式(5)計算每個點(diǎn)的適應(yīng)度值,找到適應(yīng)度值最好的聚類中心分布,將聚類中心作為迭代結(jié)果輸出,完成數(shù)據(jù)分類任務(wù)。AISA-SMA算法具體的思路如下所示,首先讀取所聚類的數(shù)據(jù),設(shè)置聚類數(shù)目,通過聚類數(shù)目,以聚類中心為個體進(jìn)行AISA-SMA的初始化及參數(shù)設(shè)定。隨后通過式(30)計算每個個體的適應(yīng)度。通過式(9)對每個個體計算權(quán)重,并判斷隨機(jī)數(shù)是否大于z,判斷是否進(jìn)行全球化搜。最后通過R1,R2,R3決定式(24)~(26)的策略選擇。
圖1 啟發(fā)式智能優(yōu)化用于FCM聚類Fig.1 Heuristic intelligent optimization for FCM clustering
所提AISA-SMA-FCM聚類算法通過增補(bǔ)AISA-SMA聚類策略,替換部分FCM算法中隨機(jī)屬性高的策略。個體模仿AISA-SMA算法中的包圍捕食獵物的過程,探索開發(fā)聚類中心分布,對聚類中心的適應(yīng)度進(jìn)行迭代優(yōu)化,具體實現(xiàn)過程如下:
算法初始階段,隨機(jī)生成隸屬度矩陣B,每個隸屬度矩陣應(yīng)為a×K×n,隸屬的矩陣中,n為n個社會黏菌搜索粒子,每個搜索粒子所屬的隸屬度矩陣代表數(shù)據(jù)D中每個數(shù)據(jù)對于聚類中心的隸屬度。
為全面驗證改進(jìn)算法的有效性,本節(jié)共設(shè)計兩部分對比實驗,一是選擇目前流行的啟發(fā)式智能優(yōu)化算法進(jìn)行標(biāo)準(zhǔn)測試函數(shù)實驗,測試算法理論尋優(yōu)性能;二是利用經(jīng)典UCI數(shù)據(jù)集測試對比其他算法用于聚類分析的優(yōu)化效果。仿真實驗運(yùn)行環(huán)境為Windows 7系統(tǒng)下使用MATLAB2016a,CPU:i5-6 500@3.3GHz,RAM:4GB。
本節(jié)選擇 AISA-SMA、SMA[12]、AISA[17]、MRFO[18]、GWO[11]、PSO[19]算法在 15 個標(biāo)準(zhǔn)測試函數(shù)[3]上進(jìn)行對比測試分析,其中測試集F1~F7為單峰函數(shù),F(xiàn)8~F11為多峰函數(shù),F(xiàn)12~F15為動態(tài)多峰函數(shù)。實驗測試評價基于運(yùn)行10次搜索最優(yōu)解的平均值。種群搜索個體設(shè)定為30,最大迭代次數(shù)為500,函數(shù)維度為30。
AISA-SMA與其他4種優(yōu)化算法在15個標(biāo)準(zhǔn)測試函數(shù)的尋優(yōu)實驗統(tǒng)計結(jié)果如表1所示。收斂曲線結(jié)果如圖2所示。
圖2 本文算法與其他算法適應(yīng)度函數(shù)曲線Fig.2 The fitness function curves of the proposed and other algorithms
表1 AISA-SMA與其他優(yōu)化的測試函數(shù)對比結(jié)果Table 1 Comparison results between AISA-SMA and other optimized test functions
數(shù)據(jù)表明,從均值上看,原SMA算法測試函數(shù)搜索最優(yōu)解的表現(xiàn)良好,與本文算法具有一定的競爭力,但本文所提出的混合AISA-SMA在多數(shù)的單峰值與多峰值函數(shù)測試中可以搜尋到理論最優(yōu)值,在動態(tài)多峰實驗中也基本可以搜尋到理論最佳值,性能相比SMA算法有了一定提升。AISA-SMA算法相比原AISA算法,在單峰的數(shù)據(jù)開發(fā)中具有很大優(yōu)勢,在多峰和混峰問題中也良好地繼承了其良好的開發(fā)特性,很好地彌補(bǔ)了原SMA算法在面對復(fù)雜多峰問題開發(fā)能力不足的缺點(diǎn)。結(jié)合收斂曲線分析,結(jié)合后的AISA-SMA算法也繼承了AISA算法在前期激進(jìn)的收斂策略,使得AISA-SMA算法收斂速度進(jìn)一步提升,通過節(jié)約迭代次數(shù)的策略,相較于SMA算法提升計算效率。這進(jìn)一步說明本文所提出的混合算法在空間搜索與計算求解中較其他算法具有明顯的優(yōu)勢。
為進(jìn)一步驗證本文所提出混合優(yōu)化用于FCM聚類,即AISA-SMA-FCM算法的有效性與優(yōu)越性,選擇UCI數(shù)據(jù)庫[20]中的6個標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行聚類仿真實驗,具體數(shù)據(jù)集說明列于表2中。種群設(shè)置為50,最大迭代次數(shù)為200,運(yùn)行環(huán)境與上節(jié)實驗相同。對比驗證的聚類方法采取SMA優(yōu)化K-means算法與SMA優(yōu)化FCM算法、FCM算法、以及MRFO優(yōu)化FCM算法。實驗中每個算法獨(dú)立運(yùn)行15次,統(tǒng)計計算適應(yīng)度數(shù)據(jù)的平均值作為評價指標(biāo)1,平均值越小表明算法聚類效果好,即聚類誤差值?。粚?5次最優(yōu)平均適應(yīng)度值的方差結(jié)果采取ANOVA箱型圖形式進(jìn)行分析,作為評價指標(biāo)2。每個圖中,箱圖的高度代表算法15次運(yùn)算的數(shù)據(jù)分散程度,越短的箱圖表明10次結(jié)果越集中,同時也證明箱圖的噪聲越小,離群值較少,即算法穩(wěn)定性越高;同時將適應(yīng)度函數(shù)收斂曲線作為評價算法聚類效果的指標(biāo)3,平滑、下降迅速,無較長延遲的曲線證明算法擁有更好的優(yōu)化聚類性能;為了進(jìn)一步體現(xiàn)算法的性能差異,將通過算法15次獨(dú)立運(yùn)行的結(jié)果,進(jìn)行非參數(shù)統(tǒng)計顯著性測試(Wilcoxon秩和檢驗),以及進(jìn)行參數(shù)雙向方差分析的非參數(shù)模擬弗里德曼檢驗得出統(tǒng)計p值作為評價指標(biāo)4。將算法15次獨(dú)立運(yùn)行聚類結(jié)果的準(zhǔn)確率,進(jìn)行統(tǒng)計作為評價指標(biāo)5。最后對比AISA-SMA-FCM及FCM算法過程散點(diǎn)圖對算法收斂速度進(jìn)行評價為指標(biāo)6,綜合指標(biāo)1~6對算法進(jìn)行綜合評價。
表2 UCI數(shù)據(jù)集的詳細(xì)信息Table 2 Details of UCI data sets
基于AISA-SMA-FCM算法與其他對比算法的聚類所得適應(yīng)度值如表3所示。表中數(shù)據(jù)結(jié)果表明,AISA-SMA-FCM在平均適應(yīng)度值中表現(xiàn)最優(yōu),相較于其他經(jīng)典算法更為突出,得益于FCM算法主體思路的優(yōu)勢與AISA-SMA算法優(yōu)越性,表中用于優(yōu)化FCM的算法都較優(yōu)化K-means算法表現(xiàn)出更好的性能。因此,本文所提出的混合AISA-SMA算法更適合FCM聚類分析的優(yōu)化處理。
表3 AISA-SMA其他優(yōu)化算法用于聚類的適應(yīng)度值Table 3 The fitness value of AISA-SMA and other optimization algorithms for clustering
基于AISA-SMA-FCM算法與其他聚類方法的ANOVA箱型圖的測試對比結(jié)果如圖3所示。在6個數(shù)據(jù)集中,本文所提出的混合算法用于聚類時的計算穩(wěn)定性最好,雖在Haberman’s Surival數(shù)據(jù)集中SMA的穩(wěn)定性最佳,但其適應(yīng)度值不如本文方法優(yōu)秀,因此,綜合其他聚類來看,本文提出的方法用于FCM聚類分析問題時能夠獲得良好的聚類穩(wěn)定性。
圖3 本文算法與其他算法適應(yīng)度函數(shù)的ANOVA圖Fig.3 The ANOVA graphs of the fitness function of the proposed and other algorithms
基于AISA-SMA-FCM算法與其他聚類方法的適應(yīng)度函數(shù)值收斂曲線如圖4所示。在數(shù)據(jù)集2與3中,本文所提算法收斂曲線效果最佳,用于解決FCM的聚類問題時能夠達(dá)到快速、準(zhǔn)確收斂,同時搜尋到最佳的適應(yīng)度值,數(shù)據(jù)集1與3中的結(jié)果表明,與經(jīng)典的K-means聚類效果相比,F(xiàn)CM聚類技術(shù)更為優(yōu)秀,本文算法用于FCM聚類優(yōu)化效果顯著,F(xiàn)CM的搜索計算能力強(qiáng)。進(jìn)一步驗證本文混合算法優(yōu)化。
圖4 本文算法與其他算法適應(yīng)度函數(shù)曲線Fig.4 The fitness function curves of the proposed and other algorithms
表4中給出了Wilcoxon秩和檢驗產(chǎn)生的p值,該值用于比較的兩個值為連續(xù)分布的樣本且具有相等的中間值。表中的本組實驗數(shù)據(jù)幾乎所有的值都低于0.05,因5%為顯著性水平值,零假設(shè)不成立,所以數(shù)據(jù)表明AISA-SMA-FCM算法在統(tǒng)計上是顯著的,實驗結(jié)果具有真實可信性。為進(jìn)一步證明本文算法的優(yōu)越性,驗證兩種算法的差異性,進(jìn)行參數(shù)雙向方差分析的非參數(shù)模擬弗里德曼檢驗,所得結(jié)果如表5所示。AISA-SMA-FCM算法秩結(jié)果為1.9,表明其具有最良好的性能。綜上所述,實驗結(jié)果證明AISA-SMA算法在針對FCM聚類問題時,能夠提升FCM算法的性能,并且AISA-SMA-FCM算法相較于其他算法在聚類優(yōu)化過程中效果顯著。
表4 本文算法與其他優(yōu)化Wilcoxon檢驗p值Table 4 The Wilcoxon rank sum test p-value of the proposed and the other methods
表5 本文算法與其他優(yōu)化的弗里德曼檢驗Table 5 The Friedman tests of the proposed and others
4.3.1 聚類準(zhǔn)確率對比試驗
本節(jié)將進(jìn)一步對比AISA-SMA-FCM算法真實聚類效果。為了直觀對比5種算法的聚類效果,統(tǒng)計6個數(shù)據(jù)集的正確率,每個算法運(yùn)行15次,取平均正確率,詳細(xì)結(jié)果如表6所示。由該表統(tǒng)計結(jié)果可以看出,在本文的6個數(shù)據(jù)集中,相較于其他算法,AISA-SMA算法分類準(zhǔn)確率較高。AISA-SMA算法對于UrbenLC、ART1、ART2數(shù)據(jù)集,相較于基礎(chǔ)FCM及SMA算法提升明顯。但對于聚類中心數(shù)較高的情況例如UrbenLC,本算法依舊無法進(jìn)行有效的分類,同時對于聚類趨勢不明顯的數(shù)據(jù)集如HS,本文算法也無法做到有效分類。綜上所述,AISA-SMA針對多中心、混雜數(shù)據(jù)集,依然還具有一定的提升空間。
表6 本文算法與其他算法的平均準(zhǔn)確率Table 6 Average correct rate of the proposed and others %
4.3.2 聚類進(jìn)程對比試驗
本節(jié)將對聚類過程進(jìn)行探討,選擇Iris、HS、ART1、ART2 4個數(shù)據(jù)集,統(tǒng)計FCM及AISA-SMA算法在5次及20次迭代時的聚類效果,具體結(jié)果如圖5所示。從圖中ART1、ART2及HS數(shù)據(jù)集可知,在5次迭代時AISA-SMA算法已經(jīng)具有基本分類模型,相較于FCM收斂較快;分析Iris數(shù)據(jù)集可知,兩聚類算法在20次時都已經(jīng)收斂,但分類效果AISA-SMA算法明顯優(yōu)于FCM算法,聚類群落清晰。因此通過測試結(jié)果可知,AISA-SMA算法相較于FCM算法具有響應(yīng)速度快,分類效果好的優(yōu)點(diǎn),在相同的迭代次數(shù)下,聚類群體形態(tài)明顯好于原生FCM算法,其中的ART2及Iris數(shù)據(jù)集效果更為突出。綜上所述,AISA-SMA算法在聚類準(zhǔn)確度、收斂速度及穩(wěn)定性方面具有一定提升,效果較好。
圖5 本文算法與其他算法的聚類過程Fig.5 The Clustering process of the proposed and others
本文提出了一種混合SMA與AISA算法來優(yōu)化模糊C-均值的聚類方法,算法首先將SMA與AISA進(jìn)行混合優(yōu)化,利用AISA算法中的青少年社會機(jī)制,改善SMA算法中的全局搜索和局部開發(fā)性能,測試函數(shù)實驗表明混合算法計算求解性能優(yōu)越;對于原FCM算法采取AISA-SMA算法對其迭代優(yōu)化,提出AISA-SMA-FCM聚類算法以改善原聚類方法的聚類效率及精度,仿真結(jié)果證明AISA-SMA-FCM聚類算法在計算穩(wěn)定性和收斂精度方面均具有較大的提升。如何提升算法在更高維度數(shù)據(jù)聚類分析中仍具有穩(wěn)定、準(zhǔn)確的效果是未來的研究方向,同時可探索將混合算法AISA-SMA運(yùn)用到更多工程優(yōu)化計算中。