趙文均,何先波
(西華師范大學(xué) 計(jì)算機(jī)學(xué)院,四川 南充 637002)
自組織映射網(wǎng)絡(luò)(Self Organizing Mapping,SOM)建立了一個(gè)由高維數(shù)據(jù)空間到低維表示空間的映射,是數(shù)據(jù)聚類中的一種重要方法.自組織特征映射網(wǎng)絡(luò)常用于數(shù)據(jù)處理的相關(guān)領(lǐng)域中,其結(jié)構(gòu)簡(jiǎn)單并具有較強(qiáng)的容錯(cuò)性.SOM網(wǎng)絡(luò)以獲勝神經(jīng)元為中心由內(nèi)及外激活鄰域神經(jīng)元,控制參數(shù)的設(shè)置不當(dāng)容易導(dǎo)致網(wǎng)絡(luò)的過度擬合.Ben等[1]提出了一種基于收縮期的網(wǎng)絡(luò)模塊實(shí)現(xiàn)了分布式獨(dú)立計(jì)算,改善了整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)性能,但原網(wǎng)絡(luò)中的過度擬合情況依然不可避免.馬超逸等[2]提出了一種利用ROC(接收者操作特征)曲線來分析高維到低維的鄰域密度,從而避免高維到低維產(chǎn)生畸變,但在實(shí)際應(yīng)用過程中需要根據(jù)不同的應(yīng)用領(lǐng)域選取不同的特征曲線.倪明浩等[3]提出滿足邊緣計(jì)算要求的聯(lián)合SOM網(wǎng)絡(luò)作為基于深度學(xué)習(xí)的集群新架構(gòu),利用GAN架構(gòu)增強(qiáng)數(shù)據(jù)生成效果,但在訓(xùn)練過程中的參數(shù)設(shè)置容易導(dǎo)致聚類的不穩(wěn)定性;南鋒等[4]則在大規(guī)模數(shù)據(jù)聚類前利用PCA算法進(jìn)行降維,提高了遺傳數(shù)據(jù)聚類準(zhǔn)確率,能在一定程度上避免過度擬合.楊怡[5]針對(duì)競(jìng)爭(zhēng)層的權(quán)值更新過程,引入單調(diào)的高斯函數(shù),利用其非線性特征映射能力提高了網(wǎng)絡(luò)對(duì)輸入樣本的擬合精度,并在一定程度上加快了網(wǎng)絡(luò)的收斂.陳萬振等[6]根據(jù)貝葉斯正則化的思想在SOM網(wǎng)絡(luò)的權(quán)值調(diào)整過程中引入懲罰項(xiàng),進(jìn)一步避免了權(quán)值的過度擬合.于鷃[7]提出了一種一維的自組織映射網(wǎng)絡(luò),證明了一維網(wǎng)絡(luò)結(jié)構(gòu)具有更優(yōu)的數(shù)據(jù)擬合能力,并能夠有效明確類邊界.李峰等[8-9]將蟻群算法應(yīng)用到SOM網(wǎng)絡(luò)中進(jìn)而提出一種特征造型搜索技術(shù),在后續(xù)的研究中進(jìn)一步提出一種以優(yōu)化控制參數(shù)為目的的自組織映射模型,從而有效避免了聚類的過度擬合.本研究提出一種基于模擬退火過程改進(jìn)的鄰域調(diào)整策略,在一定程度上保證其收斂性并避免死神經(jīng)元的產(chǎn)生.其主要方法是在鄰域變化過程中引入模擬退火過程,每次迭代過程中除激活鄰域內(nèi)節(jié)點(diǎn)外還以一定的概率激活鄰域外死節(jié)點(diǎn).
自組織映射神經(jīng)網(wǎng)絡(luò)是1981年由芬蘭赫爾辛基大學(xué)的T.Kohonen教授提出一種無監(jiān)督自組織特征映射網(wǎng),縮寫為SOM,又稱Kohonen網(wǎng)[10].其主要模擬的是人的大腦對(duì)外部刺激的反應(yīng).SOM網(wǎng)絡(luò)屬于無導(dǎo)師學(xué)習(xí)網(wǎng)絡(luò),具有良好的自組織性和可視化等特征,因此其在文本聚類、收集等方面有廣泛的應(yīng)用.
SOM神經(jīng)網(wǎng)絡(luò)的典型拓?fù)浣Y(jié)構(gòu)如圖1所示,網(wǎng)絡(luò)由輸入層和輸出層構(gòu)成.輸入層主要負(fù)責(zé)接受外界信息,將輸入的數(shù)據(jù)向輸出層傳遞;輸出層又稱為競(jìng)爭(zhēng)層,競(jìng)爭(zhēng)層主要對(duì)數(shù)據(jù)進(jìn)行整理訓(xùn)練并根據(jù)訓(xùn)練次數(shù)和不同鄰域?qū)?shù)據(jù)樣本進(jìn)行劃分,可以根據(jù)應(yīng)用范圍選擇不同維度結(jié)構(gòu).每一個(gè)輸入樣本和輸出層的節(jié)點(diǎn)均有連接,重復(fù)訓(xùn)練使得輸出層節(jié)點(diǎn)越來越逼近輸入層神經(jīng)元,訓(xùn)練過程不需外界干預(yù),自組織映射網(wǎng)絡(luò)因此而得名.自組織映射網(wǎng)絡(luò)的基本思想是通過網(wǎng)絡(luò)訓(xùn)練,把具有相同特性的輸入神經(jīng)元映射到同一競(jìng)爭(zhēng)層神經(jīng)元上,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)聚類.由此基于SOM網(wǎng)絡(luò)進(jìn)行聚類過程可以概括為:
圖1 SOM網(wǎng)絡(luò)的典型拓?fù)浣Y(jié)構(gòu)
(1)獲取數(shù)據(jù)維度,并初始化權(quán)值矩陣Wij,對(duì)初始權(quán)值矩陣W中的每一個(gè)權(quán)值賦予較小的隨機(jī)初始值,選擇初始鄰域:
(1)
(2)對(duì)輸入數(shù)據(jù)集進(jìn)行歸一化,將輸入數(shù)據(jù)集的每個(gè)維度的指標(biāo)限定在一定的范圍內(nèi)(與權(quán)值矩陣相近范圍),形成新的輸入模式:IN=[I1,I2,I3,…,In].
(3)歸一化后的樣本IN輸入網(wǎng)絡(luò),計(jì)算樣本與競(jìng)爭(zhēng)層神經(jīng)元間的距離,距離最小值所對(duì)應(yīng)的神經(jīng)元為獲勝神經(jīng)元Hij(t).
(2)
(5)重復(fù)訓(xùn)練過程,鄰域和權(quán)重隨著訓(xùn)練過程不斷縮小,直至訓(xùn)練結(jié)束.
(3)
Metropolis準(zhǔn)則表明,溫度較高時(shí)跳出局部最優(yōu)的概率較大,溫度越低,跳出局部最優(yōu)的概率越小.因此,模擬退火算法常被用來解決局部最優(yōu)問題,并具有較為可觀的尋優(yōu)能力.彭勇剛等人在遺傳算法和模擬退火算法的基礎(chǔ)上融入了模糊推理原理,提出了模糊自適應(yīng)模擬退火遺傳算法[11].自組織特征網(wǎng)絡(luò)同遺傳算法具有相似特性,本研究參照其思路針對(duì)SOM網(wǎng)絡(luò)鄰域和神經(jīng)元的激活過程進(jìn)行改進(jìn).其優(yōu)化方案是在激活神經(jīng)元過程中引入模擬退火,以使輸出層的死神經(jīng)元以一定的概率被激活,將此改進(jìn)算法簡(jiǎn)寫為ASOM.將模擬退火算法初始溫度設(shè)為自組織映射網(wǎng)絡(luò)的最大迭代次數(shù),由此基于模擬退火過程的自組織映射算法(ASOM)步驟如下:
Step1:初始化SOM網(wǎng)絡(luò),設(shè)置最大迭代次數(shù)T,鄰域參數(shù)sigma和學(xué)習(xí)率l(t).
Step2:對(duì)輸入數(shù)據(jù)集進(jìn)行歸一化IN=[I1,I2,I3,…,In],進(jìn)一步生成輸出層神經(jīng)元的集合O.
Step3:對(duì)SOM網(wǎng)絡(luò)進(jìn)行一次迭代,計(jì)算當(dāng)前獲勝神經(jīng)元Hij(t)及其鄰域Nij(t),獲取當(dāng)前迭代的權(quán)值調(diào)整矩陣G(t).計(jì)算當(dāng)前獲勝神經(jīng)元鄰域外節(jié)點(diǎn)集合Mij(t)=o∩Nij(t).
Step4:設(shè)置模擬退火算法最大溫度T,降溫系數(shù)alpha設(shè)為1,當(dāng)前溫度t,每個(gè)溫度下的迭代次數(shù)n,獲取隨機(jī)值p(0
Step5:對(duì)SOM網(wǎng)絡(luò)進(jìn)行第二次迭代,獲取第二次迭代的鄰域外神經(jīng)元集合M′ij(t),第二次迭代中只獲取鄰域外神經(jīng)元集合和新的權(quán)值調(diào)整矩陣G′,計(jì)算權(quán)值調(diào)整矩陣G′(t)中的最小值G′min(t).
Step6:集合K=M′ij(t)∩Mij(t),k為集合K中元素個(gè)數(shù),若k為0,按Metropolis準(zhǔn)則生成一個(gè)接受概率P(k/T),并生成一個(gè)取值范圍在0到1間的隨機(jī)數(shù)rand,若p>rand,則按照公式(4)更新矩陣G′(t),Gij表示對(duì)應(yīng)的權(quán)值調(diào)整矩陣G′(t)中的第i行j列元素.否則返回Step5
(4)
若k不為0,則返回Step5.
Step7:根據(jù)權(quán)值更新矩陣G(t)更新輸出層權(quán)值矩陣.
Step8:循環(huán)迭代,當(dāng)溫度為0或者達(dá)到最大迭代次數(shù)停止循環(huán).
在引入模擬退火過程后,激活過程不僅僅局限于鄰域范圍內(nèi),鄰域外的死節(jié)點(diǎn)也能以一定的概率被激活,隨著迭代進(jìn)行,鄰域外節(jié)點(diǎn)的激活程度逐漸減小,進(jìn)一步保證了ASOM的收斂特性.
為了驗(yàn)證算法的有效性,在這里將傳統(tǒng)的SOM網(wǎng)絡(luò)和ASOM網(wǎng)絡(luò)進(jìn)行比較,相同的軟硬件環(huán)境(HP EliteDesk 880 i7-6700/8G內(nèi)存 win10 ),并采用公共數(shù)據(jù)集作為聚類對(duì)象.為保證實(shí)驗(yàn)對(duì)比可靠性,獲取GitHub上的開源代碼MiniSom作為源碼分析.首先,用SOM和ASOM網(wǎng)絡(luò)對(duì)Iris數(shù)據(jù)集進(jìn)行聚類,用最終聚類個(gè)數(shù)k作為指標(biāo)在實(shí)驗(yàn)中分別對(duì)比聚類效果,其實(shí)驗(yàn)結(jié)果如圖2所示.
圖2 在Iirs數(shù)據(jù)集上1 000次迭代過程中的k值變化
在圖2中,可以發(fā)現(xiàn)在原SOM網(wǎng)絡(luò)中,聚類效果在600次左右趨向穩(wěn)定,獲勝神經(jīng)元個(gè)數(shù)在前600次迭代過程中呈現(xiàn)出逐漸上升趨勢(shì),出現(xiàn)了數(shù)據(jù)的過度擬合.而在ASOM網(wǎng)絡(luò)中,獲勝神經(jīng)元處于波動(dòng),但在500次左右趨向穩(wěn)定,并以更大的概率趨向于最佳聚類.為進(jìn)一步進(jìn)行對(duì)比,實(shí)驗(yàn)中還用到了其他數(shù)據(jù)集,數(shù)據(jù)集信息如表1所示.
表1 對(duì)比測(cè)試數(shù)據(jù)集信息
所選取的Iris數(shù)據(jù)集、Glass數(shù)據(jù)集和Ionosphere數(shù)據(jù)集的交叉重疊度依次增加.下面將主要對(duì)比SOM算法和ASOM算法在數(shù)據(jù)集上的聚類效果,分別選取2×2,5×5,6×6,9×9的網(wǎng)格結(jié)構(gòu)對(duì)這四類數(shù)據(jù)集進(jìn)行聚類,迭代次數(shù)為100次,選取Triangle領(lǐng)域模型,鄰域半徑sigma設(shè)為2,學(xué)習(xí)率設(shè)為0.5,選取的聚類衡量指標(biāo)為常用的ARI(調(diào)整蘭德指數(shù))、NMI(標(biāo)準(zhǔn)化互信息)和CHI(Calinski-Harabaz Index).其實(shí)驗(yàn)結(jié)果如表2所示.
表2 SOM和ASOM網(wǎng)絡(luò)聚類實(shí)驗(yàn)結(jié)果
在表2中,ARI指標(biāo)和NMI指標(biāo)為外部指標(biāo),其值越高其代表的聚類準(zhǔn)確性越高.而CHI指標(biāo)為內(nèi)部指標(biāo),其值代表著同一簇內(nèi)的緊密程度.可以發(fā)現(xiàn),在這三類數(shù)據(jù)集上,ASOM網(wǎng)絡(luò)的各項(xiàng)指標(biāo)都要優(yōu)于傳統(tǒng)的SOM網(wǎng)絡(luò),并能在相同的迭代次數(shù)下取得更好的收斂效果.在一定程度上避免了聚類的過度擬合.
本研究在自組織映射網(wǎng)絡(luò)中引入模擬退火算法來避免聚類的過度擬合.主要改進(jìn)思路是在鄰域調(diào)整過程中引入模擬退火算法思想,以一定概率激活鄰域外節(jié)點(diǎn).通過實(shí)驗(yàn)證明,ASOM網(wǎng)絡(luò)在一定程度上減小了聚類結(jié)果的偏離程度并對(duì)數(shù)據(jù)集有較好的區(qū)分度,可以有效避免原網(wǎng)絡(luò)中的過度擬合.實(shí)驗(yàn)中也注意到,聚類算法中的衡量標(biāo)準(zhǔn)和網(wǎng)絡(luò)的參數(shù)優(yōu)化參差不齊,在后面的研究中應(yīng)著重對(duì)其進(jìn)行研究.