朱穎雯
摘? 要: 將自適應(yīng)諧振理論(Adaptive Resonance Theory)與拓?fù)鋵W(xué)習(xí)神經(jīng)網(wǎng)絡(luò)相結(jié)合,研究了一種新的無監(jiān)督神經(jīng)網(wǎng)絡(luò)用于非平穩(wěn)數(shù)據(jù)穩(wěn)定在線聚類。并引入自組織增量神經(jīng)網(wǎng)絡(luò)(Self- Organising Incremental Neural Network),同時學(xué)習(xí)兩種反映不同層次細(xì)節(jié)的表現(xiàn)方法。此網(wǎng)絡(luò)即對噪聲低敏感,又適合于解決實(shí)際問題的應(yīng)用。
關(guān)鍵詞: 在線學(xué)習(xí); 拓?fù)鋵W(xué)習(xí); 自適應(yīng)諧振理論; 聚類
中圖分類號:TP391? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2020)11-39-04
Abstract: This paper combines ART (Adaptive Resonance Theory) with topological learning neural network to study a new unsupervised neural network for stable online clustering on non-stationary input data. In particular, SOINN (Self-Organizing Incremental Neural Network) is introduced, so that two representations to reflect different levels of detail are learnt simultaneously. The network is low sensitivity to noise, and is suitable for solving real-world problems.
Key words: on-line learning; topology learning; ART; clustering
0 引言
許多任務(wù)如基因異常診斷[1],人形機(jī)器人的交互式教學(xué)[2],以及蛋白質(zhì)的顯性定位[3],采用單獨(dú)訓(xùn)練、驗(yàn)證和測試的傳統(tǒng)離線學(xué)習(xí)方法均無法解決。因此增量式在線學(xué)習(xí)近年來變得越來越流行,這類機(jī)器學(xué)習(xí)技術(shù)可逐步完成知識且適應(yīng)于非平穩(wěn)的輸入分布。
本論文研究了一種基于增量式快速在線聚類與拓?fù)鋵W(xué)習(xí)相結(jié)合的新型神經(jīng)網(wǎng)絡(luò)TopoART,可以創(chuàng)建穩(wěn)定的數(shù)據(jù)表示,并同時保持學(xué)習(xí)新數(shù)據(jù)的能力,對噪聲低敏感,創(chuàng)建反映不同細(xì)節(jié)輸入分布的層次化表示,更適合于實(shí)際應(yīng)用。
1 相關(guān)工作
大多廣泛使用的聚類方法,例如K-Means、譜聚類、矩陣分解,均需設(shè)置聚簇個數(shù)。聚類方法一般可分為兩類:聚類趨勢分析方法[4~6]和聚類驗(yàn)證方法[7~12]。第一種方法通過模式的相鄰關(guān)系來確定數(shù)據(jù)集中的聚簇個數(shù),而第二種方法通過評估不同聚簇的結(jié)構(gòu)。兩種方法均很慢,無法擴(kuò)展到大規(guī)模數(shù)據(jù)聚類。K-Means算法[13]作為典型的數(shù)據(jù)聚類算法將輸入分布劃分為k個聚簇。每個聚簇由一個向量表示。算法中確定所需聚簇個數(shù)是關(guān)鍵問題。算法不考慮輸入數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu)。1982年,文獻(xiàn)[14]提出了自組織特征映射(SOFMs),它將輸入數(shù)據(jù)映射到神經(jīng)元網(wǎng)格。參考向量被神經(jīng)元的權(quán)重編碼。網(wǎng)格具有預(yù)定義的拓?fù)浣Y(jié)構(gòu),其維數(shù)通常小于或等于輸入空間的維數(shù)。如事先未知輸入分布,則很難選擇合適的格點(diǎn)結(jié)構(gòu)。增長型神經(jīng)氣(GNG)算法[15]解決了此問題。它允許新神經(jīng)元的增量合并,并通過添加和刪除不同神經(jīng)元之間的邊來學(xué)習(xí)輸入分布的拓?fù)洹5漭斎敕植急硎静环€(wěn)定,輸入數(shù)據(jù)的持續(xù)呈現(xiàn),即使已經(jīng)被學(xué)習(xí),也會導(dǎo)致神經(jīng)元的權(quán)值(即參考向量)和網(wǎng)絡(luò)拓?fù)涑掷m(xù)適應(yīng)。因此,已經(jīng)獲得的知識會因進(jìn)一步的學(xué)習(xí)而丟失,稱為“穩(wěn)定-可塑性困境”。如果輸入分布很復(fù)雜或輸入數(shù)據(jù)順序的微小變化都可能引起。
自適應(yīng)諧振理論(ART)網(wǎng)絡(luò)用于解決“穩(wěn)定-可塑性困境”。此網(wǎng)絡(luò)學(xué)習(xí)自上而下的期望并與自下而上的輸入相匹配。這些期望稱為類別,它將輸入數(shù)據(jù)集匯總成聚簇。ART網(wǎng)絡(luò)的類別呈現(xiàn)出不同的形狀,如超球形[16],橢圓形[17],矩形[18]。與SOFMs和GNG相比,ART網(wǎng)絡(luò)不能捕獲輸入數(shù)據(jù)的拓?fù)?。此外,其穩(wěn)定學(xué)習(xí)的能力導(dǎo)致了對噪聲的敏感性增加。
2006年,自組織增量神經(jīng)網(wǎng)絡(luò)(SOINN)被提出[19]。與GNG類似,SOINN遞增地增長神經(jīng)元節(jié)點(diǎn)對輸入數(shù)據(jù)進(jìn)行聚類,神經(jīng)元的權(quán)值用參考向量表示,并通過節(jié)點(diǎn)之間的邊表示拓?fù)洹K€有一些特性,首先,SOINN具有兩層結(jié)構(gòu),表示不同級別的輸入分布。這種結(jié)構(gòu)降低了對噪聲的敏感。第二層是在第一層訓(xùn)練完成之后進(jìn)行的。其次,基于自適應(yīng)閾值進(jìn)行新穎性檢測。第三,每個神經(jīng)元都有一個單獨(dú)的學(xué)習(xí)率,當(dāng)它所代表的輸入樣本數(shù)量增加時,學(xué)習(xí)率就降低。通過這種方式,可以得到相對穩(wěn)定的表示。但神經(jīng)元的權(quán)值并沒有完全穩(wěn)定下來。此外,SOINN每層需要8個參數(shù)控制成為它的缺陷。
TopoART結(jié)合了ART[20-25]和拓?fù)鋵W(xué)習(xí)的優(yōu)點(diǎn)。并繼承其祖先ART算法快速和穩(wěn)定的在線學(xué)習(xí)能力。其類別被邊管理擴(kuò)展,反映輸入分布的拓?fù)浣Y(jié)構(gòu),可得到任意形狀的聚簇。采用了SOINN在不同細(xì)節(jié)層上表示輸入數(shù)據(jù)的能力;但又與SOINN不同,TopoART同時學(xué)習(xí)了兩個層。
2 拓?fù)渥赃m應(yīng)諧振網(wǎng)絡(luò)
TopoART的基本結(jié)構(gòu)和計算框架與模糊ART[18]密切相關(guān)。模糊ART由三層神經(jīng)網(wǎng)絡(luò)組成。初始層F0包含輸入I,使用補(bǔ)碼對輸入向量[xt]進(jìn)行編碼。經(jīng)過編碼的輸入向量用[xF1t]來表示,由于使用補(bǔ)碼,輸入向量[xt]的每個分量[xit]必須位于區(qū)間[0,1]。如圖1所示。
輸入向量[xF1t]傳輸?shù)奖容^層F1,就激活代表層F2的神經(jīng)元:
激活函數(shù)[zF2it] (選擇函數(shù))度量了[xF1t]與第i個神經(jīng)元之間相似度。[∧]表示最小值操作。參數(shù)α的設(shè)置略高于零(一般設(shè)置為0.001)。一般來說,[zF2it]更喜歡小的類別而不是大類別。
F2層神經(jīng)元全部激活后,可找到最匹配的神經(jīng)元bm,即選擇函數(shù)值最大的神經(jīng)元。如果滿足匹配函數(shù)(式(4))則發(fā)生共振,增長其權(quán)值[wF2bmt]。[wF2bmt]和網(wǎng)絡(luò)輸出[yt]分別設(shè)置為:
β表示學(xué)習(xí)率。β設(shè)為1表示對網(wǎng)絡(luò)進(jìn)行快速的學(xué)習(xí),即每個學(xué)習(xí)到的輸入都包含一個與之最匹配的類別。由于聚簇不能根據(jù)式⑸縮小,故形成的表示是穩(wěn)定的。聚簇的當(dāng)前大小[Si(t)]可由對應(yīng)神經(jīng)元i的權(quán)值[w F2 i(t)]得到:
聚簇的增長受到警戒參數(shù)[ρ]和輸入空間維數(shù)d的限制,這兩個參數(shù)共同決定了最大聚簇大小Smax。
假設(shè)選擇函數(shù)值最大的神經(jīng)元不滿足式⑷的條件,則它的激活被重置。重新選擇一個使選擇函數(shù)值次大的神經(jīng)元作為新的最佳匹配節(jié)點(diǎn)。如果均沒有找到合適,則產(chǎn)生一個新的神經(jīng)元節(jié)點(diǎn),用輸入向量[xt]表示,并發(fā)生共振。
TopoART由兩個模糊ART(組件a和組件b)組成,使用共同的F0層進(jìn)行補(bǔ)編碼,如圖2所示。但與模糊ART不同,F(xiàn)2層的每個神經(jīng)元節(jié)點(diǎn)i都分別使用一個計數(shù)器[nai]和[nbi]來記錄它所學(xué)習(xí)的樣本數(shù)。帶編碼的輸入向量只有在組件a中發(fā)生共振且[nabm??]時才傳播到組件b中。每一輪[τ]學(xué)習(xí)循環(huán)后,所有計數(shù)器小于[?]的神經(jīng)元被移除,這種神經(jīng)元被稱為候選節(jié)點(diǎn)。一旦[ni]等于或超過[?]時,它就不再被移除,這種神經(jīng)元稱為永久節(jié)點(diǎn)。通過此過程,網(wǎng)絡(luò)對噪聲變得不敏感,且仍然可以學(xué)習(xí)穩(wěn)定的表示。
為了實(shí)現(xiàn)快速在線學(xué)習(xí),學(xué)習(xí)率[βbm]用于調(diào)整最匹配神經(jīng)元的權(quán)值,且總是設(shè)置為1,得到:
除了確定最匹配神經(jīng)元bm并修改其權(quán)重,滿足式⑷激活度第二的神經(jīng)元sbm根據(jù)式⑽進(jìn)行更新。[βsbm]應(yīng)該小于1,因?yàn)樯窠?jīng)元sbm與神經(jīng)元bm相比,只是部分學(xué)習(xí)[xF1t]。
這一過程導(dǎo)致模型對噪聲的敏感性進(jìn)一步降低,因?yàn)榫鄞馗锌赡茉谳斎肟臻g的相關(guān)區(qū)域增長。
如果[?=1]并且[βsbm=0],插入的節(jié)點(diǎn)立即成為永久節(jié)點(diǎn),所有輸入向量傳播到組件b,在一個學(xué)習(xí)周期中只更新最匹配神經(jīng)元bm的權(quán)值。這種情況下,組件a和組件b的聚簇分別等于快速學(xué)習(xí)模式下以警戒參數(shù)[ρa(bǔ)]和[ρb]訓(xùn)練的模糊ART的聚簇。
為了使TopoART能學(xué)習(xí)拓?fù)?,如果能找到次最佳匹配神?jīng)元sbm,則在bm和sbm神經(jīng)元之間建立邊的連接。邊連接定義了拓?fù)浣Y(jié)構(gòu),不用于激活其他神經(jīng)元。如果神經(jīng)元bm和sbm已經(jīng)連接一條邊,則保持不變,與SOINN和GNG相比,這些邊沒有年齡參數(shù)。如果相鄰的神經(jīng)元中有一個被移除,那它們就會被移除。因此永久節(jié)點(diǎn)之間的邊是穩(wěn)定的,新的邊仍可以被創(chuàng)建。這種機(jī)制構(gòu)成了模糊ART解決“穩(wěn)定-可塑性困境”的一種擴(kuò)展,使新的輸入空間表示能夠同時保留已經(jīng)學(xué)習(xí)的表示。
為了用組件b來細(xì)化組件a的表示,[ρb]應(yīng)大于[ρa(bǔ)]。[ρb]根據(jù)式⑾確定,使最大聚簇大小Smax減少50%。
這樣,組件b學(xué)習(xí)了一個更詳細(xì)的表示,且受噪聲影響較少。組件a聚簇之間的連接可以在組件b中分割,從而產(chǎn)生對輸入數(shù)據(jù)的層次表示。
兩個TopoART組件的輸出[yt]均可用模糊ART的方法計算。從一個未標(biāo)記的神經(jīng)元開始,所有連接的神經(jīng)元收到一個特定的標(biāo)記來標(biāo)記簇。然后,搜索一個新的未標(biāo)記神經(jīng)元。這個過程不斷重復(fù),直到?jīng)]有未標(biāo)記的神經(jīng)元存在為止。向量[ct]提供了所有F2層神經(jīng)元的簇標(biāo)簽。由于穩(wěn)定性的原因,[yt]和[ct]的計算只考慮永久節(jié)點(diǎn)。通過這種方式,聚簇可以增長和融合,但它們被阻止收縮。
3 小結(jié)
TopoART成功結(jié)合了ART和拓?fù)鋵W(xué)習(xí)方法的特性,聚簇通過邊連接,可以形成任意形狀的簇。此外,過濾機(jī)制降低了對噪聲的敏感性。與SOINN相似,呈現(xiàn)出不同程度細(xì)節(jié)的表示。但與SOINN不同的是,其在兩個層次上并行學(xué)習(xí),僅需要設(shè)置4個參數(shù)[(βsbm,?,ρa(bǔ),τ)],與SOINN相比,減少了75%,而創(chuàng)建的表示更穩(wěn)定。
盡管要設(shè)置的參數(shù)已經(jīng)很少,但TopoART仍需使用有關(guān)輸入數(shù)據(jù)分布的先驗(yàn)來進(jìn)行選擇。這本身非常困難,特別是TopoART是一個在線算法。為了解決此問題,可以利用TopoART的層次結(jié)構(gòu),因其提供了輸入數(shù)據(jù)分布的備選聚簇。通過學(xué)習(xí)過程中的交互,可以根據(jù)當(dāng)前任務(wù)或其他標(biāo)準(zhǔn)對這些聚簇進(jìn)行評價。
TopoART算法捕捉層次關(guān)系和呈現(xiàn)數(shù)據(jù)拓?fù)浣Y(jié)構(gòu)的能力對許多任務(wù)均有幫助,例如:在機(jī)器人中表示復(fù)雜的感覺和語義信息。TopoART甚至可以擴(kuò)展為更全面地捕獲層次關(guān)系的多層次結(jié)構(gòu)。
參考文獻(xiàn)(References):
[1] Vigdor, B., Lerner, B.: Accurate and fast off and online fuzzy ARTMAP-based image classification with application to genetic abnormality diagnosis. IEEE Transactions on Neural Networks,2006.17(5):1288-1300
[2] Goerick, C., Schm¨udderich, J., Bolder, B., JanBen, H.,Gienger, M., Bendig, A., Heckmann, M., Rodemann, T., Brandl, H., Domont, X., Mikhailova, I.: Interactive online multimodal association for internal concept building in humanoids. In: Proceedings of the IEEE-RAS International Conference on Humanoid Robots,2009:411-418
[3] Tscherepanow, M., Jensen, N., Kummert, F.: Anincremental approach to automated protein localisation. BMC Bioinformatics,2008.9(445).
[4] J. C. Bezdek and R. J. Hathaway, “VAT: A tool for visualassessment of (cluster) tendency,” in Proc. Int. Joint Conf. Neural Netw.,2002.5:2225-2230
[5] I. J. Sledge, J. M. Huband, and J. C. Bezdek, “(Automatic)cluster count extraction from unlabeled data sets,” in Proc. Int. Conf. Fuzzy Syst. Knowl. Discovery,2008.10:3-13
[6] L. Wang, C. Leckie, K. Ramamohanarao, and J. Bezdek,"Automatically determining the number of clusters in unlabeled data sets," IEEE Trans. Knowl. Data Eng.,2012.21(3):335-350
[7] W. Wang and Y. Zhang, "On fuzzy cluster validity indices,"Fuzzy Sets Syst.,2007.158(19):2095-2117
[8] J. Liang, X. Zhao, D. Li, F. Cao, and C. Dang,"Determining the number of clusters using information entropy for mixed data," Pattern Recognit.,2012.45(6):2251-2265
[9] C. A. Sugar and G. M. James, "Finding the number of clusters in a dataset:An information-theoretic approach," J. Amer. Statist. Assoc.,2003.98(463):750-763
[10] H. Sun, S. Wang, and Q. Jiang, "FCM-based model selection algorithms for determining the number of clusters," Pattern Recognit.,2004.37(10):2027-2037
[11] R. Kothari and D. Pitts, "On finding the number of clusters," Pattern Recognit.Lett.,1999.20(4):405-416
[12] J.-S. Lee and S. Olafsson, "A meta-learning approach for determining the number of clusters with consideration of nearest neighbors," Inf. Sci.,2013.232(5):208-224
[13] MacQueen, J.: Some methods for classification and analysis of multivariate observations.In:Proceedings of the Berkeley Symposium on Mathematical Statistics and Probability,1967.1:281-297
[14] Kohonen, T.: Self-organized formation of topologically correct feature maps. Biological Cybernetics,1982.43(1):59-69
[15] Fritzke, B.: A growing neural gas network learnstopologies. In: Neural Information Processing Systems,1994:625-632
[16] Anagnostopoulos, G.C., Georgiopoulos, M.: Hypersphere ART and ARTMAP for unsupervised and supervised incremental learning.In:Proceedings of the International Joint Conference on Neural Networks,2000.6:59-64
[17] Anagnostopoulos, G.C., Georgiopoulos, M.: Ellipsoid ART and ARTMAP for incremental clustering and classification. In: Proceedings of the International Joint Conference on Neural Networks,2001.2:1221-1226
[18] Carpenter, G.A., Grossberg, S., Rosen, D.B.: Fuzzy ART:Fast stable learning and categorization of analog patterns by an adaptive resonance system. Neural Networks,1991.4:759-771
[19] Furao, S., Hasegawa, O.: An incremental network for on-line unsupervised classification and topology learning. Neural Networks,2006.19:90-106
[20] Tscherepanow M, Kortkamp M, Kammer M, et al. 2011 Special Issue: A hierarchical ART network for the stable incremental learning of topological structures and associations from noisy data[J]. Neural Networks,2011.24(8):906-916
[21] Silva L E, Elnabarawy I, Wunsch D C, et al. A survey of adaptive resonance theory neural network models for engineering applications[J]. Neural Networks,2019:167-203
[22] G. A. Carpenter and S. Grossberg, "A massively parallel architecture for a self-organizing neural pattern recognition machine," Comput. Vis., Graph., Image Process.,1987.37(1):54-115
[23] G. A. Carpenter and S. Grossberg, "ART 2: Self-organization of stable category recognition codes for analog input patterns," Appl. Opt.,1987.26(23):4919-4930
[24] G. A. Carpenter, S. Grossberg, and D. B. Rosen, "ART2-A: An adaptive resonance algorithm for rapid category learning and recognition," Neural Netw.,1987.4:493-504
[25] G. A. Carpenter and S. Grossberg, "ART 3: Hierarchicalsearch using chemical transmitters in self-organizing pattern recognition architectures,"Neural Netw.,1990.3(2):129-152