国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

增量式神經(jīng)網(wǎng)絡(luò)聚類算法*

2016-11-28 01:18:11劉培磊唐晉韜謝松縣
關(guān)鍵詞:增量神經(jīng)元聚類

劉培磊,唐晉韜,謝松縣,王 挺

(1.國防科技大學(xué) 計(jì)算機(jī)學(xué)院, 湖南 長沙 410073;2.國防信息學(xué)院 信息化建設(shè)系 信息資源管理教研室, 湖北 武漢 430010)

?

增量式神經(jīng)網(wǎng)絡(luò)聚類算法*

劉培磊1,2,唐晉韜1,謝松縣1,王 挺1

(1.國防科技大學(xué) 計(jì)算機(jī)學(xué)院, 湖南 長沙 410073;2.國防信息學(xué)院 信息化建設(shè)系 信息資源管理教研室, 湖北 武漢 430010)

神經(jīng)網(wǎng)絡(luò)模型具有強(qiáng)大的問題建模能力,但是傳統(tǒng)的反向傳播算法只能進(jìn)行批量監(jiān)督學(xué)習(xí),并且訓(xùn)練開銷很大。針對傳統(tǒng)算法的不足,提出全新的增量式神經(jīng)網(wǎng)絡(luò)模型及其聚類算法。該模型基于生物神經(jīng)學(xué)實(shí)驗(yàn)證據(jù),引入新的神經(jīng)元激勵函數(shù)和突觸調(diào)節(jié)函數(shù),賦予模型以堅(jiān)實(shí)的統(tǒng)計(jì)理論基礎(chǔ)。在此基礎(chǔ)上,提出一種自適應(yīng)的增量式神經(jīng)網(wǎng)絡(luò)聚類算法。算法中引入“勝者得全”式競爭等學(xué)習(xí)機(jī)制,在增量聚類過程中成功避免了“遺忘災(zāi)難”問題。在經(jīng)典數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:該聚類算法與K-means等傳統(tǒng)聚類算法效果相當(dāng),特別是在增量學(xué)習(xí)任務(wù)的時(shí)空開銷方面具有較大優(yōu)勢。

神經(jīng)網(wǎng)絡(luò);增量學(xué)習(xí);聚類算法;時(shí)間開銷

隨著互聯(lián)網(wǎng)和社交媒體的廣泛發(fā)展,大量無標(biāo)注的數(shù)據(jù)源源不斷地產(chǎn)生[1-2]。這些數(shù)據(jù)的海量性、無標(biāo)注性、實(shí)時(shí)性等特點(diǎn)給傳統(tǒng)的機(jī)器學(xué)習(xí)模型帶來了很大的挑戰(zhàn)[3]。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型具有強(qiáng)大的問題建模能力,理論上含有足夠多隱藏層神經(jīng)元的神經(jīng)網(wǎng)絡(luò)可以逼近任意函數(shù)。但是主流的學(xué)習(xí)算法如反向傳播(Back Propergating,BP)算法,使用梯度下降的方法進(jìn)行學(xué)習(xí),是批量監(jiān)督學(xué)習(xí)算法,即所有的訓(xùn)練數(shù)據(jù)必須一次性全部輸入學(xué)習(xí)模型。而模型一旦訓(xùn)練完畢,再碰到新的輸入數(shù)據(jù)時(shí),只能將新數(shù)據(jù)與舊數(shù)據(jù)并在一起重新訓(xùn)練模型。這個(gè)問題被稱為“遺忘災(zāi)難”[4],即新學(xué)習(xí)的內(nèi)容會導(dǎo)致已經(jīng)學(xué)習(xí)的內(nèi)容被“遺忘”。 梯度下降的方法帶來的另一個(gè)問題是訓(xùn)練的時(shí)間開銷很大,難以在線處理海量的實(shí)時(shí)性數(shù)據(jù)[5]。近年來,熱門的深度學(xué)習(xí)模型也面臨類似的計(jì)算時(shí)間開銷問題[6],因此訓(xùn)練規(guī)模較大的深度神經(jīng)網(wǎng)絡(luò)往往需要使用大規(guī)模并行計(jì)算集群。自適應(yīng)共振理論(Adaptive Resonance Theory,ART)模型提出了一套不錯(cuò)的應(yīng)對辦法,它可以快速地進(jìn)行無監(jiān)督聚類,并且具有增量學(xué)習(xí)的特性,在解釋人腦工作機(jī)制方面也做得比BP網(wǎng)絡(luò)更充分[4]。然而這種模型也面臨著自己的問題,一種典型的質(zhì)疑是它的理論基礎(chǔ)不夠堅(jiān)實(shí),不完全符合統(tǒng)計(jì)學(xué)原理[7]。ART模型的神經(jīng)元激勵函數(shù)、突觸連接權(quán)重的調(diào)節(jié)方法等都是經(jīng)驗(yàn)式的,缺少嚴(yán)格的數(shù)學(xué)理論支撐。

本文通過借鑒生物神經(jīng)網(wǎng)絡(luò)的研究成果,提出了全新的增量神經(jīng)網(wǎng)絡(luò)模型IncNet及其無監(jiān)督聚類算法。主要貢獻(xiàn)包括三方面:引入新的神經(jīng)元激勵函數(shù)和突觸連接權(quán)值調(diào)節(jié)函數(shù),并闡明這些函數(shù)背后的統(tǒng)計(jì)學(xué)意義,使得IncNet模型建立在堅(jiān)實(shí)的統(tǒng)計(jì)理論基礎(chǔ)之上,為神經(jīng)網(wǎng)絡(luò)算法的研發(fā)提供一個(gè)新的視角和一次有益嘗試。在此基礎(chǔ)上提出一種全新的神經(jīng)網(wǎng)絡(luò)無監(jiān)督學(xué)習(xí)算法。鑒于神經(jīng)網(wǎng)絡(luò)模型具有強(qiáng)大的問題建模能力,因此神經(jīng)網(wǎng)絡(luò)上的無監(jiān)督學(xué)習(xí)算法具有重要意義。實(shí)際上,深度學(xué)習(xí)取得成功的一個(gè)重要原因就在于將“無監(jiān)督學(xué)習(xí)”引入訓(xùn)練階段。

1 前提與假設(shè)

模型的性能與輸入數(shù)據(jù)樣本的分布特性是息息相關(guān)的,很多模型只有針對特定分布類型的數(shù)據(jù)才能取得最好的效果。比如貝葉斯網(wǎng)絡(luò)和支持向量機(jī)等都有一個(gè)“特征獨(dú)立性”的假設(shè)?;谏飳W(xué)實(shí)驗(yàn)證據(jù),IncNet模型做出第1.1節(jié)的合理假設(shè)。

1.1 數(shù)據(jù)分布的假設(shè)

時(shí)空局部性假設(shè):樣本分布在時(shí)間和空間維度上具有局部性的特性。

所謂局部性是指相似的樣本在時(shí)間段內(nèi)和空間位置上比較接近。以時(shí)間局部性為例,樣本在時(shí)間軸上不是隨機(jī)分布的,而是簇狀聚集的。對應(yīng)到現(xiàn)實(shí)中,事件往往具有突發(fā)性[8]。因此,在事件發(fā)生的特定時(shí)間段上就可以采集到大量的類似樣本,而在這個(gè)時(shí)間之前或者之后采集到的類似樣本量就很少。空間局部性的含義與時(shí)間局部性類似。

1.2 神經(jīng)元激勵函數(shù)

神經(jīng)元激勵函數(shù)如式(1)所示。其中,xi是樹突輸入,wi是突觸連接的權(quán)值,f(x)是神經(jīng)元的興奮值,ci是常數(shù)。

(1)

神經(jīng)學(xué)文獻(xiàn)表明,一個(gè)神經(jīng)元只有在被激發(fā)的時(shí)候才會從軸突上釋放信號物質(zhì),而沒被激發(fā)的神經(jīng)元是不釋放任何信號物質(zhì)的[9]。因此IncNet模型認(rèn)為未激發(fā)的神經(jīng)元不傳遞信號,而傳統(tǒng)模型認(rèn)為未激發(fā)的神經(jīng)元表示 “0”信號[10]。式(1)的統(tǒng)計(jì)意義將會在第2.1.2節(jié)進(jìn)行詳細(xì)解釋。

1.3 突觸連接權(quán)值調(diào)節(jié)機(jī)制

在真實(shí)的生物神經(jīng)網(wǎng)絡(luò)中,兩個(gè)神經(jīng)元之間由多個(gè)突觸連接在一起,并且新的刺激會不斷地生成新的突觸。 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型一般將這些突觸簡化為單一連接,其中隱含的假設(shè)是這些突觸的總強(qiáng)度值是單個(gè)突觸的線性疊加[6]。 而來自神經(jīng)學(xué)的證據(jù)表明:連接強(qiáng)度的增長率不是恒定的,而是與當(dāng)前已有連接強(qiáng)度成負(fù)相關(guān)的關(guān)系[11]。 因此IncNet模型中的突觸連接權(quán)值非線性增長,如式(2)所示,其中,w表示連接強(qiáng)度,si表示第i次刺激信號生成的突觸數(shù)。公式(2)的統(tǒng)計(jì)學(xué)意義將會在第2.3節(jié)解釋。

(2)

1.4 神經(jīng)網(wǎng)絡(luò)的自組織機(jī)制

生物神經(jīng)網(wǎng)絡(luò)中每個(gè)神經(jīng)元只能知道自身及其直接連接的神經(jīng)元的信息,即每個(gè)神經(jīng)元知道的信息都是局部的[4]。而BP算法則要求知道整個(gè)網(wǎng)絡(luò)的全局信息,這一點(diǎn)在生物學(xué)上難以實(shí)現(xiàn)[5]。生物神經(jīng)網(wǎng)絡(luò)實(shí)際上通過眾多神經(jīng)元的自組織來構(gòu)建,其中主要的機(jī)制之一就是側(cè)向競爭。生物神經(jīng)元的競爭機(jī)制比較復(fù)雜,IncNet模型將側(cè)向競爭簡化為“勝者得全”的方式。這種編碼方式又稱為 “祖母細(xì)胞(grandmother cell)”編碼[12],即單個(gè)輸入樣本最終映射到單個(gè)神經(jīng)元,受到神經(jīng)學(xué)實(shí)驗(yàn)證據(jù)的支持。

與“祖母細(xì)胞”編碼相對應(yīng)的是傳統(tǒng)神經(jīng)元模型使用的“集體編碼(population coding)”方式[12],即每個(gè)輸入樣本需要多個(gè)神經(jīng)元共同合作來編碼。但是,傳統(tǒng)神經(jīng)元模型面臨的一個(gè)重要問題是“異或”問題[13],即單層神經(jīng)網(wǎng)絡(luò)無法表示非線性函數(shù)。而IncNet模型中的單層網(wǎng)絡(luò)可以解決異或問題,第2.1.4節(jié)將會詳細(xì)敘述。

2 模型與算法

基于第1節(jié)的前提與假設(shè),本節(jié)提出IncNet模型。在詳細(xì)介紹問題抽象和模型本身的同時(shí),著重闡述模型的統(tǒng)計(jì)學(xué)意義。

2.1 模型

2.1.1 問題抽象

IncNet模型面對的問題可以抽象為:對于任意一個(gè)輸入樣本x=(xi),如何讓某個(gè)神經(jīng)元編碼這個(gè)樣本,以便下次遇到類似輸入樣本的時(shí)候,這個(gè)神經(jīng)元會被最大限度地激發(fā)。這種編碼本質(zhì)上是神經(jīng)元通過特定的方案來加強(qiáng)樹突連接強(qiáng)度,從而“記住”這個(gè)樣本。BP神經(jīng)網(wǎng)絡(luò)是通過問題空間的梯度下降搜索來逼近這個(gè)神經(jīng)網(wǎng)絡(luò)編碼方案的,這導(dǎo)致時(shí)間開銷很大[5],并且找到的編碼方案很可能是局部最優(yōu)點(diǎn)而非全局最優(yōu)點(diǎn)。

那么能否通過計(jì)算的方式直接找到這個(gè)全局最佳編碼呢?在第1節(jié)的前提與假設(shè)成立的情況下,理論上是可以通過計(jì)算直接找到這全局最優(yōu)編碼方案的??紤]最簡單的樣本x=(x1,x2),其中xi是[0,1]區(qū)間的任意值?,F(xiàn)實(shí)中每個(gè)神經(jīng)元的樹突分支資源(可以形成的突出數(shù)量)是有限的,因此問題就變?yōu)椋阂粋€(gè)神經(jīng)元怎樣將其恒定的突觸分支資源分配到x1和x2,才能使得自身輸入向量x被最大限度地激發(fā)呢?這是一個(gè)典型的資源優(yōu)化配置問題,如果突觸連接強(qiáng)度是線性增長的,那么神經(jīng)元傾向于將所有突觸分支資源都分配給數(shù)值最大的元素xi,達(dá)不到“記住”輸入模式x的目的。因此資源必須分散到每個(gè)輸入信號xi,此時(shí)式(2)應(yīng)該是一個(gè)單調(diào)增長的凸函數(shù)。將式(1)、式(2)聯(lián)立,并加入樹突分支資源守恒的約束條件可以得到式(3)。問題抽象為:求出使得f(si)取得最大值的si。很明顯最佳的si與xi應(yīng)該是正相關(guān)的。

(3)

這種突觸資源分配方案不同于ART等傳統(tǒng)模型,ART對單個(gè)神經(jīng)元的樹突連接強(qiáng)度做了歸一化處理,即單個(gè)神經(jīng)元的所有樹突連接強(qiáng)度的總和是一個(gè)恒定值[6]。而IncNet模型中式(2)決定了單個(gè)神經(jīng)元所有樹突連接強(qiáng)度總和不恒定,恒定的是單個(gè)神經(jīng)元樹突分支資源總和。通過這種方式,IncNet模型將神經(jīng)編碼問題轉(zhuǎn)化為了資源優(yōu)化配置問題。

2.1.2 神經(jīng)元激勵函數(shù)的統(tǒng)計(jì)意義

假設(shè)一個(gè)物體有許多特征,并且某一時(shí)刻只有其中的n個(gè)特征是可見的,那么在此條件下可以正確認(rèn)定這個(gè)物體的概率是多少呢?可以計(jì)算出這個(gè)概率是:

P(O)=P(O1+O2+…+Ox)=1-P(O1O2…On)= 1-P(O1)P(O2)…

其中,O和Ai分別表示物體及物體的一個(gè)特征發(fā)生這個(gè)隨機(jī)事件。這個(gè)式子可以進(jìn)一步簡化為式(4),其中xi=lgP(Oi)。

(4)

對照式(1)中的神經(jīng)元激勵函數(shù)可以看出:神經(jīng)元和樹突的信號量分別對應(yīng)概率P(O)和P(Oi)。即神經(jīng)元信號可以表示物體的發(fā)生概率,而樹突信號表示物體某個(gè)特征發(fā)生的概率,因此式(1)具有統(tǒng)計(jì)學(xué)意義。

2.1.3 突觸連接強(qiáng)度的統(tǒng)計(jì)意義

式(2)中的突觸連接權(quán)值變化曲線同樣具有統(tǒng)計(jì)意義。根據(jù)樣本分布的時(shí)空局部性假設(shè),樣本在時(shí)間分布上具有時(shí)間局部性的特點(diǎn)。假設(shè)一個(gè)信號出現(xiàn)一次時(shí)對應(yīng)的特征具有某個(gè)置信度c,當(dāng)這個(gè)信號多次重復(fù)出現(xiàn)的時(shí)候,特征信號的置信度c也會增高。具體來說,假設(shè)一個(gè)信號到目前為止出現(xiàn)了m次,那么與式(4)的推理過程類似,可以得到相應(yīng)特征的置信度為:

w=c3(1-e-c4m)

(5)

對照式(2)、式(5)可知,突觸連接的強(qiáng)度對應(yīng)物體某一特征的置信度,這個(gè)置信度隨著刺激信號的重復(fù)出現(xiàn)而持續(xù)地非線性增長。

2.1.4 側(cè)向競爭與“異或問題”

傳統(tǒng)的單層感知機(jī)存在“異或問題”,即單層感知機(jī)無法表示簡單的異或函數(shù),這意味著這個(gè)模型的表示能力非常有限[13]。但是在IncNet模型中,單層網(wǎng)絡(luò)就可以表示異或函數(shù),如圖1所示。實(shí)際上可以證明,單層網(wǎng)絡(luò)的IncNet模型可以表示任意布爾函數(shù)。

(6)

具體來說,任意邏輯表達(dá)式可以轉(zhuǎn)換成式(6)的形式,其中aj是原子公式或者其否定形式。由于輸入向量是由互斥的神經(jīng)元對構(gòu)成,如圖1所示,pi可以使用輸出層的單個(gè)神經(jīng)元來表示。只要輸出層神經(jīng)元之間是“或”或者“異或”的關(guān)系,P就可以使用單層網(wǎng)絡(luò)來表示。由于輸出層神經(jīng)元也是互斥的,這個(gè)“異或”關(guān)系很容易達(dá)成。實(shí)際上,可以認(rèn)為圖1中的神經(jīng)元y1,y2和y3分別表示異或函數(shù)真值表中的一行,所以圖1的網(wǎng)絡(luò)就可以表示“異或”函數(shù)。而異或函數(shù)真值表中輸出為0的那些行可以用抑制性神經(jīng)元(即“與非門”)來表示或者省略。

圖1 單層網(wǎng)絡(luò)表示異或函數(shù)Fig.1 Single layer network representing “XOR” function

從圖1中可以看出,競爭導(dǎo)致IncNet的每一層神經(jīng)元向量都是稀疏的[14]。單個(gè)神經(jīng)元僅能表示邏輯函數(shù)真值表中的一行,而傳統(tǒng)模型中單個(gè)神經(jīng)元即可表示整個(gè)線性邏輯函數(shù)。與傳統(tǒng)模型相比,Incnet模型表示能力更強(qiáng),而代價(jià)是需要更多數(shù)量的神經(jīng)元。從信息論的角度看,IncNet模型中的神經(jīng)元脈沖信號是單值而非二值的,即一個(gè)神經(jīng)元只能表示半比特信息,一比特信息需由兩個(gè)互斥的神經(jīng)元來表示。

2.2聚類算法

2.2.1 框架概述

模型如圖1所示,形式上與單層感知機(jī)比較類似,但是IncNet模型輸入向量中的元素存在互斥性而非獨(dú)立的。并且輸出層神經(jīng)元之間存在“勝者得全”的側(cè)向競爭。關(guān)鍵的不同在于IncNet模型精心選取的神經(jīng)元激勵函數(shù)和突觸連接權(quán)值調(diào)節(jié)函數(shù)使得這個(gè)神經(jīng)網(wǎng)絡(luò)模型建立在了較為嚴(yán)格的統(tǒng)計(jì)學(xué)基礎(chǔ)上。而BP網(wǎng)絡(luò)和ART網(wǎng)絡(luò)等傳統(tǒng)模型的神經(jīng)元激勵函數(shù)一般是通過經(jīng)驗(yàn)設(shè)定的,通常來說激勵函數(shù)是一個(gè)S型的曲線即可。ART模型的突觸連接權(quán)值調(diào)節(jié)函數(shù)也是經(jīng)驗(yàn)式的,并且突觸強(qiáng)度會采取歸一化的措施。BP網(wǎng)絡(luò)則完全沒有突觸連接權(quán)值調(diào)節(jié)函數(shù),是根據(jù)誤差梯度下降的原則來“試探”得到突觸連接權(quán)值的。

2.2.2 算法流程

聚類算法的整體思想是:尋找與當(dāng)前樣本最相似的聚類,根據(jù)當(dāng)前樣本調(diào)整這個(gè)聚類的質(zhì)心使之變得與當(dāng)前樣本更接近。IncNet聚類算法避免了像BP算法一樣在問題空間上進(jìn)行誤差梯度下降式搜索,所有的樣本只需要逐個(gè)進(jìn)入模型訓(xùn)練一遍即可,因此理論上訓(xùn)練速度會非常快。聚類算法的具體過程如圖2所示。每個(gè)神經(jīng)元表示一個(gè)聚類,輸入樣本依次進(jìn)入IncNet網(wǎng)絡(luò)模型進(jìn)行檢索,根據(jù)匹配的相似度和一個(gè)閾值參數(shù)共同決定是否新建一個(gè)新的神經(jīng)元或者更新現(xiàn)有的神經(jīng)元。這個(gè)閾值參數(shù)實(shí)際上控制著聚類的粒度和聚類的數(shù)量。

圖2 聚類算法流程圖Fig.2 Process of clustering algorithm

根據(jù)式(2)可知,在聚類過程中突觸連接強(qiáng)度是單調(diào)增長的,所以新學(xué)習(xí)的知識不會導(dǎo)致已經(jīng)學(xué)習(xí)的舊知識的遺忘,從而避免了BP算法中存在的“遺忘災(zāi)難”問題[4]。ART模型對連接強(qiáng)度進(jìn)行了歸一化處理,因此它的突觸連接強(qiáng)度不是單調(diào)增長的,這導(dǎo)致ART模型只能在一定程度上調(diào)和 “遺忘災(zāi)難”的問題而無法徹底解決該問題。ART模型對連接強(qiáng)度進(jìn)行歸一化處理是為了避免學(xué)習(xí)過程中的“偏置”,即最先學(xué)習(xí)的知識會占據(jù)優(yōu)勢。而正如第2.1.3節(jié)所述,在時(shí)空局部性假設(shè)成立的前提下,這種“偏置”在IncNet模型中具有重要的統(tǒng)計(jì)意義。

2.3 意義

IncNet模型是一個(gè)純粹的產(chǎn)生式模型,并且每個(gè)神經(jīng)元只與它直接連接的神經(jīng)元之間交換信息,因此模型具有良好的可擴(kuò)展性。IncNet模型可以縱向擴(kuò)展成包含多個(gè)層次的深度網(wǎng)絡(luò),相鄰的層間可以采取類似卷積網(wǎng)絡(luò)的結(jié)構(gòu):每個(gè)神經(jīng)元只與前一層的部分神經(jīng)元連接,而不是全連接。并且IncNet模型從理論上提供了這樣一個(gè)有益的結(jié)論:對符合時(shí)空局部性假設(shè)的樣本數(shù)據(jù),存在更快速的辦法來進(jìn)行神經(jīng)網(wǎng)絡(luò)的無監(jiān)督學(xué)習(xí)。這對深度學(xué)習(xí)中無監(jiān)督預(yù)訓(xùn)練具有重要意義。傳統(tǒng)深度網(wǎng)絡(luò)中,這種預(yù)訓(xùn)練一般是通過梯度下降的方法來進(jìn)行的,因此時(shí)間復(fù)雜度很高。此外,IncNet模型在生物神經(jīng)學(xué)方面也有一定的意義。相比BP模型,IncNet模型與現(xiàn)有神經(jīng)學(xué)實(shí)驗(yàn)證據(jù)吻合度更高。并且作為一個(gè)產(chǎn)生式模型, IncNet更容易在生物學(xué)和物理學(xué)層面進(jìn)行實(shí)現(xiàn)[4]。

3 實(shí)驗(yàn)及分析

為了檢驗(yàn)新算法的實(shí)際效果和時(shí)空開銷,在兩個(gè)常用的數(shù)據(jù)集上與目前主流聚類算法進(jìn)行比較。這兩個(gè)數(shù)據(jù)集原本是為批量學(xué)習(xí)任務(wù)設(shè)計(jì)的,但是通過將整個(gè)數(shù)據(jù)集分多次輸入一個(gè)學(xué)習(xí)模型也可以用來檢測增量式學(xué)習(xí)模型的性能。整個(gè)實(shí)驗(yàn)分兩部分:3.2節(jié)將每個(gè)數(shù)據(jù)集視為批量數(shù)據(jù),檢測新算法在批量學(xué)習(xí)任務(wù)中的性能。3.3節(jié)基于3.2節(jié)的實(shí)驗(yàn)結(jié)果,著重分析對比新算法與傳統(tǒng)算法在增量式任務(wù)上的表現(xiàn)。

3.1 數(shù)據(jù)集與評價(jià)指標(biāo)

目前IncNet模型只能處理離散型數(shù)據(jù),并且沒有對程序框架進(jìn)行時(shí)間開銷方面的優(yōu)化。在實(shí)現(xiàn)的時(shí)候進(jìn)行了一定程度的簡化,比如式(3)的最優(yōu)解與向量元素之間的約束關(guān)系相關(guān),實(shí)現(xiàn)的時(shí)候?qū)⑵浣频睾喕癁閟i=cxi, 即分配的資源數(shù)量與輸入信號強(qiáng)度成正比例關(guān)系。另外,IncNet模型是通過相似度閾值來控制聚類粒度的,而K-means等算法是通過設(shè)置聚類數(shù)量來控制聚類粒度的。實(shí)驗(yàn)中的做法是:先將IncNet的聚類數(shù)調(diào)節(jié)到一個(gè)適中數(shù)值,然后其他所有算法都將聚類數(shù)調(diào)整到同一數(shù)量進(jìn)行比較。

Weka是著名機(jī)器學(xué)習(xí)平臺[15],實(shí)驗(yàn)選擇了Weka平臺中的經(jīng)典聚類算法K-means和期望最大化(Expectation Maximization, EM)作為比較對象,使用的數(shù)據(jù)集是來自Weka中的vote和breast-cancer兩個(gè)數(shù)據(jù)集。實(shí)驗(yàn)使用精度作為評價(jià)指標(biāo)。具體地說,將標(biāo)注好的數(shù)據(jù)集的標(biāo)簽全部去掉,再使用不同聚類模型對這些數(shù)據(jù)進(jìn)行聚類。假設(shè)對于第i個(gè)聚類,其中相同標(biāo)簽數(shù)量最多的樣本有ni個(gè),而所有聚類的總數(shù)量有n個(gè),那么精度為:

(7)

3.2 批量學(xué)習(xí)任務(wù)實(shí)驗(yàn)結(jié)果

3.2.1 數(shù)據(jù)集vote上的批量學(xué)習(xí)效果

投票數(shù)據(jù)集vote來自1984年美國國會的投票記錄[16],共包含435個(gè)樣本數(shù)據(jù),每個(gè)樣本包含16個(gè)布爾類型的屬性。本實(shí)驗(yàn)中主要檢測聚類算法的批量學(xué)習(xí)性能,vote數(shù)據(jù)集一次性全部輸入每個(gè)模型進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果見表1。

表1 vote數(shù)據(jù)集上的結(jié)果

可以看出,在聚類粒度相同的前提下,IncNet模型的精度和時(shí)間開銷都介于K-means與EM之間。這個(gè)結(jié)論在聚類數(shù)分別為8和5時(shí)都是成立的,稍有不同的是較小的聚類數(shù)會導(dǎo)致時(shí)間開銷的降低。

3.2.2 數(shù)據(jù)集breast-cancer上的批量學(xué)習(xí)效果

乳腺癌數(shù)據(jù)集breast-cancer 于1988年發(fā)布,來自南斯拉夫的醫(yī)學(xué)中心大學(xué)腫瘤學(xué)院[17],共包含286個(gè)樣本,每個(gè)樣本包含9個(gè)枚舉類型的屬性。作為批量學(xué)習(xí)任務(wù),breast-cancer數(shù)據(jù)集一次性全部輸入每個(gè)模型進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果見表2。

表2 breast-cancer數(shù)據(jù)集上的結(jié)果

可以看出這三個(gè)模型在breast-cancer數(shù)據(jù)集上的表現(xiàn)與vote數(shù)據(jù)集上的表現(xiàn)非常類似,IncNet模型的精度和時(shí)間開銷仍然介于K-means與EM之間。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:在批量學(xué)習(xí)任務(wù)上,IncNet模型具有與K-means、EM等常用聚類算法相當(dāng)?shù)木群蜁r(shí)間開銷。

3.3 增量學(xué)習(xí)任務(wù)上的效果

增量學(xué)習(xí)與批量學(xué)習(xí)的主要區(qū)別是已經(jīng)訓(xùn)練好的模型對待新輸入數(shù)據(jù)的方式。增量學(xué)習(xí)模型直接在已有模型基礎(chǔ)上進(jìn)行學(xué)習(xí)。而批量學(xué)習(xí)模型則需要拋棄已有模型,將新數(shù)據(jù)與舊數(shù)據(jù)并在一起重新學(xué)習(xí)。將一個(gè)數(shù)據(jù)集比如vote分為多次輸入學(xué)習(xí)模型,實(shí)際上這就變?yōu)橐粋€(gè)增量學(xué)習(xí)任務(wù)了。極端情況下,vote數(shù)據(jù)集可以分435次輸入,即每次只輸入一條新的數(shù)據(jù)。

K-means與EM是批量學(xué)習(xí)模型,因?yàn)樗鼈冃枰谝淮涡暂斎氲乃袛?shù)據(jù)上進(jìn)行反復(fù)迭代。為了檢驗(yàn)它們在增量學(xué)習(xí)任務(wù)上的性能,可以通過下述方式將其改造為增量學(xué)習(xí)模型:將已經(jīng)學(xué)習(xí)過的樣本數(shù)據(jù)存儲起來,每當(dāng)遇到新輸入的數(shù)據(jù),就將新數(shù)據(jù)與存儲的舊數(shù)據(jù)并在一起重新訓(xùn)練模型。在這種條件下,IncNet、K-means與EM的精度仍然如表1和表2所示。此時(shí)IncNet的時(shí)空開銷不變,但是K-means與EM的時(shí)空開銷發(fā)生了較大變化。具體說來,它們產(chǎn)生了額外的存儲n個(gè)樣本的空間開銷。而K-means與EM模型在表1與表2中的時(shí)間開銷就變?yōu)樗鼈儗W(xué)習(xí)最后單獨(dú)一條樣本數(shù)據(jù)時(shí)的時(shí)間開銷,因此總的時(shí)間開銷要比表中數(shù)值大得多??梢姡谠隽繉W(xué)習(xí)任務(wù)上,IncNet的精度與常用聚類算法相當(dāng),但是在時(shí)間和空間開銷上具有很大的優(yōu)勢。

4 結(jié)論

本文通過借鑒生物神經(jīng)學(xué)實(shí)驗(yàn)證據(jù),提出了全新的增量式神經(jīng)網(wǎng)絡(luò)模型及其聚類算法。通過引入新的神經(jīng)元激勵函數(shù)與突觸連接權(quán)值調(diào)節(jié)函數(shù),賦予神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法以嚴(yán)格的統(tǒng)計(jì)意義。嘗試將神經(jīng)網(wǎng)絡(luò)強(qiáng)大的問題表示能力與統(tǒng)計(jì)學(xué)習(xí)理論進(jìn)行結(jié)合,為新型神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的研發(fā)提供了新的視角。在此基礎(chǔ)上提出了一種快速增量無監(jiān)督聚類算法。在經(jīng)典數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,在批量學(xué)習(xí)任務(wù)中,IncNet與K-means等算法的精度和時(shí)空開銷相當(dāng)。但是在增量式學(xué)習(xí)任務(wù)中,IncNet模型在時(shí)空開銷方面具有較大優(yōu)勢。

References)

[1] Xie S X, Wang T. Construction of unsupervised sentiment classifier on idioms resources[J]. Journal of Central South University, 2014, 21(4): 1376-1384.

[2] Wang X, Jia Y, Chen R, et al. Improving text categorization with semantic knowledge in Wikipedia[J]. IEICE Transection on Information System, 2013, 96(12): 2786-2794.

[3] 張志, 廖瑛, 余越. BP神經(jīng)網(wǎng)絡(luò)在極移預(yù)報(bào)中的應(yīng)用[J]. 國防科技大學(xué)學(xué)報(bào), 2015, 37(2): 156-160.

ZHANG Zhi, LIAO Ying, YU Yue. Application of BP neural network model in prediction of polar motion[J]. Journal of National University of Defense Technology, 2015, 37(2):156-160.(in Chinese)

[4] Grossberg S. Adaptive resonance theory: how a brain learns to consciously attend, learn, and recognize a changing world[J]. Neural Networks, 2012, 37: 1-47.

[5] Rumelhart D E, McClelland J L. Parallel distributed processing: exploration in the microstructure of cognition[M]. USA: MIT Press, 1988.

[6] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18: 1527-1554.

[7] Warren S S. Why statisticians should not FART [EB/OL]. (1995)[2015-09-10]. ftp://ftp.sas.com/pub/neural/fart.txt.

[8] Liu P L, Tang J T, Wang T. Information current in Twitter: which brings hot events to the world[C]// Proceedings of 22nd International World Wide Web, 2013: 111-112.

[9] Hodgkin A L, Huxley A F. A quantitative description of membrane current and its application to conduction and excitation in nerve[J]. Bulletin of Mathematical Biology, 1990, 52(1/2): 25-71.

[10] 劉開宇, 侯振挺. 一類具M(jìn)-P型非線性二元神經(jīng)網(wǎng)絡(luò)模型的周期解[J]. 國防科技大學(xué)學(xué)報(bào), 2008, 30(4): 129-132.LIU Kaiyu, HOU Zhenting. The periodic solution of a neural networks of two neurons with McCulloch-Pitts nonlinearity[J]. Journal of National University of Defense Technology, 2008, 30(4): 129-132. (in Chinese)

[11] Bienenstock E L, Cooper L N, Munro P W. Theory for the development of neuron selectivity: orientation specificity and binocular interaction in visual cortex[J].Journal of Neuroscience the Official, 1982, 2(1): 32-48.

[12] Gross C G. Genealogy of the “grandmother cell”[J]. Neuroscientist, 2002, 8(5): 512-518.

[13] Minsky S P. Perceptrons: an introduction to computational geometry[M]. UAS: MIT Press, 1972.

[14] Olshausen B A. Sparse codes and spikes[J]. MIT Press, 2002: 257-272.

[15] Hall M, Frank E, Holmes G, et al. The WEKA data mining software: an update[J].ACM Sigkdd Explorations Newsletter, 2009, 11(1): 10-18.

[16] Schlimmer J C. Concept acquisition through representational adjustment[D]. USA: University of California, 1987.

[17] Tan M, Eshelman L. Using weighted networks to represent classification knowledge in noisy domains[C]//Proceedings of the Fifth International Conference on Machine Learning, 1988: 121-134.

Incremental clustering algorithm of neural network

LIU Peilei1,2, TANG Jintao1, XIE Songxian1, WANG Ting1

(1. College of Computer, National University of Defense Technology, Changsha 410073, China;2. Teaching and Research Section of Information Resource Management, Department of Information Construction,Academy of National Defense Information, Wuhan 430010, China)

Neural network model is powerful in problem modelling. But the traditional back propagating algorithm can only execute batch supervised learning, and its time expense is very high. According to these problems, a novel incremental neural network model and the corresponding clustering algorithm were put forward. This model was supported by biological evidences, and it was built on the foundation of novel neuron’s activation function and the synapse adjusting function. Based on this, an adaptive incremental clustering algorithm was put forward, in which mechanisms such as “winner-take-all” were introduced. As a result, “catastrophic forgetting” problem was successfully solved in the incremental clustering process. Experiment results on classic datasets show that this algorithm’s performance is comparable with traditional clustering models such as K-means. Especially, its time and space expenses on incremental tasks are much lower than traditional clustering models.

neural network; incremental learning; clustering algorithm; time expense

10.11887/j.cn.201605021

http://journal.nudt.edu.cn

2015-09-28

國家自然科學(xué)基金資助項(xiàng)目(61532001,61472436)

劉培磊(1984—),男,江蘇連云港人,博士研究生,E-mail:plliu@nudt.edu.cn;王挺(通信作者),男,教授,博士,博士生導(dǎo)師,E-mail:tingwang@nudt.edu.cn

TP393

A

1001-2486(2016)05-137-06

猜你喜歡
增量神經(jīng)元聚類
提質(zhì)和增量之間的“辯證”
《從光子到神經(jīng)元》書評
自然雜志(2021年6期)2021-12-23 08:24:46
“價(jià)增量減”型應(yīng)用題點(diǎn)撥
躍動的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于均衡增量近鄰查詢的位置隱私保護(hù)方法
基于改進(jìn)的遺傳算法的模糊聚類算法
基于二次型單神經(jīng)元PID的MPPT控制
毫米波導(dǎo)引頭預(yù)定回路改進(jìn)單神經(jīng)元控制
德州儀器(TI)發(fā)布了一對32位增量-累加模數(shù)轉(zhuǎn)換器(ADC):ADS1262和ADS126
磴口县| 德保县| 改则县| 惠水县| 金乡县| 泗阳县| 青龙| 临武县| 茶陵县| 报价| 卢湾区| 遵化市| 南丹县| 林芝县| 舟曲县| 台北市| 隆化县| 泗阳县| 东光县| 澄城县| 高要市| 濮阳县| 清水河县| 罗城| 从江县| 社旗县| 汽车| 广丰县| 大兴区| 宁化县| 岳池县| 六安市| 商洛市| 连城县| 英德市| 曲水县| 承德县| 巴彦县| 沂源县| 恩施市| 吉安市|