国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

膠囊神經(jīng)網(wǎng)絡(luò)研究現(xiàn)狀與未來(lái)的淺析

2021-02-04 14:15賀文亮朱敏玲
關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)路由卷積

賀文亮,朱敏玲

北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京100101

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一部分,隨著大數(shù)據(jù)時(shí)代的到來(lái)和GPU 技術(shù)的進(jìn)步,深度學(xué)習(xí)廣泛應(yīng)用于圖像識(shí)別、圖像分類(lèi)、圖像分割、目標(biāo)檢測(cè)[1]、身份認(rèn)證[2]、知識(shí)圖譜[3]、自然語(yǔ)言處理、語(yǔ)音識(shí)別、文本分類(lèi)[4]等各個(gè)領(lǐng)域。與傳統(tǒng)的機(jī)器學(xué)習(xí)算法相比,深度學(xué)習(xí)的優(yōu)越性在于其卓越的準(zhǔn)確性。從圖像分類(lèi)到自然語(yǔ)言處理,深層神經(jīng)網(wǎng)絡(luò)正被應(yīng)用于不同的領(lǐng)域。人們對(duì)人工神經(jīng)網(wǎng)絡(luò)進(jìn)行了研究,開(kāi)發(fā)了不同類(lèi)型的神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),它們已經(jīng)應(yīng)用于不同的應(yīng)用領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)的引入是神經(jīng)網(wǎng)絡(luò)重新流行的原因之一??墒茄芯堪l(fā)現(xiàn)它存在一個(gè)根本性的問(wèn)題,即無(wú)法考慮到底層目標(biāo)特征之間的空間關(guān)系。由于在卷積神經(jīng)網(wǎng)絡(luò)中,上一層神經(jīng)元傳遞到下一層神經(jīng)元中的是標(biāo)量,標(biāo)量沒(méi)有方向,無(wú)法表示出高層特征與低層特征之間的位姿關(guān)系。另外,它的池化層會(huì)丟失大量有價(jià)值的信息,因此卷積神經(jīng)網(wǎng)絡(luò)存在較大的局限性。2017年,Geoffrey Hinton 在神經(jīng)網(wǎng)絡(luò)架構(gòu)中引入了一個(gè)新概念——膠囊網(wǎng)絡(luò)。

膠囊網(wǎng)絡(luò)是近年來(lái)為克服卷積神經(jīng)網(wǎng)絡(luò)存在的缺陷而引入的神經(jīng)網(wǎng)絡(luò)之一,它以向量的形式來(lái)表示部分與整體之間的關(guān)系,不僅能夠以特征響應(yīng)的強(qiáng)度來(lái)表示圖像,還能夠表征圖像特征的方向、位置等信息。同時(shí),膠囊網(wǎng)絡(luò)采用囊間動(dòng)態(tài)路由算法,取代傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中的最大池化法,避免了圖像因池化導(dǎo)致精確位置信息的丟失。因此,膠囊網(wǎng)絡(luò)以其獨(dú)特魅力迅速成為深度學(xué)習(xí)領(lǐng)域的一項(xiàng)熱門(mén)技術(shù),眾多科研人員紛紛致力于對(duì)其進(jìn)行深入研究。

圖1 LeNet-5神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

1 卷積神經(jīng)網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)

1.1 卷積神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)早期在圖像分割、圖像分類(lèi)和識(shí)別等領(lǐng)域?qū)崿F(xiàn)都非常困難。在神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)過(guò)程中,它的隱藏層結(jié)構(gòu)需要人為進(jìn)行設(shè)計(jì),同時(shí)計(jì)算成本非常高。因此,為了解決這些問(wèn)題,LeCun 提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[5-6]。卷積神經(jīng)網(wǎng)絡(luò)成為神經(jīng)網(wǎng)絡(luò)研究熱點(diǎn)之一,尤其是在圖像分類(lèi)領(lǐng)域,由于CNN 避免了圖像的復(fù)雜預(yù)處理過(guò)程,并且可以直接輸入使用原始圖像,因此獲得了廣泛的關(guān)注[7-8]。

CNN 是一種深度神經(jīng)網(wǎng)絡(luò),它的結(jié)構(gòu)一般由輸入層、卷積層、池化層、全連接層和輸出層組成。卷積層以空間上下文感知的方式將多個(gè)低層特征編碼為更具區(qū)分性的高級(jí)特征,再通過(guò)池化層降低圖像的維數(shù),最終由全連接層作為分類(lèi)器對(duì)隱藏層的輸出進(jìn)行分類(lèi),輸出結(jié)果。因網(wǎng)絡(luò)結(jié)構(gòu)是人為設(shè)計(jì)的,沒(méi)有固定格式,因此網(wǎng)絡(luò)結(jié)構(gòu)過(guò)于復(fù)雜則會(huì)導(dǎo)致過(guò)擬合和梯度爆炸現(xiàn)象。

LeNet 是一類(lèi)特殊的卷積神經(jīng)網(wǎng)絡(luò),非常適合用于處理圖像數(shù)據(jù),但它只能處理高分辨率的灰度圖像。比較經(jīng)典的CNN 模型有LeNet-5、AlexNet、VGGNet、GoogLeNet、ResNet[9]以及DenseNet[10],以上均是LeNet的改進(jìn)版模型[11]。下面對(duì)LeNet-5、AlexNet、VGGNet、GoogLeNet進(jìn)行簡(jiǎn)單介紹。

(1)卷積神經(jīng)網(wǎng)絡(luò)LeNet-5[12]的結(jié)構(gòu)如圖1 所示,它由7層組成,每層均包含可訓(xùn)練的參數(shù)。其中,C為卷積層,S為池化層。

該網(wǎng)絡(luò)輸入大小為32×32的圖片,各層的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示。此網(wǎng)絡(luò)結(jié)構(gòu)是第一個(gè)成功用于MNIST手寫(xiě)數(shù)字識(shí)別的神經(jīng)網(wǎng)絡(luò),在MNIST 數(shù)據(jù)集上準(zhǔn)確率達(dá)到大約99.2%,由此CNN 迅速發(fā)展,出現(xiàn)了很多處理圖像的優(yōu)質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)。

表1 LeNet-5的各層網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)

(2)AlexNet[13]以圖像數(shù)據(jù)集分類(lèi)高準(zhǔn)確率的優(yōu)勢(shì)名聲大震。和現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相比,AlexNet的結(jié)構(gòu)非常簡(jiǎn)單,它由5 個(gè)卷積層、1 個(gè)最大池化層、dropout層[14]和3個(gè)全連接層組成,作者設(shè)計(jì)此網(wǎng)絡(luò)結(jié)構(gòu)用于1 000 個(gè)類(lèi)別的分類(lèi)。AlexNet 采用Relu[15]作為激活函數(shù),同時(shí)利用數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充數(shù)據(jù)集,并且為了解決模型的過(guò)擬合問(wèn)題,在結(jié)構(gòu)中增加了dropout層。

(3)VGGNet[16]是卷積神經(jīng)網(wǎng)絡(luò)的一種,為了表示信息的層次結(jié)構(gòu),它實(shí)現(xiàn)了一個(gè)深層網(wǎng)絡(luò)結(jié)構(gòu)。同時(shí),它還使用Relu作為每個(gè)卷積層后的激活函數(shù)。它采用的3×3 大小的濾波器和AlexNet 的11×11 大小的濾波器有很大區(qū)別,3個(gè)卷積層得到1個(gè)7×7的有效感受野,其在圖像分類(lèi)以及定位的操作中都能得到不錯(cuò)的結(jié)果。

(4)GoogLeNet[17]使用batch normalization,image distortions 和優(yōu)化算法rmsprop 等技術(shù)。為了減少參數(shù)數(shù)量,其結(jié)構(gòu)設(shè)定為22層,使用過(guò)程中在內(nèi)存和功耗等方面表現(xiàn)都很好。因?yàn)镃NN 的圖片是按順序堆疊的,該網(wǎng)絡(luò)設(shè)計(jì)時(shí)受到LeNet結(jié)構(gòu)的啟發(fā),實(shí)現(xiàn)了一個(gè)名字為Inception 的網(wǎng)絡(luò)模型。其整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中使用了9個(gè)模塊,共100多層。網(wǎng)絡(luò)結(jié)構(gòu)中還使用一個(gè)平均池化層,將特征圖大小從7×7×1 024變成1×1×1 024,此方法可減少大量參數(shù),最后選取softmax 作為激活函數(shù)。GoogLeNet的主要特點(diǎn)就是提升了計(jì)算資源的利用率。CNN 的迅速發(fā)展,對(duì)于圖像處理領(lǐng)域擴(kuò)大了不小的影響力,正是這種優(yōu)秀的圖像處理能力,使眾多學(xué)者紛紛投入對(duì)CNN的研究之中。但由此固化的網(wǎng)絡(luò)結(jié)構(gòu)所產(chǎn)生的問(wèn)題日益凸顯,經(jīng)典的CNN 模型已經(jīng)不能滿(mǎn)足當(dāng)前社會(huì)人工智能技術(shù)的需要。在醫(yī)療、金融、交通等領(lǐng)域,CNN 已經(jīng)不能很好地解決一些復(fù)雜的圖像處理的問(wèn)題,如圖像旋轉(zhuǎn)、指靜脈識(shí)別等。因此,為了解決CNN現(xiàn)有的問(wèn)題,膠囊網(wǎng)絡(luò)在此之上進(jìn)行改進(jìn),通過(guò)新的算法和網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步提升模型的能力,增加應(yīng)用場(chǎng)景,滿(mǎn)足圖像處理領(lǐng)域的需求。

1.2 膠囊網(wǎng)絡(luò)

1.2.1 膠囊網(wǎng)絡(luò)背景

上述介紹的所有卷積神經(jīng)網(wǎng)絡(luò)模型中,都存在一個(gè)根本性的缺點(diǎn),即從上一層至下一層傳遞的是標(biāo)量,導(dǎo)致CNN無(wú)法考慮到底層對(duì)象之間的空間關(guān)系。眾所周知標(biāo)量沒(méi)有方向,因此不能表示低層特征和高層特征的關(guān)系,同時(shí)CNN的池化層會(huì)丟失非常多的有用信息,因此CNN 在識(shí)別具有空間關(guān)系的特征時(shí)存在很大局限性。于是,2017年Hinton等人提出了一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):膠囊網(wǎng)絡(luò)(Capsule Network,CapsNet)[18],膠囊網(wǎng)絡(luò)是當(dāng)今圖像識(shí)別領(lǐng)域最先進(jìn)的技術(shù)之一,在CNN 的基礎(chǔ)上能夠達(dá)到更好的效果。

與CNN 不同的是,膠囊不再是以單個(gè)神經(jīng)元的形式出現(xiàn),而是一組神經(jīng)元的集合,這個(gè)集合可以是向量也可以是矩陣[19],膠囊和神經(jīng)元的差異如表2 所示。多個(gè)膠囊構(gòu)成一個(gè)隱藏層,深淺兩層隱藏層之間的關(guān)系則通過(guò)動(dòng)態(tài)路由算法確定。與卷積神經(jīng)網(wǎng)絡(luò)隱藏層中的特征圖不同,膠囊的組成形式非常靈活,動(dòng)態(tài)路由算法沒(méi)有固定的模版,并且是單獨(dú)計(jì)算深淺兩層隱藏層中每個(gè)膠囊之間的關(guān)系。動(dòng)態(tài)路由的計(jì)算方式?jīng)Q定了深淺兩層隱藏層之間是動(dòng)態(tài)連接的關(guān)系,因此模型可以自動(dòng)篩選更有效的膠囊,從而提高性能。CapsNet 解決了CNN對(duì)物體大幅度旋轉(zhuǎn)之后識(shí)別能力低下及物體之間的空間辨識(shí)度差的兩個(gè)缺陷。

表2 膠囊和神經(jīng)元的差異

1.2.2 膠囊網(wǎng)絡(luò)結(jié)構(gòu)

由Hinton等[18]提出的膠囊網(wǎng)絡(luò)模型,又稱(chēng)向量膠囊網(wǎng)絡(luò)。此膠囊網(wǎng)絡(luò)結(jié)構(gòu)較淺,由卷積層、PrimaryCaps(主膠囊)層、DigitCaps(數(shù)字膠囊)層構(gòu)成,結(jié)構(gòu)如圖2所示[18]。輸入部分為28×28的MNIST手寫(xiě)數(shù)字圖片,輸出部分是一個(gè)10維向量。其中,卷積層操作結(jié)束后,主膠囊層將卷積層提取出來(lái)的特征圖轉(zhuǎn)化成向量膠囊,隨后通過(guò)動(dòng)態(tài)路由算法將主膠囊層和數(shù)字膠囊層連接輸出最終結(jié)果。第一層卷積層使用的卷積核大小為9×9,深度為256,步長(zhǎng)為1,并且使用Relu激活函數(shù)。第二層主膠囊層采用8組大小為9×9,深度為32,步長(zhǎng)為2的卷積核,對(duì)第一層卷積后得到的特征圖進(jìn)行8 次卷積操作,得到8組6×6×32的特征圖,隨后將特征圖展平,最終得到向量神經(jīng)元大小為1 152×8,即1 152 個(gè)膠囊,每個(gè)膠囊由一個(gè)8 維向量組成。第三層全連接層輸出10 個(gè)16維向量的膠囊,由第二層主膠囊層經(jīng)過(guò)卷積操作后得到的膠囊通過(guò)動(dòng)態(tài)路由算法計(jì)算得出,圖2 中Wij為動(dòng)態(tài)路由的轉(zhuǎn)化矩陣。

圖2 膠囊網(wǎng)絡(luò)編碼器結(jié)構(gòu)圖

膠囊網(wǎng)絡(luò)允許多個(gè)分類(lèi)同時(shí)存在,因此不能再使用傳統(tǒng)交叉熵?fù)p失函數(shù),而是采用了間隔損失的方式作為損失函數(shù),間隔損失如公式(1)所示:

式中,Lk為經(jīng)過(guò)計(jì)算得到的間隔損失;Tk為第k分類(lèi)的存在值,若存在則取1,否則取0;m+、m-和λ分別取0.9、0.1、0.5。

CapsNet的解碼器結(jié)構(gòu)如圖3所示[18],解碼器用來(lái)重構(gòu)圖像,共有3個(gè)全連接層,接受DigitCaps層輸出的10個(gè)16 維向量,也就是16×10 矩陣,重構(gòu)出一幅和輸入層大小28×28相同的圖像。

圖3 膠囊網(wǎng)絡(luò)解碼器結(jié)構(gòu)圖

1.2.3 動(dòng)態(tài)路由算法

上文已介紹過(guò)膠囊是一組神經(jīng)元的集合,它的輸出是一個(gè)多維向量,因此它可以用來(lái)表示實(shí)體的一些屬性信息,其模長(zhǎng)可以用來(lái)表示實(shí)體出現(xiàn)概率,模長(zhǎng)值越大,表示該實(shí)體存在可能性越大。若實(shí)體的特征位置發(fā)生變化,膠囊輸出的向量對(duì)應(yīng)的模長(zhǎng)不會(huì)變化,只改變其方向,實(shí)現(xiàn)同變性。

神經(jīng)膠囊的工作原理如圖4 所示[20],可以簡(jiǎn)單概括為4個(gè)步驟,即矩陣轉(zhuǎn)化、輸入加權(quán)、加權(quán)求和以及非線(xiàn)性變換。

圖4 神經(jīng)膠囊工作過(guò)程圖

圖4 中ui為輸入向量,第一步即將此向量與矩陣Wij相乘得到向量Uj,做矩陣轉(zhuǎn)化。ui為輸入層圖片的低層特征,例如人臉的單個(gè)實(shí)體部分,比如嘴、鼻子、眼睛等。而Wij包含低層特征和高層特征的空間關(guān)系以及其他重要關(guān)系,通過(guò)矩陣轉(zhuǎn)化操作得到向量Um,即高級(jí)特征。

式中,cij表示膠囊i連接至膠囊j的連接概率;bij表示膠囊i連接至膠囊j的先驗(yàn)概率。

cij是由softmax函數(shù)計(jì)算獲得的,softmax函數(shù)的結(jié)果是非負(fù)數(shù),且每個(gè)獨(dú)立的cij相加總和為1,因此c表示概率,softmax函數(shù)計(jì)算方法如公式(3)所示。

式中,sj表示l層膠囊的總輸入。

式中,vj表示l+1 層的膠囊輸出。

第四步就是對(duì)sj進(jìn)行非線(xiàn)性變換得到vj,采用激活函數(shù)如公式(5)所示,其中公式中第一部分的作用是壓縮,如果sj很長(zhǎng),第一項(xiàng)約等于1,反之如果sj很短,第一項(xiàng)約等于0。第二部分的作用是將向量sj單位化,因此第二項(xiàng)的長(zhǎng)度為1。此步驟的主要功能就是控制vj的長(zhǎng)度不超過(guò)1,同時(shí)保持vj和sj同方向。經(jīng)過(guò)此步驟,輸出向量vj的長(zhǎng)度在0~1之間,因此可通過(guò)vj的長(zhǎng)度確定具有某個(gè)特征的概率。

在動(dòng)態(tài)路由第一次迭代過(guò)程中,因bij都被初始化為0,耦合系數(shù)cij此時(shí)都相等,所以l層的膠囊i要傳遞給l+1 層中的哪個(gè)高級(jí)膠囊j的概率是平等的。經(jīng)過(guò)這四個(gè)工作步驟,最終以的結(jié)果來(lái)更新bij,經(jīng)過(guò)r次迭代后,輸出vj。

動(dòng)態(tài)路由算法偽代碼如下:

動(dòng)態(tài)路由算法作為膠囊網(wǎng)絡(luò)的核心,對(duì)于整個(gè)膠囊網(wǎng)絡(luò)的應(yīng)用起到了決定性的作用。正是膠囊網(wǎng)絡(luò)使用這種非模板化的算法,使得模型在對(duì)圖像、文字等目標(biāo)進(jìn)行識(shí)別時(shí),可以將目標(biāo)姿態(tài)、形狀、位置等關(guān)鍵信息進(jìn)行學(xué)習(xí),盡可能多地學(xué)習(xí)到目標(biāo)的特征,同時(shí)保留重要特征,不輕易丟棄任何一個(gè)有用特征。因此,動(dòng)態(tài)路由算法超越CNN 的固有卷積模式,膠囊網(wǎng)絡(luò)成為當(dāng)前人工智能領(lǐng)域最先進(jìn)的技術(shù)之一。

2 膠囊網(wǎng)絡(luò)的應(yīng)用和優(yōu)化

2.1 圖像識(shí)別

計(jì)算機(jī)的圖像識(shí)別過(guò)程通常分為兩大步驟:圖像特征提取和圖像分類(lèi)預(yù)測(cè)。首先對(duì)輸入圖片進(jìn)行預(yù)處理,處理為適合特征提取的形式,然后再提取圖像的特征,隨后對(duì)特征圖像進(jìn)行分類(lèi)預(yù)測(cè),過(guò)程如圖5所示[21]。

圖5 圖像識(shí)別過(guò)程

圖像預(yù)處理操作的意義主要是為了增強(qiáng)目標(biāo)圖像信息,同時(shí)可以減少很多干擾,能夠更好地進(jìn)行圖像特征提取?;谏疃葘W(xué)習(xí)的圖像分類(lèi)方法和傳統(tǒng)的圖像分類(lèi)方法相比的關(guān)鍵優(yōu)勢(shì)在于,其能通過(guò)深層架構(gòu)自動(dòng)學(xué)習(xí)更多深層含義的數(shù)據(jù)特征,無(wú)需人工干預(yù)即可找到特征,效果顯著地增強(qiáng)了圖像分類(lèi)的效果。目前常用于圖像分類(lèi)的數(shù)據(jù)集如表3所示,由上至下在數(shù)據(jù)量和復(fù)雜程度上逐漸遞增。

2.1.1 CNN和膠囊網(wǎng)絡(luò)應(yīng)用對(duì)比

為了探究經(jīng)典CNN模型和膠囊網(wǎng)絡(luò)識(shí)別精度的差異性,Anuradha 等[26]比較了4 種模型AlexNet、VGGNet和GoogleNet 與CapsNet 在擴(kuò)展MNIST 數(shù)據(jù)集上的應(yīng)用,同時(shí)展示了膠囊網(wǎng)絡(luò)在目標(biāo)檢測(cè)中的最高精度,并證明膠囊網(wǎng)絡(luò)只需要少量的數(shù)據(jù)就可以提供更好的性能。其使用的數(shù)據(jù)集是擴(kuò)展MNIST(EMNIST)[27],EMNIST 是一組手寫(xiě)字符數(shù)字,從NIST 專(zhuān)用數(shù)據(jù)庫(kù)19中提取,并轉(zhuǎn)換為28×28像素的圖像格式。此數(shù)據(jù)集中提供了6 種不同的拆分,它們是ByClass、ByMerge、Balanced、字母、數(shù)字和MNIST,EMNIST 語(yǔ)料庫(kù)的示例如圖6 所示[26]。實(shí)驗(yàn)中使用了EMNIST Balanced數(shù)據(jù)集,EMNIST Balanced數(shù)據(jù)集包含一組字符,每個(gè)類(lèi)具有相同數(shù)量的樣本。它包含47 個(gè)類(lèi),131 600 個(gè)圖像分為112 800個(gè)訓(xùn)練圖像和18 800個(gè)測(cè)試圖像。

表3 不同數(shù)據(jù)集的特點(diǎn)

圖6 EMNIST語(yǔ)料庫(kù)

此研究將Balanced EMNIST數(shù)據(jù)集分為50%、75%和100%分別進(jìn)行測(cè)試,CapsNet在測(cè)試結(jié)果中的精度分別為95.7%、98.9%、99.7%。研究表明,CapsNet 帶來(lái)了總體上最好的性能,其準(zhǔn)確率超過(guò)其他所有模型,在識(shí)別圖像中得到了較好的效果。

2.1.2 CNN結(jié)合膠囊層的應(yīng)用

通過(guò)將現(xiàn)有CNN模型與膠囊網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)合方式可以提升識(shí)別精度,Hollósi等[28]選取了VGG、ResNet和DenseNet三種魯棒性很強(qiáng)的神經(jīng)網(wǎng)絡(luò),通過(guò)增加膠囊層的方式來(lái)提升神經(jīng)網(wǎng)絡(luò)的精度,與未增加膠囊層的原始網(wǎng)絡(luò)進(jìn)行精度對(duì)比。每個(gè)神經(jīng)網(wǎng)絡(luò)模型中均使用包含兩層膠囊層的相同膠囊塊,膠囊塊第一層包括256個(gè)卷積核,第二層包含10 個(gè)膠囊,輸出向量為16 維,采用動(dòng)態(tài)路由算法,共有3 條路由。分別使用CIFAR-10 和MNIST 數(shù)據(jù)集進(jìn)行測(cè)試,兩個(gè)數(shù)據(jù)集均進(jìn)行了一些修改,將圖像旋轉(zhuǎn)24°、48°、72°、96°、120°、144°、168°、192°、216°、240°、264°、288°、312°和336°,同時(shí)隨機(jī)翻轉(zhuǎn)圖像水平和垂直方向。測(cè)試時(shí)采用不同的數(shù)據(jù)集大小,分別為(1 250,250),(2 500,500),(5 000,1 000),(10 000,2 000),(20 000,4 000)和(50 000,10 000),第一個(gè)值為訓(xùn)練集的大小,第二個(gè)值為測(cè)試集大小。經(jīng)過(guò)測(cè)試,其中增加了膠囊層的DenseNet網(wǎng)絡(luò)在CIFAR-10數(shù)據(jù)集采用的(50 000,10 000)和(20 000,4 000)兩種大小方案中,分別由45.27%和36.88%提升至64.02%和59.98%。同時(shí)增加了膠囊層的DenseNet網(wǎng)絡(luò)在MNIST數(shù)據(jù)集中采用的(20 000,4 000)方案中精度提升最為明顯,由58.75%提升至95.35%。實(shí)驗(yàn)結(jié)果表明,使用修改后的數(shù)據(jù)集降低了神經(jīng)網(wǎng)絡(luò)原本的精度,使用膠囊塊可提升精度,采用膠囊單元的網(wǎng)絡(luò)普遍比傳統(tǒng)方法精度更高。采用膠囊層的神經(jīng)網(wǎng)絡(luò),訓(xùn)練速度比原始神經(jīng)網(wǎng)絡(luò)快,同時(shí)膠囊網(wǎng)絡(luò)識(shí)別旋轉(zhuǎn)物體相比傳統(tǒng)CNN 模型更具優(yōu)勢(shì)。

2.1.3 小規(guī)模數(shù)據(jù)集應(yīng)用

以深度學(xué)習(xí)為代表的人工智能技術(shù)正在蓬勃發(fā)展,并已應(yīng)用于很多領(lǐng)域。然而深度學(xué)習(xí)也有一些局限性:它更適合于大量的數(shù)據(jù),與小規(guī)模的數(shù)據(jù)集沒(méi)有特別的相關(guān)性。由此引出的一個(gè)問(wèn)題即深度學(xué)習(xí)是否適用于小數(shù)據(jù)訓(xùn)練一直是一個(gè)有爭(zhēng)議的話(huà)題。有學(xué)者提出,當(dāng)數(shù)據(jù)相對(duì)較少時(shí),深度學(xué)習(xí)的表現(xiàn)并不優(yōu)于其他傳統(tǒng)方法,相反,有時(shí)效果甚至比傳統(tǒng)方法差。某種程度上,這種說(shuō)法是正確的:深度學(xué)習(xí)需要從數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,通常只有在大量訓(xùn)練數(shù)據(jù)的情況下才有可能,尤其是對(duì)于一些輸入樣本高維的情況,例如圖像。

神經(jīng)網(wǎng)絡(luò)使用數(shù)據(jù)擴(kuò)充技術(shù)可以起到提升準(zhǔn)確率的作用,Zhang 等[29]以Kaggle 中的2 000 張“貓vs 狗”比賽的圖片作為訓(xùn)練數(shù)據(jù)集,同時(shí)額外選取400張進(jìn)行測(cè)試,根據(jù)數(shù)據(jù)集的特點(diǎn),對(duì)數(shù)據(jù)集采用了幾種預(yù)處理技術(shù),包括最大最小范數(shù)、調(diào)整大小和數(shù)據(jù)擴(kuò)充等。使用數(shù)據(jù)擴(kuò)充技術(shù)后,模型不會(huì)發(fā)現(xiàn)任何兩幅完全相同的圖像,這將有助于抑制過(guò)度擬合,使模型更具普遍性。最后采用CNN 和CapsNet 對(duì)使用了數(shù)據(jù)擴(kuò)充技術(shù)和未使用數(shù)據(jù)擴(kuò)充技術(shù)的兩種情況分別測(cè)試,測(cè)試結(jié)果如表4所示。不使用數(shù)據(jù)擴(kuò)充技術(shù)時(shí),CNN 的精度為68%,CapsNet為73%,使用了數(shù)據(jù)擴(kuò)充技術(shù)時(shí),CNN為76.5%,CapsNet 為81.5%。實(shí)驗(yàn)結(jié)果表明,CapsNets 在小規(guī)模數(shù)據(jù)集上的性能優(yōu)于傳統(tǒng)的CNN。此外,當(dāng)不使用擴(kuò)充技術(shù)的訓(xùn)練數(shù)據(jù)時(shí),CapsNet 的性能明顯優(yōu)于CNN,這個(gè)情況表明CapsNet 在數(shù)據(jù)量相對(duì)較小的情況下和CNN 相比具有更好的泛化能力,能夠較好地抵抗過(guò)擬合,正是膠囊具有同變性的特性,才可以更好地探索特征屬性直接的關(guān)系,因此這是一個(gè)非常重要的優(yōu)勢(shì)。

表4 分類(lèi)精度比較

2.1.4 不同仿射變換的應(yīng)用

膠囊網(wǎng)絡(luò)在識(shí)別空間位置信息上具有優(yōu)勢(shì),付家慧等[30]從可視化角度研究了膠囊網(wǎng)絡(luò)在平移、旋轉(zhuǎn)等仿射變換的特征。實(shí)驗(yàn)結(jié)果的準(zhǔn)確性通過(guò)三種仿射變換的損失值來(lái)表示。最終發(fā)現(xiàn)經(jīng)過(guò)600次epoch也沒(méi)有真正達(dá)到收斂,但每個(gè)batch 中的100 張圖片的總損失函數(shù)值能夠降低至10 以下,最后得到的生成圖像非常接近目標(biāo)圖像。研究表明:在膠囊網(wǎng)絡(luò)的內(nèi)部,每個(gè)膠囊模塊都能夠?qū)W習(xí)到一種姿態(tài),這種姿態(tài)適用于大多數(shù)的手寫(xiě)數(shù)字,同時(shí)每個(gè)膠囊模塊得到的特征姿態(tài)均對(duì)最終結(jié)果存在一定貢獻(xiàn)。與卷積神經(jīng)網(wǎng)絡(luò)不同的地方在于,膠囊網(wǎng)絡(luò)在搭建模型時(shí)就考慮到位置信息,最終生成結(jié)果得到的模塊特征輸出是從初始位置信息轉(zhuǎn)化而成的,膠囊網(wǎng)絡(luò)最后確實(shí)學(xué)到了手寫(xiě)數(shù)字圖像經(jīng)過(guò)變換的圖像信息。因此,膠囊網(wǎng)絡(luò)對(duì)于實(shí)體姿態(tài)、位置和方向等信息的處理明顯優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)。

2.1.5 指靜脈識(shí)別應(yīng)用

指靜脈識(shí)別技術(shù)在現(xiàn)代應(yīng)用中隨處可見(jiàn),CNN 在指靜脈識(shí)別過(guò)程中存在信息丟失的問(wèn)題,余成波等[31]提出了一種基于膠囊網(wǎng)絡(luò)的指靜脈識(shí)別算法。膠囊網(wǎng)絡(luò)以向量的形式封裝指靜脈的多維特征,這些特征會(huì)被保存在網(wǎng)絡(luò)中,而不是丟失后再進(jìn)行恢復(fù)。實(shí)驗(yàn)采用60 000張圖片作為訓(xùn)練集,10 000張圖片作為測(cè)試集,同時(shí)進(jìn)行圖像增強(qiáng)與裁減操作。經(jīng)過(guò)測(cè)試,如表5 所示,CapsNets的識(shí)別率逐漸增加,在訓(xùn)練次數(shù)為30 000時(shí)精度達(dá)到99.7%,loss值為0.010 7。經(jīng)過(guò)對(duì)比,CapsNets展現(xiàn)出了令人驚訝的準(zhǔn)確率,在準(zhǔn)確率上相比VGG 增加了13.6%,同時(shí)loss 值最終收斂到0.01。當(dāng)CapsNets 迭代到2 000 次的時(shí)候,就開(kāi)始逼近90%的準(zhǔn)確率,同時(shí)loss值降低至0.2,最終收斂于98.6%的準(zhǔn)確率。而VGG迭代比較平穩(wěn),迭代200 次時(shí)網(wǎng)絡(luò)精度趨近84%,后期并無(wú)太大提升,最終精度為85%,loss值為0.21。

表5 CapsNets訓(xùn)練的識(shí)別率和loss值

研究表明CapsNets比CNN更加適合進(jìn)行指靜脈識(shí)別,二者對(duì)比如表6 所示。膠囊網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,網(wǎng)絡(luò)深度遠(yuǎn)小于VGG,且訓(xùn)練速度非常快,只用了VGG 網(wǎng)絡(luò)訓(xùn)練時(shí)間的1/8,同時(shí)其空間特性將靜脈的特征保留完整,能夠得到非常好的結(jié)果。

表6 CapsNets與VGG對(duì)比

2.1.6 膠囊網(wǎng)絡(luò)優(yōu)化方法

為了提高膠囊網(wǎng)絡(luò)的效率和泛化能力,Zou 等[32]提出了一種新的膠囊網(wǎng)絡(luò)激活函數(shù)exping,同時(shí)在損失函數(shù)中加入了最小重量損失Wloss。實(shí)驗(yàn)采用MNIST 數(shù)據(jù)集對(duì)原始?jí)嚎s激活函數(shù)、exping激活函數(shù)和exping加Wloss 進(jìn)行測(cè)試,測(cè)試中使用相同的參數(shù)。表7 展示了不同方法對(duì)手寫(xiě)數(shù)字集MNIST 的識(shí)別精度,原始?jí)嚎s激活函數(shù)的準(zhǔn)確率為99.71%,使用exping 激活函數(shù)的準(zhǔn)確率為99.72%,使用exping 加Wloss 的準(zhǔn)確率為99.75%。此研究表明,經(jīng)過(guò)改進(jìn)的膠囊網(wǎng)絡(luò)提高了網(wǎng)絡(luò)收斂速度,提高了網(wǎng)絡(luò)泛化能力,提高了網(wǎng)絡(luò)效率,因此具有很大的使用價(jià)值。

表7 不同方法對(duì)MINST測(cè)試集的識(shí)別精度

除了改變激活函數(shù)和損失函數(shù)的方式,還可以通過(guò)改變膠囊層的架構(gòu)來(lái)提升網(wǎng)絡(luò)的精度。Xiong等[33]通過(guò)引入卷積膠囊層(Conv-Caps-Layer),借助現(xiàn)有CNN 深層架構(gòu)可以提取高維特征的思想,加深了CapsNet的結(jié)構(gòu),大大提高了性能。同時(shí)提出了一種新的池操作——膠囊池(CapsPool),用來(lái)減少參數(shù)的數(shù)量,還能保留功能。實(shí)驗(yàn)使用CIFAR-10數(shù)據(jù)集測(cè)試,如表8所示,此研究提出的DeeperCaps模型訓(xùn)練準(zhǔn)確率達(dá)到96.88%,測(cè)試準(zhǔn)確率達(dá)到81.29%。在MNIST數(shù)據(jù)集上測(cè)試,Deeper-Caps 模型測(cè)試準(zhǔn)確率達(dá)到99.84%。通過(guò)添加膠囊池,訓(xùn)練精度和測(cè)試精度只降低了1%,但能夠顯著減少50%的參數(shù)數(shù)量,大幅節(jié)省訓(xùn)練資源。此研究提出的DeeperCaps模型在數(shù)據(jù)集Cifar10上得到了迄今為止最強(qiáng)的CapsNet結(jié)果,Caps池在保持性能的同時(shí)減少了層間參數(shù)的一半,將CapsNet推向了最先進(jìn)的CNN架構(gòu)。

表8 DeeperCaps與Caps-Pool的精度對(duì)比%

為了探究影響膠囊網(wǎng)絡(luò)識(shí)別效率的因素,郭宏遠(yuǎn)等[34]采用了三種優(yōu)化措施:使用衰變學(xué)習(xí)率代替恒定學(xué)習(xí)率、使用Google 提出的Swish 激活函數(shù)代替relu 激活函數(shù),以及使用較低的batch size。衰變學(xué)習(xí)率相較于恒定學(xué)習(xí)率,其后期收斂效果更好。Swish 激活函數(shù)是谷歌提出的一種新型激活函數(shù),其雖與Relu函數(shù)類(lèi)似,但最終性能更加突出。更小的batch size有利于卷積層對(duì)于局部特征的捕捉。衰變學(xué)習(xí)率設(shè)置為0.9,batch size采用32 來(lái)替代常規(guī)的128。實(shí)驗(yàn)使用Fashion-MNIST與MNIST 兩個(gè)數(shù)據(jù)集進(jìn)行對(duì)比。進(jìn)行優(yōu)化前CapsNet在MNIST上測(cè)試的錯(cuò)誤率為0.36%,而優(yōu)化后的錯(cuò)誤率為0.30%。優(yōu)化前CapsNet 在Fashion-MNIST 上的錯(cuò)誤率為9.40%,優(yōu)化后的錯(cuò)誤率為8.56%。實(shí)驗(yàn)結(jié)果證明了更小的batch size同樣對(duì)于膠囊神經(jīng)網(wǎng)絡(luò)中的膠囊層具有增強(qiáng)局部特征捕捉能力的效果。

2.2 文本分類(lèi)

近年來(lái),隨著互聯(lián)網(wǎng)中文本數(shù)據(jù)的顯著增長(zhǎng),文本分類(lèi)則越來(lái)越被人們關(guān)注。文本分類(lèi)是自然語(yǔ)言處理中的一個(gè)基本問(wèn)題,它的目標(biāo)是自動(dòng)將文本文檔分類(lèi)到一個(gè)或多個(gè)預(yù)定義類(lèi)別中,使用戶(hù)更容易找到所需的信息。因此文本分類(lèi)在信息抽取、問(wèn)答、情感分類(lèi)和語(yǔ)言推理等眾多應(yīng)用中起著至關(guān)重要的作用。受深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域巨大進(jìn)步的推動(dòng),深度學(xué)習(xí)算法如卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)已成為主流文本分類(lèi)方法。以往的文本分類(lèi)方法在提供大量標(biāo)注訓(xùn)練數(shù)據(jù)的情況下能夠取得顯著的效果,然而這種性能依賴(lài)于訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)來(lái)自同一數(shù)據(jù)分布的假設(shè)很難將學(xué)習(xí)到的文本分類(lèi)模型推廣到新的領(lǐng)域并應(yīng)用。在推理過(guò)程中,人類(lèi)視覺(jué)系統(tǒng)會(huì)智能地將部分分配給整體,而不必硬編碼與透視相關(guān)的模式[35]。因此,膠囊網(wǎng)絡(luò)具備捕捉局部和整體之間的內(nèi)在空間關(guān)系的特性可以構(gòu)成視點(diǎn)不變的知識(shí),并自動(dòng)推廣到新的視點(diǎn)。這種部分和整體的關(guān)系在自然語(yǔ)言中稱(chēng)為語(yǔ)義合成,詞組和句子意義的分析是基于語(yǔ)義組合原則的。膠囊可以是一組神經(jīng)元,其活動(dòng)向量代表特定語(yǔ)義特征的實(shí)例化參數(shù),因此膠囊網(wǎng)絡(luò)可以用于文本分類(lèi)。

2.2.1 靜態(tài)路由和動(dòng)態(tài)路由的應(yīng)用

Kim等[36]提出一種簡(jiǎn)單的路由方法,稱(chēng)之為靜態(tài)路由,使用這種方式成功降低了動(dòng)態(tài)路由計(jì)算復(fù)雜度,同時(shí)提高了分類(lèi)精度。通過(guò)7種基準(zhǔn)數(shù)據(jù)集對(duì)5種不同的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行測(cè)試,使用靜態(tài)路由方式的精度普遍高于動(dòng)態(tài)路由0.1%~6%不等。同時(shí),他們提出使用ELU 門(mén)傳遞信息,無(wú)論在哪種路由情況下,精度都是最高的。在文本分類(lèi)方面,CapsNet 優(yōu)于CNN,能夠達(dá)到更好的效果。

Yang 等[37]研究了用于文本分類(lèi)的動(dòng)態(tài)路由膠囊網(wǎng)絡(luò),提出了三種策略來(lái)減少噪音膠囊的干擾。他們使用一個(gè)主要由N-gram 卷積層、初級(jí)膠囊層、卷積膠囊層和全連接膠囊層組成的模型。通過(guò)6 個(gè)不同的分類(lèi)基準(zhǔn)數(shù)據(jù)集對(duì)11種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行測(cè)試,膠囊網(wǎng)絡(luò)在6個(gè)數(shù)據(jù)集中的其中4 個(gè)達(dá)到了所有網(wǎng)絡(luò)結(jié)構(gòu)中的最好效果。同時(shí),在其余兩個(gè)數(shù)據(jù)集中,膠囊網(wǎng)絡(luò)的結(jié)果處于中上等水平。通過(guò)對(duì)比,膠囊網(wǎng)絡(luò)在文本分類(lèi)時(shí)明顯優(yōu)于CNN,在將單標(biāo)簽文本分類(lèi)轉(zhuǎn)換為多標(biāo)簽文本分類(lèi)時(shí),也具備顯著的優(yōu)勢(shì)。

2.2.2 評(píng)論識(shí)別和情緒分析的應(yīng)用

在當(dāng)今時(shí)代,網(wǎng)絡(luò)中具有攻擊性和負(fù)面的評(píng)論非常常見(jiàn)。Srivastava 等[38]提出了一種單模型膠囊網(wǎng)絡(luò)用來(lái)在評(píng)論中識(shí)別具有攻擊性的評(píng)論,他們的模型分為4層:文字嵌入層、特征提取層、膠囊層和卷積膠囊層,同時(shí)使用焦點(diǎn)損失代替標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)。膠囊網(wǎng)絡(luò)可利用動(dòng)態(tài)路由的過(guò)程來(lái)減輕一些噪聲膠囊干擾,焦點(diǎn)損失可以防止在訓(xùn)練中大量簡(jiǎn)單的負(fù)樣本對(duì)檢測(cè)器造成的嚴(yán)重影響。通過(guò)3 種數(shù)據(jù)集對(duì)11 種神經(jīng)網(wǎng)絡(luò)模型測(cè)試,這種單模型膠囊網(wǎng)絡(luò)在每個(gè)數(shù)據(jù)集中的表現(xiàn)都是最優(yōu)的,達(dá)到了這些模型中最高的精度,特別在ROCAUC 數(shù)據(jù)集的測(cè)試結(jié)果中,他們的模型用于文本分類(lèi)的準(zhǔn)確率高達(dá)98.46%。膠囊網(wǎng)絡(luò)以其獨(dú)有的特性在評(píng)論識(shí)別中達(dá)到了非常好的效果。

一篇關(guān)于情緒分析的研究文章[39]將遞歸神經(jīng)網(wǎng)絡(luò)與膠囊式網(wǎng)絡(luò)結(jié)合進(jìn)行情緒分析。研究者為一個(gè)特定的情緒類(lèi)別設(shè)計(jì)了一個(gè)膠囊,例如“積極”和“消極”。膠囊由狀態(tài)、屬性和3 個(gè)模塊(表示、概率、重構(gòu))組成,表示模塊通過(guò)注意機(jī)制構(gòu)建膠囊表示,模型中使用的膠囊結(jié)構(gòu)能夠模擬情緒,并且無(wú)需任何語(yǔ)言知識(shí)模型即可輸出情感傾向。通過(guò)基準(zhǔn)數(shù)據(jù)集Movie Review and Stanford Sentiment Treebank,以及專(zhuān)有數(shù)據(jù)集Hospital Feedback對(duì)12種神經(jīng)網(wǎng)絡(luò)模型進(jìn)行測(cè)試,他們提出的RNN-Capsule模型在眾多網(wǎng)絡(luò)模型中脫穎而出,達(dá)到了非常理想的效果,尤其在情感分類(lèi)方面高達(dá)91.6%的準(zhǔn)確率,達(dá)到了目前為止最先進(jìn)的性能。

2.2.3 動(dòng)態(tài)路由和壓縮函數(shù)的優(yōu)化

為了更好地保留文本特征,增加特征多樣性,驗(yàn)證動(dòng)態(tài)路由迭代次數(shù)和壓縮函數(shù)對(duì)模型的影響,沈煒域等[40]構(gòu)建包含多尺寸多層卷積的膠囊網(wǎng)絡(luò)和自注意力網(wǎng)絡(luò)的CapSA模型驗(yàn)證模型效果。實(shí)驗(yàn)使用Headlines和Review Sentiment數(shù)據(jù)集測(cè)試,結(jié)果如表9所示,僅限制迭代輪數(shù)為5 輪時(shí),CapSA 模型在第2 輪路由迭代能夠得到較好的分類(lèi)效果,后續(xù)增加的迭代次數(shù)并沒(méi)有使得效果提升。模型如果達(dá)到理想的收斂狀態(tài),需要更多的路由迭代次數(shù),亦需要非常多的數(shù)據(jù)迭代才能達(dá)成,會(huì)造成更大的計(jì)算代價(jià)。

表9 CapSA在兩種數(shù)據(jù)集上不同迭代輪數(shù)的F1與正確率

CapSA 模型上還嘗試了4 種不同的壓縮方案。方案1是,方案2是方案3 是,方案4 是在路由迭代中使用,進(jìn)行最后一輪迭代輸出時(shí)使用。對(duì)比4 種方案的訓(xùn)練損失變化,結(jié)果為方案2的損失下降速度是最快的,其收斂效果也達(dá)到最好。研究表明不同的動(dòng)態(tài)路由迭代輪數(shù)對(duì)模型的收斂效果非常敏感,適當(dāng)?shù)南蛄繅嚎s方案同樣會(huì)影響效果。

2.3 小結(jié)

膠囊網(wǎng)絡(luò)有很多優(yōu)勢(shì),朱應(yīng)釗等[20]提出膠囊網(wǎng)絡(luò)具有3個(gè)優(yōu)勢(shì)特性。第一點(diǎn)即所需訓(xùn)練數(shù)據(jù)量較少,神經(jīng)膠囊的引入,能夠保留輸入對(duì)象的詳細(xì)屬性信息。其中屬性信息中包含了輸入對(duì)象的姿態(tài)、位置、大小、旋轉(zhuǎn)等信息,膠囊網(wǎng)絡(luò)能夠?qū)W(xué)習(xí)到的東西推廣到新場(chǎng)景中。因此,對(duì)發(fā)生平移、旋轉(zhuǎn)、縮放等操作的同一對(duì)象依然可以識(shí)別正確,同時(shí)還能從不同角度進(jìn)行識(shí)別。所需要的訓(xùn)練數(shù)據(jù)量少的優(yōu)勢(shì),使得膠囊網(wǎng)絡(luò)更接近人腦。第二點(diǎn)即不易受多類(lèi)別重疊的干擾,膠囊網(wǎng)絡(luò)有能力處理對(duì)象重疊的復(fù)雜場(chǎng)景,通過(guò)每一個(gè)特定部分的屬性和存在預(yù)測(cè)高級(jí)對(duì)象的屬性和存在,同時(shí)對(duì)比預(yù)測(cè)結(jié)果之間的一致性,若達(dá)成一致則增加路由權(quán)重,不一致則減少路由權(quán)重。因此,一個(gè)膠囊的輸出只需路由到下一層對(duì)應(yīng)的膠囊中,即下一層的膠囊能獲取更清晰的輸入信號(hào),將多類(lèi)別重疊的模糊性進(jìn)行轉(zhuǎn)換,從而實(shí)現(xiàn)對(duì)重疊對(duì)象的識(shí)別和預(yù)測(cè)。第三個(gè)優(yōu)勢(shì)即膠囊網(wǎng)絡(luò)抵御白盒對(duì)抗性攻擊能力較強(qiáng)。因深度學(xué)習(xí)的各種網(wǎng)絡(luò)模型在各個(gè)領(lǐng)域廣泛使用,其防御對(duì)抗性攻擊的能力備受大家關(guān)注。經(jīng)過(guò)研究,發(fā)現(xiàn)膠囊網(wǎng)絡(luò)有著較強(qiáng)的抵御能力,尤其是對(duì)于白盒的對(duì)抗性攻擊,相比卷積神經(jīng)網(wǎng)絡(luò),膠囊網(wǎng)絡(luò)則在這一方面更加出色。一種典型的白盒對(duì)抗性攻擊的方法FGSM發(fā)揮作用時(shí),卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率會(huì)斷崖式下降至20%以下,與此同時(shí)膠囊網(wǎng)絡(luò)卻能夠持續(xù)保持70%以上的準(zhǔn)確率。膠囊網(wǎng)絡(luò)的優(yōu)勢(shì)突出、應(yīng)用廣泛,本文主要列舉圖像識(shí)別和文本分類(lèi)兩大方面的應(yīng)用和優(yōu)化,如表10、表11所示。

3 結(jié)束語(yǔ)

膠囊網(wǎng)絡(luò)在很多領(lǐng)域的應(yīng)用都展現(xiàn)出其獨(dú)特的魯棒性,無(wú)論是圖像識(shí)別領(lǐng)域還是文本分類(lèi)領(lǐng)域,不管是直接使用膠囊網(wǎng)絡(luò)結(jié)構(gòu)還是改變現(xiàn)有結(jié)構(gòu)的網(wǎng)絡(luò)將膠囊層加入其中,都呈現(xiàn)出了令人驚訝的效果。在現(xiàn)有CNN結(jié)構(gòu)中加入膠囊層提升精度的同時(shí)還能夠提升訓(xùn)練速度,對(duì)于小數(shù)據(jù)集的應(yīng)用,膠囊網(wǎng)絡(luò)的泛化能力非常強(qiáng)。膠囊網(wǎng)絡(luò)在處理空間信息中具有明顯的優(yōu)勢(shì),能夠?qū)⒖臻g特征保留完整,善于處理實(shí)體位置、姿態(tài)以及方向信息,且網(wǎng)絡(luò)結(jié)構(gòu)淺、訓(xùn)練速度快、空間特征保留完整。即使網(wǎng)絡(luò)迭代前期能夠達(dá)到一個(gè)不錯(cuò)的準(zhǔn)確率,但是網(wǎng)絡(luò)迭代后期仍然能夠平穩(wěn)提升準(zhǔn)確率并降低loss值,達(dá)到更好的效果。不同的激活函數(shù)能夠提升膠囊網(wǎng)絡(luò)的泛化能力、收斂速度,改變膠囊層架構(gòu)、batch size、學(xué)習(xí)率等也能優(yōu)化膠囊網(wǎng)絡(luò)的效果。動(dòng)態(tài)路由迭代次數(shù)也是影響準(zhǔn)確率的因素之一,適當(dāng)?shù)牡螖?shù)能夠使得網(wǎng)絡(luò)性能達(dá)到最理想的狀態(tài)。膠囊網(wǎng)絡(luò)有能力處理對(duì)象重疊的復(fù)雜場(chǎng)景,這也是其在眾多神經(jīng)網(wǎng)絡(luò)模型中脫穎而出的其中一個(gè)原因。同時(shí),膠囊網(wǎng)絡(luò)對(duì)于白盒的對(duì)抗性攻擊還有著較強(qiáng)的抵御能力,這種抵御能力遠(yuǎn)超卷積神經(jīng)網(wǎng)絡(luò)。因此,膠囊網(wǎng)絡(luò)具有很大的潛力,還需要進(jìn)行探索。

盡管研究者在深度學(xué)習(xí)的交叉領(lǐng)域已取得了諸多膠囊網(wǎng)絡(luò)的相關(guān)成果,但是膠囊網(wǎng)絡(luò)的發(fā)展并不完善,在某些方面仍然受到現(xiàn)有技術(shù)制約,存在很多問(wèn)題需要研究者去解決。因此,未來(lái)可以在以下方面增強(qiáng)膠囊網(wǎng)絡(luò)的識(shí)別能力,從而提升膠囊網(wǎng)絡(luò)的性能。

(1)提高識(shí)別速度

現(xiàn)代深度學(xué)習(xí)模型的識(shí)別速度很大程度上影響模型的整體性能,在膠囊網(wǎng)絡(luò)的動(dòng)態(tài)路由算法中,對(duì)于目標(biāo)特征的每個(gè)位置都被準(zhǔn)確地以向量形式封裝在膠囊里。因此動(dòng)態(tài)路由算法內(nèi)部的迭代耗時(shí)長(zhǎng),迭代次數(shù)多,大大降低識(shí)別效率。盡管準(zhǔn)確率比諸多深度學(xué)習(xí)模型都要優(yōu)異,但識(shí)別速度還有很大的提升空間。膠囊網(wǎng)絡(luò)不光可以采用向量形式表示,也可以采用矩陣進(jìn)行表示。矩陣可減少大量的參數(shù),同時(shí)降低計(jì)算量,提高計(jì)算速度。此表示方式在以后的研究中可作為一個(gè)重點(diǎn)突破的方向,其對(duì)膠囊網(wǎng)絡(luò)提高識(shí)別速度具有重大意義。同時(shí),GPU集群技術(shù)使用的越來(lái)越普遍,雖然一定程度上提升了計(jì)算能力,但仍然不足以滿(mǎn)足膠囊網(wǎng)絡(luò)需要的強(qiáng)大大計(jì)算能力。因此,未來(lái)的研究方向可以著手于降低網(wǎng)絡(luò)參數(shù)、提升GPU計(jì)算能力、提升動(dòng)態(tài)路由算法效率等方向來(lái)提升膠囊網(wǎng)絡(luò)的識(shí)別速度。

(2)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)

膠囊網(wǎng)絡(luò)在識(shí)別MNIST手寫(xiě)數(shù)據(jù)集上表現(xiàn)極其優(yōu)異,精度趨近于100%,但由于手寫(xiě)數(shù)字為28×28的灰度圖像,規(guī)模較小,內(nèi)容較簡(jiǎn)單,特征較明顯,因此膠囊網(wǎng)絡(luò)在小規(guī)模的圖像處理中幾乎具有最好的性能,但是在大規(guī)模的圖像處理過(guò)程上仍然有待提高。目前膠囊網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)很淺,和眾多典型CNN 網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)成了鮮明的對(duì)比。未來(lái)可以通過(guò)適當(dāng)加深網(wǎng)絡(luò)結(jié)構(gòu),探索適合識(shí)別大規(guī)模圖像的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行研究,以此打造一個(gè)可以識(shí)別不同規(guī)模大小的網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步優(yōu)化網(wǎng)絡(luò)處理過(guò)程,獲得更出色的效果。

表10 膠囊網(wǎng)絡(luò)的應(yīng)用總結(jié)

(3)優(yōu)化壓縮函數(shù)

壓縮函數(shù)在膠囊網(wǎng)絡(luò)結(jié)構(gòu)中發(fā)揮非常重要的作用,不同的壓縮方案效果不同。在膠囊網(wǎng)絡(luò)原始的壓縮函數(shù)中,參數(shù)中常數(shù)值的改變對(duì)損失值、精度能夠造成很大的影響。因此,未來(lái)在提升膠囊網(wǎng)絡(luò)性能時(shí),可探索其他不同的壓縮函數(shù),試驗(yàn)每種壓縮函數(shù)的效果,尋求一個(gè)能夠提升現(xiàn)有性能的壓縮函數(shù),同時(shí)搭配合適的網(wǎng)絡(luò)結(jié)構(gòu)以及優(yōu)化過(guò)的路由算法。探究更加合適的壓縮函數(shù)將會(huì)對(duì)膠囊網(wǎng)絡(luò)的性能帶來(lái)突破,同時(shí)對(duì)膠囊網(wǎng)絡(luò)的發(fā)展也具有重大意義,如何界定一個(gè)合適的壓縮方案將成為一個(gè)很重要的研究?jī)?nèi)容,將作為日后膠囊網(wǎng)絡(luò)的研究重點(diǎn)。

(4)優(yōu)化損失函數(shù)

膠囊網(wǎng)絡(luò)采用了間隔損失的方式作為損失函數(shù),因其可對(duì)多個(gè)目標(biāo)進(jìn)行分類(lèi),所以不再采用傳統(tǒng)交叉熵函數(shù)的方式。適當(dāng)?shù)膿p失函數(shù)可減少負(fù)面信息對(duì)模型的不良影響,能夠盡快地將預(yù)測(cè)結(jié)果與真實(shí)結(jié)果靠近,達(dá)到訓(xùn)練模型的預(yù)期目的。損失函數(shù)對(duì)模型的性能具備一定程度上的影響,目前可以將損失函數(shù)作為膠囊網(wǎng)絡(luò)的主要改變方向,損失函數(shù)不光對(duì)膠囊網(wǎng)絡(luò)具有重要意義,也對(duì)整個(gè)神經(jīng)網(wǎng)絡(luò)的改進(jìn)與優(yōu)化存在非常重要的作用。

表11 膠囊網(wǎng)絡(luò)的優(yōu)化總結(jié)

當(dāng)前人工神經(jīng)網(wǎng)絡(luò)應(yīng)用廣泛,未來(lái)在信息處理、模式識(shí)別、醫(yī)學(xué)影像、生物信號(hào)、市場(chǎng)價(jià)格預(yù)測(cè)、風(fēng)險(xiǎn)評(píng)估、交通模式分析、車(chē)輛檢測(cè)與分類(lèi)、教育,甚至心理學(xué)等領(lǐng)域都可以有顯著進(jìn)步。目前的應(yīng)用處于人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用初始階段,較為簡(jiǎn)單,經(jīng)過(guò)探索已經(jīng)有很多成熟的經(jīng)典模型用于社會(huì)發(fā)展中。但正是人工神經(jīng)網(wǎng)絡(luò)模擬人腦的特點(diǎn),給科學(xué)發(fā)展帶來(lái)了無(wú)限可能。經(jīng)過(guò)發(fā)展,未來(lái)的人工神經(jīng)網(wǎng)絡(luò)會(huì)應(yīng)用在生活的方方面面,人們的生活會(huì)更便捷,例如無(wú)人駕駛汽車(chē)的普及、公安系統(tǒng)對(duì)公民信息的查詢(xún)以及錄入,公司內(nèi)部的員工打卡系統(tǒng),甚至商場(chǎng)里每一個(gè)商家手里的門(mén)店鑰匙,都會(huì)迎來(lái)質(zhì)的飛躍,變成不一樣的形式伴隨著社會(huì)發(fā)展。根據(jù)現(xiàn)已應(yīng)用的模型進(jìn)行改進(jìn),融合膠囊網(wǎng)絡(luò)的優(yōu)勢(shì),能夠在目前的研究中實(shí)現(xiàn)更進(jìn)一步的發(fā)展。因此,探索膠囊網(wǎng)絡(luò)應(yīng)用的優(yōu)勢(shì)領(lǐng)域是一個(gè)有待發(fā)展的研究課題,通過(guò)探索不斷完善膠囊網(wǎng)絡(luò)的性能,能夠極大推進(jìn)人工智能技術(shù)進(jìn)步。當(dāng)前對(duì)膠囊網(wǎng)絡(luò)的探索研究仍然具有廣闊的發(fā)展空間,仍然需要更進(jìn)一步地探索膠囊網(wǎng)絡(luò)更深層的意義。

猜你喜歡
網(wǎng)絡(luò)結(jié)構(gòu)路由卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
從濾波器理解卷積
探究路由與環(huán)路的問(wèn)題
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于預(yù)期延遲值的擴(kuò)散轉(zhuǎn)發(fā)路由算法
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)維對(duì)于創(chuàng)新績(jī)效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實(shí)證分析
復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)比對(duì)算法研究進(jìn)展
PRIME和G3-PLC路由機(jī)制對(duì)比