膠囊神經(jīng)網(wǎng)絡(luò)研究現(xiàn)狀與未來(lái)的淺析

2021-02-04 14:15賀文亮朱敏玲

計(jì)算機(jī)工程與應(yīng)用 2021年3期

賀文亮，朱敏玲

北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院，北京100101

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一部分，隨著大數(shù)據(jù)時(shí)代的到來(lái)和GPU 技術(shù)的進(jìn)步，深度學(xué)習(xí)廣泛應(yīng)用于圖像識(shí)別、圖像分類(lèi)、圖像分割、目標(biāo)檢測(cè)[1]、身份認(rèn)證[2]、知識(shí)圖譜[3]、自然語(yǔ)言處理、語(yǔ)音識(shí)別、文本分類(lèi)[4]等各個(gè)領(lǐng)域。與傳統(tǒng)的機(jī)器學(xué)習(xí)算法相比，深度學(xué)習(xí)的優(yōu)越性在于其卓越的準(zhǔn)確性。從圖像分類(lèi)到自然語(yǔ)言處理，深層神經(jīng)網(wǎng)絡(luò)正被應(yīng)用于不同的領(lǐng)域。人們對(duì)人工神經(jīng)網(wǎng)絡(luò)進(jìn)行了研究，開(kāi)發(fā)了不同類(lèi)型的神經(jīng)網(wǎng)絡(luò)，如卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)，它們已經(jīng)應(yīng)用于不同的應(yīng)用領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)的引入是神經(jīng)網(wǎng)絡(luò)重新流行的原因之一?？墒茄芯堪l(fā)現(xiàn)它存在一個(gè)根本性的問(wèn)題，即無(wú)法考慮到底層目標(biāo)特征之間的空間關(guān)系。由于在卷積神經(jīng)網(wǎng)絡(luò)中，上一層神經(jīng)元傳遞到下一層神經(jīng)元中的是標(biāo)量，標(biāo)量沒(méi)有方向，無(wú)法表示出高層特征與低層特征之間的位姿關(guān)系。另外，它的池化層會(huì)丟失大量有價(jià)值的信息，因此卷積神經(jīng)網(wǎng)絡(luò)存在較大的局限性。2017年，Geoffrey Hinton 在神經(jīng)網(wǎng)絡(luò)架構(gòu)中引入了一個(gè)新概念——膠囊網(wǎng)絡(luò)。

膠囊網(wǎng)絡(luò)是近年來(lái)為克服卷積神經(jīng)網(wǎng)絡(luò)存在的缺陷而引入的神經(jīng)網(wǎng)絡(luò)之一，它以向量的形式來(lái)表示部分與整體之間的關(guān)系，不僅能夠以特征響應(yīng)的強(qiáng)度來(lái)表示圖像，還能夠表征圖像特征的方向、位置等信息。同時(shí)，膠囊網(wǎng)絡(luò)采用囊間動(dòng)態(tài)路由算法，取代傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中的最大池化法，避免了圖像因池化導(dǎo)致精確位置信息的丟失。因此，膠囊網(wǎng)絡(luò)以其獨(dú)特魅力迅速成為深度學(xué)習(xí)領(lǐng)域的一項(xiàng)熱門(mén)技術(shù)，眾多科研人員紛紛致力于對(duì)其進(jìn)行深入研究。

圖1 LeNet-5神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

1 卷積神經(jīng)網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)

1.1 卷積神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)早期在圖像分割、圖像分類(lèi)和識(shí)別等領(lǐng)域?qū)崿F(xiàn)都非常困難。在神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)過(guò)程中，它的隱藏層結(jié)構(gòu)需要人為進(jìn)行設(shè)計(jì)，同時(shí)計(jì)算成本非常高。因此，為了解決這些問(wèn)題，LeCun 提出了卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）[5-6]。卷積神經(jīng)網(wǎng)絡(luò)成為神經(jīng)網(wǎng)絡(luò)研究熱點(diǎn)之一，尤其是在圖像分類(lèi)領(lǐng)域，由于CNN 避免了圖像的復(fù)雜預(yù)處理過(guò)程，并且可以直接輸入使用原始圖像，因此獲得了廣泛的關(guān)注[7-8]。

CNN 是一種深度神經(jīng)網(wǎng)絡(luò)，它的結(jié)構(gòu)一般由輸入層、卷積層、池化層、全連接層和輸出層組成。卷積層以空間上下文感知的方式將多個(gè)低層特征編碼為更具區(qū)分性的高級(jí)特征，再通過(guò)池化層降低圖像的維數(shù)，最終由全連接層作為分類(lèi)器對(duì)隱藏層的輸出進(jìn)行分類(lèi)，輸出結(jié)果。因網(wǎng)絡(luò)結(jié)構(gòu)是人為設(shè)計(jì)的，沒(méi)有固定格式，因此網(wǎng)絡(luò)結(jié)構(gòu)過(guò)于復(fù)雜則會(huì)導(dǎo)致過(guò)擬合和梯度爆炸現(xiàn)象。

LeNet 是一類(lèi)特殊的卷積神經(jīng)網(wǎng)絡(luò)，非常適合用于處理圖像數(shù)據(jù)，但它只能處理高分辨率的灰度圖像。比較經(jīng)典的CNN 模型有LeNet-5、AlexNet、VGGNet、GoogLeNet、ResNet[9]以及DenseNet[10]，以上均是LeNet的改進(jìn)版模型[11]。下面對(duì)LeNet-5、AlexNet、VGGNet、GoogLeNet進(jìn)行簡(jiǎn)單介紹。

（1）卷積神經(jīng)網(wǎng)絡(luò)LeNet-5[12]的結(jié)構(gòu)如圖1 所示，它由7層組成，每層均包含可訓(xùn)練的參數(shù)。其中，C為卷積層，S為池化層。

該網(wǎng)絡(luò)輸入大小為32×32的圖片，各層的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示。此網(wǎng)絡(luò)結(jié)構(gòu)是第一個(gè)成功用于MNIST手寫(xiě)數(shù)字識(shí)別的神經(jīng)網(wǎng)絡(luò)，在MNIST 數(shù)據(jù)集上準(zhǔn)確率達(dá)到大約99.2%，由此CNN 迅速發(fā)展，出現(xiàn)了很多處理圖像的優(yōu)質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)。

表1 LeNet-5的各層網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)

（2）AlexNet[13]以圖像數(shù)據(jù)集分類(lèi)高準(zhǔn)確率的優(yōu)勢(shì)名聲大震。和現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相比，AlexNet的結(jié)構(gòu)非常簡(jiǎn)單，它由5 個(gè)卷積層、1 個(gè)最大池化層、dropout層[14]和3個(gè)全連接層組成，作者設(shè)計(jì)此網(wǎng)絡(luò)結(jié)構(gòu)用于1 000 個(gè)類(lèi)別的分類(lèi)。AlexNet 采用Relu[15]作為激活函數(shù)，同時(shí)利用數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充數(shù)據(jù)集，并且為了解決模型的過(guò)擬合問(wèn)題，在結(jié)構(gòu)中增加了dropout層。

（3）VGGNet[16]是卷積神經(jīng)網(wǎng)絡(luò)的一種，為了表示信息的層次結(jié)構(gòu)，它實(shí)現(xiàn)了一個(gè)深層網(wǎng)絡(luò)結(jié)構(gòu)。同時(shí)，它還使用Relu作為每個(gè)卷積層后的激活函數(shù)。它采用的3×3 大小的濾波器和AlexNet 的11×11 大小的濾波器有很大區(qū)別，3個(gè)卷積層得到1個(gè)7×7的有效感受野，其在圖像分類(lèi)以及定位的操作中都能得到不錯(cuò)的結(jié)果。

（4）GoogLeNet[17]使用batch normalization，image distortions 和優(yōu)化算法rmsprop 等技術(shù)。為了減少參數(shù)數(shù)量，其結(jié)構(gòu)設(shè)定為22層，使用過(guò)程中在內(nèi)存和功耗等方面表現(xiàn)都很好。因?yàn)镃NN 的圖片是按順序堆疊的，該網(wǎng)絡(luò)設(shè)計(jì)時(shí)受到LeNet結(jié)構(gòu)的啟發(fā)，實(shí)現(xiàn)了一個(gè)名字為Inception 的網(wǎng)絡(luò)模型。其整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中使用了9個(gè)模塊，共100多層。網(wǎng)絡(luò)結(jié)構(gòu)中還使用一個(gè)平均池化層，將特征圖大小從7×7×1 024變成1×1×1 024，此方法可減少大量參數(shù)，最后選取softmax 作為激活函數(shù)。GoogLeNet的主要特點(diǎn)就是提升了計(jì)算資源的利用率。CNN 的迅速發(fā)展，對(duì)于圖像處理領(lǐng)域擴(kuò)大了不小的影響力，正是這種優(yōu)秀的圖像處理能力，使眾多學(xué)者紛紛投入對(duì)CNN的研究之中。但由此固化的網(wǎng)絡(luò)結(jié)構(gòu)所產(chǎn)生的問(wèn)題日益凸顯，經(jīng)典的CNN 模型已經(jīng)不能滿(mǎn)足當(dāng)前社會(huì)人工智能技術(shù)的需要。在醫(yī)療、金融、交通等領(lǐng)域，CNN 已經(jīng)不能很好地解決一些復(fù)雜的圖像處理的問(wèn)題，如圖像旋轉(zhuǎn)、指靜脈識(shí)別等。因此，為了解決CNN現(xiàn)有的問(wèn)題，膠囊網(wǎng)絡(luò)在此之上進(jìn)行改進(jìn)，通過(guò)新的算法和網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步提升模型的能力，增加應(yīng)用場(chǎng)景，滿(mǎn)足圖像處理領(lǐng)域的需求。

1.2 膠囊網(wǎng)絡(luò)

1.2.1 膠囊網(wǎng)絡(luò)背景

上述介紹的所有卷積神經(jīng)網(wǎng)絡(luò)模型中，都存在一個(gè)根本性的缺點(diǎn)，即從上一層至下一層傳遞的是標(biāo)量，導(dǎo)致CNN無(wú)法考慮到底層對(duì)象之間的空間關(guān)系。眾所周知標(biāo)量沒(méi)有方向，因此不能表示低層特征和高層特征的關(guān)系，同時(shí)CNN的池化層會(huì)丟失非常多的有用信息，因此CNN 在識(shí)別具有空間關(guān)系的特征時(shí)存在很大局限性。于是，2017年Hinton等人提出了一種新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)：膠囊網(wǎng)絡(luò)（Capsule Network，CapsNet）[18]，膠囊網(wǎng)絡(luò)是當(dāng)今圖像識(shí)別領(lǐng)域最先進(jìn)的技術(shù)之一，在CNN 的基礎(chǔ)上能夠達(dá)到更好的效果。

與CNN 不同的是，膠囊不再是以單個(gè)神經(jīng)元的形式出現(xiàn)，而是一組神經(jīng)元的集合，這個(gè)集合可以是向量也可以是矩陣[19]，膠囊和神經(jīng)元的差異如表2 所示。多個(gè)膠囊構(gòu)成一個(gè)隱藏層，深淺兩層隱藏層之間的關(guān)系則通過(guò)動(dòng)態(tài)路由算法確定。與卷積神經(jīng)網(wǎng)絡(luò)隱藏層中的特征圖不同，膠囊的組成形式非常靈活，動(dòng)態(tài)路由算法沒(méi)有固定的模版，并且是單獨(dú)計(jì)算深淺兩層隱藏層中每個(gè)膠囊之間的關(guān)系。動(dòng)態(tài)路由的計(jì)算方式?jīng)Q定了深淺兩層隱藏層之間是動(dòng)態(tài)連接的關(guān)系，因此模型可以自動(dòng)篩選更有效的膠囊，從而提高性能。CapsNet 解決了CNN對(duì)物體大幅度旋轉(zhuǎn)之后識(shí)別能力低下及物體之間的空間辨識(shí)度差的兩個(gè)缺陷。

表2 膠囊和神經(jīng)元的差異

1.2.2 膠囊網(wǎng)絡(luò)結(jié)構(gòu)

由Hinton等[18]提出的膠囊網(wǎng)絡(luò)模型，又稱(chēng)向量膠囊網(wǎng)絡(luò)。此膠囊網(wǎng)絡(luò)結(jié)構(gòu)較淺，由卷積層、PrimaryCaps（主膠囊）層、DigitCaps（數(shù)字膠囊）層構(gòu)成，結(jié)構(gòu)如圖2所示[18]。輸入部分為28×28的MNIST手寫(xiě)數(shù)字圖片，輸出部分是一個(gè)10維向量。其中，卷積層操作結(jié)束后，主膠囊層將卷積層提取出來(lái)的特征圖轉(zhuǎn)化成向量膠囊，隨后通過(guò)動(dòng)態(tài)路由算法將主膠囊層和數(shù)字膠囊層連接輸出最終結(jié)果。第一層卷積層使用的卷積核大小為9×9，深度為256，步長(zhǎng)為1，并且使用Relu激活函數(shù)。第二層主膠囊層采用8組大小為9×9，深度為32，步長(zhǎng)為2的卷積核，對(duì)第一層卷積后得到的特征圖進(jìn)行8 次卷積操作，得到8組6×6×32的特征圖，隨后將特征圖展平，最終得到向量神經(jīng)元大小為1 152×8，即1 152 個(gè)膠囊，每個(gè)膠囊由一個(gè)8 維向量組成。第三層全連接層輸出10 個(gè)16維向量的膠囊，由第二層主膠囊層經(jīng)過(guò)卷積操作后得到的膠囊通過(guò)動(dòng)態(tài)路由算法計(jì)算得出，圖2 中Wij為動(dòng)態(tài)路由的轉(zhuǎn)化矩陣。

圖2 膠囊網(wǎng)絡(luò)編碼器結(jié)構(gòu)圖

膠囊網(wǎng)絡(luò)允許多個(gè)分類(lèi)同時(shí)存在，因此不能再使用傳統(tǒng)交叉熵?fù)p失函數(shù)，而是采用了間隔損失的方式作為損失函數(shù)，間隔損失如公式（1）所示：

式中，Lk為經(jīng)過(guò)計(jì)算得到的間隔損失；Tk為第k分類(lèi)的存在值，若存在則取1，否則取0；m+、m-和λ分別取0.9、0.1、0.5。

CapsNet的解碼器結(jié)構(gòu)如圖3所示[18]，解碼器用來(lái)重構(gòu)圖像，共有3個(gè)全連接層，接受DigitCaps層輸出的10個(gè)16 維向量，也就是16×10 矩陣，重構(gòu)出一幅和輸入層大小28×28相同的圖像。

圖3 膠囊網(wǎng)絡(luò)解碼器結(jié)構(gòu)圖

1.2.3 動(dòng)態(tài)路由算法

上文已介紹過(guò)膠囊是一組神經(jīng)元的集合，它的輸出是一個(gè)多維向量，因此它可以用來(lái)表示實(shí)體的一些屬性信息，其模長(zhǎng)可以用來(lái)表示實(shí)體出現(xiàn)概率，模長(zhǎng)值越大，表示該實(shí)體存在可能性越大。若實(shí)體的特征位置發(fā)生變化，膠囊輸出的向量對(duì)應(yīng)的模長(zhǎng)不會(huì)變化，只改變其方向，實(shí)現(xiàn)同變性。

神經(jīng)膠囊的工作原理如圖4 所示[20]，可以簡(jiǎn)單概括為4個(gè)步驟，即矩陣轉(zhuǎn)化、輸入加權(quán)、加權(quán)求和以及非線(xiàn)性變換。

圖4 神經(jīng)膠囊工作過(guò)程圖

圖4 中ui為輸入向量，第一步即將此向量與矩陣Wij相乘得到向量Uj，做矩陣轉(zhuǎn)化。ui為輸入層圖片的低層特征，例如人臉的單個(gè)實(shí)體部分，比如嘴、鼻子、眼睛等。而Wij包含低層特征和高層特征的空間關(guān)系以及其他重要關(guān)系，通過(guò)矩陣轉(zhuǎn)化操作得到向量Um，即高級(jí)特征。

式中，cij表示膠囊i連接至膠囊j的連接概率；bij表示膠囊i連接至膠囊j的先驗(yàn)概率。

cij是由softmax函數(shù)計(jì)算獲得的，softmax函數(shù)的結(jié)果是非負(fù)數(shù)，且每個(gè)獨(dú)立的cij相加總和為1，因此c表示概率，softmax函數(shù)計(jì)算方法如公式（3）所示。

式中，sj表示l層膠囊的總輸入。

式中，vj表示l+1 層的膠囊輸出。

第四步就是對(duì)sj進(jìn)行非線(xiàn)性變換得到vj，采用激活函數(shù)如公式（5）所示，其中公式中第一部分的作用是壓縮，如果sj很長(zhǎng)，第一項(xiàng)約等于1，反之如果sj很短，第一項(xiàng)約等于0。第二部分的作用是將向量sj單位化，因此第二項(xiàng)的長(zhǎng)度為1。此步驟的主要功能就是控制vj的長(zhǎng)度不超過(guò)1，同時(shí)保持vj和sj同方向。經(jīng)過(guò)此步驟，輸出向量vj的長(zhǎng)度在0～1之間，因此可通過(guò)vj的長(zhǎng)度確定具有某個(gè)特征的概率。

在動(dòng)態(tài)路由第一次迭代過(guò)程中，因bij都被初始化為0，耦合系數(shù)cij此時(shí)都相等，所以l層的膠囊i要傳遞給l+1 層中的哪個(gè)高級(jí)膠囊j的概率是平等的。經(jīng)過(guò)這四個(gè)工作步驟，最終以的結(jié)果來(lái)更新bij，經(jīng)過(guò)r次迭代后，輸出vj。

動(dòng)態(tài)路由算法偽代碼如下：

動(dòng)態(tài)路由算法作為膠囊網(wǎng)絡(luò)的核心，對(duì)于整個(gè)膠囊網(wǎng)絡(luò)的應(yīng)用起到了決定性的作用。正是膠囊網(wǎng)絡(luò)使用這種非模板化的算法，使得模型在對(duì)圖像、文字等目標(biāo)進(jìn)行識(shí)別時(shí)，可以將目標(biāo)姿態(tài)、形狀、位置等關(guān)鍵信息進(jìn)行學(xué)習(xí)，盡可能多地學(xué)習(xí)到目標(biāo)的特征，同時(shí)保留重要特征，不輕易丟棄任何一個(gè)有用特征。因此，動(dòng)態(tài)路由算法超越CNN 的固有卷積模式，膠囊網(wǎng)絡(luò)成為當(dāng)前人工智能領(lǐng)域最先進(jìn)的技術(shù)之一。

2 膠囊網(wǎng)絡(luò)的應(yīng)用和優(yōu)化

2.1 圖像識(shí)別

計(jì)算機(jī)的圖像識(shí)別過(guò)程通常分為兩大步驟：圖像特征提取和圖像分類(lèi)預(yù)測(cè)。首先對(duì)輸入圖片進(jìn)行預(yù)處理，處理為適合特征提取的形式，然后再提取圖像的特征，隨后對(duì)特征圖像進(jìn)行分類(lèi)預(yù)測(cè)，過(guò)程如圖5所示[21]。

圖5 圖像識(shí)別過(guò)程

圖像預(yù)處理操作的意義主要是為了增強(qiáng)目標(biāo)圖像信息，同時(shí)可以減少很多干擾，能夠更好地進(jìn)行圖像特征提取?；谏疃葘W(xué)習(xí)的圖像分類(lèi)方法和傳統(tǒng)的圖像分類(lèi)方法相比的關(guān)鍵優(yōu)勢(shì)在于，其能通過(guò)深層架構(gòu)自動(dòng)學(xué)習(xí)更多深層含義的數(shù)據(jù)特征，無(wú)需人工干預(yù)即可找到特征，效果顯著地增強(qiáng)了圖像分類(lèi)的效果。目前常用于圖像分類(lèi)的數(shù)據(jù)集如表3所示，由上至下在數(shù)據(jù)量和復(fù)雜程度上逐漸遞增。

2.1.1 CNN和膠囊網(wǎng)絡(luò)應(yīng)用對(duì)比

為了探究經(jīng)典CNN模型和膠囊網(wǎng)絡(luò)識(shí)別精度的差異性，Anuradha 等[26]比較了4 種模型AlexNet、VGGNet和GoogleNet 與CapsNet 在擴(kuò)展MNIST 數(shù)據(jù)集上的應(yīng)用，同時(shí)展示了膠囊網(wǎng)絡(luò)在目標(biāo)檢測(cè)中的最高精度，并證明膠囊網(wǎng)絡(luò)只需要少量的數(shù)據(jù)就可以提供更好的性能。其使用的數(shù)據(jù)集是擴(kuò)展MNIST（EMNIST）[27]，EMNIST 是一組手寫(xiě)字符數(shù)字，從NIST 專(zhuān)用數(shù)據(jù)庫(kù)19中提取，并轉(zhuǎn)換為28×28像素的圖像格式。此數(shù)據(jù)集中提供了6 種不同的拆分，它們是ByClass、ByMerge、Balanced、字母、數(shù)字和MNIST，EMNIST 語(yǔ)料庫(kù)的示例如圖6 所示[26]。實(shí)驗(yàn)中使用了EMNIST Balanced數(shù)據(jù)集，EMNIST Balanced數(shù)據(jù)集包含一組字符，每個(gè)類(lèi)具有相同數(shù)量的樣本。它包含47 個(gè)類(lèi)，131 600 個(gè)圖像分為112 800個(gè)訓(xùn)練圖像和18 800個(gè)測(cè)試圖像。

表3 不同數(shù)據(jù)集的特點(diǎn)

圖6 EMNIST語(yǔ)料庫(kù)

此研究將Balanced EMNIST數(shù)據(jù)集分為50%、75%和100%分別進(jìn)行測(cè)試，CapsNet在測(cè)試結(jié)果中的精度分別為95.7%、98.9%、99.7%。研究表明，CapsNet 帶來(lái)了總體上最好的性能，其準(zhǔn)確率超過(guò)其他所有模型，在識(shí)別圖像中得到了較好的效果。

2.1.2 CNN結(jié)合膠囊層的應(yīng)用

通過(guò)將現(xiàn)有CNN模型與膠囊網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)合方式可以提升識(shí)別精度，Hollósi等[28]選取了VGG、ResNet和DenseNet三種魯棒性很強(qiáng)的神經(jīng)網(wǎng)絡(luò)，通過(guò)增加膠囊層的方式來(lái)提升神經(jīng)網(wǎng)絡(luò)的精度，與未增加膠囊層的原始網(wǎng)絡(luò)進(jìn)行精度對(duì)比。每個(gè)神經(jīng)網(wǎng)絡(luò)模型中均使用包含兩層膠囊層的相同膠囊塊，膠囊塊第一層包括256個(gè)卷積核，第二層包含10 個(gè)膠囊，輸出向量為16 維，采用動(dòng)態(tài)路由算法，共有3 條路由。分別使用CIFAR-10 和MNIST 數(shù)據(jù)集進(jìn)行測(cè)試，兩個(gè)數(shù)據(jù)集均進(jìn)行了一些修改，將圖像旋轉(zhuǎn)24°、48°、72°、96°、120°、144°、168°、192°、216°、240°、264°、288°、312°和336°，同時(shí)隨機(jī)翻轉(zhuǎn)圖像水平和垂直方向。測(cè)試時(shí)采用不同的數(shù)據(jù)集大小，分別為（1 250，250），（2 500，500），（5 000，1 000），（10 000，2 000），（20 000，4 000）和（50 000，10 000），第一個(gè)值為訓(xùn)練集的大小，第二個(gè)值為測(cè)試集大小。經(jīng)過(guò)測(cè)試，其中增加了膠囊層的DenseNet網(wǎng)絡(luò)在CIFAR-10數(shù)據(jù)集采用的（50 000，10 000）和（20 000，4 000）兩種大小方案中，分別由45.27%和36.88%提升至64.02%和59.98%。同時(shí)增加了膠囊層的DenseNet網(wǎng)絡(luò)在MNIST數(shù)據(jù)集中采用的（20 000，4 000）方案中精度提升最為明顯，由58.75%提升至95.35%。實(shí)驗(yàn)結(jié)果表明，使用修改后的數(shù)據(jù)集降低了神經(jīng)網(wǎng)絡(luò)原本的精度，使用膠囊塊可提升精度，采用膠囊單元的網(wǎng)絡(luò)普遍比傳統(tǒng)方法精度更高。采用膠囊層的神經(jīng)網(wǎng)絡(luò)，訓(xùn)練速度比原始神經(jīng)網(wǎng)絡(luò)快，同時(shí)膠囊網(wǎng)絡(luò)識(shí)別旋轉(zhuǎn)物體相比傳統(tǒng)CNN 模型更具優(yōu)勢(shì)。

2.1.3 小規(guī)模數(shù)據(jù)集應(yīng)用

以深度學(xué)習(xí)為代表的人工智能技術(shù)正在蓬勃發(fā)展，并已應(yīng)用于很多領(lǐng)域。然而深度學(xué)習(xí)也有一些局限性：它更適合于大量的數(shù)據(jù)，與小規(guī)模的數(shù)據(jù)集沒(méi)有特別的相關(guān)性。由此引出的一個(gè)問(wèn)題即深度學(xué)習(xí)是否適用于小數(shù)據(jù)訓(xùn)練一直是一個(gè)有爭(zhēng)議的話(huà)題。有學(xué)者提出，當(dāng)數(shù)據(jù)相對(duì)較少時(shí)，深度學(xué)習(xí)的表現(xiàn)并不優(yōu)于其他傳統(tǒng)方法，相反，有時(shí)效果甚至比傳統(tǒng)方法差。某種程度上，這種說(shuō)法是正確的：深度學(xué)習(xí)需要從數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征，通常只有在大量訓(xùn)練數(shù)據(jù)的情況下才有可能，尤其是對(duì)于一些輸入樣本高維的情況，例如圖像。

神經(jīng)網(wǎng)絡(luò)使用數(shù)據(jù)擴(kuò)充技術(shù)可以起到提升準(zhǔn)確率的作用，Zhang 等[29]以Kaggle 中的2 000 張“貓vs 狗”比賽的圖片作為訓(xùn)練數(shù)據(jù)集，同時(shí)額外選取400張進(jìn)行測(cè)試，根據(jù)數(shù)據(jù)集的特點(diǎn)，對(duì)數(shù)據(jù)集采用了幾種預(yù)處理技術(shù)，包括最大最小范數(shù)、調(diào)整大小和數(shù)據(jù)擴(kuò)充等。使用數(shù)據(jù)擴(kuò)充技術(shù)后，模型不會(huì)發(fā)現(xiàn)任何兩幅完全相同的圖像，這將有助于抑制過(guò)度擬合，使模型更具普遍性。最后采用CNN 和CapsNet 對(duì)使用了數(shù)據(jù)擴(kuò)充技術(shù)和未使用數(shù)據(jù)擴(kuò)充技術(shù)的兩種情況分別測(cè)試，測(cè)試結(jié)果如表4所示。不使用數(shù)據(jù)擴(kuò)充技術(shù)時(shí)，CNN 的精度為68%，CapsNet為73%，使用了數(shù)據(jù)擴(kuò)充技術(shù)時(shí)，CNN為76.5%，CapsNet 為81.5%。實(shí)驗(yàn)結(jié)果表明，CapsNets 在小規(guī)模數(shù)據(jù)集上的性能優(yōu)于傳統(tǒng)的CNN。此外，當(dāng)不使用擴(kuò)充技術(shù)的訓(xùn)練數(shù)據(jù)時(shí)，CapsNet 的性能明顯優(yōu)于CNN，這個(gè)情況表明CapsNet 在數(shù)據(jù)量相對(duì)較小的情況下和CNN 相比具有更好的泛化能力，能夠較好地抵抗過(guò)擬合，正是膠囊具有同變性的特性，才可以更好地探索特征屬性直接的關(guān)系，因此這是一個(gè)非常重要的優(yōu)勢(shì)。

表4 分類(lèi)精度比較

2.1.4 不同仿射變換的應(yīng)用

膠囊網(wǎng)絡(luò)在識(shí)別空間位置信息上具有優(yōu)勢(shì)，付家慧等[30]從可視化角度研究了膠囊網(wǎng)絡(luò)在平移、旋轉(zhuǎn)等仿射變換的特征。實(shí)驗(yàn)結(jié)果的準(zhǔn)確性通過(guò)三種仿射變換的損失值來(lái)表示。最終發(fā)現(xiàn)經(jīng)過(guò)600次epoch也沒(méi)有真正達(dá)到收斂，但每個(gè)batch 中的100 張圖片的總損失函數(shù)值能夠降低至10 以下，最后得到的生成圖像非常接近目標(biāo)圖像。研究表明：在膠囊網(wǎng)絡(luò)的內(nèi)部，每個(gè)膠囊模塊都能夠?qū)W習(xí)到一種姿態(tài)，這種姿態(tài)適用于大多數(shù)的手寫(xiě)數(shù)字，同時(shí)每個(gè)膠囊模塊得到的特征姿態(tài)均對(duì)最終結(jié)果存在一定貢獻(xiàn)。與卷積神經(jīng)網(wǎng)絡(luò)不同的地方在于，膠囊網(wǎng)絡(luò)在搭建模型時(shí)就考慮到位置信息，最終生成結(jié)果得到的模塊特征輸出是從初始位置信息轉(zhuǎn)化而成的，膠囊網(wǎng)絡(luò)最后確實(shí)學(xué)到了手寫(xiě)數(shù)字圖像經(jīng)過(guò)變換的圖像信息。因此，膠囊網(wǎng)絡(luò)對(duì)于實(shí)體姿態(tài)、位置和方向等信息的處理明顯優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)。

2.1.5 指靜脈識(shí)別應(yīng)用

指靜脈識(shí)別技術(shù)在現(xiàn)代應(yīng)用中隨處可見(jiàn)，CNN 在指靜脈識(shí)別過(guò)程中存在信息丟失的問(wèn)題，余成波等[31]提出了一種基于膠囊網(wǎng)絡(luò)的指靜脈識(shí)別算法。膠囊網(wǎng)絡(luò)以向量的形式封裝指靜脈的多維特征，這些特征會(huì)被保存在網(wǎng)絡(luò)中，而不是丟失后再進(jìn)行恢復(fù)。實(shí)驗(yàn)采用60 000張圖片作為訓(xùn)練集，10 000張圖片作為測(cè)試集，同時(shí)進(jìn)行圖像增強(qiáng)與裁減操作。經(jīng)過(guò)測(cè)試，如表5 所示，CapsNets的識(shí)別率逐漸增加，在訓(xùn)練次數(shù)為30 000時(shí)精度達(dá)到99.7%，loss值為0.010 7。經(jīng)過(guò)對(duì)比，CapsNets展現(xiàn)出了令人驚訝的準(zhǔn)確率，在準(zhǔn)確率上相比VGG 增加了13.6%，同時(shí)loss 值最終收斂到0.01。當(dāng)CapsNets 迭代到2 000 次的時(shí)候，就開(kāi)始逼近90%的準(zhǔn)確率，同時(shí)loss值降低至0.2，最終收斂于98.6%的準(zhǔn)確率。而VGG迭代比較平穩(wěn)，迭代200 次時(shí)網(wǎng)絡(luò)精度趨近84%，后期并無(wú)太大提升，最終精度為85%，loss值為0.21。

表5 CapsNets訓(xùn)練的識(shí)別率和loss值

研究表明CapsNets比CNN更加適合進(jìn)行指靜脈識(shí)別，二者對(duì)比如表6 所示。膠囊網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單，網(wǎng)絡(luò)深度遠(yuǎn)小于VGG，且訓(xùn)練速度非常快，只用了VGG 網(wǎng)絡(luò)訓(xùn)練時(shí)間的1/8，同時(shí)其空間特性將靜脈的特征保留完整，能夠得到非常好的結(jié)果。

表6 CapsNets與VGG對(duì)比

2.1.6 膠囊網(wǎng)絡(luò)優(yōu)化方法

為了提高膠囊網(wǎng)絡(luò)的效率和泛化能力，Zou 等[32]提出了一種新的膠囊網(wǎng)絡(luò)激活函數(shù)exping，同時(shí)在損失函數(shù)中加入了最小重量損失Wloss。實(shí)驗(yàn)采用MNIST 數(shù)據(jù)集對(duì)原始?jí)嚎s激活函數(shù)、exping激活函數(shù)和exping加Wloss 進(jìn)行測(cè)試，測(cè)試中使用相同的參數(shù)。表7 展示了不同方法對(duì)手寫(xiě)數(shù)字集MNIST 的識(shí)別精度，原始?jí)嚎s激活函數(shù)的準(zhǔn)確率為99.71%，使用exping 激活函數(shù)的準(zhǔn)確率為99.72%，使用exping 加Wloss 的準(zhǔn)確率為99.75%。此研究表明，經(jīng)過(guò)改進(jìn)的膠囊網(wǎng)絡(luò)提高了網(wǎng)絡(luò)收斂速度，提高了網(wǎng)絡(luò)泛化能力，提高了網(wǎng)絡(luò)效率，因此具有很大的使用價(jià)值。

表7 不同方法對(duì)MINST測(cè)試集的識(shí)別精度

除了改變激活函數(shù)和損失函數(shù)的方式，還可以通過(guò)改變膠囊層的架構(gòu)來(lái)提升網(wǎng)絡(luò)的精度。Xiong等[33]通過(guò)引入卷積膠囊層（Conv-Caps-Layer），借助現(xiàn)有CNN 深層架構(gòu)可以提取高維特征的思想，加深了CapsNet的結(jié)構(gòu)，大大提高了性能。同時(shí)提出了一種新的池操作——膠囊池（CapsPool），用來(lái)減少參數(shù)的數(shù)量，還能保留功能。實(shí)驗(yàn)使用CIFAR-10數(shù)據(jù)集測(cè)試，如表8所示，此研究提出的DeeperCaps模型訓(xùn)練準(zhǔn)確率達(dá)到96.88%，測(cè)試準(zhǔn)確率達(dá)到81.29%。在MNIST數(shù)據(jù)集上測(cè)試，Deeper-Caps 模型測(cè)試準(zhǔn)確率達(dá)到99.84%。通過(guò)添加膠囊池，訓(xùn)練精度和測(cè)試精度只降低了1%，但能夠顯著減少50%的參數(shù)數(shù)量，大幅節(jié)省訓(xùn)練資源。此研究提出的DeeperCaps模型在數(shù)據(jù)集Cifar10上得到了迄今為止最強(qiáng)的CapsNet結(jié)果，Caps池在保持性能的同時(shí)減少了層間參數(shù)的一半，將CapsNet推向了最先進(jìn)的CNN架構(gòu)。

表8 DeeperCaps與Caps-Pool的精度對(duì)比%

為了探究影響膠囊網(wǎng)絡(luò)識(shí)別效率的因素，郭宏遠(yuǎn)等[34]采用了三種優(yōu)化措施：使用衰變學(xué)習(xí)率代替恒定學(xué)習(xí)率、使用Google 提出的Swish 激活函數(shù)代替relu 激活函數(shù)，以及使用較低的batch size。衰變學(xué)習(xí)率相較于恒定學(xué)習(xí)率，其后期收斂效果更好。Swish 激活函數(shù)是谷歌提出的一種新型激活函數(shù)，其雖與Relu函數(shù)類(lèi)似，但最終性能更加突出。更小的batch size有利于卷積層對(duì)于局部特征的捕捉。衰變學(xué)習(xí)率設(shè)置為0.9，batch size采用32 來(lái)替代常規(guī)的128。實(shí)驗(yàn)使用Fashion-MNIST與MNIST 兩個(gè)數(shù)據(jù)集進(jìn)行對(duì)比。進(jìn)行優(yōu)化前CapsNet在MNIST上測(cè)試的錯(cuò)誤率為0.36%，而優(yōu)化后的錯(cuò)誤率為0.30%。優(yōu)化前CapsNet 在Fashion-MNIST 上的錯(cuò)誤率為9.40%，優(yōu)化后的錯(cuò)誤率為8.56%。實(shí)驗(yàn)結(jié)果證明了更小的batch size同樣對(duì)于膠囊神經(jīng)網(wǎng)絡(luò)中的膠囊層具有增強(qiáng)局部特征捕捉能力的效果。

2.2 文本分類(lèi)

近年來(lái)，隨著互聯(lián)網(wǎng)中文本數(shù)據(jù)的顯著增長(zhǎng)，文本分類(lèi)則越來(lái)越被人們關(guān)注。文本分類(lèi)是自然語(yǔ)言處理中的一個(gè)基本問(wèn)題，它的目標(biāo)是自動(dòng)將文本文檔分類(lèi)到一個(gè)或多個(gè)預(yù)定義類(lèi)別中，使用戶(hù)更容易找到所需的信息。因此文本分類(lèi)在信息抽取、問(wèn)答、情感分類(lèi)和語(yǔ)言推理等眾多應(yīng)用中起著至關(guān)重要的作用。受深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域巨大進(jìn)步的推動(dòng)，深度學(xué)習(xí)算法如卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)已成為主流文本分類(lèi)方法。以往的文本分類(lèi)方法在提供大量標(biāo)注訓(xùn)練數(shù)據(jù)的情況下能夠取得顯著的效果，然而這種性能依賴(lài)于訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)來(lái)自同一數(shù)據(jù)分布的假設(shè)很難將學(xué)習(xí)到的文本分類(lèi)模型推廣到新的領(lǐng)域并應(yīng)用。在推理過(guò)程中，人類(lèi)視覺(jué)系統(tǒng)會(huì)智能地將部分分配給整體，而不必硬編碼與透視相關(guān)的模式[35]。因此，膠囊網(wǎng)絡(luò)具備捕捉局部和整體之間的內(nèi)在空間關(guān)系的特性可以構(gòu)成視點(diǎn)不變的知識(shí)，并自動(dòng)推廣到新的視點(diǎn)。這種部分和整體的關(guān)系在自然語(yǔ)言中稱(chēng)為語(yǔ)義合成，詞組和句子意義的分析是基于語(yǔ)義組合原則的。膠囊可以是一組神經(jīng)元，其活動(dòng)向量代表特定語(yǔ)義特征的實(shí)例化參數(shù)，因此膠囊網(wǎng)絡(luò)可以用于文本分類(lèi)。

2.2.1 靜態(tài)路由和動(dòng)態(tài)路由的應(yīng)用

Kim等[36]提出一種簡(jiǎn)單的路由方法，稱(chēng)之為靜態(tài)路由，使用這種方式成功降低了動(dòng)態(tài)路由計(jì)算復(fù)雜度，同時(shí)提高了分類(lèi)精度。通過(guò)7種基準(zhǔn)數(shù)據(jù)集對(duì)5種不同的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行測(cè)試，使用靜態(tài)路由方式的精度普遍高于動(dòng)態(tài)路由0.1%～6%不等。同時(shí)，他們提出使用ELU 門(mén)傳遞信息，無(wú)論在哪種路由情況下，精度都是最高的。在文本分類(lèi)方面，CapsNet 優(yōu)于CNN，能夠達(dá)到更好的效果。

Yang 等[37]研究了用于文本分類(lèi)的動(dòng)態(tài)路由膠囊網(wǎng)絡(luò)，提出了三種策略來(lái)減少噪音膠囊的干擾。他們使用一個(gè)主要由N-gram 卷積層、初級(jí)膠囊層、卷積膠囊層和全連接膠囊層組成的模型。通過(guò)6 個(gè)不同的分類(lèi)基準(zhǔn)數(shù)據(jù)集對(duì)11種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行測(cè)試，膠囊網(wǎng)絡(luò)在6個(gè)數(shù)據(jù)集中的其中4 個(gè)達(dá)到了所有網(wǎng)絡(luò)結(jié)構(gòu)中的最好效果。同時(shí)，在其余兩個(gè)數(shù)據(jù)集中，膠囊網(wǎng)絡(luò)的結(jié)果處于中上等水平。通過(guò)對(duì)比，膠囊網(wǎng)絡(luò)在文本分類(lèi)時(shí)明顯優(yōu)于CNN，在將單標(biāo)簽文本分類(lèi)轉(zhuǎn)換為多標(biāo)簽文本分類(lèi)時(shí)，也具備顯著的優(yōu)勢(shì)。

2.2.2 評(píng)論識(shí)別和情緒分析的應(yīng)用

在當(dāng)今時(shí)代，網(wǎng)絡(luò)中具有攻擊性和負(fù)面的評(píng)論非常常見(jiàn)。Srivastava 等[38]提出了一種單模型膠囊網(wǎng)絡(luò)用來(lái)在評(píng)論中識(shí)別具有攻擊性的評(píng)論，他們的模型分為4層：文字嵌入層、特征提取層、膠囊層和卷積膠囊層，同時(shí)使用焦點(diǎn)損失代替標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)。膠囊網(wǎng)絡(luò)可利用動(dòng)態(tài)路由的過(guò)程來(lái)減輕一些噪聲膠囊干擾，焦點(diǎn)損失可以防止在訓(xùn)練中大量簡(jiǎn)單的負(fù)樣本對(duì)檢測(cè)器造成的嚴(yán)重影響。通過(guò)3 種數(shù)據(jù)集對(duì)11 種神經(jīng)網(wǎng)絡(luò)模型測(cè)試，這種單模型膠囊網(wǎng)絡(luò)在每個(gè)數(shù)據(jù)集中的表現(xiàn)都是最優(yōu)的，達(dá)到了這些模型中最高的精度，特別在ROCAUC 數(shù)據(jù)集的測(cè)試結(jié)果中，他們的模型用于文本分類(lèi)的準(zhǔn)確率高達(dá)98.46%。膠囊網(wǎng)絡(luò)以其獨(dú)有的特性在評(píng)論識(shí)別中達(dá)到了非常好的效果。

一篇關(guān)于情緒分析的研究文章[39]將遞歸神經(jīng)網(wǎng)絡(luò)與膠囊式網(wǎng)絡(luò)結(jié)合進(jìn)行情緒分析。研究者為一個(gè)特定的情緒類(lèi)別設(shè)計(jì)了一個(gè)膠囊，例如“積極”和“消極”。膠囊由狀態(tài)、屬性和3 個(gè)模塊（表示、概率、重構(gòu)）組成，表示模塊通過(guò)注意機(jī)制構(gòu)建膠囊表示，模型中使用的膠囊結(jié)構(gòu)能夠模擬情緒，并且無(wú)需任何語(yǔ)言知識(shí)模型即可輸出情感傾向。通過(guò)基準(zhǔn)數(shù)據(jù)集Movie Review and Stanford Sentiment Treebank，以及專(zhuān)有數(shù)據(jù)集Hospital Feedback對(duì)12種神經(jīng)網(wǎng)絡(luò)模型進(jìn)行測(cè)試，他們提出的RNN-Capsule模型在眾多網(wǎng)絡(luò)模型中脫穎而出，達(dá)到了非常理想的效果，尤其在情感分類(lèi)方面高達(dá)91.6%的準(zhǔn)確率，達(dá)到了目前為止最先進(jìn)的性能。

2.2.3 動(dòng)態(tài)路由和壓縮函數(shù)的優(yōu)化

為了更好地保留文本特征，增加特征多樣性，驗(yàn)證動(dòng)態(tài)路由迭代次數(shù)和壓縮函數(shù)對(duì)模型的影響，沈煒域等[40]構(gòu)建包含多尺寸多層卷積的膠囊網(wǎng)絡(luò)和自注意力網(wǎng)絡(luò)的CapSA模型驗(yàn)證模型效果。實(shí)驗(yàn)使用Headlines和Review Sentiment數(shù)據(jù)集測(cè)試，結(jié)果如表9所示，僅限制迭代輪數(shù)為5 輪時(shí)，CapSA 模型在第2 輪路由迭代能夠得到較好的分類(lèi)效果，后續(xù)增加的迭代次數(shù)并沒(méi)有使得效果提升。模型如果達(dá)到理想的收斂狀態(tài)，需要更多的路由迭代次數(shù)，亦需要非常多的數(shù)據(jù)迭代才能達(dá)成，會(huì)造成更大的計(jì)算代價(jià)。

表9 CapSA在兩種數(shù)據(jù)集上不同迭代輪數(shù)的F1與正確率

CapSA 模型上還嘗試了4 種不同的壓縮方案。方案1是，方案2是方案3 是，方案4 是在路由迭代中使用，進(jìn)行最后一輪迭代輸出時(shí)使用。對(duì)比4 種方案的訓(xùn)練損失變化，結(jié)果為方案2的損失下降速度是最快的，其收斂效果也達(dá)到最好。研究表明不同的動(dòng)態(tài)路由迭代輪數(shù)對(duì)模型的收斂效果非常敏感，適當(dāng)?shù)南蛄繅嚎s方案同樣會(huì)影響效果。

2.3 小結(jié)

膠囊網(wǎng)絡(luò)有很多優(yōu)勢(shì)，朱應(yīng)釗等[20]提出膠囊網(wǎng)絡(luò)具有3個(gè)優(yōu)勢(shì)特性。第一點(diǎn)即所需訓(xùn)練數(shù)據(jù)量較少，神經(jīng)膠囊的引入，能夠保留輸入對(duì)象的詳細(xì)屬性信息。其中屬性信息中包含了輸入對(duì)象的姿態(tài)、位置、大小、旋轉(zhuǎn)等信息，膠囊網(wǎng)絡(luò)能夠?qū)W(xué)習(xí)到的東西推廣到新場(chǎng)景中。因此，對(duì)發(fā)生平移、旋轉(zhuǎn)、縮放等操作的同一對(duì)象依然可以識(shí)別正確，同時(shí)還能從不同角度進(jìn)行識(shí)別。所需要的訓(xùn)練數(shù)據(jù)量少的優(yōu)勢(shì)，使得膠囊網(wǎng)絡(luò)更接近人腦。第二點(diǎn)即不易受多類(lèi)別重疊的干擾，膠囊網(wǎng)絡(luò)有能力處理對(duì)象重疊的復(fù)雜場(chǎng)景，通過(guò)每一個(gè)特定部分的屬性和存在預(yù)測(cè)高級(jí)對(duì)象的屬性和存在，同時(shí)對(duì)比預(yù)測(cè)結(jié)果之間的一致性，若達(dá)成一致則增加路由權(quán)重，不一致則減少路由權(quán)重。因此，一個(gè)膠囊的輸出只需路由到下一層對(duì)應(yīng)的膠囊中，即下一層的膠囊能獲取更清晰的輸入信號(hào)，將多類(lèi)別重疊的模糊性進(jìn)行轉(zhuǎn)換，從而實(shí)現(xiàn)對(duì)重疊對(duì)象的識(shí)別和預(yù)測(cè)。第三個(gè)優(yōu)勢(shì)即膠囊網(wǎng)絡(luò)抵御白盒對(duì)抗性攻擊能力較強(qiáng)。因深度學(xué)習(xí)的各種網(wǎng)絡(luò)模型在各個(gè)領(lǐng)域廣泛使用，其防御對(duì)抗性攻擊的能力備受大家關(guān)注。經(jīng)過(guò)研究，發(fā)現(xiàn)膠囊網(wǎng)絡(luò)有著較強(qiáng)的抵御能力，尤其是對(duì)于白盒的對(duì)抗性攻擊，相比卷積神經(jīng)網(wǎng)絡(luò)，膠囊網(wǎng)絡(luò)則在這一方面更加出色。一種典型的白盒對(duì)抗性攻擊的方法FGSM發(fā)揮作用時(shí)，卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率會(huì)斷崖式下降至20%以下，與此同時(shí)膠囊網(wǎng)絡(luò)卻能夠持續(xù)保持70%以上的準(zhǔn)確率。膠囊網(wǎng)絡(luò)的優(yōu)勢(shì)突出、應(yīng)用廣泛，本文主要列舉圖像識(shí)別和文本分類(lèi)兩大方面的應(yīng)用和優(yōu)化，如表10、表11所示。

3 結(jié)束語(yǔ)

膠囊網(wǎng)絡(luò)在很多領(lǐng)域的應(yīng)用都展現(xiàn)出其獨(dú)特的魯棒性，無(wú)論是圖像識(shí)別領(lǐng)域還是文本分類(lèi)領(lǐng)域，不管是直接使用膠囊網(wǎng)絡(luò)結(jié)構(gòu)還是改變現(xiàn)有結(jié)構(gòu)的網(wǎng)絡(luò)將膠囊層加入其中，都呈現(xiàn)出了令人驚訝的效果。在現(xiàn)有CNN結(jié)構(gòu)中加入膠囊層提升精度的同時(shí)還能夠提升訓(xùn)練速度，對(duì)于小數(shù)據(jù)集的應(yīng)用，膠囊網(wǎng)絡(luò)的泛化能力非常強(qiáng)。膠囊網(wǎng)絡(luò)在處理空間信息中具有明顯的優(yōu)勢(shì)，能夠?qū)⒖臻g特征保留完整，善于處理實(shí)體位置、姿態(tài)以及方向信息，且網(wǎng)絡(luò)結(jié)構(gòu)淺、訓(xùn)練速度快、空間特征保留完整。即使網(wǎng)絡(luò)迭代前期能夠達(dá)到一個(gè)不錯(cuò)的準(zhǔn)確率，但是網(wǎng)絡(luò)迭代后期仍然能夠平穩(wěn)提升準(zhǔn)確率并降低loss值，達(dá)到更好的效果。不同的激活函數(shù)能夠提升膠囊網(wǎng)絡(luò)的泛化能力、收斂速度，改變膠囊層架構(gòu)、batch size、學(xué)習(xí)率等也能優(yōu)化膠囊網(wǎng)絡(luò)的效果。動(dòng)態(tài)路由迭代次數(shù)也是影響準(zhǔn)確率的因素之一，適當(dāng)?shù)牡螖?shù)能夠使得網(wǎng)絡(luò)性能達(dá)到最理想的狀態(tài)。膠囊網(wǎng)絡(luò)有能力處理對(duì)象重疊的復(fù)雜場(chǎng)景，這也是其在眾多神經(jīng)網(wǎng)絡(luò)模型中脫穎而出的其中一個(gè)原因。同時(shí)，膠囊網(wǎng)絡(luò)對(duì)于白盒的對(duì)抗性攻擊還有著較強(qiáng)的抵御能力，這種抵御能力遠(yuǎn)超卷積神經(jīng)網(wǎng)絡(luò)。因此，膠囊網(wǎng)絡(luò)具有很大的潛力，還需要進(jìn)行探索。

盡管研究者在深度學(xué)習(xí)的交叉領(lǐng)域已取得了諸多膠囊網(wǎng)絡(luò)的相關(guān)成果，但是膠囊網(wǎng)絡(luò)的發(fā)展并不完善，在某些方面仍然受到現(xiàn)有技術(shù)制約，存在很多問(wèn)題需要研究者去解決。因此，未來(lái)可以在以下方面增強(qiáng)膠囊網(wǎng)絡(luò)的識(shí)別能力，從而提升膠囊網(wǎng)絡(luò)的性能。

（1）提高識(shí)別速度

現(xiàn)代深度學(xué)習(xí)模型的識(shí)別速度很大程度上影響模型的整體性能，在膠囊網(wǎng)絡(luò)的動(dòng)態(tài)路由算法中，對(duì)于目標(biāo)特征的每個(gè)位置都被準(zhǔn)確地以向量形式封裝在膠囊里。因此動(dòng)態(tài)路由算法內(nèi)部的迭代耗時(shí)長(zhǎng)，迭代次數(shù)多，大大降低識(shí)別效率。盡管準(zhǔn)確率比諸多深度學(xué)習(xí)模型都要優(yōu)異，但識(shí)別速度還有很大的提升空間。膠囊網(wǎng)絡(luò)不光可以采用向量形式表示，也可以采用矩陣進(jìn)行表示。矩陣可減少大量的參數(shù)，同時(shí)降低計(jì)算量，提高計(jì)算速度。此表示方式在以后的研究中可作為一個(gè)重點(diǎn)突破的方向，其對(duì)膠囊網(wǎng)絡(luò)提高識(shí)別速度具有重大意義。同時(shí)，GPU集群技術(shù)使用的越來(lái)越普遍，雖然一定程度上提升了計(jì)算能力，但仍然不足以滿(mǎn)足膠囊網(wǎng)絡(luò)需要的強(qiáng)大大計(jì)算能力。因此，未來(lái)的研究方向可以著手于降低網(wǎng)絡(luò)參數(shù)、提升GPU計(jì)算能力、提升動(dòng)態(tài)路由算法效率等方向來(lái)提升膠囊網(wǎng)絡(luò)的識(shí)別速度。

（2）優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)

膠囊網(wǎng)絡(luò)在識(shí)別MNIST手寫(xiě)數(shù)據(jù)集上表現(xiàn)極其優(yōu)異，精度趨近于100%，但由于手寫(xiě)數(shù)字為28×28的灰度圖像，規(guī)模較小，內(nèi)容較簡(jiǎn)單，特征較明顯，因此膠囊網(wǎng)絡(luò)在小規(guī)模的圖像處理中幾乎具有最好的性能，但是在大規(guī)模的圖像處理過(guò)程上仍然有待提高。目前膠囊網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)很淺，和眾多典型CNN 網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)成了鮮明的對(duì)比。未來(lái)可以通過(guò)適當(dāng)加深網(wǎng)絡(luò)結(jié)構(gòu)，探索適合識(shí)別大規(guī)模圖像的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行研究，以此打造一個(gè)可以識(shí)別不同規(guī)模大小的網(wǎng)絡(luò)結(jié)構(gòu)，進(jìn)一步優(yōu)化網(wǎng)絡(luò)處理過(guò)程，獲得更出色的效果。

表10 膠囊網(wǎng)絡(luò)的應(yīng)用總結(jié)

（3）優(yōu)化壓縮函數(shù)

壓縮函數(shù)在膠囊網(wǎng)絡(luò)結(jié)構(gòu)中發(fā)揮非常重要的作用，不同的壓縮方案效果不同。在膠囊網(wǎng)絡(luò)原始的壓縮函數(shù)中，參數(shù)中常數(shù)值的改變對(duì)損失值、精度能夠造成很大的影響。因此，未來(lái)在提升膠囊網(wǎng)絡(luò)性能時(shí)，可探索其他不同的壓縮函數(shù)，試驗(yàn)每種壓縮函數(shù)的效果，尋求一個(gè)能夠提升現(xiàn)有性能的壓縮函數(shù)，同時(shí)搭配合適的網(wǎng)絡(luò)結(jié)構(gòu)以及優(yōu)化過(guò)的路由算法。探究更加合適的壓縮函數(shù)將會(huì)對(duì)膠囊網(wǎng)絡(luò)的性能帶來(lái)突破，同時(shí)對(duì)膠囊網(wǎng)絡(luò)的發(fā)展也具有重大意義，如何界定一個(gè)合適的壓縮方案將成為一個(gè)很重要的研究?jī)?nèi)容，將作為日后膠囊網(wǎng)絡(luò)的研究重點(diǎn)。

（4）優(yōu)化損失函數(shù)

膠囊網(wǎng)絡(luò)采用了間隔損失的方式作為損失函數(shù)，因其可對(duì)多個(gè)目標(biāo)進(jìn)行分類(lèi)，所以不再采用傳統(tǒng)交叉熵函數(shù)的方式。適當(dāng)?shù)膿p失函數(shù)可減少負(fù)面信息對(duì)模型的不良影響，能夠盡快地將預(yù)測(cè)結(jié)果與真實(shí)結(jié)果靠近，達(dá)到訓(xùn)練模型的預(yù)期目的。損失函數(shù)對(duì)模型的性能具備一定程度上的影響，目前可以將損失函數(shù)作為膠囊網(wǎng)絡(luò)的主要改變方向，損失函數(shù)不光對(duì)膠囊網(wǎng)絡(luò)具有重要意義，也對(duì)整個(gè)神經(jīng)網(wǎng)絡(luò)的改進(jìn)與優(yōu)化存在非常重要的作用。

表11 膠囊網(wǎng)絡(luò)的優(yōu)化總結(jié)

當(dāng)前人工神經(jīng)網(wǎng)絡(luò)應(yīng)用廣泛，未來(lái)在信息處理、模式識(shí)別、醫(yī)學(xué)影像、生物信號(hào)、市場(chǎng)價(jià)格預(yù)測(cè)、風(fēng)險(xiǎn)評(píng)估、交通模式分析、車(chē)輛檢測(cè)與分類(lèi)、教育，甚至心理學(xué)等領(lǐng)域都可以有顯著進(jìn)步。目前的應(yīng)用處于人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用初始階段，較為簡(jiǎn)單，經(jīng)過(guò)探索已經(jīng)有很多成熟的經(jīng)典模型用于社會(huì)發(fā)展中。但正是人工神經(jīng)網(wǎng)絡(luò)模擬人腦的特點(diǎn)，給科學(xué)發(fā)展帶來(lái)了無(wú)限可能。經(jīng)過(guò)發(fā)展，未來(lái)的人工神經(jīng)網(wǎng)絡(luò)會(huì)應(yīng)用在生活的方方面面，人們的生活會(huì)更便捷，例如無(wú)人駕駛汽車(chē)的普及、公安系統(tǒng)對(duì)公民信息的查詢(xún)以及錄入，公司內(nèi)部的員工打卡系統(tǒng)，甚至商場(chǎng)里每一個(gè)商家手里的門(mén)店鑰匙，都會(huì)迎來(lái)質(zhì)的飛躍，變成不一樣的形式伴隨著社會(huì)發(fā)展。根據(jù)現(xiàn)已應(yīng)用的模型進(jìn)行改進(jìn)，融合膠囊網(wǎng)絡(luò)的優(yōu)勢(shì)，能夠在目前的研究中實(shí)現(xiàn)更進(jìn)一步的發(fā)展。因此，探索膠囊網(wǎng)絡(luò)應(yīng)用的優(yōu)勢(shì)領(lǐng)域是一個(gè)有待發(fā)展的研究課題，通過(guò)探索不斷完善膠囊網(wǎng)絡(luò)的性能，能夠極大推進(jìn)人工智能技術(shù)進(jìn)步。當(dāng)前對(duì)膠囊網(wǎng)絡(luò)的探索研究仍然具有廣闊的發(fā)展空間，仍然需要更進(jìn)一步地探索膠囊網(wǎng)絡(luò)更深層的意義。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡