国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進膠囊網(wǎng)絡的文本分類

2020-09-29 06:56尹春勇
計算機應用 2020年9期
關(guān)鍵詞:膠囊卷積向量

尹春勇,何 苗

(南京信息工程大學計算機與軟件學院,南京 210044)

0 引言

文字作為傳播文化和溝通感情的橋梁,在人類社會發(fā)展的道路上一直起著至關(guān)重要的作用。隨著網(wǎng)絡的發(fā)展,大量的文字信息走進大眾的生活,新聞、微博、短信、網(wǎng)絡點評等不同形式的文本大量地涌現(xiàn)。文本信息中蘊含了很多重要信息,對文本的處理主要包括文本檢索、翻譯、文本分類等。如何快速而準確地獲取文本信息,文本分類技術(shù)發(fā)揮著重要的作用。

文本分類是指,對于給定的一些文本集D={d1,d2,…,dn}和一些類別C={c1,c2,…,cM},如何利用分類模型?將D中的文本映射到C中的某一個類別中。例如將淘寶的評論分為好評與差評;微博評論分為開心、憤怒、傷心等情感類型;新聞分為體育新聞、娛樂新聞、教育新聞、軍事新聞等。文本分類大致經(jīng)過了3 個階段:第1 階段代表人物是Maron 和Borko,他們在20世紀60年代早期就提出了用標引詞代替文本,根據(jù)標引詞在類中出現(xiàn)的概率來確定類別,再將多個標引詞用少數(shù)因子來代表;第2 階段出現(xiàn)在20 世紀60 年代中期到70 年代中期,這一階段主要是探索各種可用的分類方法如圖論、統(tǒng)計、矩陣法等;第3階段就是現(xiàn)階段,將機器學習用于文本分類。

文本分類主要分為文本預處理和文本分類兩大部分。預處理就是將文本進行分詞,使得文本變成一個一個詞組成的數(shù)組,由于有一部分詞沒有實際意義,比如“的”“了”“在”“是”“地”等,這就需要建立停用詞庫,將這些停用詞放詞庫,進行分詞時,再將它們?nèi)咳コ?,這樣可以降低數(shù)組的維度,增強分類效果。將文本進行去停用詞后,所得的文本數(shù)組維度還是太高,這就需要對詞進行特征選擇,選擇出現(xiàn)頻率高或?qū)ξ谋绢愋途哂幸饬x的詞,能夠有效地降低數(shù)組的維度,減少計算量。由于計算機無法識別文本類型的數(shù)據(jù),所以還需要對文本進行建模,使文本類型數(shù)據(jù)轉(zhuǎn)化成數(shù)值型數(shù)據(jù)。最后,就是選擇分類器對文本進行分類,傳統(tǒng)的機器學習方法如:王藝穎[1]和鐘磊[2]使用的樸素貝葉斯(Naive Bayesian,NB),殷亞博等[3]和Liu等[4]使用了K-近鄰(K-Nearest Neighbor,KNN),郭超磊等[5]使用了支持向量機(Support Vector Machine,SVM),姚立等[6]使用了隨機森林(Random Forest);深度學習方法,如:Wei 等[7]使用了卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN),Hu 等[8]使用了循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN),馮國明等[9]使用了膠囊網(wǎng)絡(Capsule Network,CapsNet)等。

文本分類屬于自然語言處理范疇,一般是使用機器學習進行分類操作的,所以提出了很多關(guān)于機器學習模型和模型的改進算法。文本分類中一個很重要的發(fā)展是由原來僅通過簡單的提取關(guān)鍵字轉(zhuǎn)變?yōu)橥ㄟ^理解語義和聯(lián)系上下文而獲取文本信息。主題模型能根據(jù)一個文本提取出多個主題[5],不受文本的位置和詞語的數(shù)量影響。word2vec 對于文本分類來說是另一個重要的突破,Church[10]和薛煒明等[11]使用word2vec有效地解決了文本向量維度過大問題,通過CBOW(Continuous Bag of Words)或Skip-Gram模型,可以得到既定的詞語和既定詞語上下文中可能出現(xiàn)的詞語,word2vec使得每個詞語的向量表示具有了具體的意義。將word2vec 與CNN、長短記憶網(wǎng)絡(Long Short-Term Memory,LSTM)、支持向量機(SVM)相結(jié)合有效地提高了分類速度,也提高了準確度。近幾年又出現(xiàn)了膠囊網(wǎng)絡,它在CNN的基礎上進行了改進,用動態(tài)路由代替CNN中的池化操作。在實踐中,膠囊網(wǎng)絡更是適用于圖片分類和文本分類。Zhao等[12]最先將膠囊網(wǎng)絡用于文本分類,先使用一層卷積層對不同位置進行特征的提取,再使用兩層膠囊層進行訓練,最后使用全連接膠囊層輸出每個文本類型的概率進行softmax分類。本文在原有的膠囊網(wǎng)絡的基礎上進行了改進:先使用一層卷積層對不同位置的特征進行提?。蝗缓笫褂靡粚幽z囊層對上層的卷積操作的標量輸出替換為矢量輸出,從而保留了文本的詞語順序和語義;再使用一層卷積層對不同位置的特征再次進行特征的提取,提取完成后,再次使用膠囊層。

1 相關(guān)工作

2011 年,Hinton 等[13]首次引入膠囊網(wǎng)絡。其核心思想是使用膠囊來代替卷積神經(jīng)網(wǎng)絡中的神經(jīng)元,使網(wǎng)絡可以保留對象之間詳細的姿態(tài)信息和空間層級關(guān)系。2017 年,Sabour等[14]在神經(jīng)信息處理系統(tǒng)大會上發(fā)表論文,進一步提出了膠囊間的動態(tài)路由算法與膠囊神經(jīng)網(wǎng)絡結(jié)構(gòu)。該論文介紹了一個在MNIST(著名的手寫數(shù)字圖像數(shù)據(jù)集)上達到最先進性能的膠囊網(wǎng)絡架構(gòu),并且朱娟等[15]在MultiMNIST(一種不同數(shù)字重疊對的變體)上得到了比卷積神經(jīng)網(wǎng)絡更好的結(jié)果。張?zhí)熘龋?6]將膠囊網(wǎng)絡進行改進用于圖像識別,在MNIST 數(shù)據(jù)集上準確率可達到99.37%。

膠囊網(wǎng)絡與卷積神經(jīng)網(wǎng)絡不同的地方有:用向量膠囊代替卷積神經(jīng)網(wǎng)絡中的神經(jīng)元、動態(tài)路由代替池化操作、Squash函數(shù)代替ReLU 激活函數(shù)。膠囊網(wǎng)絡不同于卷積神經(jīng)網(wǎng)絡的三大部分是標量到向量的轉(zhuǎn)化、Squash 壓縮激活函數(shù)和動態(tài)路由。膠囊網(wǎng)絡原理圖如圖1所示,其中,ui表示低層特征,wij表示低層特征與高層特征之間的關(guān)系,uj|i表示高層特征。

圖1 膠囊工作原理示意圖Fig.1 Schematic diagram of capsule working principle

1.1 從標量到向量的轉(zhuǎn)化

卷積神經(jīng)網(wǎng)絡接收到神經(jīng)元輸入的標量后,將標量乘以權(quán)重,然后相加得到總和,最后將總和傳遞給一個非線性激活函數(shù),生成一個輸出標量,作為下一層的輸入變量。其工作原理可用3個步驟描述:

1)將輸入標量xi乘上權(quán)重wi;

2)對所有的xi×wi進行求和,得到S;

3)將S傳遞給非線性激活函數(shù)f(·),得到輸出標量y。

膠囊網(wǎng)絡不同于卷積神經(jīng)網(wǎng)絡的是,在進行加權(quán)求和時增加了一步。其工作原理可用4個步驟描述:

1)將輸入向量ui乘上權(quán)重矩陣wij,得到了新的輸入向量uj|i。

2)將輸入向量uj|i乘上權(quán)重cj|i,其中cj|i由動態(tài)路由決定。

3)對所有的uj|i×cj|i進行求和,得到向量Sj。

4)用壓縮激活函數(shù)Squash,將Sj轉(zhuǎn)化向量vj。

1.2 Squash壓縮激活函數(shù)

激活層就是對卷積層的輸出結(jié)果做一次非線性映射。本文采用的是ReLU函數(shù),表達式如式(1)所示:

當x大于0 時,ReLU 函數(shù)的導數(shù)恒等于1,所以在卷積神經(jīng)網(wǎng)絡中不會導致梯度消失和爆炸問題。若負數(shù)值過多,由式(1)看來,這部分的值就都為0,這導致了相應的神經(jīng)元無法激活,但是可以通過設置學習率來解決。

膠囊網(wǎng)絡使用的是壓縮激活函數(shù)Squash,Squash 函數(shù)的公式如式(2)所示:

式(2)簡寫為vj=A·B,Squash 函數(shù)還有功能是使得向量的長度不超過1,而且保持vj和Sj同方向。其中A項可以看出Sj的模長越長,則A項的值越大,則Sj代表的特征就越強,輸出值也就越大。B項是將Sj模長壓縮為1。由式(7)看來,vj的模長在0~1,方向同Sj同一個方向。

1.3 動態(tài)路由

卷積神經(jīng)網(wǎng)絡的池化層又稱為下采樣或欠采樣,用于特征降維,減少參數(shù),還起著加快計算速度和防止過擬合的作用。主要有最大池化和平均池化兩種方式。本文采用的是最大池化,原理圖如圖2所示。

圖2 最大池化原理Fig.2 Maximum pooling principle

采用最大池化操作,通過調(diào)整池化窗口參數(shù),提取出每張?zhí)卣鲌D中最具有說服力的局部最優(yōu)特征,從而生成每一行是每一篇文本進行一次最大池化抽樣的結(jié)果的矩陣。這樣也起到約減參數(shù)的作用,提高了模型的適應性。

膠囊網(wǎng)絡通過采用動態(tài)路由可代替卷積神經(jīng)網(wǎng)絡中的池化層,對輸入的特征進行聚類,即相似特征越多,這類特征就越強,由此進行了一次特征選擇過程,達到池化層特征選擇的目的。

動態(tài)路由偽代碼如下所示。

2 改進膠囊網(wǎng)絡模型

膠囊網(wǎng)絡最先開始用在圖像上,Zhao 等[12]第一次將膠囊網(wǎng)絡用在文本分類上,在多分類標簽上的效果明顯優(yōu)于卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡。

該模型主要分為4 個部分:第1 部分是一個標準的卷積層,通過多個不同的卷積核在句子的不同位置提取特征;第2部分為主膠囊層,該層是將卷積操作中的標量輸出替換為矢量輸出,從而保留了文本的單詞順序和語義信息;第3 部分為卷積膠囊層,在這一層中,膠囊通過與變換矩陣相乘來計算子膠囊與父膠囊的關(guān)系,然后根據(jù)路由協(xié)議更新上層膠囊層的權(quán)重;第4 部分是全連接膠囊層,膠囊乘上變換矩陣,然后按照路由協(xié)議生成最終的膠囊及其對每個類的概率。4 個部分中包括1層卷積層和3次膠囊層。

本文在Zhao 等[12]的模型基礎上又增加了1 層卷積層,用來再次提取不同位置上的特征,使得特征提取更加地細致?;诟倪M膠囊網(wǎng)絡的文本分類模型如圖3所示。

圖3 改進膠囊網(wǎng)絡的文本分類模型Fig.3 Text classification model of improved capsule network

模型主要分成了5 層,分別是N-gram 卷積層、主膠囊層、卷積層、卷積膠囊層和全連接膠囊層。

2.1 N-gram卷積層

該層卷積層通過卷積在文本的不同位置提取N-gram 特征,若X為文本中的一條文本,其長度為L,詞嵌入大小為V,即X的維度大小為L×V,Xi為文本X中的第i個詞語,Xi的維度為V。設N-gram 滑動大小為K1,Wα為卷積運算操作的濾波器,則Wα的維度為K1×V。濾波器每次移動的單詞窗口為Xi至Xi+K1-1,產(chǎn)生的特征為mα,其維度為L-K1+1,則每個單詞特征mi的特征如式(3)所示:

其中:b0為偏置項;?()為非線性激活函數(shù)。若有B個濾波器,即α=1,2,…,B,則所得的特征M的維度為(L-K1+1)×B。卷積操作工作原理如圖4所示,其中,w1、w2、w3為u1、u2、u3的權(quán)重系數(shù),b為偏置項系數(shù),這里的u1、u2、u3為底層特征ui的具體舉例。

圖4 卷積操作工作原理示意圖Fig.4 Schematic diagram of convolution operation working principle

2.2 主膠囊層

設膠囊的維度為d,pi為N-gram 產(chǎn)生的實例化參數(shù),Mi為每個滑動窗口的向量,其維度為B,Wb表示為不同的滑動窗口的共享濾波器,其維度為B×d。生成膠囊P的維度為(L-K1+1)×d,則pi的表示如式(4)所示:

其中:g()表示非線性壓縮函數(shù);b1為膠囊的偏置項。對于所有的濾波器C來說,膠囊特征P可以表示為式(5)所示結(jié)構(gòu):

其中P的維度為(L-K1+1)×d×C。

2.3 卷積層

再次進行卷積操作時,可設置較少的濾波器的個數(shù),一個濾波器提取一個特征,濾波器的個數(shù)減少后,特征的個數(shù)也隨之減少,訓練的維度就降低了,節(jié)約了時間成本。再次使用卷積操作更加細化了特征的提取過程,使得提取出來的特征更有利于文本的分類。

2.4 卷積膠囊層

卷積膠囊層的膠囊維度應與多標簽文本分類的分類數(shù)量相關(guān),每一層都代表了每一個類型的概率,而主膠囊層的膠囊維度可任意設置。

2.5 全連接膠囊層

卷積膠囊層的被壓扁成一個膠囊列表,并送入到全連接膠囊層。

全連接層可以學習到局部和全局的特征,因為其輸入部分為卷積層和動態(tài)路由的輸出,卷積層提取的是局部特征,動態(tài)路由得到的是全局特征。全連接層的輸出如式(6)所示:

其中:x為神經(jīng)元的輸入;hW,b(x)為輸出;T為W的轉(zhuǎn)置,將輸出節(jié)點送入softmax分類器進行概率預測,完成文本分類任務。

3 實驗與結(jié)果分析

3.1 實驗數(shù)據(jù)

實驗采用了兩組數(shù)據(jù)集:一組做多標簽分類;另一組做二分類問題。

多標簽分類實驗采用了搜狗實驗室的中文新聞數(shù)據(jù)集,該數(shù)據(jù)集包括了429 819 條新聞,能夠被標出類別的有320 045條新聞,共有13類,剔除掉2類因樣本數(shù)不足的數(shù)據(jù),最后保留了其中的11 類作為分類數(shù)據(jù)文本。每類新聞選擇2 000條文本,訓練集、驗證集和測試集的劃分比例為16∶4∶5。數(shù)據(jù)集分布如表1所示。

表1 數(shù)據(jù)集分布Tab.1 Dataset distribution

實驗的預處理部分先將下載好的數(shù)據(jù)進行轉(zhuǎn)碼,然后給文本加上標簽,分詞選用的是中文文本采用的jieba 分詞工具,由于有些新聞字數(shù)太多,為了減少維度的損失,固定文本長度為100個字符。

二分類實驗選用了IMDB 數(shù)據(jù)集包含來自互聯(lián)網(wǎng)電影數(shù)據(jù)庫12 500 個正面電影評論和12 500 個負面電影評論,每個句子的長度都固定為150 個字符,如果長度大于150 個字符,則將超過的部分截掉;如果小于150 字符,則在最前面用數(shù)字“0”填充。

3.2 多標簽分類實驗

實驗采用了python 作為算法的實現(xiàn)語言,由于CNN、LSTM 和CapsNet 是最常見的神經(jīng)網(wǎng)絡模型。所以,先比較CNN、LSTM和CapsNet三種相關(guān)方法的分類效果,再進行比較改進后的膠囊網(wǎng)絡與Zhao 等[12]提出的膠囊網(wǎng)絡的分類效果,實驗最后加入word2vec進行文本向量建模,分析實驗結(jié)果。

3.2.1 相關(guān)實驗

在進行神經(jīng)網(wǎng)絡對比實驗前,先對比了樸素貝葉斯、支持向量機、K-近鄰這三種傳統(tǒng)的機器學習方法,在多標簽的數(shù)據(jù)集下,樸素貝葉斯的準確率為84.38%,支持向量機的分類準確率為84.41%,而K-近鄰在K值為14 時的分類準確率僅為31.47%。實驗證明:K-近鄰明顯地不適合應用于文本分類。其他兩種傳統(tǒng)機器學習的方法,樸素貝葉斯和支持向量機在分類結(jié)果上占取了很大的優(yōu)勢,不僅分類效果好,而且分類的時間較深度學習來說縮短了很多,但是需要人工進行特征構(gòu)造,可擴展性差;而神經(jīng)網(wǎng)絡能夠自動地學習構(gòu)造特征,具有較強的適應能力。

CNN在搭建模型時,首先將文本處理成矩陣的形式,作為輸入層的輸入,本文將每個文本處理成100×200 的矩陣形式。因為文本長度不一致,所以選取100 作為統(tǒng)一的文本長度,超過100的文本截取前100個詞語,不足的長度的加零補齊。在進行詞語獨熱編碼時,形成了維度為200 的詞向量,這就形成100×200 的矩陣。再通過1 層卷積層與池化層來縮小向量長度,再加一層壓平層將2 維向量壓縮到1 維,最后通過兩層全連接層將向量長度收縮到12 上,對應新聞分類的12 個類(其中標簽0沒有用到)。CNN模型結(jié)構(gòu)如表2所示。

表2 CNN模型結(jié)構(gòu)Tab.2 CNN model structure

由于RNN 只考慮到最近狀態(tài),無法作用于前期狀態(tài),使得分類效果不佳,后來進行了變形,能夠不僅能夠考慮到之前狀態(tài),還能決定哪些狀態(tài)該保留,哪些狀態(tài)該遺棄,這就是長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡。LSTM 模型結(jié)構(gòu)如表3所示。

CapsNet 同CNN 一樣的是,都需要進行一層卷積層,不同的是經(jīng)過膠囊層后,輸出的結(jié)構(gòu)仍然是二維矩陣,不需要池化層進行池化操作,capsule 層里已經(jīng)使用了動態(tài)路由操作,可代替池化操作進行特征選取,最后一層,同CNN 一樣,將全連接層輸出結(jié)構(gòu)變成一維矩陣,不同的是使用的激活函數(shù)為Squash函數(shù),該函數(shù)在應用中可自行構(gòu)造。CapsNet模型結(jié)構(gòu)如表4所示。

表3 LSTM模型結(jié)構(gòu)Tab.3 LSTM model structure

表4 CapsNet模型結(jié)構(gòu)Tab.4 CapsNet model structure

實驗從訓練集、驗證集和測試集三個方面比較分類效果,實驗結(jié)果如表5所示。

表5 不同神經(jīng)網(wǎng)絡分類精度對比Tab.5 Classification precision comparison of different neural networks

三種方法都是經(jīng)過了3 次迭代過程,在訓練集上的分類精度都達到了90%以上,其中膠囊網(wǎng)絡分類精度最高,達到了98.62%。在驗證集上的分類精度都達到了85%以上,其中還是膠囊網(wǎng)絡的精度最高,達到了89.03%。最后比較測試集,在測試集上的分類精度明顯低于訓練集和驗證集,但是,膠囊網(wǎng)絡的分類精度還是最高,達到了84.06%。由此可見,在文本分類中,膠囊網(wǎng)絡的分類效果要優(yōu)于卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡。

膠囊網(wǎng)絡是在卷積神經(jīng)網(wǎng)絡的基礎上提出來,用來解決池化操作帶來的特征信息丟失問題的??紤]到卷積神經(jīng)網(wǎng)絡缺失的相對位置、角度等其他信息的問題,膠囊網(wǎng)絡變標量信息為矢量信息,增加了對位置和角度等信息的提取,從而使得識別效果有所提升。卷積神經(jīng)網(wǎng)絡能夠注意到各部分的局部特征,但是卻忽略了位置和角度等主要信息。以圖像人臉為例,卷積神經(jīng)網(wǎng)絡能夠識別圖像中的各個局部特征,如鼻子、眼睛和嘴巴等,但是對其位置和角度卻不做考慮。若嘴巴在額頭上,眼睛在下巴上,只要鼻子眼睛嘴巴這些局部特征都在,卷積神經(jīng)網(wǎng)絡會認為該圖片就是一張人臉。所以在進行文本分類的過程中卷積神經(jīng)網(wǎng)絡只能聯(lián)系各個局部特征是否存在,并不會聯(lián)系其內(nèi)部結(jié)構(gòu)問題,這就使得了分類效果不如膠囊網(wǎng)絡。

3.2.2 改進膠囊網(wǎng)絡實驗

從訓練集、驗證集、測試集和時間4 個方面比較CapNet、文獻[12]模型和本文提出的CapNet 的分類精度,實驗結(jié)果如表6所示。

表6 不同膠囊網(wǎng)絡分類精度對比Tab.6 Classification precision comparison of different CapsNets

從表6 的實驗結(jié)果中可以看出,改進后的膠囊網(wǎng)絡比單純的膠囊網(wǎng)絡的分類精度提高了2.14個百分點,相較于Zhao等[12]提出的膠囊網(wǎng)絡的分類精度提高了1.17 個百分點。卷積操作的增加雖然增加了少量的訓練時間,但是特征的提取也更加地細致,使得分類精度有所增加。隨著卷積操作的一層一層加入特征提取得越來越細致。以圖片為例進行卷積操作,結(jié)果如圖5所示。

圖5 卷積操作特征提取Fig.5 Convolution operation for feature extraction

圖5 下方的3 張圖分別代表了第1 次卷積操作、第2 次卷積操作和第3次卷積操作后提取的特征。由圖5可以看出:第1次卷積可以提取出低層次的特征;第2次卷積可以提取出中層次的特征;第3 次卷積可以提取出高層次的特征。特征是不斷進行提取和壓縮的,最終能得到比較高層次特征。本文進行了兩次卷積操作,并沒有進行更加多次的卷積操作,是因為考慮到過多地卷積操作會造成訓練的過擬合現(xiàn)象,不僅增加了訓練時間還降低了分類精度。在本文提出的網(wǎng)絡模型中若再增加一層卷積操作會出現(xiàn)過擬合現(xiàn)象導致分類精度的降低,其在測試集上的分類精度僅達到了80.82%,相較于本文的改進模型分類精度降低了5.38個百分點。

3.2.3 加入word2vec擴展實驗

最后將word2vec加入到本文的方法中,再次進行實驗,實驗結(jié)果如表7所示。

表7 word2vec實驗結(jié)果Tab.7 word2vec experimental results

從表7 中可以看出,word2vec 的加入使得了文本的分類精度不僅沒有增加反而減小了0.64 個百分點。word2vec 從大量文本語料中以無監(jiān)督的方式學習語義信息,即通過一個嵌入空間使得語義上相似的單詞在該空間內(nèi)距離很近。其基本思想是把自然語言中的每一個詞,表示成一個統(tǒng)一意義統(tǒng)一維度的短向量。但是由于語境的不完善,上下文的聯(lián)系不夠密切,并不能捕捉到全局的信息,這使得分類效果反而降低。

3.2.4 多標簽分類實驗結(jié)果總結(jié)

多標簽分類問題是文本分類的主要部分,本文實驗采用的是搜狗實驗室的中文新聞數(shù)據(jù)集,該數(shù)據(jù)集具有一定的代表性。其實驗結(jié)果總結(jié)如圖6所示。

圖6 多標簽分類實驗結(jié)果Fig.6 Experimental results of multi-label classification

實驗對比了長短記憶網(wǎng)絡、卷積神經(jīng)網(wǎng)絡、膠囊網(wǎng)絡、Zhao 等[14]提出的膠囊網(wǎng)絡和本文提出的改進膠囊網(wǎng)絡(Improved CapsNet)[12]的分類效果。實驗結(jié)果顯示,本文的改進膠囊網(wǎng)絡模型比多標簽實驗中的其他4 種模型來說效果更好。

3.3 二分類實驗

由于多分類實驗的結(jié)果顯示,LSTM并不適用于文本的分類問題,所以,二分類實驗并沒有考慮再次使用其方法進行實驗。二分類實驗進行了卷積神經(jīng)網(wǎng)絡、膠囊網(wǎng)絡、Zhao 等[12]提出的膠囊網(wǎng)絡和本文改進的膠囊網(wǎng)絡分類實驗,其結(jié)果如圖7所示。

圖7 二分類實驗結(jié)果Fig.7 Experimental results of binary classification

從圖7 可以發(fā)現(xiàn)在二分類的電影評論數(shù)據(jù)集上,改進過后的膠囊網(wǎng)絡在測試集上的分類精度達到了87.03%,單純的卷積神經(jīng)網(wǎng)絡和膠囊網(wǎng)絡分別是86%和85.94%,而Zhao等[12]提出的膠囊網(wǎng)絡的分類精度為86.50%。從測試集上來看,改進過后的膠囊網(wǎng)絡的分類效果還是優(yōu)于其他三類網(wǎng)絡模型的分類效果。雖然測試集上的優(yōu)勢不是很大,但是在驗證集上,本文改進過后的膠囊網(wǎng)絡明顯地優(yōu)于其他網(wǎng)絡模型,比單純的卷積神經(jīng)網(wǎng)絡和膠囊網(wǎng)絡提高了7.28 個百分點和5.6 個百分點,比Zhao 等[12]提出的膠囊網(wǎng)絡提高了3.84 個百分點。

4 結(jié)語

膠囊網(wǎng)絡有效地克服了卷積神經(jīng)網(wǎng)絡的池化層操作的弊端,動態(tài)路由在效果和理論解釋性上都優(yōu)于最大池化操作,但同時也增加了網(wǎng)絡的計算量。單獨的膠囊網(wǎng)絡在文本分類中的分類精度并沒有達到最大化,本文將卷積操作與膠囊網(wǎng)絡進行結(jié)合用于文本分類,實驗結(jié)果顯示,無論是多標簽分類還是二分類,本文的方法都比其他方法分類精度要高。膠囊網(wǎng)絡中的壓縮激活函數(shù)Squash,總體上能很好地解釋其原理,但是第一項中的“1”,并沒有解釋,在實驗過程中發(fā)現(xiàn),可用其他小于1的非負小數(shù)代替“1”,比如0.5,其結(jié)果優(yōu)于Hinton 設置的“1”。如何設置Squash 中的實數(shù)參數(shù),在未來的研究中有待解決。

猜你喜歡
膠囊卷積向量
基于全卷積神經(jīng)網(wǎng)絡的豬背膘厚快速準確測定
國家藥監(jiān)局批準七蕊胃舒膠囊上市
向量的分解
一種基于卷積神經(jīng)網(wǎng)絡的地磁基準圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
一種并行不對稱空洞卷積模塊①
時光膠囊
聚焦“向量與三角”創(chuàng)新題
時光膠囊
向量垂直在解析幾何中的應用
承德县| 略阳县| 荔波县| 两当县| 平武县| 全南县| 崇阳县| 卢龙县| 十堰市| 保山市| 河曲县| 台州市| 沐川县| 龙里县| 西林县| 积石山| 普安县| 万盛区| 麻阳| 碌曲县| 宾川县| 延川县| 丹江口市| 吉水县| 汪清县| 雷山县| 睢宁县| 两当县| 固镇县| 隆德县| 德清县| 米易县| 苗栗县| 宁德市| 荔浦县| 葵青区| 泗洪县| 安义县| 集安市| 博湖县| 桑日县|