国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)的文本情感分類(lèi)

2020-05-18 07:13:34陳可嘉鄭晶晶
關(guān)鍵詞:準(zhǔn)確率卷積向量

陳可嘉,鄭晶晶

(福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院,福建 福州 350116)

隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來(lái),網(wǎng)上有大量富有情感的評(píng)論文本,如微博、知乎、豆瓣影評(píng)書(shū)評(píng)、各大購(gòu)物網(wǎng)站的商品評(píng)價(jià)等,如何高效準(zhǔn)確地將這些文本的情感進(jìn)行分類(lèi),是當(dāng)今研究的熱點(diǎn)。學(xué)者們常用的文本情感分類(lèi)的方法有:基于情感詞典的方法、基于機(jī)器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法[1]。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的分支,無(wú)需人工進(jìn)行特征的提取和構(gòu)建,彌補(bǔ)了機(jī)器學(xué)習(xí)的不足,因此深度學(xué)習(xí)成為近幾年文本情感分類(lèi)的熱門(mén)方法[2]。常用于解決文本情感分類(lèi)的深度學(xué)習(xí)模型有:卷積神經(jīng)網(wǎng)絡(luò)[3]、循環(huán)神經(jīng)網(wǎng)絡(luò)[4]、長(zhǎng)短期記憶(long short-term memory, LSTM)神經(jīng)網(wǎng)絡(luò)[5]等。

為了能夠提高文本情感分類(lèi)的準(zhǔn)確率,減少對(duì)情感分類(lèi)過(guò)程中人為的干預(yù)。筆者提出改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)模型,該模型可彌補(bǔ)機(jī)器學(xué)習(xí)方法的不足,并對(duì)現(xiàn)有的深度學(xué)習(xí)模型進(jìn)行改進(jìn),融合卷積神經(jīng)網(wǎng)絡(luò)局部特征提取的優(yōu)勢(shì)和雙向長(zhǎng)短期神經(jīng)網(wǎng)絡(luò)上下文全局特征提取的優(yōu)勢(shì),并在池化層進(jìn)行動(dòng)態(tài)池化處理,以提取更多的顯著特征,進(jìn)而提高文本情感分類(lèi)的準(zhǔn)確率。

1 情感分類(lèi)模型

不同方法下相關(guān)文獻(xiàn)及改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)模型的貢獻(xiàn)和研究重點(diǎn)如表1所示,利用改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行文本情感分類(lèi)的步驟如圖1所示。首先要將文本進(jìn)行數(shù)據(jù)預(yù)處理,將文本處理成神經(jīng)網(wǎng)絡(luò)能夠理解的詞向量矩陣,然后將形成的詞向量矩陣輸入到改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)中,最終通過(guò)對(duì)模型的訓(xùn)練,得到文本情感分類(lèi)模型。

1.1 數(shù)據(jù)預(yù)處理

對(duì)于文本而言,神經(jīng)網(wǎng)絡(luò)是無(wú)法直接識(shí)別的,因此需要將文本數(shù)據(jù)映射為多維的實(shí)數(shù)向量,即文本向量化。數(shù)據(jù)預(yù)處理包括以下3個(gè)步驟。

(1)分詞。中文文本沒(méi)有明顯的詞語(yǔ)之間的分界符,因而在詞語(yǔ)層面的分割上,中文文本比英文文本要難。是否能夠準(zhǔn)確地對(duì)文本進(jìn)行分詞,對(duì)文本情感分類(lèi)的準(zhǔn)確性有重要的影響。“結(jié)巴”中文分詞是一個(gè)Python中文分詞庫(kù),支持繁體分詞和自定義詞典,選擇該方法能夠較為精確地將句子進(jìn)行分詞。

(2)詞語(yǔ)向量化。詞的分布式表示具有非常強(qiáng)大的表征能力,可以將每個(gè)詞語(yǔ)之間的相似度用空間向量表示出來(lái)。所謂詞語(yǔ)向量化就是將詞語(yǔ)處理成分布式詞向量的形式。目前比較主流的形成分布式詞向量的方式是Word2Vec。結(jié)合各大中文語(yǔ)料庫(kù),利用Word2Vec相關(guān)技術(shù),可以得到詞向量模型,之后將經(jīng)過(guò)分詞的詞語(yǔ)輸入到該詞向量模型中,從而獲得每個(gè)詞的詞向量。

表1 不同方法下相關(guān)文獻(xiàn)及改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)模型的貢獻(xiàn)和研究重點(diǎn)

圖1 基于改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)的文本情感分類(lèi)步驟

(3)生成詞向量矩陣。一段文本經(jīng)過(guò)分詞,并詞向量化后,會(huì)形成一個(gè)N×m的詞向量矩陣。其中,N表示文本分詞后詞語(yǔ)的個(gè)數(shù),m表示詞向量的維度。由于每個(gè)文本生成的詞向量個(gè)數(shù)不同,故將文本轉(zhuǎn)換為詞向量矩陣之后,每個(gè)文本對(duì)應(yīng)的詞向量矩陣大小也不同。為了方便模型的訓(xùn)練需要把每個(gè)文本生成的詞向量矩陣大小標(biāo)準(zhǔn)化,使得所有文本生成詞向量矩陣的大小是相同的,處理方式:n=avgN+2×stdN。其中,n為詞向量矩陣大小標(biāo)準(zhǔn)化后含有詞語(yǔ)的個(gè)數(shù);avgN為所有文本分詞后詞語(yǔ)個(gè)數(shù)n*的平均值;stdN為所有文本分詞后詞語(yǔ)個(gè)數(shù)n*的標(biāo)準(zhǔn)差。

然后對(duì)文本生成的詞向量矩陣進(jìn)行處理,大小不足的前面填充0,超長(zhǎng)的進(jìn)行修剪。這樣獲取的n×m詞向量矩陣可以涵蓋95%的樣本。

1.2 改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)可以通過(guò)局部連接、權(quán)值共享、下采樣來(lái)減少參數(shù)的使用,提升模型的魯棒性(robusrness),其基本實(shí)現(xiàn)步驟分為輸入層、卷積層、池化層和分類(lèi)器層。卷積神經(jīng)網(wǎng)絡(luò)在文本情感分類(lèi)任務(wù)上可以快速挖取對(duì)情感分類(lèi)有利的局部特征詞語(yǔ),然而如果單獨(dú)使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本的情感分類(lèi),就容易忽略文本上下文之間的時(shí)序問(wèn)題,對(duì)分類(lèi)結(jié)果產(chǎn)生一定的影響。

雙向長(zhǎng)短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)由前向LSTM神經(jīng)網(wǎng)絡(luò)與后向LSTM神經(jīng)網(wǎng)絡(luò)組合而成。兩者在自然語(yǔ)言處理任務(wù)中常被用來(lái)建模上下文信息,通過(guò)雙向LSTM神經(jīng)網(wǎng)絡(luò)可以更好地捕捉雙向的語(yǔ)義依賴(lài)。因此,筆者使用雙向LSTM神經(jīng)網(wǎng)絡(luò)作為模型的一部分,從而彌補(bǔ)卷積神經(jīng)網(wǎng)絡(luò)的不足。

將卷積神經(jīng)網(wǎng)絡(luò)獲取局部信息特征的功能和雙向LSTM神經(jīng)網(wǎng)絡(luò)獲取全文信息特征的功能結(jié)合起來(lái),形成改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò),進(jìn)而提高文本特征的提取能力。改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)步驟如圖2所示。

圖2 改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)步驟

(1)輸入層。輸入層后是兩個(gè)不同的并行神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò)要求的輸入數(shù)據(jù)維度不同:卷積神經(jīng)網(wǎng)絡(luò)要求一個(gè)三維的輸入,而雙向LSTM神經(jīng)網(wǎng)絡(luò)要求一個(gè)二維的輸入。文本進(jìn)行數(shù)據(jù)預(yù)處理后生成的是二維矩陣,因此需要利用reshape函數(shù)調(diào)整詞向量矩陣的維數(shù)。

(2)卷積層。將文本以詞向量矩陣Rn×m的形式作為輸入,其中n為詞向量矩陣大小標(biāo)準(zhǔn)化后所含詞語(yǔ)的個(gè)數(shù),m為詞向量的維度,xi∈Rn×m(i≤n)表示詞向量矩陣中第i個(gè)詞的詞向量。xi:j=xi⊕xi+1⊕…⊕xj,表示在詞向量個(gè)數(shù)為n的句子中第i個(gè)詞語(yǔ)到j(luò)個(gè)詞語(yǔ)的詞向量的拼接。卷積過(guò)程的基本步驟如下:①參數(shù)設(shè)置。卷積層是卷積神經(jīng)網(wǎng)絡(luò)的重要部分,卷積核高度的選取對(duì)模型的分類(lèi)準(zhǔn)確率有很大的影響。卷積過(guò)程中組合使用不同高度的卷積核分別對(duì)詞向量矩陣進(jìn)行卷積,可以增加文本特征提取的多樣性,獲取更多的語(yǔ)義,進(jìn)而提高文本情感分類(lèi)的準(zhǔn)確率。因此卷積核高度h、不同高度的卷積核的組合種類(lèi)d、卷積核的數(shù)量q(筆者將不同高度的卷積核數(shù)量都設(shè)置為q,即若有3種不同高度的卷積核存在,那么總的卷積核數(shù)量為3q)都會(huì)影響模型的訓(xùn)練效果,需要通過(guò)實(shí)驗(yàn)獲取這些參數(shù)的最佳值。②卷積運(yùn)算及特征圖獲取。特征圖中的一個(gè)特征點(diǎn)ci,是由卷積核在高度為h的窗口xi:i+h-1經(jīng)過(guò)卷積運(yùn)算后得到的結(jié)果,即ci=f(w·xi:i+h-1+b),其中b為偏置項(xiàng),f為非線(xiàn)性激活函數(shù)。

卷積核每移動(dòng)一步,對(duì)整個(gè)輸入矩陣xi:j逐個(gè)窗口{x1:h,x2:h+1,…,xn-h+1:n}進(jìn)行卷積,輸出得到特征圖c=[c1,c2,…,cn-h+1]。因此使用卷積核數(shù)量為q、大小為h×m的卷積核對(duì)輸入的詞向量矩陣進(jìn)行卷積后,得到的特征圖大小為(n-h+1)×1×q。

(3)動(dòng)態(tài)k-max池化層。池化層的作用是對(duì)卷積得到的特征進(jìn)行采樣。最常用的池化策略有兩種:最大池化和平均池化。最大池化能夠提取池化窗口中最顯著的特征,因此可以刻畫(huà)整個(gè)句子的某些含義,對(duì)于預(yù)測(cè)分類(lèi)更有意義。然而使用最大池化策略會(huì)導(dǎo)致某些同樣重要的信息丟失,筆者提出動(dòng)態(tài)k-max池化策略來(lái)彌補(bǔ)最大池化的缺陷。所謂動(dòng)態(tài)k-max是指不同大小的特征圖,最大池化后提取的特征數(shù)k是不同的。卷積核的高度越低,特征圖就會(huì)越大。對(duì)于較大的特征圖,在采樣過(guò)程中可以考慮更多的采集特征,這樣可以保留更多有用的信息,此時(shí)可以將池化窗口設(shè)置得小一點(diǎn),以便提取更多的特征。

(4)時(shí)序?qū)?。將雙向LSTM神經(jīng)網(wǎng)絡(luò)作為時(shí)序?qū)?,獲取上下時(shí)序信息。利用輸入門(mén)、記憶門(mén)、輸出門(mén)決定哪些信息需要遺忘、哪些信息需要記憶、哪些信息作為輸出,進(jìn)而對(duì)記憶單元進(jìn)行狀態(tài)維護(hù)。將前向傳遞的最后一個(gè)輸出向量和后向傳遞最后一個(gè)輸出向量進(jìn)行拼接并作為最后的特征獲取,輸入分類(lèi)器層。

雙向LSTM神經(jīng)網(wǎng)絡(luò)隱藏層的單元數(shù)量設(shè)置,是影響實(shí)驗(yàn)結(jié)果的一個(gè)重要參數(shù)。當(dāng)雙向LSTM神經(jīng)網(wǎng)絡(luò)隱藏層單元數(shù)量設(shè)置為a時(shí),則時(shí)序?qū)虞敵鎏卣鲌D大小為n×2a。

1.3 模型訓(xùn)練

2 實(shí)驗(yàn)分析

2.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備

目前文本情感分析語(yǔ)料大多采用英文語(yǔ)料,筆者研究的是中文文本情感挖掘問(wèn)題,因而采用中科院譚松波博士公布的中文酒店評(píng)論ChnSentiCorp-Htl-ba-6000作為數(shù)據(jù)來(lái)源[16],其中包含正面評(píng)論和負(fù)面評(píng)論各3 000條,并進(jìn)行10折交叉驗(yàn)證。ChnSentiCorp 數(shù)據(jù)集樣例如表2所示。

表2 ChnSentiCorp 數(shù)據(jù)集樣例

2.2 數(shù)據(jù)預(yù)處理

(1)分詞。對(duì)于一段文本,首先去掉每個(gè)樣本的標(biāo)點(diǎn)符號(hào),然后用“結(jié)巴”中文分詞將所有文本數(shù)據(jù)進(jìn)行分詞,得到的相關(guān)統(tǒng)計(jì)數(shù)值如表3所示。

表3 分詞后評(píng)論文本的相關(guān)數(shù)值統(tǒng)計(jì)情況

(2)詞語(yǔ)向量化。筆者使用北京師范大學(xué)中文信息處理研究所與中國(guó)人民大學(xué)DBIIR實(shí)驗(yàn)室的開(kāi)源“chinese-word-vectors”中知乎Word+Ngram的詞向量模型,該詞向量模型是由Word2Vec中Skip-Gram算法結(jié)合知乎問(wèn)答的中文語(yǔ)料訓(xùn)練得到的。將經(jīng)過(guò)分詞后的詞語(yǔ)輸入到詞向量模型中,可以生成300維的詞向量。

(3)生成詞向量矩陣。根據(jù)數(shù)據(jù)集分詞后的統(tǒng)計(jì)結(jié)果,計(jì)算得到詞向量矩陣大小標(biāo)準(zhǔn)化后詞向量個(gè)數(shù)n=244。因而,每條評(píng)論數(shù)據(jù)經(jīng)過(guò)預(yù)處理后都會(huì)生成大小為244×300的詞向量矩陣。

2.3 改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)

2.3.1 輸入層

將6 000個(gè)大小為244×300的詞向量矩陣作為改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)的輸入,且根據(jù)不同神經(jīng)網(wǎng)絡(luò)的需求調(diào)整輸入的詞向量矩陣的維度,調(diào)整后的矩陣如表4所示。

表4 調(diào)整維度后不同神經(jīng)網(wǎng)絡(luò)對(duì)應(yīng)的輸入矩陣

2.3.2 卷積層

(1)參數(shù)設(shè)置。首先使用單一高度的卷積核,根據(jù)卷積核高度的不同,對(duì)比改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)模型分類(lèi)準(zhǔn)確率的變化情況,如圖3所示,可以看出當(dāng)卷積核高度低于2時(shí),會(huì)出現(xiàn)分類(lèi)準(zhǔn)確率低于80%的情況;而當(dāng)卷積核高度達(dá)到4時(shí),分類(lèi)準(zhǔn)確率出現(xiàn)最大值,之后就開(kāi)始下降。

圖3 不同卷積核高度的分類(lèi)準(zhǔn)確率

組合不同高度的卷積核對(duì)詞向量矩陣進(jìn)行卷積,有利于提升模型的效果。而從單一高度的卷積核實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn),卷積核高度處于2~10之間都能取得較好的效果。因此開(kāi)展進(jìn)一步實(shí)驗(yàn),將高度在2~10之間的卷積核進(jìn)行5組組合實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4所示,可知當(dāng)卷積核組合高度為(2,3,4)時(shí),模型的分類(lèi)效果最好。因此在接下來(lái)的對(duì)比實(shí)驗(yàn)中,將卷積核的組合高度設(shè)置為(2,3,4),即卷積核大小分別為2×300、3×300、4×300。

圖4 不同卷積核組合高度的實(shí)驗(yàn)結(jié)果對(duì)比

卷積核數(shù)量的不同對(duì)模型分類(lèi)準(zhǔn)確率也有一定影響,因此筆者做了關(guān)于卷積核數(shù)量對(duì)模型分類(lèi)準(zhǔn)確率影響的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5所示,可以看出卷積核的數(shù)量越多,模型分類(lèi)準(zhǔn)確率越高。然而在實(shí)際訓(xùn)練過(guò)程中,當(dāng)卷積核數(shù)量達(dá)到512個(gè)時(shí),雖然分類(lèi)準(zhǔn)確率仍有較小的提高,但是模型的訓(xùn)練速度卻大大下降,因而將卷積核的數(shù)量設(shè)置為256,即大小為2×300、3×300、4×300的卷積核各256個(gè)。

圖5 不同卷積核數(shù)量的分類(lèi)準(zhǔn)確率

(2)卷積運(yùn)算及特征圖獲取。對(duì)大小為244×300×1詞向量矩陣,分別使用3種不同大小的卷積核各256個(gè)來(lái)獲取特征圖,并選取Relu作為非線(xiàn)性激活函數(shù)。經(jīng)過(guò)卷積運(yùn)算后分別得到不同大小的特征圖,如表5所示。

表5 不同大小的卷積核經(jīng)卷積運(yùn)算的特征圖結(jié)果

2.3.3 動(dòng)態(tài)k-max池化層

對(duì)于不同大小的卷積核,卷積后的特征圖大小不同,因此在池化層分別對(duì)應(yīng)著不同的k值和池化窗口高度L,經(jīng)過(guò)動(dòng)態(tài)池化運(yùn)算后生成的特征圖大小也不同,具體結(jié)果如表6所示。

表6 不同高度的卷積核對(duì)應(yīng)的池化結(jié)果

2.3.4 時(shí)序?qū)?/p>

通過(guò)實(shí)驗(yàn)分析雙向LSTM神經(jīng)網(wǎng)絡(luò)隱藏層的單元數(shù)量對(duì)卷積記憶神經(jīng)網(wǎng)絡(luò)分類(lèi)準(zhǔn)確率的影響,進(jìn)而選擇合適數(shù)量作為進(jìn)一步對(duì)比實(shí)驗(yàn)的參數(shù),實(shí)驗(yàn)結(jié)果如圖6所示,可知當(dāng)隱藏層單元數(shù)量達(dá)到16個(gè)時(shí),分類(lèi)準(zhǔn)確率最高,之后隨著單元數(shù)量的增加分類(lèi)準(zhǔn)確率下降,因此筆者將雙向LSTM神經(jīng)網(wǎng)絡(luò)隱藏層的單元數(shù)量設(shè)置為16,進(jìn)而時(shí)序?qū)虞敵鎏卣鲌D大小為244×32。

圖6 不同雙向LSTM隱藏層單元數(shù)量的分類(lèi)準(zhǔn)確率

2.3.5 分類(lèi)器層

將池化層獲取的3個(gè)局部特征圖和時(shí)序?qū)荧@取的文本上下文時(shí)序特征圖進(jìn)行拼接,最后轉(zhuǎn)化為列向量,拼接流程圖如圖7所示,將拼接后的引向量輸入到分類(lèi)器層,選擇softmax作為分類(lèi)函數(shù)。

圖7 拼接流程圖

2.4 模型訓(xùn)練結(jié)果對(duì)比

目前大多數(shù)研究采用準(zhǔn)確率(accuracy)、精確度(precision)、召回率(recall)、F1測(cè)度(F1-measure)作為情感分類(lèi)實(shí)驗(yàn)的模型性能評(píng)價(jià)指標(biāo)。

(1)

(2)

(3)

(4)

式中:TP表示實(shí)際為正面評(píng)論、預(yù)測(cè)也為正面評(píng)論的樣本數(shù)量;FN表示實(shí)際為正面評(píng)論、預(yù)測(cè)為負(fù)面評(píng)論的樣本數(shù)量;TN表示實(shí)際為負(fù)面評(píng)論、預(yù)測(cè)也為負(fù)面評(píng)論的樣本數(shù)量;FP表示實(shí)際為負(fù)面評(píng)論、預(yù)測(cè)為正面評(píng)論的樣本數(shù)量。

筆者通過(guò)實(shí)驗(yàn)對(duì)比卷積神經(jīng)網(wǎng)絡(luò)、雙向LSTM神經(jīng)網(wǎng)絡(luò)、卷積記憶神經(jīng)網(wǎng)絡(luò)、改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)這4個(gè)模型的性能,4種模型都在中科院譚松波博士公布的中文酒店評(píng)論ChnSentiCorp-Htl-ba-6000數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。4種模型分類(lèi)準(zhǔn)確率對(duì)比曲線(xiàn)如圖8所示,顯示了各模型迭代次數(shù)和分類(lèi)準(zhǔn)確率,可以看出改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)在第6次迭代時(shí)就已經(jīng)開(kāi)始收斂,并且分類(lèi)準(zhǔn)確率達(dá)到92.41%;其他3種模型分別在第11次、第13次、第7次迭代開(kāi)始收斂,但分類(lèi)準(zhǔn)確率都不如改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)。這說(shuō)明改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)模型在分類(lèi)準(zhǔn)確率上優(yōu)于其他3種模型。

圖8 4種模型分類(lèi)準(zhǔn)確率對(duì)比曲線(xiàn)

筆者進(jìn)一步實(shí)驗(yàn),對(duì)比4種模型的準(zhǔn)確率、精確度、召回率、F1測(cè)度,模型分類(lèi)結(jié)果如表7所示。由表7可知,改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)在準(zhǔn)確率、精確度、召回率、F1測(cè)度4方面都優(yōu)于其他3種方法。同時(shí)也對(duì)卷積神經(jīng)網(wǎng)絡(luò)、雙向LSTM神經(jīng)網(wǎng)絡(luò)、卷積記憶神經(jīng)網(wǎng)絡(luò)這3個(gè)模型在其相關(guān)文獻(xiàn)中的結(jié)果進(jìn)行了展示。由于相關(guān)文獻(xiàn)中使用的數(shù)據(jù)集的不同,因而實(shí)驗(yàn)結(jié)果與筆者實(shí)驗(yàn)結(jié)果存在差異。但總體來(lái)看,改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)的性能還是有較大的提升。這是因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)主要是對(duì)于局部特征的提取,雙向LSTM神經(jīng)網(wǎng)絡(luò)是對(duì)上下文特征的提取,而改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)結(jié)合了兩個(gè)模型的優(yōu)點(diǎn),因此在性能上有很大的提升。同時(shí),改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)對(duì)池化層進(jìn)行了動(dòng)態(tài)處理,保留了更多的顯著特征,使模型性能又進(jìn)一步提升。

表7 模型分類(lèi)結(jié)果性能對(duì)比 %

3 結(jié)論

筆者針對(duì)文本情感分類(lèi)問(wèn)題,提出改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)模型,該模型通過(guò)融合卷積神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),并在池化層根據(jù)卷積核的大小動(dòng)態(tài)調(diào)整池化窗口的大小,以達(dá)到提取更多顯著特征的目的。此外,筆者利用中科院譚松波博士提供的6 000條帶有標(biāo)注的酒店評(píng)論數(shù)據(jù)集,進(jìn)行文本情感分類(lèi)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)在準(zhǔn)確率、精確度、召回率、F1測(cè)度4個(gè)性能評(píng)價(jià)指標(biāo)上都優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)、雙向LSTM神經(jīng)網(wǎng)絡(luò)、卷積記憶神經(jīng)網(wǎng)絡(luò)3個(gè)經(jīng)典的深度學(xué)習(xí)模型,而且收斂速度也快。因此,筆者提出的改進(jìn)的卷積記憶神經(jīng)網(wǎng)絡(luò)模型對(duì)文本情感分類(lèi)問(wèn)題具有一定的可行性和有效性。

猜你喜歡
準(zhǔn)確率卷積向量
向量的分解
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
聚焦“向量與三角”創(chuàng)新題
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
向量垂直在解析幾何中的應(yīng)用
巴中市| 萨迦县| 青冈县| 临湘市| 洛阳市| 鱼台县| 嵊泗县| 龙州县| 紫云| 团风县| 阿城市| 博白县| 邢台市| 同心县| 登封市| 义马市| 平潭县| 鱼台县| 修武县| 枣庄市| 通化市| 克拉玛依市| 宁都县| 锡林郭勒盟| 泗阳县| 额尔古纳市| 阿鲁科尔沁旗| 唐海县| 天柱县| 丹阳市| 焉耆| 英吉沙县| 玛沁县| 杭州市| 汉寿县| 玉树县| 阿勒泰市| 高雄县| 林周县| 贵港市| 仙居县|