国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

雙通道的BCBLA情感分類模型

2023-05-12 12:07萬俊杰任麗佳單鴻濤孟金旭賈仁祥
關(guān)鍵詞:卷積向量分類

萬俊杰,任麗佳,單鴻濤,孟金旭,賈仁祥

(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)

1 引 言

在當(dāng)今互聯(lián)網(wǎng)快速發(fā)展時期,各種社交媒體應(yīng)運(yùn)而生,目前已經(jīng)廣泛普及,這些網(wǎng)絡(luò)平臺會產(chǎn)生大量的帶有情感特征的評論文本數(shù)據(jù),比如酒店平臺會有酒店好壞的評論,電影平臺會有關(guān)于電影好壞的評論,美食平臺會有食物好吃與不好吃的評論等等,能夠掌握并處理這些情感數(shù)據(jù)對于企業(yè)了解消費(fèi)者、提高產(chǎn)品質(zhì)量以及競爭力提供了新的機(jī)會[1].

情感分析指從具有情感色彩的文本中挖掘出其中表達(dá)的情感態(tài)度.根據(jù)不同的情感粒度劃分,情感分析可以劃分為粗粒度的句子級和文檔級情感分析以及細(xì)粒度的方面級情感分析,本文針對的粗粒度級的情感分析,如針對中國科學(xué)院譚松波博士提供的較大規(guī)模的句子級的中文酒店評論進(jìn)行情感分析,該數(shù)據(jù)對酒店設(shè)施、環(huán)境、價(jià)格、服務(wù)等方面進(jìn)行了評價(jià),包含正面評價(jià)和負(fù)面評價(jià),如句子“房間早餐都還不錯和價(jià)格成正比也比較安靜大概就這樣吧”是對酒店服務(wù)以及價(jià)格進(jìn)行了正面評價(jià),句子“環(huán)境和各方面的設(shè)施都很老舊房間小次所小得離譜服務(wù)態(tài)度也一般實(shí)在連3星級都算不上”則是對酒店設(shè)施、環(huán)境、服務(wù)等進(jìn)行了負(fù)面評價(jià).

常見的情感分析方法可分為3類,基于情感詞典的情感分析方法,基于傳統(tǒng)機(jī)器學(xué)習(xí)的情感分析方法和基于深度學(xué)習(xí)的情感分析方法.基于情感詞典的情感分析方法需要構(gòu)建情感詞典,如對中文情感分析需要構(gòu)建的中文情感詞典,該方法嚴(yán)重依賴于情感詞典的構(gòu)建,人工成本高.基于機(jī)器學(xué)習(xí)的情感分析方法不需要嚴(yán)重依賴于情感詞典庫,基于機(jī)器學(xué)習(xí)的情感分析方法可以通過對機(jī)器學(xué)習(xí)模型訓(xùn)練一定的情感分類數(shù)據(jù),然后保存其模型參數(shù),對其他情感分類樣本進(jìn)行預(yù)測,如Xue等人[2]采用LDA(潛在的狄利克雷分布)方法對Twitter用戶發(fā)布的COVID-19數(shù)據(jù)進(jìn)行訓(xùn)練和測試,從而對用戶的情緒進(jìn)行分析,但是該方法對應(yīng)的情感分析模型泛化能力差,采用的多為one-hot[3],tf-idf[4]等方法生成的詞向量,導(dǎo)致對文本內(nèi)容進(jìn)行情感分析通常不能很好的利用上下文信息.近年來,因?yàn)樯疃葘W(xué)習(xí)模型泛化能力強(qiáng),同時能夠很好的學(xué)習(xí)到上下文信息,從而可以對情感文本進(jìn)行有效的分析,所以基于深度學(xué)習(xí)的情感分析方法被逐漸用于對情感文本進(jìn)行分析.2014年,Kim[5]將CNN(Convolutional Neural Networks)應(yīng)用于文本分類任務(wù),取得了不錯的效果,之后就有王煜涵等[6]將CNN模型應(yīng)用到情感分類中,在twitter數(shù)據(jù)集上獲得了很好的效果.Santos等[7]提出了一種利用兩個卷積層提取特征來解決情感分析的CharSCNN.卷積神經(jīng)網(wǎng)絡(luò)CNN可以提取文本的局部關(guān)鍵特征,但是不能提取全局特征,長短期記憶網(wǎng)絡(luò)LSTM(Long Short Term networks)[8]可以提取長序列文本的全局特征,在情感分類任務(wù)上取得了不錯的效果,如Jelodar等[9]使用LSTM遞歸神經(jīng)網(wǎng)絡(luò)對COVID-19評論進(jìn)行情感分類,從而表明利用公眾意見和合適的計(jì)算技術(shù)來理解新冠肺炎相關(guān)問題并指導(dǎo)相關(guān)決策的重要性.注意力機(jī)制是一種可以關(guān)注重點(diǎn)特征的網(wǎng)絡(luò)模型,彭祝亮等[10]在BiLSTM的基礎(chǔ)上,利用多個方面注意力模塊同時對不同方面進(jìn)行獨(dú)立訓(xùn)練,讓注意力機(jī)制來重點(diǎn)提取影響情感分類的特征,實(shí)現(xiàn)了不錯的情感分類效果.陳亞茹等[11]在BiGRU網(wǎng)絡(luò)的基礎(chǔ)上融合了自注意力機(jī)制,在3個微博情感語料庫上實(shí)現(xiàn)了比較好的效果.上面的情感分類方法采用的深度學(xué)習(xí)模型使用的預(yù)訓(xùn)練詞向量基本上都是Word2vec[12]、glove[13]等靜態(tài)詞向量,詞向量是固定的,單詞無論在哪個上下文中始終映射的都是相同的向量,不能處理一詞多義問題,而ELMO[14]、GPT[15]和BERT[16]等預(yù)訓(xùn)練模型產(chǎn)生的詞向量都是動態(tài)的,在不同的上下文單詞映射得到的詞向量是不同的,ELMO采用的是一個前向和后向的雙向LSTM語言模型構(gòu)成,特征能力提取不夠強(qiáng),訓(xùn)練速度慢,不能并行化處理,GPT和BERT使用的都是transformer網(wǎng)絡(luò)架構(gòu)[17],GPT是從左到右的模型,而BERT則是多層雙向transformer,同時考慮了左側(cè)和右側(cè)token的上下文信息,它會根據(jù)輸入字的周圍的不同上下文映射得到不同的詞向量,能夠更好的學(xué)習(xí)到不同詞的語義.

綜上所述,根據(jù)上面模型存在的缺陷,以及基于深度學(xué)習(xí)的情感分析方法中基于BERT多通道模型融合的情感分析方法研究比較少,本文利用BERT模型與其他模型的優(yōu)勢,提出了一種基于BERT雙通道的情感分類模型,該模型融合了CNN網(wǎng)絡(luò),增強(qiáng)了提取文本局部特征的能力,同時融合了BiLSTM-Attention模型,增強(qiáng)了對長序列文本處理和關(guān)鍵情感特征提取的能力.

2 BCBLA模型

如圖1所示,本文BCBLA模型是一個基于BERT的雙通道情感分類模型,通道1是由BERT和CNN模型組成,通道2是由BERT和BiLSTM-Attention模型組成.

圖1 BCBLA模型Fig.1 BCBLA model

2.1 BERT

BERT模型與GPT模型一樣都采用了transformer架構(gòu),transformer架構(gòu)的編碼層如圖2右半部分所示.GPT是從左到右的模型,而BERT則是多層雙向transformer,模型架構(gòu)如圖2左半部分所示.BERT本質(zhì)上是一個語言生成模型,同時考慮了左側(cè)和右側(cè)token的上下文信息,解決了GPT單向約束不足問題,同時提出了兩個新的預(yù)訓(xùn)練任務(wù):“遮蔽語言模型”(MASKED LM,MLM)和“下一句預(yù)測”(Next Sentence Prediction,NSP).MLM指BERT以15%的概率會隨機(jī)對一個句子中的字進(jìn)行遮蓋,如對句子“濟(jì)南最好的酒店服務(wù)也不錯”的“酒”、“服”等字被遮蓋,然后以80%的概率用[MASK]去替換掉被遮蓋的詞,如“濟(jì)南最好的酒店服務(wù)也不錯”→“濟(jì)南最好的[MASK]店服務(wù)也不錯”,接著10%的概率隨機(jī)用一個詞去替換掉它,如“濟(jì)南最好的酒店服務(wù)也不錯”→“濟(jì)南最好的好店服務(wù)也不錯”,最后10%的概率保持不變,如“濟(jì)南最好的酒店服務(wù)也不錯”→“濟(jì)南最好的酒店服務(wù)也不錯”.NSP就是拿屬于上文的句子和不屬于上文的句子進(jìn)行預(yù)測,判斷它們是否屬于上下文,這種屬于上文的句子和不屬于上文的句子的概率各占50%.

圖2 BERT模型Fig.2 BERT model

BERT模型采用的transformer架構(gòu)使用了多頭注意力機(jī)制,能夠并行的計(jì)算句子中的每個單詞,克服了LSTM只能對文本串行處理而不能并行處理的缺陷,同時transformer機(jī)制里面的注意力機(jī)制還可以很好的模擬出一個詞對另一個詞影響的大小.transformer編碼模塊的核心單元是Self-Attention模塊,Self-Attention模塊對一個句子進(jìn)行編碼時會考慮到句子中的所有其他單詞,并決定如何對當(dāng)前單詞進(jìn)行編碼,計(jì)算公式表示如下:

(1)

圖3 多頭注意力機(jī)制計(jì)算過程示意圖Fig.3 Schematic diagram of the calculation process of the multi-head attention mechanism

Z=Concat(head0,head1,…,headh)Wo

(2)

本文采用的是已訓(xùn)練好的BERTBASE模型,該模型由12個編碼塊,每一個編碼塊中的多頭自注意力運(yùn)算子模塊由12個頭部,詞向量的嵌入維度為768.

在輸入層,BERT模型輸入的是k個字組成的token輸入序列,表示為x1:k=x1,x2,…xi,…,xk,其中xi(1≤i≤k)指的是第i個單詞,在輸入的token序列中的開始位置加上[CLS]標(biāo)記,結(jié)束位置加上[SEP]標(biāo)記,其中,[SEP]標(biāo)志著一個句子的結(jié)束,[CLS]代表了BERT模型中的全局特征信息.如圖2中的左下角所示,句子“濟(jì)南最好的酒店服務(wù)也不錯”被WordPiece分詞后形成了若干個字,分別是“濟(jì)”,“南”,“最”,“好”,“的”,“酒”,“店”,“服”,“務(wù)”,“也”,“不”,“錯”,BERT模型中輸入的每個字對應(yīng)的向量都有3部分的向量相加組成,分別是Token Embeddings,Segment Embeddings,Position Embeddings,這3個向量分別包含了每個字對應(yīng)的token值,某個字所在的句子信息和位置信息.為了保證輸入到BERT模型的向量便于進(jìn)行運(yùn)算,本文對BERT模型中輸入句子token序列的長度設(shè)置為128,對于超出設(shè)置最大序列長度值的序列,保存前面的序列,長度序列不足的部分用來填充.輸入層的計(jì)算公式如下:

E=Concat(EToken,ESegment,EPosition)=
EToken+ESegment+EPosition

(3)

輸入的token序列在BERT編碼的運(yùn)算表示如下:

hi=Trm(hi-1)

(4)

Trm是一個transformer轉(zhuǎn)換塊,hi,hi-1分別表示當(dāng)前層和上一層的輸出結(jié)果.

2.2 CNN

卷積神經(jīng)網(wǎng)絡(luò)CNN可以有效的捕捉文本局部關(guān)鍵特征信息,在BERT模型基礎(chǔ)上,增加CNN模型,可以在BERT模型輸出的全局特征信息基礎(chǔ)上增加了局部特征的獲取,從而可以獲得更多的特征信息.CNN模型主要有卷積層、池化層組成,如圖4所示.經(jīng)過BERT模型最后一個隱藏層輸出的向量H={h1,h2,…,hn}輸入到卷積神經(jīng)網(wǎng)絡(luò)CNN里面,首先對輸入的特征信息進(jìn)行如下的處理:

hi:n=h1⊕h2⊕…⊕hn

(5)

其中,⊕表示對CNN輸入的向量進(jìn)行連接的連接符號,hi:n表示對h1,h2,…,hn的拼接.將拼接后的數(shù)據(jù)輸入到卷積層進(jìn)行卷積操作,卷積層的過濾器為w∈Rp×k,過濾器寬度設(shè)置的詞向量維度為k,高度設(shè)置為p,即每次對句子中p個相鄰詞之間進(jìn)行卷積操作來提取文本的n-gram特征.假設(shè)輸入層經(jīng)過濾器截取詞向量hi:i+p-1后得到的特征為ci,一個特征的提取表示如下:

ci=f(w·hi:i+p-1+b)

(6)

其中,b∈R表示偏置項(xiàng),f為非線性激活函數(shù).卷積核在輸入層的詞向量矩陣上滑動,生成的特征映射為:

c=[c1,c2,…,cn-p+1]

(7)

之后,對c∈Rn-p+1進(jìn)行最大池化操作,使提取的特征向量里面最大的特征代替整個特征向量.如圖4最右側(cè)的局部放大圖所示,假設(shè)對方框內(nèi)的4,5,8,7進(jìn)行最大池化操作,那么最大池化操作后獲得的值就是8,池化操作的公式表示如下:

(8)

圖4 CNN模型計(jì)算過程示意圖Fig.4 Schematic diagram of CNN model calculation process

(9)

2.3 BiLSTM

LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)RNN變體的一種,LSTM中增加了cell,通過門控狀態(tài)控制傳輸狀態(tài)實(shí)現(xiàn)了記憶功能,解決了RNN因文本序列過長,造成了梯度消失和梯度爆炸的問題.如圖5所示,LSTM網(wǎng)絡(luò)單元由輸入門(InputGate)、遺忘門(ForgetGate)及輸出門(OutputGate)組成.

圖5 LSTM內(nèi)部單元示意圖Fig.5 Schematic diagram of LSTM internal unit

遺忘門決定從上一時刻的細(xì)胞狀態(tài)中丟棄哪些信息,以當(dāng)前時刻輸入xt和上一時刻的隱藏層輸出ht-1作為輸入,公式表示如下:

ft=σ(Wf[ht-1,xt]+bf)

(10)

其中,σ代表sigmoid函數(shù),輸出值為1時表示“完全保留”,0表示“完全舍棄”.Wf為權(quán)重系數(shù),bf為偏置量.

輸入門決定有多少輸入信息需要保留以及將需要保留的信息更新到當(dāng)前神經(jīng)網(wǎng)絡(luò)單元中,計(jì)算公式表示如下:

it=σ(Wi[ht-1,xt]+bi)

(11)

(12)

(13)

輸出門控制當(dāng)前神經(jīng)網(wǎng)絡(luò)單元中輸出哪些信息到下一個神經(jīng)單元.這里采用sigmoid函數(shù)確定哪些信息輸出,然后用tanh函數(shù)處理當(dāng)前單元狀態(tài)并與輸出門ot相乘得到當(dāng)前時刻隱藏層狀態(tài):

ot=σ(Wo[ht-1,xt]+bo)

(14)

ht=ot×tanh(Ct)

(15)

BiLSTM使用雙向LSTM架構(gòu)來捕獲文本長序列的特征信息,結(jié)構(gòu)簡單且對遠(yuǎn)距離依賴的信息學(xué)習(xí)效果好,可以解決BERT模型不能處理超過512長度序列文本的缺陷,同時在BERT模型的基礎(chǔ)上可以保留更多長文本序列的特征信息.BERT模型最后隱藏層狀態(tài)H={h1,h2,…,hn}輸入到BiLSTM網(wǎng)絡(luò)架構(gòu)中的運(yùn)算表示如下:

(16)

(17)

(18)

2.4 Attention

注意力機(jī)制是在眾多信息中提取與目標(biāo)相關(guān)的信息,BiLSTM層輸出的向量特征是多種多樣的,每個向量對分類的結(jié)果影響程度是不一樣的,本文加入注意力機(jī)制,目的就是將影響分類結(jié)果的向量信息重點(diǎn)輸出,給影響分類結(jié)果的向量信息分配更大的權(quán)重,使其在輸出的向量中占據(jù)絕對優(yōu)勢,對BiLSTM層輸出的向量做注意力機(jī)制運(yùn)算,公式表示如下:

ut=tanh(wtlt+bt)

(19)

(20)

(21)

lt表示BiLSTM在t時刻輸出的特征向量,bt表示偏置,wt表示lt的權(quán)重矩陣,ut表示為lt通過tanh神經(jīng)網(wǎng)絡(luò)計(jì)算得到的隱層表示,αt表示通過softmax函數(shù)得到的權(quán)重,記錄了一個向量對分類結(jié)果影響的大小值,F表示經(jīng)過加權(quán)運(yùn)算后的特征向量,這個特征向量重點(diǎn)包含了對分類結(jié)果影響高的特征信息.

2.5 輸出層

BERT模型隱藏層輸出的詞向量信息經(jīng)過CNN和BiLSTM-Attention兩個通道后,各自保留了更多的特征信息,這些特征信息擴(kuò)展了BERT模型輸出的特征信息,增加了局部特征信息、長距離特征信息以及對分類結(jié)果影響大的特征信息,將這些輸出的特征信息拼接起來,然后輸入到全連接層,最后通過softmax函數(shù)進(jìn)行分類操作輸出類別信息,公式表示如下:

O=U⊕F

(22)

P(yi|O)=softmax(WoO)

(23)

其中,yi表示分類輸出結(jié)果,i=1,2,…,k,k表示分類類別,Wo為權(quán)重矩陣.

3 實(shí)驗(yàn)設(shè)計(jì)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文采用的情感分類數(shù)據(jù)集采用了中文和英文兩種數(shù)據(jù)集,中文數(shù)據(jù)集采用的是國內(nèi)中國科學(xué)院譚松波博士提供的較大規(guī)模的中文酒店評論(Tan Songbo Hotel Review)語料公開數(shù)據(jù)集.該數(shù)據(jù)集可以為中文情感分析提供一定的平臺,共計(jì)6000條數(shù)據(jù),情感極性正負(fù)評論各3000條,本文對其進(jìn)行了jieba分詞、去除一些停用詞等預(yù)處理,預(yù)處理后部分樣本如表1所示,預(yù)處理后的數(shù)據(jù)平均長度約為125.英文數(shù)據(jù)集采用的是來自2015年Yelp Dataset Challenge數(shù)據(jù)集,該數(shù)據(jù)集中的正負(fù)不同極性分別包含280,000個訓(xùn)練樣本和19,000個測試樣本,平均長度約為109,英文數(shù)據(jù)集的部分樣例也見表1所示.

表1 部分?jǐn)?shù)據(jù)集樣本Table 1 Partial data set samples

3.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

本文實(shí)驗(yàn)是在pytorch1.4.0深度學(xué)習(xí)框架上完成的,操作系統(tǒng)采用的是64位的Ubuntu20.04系統(tǒng),GPU是24G 顯存的INVDA Quadro RTX 6000.本文中采用的CNN、BiLSTM等對比模型對中文使用搜狗新聞的Word+Character預(yù)訓(xùn)練詞向量,英文使用谷歌的word2vec預(yù)訓(xùn)練詞向量模型,維度均為300d.本文BCBLA模型及含有BERT詞向量嵌入層構(gòu)成的對比模型中文采用的預(yù)訓(xùn)練模型是bert-base-chinese,英文采用的是bert-base-uncased,本文BCBLA模型實(shí)驗(yàn)參數(shù)的設(shè)置如表2所示.

表2 BCBLA模型實(shí)驗(yàn)參數(shù)Table 2 BCBLA model experimental parameters

3.3 評價(jià)指標(biāo)

本文采用準(zhǔn)確率(Accuracy)、精準(zhǔn)率(Precision)、召回率(Recall)和F1值來評價(jià)模型,這些指標(biāo)可以公平的評價(jià)模型的性能,它們的定義分別如下所示:

(24)

(25)

(26)

(27)

其中,TP表示在正類情感樣本里預(yù)測也為正類的樣本數(shù)量,FP表示在負(fù)類情感樣本里預(yù)測為正類的樣本數(shù)量,FN表示在正類情感樣本里預(yù)測為負(fù)類的樣本數(shù)量,TN表示在負(fù)類情感樣本里預(yù)測也為負(fù)類的樣本數(shù)量.

3.4 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證本文BCBLA模型的有效性,本文進(jìn)行了如下對比實(shí)驗(yàn):1)與當(dāng)前流行的文本情感分類模型進(jìn)行對比;2)單通道與多通道情感分類模型進(jìn)行比較;3)不同預(yù)訓(xùn)練模型下的模型對比.

不同對比模型如下所示:

1)CNN[5]:卷積神經(jīng)網(wǎng)絡(luò)模型,有2、3、4這3個不同大小的卷積核組成,可以捕獲局部關(guān)鍵特征信息.

2)BiLSTM[18]:雙向LSTM,同時捕捉前后文依賴關(guān)系的特征.

3)BiLSTM-Attention:在BiLSTM模型的基礎(chǔ)上加入注意力機(jī)制,以此來捕獲影響情感分類結(jié)果的關(guān)鍵特征.

4)RCNN[19]:結(jié)合了RNN和CNN兩種模型,將BiLSTM獲得的隱層輸出和詞向量拼接結(jié)果進(jìn)行最大池化操作,從而獲取情感分類的關(guān)鍵特征信息.

5)DPCNN[20]:深層金字塔卷積網(wǎng)絡(luò),采用多個固定位置的卷積核分層提取文本中所有鄰接詞的語義特征.

6)LDA+Self-Attention[21]:使用LDA獲得每個評論的擴(kuò)展信息,采用word2vec模型對擴(kuò)展信息和原評論文本進(jìn)行詞向量訓(xùn)練,最后用Self-Attention進(jìn)行動態(tài)權(quán)重分配并進(jìn)行分類.

7)BERT[16]:動態(tài)預(yù)訓(xùn)練詞向量模型,采用多層雙向Transformer架構(gòu)捕獲文本上下文特征信息,隱藏層[CLS]獲取全局分類特征信息.

8)BERT+CNN:在BERT模型的基礎(chǔ)上,增加CNN網(wǎng)絡(luò)進(jìn)一步提取局部關(guān)鍵特征信息.

9)BERT+BiLSTM-Attention(BBLA):在BERT模型的基礎(chǔ)上,增加BiLSTM-Attention模型進(jìn)一步獲取長序列和情感分類關(guān)鍵特征信息.

10)Word2vec+CBLA:Word2vec-CNN模型和Word2vec-

BiLSTM-Attention模型組成的雙通道情感分類模型.

11)BCBLA:本文模型.

不同模型訓(xùn)練過程中準(zhǔn)確率accuracy值如圖6、圖7所示.

圖6 Tan Songbo Hotel Review數(shù)據(jù)集上訓(xùn)練的accuracy值變化圖Fig.6 Variation diagram of accuracy values trained on Tan Songbo Hotel Review dataset

圖7 Yelp數(shù)據(jù)集上訓(xùn)練的accuracy值變化圖Fig.7 Variation diagram of accuracy values trained on Yelp dataset

3.4.1 與當(dāng)前流行的文本情感分類模型進(jìn)行對比

首先,本文與如下當(dāng)前流行的一些情感分類模型對比,比較模型主要有CNN、BiLSTM、BiLSTM-Attention、RCNN、DPCNN、LDA+Self-Attention等,其中LDA+Self-Attention模型的實(shí)驗(yàn)結(jié)果直接來自文獻(xiàn)[21].本文BCBLA模型與這些模型的測試結(jié)果如表3所示.從圖6和圖7中可以看出,本文BCBLA模型與上面這些對比模型相比,訓(xùn)練過程中的準(zhǔn)確率accuracy值收斂速度更快,收斂之后變化浮動小,受數(shù)據(jù)集數(shù)據(jù)數(shù)量大小等因素的影響,在數(shù)據(jù)量小的中文Tan Songbo Hotel Review數(shù)據(jù)集,CNN、BiLSTM等模型訓(xùn)練的accuracy值收斂之后變化浮動仍舊比較大,在數(shù)據(jù)量大的英文Yelp數(shù)據(jù)集,訓(xùn)練的accuracy值收斂之后變化浮動比相對比較小,本文BCBLA模型在兩種數(shù)據(jù)集訓(xùn)練的accuracy值變化浮動都比較小,收斂值更大.同樣對比表3的測試結(jié)果中可以看出,本文BCBLA模型在4個評價(jià)指標(biāo)上均優(yōu)于CNN、BiLSTM、BiLSTM-Attention、RCNN、DPCNN、LDA+Self-Attention模型,在中文Tan Songbo Hotel Review數(shù)據(jù)集上優(yōu)于對比模型中表現(xiàn)最好的LDA+Self-Attention模型,在準(zhǔn)確率A、召回率R和F1值分別高出3.59%、2.34%和3.16%,英文Yelp數(shù)據(jù)集則比對比模型中表現(xiàn)最好的BiLSTM-Attention模型分別高出2.74%、2.73%、2.74%和2.74%.綜上,可以看出與當(dāng)前流行的情感分類模型相比,本文BCBLA模型在情感分類上性能更強(qiáng).

3.4.2 不同通道對情感分類結(jié)果的影響

表3 不同情感分類模型的測試結(jié)果Table 3 Test results of different sentiment classification model

本文在雙通道情感分類模型基礎(chǔ)上,同時也研究了簡單的BERT和基于BERT的單通道情感分類模型,即對BERT、BERT+CNN(通道1)和BERT+BiLSTM-Attention(BBLA)(通道2)模型上進(jìn)行實(shí)驗(yàn),然后與本文雙通道情感分類模型做對比,測試結(jié)果如表4所示,從圖6和圖7的訓(xùn)練圖可知,本文雙通道BCBLA模型比單通道BBLA和BERT-CNN模型以及BERT模型在訓(xùn)練的accuracy值收斂值更大,收斂之后變化浮動更小.從表4的測試結(jié)果可知,單通道的BERT+CNN模型和單通道的BBLA模型的4個評價(jià)指標(biāo)值都比BERT模型高,其中單通道的BERT+CNN模型在中文Tan Songbo Hotel Review數(shù)據(jù)集和英文Yelp數(shù)據(jù)集上F1值比BERT模型分別高出0.64%、0.18%,這說明在BERT模型獲取融合文本語境的詞向量表征后,通過CNN模型進(jìn)行卷積、最大池化操作提取局部情感分類特征,可以在一定程度上提高模型的情感分類效果.單通道的BBLA模型在中文Tan Songbo Hotel Review數(shù)據(jù)集和英文Yelp數(shù)據(jù)集上F1值比BERT模型分別高出0.44%、0.13%,這說明在BERT模型獲取融合文本語境的詞向量表征后,通過BiLSTM獲得長序列文本全局情感分類特征,然后采用Attention模型從獲得的特征中提取出重點(diǎn)情感分類特征,可以在一定程度上提升模型的情感分類效果.另外從表4也可以看出,雙通道BCBLA模型比單通道模型BBLA和BERT+CNN模型以及BERT模型在4個指標(biāo)的測試值都高,其中雙通道BCBLA模型在中文Tan Songbo Hotel Review數(shù)據(jù)集和英文Yelp數(shù)據(jù)集上F1值比單通道模型BBLA分別高出0.56%、0.56%,比單通道BERT+CNN模型分別高出0.36%、0.51%,比BERT模型分別高出1.00%、0.69%,這說明在BERT模型獲取融合文本語境的詞向量表征后,同時采用CNN模型進(jìn)行卷積、最大池化操作提取局部特征和BiLSTM-Attention模型獲得長序列全局文本重點(diǎn)特征,然后將所得特征融合后進(jìn)行情感分類,在一定程度上分類效果要好于單通道的BERT+CNN模型、單通道的BBLA模型和BERT模型.

3.4.3 不同預(yù)訓(xùn)練模型對分類結(jié)果的影響

本文采用了BERT動態(tài)預(yù)訓(xùn)練模型作為本文模型的詞向量嵌入層,通過該模型得到的詞向量是動態(tài)的,每個詞向量都與上下文中的其他詞向量有著動態(tài)的緊密的聯(lián)系,不同的詞產(chǎn)生的詞向量可以很好的根據(jù)周圍環(huán)境發(fā)生改變,而Word2Vec等模型產(chǎn)生詞向量卻是固定不變的,并不能解決一詞多義問題.將本文BCBLA模型的BERT詞向量嵌入層去掉,使用Word2Vec詞向量嵌入層替換,進(jìn)行了研究,測試的實(shí)驗(yàn)結(jié)果如表5所示,表格中的CBLA代表由CNN和BiLSTM-Attention兩個通道組成的模型,Word2Vec+CBLA表示CBLA雙通道模型的詞向量嵌入層是Word2Vec模型,從圖6和圖7的訓(xùn)練圖中可以看出,本文采用BERT模型作為詞向量嵌入層的BCBLA模型與采用Word2Vec作為詞向量嵌入層的Word2vec+CBLA模型相比,在訓(xùn)練的accuracy值收斂速度快,收斂之后變化浮動小,從表5的測試結(jié)果中可看出,BCBLA模型比Word2vec+CBLA模型在中文TanSongbo Hotel Review和英文Yelp數(shù)據(jù)集準(zhǔn)確率A、精準(zhǔn)率P、召回率R和F1值測試結(jié)果明顯高出不少,在中文Tan Songbo Hotel Review數(shù)據(jù)集上4個指標(biāo)值分別高出3.83%、3.85%、3.83%和3.84%,英文Yelp數(shù)據(jù)集則分別高出2.51%、2.50%、2.51%和2.51%.綜上,可以看出采用BERT動態(tài)詞向量的BCBLA模型比采用Word2Vec靜態(tài)詞向量的Word2Vec+CBLA模型情感分類效果好,說明動態(tài)詞向量模型比靜態(tài)詞向量模型訓(xùn)練得到的詞向量具有更豐富的詞向量特征信息.

表4 不同通道模型的測試結(jié)果Table 4 Test results of different channel models

表5 不同預(yù)訓(xùn)練模型下的測試結(jié)果Table 5 Test results under different pre-training models

4 結(jié) 論

針對過往的情感分類模型采取的多為傳統(tǒng)的深度學(xué)習(xí)模型,即使采用多通道模型融合的情感分類模型使用的預(yù)訓(xùn)練模型也多為靜態(tài)預(yù)訓(xùn)練模型,本文提出了一種基于BERT的動態(tài)預(yù)訓(xùn)練模型作為詞向量嵌入層的雙通道的情感文本分類模型BCBLA,設(shè)計(jì)了與當(dāng)前流行的情感分類模型對比、減少通道后的模型對比和更換預(yù)訓(xùn)練模型后的對比等3種實(shí)驗(yàn)對比方式,在中文譚松波酒店評論數(shù)據(jù)集上和英文Yelp Dataset Challenge 數(shù)據(jù)集進(jìn)行了訓(xùn)練和測試,最終證明了本文提出的雙通道情感分類模型的有效性.在后續(xù)的工作,還可以在BERT預(yù)訓(xùn)練詞向量模型的基礎(chǔ)上引入更多的通道,或者更換其他更好的預(yù)訓(xùn)練詞向量模型,或者更換通道模型中的模塊等方法進(jìn)行研究對比.

猜你喜歡
卷積向量分類
向量的分解
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
分類算一算
聚焦“向量與三角”創(chuàng)新題
從濾波器理解卷積
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
教你一招:數(shù)的分類
向量垂直在解析幾何中的應(yīng)用