国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多層次注意力的語義增強(qiáng)情感分類模型

2024-01-09 02:43:14曹建樂李娜娜
計(jì)算機(jī)應(yīng)用 2023年12期
關(guān)鍵詞:注意力語義分類

曹建樂,李娜娜

基于多層次注意力的語義增強(qiáng)情感分類模型

曹建樂,李娜娜*

(河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401)(?通信作者電子郵箱linana@scse.hebut.edu.cn)

由于自然語言的復(fù)雜語義、詞的多情感極性以及文本的長(zhǎng)期依賴關(guān)系,現(xiàn)有的文本情感分類方法面臨嚴(yán)峻挑戰(zhàn)。針對(duì)這些問題,提出了一種基于多層次注意力的語義增強(qiáng)情感分類模型。首先,使用語境化的動(dòng)態(tài)詞嵌入技術(shù)挖掘詞匯的多重語義信息,并且對(duì)上下文語義進(jìn)行建模;其次,通過內(nèi)部注意力層中的多層并行的多頭自注意力捕獲文本內(nèi)部的長(zhǎng)期依賴關(guān)系,從而獲取全面的文本特征信息;再次,在外部注意力層中,將評(píng)論元數(shù)據(jù)中的總結(jié)信息通過多層次的注意力機(jī)制融入評(píng)論特征中,從而增強(qiáng)評(píng)論特征的情感信息和語義表達(dá)能力;最后,采用全局平均池化層和Softmax函數(shù)實(shí)現(xiàn)情感分類。在4個(gè)亞馬遜評(píng)論數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與基線模型中表現(xiàn)最好的TE-GRU (Transformer Encoder with Gated Recurrent Unit)相比,所提模型在App、Kindle、Electronic和CD數(shù)據(jù)集上的情感分類準(zhǔn)確率至少提升了0.36、0.34、0.58和0.66個(gè)百分點(diǎn),驗(yàn)證了該模型能夠進(jìn)一步提高情感分類性能。

情感分類;自然語言處理;詞嵌入;注意力機(jī)制;神經(jīng)網(wǎng)絡(luò)

0 引言

情感分析是自然語言處理(Natural Language Processing,NLP)領(lǐng)域的一個(gè)熱門研究方向,它的目的是從用戶發(fā)布在網(wǎng)絡(luò)的主觀信息中提取和分析知識(shí)。情感分類是情感分析的研究主題之一,旨在根據(jù)情感極性對(duì)文本進(jìn)行分類[1],近年來受到了眾多研究者的密切關(guān)注,并取得了許多進(jìn)展。隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的快速發(fā)展,用戶在網(wǎng)絡(luò)上發(fā)表的觀點(diǎn)和評(píng)論越來越多。利用情感分類技術(shù)分析這些用戶評(píng)論信息,可以推測(cè)用戶的情感和心理狀態(tài),有助于研究機(jī)構(gòu)掌握社會(huì)情緒的動(dòng)態(tài)[2]。

目前的情感分類方法主要分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)方法通常使用大量的人工特征[3]和淺層學(xué)習(xí)方法進(jìn)行分類,如支持向量機(jī)[4]和樸素貝葉斯[5]等。然而,傳統(tǒng)方法的特征提取過程需要花費(fèi)大量的人力和時(shí)間,并且會(huì)導(dǎo)致情感表達(dá)不完整,處理復(fù)雜任務(wù)的能力有限?;谏疃葘W(xué)習(xí)的方法能夠避免人工特征提取,降低了模型開發(fā)成本。常用的深度學(xué)習(xí)方法,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit, BiGRU)和雙向長(zhǎng)短期記憶(Bidirectional Long Short-Term Memory, BiLSTM)網(wǎng)絡(luò)等,已廣泛應(yīng)用于情感分類任務(wù)[6-7]。目前,大多數(shù)文本情感分類方法主要集中在生成豐富的文本特征表示,以提高模型的性能。研究者通常采用結(jié)構(gòu)復(fù)雜的編碼器以及注意力機(jī)制[8]生成語義豐富的特征表示。雖然這些方法在一定程度上解決了相關(guān)問題并改善了性能,但仍存在以下問題:1)使用預(yù)訓(xùn)練的靜態(tài)詞嵌入,無法處理單詞的復(fù)雜語義,缺乏在不同文本中表達(dá)不同詞義的能力;2)使用大量的序列模型,順序編碼的方式導(dǎo)致時(shí)間復(fù)雜度高,且難以捕獲全面的文本特征信息;3)一個(gè)句子中可能存在多個(gè)對(duì)句子情感傾向產(chǎn)生重要影響的詞,而傳統(tǒng)的注意力機(jī)制無法完全學(xué)習(xí)句子的情感信息,不能有效地獲取文本的情感語義特征。

針對(duì)上述問題,本文提出了一種基于多層次注意力的語義增強(qiáng)情感分類模型。模型采用BERT(Bidirectional Encoder Representation from Transformers)[9]預(yù)訓(xùn)練模型構(gòu)建文本的動(dòng)態(tài)詞嵌入向量,并且通過多層次的內(nèi)部注意力層和外部注意力層生成包含豐富情感語義信息的文本特征表示,使用增強(qiáng)的文本特征進(jìn)行情感分類。為了驗(yàn)證該模型的有效性,在4個(gè)亞馬遜評(píng)論文本數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文模型在情感分類任務(wù)上的性能優(yōu)于大多數(shù)先進(jìn)模型。

本文的主要工作如下:

1)使用動(dòng)態(tài)詞嵌入技術(shù)構(gòu)建文本的語境化的上下文詞嵌入,有效地挖掘詞匯的多重語義信息。

2)使用多層次的內(nèi)部注意力層,引入多頭注意力機(jī)制并行地從不同特征子空間中學(xué)習(xí)語義特征,能夠降低模型時(shí)間復(fù)雜度并捕獲文本中的長(zhǎng)期依賴關(guān)系,獲取全面的文本特征信息。

3)考慮到模型各層具有不同的句法和語義信息處理能力,本文模型的內(nèi)部注意力層設(shè)計(jì)了兩種并行層次組合策略,用于獲得單層輸出結(jié)構(gòu)無法捕獲的額外信息。

4)外部注意力層采用多層的注意力機(jī)制,利用元數(shù)據(jù)的總結(jié)信息增強(qiáng)評(píng)論特征的情感語義表達(dá)能力,實(shí)驗(yàn)結(jié)果表明該模型有效提升了情感分類的性能。

1 相關(guān)工作

1.1 詞嵌入技術(shù)

大多數(shù)詞嵌入方法都依賴于語言分布結(jié)構(gòu)的假設(shè),具體地,相似上下文中的詞通常具有相似的語義,而詞的語義由它們的上下文決定。Mikolov等[10]利用單詞語義以及單詞之間的關(guān)系提出了Word2Vec(Word to Vector)模型,該模型包括連續(xù)詞袋模型(Continuous Bag-Of-Word model, CBOW)和連續(xù)Skip-gram(Continuous Skip-gram Model)兩種算法。這兩種算法都基于元模型,該模型假設(shè)一個(gè)單詞只與它周圍的個(gè)單詞相關(guān);但這一假設(shè)使得該方法對(duì)全局信息利用不足。Pennington等[11]提出了GloVe(Global Vectors for word representation)模型,考慮全局信息和局部信息的全局向量詞表示;但這種嵌入方法是一種靜態(tài)嵌入,無法用于一個(gè)詞具有多種含義的情況。

Peters等[12]通過使用BiLSTM,提出來自深層語言模型的嵌入(Embeddings from Language MOdels, ELMO),不僅能生成動(dòng)態(tài)詞嵌入,而且可以利用單詞的深層語義?;赥ransformer[13]強(qiáng)大的特征提取能力,Radford等[14]提出一種生成式預(yù)訓(xùn)練(Generative Pre-Training,GPT)模型,使用Transformer代替ELMO中的長(zhǎng)短期記憶(Long Short-Term Memory, LSTM),在當(dāng)時(shí)取得了多個(gè)NLP任務(wù)中的最好結(jié)果。Devlin等[9]提出了BERT模型,使用雙向語言模型替換單向語言模型,并結(jié)合CBOW算法的技巧。BERT作為近年來詞嵌入模型的代表,在多項(xiàng)NLP任務(wù)中取得了最優(yōu)的表現(xiàn)。本文模型利用BERT獲得詞嵌入,更具體地,通過使用BERT為情感分類模型提供輸入文本序列的上下文感知嵌入。

1.2 情感分類方法

早期工作多使用數(shù)據(jù)挖掘[15]和機(jī)器學(xué)習(xí)[16-17]等方法在情感分類領(lǐng)域進(jìn)行研究。隨著深度學(xué)習(xí)的發(fā)展,CNN和RNN在NLP領(lǐng)域取得了顯著的成功。Kalchbrenner等[18]提出動(dòng)態(tài)CNN,使用寬卷積和池化捕獲單詞關(guān)系,通過構(gòu)造類似解析樹的結(jié)構(gòu)提取長(zhǎng)距離的信息。Rezaeinia等[19]基于CNN模型和改進(jìn)的單詞嵌入進(jìn)行文檔情感分類,通過改進(jìn)詞嵌入的詞匯、位置和句法特征,提高了情感分類中詞嵌入的準(zhǔn)確性。與CNN相比,RNN引入了記憶單元,能夠考慮文本之間的長(zhǎng)期依賴。Zhou等[20]采用堆疊的BiLSTM網(wǎng)絡(luò),提高了對(duì)序列特征中長(zhǎng)期依賴的學(xué)習(xí)能力。Chatterjee等[21]提出了多通道LSTM模型,通過結(jié)合語義和基于情感的表示提高情感檢測(cè)能力。

為結(jié)合CNN和RNN各自的優(yōu)點(diǎn),一些研究嘗試結(jié)合這兩種結(jié)構(gòu)。Hassan等[22]將CNN與RNN串行連接,使用CNN提取情感特征,LSTM實(shí)現(xiàn)上下文語義的建模,該模型能減少局部信息的丟失,并捕獲長(zhǎng)期依賴關(guān)系;Batbaatar等[23]將CNN與RNN并行連接,使用BiLSTM捕獲上下文信息并專注語義關(guān)系,同時(shí)使用CNN提取情感特征并側(cè)重文本中單詞之間的情感關(guān)系;Tam等[24]使用卷積層解決BiLSTM的局限性,使用一維卷積提取文本不同位置的局部特征并降低其維度,之后使用BiLSTM提取文本的上下文信息,該方法通過獲取句子上下文中的局部和全局相關(guān)性,有效地提高了文本情感分類性能。

1.3 基于注意力的模型方法

注意力機(jī)制能使模型關(guān)注文本中的重要信息,因此常被用于增強(qiáng)文本的特征。Bahdanau等[8]在機(jī)器翻譯任務(wù)中使用了注意力機(jī)制,首次將注意力機(jī)制應(yīng)用于NLP領(lǐng)域。Liu等[25]提出基于注意力的卷積層BiLSTM模型,解決了文本數(shù)據(jù)的高維和稀疏性問題,并通過捕獲短語的局部特征和全局句子語義,有助于處理自然語言的復(fù)雜語義。自注意力機(jī)制[13]充分考慮句子中不同詞語之間的語義以及語法聯(lián)系,能夠進(jìn)一步地捕獲上下文之間的聯(lián)系。Li等[26]提出了具有自注意力機(jī)制和多通道特征的BiLSTM模型。該模型對(duì)語言知識(shí)和情感資源進(jìn)行建模,形成不同的特征通道,并利用自注意力機(jī)制增強(qiáng)情感信息;然而該模型不適用于處理長(zhǎng)文本信息。Liu等[27]組合兩層具有注意力的BiGRU模型獲得長(zhǎng)文本的組合語義,并應(yīng)用二維卷積捕獲句子特征之間的依賴關(guān)系;然而該方法僅強(qiáng)調(diào)句子的重要性,缺少對(duì)單詞價(jià)值的關(guān)注。

Kamyab等[28]提出了基于雙通道CNN和雙向RNN(Bidirectional RNN, Bi-RNN)的深度模型,應(yīng)用注意力同時(shí)強(qiáng)調(diào)單詞和文本的重要性,并采用零填充策略使模型同樣適用于長(zhǎng)文本數(shù)據(jù),輸入層使用高斯噪聲和隨機(jī)失活作為正則化防止過擬合。Zhu等[29]利用自注意力機(jī)制捕獲文本上下文全局信息,關(guān)注文本的關(guān)鍵詞和句子信息,通過并行的空洞卷積和標(biāo)準(zhǔn)卷積獲得多尺度特征信息,提高了情感分類的性能。然而,單一的注意力機(jī)制無法從文本中提取多語義的情感信息,不能有效地獲取文本的情感語義特征;因此本文提出一種基于多層次注意力的語義增強(qiáng)情感分類模型,從多個(gè)層次提取文本的語義信息,豐富文本的特征表示,進(jìn)而提升模型的情感分類性能。

2 本文模型

本文模型的流程如圖1所示。模型主要包括4個(gè)部分:輸入嵌入層、內(nèi)部注意力層、外部注意力層和分類輸出層。其中表示評(píng)論文本序列,表示總結(jié)文本序列。

圖1 模型框架

首先,輸入嵌入層利用BERT詞嵌入技術(shù)為文本生成對(duì)應(yīng)的上下文動(dòng)態(tài)詞嵌入;其次,內(nèi)部注意力層采用多層次的結(jié)構(gòu)生成文本的全面特征表示,當(dāng)中的每一層都包含一個(gè)多頭自注意力機(jī)制和前饋全連接層,內(nèi)部注意力層中采用了兩種并行的層次組合策略,即連續(xù)層次組合和間隔層次組合;再次,外部注意力層通過在評(píng)論特征和總結(jié)信息之間應(yīng)用多層注意力機(jī)制,獲得情感語義增強(qiáng)的評(píng)論特征表示;最后,分類輸出層對(duì)最終的評(píng)論特征使用全局平均池化操作和Softmax激活函數(shù),獲得評(píng)論文本的情感分類結(jié)果。

2.1 輸入嵌入層

詞嵌入技術(shù)用于將文本中的每個(gè)詞映射到低維實(shí)值向量空間中。與上下文無關(guān)的靜態(tài)詞嵌入技術(shù)相比,BERT模型可以生成上下文感知的動(dòng)態(tài)詞嵌入表示,能夠更好地對(duì)上下文語義進(jìn)行建模。本文模型利用BERT為文本中的每個(gè)單詞生成詞嵌入向量。輸入嵌入層的結(jié)構(gòu)如圖2所示,表示單詞對(duì)應(yīng)的詞向量。

圖2 輸入嵌入層

2.2 內(nèi)部注意力層

獲得每個(gè)單詞的詞嵌入向量后,模型使用內(nèi)部注意層來生成文本的特征表示。內(nèi)部注意力層采用了多層的結(jié)構(gòu),每一層主要包括兩部分:多頭自注意力機(jī)制和前饋全連接層。本文設(shè)計(jì)了兩種并行的層次組合策略:連續(xù)層次組合和間隔層次組合。內(nèi)部注意力層的結(jié)構(gòu)如圖3所示。

圖3 內(nèi)部注意力層

2.2.1多頭自注意力機(jī)制

多頭自注意力利用多個(gè)并行的注意力機(jī)制獲得句子中每個(gè)單詞的加權(quán)注意力分?jǐn)?shù)。這種結(jié)構(gòu)設(shè)計(jì)能讓每個(gè)注意力機(jī)制優(yōu)化每個(gè)詞的不同特征部分,從而均衡同一種注意力機(jī)制可能產(chǎn)生的偏差,讓詞義擁有更多元的表達(dá)能力。多頭注意力中的“頭”是一種特殊的注意力機(jī)制,由多個(gè)并行的縮放點(diǎn)積注意力機(jī)制組成;因此在介紹多頭注意力之前,需要先介紹縮放點(diǎn)積注意力??s放點(diǎn)積注意力和多頭注意力的結(jié)構(gòu)如圖4所示。

2.2.2前饋全連接層

2.2.3層次組合策略

考慮到單個(gè)內(nèi)部注意力層難以完全提取句子中單詞之間的語義特征,本文模型采用多層次的內(nèi)部注意力層捕獲文本內(nèi)部的長(zhǎng)期依賴關(guān)系,并獲得全面的上下文特征信息。本文設(shè)計(jì)了兩種并行的層次組合策略,包括連續(xù)層次組合策略和間隔層次組合策略。

在連續(xù)層次組合策略中,將內(nèi)部注意力層的最后層的輸出進(jìn)行組合,獲得內(nèi)部注意力層最終的特征輸出。對(duì)于間隔層次的組合策略,內(nèi)部注意力層最終的特征輸出表示由間隔的層內(nèi)部注意力的輸出組合獲得。兩種方式的計(jì)算如式(10)和式(11)所示:

2.3 外部注意力層

外部注意力層利用總結(jié)信息增強(qiáng)評(píng)論文本特征的情感語義信息。外部注意力層的結(jié)構(gòu)如圖5所示,包括多個(gè)堆疊的注意力子層。外部注意力子層使用注意力機(jī)制捕獲評(píng)論與總結(jié)之間的情感依賴關(guān)系,通過在評(píng)論特征表示中查詢總結(jié)特征表示,增強(qiáng)評(píng)論特征的情感信息和語義信息。多個(gè)注意力子層堆疊有利于獲得更精細(xì)的特征表達(dá)能力。

其中:為第i個(gè)外部注意力子層輸出的評(píng)論特征;、和是需要訓(xùn)練學(xué)習(xí)的線性變換矩陣。注意力子層的計(jì)算方式也可以使用多頭注意力。

2.4 分類輸出層

分類輸出層的目的是將模型學(xué)習(xí)的分布式特征表示映射到樣本標(biāo)記空間。模型的輸出層采用全局平均池化層和Softmax層替代傳統(tǒng)的池化層和全連接層,減少了模型的參數(shù)量,避免過擬合。

模型的訓(xùn)練目標(biāo)是最小化預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽之間的交叉熵?fù)p失,損失函數(shù)的計(jì)算如式(15)所示:

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

3.1.1數(shù)據(jù)集

本文在4個(gè)亞馬遜產(chǎn)品評(píng)論數(shù)據(jù)集上對(duì)模型的有效性進(jìn)行實(shí)驗(yàn)評(píng)估,數(shù)據(jù)集分別為:安卓應(yīng)用程序數(shù)據(jù)集(App)、Kindle商店數(shù)據(jù)集(Kindle)、電子產(chǎn)品數(shù)據(jù)集(Electronic)和光盤與黑膠唱片數(shù)據(jù)集(CD)[30]。

數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)情況如表1所示。原始數(shù)據(jù)集中的每篇評(píng)論數(shù)據(jù)主要包括一個(gè)純文本評(píng)論、一個(gè)用戶總結(jié)文本和一個(gè)從1~5的總體情感評(píng)分。每個(gè)數(shù)據(jù)集都是類別數(shù)量不平衡的數(shù)據(jù)集,本文將它們構(gòu)造成積極數(shù)據(jù)與消極數(shù)據(jù)同等數(shù)量的平衡數(shù)據(jù)集。本文將情感評(píng)分為1和2的數(shù)據(jù)作為消極數(shù)據(jù),情感評(píng)分為4和5的數(shù)據(jù)作為積極數(shù)據(jù)??紤]到積極數(shù)據(jù)的數(shù)量遠(yuǎn)多于消極數(shù)據(jù)的數(shù)量,本文從積極數(shù)據(jù)中選擇與消極數(shù)據(jù)同等數(shù)量的數(shù)據(jù)作為平衡數(shù)據(jù)集中的積極數(shù)據(jù),消極數(shù)據(jù)直接作為平衡數(shù)據(jù)集中的消極數(shù)據(jù)。本文按照7∶1∶2將構(gòu)造的平衡數(shù)據(jù)集劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集,并且所有數(shù)據(jù)集中的積極數(shù)據(jù)和消極數(shù)據(jù)各占一半。

表1數(shù)據(jù)集的詳細(xì)信息

Tab.1 Details of datasets

3.1.2實(shí)現(xiàn)細(xì)節(jié)

本文的模型是在PyTorch 1.7.0和Python 3.8的環(huán)境下實(shí)現(xiàn)的。利用GPU對(duì)模型進(jìn)行訓(xùn)練,以加速計(jì)算過程。GPU類型為RTX 2080 Ti。

3.1.3評(píng)估指標(biāo)

本文使用精確率(Precision)、召回率(Recall)、F1分?jǐn)?shù)(F1)和準(zhǔn)確率(Accuracy)四種評(píng)估指標(biāo)來評(píng)估模型的性能,這些評(píng)估指標(biāo)的定義公式如下:

其中:表示將正樣本預(yù)測(cè)為正類的數(shù)目,表示將正樣本預(yù)測(cè)為負(fù)類的數(shù)目,表示將負(fù)樣本預(yù)測(cè)為正類的數(shù)目,表示將負(fù)樣本預(yù)測(cè)為負(fù)類的數(shù)目。

3.2 基線模型

為驗(yàn)證本文模型的有效性,將本文模型與以下幾種基線模型進(jìn)行實(shí)驗(yàn)比較。

1)IWV(Improved Word Vector)[19]。結(jié)合單詞詞性、詞典方法和Word2Vec方法改進(jìn)詞向量,使用3個(gè)卷積層、1個(gè)最大池化層和1個(gè)用于情感分類的完全連接層組成模型結(jié)構(gòu)。

2)SS-BED(Sentiment and Semantic Based Emotion Detector)[21]。在兩個(gè)不同的詞嵌入矩陣上應(yīng)用兩個(gè)平行的LSTM層學(xué)習(xí)語義和情感特征表示,利用具有隱藏層的全連接網(wǎng)絡(luò)預(yù)測(cè)情感類別。

3)AC-BiLSTM(Attention-based BiLSTM with Convolution layer)[25]。通過卷積層提取局部特征,之后使用BiLSTM捕獲前后兩個(gè)方向的上下文表示。通過引入注意力機(jī)制,對(duì)隱藏層輸出的信息給予不同的關(guān)注,該模型既能捕獲短語的局部特征,又能捕獲句子的全局語義。

4)ACR-SA(Attention-based deep model using two Channel CNN and Bi-RNN Sentiment Analysis)[28]。使用具有最大池化層的CNN提取上下文特征并降維,隨后應(yīng)用兩個(gè)獨(dú)立的Bi-RNN捕獲長(zhǎng)期依賴關(guān)系,并且將注意力機(jī)制應(yīng)用于RNN層的輸出,以強(qiáng)調(diào)每個(gè)單詞的注意力水平。

5)BiGRU-Att-HCNN(BiGRU-Attention and Hybrid CNN)[29]。結(jié)合BiGRU和自注意力機(jī)制獲取全局信息,并補(bǔ)充關(guān)鍵信息權(quán)重,之后使用兩個(gè)并行的空洞卷積和標(biāo)準(zhǔn)卷積,以較少的參數(shù)獲得多尺度特征信息,最后采用全局平均池化層替代池化層和全連接層,預(yù)測(cè)情感傾向。

6)ABCDM(Attention-based Bidirectional CNN-RNN Deep Model)[31]。該模型由兩個(gè)雙向獨(dú)立的RNN層組合而成,用于提取前向和后向的特征,結(jié)合注意力機(jī)制對(duì)信息給予不同程度的關(guān)注,接著對(duì)每層的輸出分別應(yīng)用兩個(gè)獨(dú)立的卷積層,進(jìn)行特征降維并提取位置不變的局部特征。

7)BERT-CNN(BERT with CNN semantic extraction layer)[32]。該模型首先在BERT模型的輸入表示層對(duì)評(píng)論文本進(jìn)行編碼,之后使用CNN語義提取層提取評(píng)論文本向量的局部特征,BERT語義提取層提取評(píng)論文本向量的全局特征,語義連接層融合兩個(gè)模型提取的特征。

8)MCBAT(MIX-CNN-BiLSTM-Attention-Transformer)[33]。通過CNN捕獲詞的固定搭配特征,通過BiLSTM獲取上下文特征,利用自注意力機(jī)制判斷每個(gè)詞在文本中的重要性。3種特征拼接后,分類器通過全連接層獲得情感分類結(jié)果。

9)TE-GRU(Transformer Encoder with Gated Recurrent Unit)[34]。模型結(jié)合Transformer的全局特征提取能力和循環(huán)模型的序列特征提取能力。Transformer編碼器獲得文本的全局語義信息,可以更好地處理長(zhǎng)序列信息丟失的問題,采用GRU的最終狀態(tài)作為分類的輸入,輸出預(yù)測(cè)的分類概率。

3.3 實(shí)驗(yàn)結(jié)果及分析

3.3.1對(duì)比實(shí)驗(yàn)

本文模型與上述基線模型在4個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)比較。按照內(nèi)部注意力層不同的層次組合策略,本文模型分為兩種,即連續(xù)層次組合模型(Our_Model_1)和間隔層次組合模型(Our_Model_2)。4個(gè)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果如表2所示。從實(shí)驗(yàn)結(jié)果看,在4個(gè)評(píng)論數(shù)據(jù)集的情感分類任務(wù)中,本文的兩種模型的分類效果都優(yōu)于其他基線模型。

表24個(gè)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果 單位:%

Tab.2 Comparative experimental results on four datasets unit:%

IWV通過改進(jìn)詞向量提高性能,SS-BED利用平行的LSTM學(xué)習(xí)語義和情感表達(dá)。與這兩者相比,本文模型應(yīng)用注意力機(jī)制對(duì)重要的信息給予更多的關(guān)注,提高了模型的情感表達(dá)能力。AC-BiLSTM和ACR-SA使用序列編碼器提取特征并結(jié)合注意力機(jī)制提高情感分類性能;而本文模型采用了多層次注意力機(jī)制,內(nèi)部注意力層并行地從不同特征子空間中學(xué)習(xí)語義特征,能夠降低模型時(shí)間復(fù)雜度并捕獲文本中的長(zhǎng)期依賴關(guān)系,獲取全面的文本特征信息。BERT-CNN和TE-GRU利用Transformer框架結(jié)構(gòu)提取全局語義信息并結(jié)合CNN或RNN,以此提高模型的特征表達(dá)能力;然而,模型的多層結(jié)構(gòu)未得到有效利用。本文模型的內(nèi)部注意力層設(shè)計(jì)了兩種并行層次組合策略,能夠獲得多層結(jié)構(gòu)的豐富信息。本文模型在外部注意力層中采用了多層的注意力機(jī)制,使用總結(jié)信息對(duì)評(píng)論數(shù)據(jù)進(jìn)行語義增強(qiáng),與BiGRU-Att-HCNN、MCBAT等模型相比,評(píng)論特征具有更強(qiáng)的情感語義表達(dá)能力,因而模型的情感分類效果更好。另外,Our_Model_1的各項(xiàng)指標(biāo)均高于Our_Model_2,這表明當(dāng)模型的內(nèi)部注意力層采用連續(xù)層次組合策略時(shí)擁有比間隔層次組合策略更好的性能。這可能是由于間隔層次中的低層和中層網(wǎng)絡(luò)擅長(zhǎng)學(xué)習(xí)低級(jí)的信息表征,而連續(xù)層次中的高層網(wǎng)絡(luò)更能捕獲高級(jí)的語義信息特征。

總體上,與基線模型中表現(xiàn)最好的TE-GRU相比,Our_Model_1在App、Kindle、Electronic和CD數(shù)據(jù)集上的情感分類準(zhǔn)確率分別提高了0.65、0.75、0.63和1.01個(gè)百分點(diǎn),Our_Model_2的情感分類準(zhǔn)確率分別提高了0.36、0.34、0.58和0.66個(gè)百分點(diǎn)。對(duì)于F1分?jǐn)?shù),Our_Model_1相較于TE-GRU在4個(gè)數(shù)據(jù)集上分別提高了0.66、0.72、0.63和0.96個(gè)百分點(diǎn),Our_Model_2在4個(gè)數(shù)據(jù)集上分別提高了0.39、0.31、0.58和0.64個(gè)百分點(diǎn)。這些結(jié)果表明本文模型能夠很好地處理情感分類任務(wù)。

值得注意地,對(duì)于CD數(shù)據(jù)集,模型的性能提升效果最明顯,這可能與該數(shù)據(jù)集中評(píng)論文本的數(shù)據(jù)長(zhǎng)度有關(guān)。如表3所示,CD數(shù)據(jù)集中的長(zhǎng)文本數(shù)據(jù)占比更高,平均數(shù)據(jù)長(zhǎng)度更長(zhǎng),本文模型中使用多層次的內(nèi)部注意力層提取文本中的長(zhǎng)期依賴關(guān)系,而這種長(zhǎng)期依賴關(guān)系在長(zhǎng)的評(píng)論文本中更加明顯,表明本文模型在處理長(zhǎng)文本時(shí)具有更好的效果。

3.3.2消融實(shí)驗(yàn)

為了研究不同模塊對(duì)模型性能的影響,對(duì)本文模型進(jìn)行消融實(shí)驗(yàn)分析。內(nèi)部注意力層和外部注意力層是本文模型的最重要的結(jié)構(gòu),因此,本節(jié)將重點(diǎn)分析內(nèi)部注意力層和外部注意力層對(duì)模型性能的影響。

表4展示了針對(duì)內(nèi)部注意力層的消融實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果,其中:Model-A為沒有使用內(nèi)部注意力層的模型,Model-B為僅使用最后一層內(nèi)部注意力層的模型,Model-C表示本文提出的連續(xù)層次組合策略模型,Model-D表示本文提出的間隔層次組合策略模型。根據(jù)Model-A與其他3組的比較結(jié)果,應(yīng)用內(nèi)部注意力層的模型在4個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別提高了至少3.65、2.99、3.70和3.93個(gè)百分點(diǎn),這表明內(nèi)部注意力層能夠很好地捕獲文本內(nèi)部的依賴關(guān)系,極大地提高模型的情感分類性能。

另外,通過表4中Model-B與Model-C、Model-D的對(duì)比可以發(fā)現(xiàn),模型Model-C和Model-D在4個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別提高了至少0.30、0.61、0.47和0.64個(gè)百分點(diǎn)。上述結(jié)果表明,本文提出的內(nèi)部注意力層的并行層次組合方法,包括連續(xù)層次組合模型和間隔層次組合模型,能夠獲得單層結(jié)構(gòu)無法捕獲的額外信息,比僅使用最后一層內(nèi)部注意力層的模型性能更好。

為研究外部注意力層對(duì)模型性能的影響,本文在內(nèi)部注意力層使用連續(xù)層次組合策略的前提下針對(duì)外部注意力層進(jìn)行了實(shí)驗(yàn)分析。實(shí)驗(yàn)結(jié)果如表5所示,實(shí)驗(yàn)設(shè)置了有外部注意力層模型和無外部注意力層模型。通過結(jié)果可以看出,使用外部注意力層的模型性能均優(yōu)于無外部注意力層的模型,在App、Kindle、Electronic和CD這4個(gè)數(shù)據(jù)集上的情感分類準(zhǔn)確率分別提高了1.33、1.47、0.87和1.45個(gè)百分點(diǎn),F(xiàn)1分?jǐn)?shù)分別提高了1.42、1.55、0.96和1.54個(gè)百分點(diǎn)。這些指標(biāo)的提升說明了外部注意力層能夠有效地增強(qiáng)評(píng)論文本中的情感語義信息,有利于提高模型的情感分類性能。

表5外部注意力層的消融實(shí)驗(yàn)結(jié)果 單位:%

Tab.5 Ablation experimental results of external attention layer unit:%

本文模型的外部注意力層也采用了多層次的結(jié)構(gòu),注意力子層數(shù)是影響外部注意力層性能的重要因素。表6為針對(duì)不同注意力子層數(shù)的實(shí)驗(yàn)結(jié)果,其中,Model-N1、Model-N2、Model-N3和Model-N4分別表示外部注意力子層數(shù)分別為1~4的模型。結(jié)果顯示,不同層數(shù)的外部注意力層在4個(gè)數(shù)據(jù)集上的表現(xiàn)不同。具體地,層數(shù)為1~2的模型在4個(gè)數(shù)據(jù)集上的表現(xiàn)更好,對(duì)于App和Electronic數(shù)據(jù)集,Model-N2的準(zhǔn)確率高于Model-N1;對(duì)于Kindle和CD數(shù)據(jù)集則是Model-N1的表現(xiàn)更好。但總體而言,Model-N2在4個(gè)數(shù)據(jù)集上的平均表現(xiàn)要優(yōu)于Model-N1。

表6 外部注意力層的子層數(shù)對(duì)準(zhǔn)確率的影響

另外可以發(fā)現(xiàn),模型的性能并沒有隨著子層數(shù)的增加而進(jìn)一步提高,當(dāng)層數(shù)為3~4時(shí),模型在各數(shù)據(jù)集上的表現(xiàn)均有下降,這可能是因?yàn)楦邔哟蔚耐獠孔⒁饬樵u(píng)論文本引入了過多的噪聲,進(jìn)而影響了模型的情感分類性能。上述結(jié)果表明,外部注意力層數(shù)能夠影響模型性能,針對(duì)不同的數(shù)據(jù)集使用合適的子層數(shù)能夠使模型有效地學(xué)習(xí)評(píng)論和總結(jié)之間的潛在聯(lián)系,進(jìn)而提升模型的性能。

4 結(jié)語

本文提出了一種基于多層次注意力的語義增強(qiáng)情感分類模型。首先,模型通過構(gòu)建上下文感知的動(dòng)態(tài)詞嵌入,能夠更好地對(duì)文本的上下文語義進(jìn)行建模。其次,使用內(nèi)部注意力層和外部注意力層生成文本的隱藏特征表示:內(nèi)部注意力層采用并行的多層次結(jié)構(gòu),引入了連續(xù)層次組合和間隔層次組合兩種策略,用于捕獲文本內(nèi)部的長(zhǎng)期依賴關(guān)系,獲得單層結(jié)構(gòu)無法捕獲的額外信息;外部注意力層利用總結(jié)信息增強(qiáng)評(píng)論文本包含的情感語義信息,外部注意力層也采用了多層次的結(jié)構(gòu),以獲得更精細(xì)的評(píng)論特征表示。最后,使用分類輸出層對(duì)評(píng)論特征進(jìn)行情感分類。在4個(gè)亞馬遜評(píng)論數(shù)據(jù)集上進(jìn)行了多組實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文模型提高了情感分類的性能。本文主要研究情感分析中的情感分類問題,未來將進(jìn)一步研究在其他情感分析任務(wù)中的有效性。此外,本文模型以英語數(shù)據(jù)為基礎(chǔ)開發(fā),但它可以擴(kuò)展到其他語言,我們接下來也會(huì)將研究方向擴(kuò)展到跨語言文本情感分類,驗(yàn)證提出的模型能夠適用于多種語言。

[1] 張公讓,鮑超,王曉玉,等. 基于評(píng)論數(shù)據(jù)的文本語義挖掘與情感分析[J]. 情報(bào)科學(xué), 2021, 39(5): 53-61.(ZHANG G R, BAO C, WANG X Y, et al. Sentiment analysis and text data mining based on reviewing data[J]. Information Science, 2021, 39(5): 53-61.)

[2] HU R, RUI L, ZENG P, et al. Text sentiment analysis: a review [C]// Proceedings of the 2018 IEEE 4th International Conference on Computer and Communications. Piscataway: IEEE, 2018: 2283-2288.

[3] ZHANG S, WEI Z, WANG Y, et al. Sentiment analysis of Chinese micro-blog text based on extended sentiment dictionary[J]. Future Generation Computer Systems, 2018, 81: 395-403.

[4] VIJAYARAGAVAN P, PONNUSAMY R, ARAMUDHAN M. An optimal support vector machine based classification model for sentimental analysis of online product reviews[J]. Future Generation Computer Systems, 2020, 111: 234-240.

[5] WANG Y. Iteration-based naive bayes sentiment classification of microblog multimedia posts considering emoticon attributes[J]. Multimedia Tools and Applications, 2020, 79: 19151-19166.

[6] 趙宏,王樂,王偉杰. 基于BiLSTM-CNN串行混合模型的文本情感分析[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(1): 16-22.(ZHAO H, WANG L, WANG W J. Text sentiment analysis based on serial hybrid model of bi-directional long short-term memory and convolutional neural network[J]. Journal of Computer Applications, 2020, 40(1): 16-22.)

[7] GAN C, FENG Q, ZHANG Z. Scalable multi-channel dilated CNN-BiLSTM model with attention mechanism for Chinese textual sentiment analysis[J]. Future Generation Computer Systems, 2021, 118: 297-309.

[8] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate [EB/OL]. (2016-05-19)[2022-12-22]. https://arxiv.org/pdf/1409.0473.pdf.

[9] DEVLIN J, CHANG M-W, LEE K, et al. BERT: pre-training of deep bidirectional Transformers for language understanding [EB/OL]. (2019-05-24)[2022-08-27]. https://arxiv.org/pdf/1810.04805.pdf.

[10] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [EB/OL]. (2013-10-16)[2022-06-19]. https://arxiv.org/pdf/1310.4546.pdf.

[11] PENNINGTON J, SOCHER R, MANNING C D. GloVe: global vectors for word representation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1532-1543.

[12] PETERS M E, NEUMANN M, IYYER M, et al. Deep contextualized word representations [EB/OL]. (2018-03-02)[2022-04-09]. https://arxiv.org/pdf/1802.05365.pdf.

[13] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [EB/OL]. (2017-06-30)[2022-07-14]. https://arxiv.org/pdf/1706.03762v4.pdf.

[14] RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training [EB/OL]. (2018-06-18)[2022-07-18]. https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.

[15] KHEDR A E, SALAMA S E, YASEEN HEGAZY N. Predicting stock market behavior using data mining technique and news sentiment analysis [J]. International Journal of Intelligent Systems and Applications, 2017, 9(7): 22-30.

[16] NANDAL N, TANWAR R, PRUTHI J. Machine learning based aspect level sentiment analysis for Amazon products [J]. Spatial Information Research, 2020, 28: 601-607.

[17] BUDHI G S, CHIONG R, PRANATA I, et al. Using machine learning to predict the sentiment of online reviews: a new framework for comparative analysis [J]. Archives of Computational Methods in Engineering, 2021, 28: 2543-2566.

[18] KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences [EB/OL]. (2014-04-08)[2022-03-22]. https://arxiv.org/pdf/1404.2188.pdf.

[19] REZAEINIA S M, RAHMANI R, GHODSI A, et al. Sentiment analysis based on improved pre-trained word embeddings[J]. Expert Systems with Applications, 2019, 117: 139-147.

[20] ZHOU J, LU Y, DAI H-N, et al. Sentiment analysis of Chinese microblog based on stacked bidirectional LSTM [J]. IEEE Access, 2019, 7: 38856-38866.

[21] CHATTERJEE A, GUPTA U, CHINNAKOTLA M K, et al. Understanding emotions in text using deep learning and big data[J]. Computers in Human Behavior, 2019, 93: 309-317.

[22] HASSAN A, MAHMOOD A. Convolutional recurrent deep learning model for sentence classification[J]. IEEE Access, 2018, 6: 13949-13957.

[23] BATBAATAR E, LI M, RYU K H. Semantic-emotion neural network for emotion recognition from text[J]. IEEE Access, 2019, 7: 111866-111878.

[24] TAM S, SAID R B, TANRI?VER ? ?. A ConvBiLSTM deep learning model-based approach for Twitter sentiment classification[J]. IEEE Access, 2021, 9: 41283-41293.

[25] LIU G, GUO J. Bidirectional LSTM with attention mechanism and convolutional layer for text classification[J]. Neurocomputing, 2019, 337: 325-338.

[26] LI W, QI F, TANG M, et al. Bidirectional LSTM with self-attention mechanism and multi-channel features for sentiment classification [J]. Neurocomputing, 2020, 387: 63-77.

[27] LIU F, ZHENG J, ZHENG L, et al. Combining attention-based bidirectional gated recurrent neural network and two-dimensional convolutional neural network for document-level sentiment classification [J]. Neurocomputing, 2020, 371: 39-50.

[28] KAMYAB M, LIU G, RASOOL A, et al. ACR-SA: attention-based deep model through two-channel CNN and Bi-RNN for sentiment analysis[J]. PeerJ Computer Science, 2022, 8(4): e877.

[29] ZHU Q, JIANG X, YE R. Sentiment analysis of review text based on BiGRU-attention and hybrid CNN [J]. IEEE Access, 2021, 9: 149077-149088.

[30] McAULEY J, LESKOVEC J. Hidden factors and hidden topics: understanding rating dimensions with review text [C]// Proceedings of the 7th ACM Conference on Recommender Systems. New York: ACM, 2013: 165-172.

[31] BASIRI M E, NEMATI S, ABDAR M, et al. ABCDM: an attention-based bidirectional CNN-RNN deep model for sentiment analysis[J]. Future Generation Computer Systems, 2021, 115: 279-294.

[32] DONG J, HE F, GUO Y,et al. A commodity review sentiment analysis based on BERT-CNN model [C]// Proceedings of the 2020 5th International Conference on Computer and Communication Systems. Piscataway: IEEE, 2020: 143-147.

[33] TAN Z, CHEN Z. Sentiment analysis of Chinese short text based on multiple features [C]// Proceedings of the 2nd International Conference on Computing and Data Science. New York: ACM, 2021: Article No. 65.

[34] ZHANG B, ZHOU W. Transformer-Encoder-GRU (TE-GRU) for Chinese sentiment analysis on Chinese comment text [EB/OL]. (2021-08-01)[2022-11-18]. https://arxiv.org/pdf/2108.00400.pdf.

Semantically enhanced sentiment classification model based on multi-level attention

CAO Jianle, LI Nana*

(,,300401,)

The existing text sentiment classification methods face serious challenges due to the complex semantics of natural language, the multiple sentiment polarities of words, and the long-term dependency of text. To solve these problems, a semantically enhanced sentiment classification model based on multi-level attention was proposed. Firstly, the contextualized dynamic word embedding technology was used to mine the multiple semantic information of words, and the context semantics was modeled. Secondly, the long-term dependency within the text was captured by the multi-layer parallel multi-head self-attention in the internal attention layer to obtain comprehensive text feature information. Thirdly, in the external attention layer, the summary information in the review metadata was integrated into the review features through a multi-level attention mechanism to enhance the sentiment information and semantic expression ability of the review features. Finally, the global average pooling layer and Softmax function were used to realize sentiment classification. Experimental results on four Amazon review datasets show that, compared with the best-performing TE-GRU (Transformer Encoder with Gated Recurrent Unit) in the baseline models, the proposed model improves the sentiment classification accuracy on App, Kindle, Electronic and CD datasets by at least 0.36, 0.34, 0.58 and 0.66 percentage points, which verifies that the proposed model can further improve the sentiment classification performance.

sentiment classification; Natural Language Processing (NLP); word embedding; attention mechanism; neural network

TP391.1

A

1001-9081(2023)12-3703-08

10.11772/j.issn.1001-9081.2022121894

2023?02?01;

2023?03?05;

2023?03?08。

曹建樂(1998—),男,山東濰坊人,碩士研究生,主要研究方向:文本分類、情感分析;李娜娜(1980—),女,河北保定人,副教授,博士,主要研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)。

CAO Jianle, born in 1998, M. S. candidate. His research interests include text classification, sentiment analysis.

LI Nana, born in 1980, Ph. D., associate professor. Her research interests include data mining, machine learning.

猜你喜歡
注意力語義分類
讓注意力“飛”回來
分類算一算
語言與語義
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
敦化市| 开鲁县| 北票市| 调兵山市| 综艺| 西林县| 山阴县| 区。| 修武县| 体育| 东莞市| 河池市| 德钦县| 个旧市| 红原县| 赫章县| 丰顺县| 西林县| 吉隆县| 博罗县| 屏南县| 惠安县| 新晃| 江永县| 泰州市| 西宁市| 武胜县| 大庆市| 富宁县| 神池县| 谷城县| 沁源县| 舞钢市| 中超| 竹溪县| 彭水| 温州市| 抚远县| 台湾省| 陇西县| 琼结县|