国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向語義片段結(jié)構(gòu)化自注意力的目標(biāo)情感分析

2022-12-06 10:08:40趙容梅琚生根
關(guān)鍵詞:集上注意力語義

鄧 航,陳 渝,趙容梅,琚生根

1(四川大學(xué) 計(jì)算機(jī)學(xué)院,成都 610000)

2(四川民族學(xué)院 理工學(xué)院,四川 康定 626000)

1 引 言

目標(biāo)情感分析(Targeted Sentiment Analysis,TSA)是方面級情感分析(Aspect-Based Sentiment Analysis,ABSA)的子任務(wù),其主要任務(wù)是判斷在句子中出現(xiàn)的特定目標(biāo)的情感極性(積極、中性和消極),其中目標(biāo)可以是一個詞語或者一個詞組.如圖1所示,“Comfortable bed but the ornament is really ugly.” 就目標(biāo)“bed”而言,情感極性是積極的;而對于目標(biāo)“ornament”而言,情感極性卻是消極的.目標(biāo)情感分析的研究方法主要包括傳統(tǒng)的機(jī)器學(xué)習(xí)方法和基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法.

圖1 目標(biāo)情感分析例子

傳統(tǒng)的機(jī)器學(xué)習(xí)方法將情感分析問題看作為一個文本分類問題,通過構(gòu)造特征工程來分析文本情感(Jiang等人[1];Kiritchenko等人[2];Ding等人[3]).這些方法通過人工可以獲得豐富的情感特征,在特定領(lǐng)域的數(shù)據(jù)集上獲得了比較好的分類效果,但構(gòu)建特征工程會花費(fèi)比較高的人力成本和時(shí)間成本.

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)方法已逐步被基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法超越和取代.其中,循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)被廣泛用于從目標(biāo)和上下文中自動學(xué)習(xí)語義特征,提取嵌入層的隱狀態(tài).(Dong等人[4];Tang等人[5];Chen等人[6];Lin等人[7]).盡管RNN模型大多數(shù)情況下效果都較好,但它們很難進(jìn)行并行化計(jì)算,此外,RNN模型基本上每個訓(xùn)練算法都是隨時(shí)間增加的截?cái)嗟姆聪騻鞑ィ@會影響到模型在較長時(shí)間尺度上捕獲依賴關(guān)系的能力[8].目標(biāo)情感分析的最新進(jìn)展得益于注意力機(jī)制,注意力機(jī)制能成功捕捉特定目標(biāo)與句子中每一個詞的相關(guān)性(Wang等人[9];Yang等人[10];Ma等人[11];Song等人[12]).但由于注意力機(jī)制注重詞與詞之間的關(guān)系,容易造成目標(biāo)與上下文中其他詞語的錯誤搭配,影響最終的精確度,如圖2所示,對于目標(biāo)“ornament”而言,詞語“good”、“comfortable”、“ugly”的權(quán)重是一樣的,并不能確定哪個詞對目標(biāo)的情感分析影響力更大.

圖2 現(xiàn)有模型的注意力權(quán)重分配

由此,本文提出一種融合注意力編碼和結(jié)構(gòu)化自注意力的目標(biāo)情感分析方法來解決上述問題.首先通過注意力編碼網(wǎng)絡(luò)作為編碼器來提取句子、上下文和目標(biāo)三者的隱狀態(tài),通過多頭注意力機(jī)制獲得目標(biāo)與上下文的融合語義特征,并通過結(jié)構(gòu)化自注意力機(jī)制來提取句子語義片段的特征,最后融合各個語義特征,以實(shí)現(xiàn)目標(biāo)情感分析.

本文的主要貢獻(xiàn)如下:

1)使用注意力編碼網(wǎng)絡(luò)作為編碼器提取嵌入層的隱藏狀態(tài),解決了RNN模型作為編碼器存在的問題.

2)融入結(jié)構(gòu)化自注意力,該結(jié)構(gòu)可以將句子表示為多個語義片段,注重目標(biāo)詞與語義片段的關(guān)系,解決了注意力機(jī)制注重詞與詞之間關(guān)系的問題,減少了與目標(biāo)情感分析無關(guān)的噪聲.

2 相關(guān)工作

目標(biāo)情感分析是當(dāng)前自然語言處理領(lǐng)域中的研究熱點(diǎn)之一,它是方面級情感分析的子任務(wù),其主要任務(wù)是判斷在句子中出現(xiàn)的特定目標(biāo)的情感極性.早期工作主要通過基于特征工程的機(jī)器學(xué)習(xí)或構(gòu)建情感詞典的方法來進(jìn)行情感分類.Jiang等人[1]通過基于句子的語法結(jié)構(gòu)來創(chuàng)建多個與目標(biāo)相關(guān)的特征來識別情感極性.Kiritchenko等人[2]使用支持向量機(jī)方法,結(jié)合n-gram和字典等特征,在SemEval 2014數(shù)據(jù)集中實(shí)現(xiàn)了較好的性能.然而傳統(tǒng)的機(jī)器學(xué)習(xí)方法識別情感極性嚴(yán)重依賴于所構(gòu)建的特征工程的質(zhì)量,不能充分捕捉文本的情感信息,并且需要通過人工對文本進(jìn)行預(yù)處理和特征提取,工作量十分龐大.

近年來,傳統(tǒng)機(jī)器學(xué)習(xí)方法已逐步被深度神經(jīng)網(wǎng)絡(luò)的方法超越和取代.Dong等人[4]首次將自適應(yīng)循環(huán)神經(jīng)網(wǎng)絡(luò)用于目標(biāo)情感分析,通過語法分析來獲取句子和方面詞的特征.但該方法強(qiáng)烈依賴于句法關(guān)系、依存樹等外部知識,網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜.Tang等人[5]提出TD-LSTM來擴(kuò)展LSTM模型,使用兩個單向的LSTM模型分別對目標(biāo)詞的左半部分上下文、右半部分上下文進(jìn)行建模,并疊加兩部分的編碼信息,以獲得整個句子的語義特征.Wang等人[9]提出了一種TAE-LSTM,它將目標(biāo)嵌入與單詞表示連接起來,并讓目標(biāo)參與計(jì)算注意力權(quán)重.Chen等人[6]提出RAM,該RAM在雙向LSTM構(gòu)建的記憶上采用多重注意力機(jī)制,并將注意力結(jié)果與門控循環(huán)單元(GRU)非線性結(jié)合.Ma等人[11]提出IAN模型,它通過兩個注意力交互網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)和上下文的語義信息.以上大部分研究都依賴于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為序列編碼器來計(jì)算文本的隱藏語義.然而,RNN模型很難進(jìn)行并行化計(jì)算,且由于RNN模型在較長時(shí)間尺度上捕獲依賴關(guān)系的能力較低,這種基于RNN的方法會忽略遠(yuǎn)處的單詞對目標(biāo)情感的影響.為此,Song等人[12]利用多頭注意力機(jī)制和點(diǎn)卷積變換提出了注意力編碼網(wǎng)絡(luò)來代替循環(huán)神經(jīng)網(wǎng)絡(luò)作為編碼器,解決了上述循環(huán)神經(jīng)網(wǎng)絡(luò)存在的問題.但注意力機(jī)制關(guān)注的是詞與詞之間的關(guān)系,而不是目標(biāo)與語義片段之間的關(guān)系,難免會將更大的注意力權(quán)重分配給不相關(guān)的單詞.為此,Zhang等人[13]提出模型分析(如注意力機(jī)制)的基本單位應(yīng)該是語義片段而非單詞,提出了針對對象的語義片段注意力機(jī)制,來提升目標(biāo)情感分析的效果.

3 本文方法

給定句子的序列S={w1,w2,…,wt-1,wt,…,wt+m,wt+m+1,…,wn},目標(biāo)的序列為T={wt,…,wt+m},上下文的序列為C={w1,w2,…,wt-1,wt+m+1,…,wn}.本文的任務(wù)是給定特定的目標(biāo)T,根據(jù)其上下文C和句子S來判定目標(biāo)T的情感極性p,其中p∈Q,Q={-1,0,1},分別代表消極情緒、中性情緒和積極情緒.

圖3展示出了本文模型的整體架構(gòu),它主要由嵌入層、注意力編碼層、注意力交互層和輸出層組成.

圖3 模型整體框架圖

3.1 嵌入層(Embedding Layer)

3.2 注意力編碼層(Attentional Encoder Layer)

在目標(biāo)情感分析領(lǐng)域,大多數(shù)研究都使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型對文本進(jìn)行建模,以獲得輸入文本的隱藏狀態(tài).受Song等人[12]的啟發(fā),本文采用其提出的注意力編碼網(wǎng)絡(luò)用于提取文本的隱藏特征,注意力編碼網(wǎng)絡(luò)包括兩個子模塊:多頭注意力(Multi-Head Attention,MHA)和逐點(diǎn)卷積變換(Point-wise Convolution Transformation,PCT).注意力編碼網(wǎng)絡(luò)是RNN作為編碼層的一種可并行化計(jì)算的替代方案,可應(yīng)用于計(jì)算嵌入層輸入的隱藏狀態(tài).

3.2.1 多頭注意力(Multi-Head Attention,MHA)

注意力機(jī)制在機(jī)器翻譯任務(wù)中得到了廣泛的應(yīng)用,其定義如式(1)所示.

(1)

多頭注意力機(jī)制是利用多個查詢,來并行化執(zhí)行多個注意力函數(shù),最早由Vaswani等人[15]提出,如圖4所示.多頭注意力機(jī)制是指對Query,Key,Value進(jìn)行不同的線性變換,每次線性變換使用的是不同的參數(shù)矩陣W,然后計(jì)算Query和Key之間的相似性,這是一個重復(fù)多次的過程,最后將結(jié)果拼接起來.多頭注意力機(jī)制的計(jì)算公式如式(2)、式(3)所示.

圖4 多頭注意力機(jī)制的結(jié)構(gòu)圖

headi=attention(QWq,KWk,VWv)

(2)

MHA(Q,K,V)=concat(head1,…,headh)

(3)

其中,W是權(quán)重參數(shù)矩陣,Wq∈dh×dq,Wk∈dh×dk,Wv∈dh×dv,h表示的是多頭數(shù)量.

Intra-MHA:是一種多頭的自注意力機(jī)制.自注意力機(jī)制是一種特殊的注意力機(jī)制,自注意力機(jī)制是對序列本身的注意力處理,即Query=Key.在得到嵌入層輸出的句子詞向量es、上下文詞向量ec的基礎(chǔ)上,通過多頭自注意力機(jī)制,可分別得到句子和上下文的語義特征表示.計(jì)算過程如式(4)和式(5)所示.

(4)

(5)

Inter-MHA:是一種通用的多頭注意力機(jī)制,與Intra-MHA不同,Inter-MHA的Query并不等于Key.在此模塊中,Query是上下文詞向量ec,而Key是目標(biāo)詞向量et.上下文和目標(biāo)的融合語義特征可以通過公式(6)計(jì)算獲得.

(6)

3.2.2 逐點(diǎn)卷積變換(PCT)

序列神經(jīng)網(wǎng)絡(luò)模型(例如RNN)下一時(shí)刻的輸出依賴于前一時(shí)刻的輸出,全局信息可以被逐步捕獲.注意力機(jī)制雖然可以捕獲全局文本信息,并直接成對比較文本序列,然而注意力機(jī)制沒有考慮文本的順序關(guān)系.逐點(diǎn)卷積變換(Point-wise Convolution Transformation,PCT)可以轉(zhuǎn)換多頭注意力機(jī)制收集的上下文信息.逐點(diǎn)意味著卷積核大小為1,并且對輸入的每個特征都做同樣的轉(zhuǎn)換.給定輸入序列h,PCT的公式如式(7)所示.

(7)

hs=PCT(cs)

(8)

hc=PCT(cc)

(9)

ht=PCT(ct)

(10)

3.3 注意力交互層(Interactive Attention Layer)

在編碼層中分別得到了句子隱狀態(tài)hs、上下文隱狀態(tài)hc和目標(biāo)詞隱狀態(tài)ht.注意力交互層包含兩個子模塊,一個是上文提到的多頭注意力(MHA),其作用是獲得目標(biāo)特定的上下文語義特征.另一個是結(jié)構(gòu)化自注意力(Structured Self-Attention,SS),結(jié)構(gòu)化自注意力的目標(biāo)是提取句子中與目標(biāo)相關(guān)的不同語義片段.

(11)

結(jié)構(gòu)化自注意力(SS):Lin等人[16]提出了一種結(jié)構(gòu)化的自注意力機(jī)制,可以將一個句子表示為多個語義段,將注意力機(jī)制的權(quán)重放在語義片段上而非詞語上,減少引入對目標(biāo)詞情感無關(guān)的噪聲.因此,本文通過引入結(jié)構(gòu)化自注意力機(jī)制來捕獲句子中的語義特征片段,作為判斷目標(biāo)情感極性的基礎(chǔ).SS的公式如式(12)、式(13)所示.

(12)

SS(h)=As(h)·h

(13)

(14)

3.4 輸出層(Output Layer)

(15)

x=(Wo)T·so+bo

(16)

(17)

其中Wo∈1×C是權(quán)重參數(shù),bo∈C是偏置項(xiàng),C是情緒極性的類別數(shù),y∈C是預(yù)測情感極性的分布.

該模型優(yōu)化函數(shù)是L2正則化分類交叉熵?fù)p失函數(shù),定義如式(18)所示,并采用反向傳播算法更新模型的參數(shù)和權(quán)重.

(18)

4 實(shí) 驗(yàn)

4.1 數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

本文提出的模型基于3個通用基準(zhǔn)數(shù)據(jù)集進(jìn)行評估:SemEval 2014 Task4[17]中的餐廳(14Rest)和筆記本(14Lap)評論數(shù)據(jù)集、SemEval 2015 Task12[18]中的餐廳(15Rest)評論數(shù)據(jù)集.數(shù)據(jù)集中的每條數(shù)據(jù)由句子、目標(biāo)詞和目標(biāo)詞的情感極性構(gòu)成,情感極性分為消極、中性和積極,關(guān)于3個數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)信息如表1所示.

表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息

本文采用pytorch深度學(xué)習(xí)框架進(jìn)行實(shí)驗(yàn),編程語言是Python 3.6,操作系統(tǒng)是Ubuntu,用于訓(xùn)練模型的GPU是GeForce RTX3090.本文利用預(yù)訓(xùn)練模型BERT[14]來獲得句子、上下文和目標(biāo)詞的嵌入詞向量,嵌入向量維度設(shè)置為ddim=768.隱狀態(tài)dhid的維度設(shè)置為300,學(xué)習(xí)率設(shè)置為2×10-5,batch-size設(shè)置為16,dropout率設(shè)置為0.3,并使用Adam[19]作為模型的優(yōu)化器來更新模型的參數(shù).

4.2 模型對比實(shí)驗(yàn)

4.2.1 實(shí)驗(yàn)對比模型介紹

為了評估本文提出的模型在這3個數(shù)據(jù)集上的分類效果,本文采用準(zhǔn)確率(accuracy)和宏平均F1值(macro-F1)作為情感預(yù)測的評測指標(biāo).為了進(jìn)一步說明該模型的優(yōu)越性,本文將模型與幾種典型的Baseline模型和近幾年的主流模型進(jìn)行了比較.下面將詳細(xì)描述所有比較模型.

Feature-based SVM[2]:將情感分析視為一個文本分類問題,提出了基于人工特征的支持向量機(jī)方法.

ATAE-LSTM[20]:是一種基于LSTM的模型,直接對句子進(jìn)行編碼,獲取句子特征進(jìn)行情感分類.

MemNet[21]:引入了一個深度記憶網(wǎng)絡(luò)來實(shí)現(xiàn)注意力機(jī)制,以學(xué)習(xí)上下文單詞與方面的相關(guān)性.

IAN[11]:利用兩種基于LSTM的注意力模型以交互方式學(xué)習(xí)上下文和方面特征表示.

TNet-LF[22]:實(shí)現(xiàn)了一種上下文保護(hù)機(jī)制,提出了一個特征變換組件來將實(shí)體信息引入到單詞的語義表示當(dāng)中.

TNet-ATT[23]:是TNet-LF的一個擴(kuò)展,它提供了一種注意力監(jiān)督挖掘機(jī)制來改進(jìn)先前的模型.

ASCNN、ASGCN[24]:使用卷積神經(jīng)網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)來捕獲長期依賴關(guān)系和語法信息.

MCRF-SA[25]:提出了一個簡潔有效的基于多重CRF的結(jié)構(gòu)化注意力模型,該模型能夠提取特定方面的觀點(diǎn)跨度,并根據(jù)提取的意見特征和上下文信息對目標(biāo)的情感極性進(jìn)行分類.

TG-SAN[13]:提出模型分析(如注意力機(jī)制)的基本單位應(yīng)該是語義群(片段)而非單詞,并基于這個想法構(gòu)建了針對對象的語義群注意力機(jī)制.

BERT-SPC[12]:在目標(biāo)情感分析中使用了基本的預(yù)訓(xùn)練模型BERT.

AEN-BERT[12]:提出了一種注意力編碼網(wǎng)絡(luò)來解決RNN不能并行處理的問題,并使用標(biāo)簽平滑規(guī)則技術(shù)來解決標(biāo)簽不可靠的問題.

BERT-WD[26]:該論文采用記憶網(wǎng)絡(luò)的形式將句子的依存句法信息加入到情感分析中,使得模型能夠?qū)W習(xí)依存句法中有用的信息.

4.2.2 實(shí)驗(yàn)對比分析

表2顯示了本文模型與其它基線模型的總體性能比較,在14 Rest、14Lap和15Rest數(shù)據(jù)集上,本文模型所得到的準(zhǔn)確率(Accuracy)分別為84.91%,80.88%,84.37%,宏平均F1值(Macro-F1)分別為78.02%,77.04%,67.60%,該模型的準(zhǔn)確率在14Lap和15Rest數(shù)據(jù)集上取得了最好的結(jié)果,Macro-F1值在14Rest和14Lap數(shù)據(jù)集上取得了最好的結(jié)果.一方面原因是本模型通過注意力編碼網(wǎng)絡(luò)代替常規(guī)的RNN模型對句子、上下文和目標(biāo)詞三者的語義特征進(jìn)行編碼.另一方面原因是本模型并引入了結(jié)構(gòu)化自注意力機(jī)制,將注意力機(jī)制的權(quán)重集中在語義片段上,充分挖掘出了與目標(biāo)詞相關(guān)的情感特征.對比實(shí)驗(yàn)的結(jié)果證實(shí)了本文提出的模型的有效性,可以總結(jié)為如下幾點(diǎn):

表2 模型總體性能對比表(%)

1)本文采用注意力編碼網(wǎng)絡(luò)作為編碼層,比采用RNN模型作為編碼層的方法性能較好.表2中ATAE-LSTM、IAN和ASGCN模型都是基于RNN的模型,其中ASGCN模型用LSTM模型捕獲有關(guān)單詞順序的上下文信息,并在LSTM輸出的頂部實(shí)現(xiàn)了多層圖卷積結(jié)構(gòu).但RNN模型編碼器獲取嵌入詞向量的隱狀態(tài)必須同時(shí)保持在內(nèi)存中,所以此類基于RNN的模型在內(nèi)存優(yōu)化上存在著困難.在14 Rest、14Lap、15Rest數(shù)據(jù)集上,本文模型比ASGCN模型的準(zhǔn)確率分別提高了4.05%,6.74%和5.03%,宏平均F1值分別提高了5.83%,7.8%和6.82%.因此,本文采用的注意力編碼網(wǎng)絡(luò)適合于獲取詞向量的隱狀態(tài).

2)本文采用了結(jié)構(gòu)化自注意力機(jī)制,將注意力機(jī)制的權(quán)重集中在語義片段上,相比于采用普通注意力機(jī)制的方法性能較好.采用注意力機(jī)制的模型中,TNet-LF和TNet-ATT模型的表現(xiàn)是比較好的,這是因?yàn)樗鼈兣p少了使用單層注意力機(jī)制產(chǎn)生的噪聲,這表明了減少注意力機(jī)制產(chǎn)生的無關(guān)噪聲有助于情感分類.如表2中所示,本文提出的模型性能均高于TNet模型,這說明了結(jié)構(gòu)化自注意力能較好地減少與目標(biāo)詞無關(guān)的情感噪聲.

3)在14Rest上的準(zhǔn)確率指標(biāo)和15Rest上的宏平均F1值指標(biāo)上,本文提出的模型略低于BERT-WD模型,這是因?yàn)锽ERT-WD模型引入了外部依賴解析信息,將句子的依存句法信息加入到了情感分析中來.但本文的模型在其他四個指標(biāo)上都高于BERT-WD模型,說明本文模型依然有較高的競爭力.

4)與提出注意力編碼網(wǎng)絡(luò)的AEN-BERT模型相比,該模型的準(zhǔn)確率和Macro-F1值也有顯著的提高,在14Rest、14Lap的數(shù)據(jù)集上,準(zhǔn)確率分別提高了1.79%,0.95%,Macro-F1值分別提高了4.26%,0.73%.與提出模型分析(如注意力機(jī)制)的基本單位應(yīng)該是語義片段的模型TG-SAN相比,在14Rest、14Lap的數(shù)據(jù)集上,準(zhǔn)確率分別提高了3.25%,5.61%,Macro-F1值分別提高了5.43%,5.86%.

綜上所述,對比實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果證實(shí)了本文模型的有效性.

4.3 消融實(shí)驗(yàn)

為了揭示本文模型中組成成分的有效性,本文設(shè)計(jì)了一個消融模型:w/o SS(Structured Self-Attention).該消融模型去除了本文模型中對句子隱狀態(tài)編碼的結(jié)構(gòu)化自注意力機(jī)制,以此模型來驗(yàn)證結(jié)構(gòu)化自注意力機(jī)制的有效性.表3中的Ablations欄報(bào)告了消融模型的結(jié)果.

表3 模型消融實(shí)驗(yàn)對比表(%)

消融模型在3個數(shù)據(jù)集上的準(zhǔn)確率分別為(84.82%,78.37%,82.13%),Macro-F1值分別為(77.15%,73.55%,55.74%),都低于本文模型的準(zhǔn)確率和Macro-F1值,準(zhǔn)確率分別降低了0.09%,2.51%和2.24%,Macro-F1值分別降低了0.87%、3.49%和11.86%.w/o SS消融模型表明了本文使用的結(jié)構(gòu)化自注意力機(jī)制能有效降低與目標(biāo)情感無關(guān)的噪聲,能有效增強(qiáng)模型的性能,提高目標(biāo)情感分析的效果.

4.4 實(shí)驗(yàn)過程分析

本文模型在14Rest、14Lap和15Rest 3個數(shù)據(jù)集上的訓(xùn)練過程如圖5、圖6所示,圖5是模型在驗(yàn)證集上的準(zhǔn)確率曲線圖,圖6是模型在驗(yàn)證集上的Macro-F1值曲線圖.

圖5 驗(yàn)證集上的準(zhǔn)確率曲線圖

圖6 驗(yàn)證集上的Macro-F1值曲線圖

從圖5和圖6中可以看出,模型訓(xùn)練前期的準(zhǔn)確率值和Macro-F1值提升較快,然后不斷地波動尋找局部最優(yōu)值.

4.5 多頭注意力head個數(shù)選擇實(shí)驗(yàn)

多頭注意力機(jī)制(MHA)中包含了多個head的注意力權(quán)重,為了研究不同head數(shù)對多頭注意力機(jī)制的影響,本文分別在14Rest、14Lap和15Rest 3個數(shù)據(jù)集上測試了本文模型在參數(shù)head={2,3,4,5,6,7,8,9,10}時(shí)的性能,評價(jià)指標(biāo)為準(zhǔn)確率.實(shí)驗(yàn)結(jié)果如圖7所示.

圖7 不同head下模型的準(zhǔn)確率

從圖7中可以觀察出,當(dāng)head=8時(shí),模型分別在14Rest和14Lap數(shù)據(jù)集上能得到最高的準(zhǔn)確率(84.91%,80.88%);當(dāng)head=4或者h(yuǎn)ead=5時(shí),模型在15Rest數(shù)據(jù)集上可以得到最高的準(zhǔn)確率84.9%.但head個數(shù)越多并不一定能得到更高的準(zhǔn)確率,在14Rest數(shù)據(jù)集中head數(shù)為9時(shí),模型的準(zhǔn)確率并沒有head數(shù)為8時(shí)高,因?yàn)殡S著head個數(shù)的增加,模型也會變得更加復(fù)雜,模型的泛化能力會降低.因此本文選取head=8時(shí)的模型,其在3個數(shù)據(jù)集上的整體性能相對更好.

4.6 案例研究

本文通過注意力熱力圖來可視化本文模型和消融模型(w/o SS)產(chǎn)生的注意力結(jié)果,單詞的陰影越深,對應(yīng)模型給予的注意力權(quán)重就越高.本節(jié)選取了兩個句子來作為測試實(shí)例,第1個句子為“The[bed]is so good and so comfortable but[ornament]of this room is really ugly”,該句子包括了兩個目標(biāo)詞,分別是“bed”和“ornament”.第2個句子為“The[menu]is interesting and quite reasonable priced”,該句包括了一個目標(biāo)詞“menu”.圖8、圖9和圖10分別展示了本文模型和消融模型在3個不同目標(biāo)詞上的注意力熱力圖.

圖8 目標(biāo)詞“bed”上的注意力熱力圖

圖9 目標(biāo)詞“ornament”上的注意力熱力圖

如圖8所示,對于目標(biāo)詞“bed”而言,本文模型識別了“so good”和“so comfortable”語義片段,并給予了其較高的權(quán)重,消融模型只給了“good”較高的權(quán)重.如圖9所示,對于目標(biāo)“ornament”而言,本文模型給予了“really ugly”較高的權(quán)重,而消融模型不能準(zhǔn)確地確定每個詞與目標(biāo)之間的相關(guān)性,會導(dǎo)致模型對目標(biāo)詞產(chǎn)生錯誤的情感極性預(yù)測.如圖10所示,本文模型給予了“is interesting”和“reasonable priced”較高的權(quán)重,消融模型只給予了“interesting”較高的權(quán)重.可視化熱力圖的結(jié)果表明,消融模型具有較差的發(fā)現(xiàn)語義片段的能力,在注意力分配上也產(chǎn)生了較高的噪聲.本文提出的模型有較強(qiáng)的發(fā)現(xiàn)語義片段的能力,能有效降低與目標(biāo)情感無關(guān)的噪聲,增強(qiáng)了模型的情感分析能力.

圖10 目標(biāo)詞“menu”上的注意力熱力圖

5 總結(jié)與展望

本文提出了一種面向語義片段結(jié)構(gòu)化自注意力的模型,用于對目標(biāo)進(jìn)行情感分析.該模型首先使用注意力編碼網(wǎng)絡(luò)對句子、上下文和目標(biāo)3個語義特征進(jìn)行編碼以獲得隱狀態(tài),解決了上文提到的RNN模型作為編碼器存在的問題.再通過結(jié)構(gòu)化自注意力機(jī)制將注意力權(quán)重集中在語義片段上,減少了無關(guān)噪聲的產(chǎn)生,因此可以更好地獲得跟目標(biāo)相關(guān)的情感特征,最終通過輸出層對目標(biāo)情感進(jìn)行分類.為了驗(yàn)證本文提出的模型的有效性,將本文模型在14Rest、14Lap和15Rest數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),在這3個數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到了84.91%,80.88%,84.37%,宏平均F1值(Macro-F1)分別為78.02%,77.04%,67.60%.實(shí)驗(yàn)結(jié)果表明,對比基線模型,本文提出的模型中取得了較好的結(jié)果,具有一定的應(yīng)用價(jià)值.在未來的工作中,針對目標(biāo)情感分析任務(wù),希望能將對比學(xué)習(xí)融入到此模型當(dāng)中來,以此提高模型預(yù)測目標(biāo)情感極性的效果.

猜你喜歡
集上注意力語義
讓注意力“飛”回來
Cookie-Cutter集上的Gibbs測度
語言與語義
鏈完備偏序集上廣義向量均衡問題解映射的保序性
復(fù)扇形指標(biāo)集上的分布混沌
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
幾道導(dǎo)數(shù)題引發(fā)的解題思考
镇沅| 习水县| 南澳县| 高州市| 凌源市| 合阳县| 临清市| 鹤庆县| 全椒县| 孝感市| 盐边县| 临夏市| 江华| 海伦市| 锡林郭勒盟| 凤凰县| 盐边县| 从化市| 望江县| 运城市| 容城县| 陇西县| 岚皋县| 潞西市| 宜都市| 黑山县| 巧家县| 郎溪县| 江孜县| 新民市| 布拖县| 浑源县| 文登市| 普兰县| 巴彦淖尔市| 名山县| 墨脱县| 泸西县| 开江县| 梓潼县| 汕头市|