国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用于面向目標(biāo)的情感分析的分級(jí)預(yù)測(cè)策略

2021-03-29 03:08:04王衛(wèi)紅
關(guān)鍵詞:極性標(biāo)簽卷積

王衛(wèi)紅,吳 成

(浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310023)

面向目標(biāo)的情感分析的主要任務(wù)是給定句子中的目標(biāo)詞,判斷該目標(biāo)詞在當(dāng)前句子中的情感極性。以句子“the food is good but the service is bad.”為例,在該句子中存在兩個(gè)目標(biāo)詞“food”和“service”,這兩個(gè)目標(biāo)詞在句子中的情感極性分別為正向與負(fù)向,在該任務(wù)上,神經(jīng)網(wǎng)絡(luò)的模型已經(jīng)達(dá)到了較高的準(zhǔn)確率。大部分神經(jīng)網(wǎng)絡(luò)模型都使用了注意力機(jī)制來(lái)捕捉目標(biāo)與上下文的關(guān)系,但是注意力機(jī)制捕捉的詞級(jí)別的特征可能會(huì)引入一些噪音。以“the dish tastes bad but its vegetable is delicious though it looks ugly.”為例,基于注意力機(jī)制的模型會(huì)在“bad”和“ugly”這些詞上分配較大的權(quán)重。可以使用一種分層預(yù)測(cè)的策略來(lái)解決這個(gè)問(wèn)題。將任務(wù)分為兩個(gè)階段:首先給所有的詞分配一個(gè)軟標(biāo)簽來(lái)標(biāo)記該詞作為意見(jiàn)詞的概率,然后將所有標(biāo)記的意見(jiàn)詞的軟標(biāo)簽作為特征來(lái)判斷目標(biāo)的情感極性。由于日常生活中人們語(yǔ)言使用非常自由,目標(biāo)詞的情感詞在前后都可能出現(xiàn),并且隨著語(yǔ)境的變化相同的情感詞有可能表達(dá)不同的情感,因此需要對(duì)詞進(jìn)行靈活的向量嵌入。筆者使用Bert對(duì)該過(guò)程建模,計(jì)算每個(gè)詞的軟標(biāo)簽概率[1]。卷積層在捕捉局部特征上有較好的表現(xiàn)[2],不僅在圖像處理上有很好的效果[3-5],在文本分類上相對(duì)于其他神經(jīng)網(wǎng)絡(luò)效果也較好,因此使用卷積神經(jīng)網(wǎng)絡(luò)提取局部特征。此外,詞語(yǔ)與目標(biāo)詞的距離也是一個(gè)重要特征,離目標(biāo)詞越近越可能是該目標(biāo)的意見(jiàn)詞,因此引入位置權(quán)重來(lái)捕捉該特征。

1 相關(guān)工作

在面向目標(biāo)的情感分析任務(wù)中,以前的方法主要是監(jiān)督學(xué)習(xí)并配合人工特征進(jìn)行訓(xùn)練[6-8],通常忽略上下文信息以及目標(biāo)與上下文的關(guān)系,一些使用該方法的神經(jīng)網(wǎng)絡(luò)模型在該任務(wù)上達(dá)到了較高的準(zhǔn)確率。該方法具有一定的缺陷,比如AE-LSTM和ATAE-LSTM模型[9]僅僅將目標(biāo)詞的向量嵌入與上下文單詞的向量嵌入拼接在一起來(lái)表示目標(biāo)詞與上下文的關(guān)系,都沒(méi)有將目標(biāo)詞與上下文充分聯(lián)系起來(lái)。Bert作為一種預(yù)訓(xùn)練的語(yǔ)言模型,極大地增強(qiáng)了詞語(yǔ)之間的聯(lián)系,使用實(shí)驗(yàn)語(yǔ)料對(duì)Bert進(jìn)行微調(diào),捕捉上下文關(guān)系,可以得到更靈活準(zhǔn)確的向量嵌入。大部分SOTA的模型都使用了注意力機(jī)制來(lái)衡量句子中各單詞的關(guān)系。IAN模型[10]采用了分開(kāi)的兩個(gè)LSTM層[11]和交互式的注意力機(jī)制;Hazarika等[12]使用注意力機(jī)制對(duì)句子內(nèi)的目標(biāo)詞依賴進(jìn)行建模,一次性對(duì)所有的目標(biāo)詞的情感極性進(jìn)行分類;MemNet[13],RAM[14],TRMN[15],IARM[16]等使用句子級(jí)的深度記憶網(wǎng)絡(luò)和多跳注意力機(jī)制將目標(biāo)詞信息整合到句子表示中,其中TRMN和IARM考慮了句子中各目標(biāo)詞之間的關(guān)系信息,著重對(duì)目標(biāo)詞和上下文以及目標(biāo)詞之間的關(guān)系進(jìn)行建模。

考慮到卷積神經(jīng)網(wǎng)絡(luò)在文本分類和目標(biāo)級(jí)情感分類問(wèn)題上表現(xiàn)良好,筆者設(shè)計(jì)的模型采用了卷積神經(jīng)網(wǎng)絡(luò)。GCAE[17]和PG-CNN[18]都是基于卷積神經(jīng)網(wǎng)絡(luò)的模型,使用門機(jī)制對(duì)目標(biāo)詞和上下文進(jìn)行建模。為進(jìn)一步提升建模效果,引入位置權(quán)重對(duì)單詞之間的距離信息進(jìn)行編碼。

2 模型介紹

目標(biāo)級(jí)情感分析的任務(wù)是判別句子中目標(biāo)詞的情感極性,分為正向、中立和負(fù)向。筆者設(shè)計(jì)的模型架構(gòu)如圖1所示。

圖1 模型組織架構(gòu)

該模型由4 部分組成:1) 對(duì)上下文和目標(biāo)詞進(jìn)行向量嵌入的Bert層;2) 基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取器;3) 計(jì)算各單詞軟標(biāo)簽概率的軟標(biāo)簽計(jì)算層;4) 結(jié)合位置權(quán)重和軟標(biāo)簽概率輸出情感極性的情感分類層。為方便起見(jiàn),將一個(gè)句子表示為

s=[w1,w2,…,wn]

(1)

式中wi表示句子的第i個(gè)單詞。

目標(biāo)詞位置表示為

t=[t,t+1,…,t+m-1]

(2)

式中:t≥1;t+m-1≤n,其中m為目標(biāo)詞長(zhǎng)度。

2.1 Bert向量嵌入

自2018年誕生以來(lái),Bert打破了很多自然語(yǔ)言處理任務(wù)的最好效果記錄,因此采用Bert作為預(yù)訓(xùn)練語(yǔ)言模型。在使用Bert進(jìn)行向量嵌入之前,使用SemEval語(yǔ)料的分類任務(wù)為Bert作微調(diào)工作。Bert模型由12 個(gè)Transformer block組成,在堆疊的12 個(gè)模塊中,淺層模塊通常學(xué)習(xí)的是比較基礎(chǔ)的詞語(yǔ)類信息,深層模塊學(xué)習(xí)的是比較抽象的語(yǔ)義信息,分別取倒數(shù)第1~3 層的隱藏向量作為嵌入向量。實(shí)驗(yàn)結(jié)果顯示倒數(shù)第2 層的隱藏向量效果最好,原因可能是倒數(shù)第1 層模塊太靠近下游的訓(xùn)練任務(wù),因此在語(yǔ)義的學(xué)習(xí)上反而不如倒數(shù)第2 層。最終采用倒數(shù)第2 層的隱藏向量作為嵌入的詞向量和卷積層的輸入。

2.2 卷積層特征提取

卷積神經(jīng)網(wǎng)絡(luò)在局部特征提取上相比于其他類型的網(wǎng)絡(luò)(如RNN)通常具有更大優(yōu)勢(shì),因此采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)句局部信息的提取。在卷積核的選擇上,受TextCNN模型啟發(fā),選擇3 種不同大小的卷積核來(lái)提取不同維度的特征,然后將特征拼接后進(jìn)行平均池化操作,最終得到固定大小的卷積層特征,卷積核大小分別為3,4,5。

假設(shè)每種卷積核有d1個(gè)模板,對(duì)于大小為sj的卷積核來(lái)說(shuō),可以用Wconvj∈Rd1×sj×2d′0表示其中的d1個(gè)卷積核模板的集合;用bconvj∈Rd1表示偏置;用xconvj表示卷積后的結(jié)果,計(jì)算式為

(3)

式中:RELU表示非線性的激活函數(shù);°表示點(diǎn)積操作。

將3 個(gè)卷積核的結(jié)果進(jìn)行拼接即為最終的計(jì)算結(jié)果,計(jì)算式為

(4)

最后使用平均池化層計(jì)算htarget為

(5)

2.3 軟標(biāo)簽計(jì)算

在目標(biāo)級(jí)情感分析中,通常做法是通過(guò)上下文信息判斷每個(gè)詞是否為情感詞,然后將判定為情感詞的詞語(yǔ)提取出來(lái)作為最終判斷目標(biāo)詞情感極性的特征。但是,這種以“硬標(biāo)簽”的方式直接判定一個(gè)詞是否為情感詞,會(huì)造成在鏈?zhǔn)椒▌t求導(dǎo)時(shí)出現(xiàn)不可微的點(diǎn),從而不能使用后向傳播方法;同時(shí),由于對(duì)情感詞的錯(cuò)誤判定,在后續(xù)特征提取時(shí)會(huì)造成更大的誤差。筆者通過(guò)引入軟標(biāo)簽來(lái)避免這兩個(gè)問(wèn)題,使用門機(jī)制對(duì)細(xì)胞的歷史信息進(jìn)行過(guò)濾,加強(qiáng)軟標(biāo)簽與目標(biāo)詞的相關(guān)性。

(6)

在上述計(jì)算過(guò)程中有一個(gè)問(wèn)題,就是LSTM單元中存儲(chǔ)的信息可能與目標(biāo)詞的關(guān)系不大。以預(yù)測(cè)“tasty food but the service was dreadful!”中的“service”一詞的情感極性為例,將整句話輸入LSTM層之后,有可能會(huì)由于“tasty”一詞從而將整句的情感極性簡(jiǎn)單地預(yù)測(cè)為正面的,而沒(méi)有考慮到“service”目標(biāo)詞的相關(guān)極性。筆者嘗試通過(guò)引入門機(jī)制來(lái)解決這個(gè)問(wèn)題,門機(jī)制可以根據(jù)歷史信息和當(dāng)前詞與目標(biāo)詞的關(guān)系對(duì)當(dāng)前細(xì)胞的歷史信息進(jìn)行過(guò)濾。其計(jì)算式為

(7)

式中Wg∈Rd′1×d′1為權(quán)重矩陣。

為加重目標(biāo)詞的影響力,將其信息加入到LSTM的輸入中,計(jì)算式為

(8)

式中:WD∈Rd′1為權(quán)重參數(shù);li-1為第i-1個(gè)單詞的情感詞概率。

為防止LSTM輸入的向量維度過(guò)大,將目標(biāo)詞向量與詞向量增加一個(gè)額外的運(yùn)算操作。在得到LSTM層的輸出之后,當(dāng)前詞的情感詞概率的計(jì)算式為

(9)

式中ei=1,表示當(dāng)前詞相對(duì)于當(dāng)前的目標(biāo)詞為情感詞。

2.4 情感分類

最后的模塊模型采用全連接層作為分類器??紤]到情感詞與目標(biāo)詞之間的位置關(guān)系對(duì)情感判定的影響,給模型引入額外的特征,即相對(duì)位置權(quán)重。一般來(lái)說(shuō),離目標(biāo)詞越近,越能用于判斷目標(biāo)詞的情感極性,基于這種考慮,筆者設(shè)計(jì)的位置權(quán)重為

(10)

式中β表示用來(lái)控制由與目標(biāo)詞的距離引起的位置權(quán)重的衰減速率。

將詞概率與位置權(quán)重相結(jié)合,對(duì)上下文和相對(duì)位置特征進(jìn)行整合,計(jì)算式為

ci=li×posi

(11)

進(jìn)一步將詞向量進(jìn)行整合,預(yù)測(cè)目標(biāo)詞的情感極性,計(jì)算式為

(12)

訓(xùn)練過(guò)程中使用的損失函數(shù)為

(13)

式中:T為訓(xùn)練數(shù)據(jù)數(shù)量;yi為樣本i的真實(shí)標(biāo)簽,是一個(gè)獨(dú)熱向量;pi,j表示樣本i預(yù)測(cè)為極性j的概率;γ‖θ‖2為L(zhǎng)2正則化損失。

3 實(shí)驗(yàn)結(jié)果

3.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)使用的數(shù)據(jù)集是SemEval2014中的任務(wù)4,數(shù)據(jù)集為L(zhǎng)aptop以及Restaurant,其統(tǒng)計(jì)數(shù)據(jù)如表1所示,評(píng)論分成3 個(gè)情感極性,即正向、中立和負(fù)向。

表1 數(shù)據(jù)集統(tǒng)計(jì)分布

實(shí)驗(yàn)中,首先用SemEval的分類任務(wù)對(duì)Bert進(jìn)行微調(diào),然后取Bert倒數(shù)第2 層的隱向量作為模型的嵌入向量,卷積核大小分別為3,4,5,每個(gè)卷積核有128 個(gè)過(guò)濾器。LSTM的輸出是400 維,卷積層的輸出是384 維。模型中使用了Adam進(jìn)行梯度下降優(yōu)化,學(xué)習(xí)速率設(shè)置為0.003,batchsize設(shè)置為128。為了防止過(guò)擬合,設(shè)置dropout的概率為0.5,L2正則的參數(shù)為0.000 01,用來(lái)調(diào)節(jié)位置權(quán)重的超參數(shù)β為40。

3.2 模型結(jié)果比較

將筆者設(shè)計(jì)的模型與之前的SOTA模型進(jìn)行比較。其他模型信息為

1) GCAE模型,該模型基于卷積神經(jīng)網(wǎng)絡(luò),使用門控Tanh-RELU單元控制信息流,對(duì)目標(biāo)和上下文進(jìn)行建模。

2) PG-CNN模型,該模型使用CNN作為基礎(chǔ)架構(gòu),并使用門控機(jī)制來(lái)將目標(biāo)信息編碼進(jìn)CNN結(jié)構(gòu)中。

3) Hazarika模型,該模型使用雙層LSTM結(jié)構(gòu)對(duì)目標(biāo)詞之間的依賴進(jìn)行檢測(cè),用注意力機(jī)制對(duì)句子中的所有目標(biāo)詞進(jìn)行一次性分類輸出。其中雙層LSTM設(shè)計(jì)如下:首先,第1 層LSTM基于句子中的每個(gè)目標(biāo)詞對(duì)整句信息進(jìn)行編碼,其具體做法是將中間層中具有上下文信息的單詞嵌入進(jìn)行提取,將這些單詞的向量進(jìn)行簡(jiǎn)單拼接,輸入LSTM,得到整句的編碼向量;然后,將第1 層的輸出作為第2 層的LSTM的輸入來(lái)捕捉目標(biāo)詞之間的依賴信息。

4) Memnet模型,該模型使用了多跳注意力機(jī)制。具體做法是:將目標(biāo)詞的向量嵌入作為注意力模塊第1 層的詢問(wèn),并將注意力計(jì)算結(jié)果與目標(biāo)詞的線性變換相加作為中間記憶,然后進(jìn)一步作為詢問(wèn)參與下一層的注意力計(jì)算。注意力機(jī)制最后一層的計(jì)算結(jié)果作為情感極性的向量表示,用來(lái)進(jìn)行分類。

5) RAM模型,與Memnet類似,該模型也使用了多跳注意力機(jī)制,但是在計(jì)算中間記憶時(shí)加入了位置權(quán)重來(lái)對(duì)句子中的特征進(jìn)行提取。

6) IARM模型,該模型混合使用了循環(huán)記憶網(wǎng)絡(luò)與注意力機(jī)制。構(gòu)建記憶網(wǎng)絡(luò)的方法類似于Hazarika的模型的第1 層LSTM,使用基于目標(biāo)詞信息對(duì)整句進(jìn)行編碼,使用記憶網(wǎng)絡(luò)對(duì)目標(biāo)詞之間的依賴來(lái)進(jìn)行建模,而不是像Hazarika使用的LSTM。

在以上模型中,除了GCAE和PG-CNN,其他模型都采用了注意力機(jī)制對(duì)目標(biāo)詞和上下文進(jìn)行建模。注意力機(jī)制雖然能較好地捕捉到情感詞,但是沒(méi)有充分考慮各個(gè)詞位置之間的關(guān)系,從而混淆了目標(biāo)詞的真實(shí)情感極性。根據(jù)歷史信息對(duì)每一步的單詞單獨(dú)估計(jì)其作為情感詞的概率,并且額外引入相對(duì)位置權(quán)重衡量每個(gè)情感詞對(duì)目標(biāo)詞的貢獻(xiàn)。Memnet,RAM和IRAM模型是基于記憶網(wǎng)絡(luò)進(jìn)行設(shè)計(jì)的,僅僅提取了句子級(jí)別的特征,沒(méi)有考慮單個(gè)詞對(duì)目標(biāo)情感極性的貢獻(xiàn),也就失去了情感詞的信息。利用上下文歷史信息對(duì)每個(gè)單詞的情感詞概率進(jìn)行建模,充分利用了情感詞的信息?;诰矸e構(gòu)建了GCAE和PG-CNN的模型,但是這兩個(gè)模型的表現(xiàn)并不出色,其主要原因是原始的卷積層傾向于捕捉整個(gè)句子中最重要的特征,而不是尋找與目標(biāo)詞相關(guān)的特征。直觀上離目標(biāo)詞越近的詞與目標(biāo)詞的關(guān)系越密切,因此筆者設(shè)計(jì)了相對(duì)位置權(quán)重公式。通過(guò)以上策略對(duì)模型進(jìn)行改進(jìn),效果對(duì)比如表2所示。

表2 各模型結(jié)果比較

3.3 模塊分析

為估計(jì)各模塊對(duì)模型的貢獻(xiàn),對(duì)模型中相應(yīng)的模塊進(jìn)行移除操作或使用常用模型替代,觀察其最終效果,效果對(duì)比如表3所示。

表3 模型模塊分析對(duì)比

相比于之前的模型,筆者設(shè)計(jì)的模型使用了基于歷史信息的軟標(biāo)簽方法。注意力機(jī)制將目標(biāo)詞作為詢問(wèn)來(lái)計(jì)算其與上下文的關(guān)系,基于歷史信息即之前的軟標(biāo)簽概率和細(xì)胞狀態(tài)計(jì)算當(dāng)前軟標(biāo)簽概率。為進(jìn)一步評(píng)估軟標(biāo)簽方法的效果,用注意力機(jī)制替代了該模塊。結(jié)果顯示:使用注意力機(jī)制的模型在Restaurant和Laptop這兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別下降了1.55%和0.75%,Marco-F1則分別下降了2.21%和1.75%,說(shuō)明采用軟標(biāo)簽的方法是有效的。筆者也采用硬標(biāo)簽機(jī)制替換軟標(biāo)簽機(jī)制進(jìn)行效果評(píng)估。在硬標(biāo)簽機(jī)制中,一個(gè)詞只能作為情感詞或非情感詞處理,標(biāo)簽值非0即1。軟標(biāo)簽機(jī)制以0和1的概率來(lái)表示當(dāng)前詞作為情感詞的概率,處理方式更為靈活。實(shí)驗(yàn)結(jié)果表明使用軟標(biāo)簽相比于硬標(biāo)簽對(duì)實(shí)驗(yàn)效果有著巨大的提升。

筆者也測(cè)試了不使用歷史信息和位置權(quán)重的模型的效果。不使用歷史信息是指不將前一時(shí)間步的軟標(biāo)簽信息和細(xì)胞狀態(tài)作為當(dāng)前時(shí)間步的輸入,僅僅使用隱層的權(quán)值矩陣來(lái)計(jì)算當(dāng)前時(shí)間步軟標(biāo)簽的概率。結(jié)果表明:不使用歷史信息,模型在兩個(gè)數(shù)據(jù)集的準(zhǔn)確率分別下降了1.89%和0.62%,說(shuō)明歷史信息在模型中起著重要作用;不使用位置權(quán)重,模型在兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別下降了0.69%和0.55%,說(shuō)明位置權(quán)重對(duì)于模型效果也有著明顯的提升作用。

4 結(jié) 論

提出了一種基于計(jì)算情感詞概率的分層策略來(lái)完成目標(biāo)級(jí)情感分析任務(wù),通過(guò)3 個(gè)途徑提高了該任務(wù)的識(shí)別效果:1) 軟標(biāo)簽的使用;2) 歷史信息的有效利用;3) 相對(duì)位置權(quán)重的嵌入。在SemEval2014上的實(shí)驗(yàn)結(jié)果表明:筆者設(shè)計(jì)的模型相比Memnet、RAM和IARM等SOTA模型有一定提高。該模型存在的不足是:在實(shí)際工作中,同一個(gè)情感詞在不同的上下文環(huán)境中有時(shí)有著不同的語(yǔ)義,會(huì)導(dǎo)致模型錯(cuò)判目標(biāo)的情感極性,下一步的工作將解決這個(gè)問(wèn)題。

猜你喜歡
極性標(biāo)簽卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
跟蹤導(dǎo)練(四)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
標(biāo)簽化傷害了誰(shuí)
表用無(wú)極性RS485應(yīng)用技術(shù)探討
一種新型的雙極性脈沖電流源
基于多進(jìn)制查詢樹(shù)的多標(biāo)簽識(shí)別方法
麻江县| 英吉沙县| 如皋市| 谷城县| 莱西市| 庆云县| 鹤岗市| 永清县| 绵竹市| 东安县| 松桃| 蚌埠市| 宽城| 枣庄市| 永寿县| 泰州市| 嘉祥县| 防城港市| 通河县| 嘉鱼县| 正安县| 西充县| 小金县| 个旧市| 西藏| 新源县| 于田县| 舟曲县| 渝北区| 长汀县| 阿尔山市| 商丘市| 虹口区| 太原市| 宜城市| 永年县| 大田县| 开封市| 余干县| 凤台县| 南汇区|