国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

注意力機(jī)制在評(píng)論文本情感分析中的應(yīng)用研究

2020-07-15 05:01:44申靜波李井輝孫麗娜
關(guān)鍵詞:注意力權(quán)重向量

申靜波,李井輝,孫麗娜

(東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)

0 引 言

情感分析是自然語(yǔ)言處理NLP領(lǐng)域最受歡迎的應(yīng)用之一,挖掘出來(lái)的情感信息可以反映發(fā)布者當(dāng)時(shí)的情感狀態(tài),在個(gè)性化推薦、輿情控制、基于社會(huì)調(diào)查的政策制定等方面蘊(yùn)含著極大的應(yīng)用價(jià)值[1-2]。利用情感極性,即情緒的正值或負(fù)值量化,判定文本情感傾向并抓住文本情感趨勢(shì)[3-4]。LSTM[5-7]應(yīng)用于情感分析領(lǐng)域,結(jié)合Word2Vec詞嵌入技術(shù)[8]來(lái)進(jìn)行實(shí)驗(yàn)可取得不錯(cuò)的情感分類(lèi)效果。注意力機(jī)制最早是在計(jì)算機(jī)視覺(jué)領(lǐng)域被提出的,應(yīng)用在圖像處理任務(wù)中,其目的是利用注意力機(jī)制的特征針對(duì)性使網(wǎng)絡(luò)模型在訓(xùn)練時(shí)重點(diǎn)關(guān)注重要信息。傳統(tǒng)的Seq2Seq模型是不含注意力機(jī)制的解碼-編碼模型,模型訓(xùn)練過(guò)程中只利用唯一的背景變量,效果不明顯[9]。文中介紹了應(yīng)用于機(jī)器翻譯任務(wù)的編碼-解碼器的工作原理,同時(shí)揭示了其生成的固定長(zhǎng)度的背景變量在長(zhǎng)序列文本處理中的局限。而注意力機(jī)制是從編碼-解碼器的內(nèi)部表征結(jié)構(gòu)中衍生出來(lái)的一種方法,注意力機(jī)制可以有選擇地關(guān)注輸出與輸入樣本的相關(guān)性[10-11]。文中引入注意力機(jī)制與神經(jīng)網(wǎng)絡(luò)相結(jié)合,處理文本分類(lèi)問(wèn)題,不但降低了高維數(shù)據(jù)的計(jì)算難度,而且直觀地表現(xiàn)出了分類(lèi)結(jié)果與相關(guān)極性詞語(yǔ)的關(guān)聯(lián)性,提升了實(shí)驗(yàn)的準(zhǔn)確率。

1 注意力機(jī)制方法研究

1.1 Seq2Seq模型

注意力機(jī)制在解決序列學(xué)習(xí)任務(wù)上有巨大的提升意義。與循環(huán)神經(jīng)網(wǎng)絡(luò)不同,RNN的輸入是不定長(zhǎng)序列,而輸出為定長(zhǎng)序列,例如情感分類(lèi)模型的詞語(yǔ)。然而注意力機(jī)制的提出最早應(yīng)用于機(jī)器翻譯工作中,機(jī)器翻譯的輸入是不定長(zhǎng),輸出也是不定長(zhǎng)的[12]。最典型的模型為編碼-解碼模型,該模型的實(shí)質(zhì)結(jié)構(gòu)是兩個(gè)RNN網(wǎng)絡(luò)的鏈接。一個(gè)RNN模型作為編碼器,將輸入的不定長(zhǎng)序列轉(zhuǎn)化為定長(zhǎng)的背景向量c,這個(gè)背景向量相當(dāng)于整個(gè)模型的隱藏層的輸出;另一個(gè)RNN模型作為解碼器,它的作用是接受編碼器產(chǎn)生的背景向量,同時(shí)結(jié)合之前生成的歷史信息生成當(dāng)前時(shí)刻的單詞[13]。結(jié)構(gòu)示意圖如圖1所示。

圖1 Seq2Seq模型結(jié)構(gòu)

y1=f(c)

(1)

y2=f(c,y1)

(2)

yt=f(c,y1,y2)

(3)

1.2 自注意力機(jī)制

注意力機(jī)制的基本功能可以理解為,當(dāng)人們?cè)谟^察一樣?xùn)|西的時(shí)候,不可能將這個(gè)東西的全部特征同時(shí)記載下來(lái),而關(guān)注點(diǎn)只在當(dāng)前觀察的東西的每一個(gè)局部?;蛘哒f(shuō),當(dāng)人們的視線(xiàn)在轉(zhuǎn)移的同時(shí)注意力也在發(fā)生轉(zhuǎn)移,這就意味著當(dāng)人們觀察某個(gè)物品或者是某個(gè)背景,該目標(biāo)內(nèi)的每一處空間位置上的注意力分布是不一樣的。將注意力機(jī)制引入到自然語(yǔ)言處理任務(wù)中時(shí),可以理解為,當(dāng)人們?nèi)ッ枋鲆患虑榛蛘咿D(zhuǎn)述一個(gè)消息的時(shí)候,最先表達(dá)的單詞和句子正是這件事情中某個(gè)片段的最相關(guān)部分[14]。針對(duì)Seq2Seq模型只依賴(lài)于唯一一個(gè)背景向量的局限及軟注意力機(jī)制的編碼解碼結(jié)構(gòu)一般是應(yīng)用在機(jī)器翻譯、圖像標(biāo)注和語(yǔ)音識(shí)別上,這種任務(wù)對(duì)應(yīng)的輸入和輸出都是序列,并表示了輸入輸出之間的相似對(duì)齊模型。但是對(duì)于文本情感分析這種只有輸入是序列而輸出是二分類(lèi)的任務(wù)來(lái)說(shuō),編碼解碼結(jié)構(gòu)是不適應(yīng)的,為此,對(duì)于所需的任務(wù)引入自注意力機(jī)制(self attention)。

抽象地介紹自注意力機(jī)制的本質(zhì)思想:將輸入序列Source中的構(gòu)成元素拆分為即關(guān)鍵詞和有用信息的二元組表示,并將此刻的查詢(xún)?cè)豎uery看作是Source中的某個(gè)詞。此刻將進(jìn)行Query對(duì)Source的相似度計(jì)算,得到每一個(gè)關(guān)鍵詞對(duì)有用信息的相關(guān)性權(quán)重系數(shù),然后對(duì)于得到的有用信息即Value進(jìn)行加權(quán)求和計(jì)算:

f(xi,xj)=WTσ(W1*xi+W2*xj)

(4)

(5)

其中,xj表示Query查詢(xún)序列,xi表示t時(shí)刻與xj呈對(duì)齊關(guān)系的Source源句中的單詞,f(xi,xj)表示對(duì)應(yīng)關(guān)系的相似度,也就是注意力機(jī)制的權(quán)重。自注意力機(jī)制的結(jié)構(gòu)如圖2所示。

圖2 自注意力機(jī)制結(jié)構(gòu)

圖中Query查詢(xún)序列就代表了Source源句中的單詞,并對(duì)句子中的每個(gè)詞計(jì)算相關(guān)性。自注意力機(jī)制可以捕獲同一句子中單詞之間的一些語(yǔ)義語(yǔ)法的相關(guān)性依賴(lài)關(guān)系,它解決了LSTM按序列逐步計(jì)算的局限。對(duì)于LSTM來(lái)說(shuō),遠(yuǎn)距離相互依賴(lài)特征要經(jīng)過(guò)若干時(shí)間步的信息累積才能將兩者聯(lián)系起來(lái),顯然距離越遠(yuǎn),有效捕捉可能性越小。而自注意力機(jī)制在計(jì)算過(guò)程中會(huì)直接將句子中的任意兩個(gè)單詞的聯(lián)系通過(guò)一個(gè)計(jì)算步驟直接聯(lián)系起來(lái),所以遠(yuǎn)距離依賴(lài)特征之間的距離被極大地縮短了,有利于有效利用這些特征來(lái)提高情感分類(lèi)的準(zhǔn)確率。

2 基于LSTM方法與注意力機(jī)制的結(jié)合

研究者們發(fā)現(xiàn)注意力機(jī)制的動(dòng)機(jī)主要來(lái)自人類(lèi)對(duì)于語(yǔ)言描述存在的側(cè)重性,在分析文本情感時(shí),需要對(duì)文本語(yǔ)義進(jìn)行理解。以語(yǔ)句“我今天非常高興”為例,可以看出,文本前半段的“我今天”對(duì)本次情感分析的貢獻(xiàn)性較小,因?yàn)椤拔医裉臁边@三個(gè)字(或者是“我”和“今天”構(gòu)成的兩個(gè)詞組)并不傳達(dá)特殊的情感信息。相反,“非常高興”顯然傳達(dá)出強(qiáng)烈的積極情感。因此,分類(lèi)模型應(yīng)該能夠認(rèn)識(shí)到這種表意能力的區(qū)別,為“非常高興”部分添加更大的權(quán)重,在決定分類(lèi)結(jié)果時(shí)重點(diǎn)考慮該部分的激活值。受此啟發(fā),文中提出中文場(chǎng)景下的情感分析對(duì)應(yīng)的注意力機(jī)制。

通過(guò)對(duì)編碼器所有時(shí)間步的隱藏狀態(tài)做加權(quán)求和來(lái)得到背景變量。模型每一時(shí)間步調(diào)整這些權(quán)重,即注意力權(quán)重,從而能夠在不同時(shí)間步分別關(guān)注輸入序列中的不同部分并編碼進(jìn)相應(yīng)時(shí)間步的背景變量。文中設(shè)計(jì)的LSTM模型與注意力機(jī)制的結(jié)合示意圖如圖3所示。

圖3 LSTM中的注意力機(jī)制示意圖

注意力機(jī)制整體設(shè)計(jì)如下:

(1)計(jì)算背景變量。首先,模型根據(jù)時(shí)間步1的隱藏狀態(tài)及其在各個(gè)時(shí)間步的隱藏狀態(tài)計(jì)算一個(gè)softmax 運(yùn)算的輸入。然后,softmax運(yùn)算輸出該概率分布并對(duì)模型各個(gè)時(shí)間步的隱藏狀態(tài)做加權(quán)求和,從而得到背景變量,加權(quán)求和公式如下:

(6)

其中,c為背景變量,α為權(quán)重,h為原隱含層狀態(tài)。

(2)更新隱藏層的狀態(tài)。在得到背景變量后,利用其對(duì)隱藏層的狀態(tài)進(jìn)行更新,提出將隱藏層的狀態(tài)修改為:

(7)

上式中的忘記門(mén)、更新門(mén)和候選隱含狀態(tài)分別被更新為:

r{t'}=σ(w{yr}y{t'-1}+w{sr}s{t'-1}+w{cr}c{t'-1}+br)

(8)

z{t'}=σ(w{yz}y{t'-1}+w{sz}s{t'-1}+w{cz}c{t'}+bz)

(9)

w{cs}ct'+bs)

(10)

其中,W和b分別為L(zhǎng)STM中門(mén)控循環(huán)單元的權(quán)重和偏置參數(shù)。

LSTM具有序列中每個(gè)字的輸出向量。使用LSTM的最常用方法是將序列中最后一個(gè)單詞的輸出向量作為整個(gè)序列的表示。

(3)只需使用最后一個(gè)單詞的向量提供了一種將可變長(zhǎng)度序列轉(zhuǎn)換為固定長(zhǎng)度向量的簡(jiǎn)單方法。易于使用密集層進(jìn)行分類(lèi)等。

由此可見(jiàn),財(cái)務(wù)會(huì)計(jì)在保障企業(yè)經(jīng)濟(jì)收益方面發(fā)揮著非常重要的作用。供水企業(yè)為了保障自身的經(jīng)濟(jì)效益,并且獲得長(zhǎng)期可持續(xù)的發(fā)展,就應(yīng)該加強(qiáng)財(cái)務(wù)會(huì)計(jì)管理工作,通過(guò)改變老舊的管理理念,不斷順應(yīng)變化的市場(chǎng)環(huán)境的需求。并且還應(yīng)該對(duì)資金進(jìn)行合理的安排,同時(shí)也確保資金的使用合理有效,以此來(lái)實(shí)現(xiàn)增值企業(yè)資產(chǎn)的目的。

(4)假定遞歸神經(jīng)網(wǎng)絡(luò)使當(dāng)前字的輸出向量取決于序列的先前字。LSTM應(yīng)該將此功能擴(kuò)展到很長(zhǎng)的序列。因此最后一個(gè)字的輸出矢量編碼來(lái)自整個(gè)序列的信息。

實(shí)際上,將整個(gè)序列中的信息編碼到單個(gè)向量中是不合理的,LSTM也不能為過(guò)多的時(shí)間步保證良好的依賴(lài)性,因?yàn)檫@試圖在有限的空間內(nèi)壓縮過(guò)多的信息??梢酝ㄟ^(guò)如下方式解決這個(gè)問(wèn)題:不使用最后一個(gè)單詞的輸出向量,而是使用所有單詞的輸出向量。然而,這不容易實(shí)現(xiàn),因?yàn)楝F(xiàn)在處理的是一個(gè)可變維數(shù)矩陣而不是固定長(zhǎng)度的矢量,即存在一個(gè)序列的每個(gè)字的向量。因此,更好的方法是基于某些上下文將單詞向量聚合成固定長(zhǎng)度向量。以圖2中神經(jīng)機(jī)器翻譯的例子來(lái)更好地理解,其中位置t處的譯文取決于輸入序列的所有輸出矢量的聚合。通過(guò)這種方式,網(wǎng)絡(luò)可以選擇哪些單詞是重要的,并且僅使用來(lái)自那些單詞的信息來(lái)構(gòu)造固定長(zhǎng)度向量。

注意力模型是進(jìn)行上述將神經(jīng)網(wǎng)絡(luò)隱層的輸出聚合的一種方式。它提供了一種方法,用于根據(jù)某些上下文將每個(gè)單詞的輸出向量聚合為單個(gè)向量。

3 基于LSTM方法與注意力機(jī)制的實(shí)驗(yàn)設(shè)計(jì)

LSTM實(shí)際工作機(jī)理是通過(guò)識(shí)別輸入序列對(duì)接受的所有特征進(jìn)行相同的操作,由于這種的無(wú)差別對(duì)待,LSTM模型的輸出結(jié)果不能直觀地體現(xiàn)出每一個(gè)輸入單詞對(duì)于分類(lèi)結(jié)果的重要程度。例如文本情感判斷中,一個(gè)句子中決定情感極性的只是帶有感情色彩的詞語(yǔ),這樣只與特定目標(biāo)相關(guān)的描述信息才是最重要的。針對(duì)文中所要解決的任務(wù),對(duì)于微博評(píng)論文本的情感分類(lèi)進(jìn)行了實(shí)驗(yàn)設(shè)計(jì),使注意力機(jī)制與LSTM相結(jié)合,首先根據(jù)LSTM輸出向量和上下文向量計(jì)算權(quán)重系數(shù),其中第一個(gè)階段根據(jù)LSTM輸出向量和上下文向量計(jì)算兩者的相似性或者相關(guān)性[15];第二個(gè)階段對(duì)第一階段的原始分值進(jìn)行歸一化處理;然后,根據(jù)權(quán)重系數(shù)對(duì)構(gòu)成元素進(jìn)行加權(quán)求和,得到最終的表示。

具體步驟如下:

(1)將LSTM輸出向量與上下文向量混合并得到中間狀態(tài):

e{ij}=f(hi,cj)

(11)

通常,f是具有2個(gè)全連接層的前饋網(wǎng)絡(luò),向量cj表示上下文,hi表示位置i處的詞的LSTM輸出向量。

ut=tanh(Wwe{ij}+bw)

(12)

其中,Ww與bw為Attention的權(quán)重與偏置項(xiàng)。

(3)計(jì)算每個(gè)單詞向量hi的權(quán)重,經(jīng)過(guò)softmax進(jìn)行歸一化就得到了符合概率分布取值區(qū)間的注意力分配概率分布數(shù)值(也就是注意力權(quán)重),這對(duì)應(yīng)著不同的源句子單詞的注意力分配概率分布:

(13)

這里,每個(gè)單詞將有n個(gè)中間狀態(tài),中間狀態(tài)的softmax操作為每個(gè)單詞向量生成權(quán)重,權(quán)重的總和為1(這符合概率分布的特征)。這里的加權(quán)機(jī)制為模型提供了更好的解釋性,可以決定在文本分類(lèi)中哪些詞或句子更重要。

(4)對(duì)構(gòu)成元素加權(quán)求和,計(jì)算最終的固定長(zhǎng)度的向量。用i時(shí)刻的隱層節(jié)點(diǎn)狀態(tài)hi去一一和輸入句子中每個(gè)單詞對(duì)應(yīng)的LSTM隱層節(jié)點(diǎn)狀態(tài)進(jìn)行對(duì)比,獲得向量v和每個(gè)輸入單詞對(duì)應(yīng)的對(duì)齊可能性。定義一個(gè)條件概率如下:

p(yi|y1,y2,…,yi-1,X)=g(yi-1,αi)

(14)

(5)在合并這些輸出向量時(shí),希望可以自適應(yīng)地將注意力集中在那些對(duì)當(dāng)前任務(wù)更重要的向量上,也就是給它們都分配一個(gè)權(quán)值,將所有的輸出向量加權(quán)求和。合并后的表示為:

(15)

這里假設(shè)hi為輸出向量,αi為權(quán)值,不同輸出向量的注意力權(quán)重是作為訓(xùn)練的一部分學(xué)習(xí)到的。此項(xiàng)計(jì)算成為網(wǎng)絡(luò)計(jì)算圖的一部分。要學(xué)習(xí)的參數(shù)是函數(shù)f的參數(shù)。在該流程中,計(jì)算每個(gè)上下文cj的注意力,使得到的特征可以更好地表征文本,也使訓(xùn)練出的模型具有更好的表現(xiàn)。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 數(shù)據(jù)集選取

使用斯坦福的大規(guī)模電影評(píng)論數(shù)據(jù)集(Stanford’s large movie review dataset,IMDb[3])作為文本情感分析實(shí)驗(yàn)的數(shù)據(jù)集。該數(shù)據(jù)集從IMDB電影評(píng)論網(wǎng)站收集了50 000條評(píng)論,每部電影不超過(guò)30條評(píng)論。在該數(shù)據(jù)集中,標(biāo)簽為“正面情感”和“負(fù)面情感”的評(píng)論數(shù)量相等,因此隨機(jī)猜測(cè)將產(chǎn)生50%的準(zhǔn)確性。該數(shù)據(jù)集只保留了高度兩極化的評(píng)論,負(fù)面評(píng)價(jià)的得分≤4分,總分為10分,正面評(píng)價(jià)的得分≥7分。中性評(píng)價(jià)不包括在數(shù)據(jù)集中。該數(shù)據(jù)集分為訓(xùn)練和測(cè)試兩個(gè)集合,分別包含25 000條評(píng)論(數(shù)據(jù)來(lái)源:http://www.andrew-maas.net/data/sentiment)。

4.2 注意力機(jī)制引入的實(shí)驗(yàn)結(jié)果分析

注意力機(jī)制的引入是文中對(duì)傳統(tǒng)深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)于情感分析方法的一個(gè)改進(jìn)。注意力機(jī)制的主要目的就是在模型做最后的極性分類(lèi)預(yù)測(cè)時(shí),在重要的句子成分加上權(quán)重,加大對(duì)最后分類(lèi)的預(yù)測(cè)概率的影響因素。在注意力機(jī)制引入的LSTM網(wǎng)絡(luò)結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果如表1所示,表中結(jié)合展示了特征提取兩種方法的對(duì)比。

表1 評(píng)價(jià)標(biāo)準(zhǔn)對(duì)比

%

表中數(shù)據(jù)展示了在微博數(shù)據(jù)集中,文中提出的加入注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)模型的分類(lèi)效果以及準(zhǔn)確率的對(duì)比,可以明顯看出,通過(guò)加入注意力機(jī)制,網(wǎng)絡(luò)可以選擇哪些單詞是重要的,并且僅使用來(lái)自那些單詞的信息來(lái)構(gòu)造固定長(zhǎng)度向量。考慮相關(guān)場(chǎng)景下計(jì)算序列到序列網(wǎng)絡(luò)的注意力的方式,字符序列由編碼器部分轉(zhuǎn)換成矢量(編碼表示),并且解碼器接收該輸入并產(chǎn)生輸出字。這種編碼表示向量只不過(guò)是編碼器中LSTM層的最后隱藏狀態(tài)的輸出。當(dāng)計(jì)算注意力向量時(shí),使用編碼器的所有隱藏狀態(tài)。因此,解碼器可以捕獲某些全局信息,而不僅僅是基于正常網(wǎng)絡(luò)中的一個(gè)隱藏狀態(tài)進(jìn)行推斷,因?yàn)槲闹惺褂昧怂械碾[藏狀態(tài)。

5 結(jié)束語(yǔ)

主要介紹了注意力機(jī)制的作用與應(yīng)用目的,通過(guò)對(duì)不含注意力機(jī)制的傳統(tǒng)Seq2Seq模型的原理講解,以及加入注意力機(jī)制的模型,Soft Attention模型的工作原理的對(duì)比,突出表現(xiàn)隨時(shí)間變化的背景向量對(duì)于生成單詞的貢獻(xiàn)率的不同,并著重引入了Self Attention針對(duì)于只有輸入數(shù)據(jù)的結(jié)構(gòu),對(duì)文中的文本情感分析做出闡述,加入注意力機(jī)制的模型更能表現(xiàn)出輸入詞語(yǔ)對(duì)于輸出詞語(yǔ)的相關(guān)性和重要程度。并通過(guò)與機(jī)器翻譯進(jìn)行對(duì)比,進(jìn)一步解釋了注意力機(jī)制應(yīng)用于分類(lèi)模型的應(yīng)用原理。同時(shí),設(shè)計(jì)了注意力機(jī)制的結(jié)構(gòu),并主要研究了注意力機(jī)制與長(zhǎng)短期記憶模型的結(jié)合方法與算法構(gòu)架的設(shè)計(jì)。

猜你喜歡
注意力權(quán)重向量
向量的分解
讓注意力“飛”回來(lái)
聚焦“向量與三角”創(chuàng)新題
權(quán)重常思“浮名輕”
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
基于公約式權(quán)重的截短線(xiàn)性分組碼盲識(shí)別方法
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線(xiàn)
什邡市| 永康市| 中西区| 正安县| 边坝县| 诸暨市| 措勤县| 葫芦岛市| 丰台区| 玛沁县| 嵊州市| 灌阳县| 张家口市| 永靖县| 澄迈县| 特克斯县| 莱阳市| 南澳县| 安化县| 桂阳县| 海门市| 浦东新区| 枣强县| 西昌市| 崇州市| 新乡市| 西丰县| 武威市| 张家界市| 榆树市| 淅川县| 伊吾县| 封开县| 丁青县| 化德县| 南乐县| 金堂县| 孝感市| 巨野县| 宜阳县| 靖江市|