尉楨楷 程 夢(mèng) 周夏冰 李志峰 鄒博偉 洪 宇 姚建民
(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇蘇州 215006)(20185227064@stu.suda.edu.cn)
屬性抽取(aspect extraction)是屬性級(jí)情感分析的子任務(wù)之一[1],其目標(biāo)是:對(duì)于用戶評(píng)價(jià)的文本,抽取其中用戶所評(píng)價(jià)的屬性或?qū)嶓w.表1給出了3條評(píng)價(jià)文本樣例,前2條為餐館領(lǐng)域評(píng)價(jià)文本,其中“cheesecake(奶酪蛋糕)”、“pastries(糕點(diǎn))”、“food(食物)”、“dishes(菜肴)”為待抽取的屬性,粗體顯示;最后一條為電腦領(lǐng)域評(píng)價(jià)文本,其中待抽取的屬性為“screen(屏幕)”、“clicking buttons(點(diǎn)擊按鈕)”,粗體表示.
Table 1 Example of User Review
目前,針對(duì)屬性抽取的研究方法主要分為3類:基于規(guī)則的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法.基于規(guī)則的方法依賴于領(lǐng)域?qū)<抑贫ǖ囊?guī)則模板實(shí)現(xiàn)屬性抽取.例如,Hu等人[2]首次提出使用關(guān)聯(lián)規(guī)則實(shí)現(xiàn)屬性抽取,并且只抽取評(píng)論文本中顯式的名詞屬性或名詞短語(yǔ)屬性.Li等人[3]使用依存關(guān)系從影評(píng)中抽取“評(píng)價(jià)對(duì)象-評(píng)價(jià)意見(jiàn)”單元對(duì).Qiu等人[4]利用依存關(guān)系獲得屬性詞與評(píng)價(jià)詞之間的關(guān)系模板,從而根據(jù)屬性詞抽取評(píng)價(jià)詞,根據(jù)評(píng)價(jià)詞抽取屬性詞.以上基于規(guī)則的方法遷移性差,無(wú)法抽取規(guī)則之外的屬性.在基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法中,通常將屬性抽取任務(wù)指定為序列標(biāo)注任務(wù).其中,Jakob等人[5]首次將條件隨機(jī)場(chǎng)(conditional random field, CRF)應(yīng)用于屬性抽取的研究,并融合了多種特征,在屬性抽取的任務(wù)上取得了較好的效果.Xu等人[6]在CRF的基礎(chǔ)上引入淺層句法分析和啟發(fā)式位置特征,在不增加領(lǐng)域詞典的情況下,有效地提高了屬性抽取的性能.然而,基于CRF的模型通常依賴于大量的手工特征,在特征缺失的情況下性能將會(huì)大幅下降.
深度學(xué)習(xí)的方法可以避免大量的手工特征,自動(dòng)學(xué)習(xí)特征的層次結(jié)構(gòu)完成復(fù)雜的任務(wù),在屬性抽取的任務(wù)上取得了優(yōu)異的效果.例如,Liu等人[7]首次將長(zhǎng)短期記憶網(wǎng)絡(luò)(long-short term memory, LSTM)應(yīng)用于屬性抽取任務(wù),與使用大量手工特征的CRF模型相比,該方法取得了更優(yōu)的性能.Toh等人[8]提出將雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional recurrent neural network, Bi-RNN)與CRF相結(jié)合的方法,在2016年SemEval屬性級(jí)情感分析評(píng)測(cè)任務(wù)中性能達(dá)到最優(yōu).
目前,注意力機(jī)制(attention mechanism)已被應(yīng)用于屬性抽取的研究.Wang等人[9]提出一種多任務(wù)注意力模型,將屬性詞和情感詞的抽取與分類進(jìn)行聯(lián)合訓(xùn)練,從而實(shí)現(xiàn)學(xué)習(xí)抽取和分類過(guò)程中的特征共享,進(jìn)而實(shí)現(xiàn)抽取和分類的相互促進(jìn),該模型應(yīng)用的注意力機(jī)制為靜態(tài)注意力機(jī)制.Cheng等人[10]在基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的CRF模型(BiLSTM-CRF)中著重利用門控動(dòng)態(tài)注意力機(jī)制,所使用的注意力機(jī)制為自注意力機(jī)制.BiLSTM-CRF的架構(gòu)[11-13]既捕獲了句子中上下文的分布特征,又有效地利用上下文標(biāo)記預(yù)測(cè)當(dāng)前的標(biāo)記類別,鑒于此本文將BiLSTM-CRF的架構(gòu)作為基線模型.
目前面向?qū)傩猿槿〉淖⒁饬C(jī)制存在2個(gè)局限性.其一,注意力機(jī)制多為全局式注意力機(jī)制(本文將自注意力機(jī)制統(tǒng)稱為全局式注意力機(jī)制),全局式注意力機(jī)制在每個(gè)時(shí)刻(處理每個(gè)目標(biāo)詞項(xiàng)時(shí))將與之距離較遠(yuǎn)且關(guān)聯(lián)不密切的詞分配了注意力權(quán)重.例如,評(píng)論句子“The service is great,but the icecream is terrible.”(譯文:服務(wù)很好,但冰淇淋糟糕),當(dāng)目標(biāo)詞為“service(服務(wù))”時(shí),“terrible(糟糕)”距離目標(biāo)詞“service”較遠(yuǎn)且關(guān)聯(lián)不緊密,若對(duì)“terrible”分配較高的注力權(quán)重,則為目標(biāo)詞“service”的注意力分布向量帶來(lái)噪音.其二,目前面向?qū)傩猿槿〉淖⒁饬C(jī)制多為單層,注意力機(jī)制單層建模后缺少交互性.
針對(duì)上述局限,本文提出面向?qū)傩猿槿〉念惥矸e交互式注意力機(jī)制(convolutional interactive attention, CIA).該注意力機(jī)制在每個(gè)時(shí)刻(處理每個(gè)目標(biāo)詞時(shí))都通過(guò)滑動(dòng)窗口控制目標(biāo)詞的上下文詞的個(gè)數(shù),例如圖1,當(dāng)前時(shí)刻的目標(biāo)詞為“icecream(冰淇淋)”時(shí),在滑動(dòng)窗口內(nèi)計(jì)算“icecream”的注意力分布向量.在此基礎(chǔ)上,再將目標(biāo)詞的注意力分布向量與句中各個(gè)詞進(jìn)行交互注意力計(jì)算,將獲得的交互注意力向量與目標(biāo)詞的注意力分布向量拼接,由此獲得最終的注意力分布向量.
本文提出在BiLSTM-CRF的基礎(chǔ)上著重利用CIA的模型CIA-CRF,CIA-CRF是針對(duì)屬性抽取任務(wù)形成的一種綜合神經(jīng)網(wǎng)絡(luò)和CRF的架構(gòu),在該架構(gòu)中配以一套新型的注意力機(jī)制CIA.總體上,本文的貢獻(xiàn)包含2個(gè)方面:
1) 提出類卷積交互式注意力機(jī)制(即CIA),該注意力機(jī)制分為類卷積注意力層和交互注意力層,旨在解決目前面向?qū)傩猿槿〉娜质阶⒁饬C(jī)制將不相關(guān)的噪音帶入注意力向量的計(jì)算以及注意力機(jī)制缺少交互性的局限.
2) 利用Bi-LSTM對(duì)句中所有的詞提取字符級(jí)特征,將字符級(jí)特征與各自的詞向量拼接,以此獲得含有字符級(jí)特征的詞向量表示.字符級(jí)特征有助于未登錄詞的識(shí)別.
本文在國(guó)際屬性級(jí)情感分析公開(kāi)數(shù)據(jù)集SemEval 2014[1],2015[14],2016[15]上對(duì)CIA-CRF進(jìn)行測(cè)試,在4個(gè)數(shù)據(jù)集上F1值均獲得提升.
與Yu等人[16]方法類似,本文將屬性抽取任務(wù)指定為序列標(biāo)注任務(wù),使用的標(biāo)簽?zāi)J綖锽MESO.對(duì)于包含多個(gè)詞的屬性,B代表屬性的開(kāi)端,M代表屬性的中間,E代表屬性的結(jié)尾;對(duì)于單個(gè)詞的屬性,則用S表示;O統(tǒng)一代表非屬性詞.序列標(biāo)注樣例如表2所示:
Table 2 Example of Sequence Labeling
2) 將S=(s1,s2,…,sn)輸入Bi-LSTM層,通過(guò)Bi-LSTM的編碼,借以獲得各個(gè)詞包含上下文信息的隱藏狀態(tài)H=(h1,h2,…,hn);
4) 將H′經(jīng)過(guò)交互注意力層,按序逐詞地對(duì)各個(gè)單詞的上下文所有詞分配注意力權(quán)重,進(jìn)而通過(guò)注意力權(quán)重和類卷積注意力矩陣H′計(jì)算交互注意力矩陣Q=(q1,q2,…,qn),最后將類卷積注意力矩陣H′與交互注意力矩陣Q拼接,由此獲得雙層注意力矩陣表示R=(r1,r2,…,rn);
5) 經(jīng)過(guò)注意力層的表示學(xué)習(xí)后,本文繼承Cheng等人[10]的工作,將雙層注意力矩陣R輸入到門控循環(huán)單元(gated recurrent unit, GRU)中更新,從而獲得更新后的注意力矩陣U=(u1,u2,…,un),并經(jīng)過(guò)全連接降維后輸入到CRF層進(jìn)行屬性標(biāo)記,最終獲取各個(gè)單詞對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽L={l1,l2,…,ln},其中l(wèi)i∈{B,M,E,S,O}.
Fig. 2 General structure of system
(1)
(2)
(3)
Fig. 3 Structure of word representation layer
由1.3節(jié)可以獲得各個(gè)含有字符特征的詞矩陣S=(s1,s2,…,sn),本文采用Bi-LSTM對(duì)詞矩陣S進(jìn)行編碼.
Bi-LSTM由前向LSTM和后向LSTM組合而成.其中,LSTM有3個(gè)輸入,分別是當(dāng)前時(shí)刻的輸入st、上一時(shí)刻LSTM的輸出ht-1、上一時(shí)刻的記憶單元狀態(tài)ct-1,LSTM的輸出有2個(gè),分別是當(dāng)前時(shí)刻的輸出ht和當(dāng)前時(shí)刻的記憶單元狀態(tài)ct.LSTM的內(nèi)部結(jié)構(gòu)由3個(gè)門組成,依次為遺忘門ft、輸入門it、輸出門ot.3個(gè)門控的功能各不相同,遺忘門選擇通過(guò)的信息量,輸入門控制當(dāng)前輸入對(duì)記憶單元狀態(tài)的影響,輸出門控制輸出信息.LSTM的計(jì)算公式為:
ft=σ(Wsfst+Whfht-1+bf),
(4)
it=σ(Wsist+Whiht-1+bi),
(5)
ot=σ(Wsost+Whoht-1+bo),
(6)
ct=ft⊙ct-1+it⊙tanh(Wscst+Whcht-1+bc),
(7)
ht=ot⊙tanh(ct),
(8)
式中σ為sigmod激活函數(shù),tanh為tanhyperbolic激活函數(shù);W表示權(quán)重矩陣,b表示偏置項(xiàng).
本文針對(duì)屬性抽取任務(wù),提出一種面向?qū)傩猿槿〉念惥矸e交互式注意力機(jī)制方法.該注意力機(jī)制為雙層注意力機(jī)制.第1層為類卷積注意力層,旨在降低全局式注意力機(jī)制在計(jì)算注意力向量時(shí)帶入的噪聲;第2層為交互注意力層,是在類卷積注意力層降噪的基礎(chǔ)上引入的.之所以提出交互注意力層,是由于在類卷積注意力層中,滑動(dòng)窗口大小為固定的超參數(shù),所以窗口外可能存在與當(dāng)前詞關(guān)聯(lián)密切的詞.基于類卷積注意力向量,與所有詞做進(jìn)一步地交互注意力計(jì)算,從而獲得對(duì)于類卷積注意力向量而言重要的全局信息.因此,類卷積交互式注意力機(jī)制既滿足了降噪,又獲得對(duì)于類卷積注意力向量而言重要的全局信息.
總之,類卷積注意力層布置于交互注意力層之前,專用于去噪.從而再次使用交互注意力層時(shí),噪聲已獲得類卷積注意力層的處理,同時(shí)保留了交互注意力層自身的優(yōu)勢(shì).下面將分別詳細(xì)介紹類卷積注意力層和交互注意力層.
1.5.1 類卷積注意力層
Kim[18]首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類任務(wù),通過(guò)卷積核獲取每個(gè)目標(biāo)詞的上下文特征.我們將這種卷積思想遷移到注意力機(jī)制的計(jì)算,設(shè)置類似于卷積核的滑動(dòng)窗口,通過(guò)滑動(dòng)窗口的大小限制每個(gè)目標(biāo)詞的上下文詞的個(gè)數(shù),從而在滑動(dòng)窗口內(nèi)計(jì)算每個(gè)目標(biāo)詞的類卷積注意力向量.類卷積注意力層如圖4所示:
Fig. 4 Convolutional attention layer
(9)
(10)
(11)
(12)
1.5.2 交互注意力層
(13)
其中hj為第j個(gè)詞的隱藏狀態(tài),j∈[1,n].
Fig. 5 Interactive attention layer
(14)
(15)
(16)
(17)
ut=gru(ut-1,rt,θ),
(18)
其中,gru為GRU模型,θ為gru的參數(shù)矩陣.
CRF最早由Lafferty等人[19]于2001年提出,是一種判別式模型.線性鏈條件隨機(jī)場(chǎng)被廣泛應(yīng)用于序列標(biāo)注任務(wù),其優(yōu)越性已被多次證明.CRF的主要作用是進(jìn)一步增強(qiáng)前后標(biāo)簽的約束,避免不合法標(biāo)簽的出現(xiàn),例如標(biāo)簽M的前一個(gè)標(biāo)簽是O,即為不合法標(biāo)簽,CRF輸出的是合法并且概率最大的標(biāo)簽組合.CRF原理為:
(19)
其中,T是轉(zhuǎn)移特征函數(shù)的數(shù)量,S是狀態(tài)特征函數(shù)的個(gè)數(shù),u為降維后的類卷積交互式注意力向量,Y為輸出標(biāo)簽,p(Y|U)表示在輸入為U的情況下標(biāo)簽為Y的概率,Z(U)是歸一化因子.tk(yi-1,yi,u,i)為轉(zhuǎn)移特征函數(shù),其依賴于當(dāng)前位置yi和前一位置yi-1,λk是轉(zhuǎn)移特征函數(shù)對(duì)應(yīng)的權(quán)值.sl為狀態(tài)特征函數(shù),依賴于當(dāng)前位置yi,μl是狀態(tài)特征函數(shù)對(duì)應(yīng)的權(quán)值.特征函數(shù)的取值為1或0,以轉(zhuǎn)移特征函數(shù)為例,當(dāng)yi-1,yi,u滿足轉(zhuǎn)移特征函數(shù)時(shí),則特征函數(shù)取值為1,否則取值為0.狀態(tài)特征函數(shù)同樣如此.
在訓(xùn)練CRF時(shí),使用極大似然估計(jì)的方法訓(xùn)練模型中的各個(gè)變量,對(duì)于訓(xùn)練數(shù)據(jù)(U,Y),優(yōu)化函數(shù)為:
(20)
經(jīng)過(guò)訓(xùn)練使得Loss最小化.測(cè)試時(shí),選取概率最大的一組標(biāo)簽序列作為最終的標(biāo)注結(jié)果.
本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)自SemEval 2014—2016屬性級(jí)情感分析的4個(gè)基準(zhǔn)數(shù)據(jù)集,數(shù)據(jù)集分為電腦(laptop)領(lǐng)域和餐館(restaurant)領(lǐng)域.4個(gè)基準(zhǔn)數(shù)據(jù)集分別為:2014年語(yǔ)義評(píng)測(cè)任務(wù)4中的電腦領(lǐng)域(SemEval 2014 task 4 laptop, L-14)、2014年語(yǔ)義評(píng)測(cè)任務(wù)4中的餐館領(lǐng)域(SemEval 2014 task 4 restaurant, R-14)、2015年語(yǔ)義評(píng)測(cè)任務(wù)12中的餐館領(lǐng)域(SemEval 2015 task 12 restaurant, R-15)、2016年語(yǔ)義評(píng)測(cè)任務(wù)5中的餐館領(lǐng)域(SemEval 2016 task 5 restaurant, R-16).實(shí)驗(yàn)過(guò)程中,隨機(jī)從訓(xùn)練數(shù)據(jù)中選取20%的樣本作為開(kāi)發(fā)集.各個(gè)數(shù)據(jù)集的訓(xùn)練集、開(kāi)發(fā)集以及測(cè)試集的樣本數(shù)量如表3所示.此外,表3還統(tǒng)計(jì)了各個(gè)數(shù)據(jù)集訓(xùn)練樣本的平均長(zhǎng)度.
Table 3 Statistics of Datasets
本文使用的預(yù)訓(xùn)練詞向量的來(lái)源為Glove,詞向量的維度為100維,將詞的隱含變量(hidden size)以及更新注意力的GRU神經(jīng)網(wǎng)絡(luò)隱含變量(GRU size)同設(shè)為100維,字符的隱含變量(character size)、注意力向量維度(attention size)分別設(shè)為20和200,學(xué)習(xí)率(learning rate)的大小設(shè)為0.001,批量大小(batch size)設(shè)為20,各個(gè)目標(biāo)詞項(xiàng)的上文(下文)詞的個(gè)數(shù)(N)設(shè)為5.為了防止過(guò)擬合,在各層間加入dropout,設(shè)dropout=0.5.梯度優(yōu)化使用adam優(yōu)化器.
與Yu等人[16]相同,本文采用F1值作為評(píng)價(jià)標(biāo)準(zhǔn),評(píng)價(jià)過(guò)程采用精確匹配,只有當(dāng)模型預(yù)測(cè)的結(jié)果與正確答案完全匹配才看作正確預(yù)測(cè)答案,換言之,預(yù)測(cè)答案從起始位置到結(jié)束位置的各個(gè)詞必須與正確答案的各個(gè)詞對(duì)應(yīng)相同.例如,真實(shí)的答案為“sardines with biscuits”,如果模型預(yù)測(cè)的答案是“biscuits”,則不是正確答案.
為了驗(yàn)證本文提出模型的有效性,本文設(shè)置3組對(duì)比模型.
第1組對(duì)比模型為傳統(tǒng)的融入大量手工特征的模型,具體模型為:
1) HIS-RD,DLIREC,EliXa.分別為L(zhǎng)-14,R-14,R-15屬性抽取排名第一的評(píng)測(cè)模型.其中HIS-RD[20]與DLIREC[21]基于CRF,EliXa[22]基于隱馬爾可夫模型,并且它們都使用了大量的手工特征.
2) CRF.融合基本特征以及Glove詞向量[23]的CRF模型.
第2組對(duì)比模型是將深度學(xué)習(xí)的方法應(yīng)用于屬性抽取任務(wù),對(duì)比模型為:
1) LSTM.Liu等人[7]使用LSTM對(duì)詞向量編碼,并通過(guò)最后一層全連接獲得每個(gè)詞的概率分布.
2) DTBCSNN+F.Ye等人[24]提出基于依存樹(shù)的卷積堆棧神經(jīng)網(wǎng)絡(luò)的方法,該方法提取的句法特征用于屬性抽取.
3) MIN.Li等人[25]提出一種基于LSTM的聯(lián)合學(xué)習(xí)模型,使用2個(gè)LSTM聯(lián)合抽取屬性詞和評(píng)價(jià)詞,使用第3個(gè)LSTM判別情感句和非情感句.
4) MTCA.Wang等人[9]提出一種多任務(wù)注意模型,該模型是屬性抽取和屬性分類的聯(lián)合學(xué)習(xí)模型.
5) GMT.Yu等人[16]提出基于多任務(wù)神經(jīng)網(wǎng)絡(luò)全局推理的模型,該模型聯(lián)合抽取屬性詞和評(píng)價(jià)詞.
第3組對(duì)比模型是本文的基線模型以及在基線模型基礎(chǔ)上引入全局式注意力機(jī)制:
1) BiLSTM+CRF.在Toh等人[8]提出的基Bi-RNN的CRF模型上,將Bi-RNN替換為Bi-LSTM.本文將BiLSTM+CRF作為基線模型.
2) GA-CRF.在BiLSTM+CRF模型的基礎(chǔ)上,以一種全局式注意力的計(jì)算方式,對(duì)Bi-LSTM的輸出進(jìn)行全局式注意力計(jì)算.
3) CA-CRF.在BiLSTM+CRF模型的基礎(chǔ)上,集成本文提出的類卷積注意力層.
4) CIA-CRF.在BiLSTM+CRF基礎(chǔ)上,集成本文提出的類卷積交互式注意力機(jī)制和字符級(jí)特征.
本文提出的模型以及對(duì)比模型的實(shí)驗(yàn)結(jié)果如表4所示.從表4中可知,本文的模型CIA-CRF在L-14,R-14,R-16數(shù)據(jù)集上取得了最優(yōu)的F1值.
本文將CIA-CRF與現(xiàn)有方法進(jìn)行比較分析.為了驗(yàn)證類卷積注意力層的有效性,本文在基線模型的基礎(chǔ)上分別引入全局式注意力機(jī)制和類卷積注意力層,并進(jìn)行比較分析.由于類卷積注意力層中的滑動(dòng)窗口大小是重要超參數(shù),所以本文比較分析滑動(dòng)窗口大小對(duì)實(shí)驗(yàn)性能的影響.隨后分別分析交互注意力層的有效性和字符級(jí)特征的有效性.將預(yù)訓(xùn)練模型BERT(bidirectional encoder representations from transformers)[26]分別與基線模型以及引入類卷積交互式注意力機(jī)制的基線模型進(jìn)行結(jié)合,從而在結(jié)合BERT的前提下驗(yàn)證類卷積交互式注意力機(jī)制的有效性.
Table 4 F1 Performance Comparison
2.4.1 與現(xiàn)有傳統(tǒng)模型和深度學(xué)習(xí)模型比較
在表4中,本文將CIA-CRF與現(xiàn)有傳統(tǒng)模型和深度學(xué)習(xí)模型進(jìn)行了比較.與融入多種手工特征的傳統(tǒng)模型(HIS-RD,DLIREC,EliXa,CRF)相比,本文的模型CIA-CRF在L-14,R-14,R-15數(shù)據(jù)集上均取得了最優(yōu)的性能并且優(yōu)勢(shì)明顯.傳統(tǒng)模型(HIS-RD,DLIREC,EliXa,CRF)都使用將近10種不同的手工特征,然而在Bi-LSTM結(jié)合CRF的架構(gòu)下引入本文提出的類卷積交互式注意力機(jī)制和字符級(jí)特征,取得了比融入大量手工特征的傳統(tǒng)模型更優(yōu)越的性能.
對(duì)近年來(lái)的深度學(xué)習(xí)模型進(jìn)行比較分析.相比于LSTM模型,CIA-CRF在4個(gè)數(shù)據(jù)集上分別提升了3.41,2.9,2.25,3.27個(gè)百分點(diǎn).LSTM模型將各個(gè)詞進(jìn)行5分類(標(biāo)簽?zāi)J綖锽MESO),然而最后的輸出可能會(huì)出現(xiàn)語(yǔ)法錯(cuò)誤的情況,例如標(biāo)簽E后的標(biāo)簽為M,語(yǔ)法錯(cuò)誤是LSTM模型的性能低于CIA-CRF的重要原因.相比于DTBCSNN+F,CIA-CRF在L-14,R-14數(shù)據(jù)集上的性能分別提高3.46和0.94個(gè)百分點(diǎn).DTBCSNN+F依靠依存句法信息和堆棧神經(jīng)網(wǎng)絡(luò),而本文提出的卷積交互式注意力機(jī)制能夠更直接捕獲到文本中重要的信息(即屬性信息),是DTBCSNN+F不具備的優(yōu)勢(shì).
在本文所對(duì)比的深度學(xué)習(xí)模型中,還包含了聯(lián)合學(xué)習(xí)模型.相比于屬性詞與情感詞的聯(lián)合抽取模型MIN和GMT,CIA-CRF在L-14和R-16數(shù)據(jù)集上取得了最優(yōu)的F1值,并在R-15上取得了與GMT可比的性能.MIN和GMT均利用了情感詞信息,而本文方法CIA-CRF是單一的屬性抽取任務(wù),然而在缺少情感詞信息輔助的條件下,CIA-CRF在大部分?jǐn)?shù)據(jù)集上仍優(yōu)于MIN和GMT.
MTCA為屬性詞與情感詞抽取以及分類的聯(lián)合學(xué)習(xí)模型.CIA-CRF與MTCA相比,在L-14,R-16數(shù)據(jù)集上取得更優(yōu)的效果;而在R-15數(shù)據(jù)集上,CIA-CRF性能低于MTCA.經(jīng)過(guò)分析表3可知,R-15的訓(xùn)練集數(shù)據(jù)量較少.因此,在訓(xùn)練數(shù)據(jù)偏少時(shí),MTCA借助情感詞抽取以及屬性詞與情感詞分類的輔助信息,從而促進(jìn)了屬性詞抽取性能的提升.
本文的模型CIA-CRF與基線模型BiLSTM+CRF相比,在4個(gè)數(shù)據(jù)集上分別提升了2.21,1.35,2.22,2.21個(gè)百分點(diǎn).可見(jiàn),本文提出的類卷積交互式注意力機(jī)制應(yīng)用于屬性抽取任務(wù)具有一定的優(yōu)越性.
2.4.2 與全局式注意力模型對(duì)比分析
由表4可知,在BiLSTM+CRF架構(gòu)下,結(jié)合類卷積注意力層并且不引入詞的字符級(jí)特征(CA-CRF),與基于全局式注意力機(jī)制的GA-CRF相比,CA-CRF在4個(gè)數(shù)據(jù)集上的性能均得到了提升,分別提升了0.5,0.83,0.22,0.61個(gè)百分點(diǎn).經(jīng)過(guò)分析,全局式注意力機(jī)制按序(從句首到句尾)動(dòng)態(tài)地對(duì)目標(biāo)詞的上下文的所有詞分配注意力權(quán)重,而距離目標(biāo)詞較遠(yuǎn)且關(guān)聯(lián)不密切的詞就會(huì)為目標(biāo)詞的注意力向量帶來(lái)噪音.為了便于觀察評(píng)論文本中的注意力分布,我們將一條評(píng)論文本樣例的每個(gè)時(shí)刻(t1~t10)注意力得分輸出,繪制如圖6所示的注意力分布圖.在圖6的t2時(shí)刻,此時(shí)目標(biāo)詞為“service”,全局注意力機(jī)制為目標(biāo)詞上下文所有的詞都分配了注意力權(quán)重,而“terrible”這個(gè)詞距離“service”較遠(yuǎn)且不相關(guān),卻分配了較高注意力權(quán)重,從而對(duì)目標(biāo)詞“service”的注意力向量帶來(lái)噪音.
Fig. 6 Attention distribution
本文提出的類卷積交互式注意力機(jī)制中的類卷積注意力層可降低上述噪音,通過(guò)設(shè)置滑動(dòng)窗口限制目標(biāo)詞的上下文詞的數(shù)量,給予窗口內(nèi)各個(gè)詞注意力權(quán)重,從而獲得受噪音干擾較小的注意力向量.實(shí)驗(yàn)結(jié)果表明,CA-CRF性能優(yōu)于GA-CRF,在屬性抽取上,類卷積注意力層獲得的注意力向量更優(yōu).
2.4.3 滑動(dòng)窗口大小設(shè)定分析
類卷積注意力層中滑動(dòng)窗口的大小是重要的超參數(shù),本文將目標(biāo)詞項(xiàng)的上文(下文)詞數(shù)指定為窗口大小.為了驗(yàn)證滑動(dòng)窗口大小對(duì)實(shí)驗(yàn)結(jié)果的影響,本文將窗口大小分別設(shè)為2,5,8進(jìn)行模型訓(xùn)練,實(shí)驗(yàn)過(guò)程中保存開(kāi)發(fā)集上F1值最優(yōu)的模型,最后使用最優(yōu)模型在測(cè)試集上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表5所示:
Table 5 F1 of Different Window Sizes
從表5中可知,當(dāng)窗口大小為2時(shí)(CIA-CRF#2),在數(shù)據(jù)集R-16上取得較優(yōu)的性能;當(dāng)窗口大小為5時(shí)(CIA-CRF#5),在L-14,R-14,R-15等數(shù)據(jù)集上性能較優(yōu).結(jié)合表3可發(fā)現(xiàn),R-15和R-16的訓(xùn)練數(shù)據(jù)平均長(zhǎng)度較短,而L-14和R-14的訓(xùn)練數(shù)據(jù)平均長(zhǎng)度較長(zhǎng).因此,可推測(cè)當(dāng)訓(xùn)練語(yǔ)料的平均長(zhǎng)度較短時(shí),應(yīng)選用較小或稍大的滑動(dòng)窗口;而當(dāng)訓(xùn)練語(yǔ)料的平均長(zhǎng)度較長(zhǎng)時(shí),應(yīng)選用稍大的滑動(dòng)窗口.實(shí)驗(yàn)中將滑動(dòng)窗口大小設(shè)為8時(shí)(CIA-CRF#8),在4個(gè)數(shù)據(jù)集上的性能均未達(dá)到較優(yōu)的效果,因?yàn)檩^大的滑動(dòng)窗口會(huì)將較多的噪音帶入類卷積注意力向量.所以,實(shí)驗(yàn)中滑動(dòng)窗口的大小不能設(shè)置過(guò)大.由于在大部分?jǐn)?shù)據(jù)集上,窗口大小設(shè)為5都取得了較優(yōu)的性能.所以,本文在4個(gè)數(shù)據(jù)集上統(tǒng)一選擇窗口大小為5的實(shí)驗(yàn)結(jié)果作為性能的對(duì)比和相應(yīng)分析.
2.4.4 交互機(jī)制對(duì)比分析
為了進(jìn)一步驗(yàn)證類卷積交互式注意力機(jī)制中交互注意力層的有效性,本文在CIA-CRF的基礎(chǔ)上去掉交互注意力層(CIA-CRF-NOI),實(shí)驗(yàn)結(jié)果與CIA-CRF進(jìn)行對(duì)比,如表6所示.
從表6可發(fā)現(xiàn),在CIA-CRF基礎(chǔ)上去掉交互注意力層,在4個(gè)數(shù)據(jù)集上性能都出現(xiàn)下降,分別下降了0.94,0.59,0.73,0.6個(gè)百分點(diǎn).可見(jiàn),交互注意力層有助于屬性詞的預(yù)測(cè).原因在于,類卷積注意力層按序(從句首到句尾)通過(guò)滑動(dòng)窗口控制每個(gè)詞(目標(biāo)詞)的上下文詞的數(shù)量,由于滑動(dòng)窗口的大小固定,且每個(gè)目標(biāo)詞的上下文中與之關(guān)聯(lián)密切的詞分布迥異,所以窗口外可能存在與目標(biāo)詞關(guān)聯(lián)密切的詞,類卷積注意力向量可進(jìn)一步優(yōu)化.在類卷積注意力向量的基礎(chǔ)上,從交互注意力層可獲得對(duì)于類卷積注意力向量而言重要的全局信息,從而有助于屬性詞的預(yù)測(cè).
Table 6 F1 of Interactive Attention
2.4.5 字符級(jí)特征對(duì)比分析
為了驗(yàn)證詞的字符級(jí)特征對(duì)實(shí)驗(yàn)結(jié)果的影響,本文在CIA-CRF的基礎(chǔ)上不使用字符級(jí)特征(CIA-CRF-NOC),與使用字符級(jí)特征的CIA-CRF進(jìn)行對(duì)比,對(duì)比實(shí)驗(yàn)結(jié)果如表7所示:
Table 7 F1 of Character Feature
從表7分析可知,在CIA-CRF的基礎(chǔ)上去掉字符級(jí)特征,在4個(gè)數(shù)據(jù)集上性能均下降,分別下降了0.41,0.29,0.89,0.42個(gè)百分點(diǎn).對(duì)于不加入字符級(jí)特征的模型CIA-CRF-NOC,未登錄詞的表示采用隨機(jī)初始化的方法.若未登錄詞為待抽取的屬性詞或者與屬性詞有重要關(guān)聯(lián)的詞,隨機(jī)初始化的方法不利于模型對(duì)屬性詞的預(yù)測(cè).與隨機(jī)初始化的方法相比,從未登錄詞的本身獲得的特征表示更有利于模型對(duì)未登錄詞的識(shí)別,進(jìn)而有利于屬性詞的預(yù)測(cè).表8統(tǒng)計(jì)了4個(gè)數(shù)據(jù)集中登錄詞和未登錄詞的數(shù)量.
Table 8 Statistics of Login Words and Un-login Words
2.4.6 結(jié)合BERT的對(duì)比分析
預(yù)訓(xùn)練模型BERT[26]已經(jīng)在多個(gè)自然語(yǔ)言處理任務(wù)上取得了優(yōu)越性能.鑒于此,本節(jié)在4個(gè)數(shù)據(jù)集上使用BERT進(jìn)行實(shí)驗(yàn).此外,本節(jié)還將BERT與基線模型BiLSTM+CRF結(jié)合(BERT+Baseline).同樣,本節(jié)在BERT+Baseline的基礎(chǔ)上與類卷積交互式注意力機(jī)制結(jié)合(BERT+Baseline+CIA).基于以上,進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如表9所示:
Table 9 F1 of Combining BERT Models
從表9可知,在R-15和R-16數(shù)據(jù)集上,與BERT相比,BERT+Baseline和BERT+Baseline+CIA的性能均下降.結(jié)合表3分析可知,R-15和R-16的訓(xùn)練數(shù)據(jù)較少,而 BERT+Baseline和BERT+Baseline+CIA的模型復(fù)雜度較高.對(duì)于數(shù)據(jù)量較少的訓(xùn)練數(shù)據(jù),復(fù)雜度較高的模型容易對(duì)其產(chǎn)生過(guò)擬合,從而測(cè)試性能較差.因此,BERT+Baseline和BERT+Baseline+CIA在R-15和R-16數(shù)據(jù)集上,性能均未達(dá)到較優(yōu).
相比于R-15和R-16,L-14,R-14的訓(xùn)練語(yǔ)料的數(shù)據(jù)量較多.在L-14和R-14數(shù)據(jù)集上,與BERT+Baseline相比,BERT+Baseline+CIA的性能分別提升0.4和1.01個(gè)百分點(diǎn).因此,在訓(xùn)練語(yǔ)料的數(shù)據(jù)量較多的情況下,在BERT+Baseline的基礎(chǔ)上引入類卷積交互式注意力機(jī)制,性能可獲得進(jìn)一步提升,從而也證明了類卷積交互式注意力機(jī)制的有效性.
本文提出一種基于類卷積交互式注意力機(jī)制的屬性抽取方法.該注意力機(jī)制包含2層注意力,第1層是類卷積注意力層,第2層是交互注意力層.相比于全局式注意力機(jī)制,類卷積注意力層在滑動(dòng)窗口內(nèi)為每個(gè)詞的上下文分配注意力權(quán)重,從而獲得受噪音干擾較小的類卷積注意力向量.在類卷積注意力層降噪的基礎(chǔ)上,通過(guò)交互注意力層獲得對(duì)于類卷積注意力向量而言重要的全局信息.此外,本文提出的模型融入詞的字符級(jí)特征,字符級(jí)特征有助于識(shí)別未登錄詞,從而有助于屬性詞的預(yù)測(cè).實(shí)驗(yàn)證明,本文提出的方法在4個(gè)數(shù)據(jù)集上性能均有提升.