吳杭鑫,張?jiān)迫A
(浙江理工大學(xué) 信息學(xué)院,杭州310018)
方面信息提?。?]是從給定原始文本中提取出表征實(shí)體、實(shí)體屬性或反映實(shí)體某一側(cè)面的信息。方面信息是方面情感的直接受體,一般為一個(gè)詞語或者短語。例如,在句子“今天的晚餐既美味又實(shí)惠”中,“美味”和“實(shí)惠”分別評(píng)價(jià)了晚餐的兩個(gè)不同側(cè)面,且賦予了正向的情感極性,所以可作為方面信息提取出來。
方面提取任務(wù)是方面級(jí)別情感分類任務(wù)的前提和基礎(chǔ)。近年來隨著互聯(lián)網(wǎng)的發(fā)展,越來越受到業(yè)界的關(guān)注。早期的研究人員主要采用基于語義特征的方法來訓(xùn)練模型[2-4]。但此類模型的性能受人為定義特征的影響較大,相對(duì)費(fèi)時(shí)、費(fèi)力,且對(duì)于研究人員的操作能力與資源質(zhì)量有著較強(qiáng)的依賴性。近期,性能表現(xiàn)較好的方面提取算法,主要以基于詞共現(xiàn)網(wǎng)絡(luò)和基于圖的方法為主[5-7]。
受上述方法的啟發(fā),本文提出基于詞嵌入和自注意力機(jī)制的方面提取算法(World Embedding and Self-attention Model for Aspect Extraction,簡(jiǎn) 稱WESM),主要工作如下:
(1)利用基于詞匯共現(xiàn)網(wǎng)絡(luò)的來進(jìn)行方面提取,相較于傳統(tǒng)的主題模型,能夠有效克服短文本存在稀疏性等特點(diǎn),可以發(fā)現(xiàn)一些不常見的主題。
(2)引入自注意力機(jī)制,解決由于長(zhǎng)距離依賴問題而造成的上下文信息忽略問題,能夠充分捕捉詞的上下文語義信息。
(3)應(yīng)用細(xì)粒度的汽車評(píng)論數(shù)據(jù)集及來自購物網(wǎng)站的抓取數(shù)據(jù)集,與當(dāng)前主流相關(guān)算法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,所提出的WESM模型的性能優(yōu)于相關(guān)工作,適合于方面提取任務(wù)。
方面提取是觀點(diǎn)挖掘領(lǐng)域中的細(xì)分任務(wù),在過去的數(shù)十年中,大量學(xué)者在方面提取上做了大量研究工作。如,在文獻(xiàn)[8-9]中提出了一個(gè)詞匯HMM模型來提取文本的顯示方面;文獻(xiàn)[10]提出基于監(jiān)督的條件隨機(jī)場(chǎng)模型來提取顯示方面。但是監(jiān)督學(xué)習(xí)需要大量的標(biāo)簽數(shù)據(jù),耗費(fèi)大量的人力。
無監(jiān)督的學(xué)習(xí)方法可以省去大量的數(shù)據(jù)標(biāo)注工作。以pLAS(probabilistic latent semantic analysis)[11]和LDA(Latent Dirichlet allocation)[12]模型為主的方法,通過在文檔與單詞間搭建“主題”這一橋梁,來進(jìn)行方面提取,已經(jīng)被許多研究者應(yīng)用于方面提取的任務(wù)中。然而,這類主題模型基本都是針對(duì)長(zhǎng)文本方面提取,對(duì)于短文本任務(wù)無法取得良好效果。針對(duì)短文本特性,文獻(xiàn)[13]提出了BTM(Biterm Topic Model,簡(jiǎn)稱BTM)模型,它與LDA模型不同的是使用了biterm進(jìn)行建模,能夠更好的發(fā)掘文章的隱藏主題;文獻(xiàn)[14]提出了詞匯網(wǎng)絡(luò)共現(xiàn)主題模型(Word NetWork Topic Model,簡(jiǎn)稱WNTM),通過詞匯共現(xiàn)網(wǎng)絡(luò)中語義緊湊的潛在詞群,發(fā)現(xiàn)不常見的主題,取得了良好效果。上述方法在針對(duì)短文本這一特定方向時(shí),綜合表現(xiàn)較好,其共性在于挖掘上下文隱含的語義關(guān)系解決短文本存在的稀疏性等特點(diǎn)。
綜上所述,短文本數(shù)據(jù)相對(duì)于長(zhǎng)文本主要存在的問題是文本稀疏性大、語義信息不足以及主題不平衡等。針對(duì)這些問題,本文提出了WESM模型,通過詞匯共現(xiàn)網(wǎng)絡(luò),解決了難以發(fā)現(xiàn)罕見主題的問題;通過引入針對(duì)中文的詞嵌入模型,能夠更好的發(fā)掘出豐富中文詞匯的語義信息;通過引入自注意力機(jī)制,緩解上下文語義缺失的問題,提高了算法的性能。
本文提出了一種基于詞嵌入和自注意機(jī)制的方面提取算法(WESM)。該模型基于詞匯共現(xiàn)網(wǎng)絡(luò),在整個(gè)語料庫上構(gòu)建偽文檔,相較于傳統(tǒng)的LDA模型,詞匯共現(xiàn)網(wǎng)絡(luò)有著明顯的優(yōu)勢(shì),能夠充分利用整個(gè)語料庫的語義信息。其次,其節(jié)點(diǎn)之間的邊權(quán)值表示兩個(gè)詞匯在上下文中共現(xiàn)的次數(shù)。通過針對(duì)中文的詞嵌入模型cw2vec來訓(xùn)練詞匯,豐富詞匯的潛在語義信息,得到詞匯的向量表示。然后輸入到自注意力機(jī)制模塊中,其特點(diǎn)在于可以無視詞匯之間距離,捕獲長(zhǎng)距離的依賴關(guān)系。算法模型架構(gòu)如圖1所示。
圖1 WESM模型圖Fig.1 Model of WESM
其中,WordNet是詞匯共現(xiàn)網(wǎng)絡(luò),w n-1、w n、w n+1是輸入量,分別表示語料庫中的詞匯、網(wǎng)絡(luò)中節(jié)點(diǎn)是詞匯、節(jié)點(diǎn)之間的邊權(quán)重表示兩個(gè)節(jié)點(diǎn)詞匯共現(xiàn)的次數(shù)。cw2vec是中文單詞向量模型,經(jīng)過該模型的訓(xùn)練可以得到詞匯的向量表示,即εn-1、εn、εn+1。經(jīng)過詞嵌入模型后,進(jìn)入自注意力機(jī)制模塊,該模塊主要是為了得到詞匯的上下語義信息,Z s表示相應(yīng)句子的嵌入表示,W為過濾矩陣,T代表高維空間向量矩陣。
WordNet是詞匯共現(xiàn)網(wǎng)絡(luò)(WNTM)模型,從關(guān)鍵詞之間的共現(xiàn)關(guān)系角度來建立網(wǎng)絡(luò)??紤]到語義的聯(lián)系是相互的,所以該網(wǎng)絡(luò)是一個(gè)無向有權(quán)圖。其中節(jié)點(diǎn)表示關(guān)鍵詞,權(quán)值表示兩個(gè)詞匯共同出現(xiàn)的次數(shù)。顯然,若節(jié)點(diǎn)之間的邊權(quán)值越大,則它們之間的關(guān)系越緊密。
WNTM模型由網(wǎng)絡(luò)圖、鄰近表、偽文檔三部分組成,如圖2所示。其中,偽文檔是和鄰近表由詞匯與相鄰節(jié)點(diǎn)生成的,描述了節(jié)點(diǎn)之間可能存在的關(guān)系。詞匯貢獻(xiàn)網(wǎng)絡(luò)生成相應(yīng)的偽文檔,步驟如下:
圖2 WNTM模型圖Fig.2 Model of WNTM
(1)根據(jù)詞匯w i的鄰近詞匯表L i,與潛在詞群z i,進(jìn)行“主題-單詞”概率分布采樣,得出相應(yīng)關(guān)系表達(dá)式:Θi~Di r(α);
(2)對(duì)潛在詞群z,進(jìn)行“偽文檔-主題”概率分布采樣,得到表達(dá)式:φz~Di r(β);
(3)對(duì)于鄰近詞匯表L i中的每個(gè)詞匯w j:
①根據(jù)“偽文檔-主題”概率分布,采樣主題z j
②根據(jù)“主題-單詞”概率分布,采樣單詞w j~
其中,Θ、φ分別表示鄰近表中潛在詞群出現(xiàn)的概率分布、詞匯屬于潛在詞群的概率分布。
由于WNTM模型包含了詞匯的上下文語義信息,因此將詞匯w i的鄰近詞表Θi的主題比例作為詞匯w i的主題比例,其計(jì)算公式如下:
其中,Θi可以表示為可以看成詞匯的經(jīng)驗(yàn)分布,計(jì)算公式如下:
式中,n d(w i)表示詞匯w i在文檔d中的詞頻,Len(d)表示文檔d的長(zhǎng)度。由于短文本數(shù)據(jù)的特點(diǎn),使得長(zhǎng)文本主題相關(guān)方法對(duì)其處理效果欠佳。而基于WNTM模型構(gòu)建的偽文檔中包含了所有的主題信息,學(xué)習(xí)偽文檔上的主題分布,能夠解決短文本數(shù)據(jù)稀疏性問題。
TC2vec的另一個(gè)部分是cw2vec模型,該模型以中文筆畫信息作為特征,捕捉漢字詞語的語義和結(jié)構(gòu)層面信息,獲得分布式向量詞并以負(fù)采樣進(jìn)行計(jì)算。
cw2vec模型使用一種基于n元筆畫的損失函數(shù),公式如下:
其中,w和D分別表示詞語和詞語歸屬的訓(xùn)練語料;c和T(w)是詞語的上下文和詞語上下文窗口內(nèi)的所有詞語集合;λ是負(fù)采樣的數(shù)量,由總數(shù)乘以負(fù)采樣比例得到;E w'~P[~]是期望,并且選擇的負(fù)采樣w'服從部分P。因此,語料中出現(xiàn)次數(shù)越多的詞語越容易被采樣,公式如下:
在詞嵌入層后增加自注意力層,通過自注意力機(jī)制獲取文本的上下文語義信息,重構(gòu)句子嵌入表示,轉(zhuǎn)化為r s的形式。
通過加權(quán)和的方式將方面信息納入到重現(xiàn)后的句子中,計(jì)算公式如下:
式中,e wi表示第i個(gè)詞匯的向量,詞匯的嵌入表示和上下文環(huán)境將共同決定注意力機(jī)制的權(quán)值,即a i的數(shù)值。計(jì)算公式如下:
其中,y s由組成句子詞匯的向量和求均值得到,是句子向量的嵌入。通過模型訓(xùn)練獲得矩陣M(M∈R d×d),并在句子向量和詞匯向量之間進(jìn)行映射,以獲得詞匯和方面相關(guān)信息。a i表示注意機(jī)制的權(quán)重,公式如下:
其中,p t表示方面嵌入權(quán)重,將z s從d維降到k維,然后通過softmax函數(shù)標(biāo)準(zhǔn)化得到。W和b從訓(xùn)練模型中獲得的。
若直接進(jìn)行后續(xù)訓(xùn)練,將會(huì)產(chǎn)生較大的重構(gòu)誤差。因此,本文采用最大邊界相關(guān)函數(shù)(Contrastive Max-margin Objective Function),其公式如下:
其中,D代表語料庫,n i代表負(fù)樣本。訓(xùn)練使得r s與z s大體相似,并且與n i最大限度不同。{E、T、M、W、b}為訓(xùn)練得到的模型參數(shù)。
為驗(yàn)證模型的有效性,采用公開數(shù)據(jù)集(細(xì)粒度汽車評(píng)論標(biāo)注語料數(shù)據(jù)集)通過網(wǎng)絡(luò)爬取相關(guān)評(píng)論信息(某購物網(wǎng)站關(guān)于手機(jī)的相關(guān)數(shù)據(jù))進(jìn)行測(cè)試,并且都詳細(xì)標(biāo)注了用戶評(píng)論中的評(píng)價(jià)對(duì)象和評(píng)價(jià)特征。數(shù)據(jù)集詳細(xì)信息見表1。
表1 數(shù)據(jù)集和訓(xùn)練集Tab.1 Data sets and training sets
本文選取精確率(Preci s i on)、召回率(R ecal l)和F-s cor e值來評(píng)估模型的整體性能。精確率計(jì)算公式如下:
召回率也稱為查全率(R ecal l),計(jì)算公式如下:
實(shí)驗(yàn)引入了F-s cor e值,用來調(diào)節(jié)查準(zhǔn)率和查全率,公式如下:
其中,β為F-s cor e中權(quán)重參數(shù)。
本文使用主題聚合度(Topic Coherence)來評(píng)價(jià)得到的方面聚類之間的相似性,它與方面詞相似度之間呈正相關(guān),其計(jì)算公式如下:
其中,t代表某個(gè)方面;M表示在方面集合選取詞匯數(shù)量代表方面t中n個(gè)方面詞匯;和分別表示方面t中的兩個(gè)方面詞匯;D(~)表示參數(shù)(方面詞匯)的共現(xiàn)次數(shù)。當(dāng)只有一個(gè)參數(shù)時(shí),表示該詞匯的出現(xiàn)次數(shù)。為了防止l o g函數(shù)的值為0造成計(jì)算錯(cuò)誤,本文設(shè)置ε為1。公式如下:
本文選取LDA、BTM、WNTM、WESM算法在數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),模型表現(xiàn)如圖3、圖4所示。其中主題數(shù)統(tǒng)一選10,先驗(yàn)參數(shù)學(xué)習(xí)率設(shè)置為0.025。
從圖3和圖4中可以看出,WNTM模型在主題句聚合度上的實(shí)驗(yàn)結(jié)果優(yōu)于LDA和BTM模型,而WESM算法又優(yōu)于WNTM模型。由于數(shù)據(jù)都是短文本數(shù)據(jù),用于長(zhǎng)文本的LDA模型在實(shí)驗(yàn)結(jié)果上略遜色于WNTM模型和BTM模型,而WESM算法是在WNTM的基礎(chǔ)上增加了詞向量模型和自注意力機(jī)制,能夠更細(xì)粒度的利用詞匯語義信息。主題聚合度得分越高,則模型所得到的主題質(zhì)量更好,證明了引入自注意機(jī)制能夠有效豐富語境語義,提高主題質(zhì)量。
圖3 數(shù)據(jù)集D1主題聚合度Fig.3 Data set D1 topic aggregation degree
圖4 數(shù)據(jù)集D2主題聚合度Fig.4 Data set D2 topic aggregation degree
圖3 和圖4通過各主題聚合度得分表現(xiàn),說明了WESM模型主題聚合效果上表現(xiàn)更出色。下面將通過查準(zhǔn)率、召回率以及F1值對(duì)模型的其它方面做進(jìn)一步驗(yàn)證。其中本文選取前n(其中n=10,20,30,40)個(gè)詞匯計(jì)算各項(xiàng)指標(biāo),結(jié)果如圖5、圖6所示。
從圖5和圖6可以看出,WESM模型的平均查準(zhǔn)率比其它三個(gè)模型更好。對(duì)圖表進(jìn)一步觀察對(duì)比發(fā)現(xiàn),針對(duì)短文本提出的WNTM和BTM模型在查準(zhǔn)率上的表現(xiàn)優(yōu)于LDA模型;通過WNTM和WESM的對(duì)比發(fā)現(xiàn),引入詞嵌入和自注意力機(jī)制確實(shí)有利于查詢率的提高,驗(yàn)證了其對(duì)于方面提取性能的提升是有效果的。
通過圖7和圖8可以看出,隨著詞匯數(shù)量的增加,各模型的F1值都呈現(xiàn)下降的趨勢(shì)。但WESM模型在實(shí)驗(yàn)中的表現(xiàn)還是優(yōu)于其他模型。驗(yàn)證了詞向量和自注意力機(jī)制能夠豐富詞匯的上下文語義特征,從而提高方面提取的性能。
圖5 數(shù)據(jù)集D1平均查準(zhǔn)率Fig.5 Average precision of data set D1
圖6 數(shù)據(jù)集D2平均查準(zhǔn)率Fig.6 Average precision of data set D2
圖7 數(shù)據(jù)集D1平均F1值Fig.7 Average F1 value of data set D1
圖8 數(shù)據(jù)集D1平均F1值Fig.8 Average F1 value of data set D2
本文在詞匯共現(xiàn)網(wǎng)絡(luò)基礎(chǔ)上引入了詞向量模型和自注意力機(jī)制,提出了方面提取算法WESM。實(shí)驗(yàn)結(jié)果表明,基于本文提出的方面提取算法及自注意力機(jī)制的引入,能夠豐富詞匯的語義信息,得到文本的上下文語義信息。通過應(yīng)用兩個(gè)數(shù)據(jù)集實(shí)驗(yàn),對(duì)比了相關(guān)的方面提取方法,證明了本文算法的優(yōu)勢(shì)所在。但是,模型仍舊存在一些不足。如,方面詞匯聚類簇?cái)?shù)要人為進(jìn)行設(shè)置、參數(shù)的設(shè)定直接影響模型的性能等問題。因此,在后續(xù)研究中可以考慮是否能夠?qū)⑦@些步驟都通過算法訓(xùn)練得到,減少人為對(duì)算法的影響。