張東杰 黃龍濤 張 榮 薛 暉 林俊宇 路 瑤
1(阿里巴巴集團(tuán) 北京 100102)
2(中國科學(xué)院信息工程研究所 北京 100093)
3(廊坊職業(yè)技術(shù)學(xué)院 河北廊坊 065001)
隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的線下銷售行為被轉(zhuǎn)移到線上.由于線上商品種類齊全、琳瑯滿目且處于虛擬環(huán)境,商品的評論信息已經(jīng)成為用戶決策過程中非常重要的影響因素.現(xiàn)實(shí)生活中許多商家出于盈利和打擊競品的目的,通常會雇傭一些專業(yè)寫手來撰寫虛假的商品評論[1].瀏覽了虛假評論的用戶往往會對商品產(chǎn)生錯誤的預(yù)估,從而極大地影響用戶的購物體驗(yàn).
虛假評論檢測任務(wù)由Liu等人[1]最先提出,現(xiàn)在已經(jīng)成為了學(xué)術(shù)界的研究熱點(diǎn)之一.虛假評論通常是由專門的作者通過仿照真實(shí)評論者的說話方式產(chǎn)生,在內(nèi)容上有著較高的相似性,但通過深入研究后可以發(fā)現(xiàn)其與真實(shí)評論之間仍然存在著諸多差異.首先虛假評論往往由固定的一批人來創(chuàng)作,因?yàn)槊總€人的寫作習(xí)慣和表達(dá)方式都相對固定,并且為了提高寫作效率,專業(yè)寫手往往會套用一些寫作模板,每次撰寫評論時(shí)只對文本細(xì)節(jié)進(jìn)行小幅修改,這就造成了虛假評論在語義層面上往往內(nèi)容的相似度較高,因此可以從語義層面上對評論文本進(jìn)行建模來判定商品評論的真實(shí)性.
通常在撰寫虛假評論時(shí),作者往往具有很強(qiáng)的目的性,例如故意夸大或者貶低某件商品.我們通過觀察發(fā)現(xiàn)含有比較絕對的話語和情感表達(dá)突出的商品評論往往更傾向于虛假信息[1-2].如圖1所示,我們列舉了一個公開虛假評論檢測數(shù)據(jù)集[3]中的幾個實(shí)例,它們分別是關(guān)于酒店Mike Ditka’s和Weber Grill的評論文本.從示例中我們可以看到,虛假評論中往往會存在一些明顯的感情傾向(粗體的單詞),而這些情感突出的表達(dá)方式也容易對用戶產(chǎn)生誤導(dǎo)使其不能對商品進(jìn)行全面地考慮.因此評論的情感因素也是鑒別虛假評論信息的一種重要特征.
Fig. 1 Examples of fake and real reviews about restaurants of Mike Ditka’s and Weber Grill[3]圖1 關(guān)于餐廳Mike Ditka’s和Weber Grill的虛假評論和真實(shí)評論實(shí)例[3]
在不久之前,許多預(yù)訓(xùn)練模型[4-7]被相繼提出,并在包括情感分析在內(nèi)的眾多NLP任務(wù)中都取得了state-of-art的效果.預(yù)訓(xùn)練模型通過在大量未標(biāo)注的語料上采用許多無監(jiān)督的學(xué)習(xí)策略,包括mask機(jī)制[1]、后續(xù)單詞預(yù)測[5]和排列機(jī)制[5]等,獲得了強(qiáng)大的語義表示能力.其復(fù)雜的和多層的模型結(jié)構(gòu)也能夠讓這些模型更方便地對復(fù)雜的下游任務(wù)進(jìn)行建模,因此預(yù)訓(xùn)練模型在許多相關(guān)的自然語言處理任務(wù)中都有著出色的表現(xiàn).
盡管預(yù)訓(xùn)練模型[4-7]在通用語義層面有著出色的表示能力,但在情感相關(guān)信息的表達(dá)上仍然有待進(jìn)一步的改進(jìn).這些預(yù)訓(xùn)練模型大多采用基于單詞序列預(yù)測的目標(biāo)函數(shù),盡管這種目標(biāo)函數(shù)能夠捕捉單詞與句法之間的語義關(guān)系,但仍然缺乏在情感層面上的信息捕獲能力.針對這一情況Hao等人[8]使用預(yù)定義的情感知識庫對現(xiàn)有的預(yù)訓(xùn)練模型進(jìn)行了改進(jìn),提出了一種全粒度的基于情感知識增強(qiáng)的預(yù)訓(xùn)練(sentiment knowledge enhanced pre-training, SKEP)模型.該模型在現(xiàn)有預(yù)訓(xùn)練模型的基礎(chǔ)上,采用了一種情感mask策略,并將多種情感學(xué)習(xí)目標(biāo)融合到預(yù)訓(xùn)練過程中,從而使得模型對情感信息更為敏感且能夠同時(shí)適用于多種情感分析任務(wù).
基于虛假評論在語義和情感層面上的特點(diǎn),我們提出了一種聯(lián)合預(yù)訓(xùn)練模型來檢測商品的虛假評論.鑒于預(yù)訓(xùn)練模型在語義和情感信息捕獲上的優(yōu)勢,我們設(shè)置了語義和情感2種預(yù)訓(xùn)練編碼器來分別獲取評論語義和情感的上下文信息.基于2種編碼器學(xué)習(xí)到的情感和語義的表達(dá),我們設(shè)計(jì)了一種聯(lián)合訓(xùn)練框架來識別虛假評論.我們在多個公開數(shù)據(jù)集上進(jìn)行了虛假評論檢測實(shí)驗(yàn),結(jié)果表明:我們的模型要明顯優(yōu)于目前主要的傳統(tǒng)模型和預(yù)訓(xùn)練模型基線,并且在跨領(lǐng)域和跨任務(wù)的實(shí)驗(yàn)中表現(xiàn)出了最好的泛化能力和魯棒性.
本文的主要貢獻(xiàn)有3個方面:
1) 首次提出在虛假評論檢測中引入情感預(yù)訓(xùn)練模型,通過情感編碼器捕獲全粒度情感信息來幫助識別虛假評論;
2) 設(shè)計(jì)了一種能夠同時(shí)結(jié)合語義和情感信息的聯(lián)合訓(xùn)預(yù)訓(xùn)練方法,通過聯(lián)合學(xué)習(xí)的方式同時(shí)整合情感和語義信息到一個模型之中;
3) 在多個公開數(shù)據(jù)集和多個不同任務(wù)上的實(shí)驗(yàn)結(jié)果表明,我們提出的聯(lián)合模型在虛假評論檢測與情感極性分析任務(wù)上都取得了目前最好的效果且具有更強(qiáng)的泛化能力.
自從虛假商品評論的任務(wù)提出后,針對虛假評論檢測的相關(guān)研究不斷展開.Ott等人[9]從心理學(xué)的角度發(fā)現(xiàn)了評論文本的情感信息能夠幫助虛假評論的識別.針對這一發(fā)現(xiàn),結(jié)合情感分析的虛假評論檢測方法逐漸成為了研究熱點(diǎn).Peng等人[10]提出通過語法分析的方式對文本語法的依賴關(guān)系進(jìn)行建模來分析評論的情感極性,并結(jié)合語言模型和序列模型來識別虛假評論.Deng等人[11]提出了一種基于主題情感極性的虛假評論識別方法.他們通過觀察發(fā)現(xiàn)絕對正面或者負(fù)面的評論大概率是虛假評論.基于這個假設(shè)他們給每一條評論定義了環(huán)境、口味、服務(wù)等主題,并單獨(dú)計(jì)算各個主題的情感極性.若所有主題的極性都是一致的則為虛假評論,反之為真實(shí)評論.實(shí)驗(yàn)結(jié)果表明該方法具有良好的領(lǐng)域適應(yīng)性,但準(zhǔn)確率有待進(jìn)一步提高.文獻(xiàn)[12]提出了一種基于語言結(jié)構(gòu)和情感極性的虛假評論識別方法,首先利用自然語言處理方法抽取評論文本的情感特征,然后通過遺傳算法來選擇最優(yōu)特征,從而提高虛假評論檢測的準(zhǔn)確率;Zhao等人[13]提出了一種融合情感極性和邏輯回歸的虛假評論檢測方法,模型通過建模評論文本情感極性及其與大眾情感的偏離程度來識別虛假評論信息,實(shí)驗(yàn)表明該方法效果優(yōu)于僅考慮評論本身情感極性的模型.
目前的主流預(yù)訓(xùn)練模型有很多種,Bert[4]和RoBerta[14]是其中比較有代表性的2種.Bert通過自監(jiān)督方法訓(xùn)練多層多Transformer編碼器[15]來動態(tài)表示文本的語義特征.與傳統(tǒng)的語言模型不同,Bert提出了一種新型的自監(jiān)督訓(xùn)練目標(biāo)被稱為Masked Language Model(MLM).在訓(xùn)練過程中MLM方法首先隨機(jī)選擇15%的單詞進(jìn)行mask,對于這部分單詞,其中80%的詞被替換為[mask]標(biāo)記進(jìn)行屏蔽,10%的單詞被隨機(jī)替換為其他單詞,另外10%的單詞保持不變.基于MLM的學(xué)習(xí)方式和大量的無標(biāo)簽數(shù)據(jù),Bert可以更好地學(xué)習(xí)文本中的語義信息.在實(shí)際應(yīng)用中Bert模型采用了一種遷移學(xué)習(xí)的策略,即把訓(xùn)練任務(wù)分為2個步驟Pretrain和Finetune.在Pretrain過程中,Bert通過自監(jiān)督的MLM方法學(xué)習(xí)通用的文本語義表達(dá),并在特定的任務(wù)中基于標(biāo)注數(shù)據(jù)做有監(jiān)督的微調(diào).通過這種方式Bert可以省去許多不必要的預(yù)訓(xùn)練過程,同時(shí)具有更好的可擴(kuò)展性.RoBerta是Bert模型的一種改進(jìn)版本,其在不改變模型結(jié)構(gòu)的前提下,通過動態(tài)mask機(jī)制等多種優(yōu)化方式改進(jìn)Bert的訓(xùn)練算法,并且成為了目前最佳的預(yù)訓(xùn)練模型之一.在本文中我們也采用RoBerta作為語義編碼器和對比基線之一.
情感分析與其他自然語言處理處理任務(wù)存在許多不同,其主要用來處理新聞文本意外的用戶評論信息.情感分析涉及到不同的粒度和層面的知識,包括情感詞抽取、屬性詞抽取、情感—屬性詞對抽取、不同粒度的情感極性判別等.這些情感知識被廣泛應(yīng)用在句子級[16-18]、評價(jià)對象級[19-20]和單詞級別的情感分析[21-23]等任務(wù)中.基于以上考慮,Hao等人[8]提出將情感知識融入到預(yù)訓(xùn)練模型之中,從而使得模型在預(yù)訓(xùn)練學(xué)習(xí)過程中學(xué)習(xí)到的文本表征更加適用于情感分析任務(wù).相對于傳統(tǒng)的預(yù)訓(xùn)練模型,他們首先基于啟發(fā)式的方法挖掘出了文本總的情感詞、屬性詞和情感極性信息,在預(yù)訓(xùn)練過程中對這些情感信息進(jìn)行mask,并將多種粒度的情感分析學(xué)習(xí)目標(biāo)應(yīng)用在了模型的預(yù)訓(xùn)練過程中,通過在這種基于情感知識增強(qiáng)的學(xué)習(xí)方式,該模型可以獲得一種統(tǒng)一的多任務(wù)情感表示,從而在多種公開的情感分析任務(wù)評測集上取得了最佳的效果.在本文中,我們同樣采用該模型作為情感編碼器,并設(shè)置其作為對比基線之一.
本節(jié)我們主要介紹虛假評論檢測的聯(lián)合預(yù)訓(xùn)練框架,在檢測過程中,模型僅利用評論的文本的內(nèi)容進(jìn)行虛假評論的判定.模型首先通過語義和情感編碼器獲得評論的上下文表示向量,然后通過聯(lián)合訓(xùn)練的方式得到分類結(jié)果.
虛假信息檢測任務(wù)可以看做自然語言處理領(lǐng)域中的一項(xiàng)基礎(chǔ)問題即文本二元分類問題.假設(shè)給定訓(xùn)練集合:
D={(Xi,Yi),i=1,2,…,n}
(1)
其中,Xi為第i條評論文本的輸入序列,Yi為該評論的標(biāo)簽且
Yi∈{0,1} ?i∈{1,2,…,n}
(2)
其中,當(dāng)Yi=0時(shí),表示評論為真實(shí)評論,當(dāng)Yi=1時(shí)表示該評論為虛假評論.虛假評論檢測的目標(biāo)是學(xué)習(xí)一個映射函數(shù)
f:X→Y
(3)
使得映射函數(shù)f能夠把評論文本X映射到正確的評論標(biāo)簽Y上面,這個過程可以形式化為
(4)
其中,θ為模型參數(shù).
如圖2所示,本文提出的虛假評論識別模型主要包括3個模塊:語義編碼器、情感編碼器和聯(lián)合訓(xùn)練模塊.語義編碼器通過對輸入序列進(jìn)行編碼產(chǎn)生語義向量Cm,情感識別模塊通過編碼輸入序列產(chǎn)生情感向量Cs,聯(lián)合訓(xùn)練模塊在訓(xùn)練時(shí)同時(shí)結(jié)合語義向量Cm和情感向量Cs計(jì)算模型輸出,并將誤差同時(shí)傳遞給語義編碼器和情感編碼器.
Fig. 2 Structure of our joint pre-training model圖2 聯(lián)合預(yù)訓(xùn)練模型結(jié)構(gòu)
預(yù)訓(xùn)練模型擁有更加復(fù)雜的結(jié)構(gòu)和更多的層數(shù),并通過利用大量無監(jiān)督數(shù)據(jù)進(jìn)行自監(jiān)督訓(xùn)練,因此它們具有強(qiáng)大的語義特征表示能力,相對于淺層模型預(yù)訓(xùn)練模型更適合對語義進(jìn)行建模.Bert是最具有代表性的預(yù)訓(xùn)練模型之一,它使用一種隨機(jī)的mask機(jī)制來訓(xùn)練多層雙向的Transform來達(dá)到捕獲文本語義特征的目的,并在很多NLP任務(wù)中顯示出卓越的表現(xiàn).RoBerta是對Bert模型的進(jìn)一步優(yōu)化,是目前最佳的預(yù)訓(xùn)練模型之一,在此我們選擇RoBerta作為我們的語義編碼器.對于給定的輸入文本序列:
x={x1,x2,…,xn},
(5)
xi表示輸入序列中的第i個字符.我們分別獲取序列中每個字符的字符向量Ei和位置向量Pi.其中Ei為字符xi的嵌入表示向量,通過詞嵌入方式獲得.位置向量Pi的計(jì)算為
Pi=concat([P(i,1),P(i,2),…,P(i,dmodel)]),
(6)
P(i,2j)=sin(j/10002j/dmodel),
(7)
P(i,2j+1)=cos(j/10002j/dmodel).
(8)
另外Si為分割向量,考慮到虛假信息識別是一個單句分類任務(wù),這里我們將所有分割向量Si置為0向量.除此之外,我們在輸入序列首尾增加“[CLS]”和“[SEP]”標(biāo)志位用來標(biāo)記輸入開始和結(jié)束.我們分別將每個字的3種向量進(jìn)行求和,作為最終的輸入向量
(9)
(10)
其中,θRoBerta為RoBerta模型的參數(shù),我們采用公開的RoBerta預(yù)訓(xùn)練模型的參數(shù)對齊進(jìn)行初始化.
使用情感編碼器旨在獲取評論的全粒度情感極性信息,并將其以情感上下文向量的形式提供給整個模型.在這里我們采用預(yù)訓(xùn)練的SKEP全粒度情感分析模型作為情感編碼器.雖然SKEP模型和RoBerta模型一樣屬于預(yù)訓(xùn)練模型,不同的是SKEP在預(yù)訓(xùn)練過程中被mask的詞主要為情感詞和屬性詞,并且除了語言模型的損失函數(shù)之外,SKEP模型設(shè)計(jì)了多種情感任務(wù)的損失函數(shù)Lm,包括情感詞損失函數(shù)Lsw、情感極性損失函數(shù)Lwp和情感—屬性詞對的損失函數(shù)Lap:
Lm=Lsw+Lwp+Lap,
(11)
(12)
(13)
(14)
(15)
(16)
(17)
通過情感詞mask和多種情感損失函數(shù)機(jī)制,可以使得SKEP在預(yù)訓(xùn)練的過程中更加專注于捕獲情感信息.從而獲取到全粒度的情感上下文向量.在我們的情感編碼器中,與RoBerta相似,對于給定文本序列:
x={x1,x2,…,xn}.
(18)
我們以同樣的方式得到每一個詞的字符向量Ei和位置向量Pi以及分割向量Si,同時(shí)通過預(yù)訓(xùn)練的SKEP模型進(jìn)行參數(shù)初始化,取SKEP模型的第1步出作為情感上下文向量.
(19)
聯(lián)合訓(xùn)練的目標(biāo)是同時(shí)整合語義信息和情感信息來綜合幫助模型更好地識別出虛假的評論.在聯(lián)合訓(xùn)練過程中,我們分別初始化語義編碼器和情感編碼器的變量,并嘗試了多種方式來整合語義向量和情感向量,最終選擇直接拼接語義和情感上下文向量作為最終的上下文向量表示
C=concat({Cm;Cs}).
(20)
模型的分類器包括2層全連接層和一層Softmax層,最終的模型輸出可以表示為
(21)
在實(shí)際中,虛假評論的數(shù)量會遠(yuǎn)遠(yuǎn)小于真實(shí)評論的數(shù)量,這就造成了在虛假評論中存在嚴(yán)重的類別不平衡現(xiàn)象.另外在跨領(lǐng)域的任務(wù)中類別邊界越近往往會越難以區(qū)分跨領(lǐng)域的數(shù)據(jù),因此我們在訓(xùn)練過程中需要盡可能地增加類別間決策邊界距離,從而提升模型的魯棒性.在訓(xùn)練過程中我們使用Center Loss作為輔助損失函數(shù)來增大模型不同類別之間的決策邊界,從而使模型擁有更好的魯棒性.我們定義模型最終的損失函數(shù)L為
L=Ls+Lc,
(22)
(23)
(24)
(25)
本節(jié)我們將本文提出的聯(lián)合預(yù)訓(xùn)練方法和現(xiàn)有的傳統(tǒng)虛假評論檢測模型以及預(yù)訓(xùn)練模型基線進(jìn)行對比,并分別在多個公開數(shù)據(jù)集和虛假評論識別和情感極性分析2個任務(wù)上展開可相關(guān)實(shí)現(xiàn).
我們采用文獻(xiàn)[2,9,24]中所采用的4種指標(biāo)來衡量我們模型在虛假評論檢測任務(wù)上的效果,其分別是:虛假評論檢測的F1值、精確率(Precision)、召回率(Recall)、和準(zhǔn)確率(Accuracy),針對虛假評論檢測問題,這個4種指標(biāo)的計(jì)算方法為
(26)
(27)
(28)
(29)
其中,TP為正確識別的虛假評論數(shù),TN為錯誤識別的虛假評論數(shù),F(xiàn)P為錯誤識別的正常評論數(shù),F(xiàn)N為正確識別的正常評論數(shù).這4種指標(biāo)都是在分類任務(wù)中最常用的評價(jià)指標(biāo),不僅可以從不同角度來評價(jià)模型的效果,也方便和之前的工作進(jìn)行對比.
本文在實(shí)驗(yàn)過程中使用文獻(xiàn)[3,9]中發(fā)布的3個虛假評論數(shù)據(jù)集來驗(yàn)證模型效果,這3個數(shù)據(jù)集分別涉及旅館(Restaurant)、酒店(Hotel)和醫(yī)療(Doctor)領(lǐng)域的評論數(shù)據(jù),數(shù)據(jù)分布如表1所示:
Table 1 Dataset and Its Statistics表1 數(shù)據(jù)集及其分布
數(shù)據(jù)集中主要包括2種類別Turker和Truth,其中Turker數(shù)據(jù)為虛假評論,由Li等人[3]和Ott等人[9]在亞馬遜的眾包平臺“MTurk”上進(jìn)行人為收集,這些評論的編寫者為雇傭而來的專業(yè)寫手.Truth數(shù)據(jù)是由真實(shí)用戶產(chǎn)生的數(shù)據(jù),通過篩選在線平臺中可信度高的用戶獲取.除此之外在旅館數(shù)據(jù)集中存在少量專家數(shù)據(jù)“Professional”,這些數(shù)據(jù)由具備專業(yè)知識的領(lǐng)域?qū)<宜鶆?chuàng)作,仍屬于虛假評論.在數(shù)據(jù)處理過程中,我們和文獻(xiàn)[24]保持一致并沒有采用此部分?jǐn)?shù)據(jù).在實(shí)驗(yàn)過程中我們采用5-fold交叉驗(yàn)證的方式來劃分訓(xùn)練集和測試集,每次取其中一個fold的數(shù)據(jù)作為測試集其他數(shù)據(jù)作為訓(xùn)練集,最終結(jié)果取每個fold的平均表現(xiàn).
在實(shí)驗(yàn)過程中我們大多數(shù)參數(shù)采用RoBerta和SKEP模型的默認(rèn)參數(shù)配置,少數(shù)參數(shù)遵循設(shè)置:
迭代次數(shù)epoch=10,樣本批次大小batch_size=8,學(xué)習(xí)率learning_rate=0.3×10-5,Transformer層數(shù)num_hidden_layers=24,隱藏層神經(jīng)元數(shù)hidden_size=1024,最大序列長度max_length=512.在整個實(shí)驗(yàn)過程中,對于RoBerta和SKEP模型我們保持這些參數(shù)均為相同的配置.
SAGE(sparse additive generative model)[3]是一種貝葉斯生成模型,最早由Eisenstein等人[25]引入,可以看作是主題模型和廣義加性模型的組合,根據(jù)語言特征來判定評論的類別歸屬,是一種被廣泛使用的特征模型.
SWNN[26]模型是一種基于神經(jīng)網(wǎng)絡(luò)的文檔表示模型,模型分別從句子和文檔2個層面學(xué)習(xí)對應(yīng)的文本表示和權(quán)重向量,并對其進(jìn)行整合得到文檔的表示向量,進(jìn)而基于文檔的表示向量來判定虛假品論,在領(lǐng)域內(nèi)實(shí)驗(yàn)中,SWNN取得了很好的效果,在跨領(lǐng)域?qū)嶒?yàn)中,SWNN也表現(xiàn)出了很好的魯棒性.
ABME(attention based muti-layer encoder)[24]模型是一種基于注意力機(jī)制的多層編碼器模型.ABME基于評論首尾部分表達(dá)情感更加強(qiáng)烈等特點(diǎn),將評論拆分為首、中、尾3部分并對其分別進(jìn)行編碼,在整合3種編碼時(shí)文獻(xiàn)[23]作者提高了首尾部分的權(quán)重借此來強(qiáng)調(diào)首尾句對模型結(jié)果的影響,結(jié)果表明ABME能取得比傳統(tǒng)模型更好的效果Bert(large)[4]和RoBerta(large)[17]是目前比較流行的預(yù)訓(xùn)練語言模型,有著強(qiáng)大的語義捕捉能力,并且在大多數(shù)的自然語言處理領(lǐng)域都保持著最好的效果.RoBerta模型是對Bert的改進(jìn)版本,其使用了動態(tài)mask策略和更加精細(xì)化的訓(xùn)練方式,使其成為了目前效果最好的預(yù)訓(xùn)練模型之一.
SKEP(sentiment knowledge enhanced pre-training)[11]是一種全粒度情感分析的預(yù)訓(xùn)練模型,SKEP與RoBerta結(jié)構(gòu)類似但在預(yù)訓(xùn)練過程中SKEP采用采用了一種情感知識驅(qū)動的mask策略和多種情感損失函數(shù),使其在情感分析任務(wù)上具有非常突出的表現(xiàn).
在實(shí)驗(yàn)過程中采用5-fold交叉驗(yàn)證的方式來劃分訓(xùn)練集和測試集,每次取其中一個fold的數(shù)據(jù)作為測試集其他數(shù)據(jù)作為訓(xùn)練集,最終結(jié)果取每個fold的平均表現(xiàn),實(shí)驗(yàn)結(jié)果如表2所示,其中SAGE,SWNN和ABME模型的結(jié)果直接從相關(guān)論文拷貝得到.
Table 2 Main Domain Results of Spam Review Detection表2 領(lǐng)域內(nèi)虛假評論檢測實(shí)驗(yàn)結(jié)果對比
實(shí)驗(yàn)結(jié)果表明,我們提出的聯(lián)合預(yù)訓(xùn)練模型在所有數(shù)據(jù)集上的準(zhǔn)確率(Accuracy)和F1值上都取得了目前最好的水平,這充分證明了我們的聯(lián)合訓(xùn)練方法在同時(shí)整合語義和情感信息上的優(yōu)勢,也說明了在虛假評論識別任務(wù)中引入情感信息可以幫助提升虛假評論檢測的效果.從整體來看,預(yù)訓(xùn)練模型相對與淺層神經(jīng)網(wǎng)絡(luò)和特征模型都有較為明顯的優(yōu)勢,這也證明了預(yù)訓(xùn)練模型具有更加強(qiáng)大的語義分析能力,更加適用于虛假評論檢測任務(wù).在預(yù)訓(xùn)練模型中,基于全粒度情感分析的預(yù)訓(xùn)練模型SKEP相對于基于語義的預(yù)訓(xùn)練模型Bert和RoBerta,具有更高的精確率(Precision),因此聯(lián)合模型可以利用其這一特點(diǎn)來彌補(bǔ)語義模型缺失情感信息的問題從而提高結(jié)果的準(zhǔn)確率.
跨領(lǐng)域?qū)嶒?yàn)的目的是為了測試模型的魯棒性和泛化能力.領(lǐng)域內(nèi)實(shí)驗(yàn)的訓(xùn)練集和測試集均來自同一個領(lǐng)域,跨領(lǐng)域?qū)嶒?yàn)的訓(xùn)練集和測試集則分別來自不同領(lǐng)域.在我們的實(shí)驗(yàn)中,我們將旅館(Restaurant)領(lǐng)域數(shù)據(jù)作為訓(xùn)練集,并且分別將酒店(Hotel)和醫(yī)療(Doctor)領(lǐng)域的數(shù)據(jù)作為測試集進(jìn)行了跨領(lǐng)域的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示,其中SAGE,SWNN和ABME模型的結(jié)果參考相關(guān)論文[24].
Table 3 Comparative Experimental Results of Cross Domain on Spam Review Detection表3 跨領(lǐng)域虛假評論檢測實(shí)驗(yàn)結(jié)果對比
結(jié)果表明我們的聯(lián)合學(xué)習(xí)模型在跨領(lǐng)域任務(wù)中依然取得了最好的效果.除此之外,預(yù)訓(xùn)練模型的結(jié)果都要明顯優(yōu)于其他模型,因?yàn)轭A(yù)訓(xùn)練模型本身就是一種遷移學(xué)習(xí)方法,所以能夠更好地適應(yīng)不同領(lǐng)域的虛假評論識別任務(wù).另一方面,我們采用的Center Loss同樣可以提高模型的魯棒性和泛化能力,這也是我們的模型在跨領(lǐng)域任務(wù)上要明顯優(yōu)于傳統(tǒng)模型的原因之一.
為了進(jìn)一步驗(yàn)證聯(lián)合模型對情感語義的捕獲能力,我們基于旅館(Restaurant)數(shù)據(jù)集進(jìn)行了情感分析實(shí)驗(yàn).數(shù)據(jù)集中的情感標(biāo)注仍然來自于Li等人[3],我們將數(shù)據(jù)集中的虛假評論標(biāo)簽換為情感極性標(biāo)簽并保持模型的其他設(shè)置不變重新進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示:
Table 4 Experimental Results of Sentiment Analysis表4 情感分析實(shí)驗(yàn)結(jié)果對比
從實(shí)驗(yàn)結(jié)果中可以看出,SKEP模型和我們的聯(lián)合訓(xùn)練模型同時(shí)取得了目前最好的結(jié)果,這也說明了我們的聯(lián)合模型擁有較強(qiáng)的情感信息捕獲能力并且可以擴(kuò)展運(yùn)用在情感分析的相關(guān)任務(wù)上.至于SKEP和我們的聯(lián)合模型結(jié)果相同的問題,經(jīng)過我們的觀察發(fā)現(xiàn)結(jié)果中的負(fù)例數(shù)量非常少,對于個別的疑難案例增加語義信息仍然不能很好地區(qū)分它們,且受限于數(shù)據(jù)集的規(guī)模.因此考慮到數(shù)據(jù)本身的原因和語義特征的限制導(dǎo)致聯(lián)合模型的學(xué)習(xí)上限和情感模型SKEP是一致的,我們在未來的工作中會通過更大規(guī)模的數(shù)據(jù)進(jìn)一步驗(yàn)證聯(lián)合訓(xùn)練模型對情感信息的捕獲能力.
本文提出了一種同時(shí)整合語義和情感信息的聯(lián)合預(yù)訓(xùn)練學(xué)習(xí)方法來進(jìn)行虛假評論檢測任務(wù).我們分別采用了預(yù)訓(xùn)練的語義模型和情感模型作為編碼器分別抽取評論中的語義和情感信息,并通過一種聯(lián)合訓(xùn)練框架對抽取的信息進(jìn)行整合和泛化,在多個公開數(shù)據(jù)集和不同任務(wù)上的實(shí)驗(yàn)結(jié)果表明,我們提出的聯(lián)合模型在虛假評論檢測與情感極性分析任務(wù)上都取得了目前最好的效果且具有更強(qiáng)的泛化能力.
作者貢獻(xiàn)聲明:張東杰,負(fù)責(zé)論文主要撰寫,方法設(shè)計(jì)及實(shí)驗(yàn)驗(yàn)證;黃龍濤,負(fù)責(zé)方法設(shè)計(jì),論文整體內(nèi)容修改;張榮,對實(shí)驗(yàn)設(shè)計(jì)提出指導(dǎo)意見;薛暉,為實(shí)驗(yàn)環(huán)境提供支持;林俊宇,稿件整體算法方案和實(shí)驗(yàn)設(shè)計(jì)把關(guān),對相關(guān)工作對比提出具體指導(dǎo)意見;路瑤,稿件整體算法方案和實(shí)驗(yàn)設(shè)計(jì)把關(guān),提供實(shí)驗(yàn)數(shù)據(jù)支持.其中,路瑤和林俊宇為本論文的共同通信作者.