王啟發(fā),周 敏,王中卿,李壽山,周國(guó)棟
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
伴隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,形形色色的社交平臺(tái)、電商平臺(tái)也在不斷繁衍,如淘寶、京東、大眾點(diǎn)評(píng)、豆瓣、Yelp、Amazon等諸多在線評(píng)論網(wǎng)站早已深入我們的日常生活。這些平臺(tái)上的評(píng)論對(duì)于用戶和商家都具有很重要的參考價(jià)值[1],比如,對(duì)于網(wǎng)絡(luò)購(gòu)物的消費(fèi)者而言,在線評(píng)論可以幫助他們做出有效的購(gòu)買決策,進(jìn)而買到心儀的產(chǎn)品。而對(duì)于商家,通過挖掘大量的評(píng)論數(shù)據(jù)來了解其產(chǎn)品的用戶體驗(yàn),幫助商家做出有效的商業(yè)決策,從而帶來可觀的收益。由此可見,對(duì)在線評(píng)論的數(shù)據(jù)挖掘具有重要的應(yīng)用價(jià)值。
在線評(píng)論的情感分類,正是評(píng)論文本數(shù)據(jù)挖掘方面的一個(gè)重要任務(wù),其主要目的是識(shí)別主觀文本情感[2]。隨著在線評(píng)論的數(shù)量不斷增加,評(píng)論內(nèi)容更是復(fù)雜多樣,想要通過人工判別的方法去一一分析每一條評(píng)論的情感幾乎是不可能的,在這個(gè)大數(shù)據(jù)時(shí)代,我們迫切地需要一種自動(dòng)判別的方法來實(shí)現(xiàn)在線評(píng)論的情感分類,從而高效地幫助消費(fèi)者和商家在海量評(píng)論文本中獲取有價(jià)值的信息。
國(guó)內(nèi)外的相關(guān)學(xué)者已經(jīng)對(duì)在線評(píng)論文本的情感分類做了相關(guān)的研究,并取得了一些顯著的成果。但是,在以往的研究中,通常把每條評(píng)論看成獨(dú)立的文本,只關(guān)注評(píng)論文本內(nèi)容本身,而忽略了用戶和產(chǎn)品的關(guān)聯(lián)影響,實(shí)際上用戶的偏好和產(chǎn)品的特性對(duì)于評(píng)論的情感分類都是有一定影響的。對(duì)于不同的用戶,表達(dá)情感的方式也會(huì)有所差異,如個(gè)人偏好、措辭習(xí)慣、語義邏輯等方面,而這些用戶信息都會(huì)對(duì)最終的評(píng)論情感分類產(chǎn)生一定的影響。另外,產(chǎn)品信息也會(huì)對(duì)評(píng)論的情感分類產(chǎn)生一定的影響,產(chǎn)品的質(zhì)量越高,往往評(píng)價(jià)也會(huì)越好。我們?cè)赮elp2013實(shí)驗(yàn)數(shù)據(jù)集上抽取了一個(gè)用戶發(fā)表的1條主評(píng)論、該用戶的2條歷史評(píng)論,以及2條產(chǎn)品相關(guān)評(píng)論,表1給出了評(píng)論示例。
表1 評(píng)論示例
從表1的例子可以看出,主評(píng)論文本比較簡(jiǎn)短,沒有過多的情感修飾詞,僅僅有一句“so sweet”,很容易判定為積極的情感,但是通過這位用戶的兩條歷史評(píng)論,我們發(fā)現(xiàn)“sweet”往往和“don’t like”“hate”這些情感詞聯(lián)系在一起,由此可見該用戶是不喜歡吃甜食的,即在用戶信息的輔助下,該主評(píng)論更傾向于負(fù)向情感;另外再來看看產(chǎn)品信息,從兩條產(chǎn)品相關(guān)評(píng)論中得知這家的Pizza被貼上了“not very good”“not recommended”負(fù)面標(biāo)簽,由此可見,這家的Pizza并不是很受歡迎,評(píng)價(jià)更傾向于負(fù)面情感。故綜合用戶信息和產(chǎn)品信息,可以判斷主評(píng)論實(shí)際想要表達(dá)的是不滿意的情緒,故這條主評(píng)論應(yīng)該被判定為消極。
因此,在本文的研究中,我們不再只提取主評(píng)論本身的特征來實(shí)現(xiàn)評(píng)論的情感傾向性分析,而是引入用戶和產(chǎn)品信息作為輔助特征,為了能夠有效地利用產(chǎn)品和用戶信息,并構(gòu)建用戶、產(chǎn)品信息與主評(píng)論之間的關(guān)聯(lián),本文提出了一種基于圖網(wǎng)絡(luò)的模型,將用戶與產(chǎn)品信息和主評(píng)論信息之間的關(guān)系構(gòu)建為一個(gè)圖,并基于圖卷積網(wǎng)絡(luò)模型學(xué)習(xí)產(chǎn)品與用戶信息對(duì)主評(píng)論的影響,從而提升評(píng)論情感分類的準(zhǔn)確率。通過設(shè)計(jì)相關(guān)實(shí)驗(yàn),驗(yàn)證了在評(píng)論文本信息中融入用戶、產(chǎn)品信息,并引入圖卷積神經(jīng)網(wǎng)絡(luò)模型,對(duì)評(píng)論情感分類的準(zhǔn)確率提升具有明顯的作用。
本文后續(xù)內(nèi)容安排如下:第1節(jié)主要介紹情感分類和基于用戶與產(chǎn)品信息的情感分類的相關(guān)工作;第2節(jié)主要介紹模型的三個(gè)重要組成部分,分別為基于多文本信息的語義表示、基于用戶與產(chǎn)品信息的圖網(wǎng)絡(luò)構(gòu)建以及圖卷積模型的訓(xùn)練與優(yōu)化;第3節(jié)介紹實(shí)驗(yàn)數(shù)據(jù)集、實(shí)驗(yàn)參數(shù)設(shè)置、評(píng)價(jià)標(biāo)準(zhǔn)、基準(zhǔn)系統(tǒng)以及實(shí)驗(yàn)結(jié)果分析;最后,在第4節(jié)中對(duì)研究工作進(jìn)行總結(jié)。
情感分類是情感分析的任務(wù)之一,一直以來都是自然語言處理領(lǐng)域的研究熱點(diǎn)。情感分類是指根據(jù)文本所表達(dá)的含義和情感信息將文本劃分成褒揚(yáng)的或貶義的兩種或幾種類型,是對(duì)文本作者傾向性、觀點(diǎn)和態(tài)度的劃分,因此有時(shí)也稱傾向性分析(opinion analysis)。情感分類的方法隨著科技的進(jìn)步,也在不斷地演變,從相對(duì)傳統(tǒng)的基于情感詞典的方法,到基于機(jī)器學(xué)習(xí)的方法,如支持向量機(jī)、樸素貝葉斯等分類方法,再到當(dāng)下比較火熱的基于深度學(xué)習(xí)的方法,通過不斷地推陳出新,使得情感分類的準(zhǔn)確率不斷攀升。
在基于深度學(xué)習(xí)方法方面,隨著卷積神經(jīng)網(wǎng)絡(luò)(CNN)[3]在計(jì)算機(jī)視覺領(lǐng)域取得了實(shí)質(zhì)性的進(jìn)展,Kim[4]在預(yù)處理的詞向量上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行句子級(jí)分類任務(wù)的一系列實(shí)驗(yàn),其中就包括情感分類任務(wù),他提出的基于CNN的句子分類模型在多個(gè)公共數(shù)據(jù)集上都取得了較好的分類效果。Tang等人[5]提出一種基于門控遞歸神經(jīng)網(wǎng)絡(luò)的文檔建模方法,對(duì)來自IMDB的4個(gè)大型review數(shù)據(jù)集進(jìn)行了文檔級(jí)情感分類,實(shí)驗(yàn)結(jié)果表明門控遞歸神經(jīng)網(wǎng)絡(luò)在情感分類文檔建模方面明顯優(yōu)于標(biāo)準(zhǔn)遞歸神經(jīng)網(wǎng)絡(luò)。Wang等人[6]將長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[7]應(yīng)用到Tweets的情感分類任務(wù)中,取得了不錯(cuò)的效果。Tai等人[8]將傳統(tǒng)的LSTM結(jié)構(gòu)推廣到樹狀網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來進(jìn)行情感分類。后來,國(guó)內(nèi)外學(xué)者又將注意力機(jī)制[9-11]引入文本情感分類任務(wù)中,如Yang等人[12]針對(duì)文本分類提出一個(gè)層次化的注意力機(jī)制,分別就詞和句子構(gòu)建兩個(gè)層次的注意力機(jī)制,從而使得文本中重要性不同的句子和詞被給予了不同的“注意力”能力,實(shí)驗(yàn)結(jié)果相較以往的模型效果提升顯著。
Gui等人[13]利用異構(gòu)網(wǎng)絡(luò)對(duì)產(chǎn)品評(píng)論中的共享極性進(jìn)行建模,并學(xué)習(xí)用戶、評(píng)論的產(chǎn)品以及他們同時(shí)使用的詞語的表示形式?;舅枷胧鞘紫葮?gòu)建一個(gè)異構(gòu)網(wǎng)絡(luò),該網(wǎng)絡(luò)將用戶、產(chǎn)品、出現(xiàn)在產(chǎn)品評(píng)論中的單詞以及單詞的極性連接起來。根據(jù)構(gòu)建的網(wǎng)絡(luò),使用網(wǎng)絡(luò)嵌入方法學(xué)習(xí)節(jié)點(diǎn)的表示,隨后將其合并到卷積神經(jīng)網(wǎng)絡(luò)中以進(jìn)行情感分析。
Tang等人[14]采用深度學(xué)習(xí)的方法對(duì)用戶信息和產(chǎn)品信息進(jìn)行建模,捕獲重要的全局線索,然后將用戶、產(chǎn)品、評(píng)論文檔三者信息結(jié)合在一個(gè)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)中,從而有效地提升了評(píng)論文檔情感分類的性能。
Chen等人[15]提出了一個(gè)層次神經(jīng)網(wǎng)絡(luò),首先構(gòu)建一個(gè)分層的LSTM模型用于生成句子和文檔的表示,然后通過不同語義層次注意力機(jī)制來捕獲用戶和產(chǎn)品信息中的關(guān)鍵語義成分,從而實(shí)現(xiàn)評(píng)論的情感分類。該模型在IMDB、Yelp數(shù)據(jù)集上較Tang等人[14]提出的用戶產(chǎn)品神經(jīng)網(wǎng)絡(luò)(UPNN)模型取得了顯著的性能提升。
Ma等人[16]提出了一個(gè)級(jí)聯(lián)多路注意力(CMA)模型,該模型將用戶和產(chǎn)品信息的多種使用方式進(jìn)行級(jí)聯(lián),以影響單詞和句子層上注意力的產(chǎn)生。然后,通過多個(gè)表示向量很好地建模句子和文檔,為情感分類提供了豐富的信息。在IMDB和Yelp數(shù)據(jù)集上的實(shí)驗(yàn)均證明了該模型的有效性。
Dou[17]提出了一個(gè)用于文檔級(jí)情感分類的深層存儲(chǔ)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以同時(shí)捕獲用戶和產(chǎn)品信息。
Zou等人[18]提出了一種基于詞匯的有監(jiān)督注意力模型(LBSA),通過遞歸神經(jīng)網(wǎng)絡(luò)關(guān)注情感內(nèi)容,從而生成情感信息表示,該模型的優(yōu)勢(shì)是具有更好的可解釋性和更少的噪聲。
Wu等人[19]提出了一個(gè)新的網(wǎng)絡(luò)框架(HUAPA),從兩個(gè)不同的角度對(duì)評(píng)論進(jìn)行編碼,對(duì)兩個(gè)層次網(wǎng)絡(luò)分別通過用戶注意力和產(chǎn)品注意力來生成文本表示,然后通過一個(gè)組合策略最大限度地利用這兩種表示進(jìn)行訓(xùn)練和最終預(yù)測(cè)。
Kim等人[20]使用基向量來有效地合并基于神經(jīng)網(wǎng)絡(luò)的模型各個(gè)部分的分類元數(shù)據(jù),通過該方法可以更有效地表示分類元數(shù)據(jù),以定制模型的各個(gè)部分,包括未開發(fā)的部分,從而大大提高了模型的性能。
由以上相關(guān)工作可知,我們提出的基于用戶和產(chǎn)品信息對(duì)評(píng)論進(jìn)行情感分類的方案是可行的,為了更好地構(gòu)建用戶、產(chǎn)品信息與評(píng)論之間的關(guān)聯(lián),我們嘗試引入Kipf 等人[21]提出的一種名為圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)的神經(jīng)網(wǎng)絡(luò)模型,由于GCN近兩年才興起,在自然語言處理領(lǐng)域應(yīng)用并不多,尤其是在文本的情感分類任務(wù)方面,于是,我們嘗試將圖卷積神經(jīng)網(wǎng)絡(luò)引入評(píng)論的情感分類的任務(wù)中,經(jīng)過在Yeap.com(1)www.yelp.com數(shù)據(jù)集上測(cè)試,模型的實(shí)驗(yàn)效果得到穩(wěn)步提升。
本文首先通過詞嵌入層(embedding)分別對(duì)主評(píng)論文本(comment)、用戶歷史評(píng)論即用戶信息(user)、產(chǎn)品相關(guān)評(píng)論即產(chǎn)品信息(product)進(jìn)行詞向量矩陣轉(zhuǎn)換,將離散的序列映射為連續(xù)的向量,與此同時(shí),為了讓三者更有效地實(shí)現(xiàn)信息融合,并構(gòu)建用戶、產(chǎn)品信息與主評(píng)論之間的關(guān)聯(lián),本文引入圖的方法,將主評(píng)論信息、用戶信息、產(chǎn)品信息各自的文本作為節(jié)點(diǎn),又根據(jù)三者之間的依賴關(guān)系在各個(gè)節(jié)點(diǎn)之間構(gòu)建邊,得到一個(gè)鄰接矩陣。然后,將通過嵌入層得到的詞向量矩陣和通過構(gòu)建圖得到的鄰接矩陣一起傳入圖卷積神經(jīng)網(wǎng)絡(luò),進(jìn)一步地捕獲文本中的重要信息。最后將三者信息融合后的文本表示經(jīng)過一個(gè)全連接層,使用sigmiod激活函數(shù),輸出一個(gè)0~1之間的概率值,本文規(guī)定概率值大于0.5視為正向情感,反之視為負(fù)向情感。整體模型如圖1所示。
圖1 基于用戶與產(chǎn)品信息和圖卷積網(wǎng)絡(luò)的情感分類模型
本文考慮綜合用戶、產(chǎn)品、主評(píng)論三者的信息,通過三者之間的聯(lián)系,捕獲重要信息,從而實(shí)現(xiàn)評(píng)論的情感分類。于是我們先對(duì)整理好的每一組評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理,每一組評(píng)論數(shù)據(jù)包含1條主評(píng)論、m條用戶歷史評(píng)論、n條產(chǎn)品相關(guān)評(píng)論,根據(jù)詞頻統(tǒng)計(jì)后得到的詞匯表對(duì)每一條評(píng)論序列中的每一個(gè)單詞進(jìn)行編碼,對(duì)于主評(píng)論、用戶歷史評(píng)論、產(chǎn)品相關(guān)評(píng)論的第k條評(píng)論可以分別表示為:
其中,Ck表示主評(píng)論文本向量,Uk表示用戶歷史評(píng)論文本向量,Pk表示產(chǎn)品相關(guān)評(píng)論文本向量,另外,wCkn∈R(R:0~74 826的正整數(shù)集合,wCkn即為該詞在詞匯表V中對(duì)應(yīng)的編號(hào))。由于本實(shí)驗(yàn)中限定了輸入文本的最大長(zhǎng)度為250,于是對(duì)輸入的評(píng)論文本向量進(jìn)行長(zhǎng)度統(tǒng)一,長(zhǎng)度超過250的從句子前端截?cái)?,長(zhǎng)度不足的在句子前端補(bǔ)0。然后將以上得到的句子向量Ck、Uk、Pk傳至詞嵌入層(embedding)表示,分別得到詞向量表示如式(4)~式(6)所示。
為了讓神經(jīng)網(wǎng)絡(luò)更好地捕獲主評(píng)論、用戶歷史評(píng)論、產(chǎn)品相關(guān)評(píng)論三者之間的關(guān)聯(lián)信息,從而得到更準(zhǔn)確的文本表示,我們引入了圖的方法。先是創(chuàng)建節(jié)點(diǎn),本文中,我們將一條主評(píng)論文本和與之對(duì)應(yīng)的m條用戶歷史評(píng)論、n條產(chǎn)品相關(guān)評(píng)論各建一個(gè)節(jié)點(diǎn),即一張圖人1+m+n個(gè)節(jié)點(diǎn);然后構(gòu)建邊,本文中,我們構(gòu)建的是有向邊,將主評(píng)論文本的節(jié)點(diǎn)分別與用戶歷史評(píng)論的m個(gè)節(jié)點(diǎn)、產(chǎn)品相關(guān)評(píng)論的n個(gè)節(jié)點(diǎn)之間構(gòu)建雙向邊,為了加強(qiáng)對(duì)主評(píng)論文本自身重要信息的挖掘,我們對(duì)主評(píng)論文本建了一條自循環(huán)邊。另外,為了更好地從用戶的歷史評(píng)論中捕獲到用戶相關(guān)信息,我們又在用戶歷史評(píng)論的m個(gè)節(jié)點(diǎn)之間互相建立雙向邊。例如,對(duì)于表1中的樣例,我們將主評(píng)論文本記為C節(jié)點(diǎn),兩條用戶歷史評(píng)論分別記為U1節(jié)點(diǎn)、U2節(jié)點(diǎn),產(chǎn)品相關(guān)評(píng)論記為P1節(jié)點(diǎn)、P2節(jié)點(diǎn),然后,C節(jié)點(diǎn)分別與U1、U2、P1、P2節(jié)點(diǎn)構(gòu)建雙向邊,再對(duì)C節(jié)點(diǎn)建一條自循環(huán)邊。另外,再對(duì)U1、U2節(jié)點(diǎn)之間構(gòu)建雙向邊。本文的實(shí)驗(yàn)?zāi)P蛨D網(wǎng)絡(luò)的構(gòu)建如圖2所示,鄰接矩陣如圖3所示。
圖2 圖的構(gòu)建
圖3 鄰接矩陣
本文的研究目的是在線評(píng)論的情感分類,為了提升分類的準(zhǔn)確率,我們將主評(píng)論、用戶歷史評(píng)論、產(chǎn)品相關(guān)評(píng)論三者進(jìn)行信息融合來進(jìn)行評(píng)論情感分類?;诖?,本文提出一種基于圖卷積神經(jīng)網(wǎng)絡(luò)模型,首先通過2.1節(jié)可以得到主評(píng)論、用戶歷史評(píng)論、產(chǎn)品相關(guān)評(píng)論各自的文本表示,同時(shí)從2.2節(jié)中可以得到三者之間的鄰接矩陣,然后將三個(gè)文本向量矩陣和鄰接矩陣一同傳入圖卷積神經(jīng)網(wǎng)絡(luò),圖卷積神經(jīng)網(wǎng)絡(luò)主要分為以下三個(gè)步驟:
第一步:發(fā)射(send)。每一個(gè)節(jié)點(diǎn)將自身的特征信息經(jīng)過變換后發(fā)送給鄰居節(jié)點(diǎn)。也就是將主評(píng)論、用戶歷史評(píng)論、產(chǎn)品相關(guān)評(píng)論各自的特征信息進(jìn)行抽取變換,然后發(fā)送給各自的鄰居節(jié)點(diǎn)。
第二步:接收(receive)。每個(gè)節(jié)點(diǎn)將鄰居節(jié)點(diǎn)的特征信息聚集起來,這一步是在對(duì)節(jié)點(diǎn)的局部結(jié)構(gòu)信息進(jìn)行融合。在本文中,我們將用戶信息和產(chǎn)品信息相關(guān)節(jié)點(diǎn)中的重要特征信息與主評(píng)論文本信息進(jìn)行融合。
第三步:變換(transform)。把前面的信息聚集之后做非線性變換,增加模型的表達(dá)能力,即對(duì)第二步中主評(píng)論信息、用戶信息、產(chǎn)品信息三者匯集融合后的特征信息進(jìn)行非線性變換。
經(jīng)過圖網(wǎng)絡(luò)的一次傳播,每個(gè)節(jié)點(diǎn)都表示成了其鄰域節(jié)點(diǎn)的集合,但是這樣缺少了自身的特征,于是本文中我們還添加了自循環(huán),在應(yīng)用傳播規(guī)則前將單位矩陣添加到鄰接矩陣A中,通過GCN執(zhí)行正向傳播。傳播規(guī)則如式(7)所示。
f(Hi,A)=σ(A*Hi*Wi)
(7)
隨后將sigmoid函數(shù)逐行應(yīng)用于GCN中的最后一層,計(jì)算已知節(jié)點(diǎn)標(biāo)簽上的交叉熵?fù)p失,反向傳播損失并更新每層中的權(quán)重矩陣W,最后,用作分類器的邏輯回歸是一個(gè)分類層,它通過對(duì)最后一個(gè)圖形卷積層提供的每個(gè)節(jié)點(diǎn)的特性求和并對(duì)該和應(yīng)用sigmoid函數(shù)來執(zhí)行邏輯回歸。
本文使用的是Yelp Dataset Challenge 2013提供的數(shù)據(jù)。在實(shí)驗(yàn)中,我們先對(duì)數(shù)據(jù)進(jìn)行清洗、歸類、整理等一系列預(yù)處理,得到兩個(gè)數(shù)據(jù)集:一個(gè)是訓(xùn)練集,38 139組數(shù)據(jù),正樣例為32 264組,負(fù)樣例為5 875組;另一個(gè)是測(cè)試集,16 168組數(shù)據(jù),正樣例為13 671組,負(fù)樣例為2 497組。其中,每組數(shù)據(jù)包含一條主評(píng)論,即需要進(jìn)行情感分類的評(píng)論文本,另外還包含與之對(duì)應(yīng)的m條該用戶的歷史評(píng)論,即通過該用戶的歷史評(píng)論來獲取該用戶的相關(guān)信息,以及n條產(chǎn)品的相關(guān)評(píng)論,即通過產(chǎn)品的相關(guān)評(píng)論來獲取該產(chǎn)品的相關(guān)信息。這里的m條用戶歷史評(píng)論和n條產(chǎn)品相關(guān)評(píng)論是通過與主評(píng)論文本計(jì)算相似度篩選得到的,需要篩選出相似度較高的評(píng)論文本,且評(píng)論文本長(zhǎng)度不低于25個(gè)字符。經(jīng)過嚴(yán)格的篩選,很多評(píng)論文本不符合要求,我們發(fā)現(xiàn)很多主評(píng)論最多對(duì)應(yīng)4條用戶歷史評(píng)論、4條產(chǎn)品相關(guān)評(píng)論,為了保證用戶信息和產(chǎn)品信息對(duì)主評(píng)論的客觀影響相對(duì)均衡,故這里的m、n均取4。
本實(shí)驗(yàn)為了避免模型對(duì)數(shù)據(jù)的過度依賴,同時(shí)為了保證神經(jīng)網(wǎng)絡(luò)學(xué)到的信息更為準(zhǔn)確,做了訓(xùn)練樣本的均衡處理;又為了保證和基準(zhǔn)模型實(shí)驗(yàn)的一致性,為了增強(qiáng)模型的泛化能力,我們每次的模型訓(xùn)練都是從總訓(xùn)練集隨機(jī)抽取正負(fù)樣例各800組,共計(jì)1 600組作為訓(xùn)練集。再對(duì)訓(xùn)練集用直接計(jì)數(shù)統(tǒng)計(jì)法進(jìn)行詞頻統(tǒng)計(jì),根據(jù)詞頻由高到低進(jìn)行倒排序,再將排序好的詞表依次從0開始編號(hào),詞為鍵,編號(hào)為值,隨后得到一個(gè)具有74 826個(gè)鍵-值對(duì)的詞匯字典。然后根據(jù)詞匯字典對(duì)每一組評(píng)論數(shù)據(jù)的每一條評(píng)論文本序列進(jìn)行編碼,即就是將文本序列的每個(gè)詞轉(zhuǎn)換成詞匯字典中該詞相對(duì)應(yīng)的編號(hào),于是就得到主評(píng)論文本向量表示Ck、用戶歷史評(píng)論文本向量表示Uk、產(chǎn)品評(píng)論文本向量表示Pk。實(shí)驗(yàn)數(shù)據(jù)集的分布情況如表2所示。
表2 實(shí)驗(yàn)數(shù)據(jù)集分布情況
為了獲取模型的最優(yōu)參數(shù)集合,需要調(diào)節(jié)的參數(shù)如表3所示。
表3 模型參數(shù)調(diào)節(jié)列表
本實(shí)驗(yàn)主要采用準(zhǔn)確率來衡量分類的效果,相關(guān)公式如式(8)所示。
Acc=TP/(TP+FP)
(8)
其中,TP表示將正例預(yù)測(cè)為正例的個(gè)數(shù),F(xiàn)P表示將負(fù)例預(yù)測(cè)為正例的個(gè)數(shù)。
隨著人工智能時(shí)代的快速發(fā)展,計(jì)算機(jī)科學(xué)與技術(shù)不斷地進(jìn)步,在情感分析領(lǐng)域已經(jīng)產(chǎn)生了很多優(yōu)秀的算法模型,本實(shí)驗(yàn)選用了近年來相對(duì)優(yōu)異的以下幾種方法來進(jìn)行實(shí)驗(yàn)的對(duì)比分析。
(1)LSTM:自Wang等人[6]將LSTM應(yīng)用到Tweets的情感分類任務(wù)中取得了不錯(cuò)的效果后,大家紛紛效仿,將LSTM應(yīng)用到各個(gè)任務(wù)中,本實(shí)驗(yàn)直接采用LSTM模型對(duì)評(píng)論文本進(jìn)行建模,并進(jìn)行評(píng)論情感分類,將其作為本文的基準(zhǔn)模型。
(2)CMRCTC:該模型是Kim等人[20]提出的一種用于自定義文本分類的分類元數(shù)據(jù)的表示方法,使用基向量來有效地合并基于神經(jīng)網(wǎng)絡(luò)模型的各個(gè)部分的分類元數(shù)據(jù),通過該方法可以更有效地表示分類元數(shù)據(jù),以定制模型的各個(gè)部分,包括未開發(fā)的部分,從而大大提高模型的性能。
(3)NSC:該模型是Chen等人[15]提出的一個(gè)層次神經(jīng)網(wǎng)絡(luò),構(gòu)建一個(gè)分層的LSTM模型,即詞級(jí)和句子級(jí)LSTM層,分別用于生成句子和文檔的表示,從而實(shí)現(xiàn)評(píng)論的情感分類。
(4)NSC+LA:Chen等人[15]在NSC模型基礎(chǔ)上添加本地語義注意力機(jī)制來捕獲評(píng)論信息中的關(guān)鍵語義成分,從而實(shí)現(xiàn)評(píng)論的情感分類。
(5)NSC+UPA:Chen等人[15]在NSC模型基礎(chǔ)上,引入用戶和產(chǎn)品的信息,并且用詞級(jí)的用戶產(chǎn)品注意力機(jī)制(UPA)獲得句子表示,再用句子級(jí)的UPA獲得文檔表示,從而實(shí)現(xiàn)評(píng)論的情感分類。
(6)HUAPA:該模型是Wu等人[19]提出的一個(gè)新的網(wǎng)絡(luò)框架,從兩個(gè)不同的角度對(duì)評(píng)論進(jìn)行編碼,對(duì)兩個(gè)層次網(wǎng)絡(luò)分別通過用戶注意力和產(chǎn)品注意力來生成文本表示,然后通過一個(gè)組合策略最大限度地利用這兩種表示進(jìn)行訓(xùn)練和最終預(yù)測(cè)。
本文主要進(jìn)行了兩組實(shí)驗(yàn),一是將本文提出的基于用戶、產(chǎn)品信息和圖卷積網(wǎng)絡(luò)的情感分類模型(GCN+UP)與基準(zhǔn)系統(tǒng)一一進(jìn)行對(duì)比;二是將GCN+UP與網(wǎng)絡(luò)結(jié)構(gòu)不同的GCN模型做對(duì)比。
3.5.1 實(shí)驗(yàn)對(duì)比分析
為了驗(yàn)證我們基于用戶、產(chǎn)品信息的評(píng)論情感分類方法的有效性,同時(shí)也為了驗(yàn)證引入圖卷積神經(jīng)網(wǎng)絡(luò)模型情感分類的效果,本文選擇了在自然語言處理領(lǐng)域一直表現(xiàn)優(yōu)異的長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM模型進(jìn)行對(duì)比,以及同近年來同樣基于用戶與產(chǎn)品信息進(jìn)行情感分類的模型中表現(xiàn)相對(duì)優(yōu)異的模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示。
表4 與基準(zhǔn)模型進(jìn)行對(duì)比
從表4可以總結(jié)出以下結(jié)論:
(1)將GCN+UP模型同LSTM、NSC、NSC+LA這三個(gè)模型進(jìn)行對(duì)比,從實(shí)驗(yàn)結(jié)果可以看出,GCN+UP的準(zhǔn)確率明顯高于其他三個(gè)模型,這是因?yàn)長(zhǎng)STM、NSC、NSC+LA這三個(gè)模型只是針對(duì)主評(píng)論文本本身建模,而GCN+UP則是融合了用戶與產(chǎn)品信息的模型,由于加入用戶與產(chǎn)品信息可以讓神經(jīng)網(wǎng)絡(luò)捕獲到更多的重要信息,學(xué)習(xí)到更準(zhǔn)確的特征表示,故從這幾組對(duì)比實(shí)驗(yàn)可以驗(yàn)證我們提出的基于用戶與產(chǎn)品信息進(jìn)行評(píng)論情感分類的方法是可行且有效的。
(2)通過GCN+UP模型與6個(gè)基準(zhǔn)模型的對(duì)比實(shí)驗(yàn)結(jié)果可以看出,本文提出的基于用戶與產(chǎn)品信息和圖卷積網(wǎng)絡(luò)的情感分類模型準(zhǔn)確率要明顯高于其他6個(gè)基準(zhǔn)模型,尤其是和CMRCTC、NSC+UPA、HUAPA這3個(gè)基準(zhǔn)模型相比,同樣都是基于用戶、產(chǎn)品信息來進(jìn)行情感分類,但GCN+UP模型效果明顯優(yōu)于其他3個(gè)模型,這是因?yàn)椴捎脠D卷積的方法,通過節(jié)點(diǎn)和邊,讓信息進(jìn)行有效的傳遞、匯集、變換,這樣不僅可以很好地構(gòu)建三者之間的聯(lián)系,還可以從中捕獲到重要的信息,從而提高模型的學(xué)習(xí)表示能力。
由此,不僅可以證明我們提出的將用戶與產(chǎn)品信息作為輔助特征進(jìn)行評(píng)論情感分類的方法是有效的,還很好地驗(yàn)證了我們?cè)O(shè)計(jì)的基于圖卷積神經(jīng)網(wǎng)絡(luò)的情感分類模型也是可行的,且模型效果明顯優(yōu)于基準(zhǔn)模型。
3.5.2 網(wǎng)絡(luò)結(jié)構(gòu)的影響
為了驗(yàn)證模型的有效性,在模型相應(yīng)參數(shù)保持不變的情況下,考慮不同網(wǎng)絡(luò)結(jié)構(gòu)的影響,我們將本文提出的GCN+UP模型與以下幾種網(wǎng)絡(luò)結(jié)構(gòu)不同的GCN模型做對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。
表5 不同結(jié)構(gòu)GCN對(duì)比
(1)GCN_C:在構(gòu)建圖時(shí),僅對(duì)主評(píng)論節(jié)點(diǎn)自身構(gòu)建自循環(huán)邊,然后傳入圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)主評(píng)論自身的重要信息,從而實(shí)現(xiàn)情感分類。
(2)GCN_C+CU:在構(gòu)建圖時(shí),不僅對(duì)主評(píng)論節(jié)點(diǎn)自身構(gòu)建自循環(huán)邊,還在主評(píng)論文本和用戶歷史評(píng)論之間構(gòu)建雙向邊,使得圖卷積神經(jīng)網(wǎng)絡(luò)可以捕獲主評(píng)論和用戶歷史評(píng)論之間的關(guān)聯(lián)信息,從而實(shí)現(xiàn)情感分類。
(3)GCN_C+CP:該模型和GCN_C+CU模型類似,不僅對(duì)評(píng)論節(jié)點(diǎn)自身構(gòu)建自循環(huán)邊,還在主評(píng)論文本和產(chǎn)品相關(guān)評(píng)論之間構(gòu)建雙向邊,使得圖卷積神經(jīng)網(wǎng)絡(luò)可以捕獲主評(píng)論和產(chǎn)品相關(guān)評(píng)論之間的關(guān)聯(lián)信息,從而實(shí)現(xiàn)情感分類。
(4)GCN_C+CU+CP:該模型相當(dāng)于是對(duì)上述的三個(gè)模型進(jìn)行了結(jié)合,不僅對(duì)主評(píng)論節(jié)點(diǎn)自身構(gòu)建自循環(huán)邊,還在主評(píng)論文本和用戶歷史評(píng)論之間,以及主評(píng)論文本和產(chǎn)品相關(guān)評(píng)論之間構(gòu)建雙向邊,使得圖卷積神經(jīng)網(wǎng)絡(luò)不僅可以捕獲主評(píng)論和用戶歷史評(píng)論之間的關(guān)聯(lián)信息,還可以捕獲主評(píng)論和產(chǎn)品相關(guān)評(píng)論之間的關(guān)聯(lián)信息,從而實(shí)現(xiàn)情感分類。
(5)GCN+UP:即本文提出的主模型,在上述GCN_C+CU+CP模型基礎(chǔ)上,再對(duì)用戶歷史評(píng)論文本自身構(gòu)建自循環(huán)邊,從而實(shí)現(xiàn)用戶歷史評(píng)論中重要信息的捕獲、主評(píng)論中重要信息的捕獲、主評(píng)論和用戶歷史評(píng)論之間關(guān)聯(lián)信息的捕獲、主評(píng)論和產(chǎn)品相關(guān)評(píng)論之間關(guān)聯(lián)信息的捕獲,以達(dá)到提升情感分類的準(zhǔn)確率的作用。
從表5的實(shí)驗(yàn)結(jié)果我們可以得出以下結(jié)論:
(1)由GCN_C模型實(shí)驗(yàn)結(jié)果可見,只對(duì)主評(píng)論構(gòu)建自循環(huán)邊的模型分類準(zhǔn)確率較低,因?yàn)檫@樣無法獲取到用戶的歷史評(píng)論中的用戶信息以及產(chǎn)品相關(guān)評(píng)論中的產(chǎn)品信息。
(2)通過GCN_C+CU和GCN_C+CP兩組模型的對(duì)比可以看出,GCN_C+CP的準(zhǔn)確率略高于GCN_C+CU,我們猜測(cè)是主評(píng)論和產(chǎn)品相關(guān)評(píng)論之間有較多的交互信息,所以它們的聯(lián)系更密切一些,捕獲到重要的信息更多一些。
(3)將本文提出的GCN+UP模型和其他4個(gè)不同結(jié)構(gòu)的GCN模型做對(duì)比,我們可以很明顯地看出GCN+UP模型的分類效果最佳,同時(shí)也可以看出不同結(jié)構(gòu)的GCN模型的實(shí)驗(yàn)結(jié)果是有一定差異的,說明雖然引入圖卷積對(duì)評(píng)論的情感分類有一定的幫助,但是需要合理構(gòu)建圖和邊才能讓圖卷積發(fā)揮出比較好的作用,從而更好地實(shí)現(xiàn)評(píng)論的情感分類。
本文針對(duì)在線評(píng)論網(wǎng)站的主評(píng)論進(jìn)行情感分類,考慮到用戶的歷史評(píng)論、產(chǎn)品相關(guān)評(píng)論與主評(píng)論之間有著密切的聯(lián)系,可能會(huì)對(duì)主評(píng)論的情感分類產(chǎn)生一定的影響,提出了一種基于用戶與產(chǎn)品信息和圖卷積網(wǎng)絡(luò)的情感分類模型,通過對(duì)三者之間合理地建圖建邊,高效地捕獲文本重要信息,增強(qiáng)模型對(duì)于文本的特征表示能力,從而實(shí)現(xiàn)主評(píng)論的情感分類。經(jīng)過反復(fù)實(shí)驗(yàn),與其他模型一一對(duì)比,最終得到了本文的GCN+UP模型,實(shí)驗(yàn)效果相比基準(zhǔn)模型有顯著的提升。