萬世偉
摘要:本文依據(jù)虛假評論的檢測特點(diǎn),圍繞基于評論內(nèi)容的虛假評論、基于評論者行為的虛假評論以及融合這兩類特征來檢測虛假評論等方面展開了研究,分析虛假評論檢測原型系統(tǒng)的構(gòu)建。
關(guān)鍵詞:虛假評論;評論內(nèi)容;評論者
一、引言
由于存在某些利益關(guān)系,商品在線評論可能存在一些不真實或虛假的評論信息,比如某些人會刻意的吹捧或者詆毀某些產(chǎn)品,也即在網(wǎng)上存在著很多的評論數(shù)據(jù)是不真實的?;ヂ?lián)網(wǎng)上的不真實評論來源于兩部分:一是某些廠商為了推廣自己的產(chǎn)品或者服務(wù),借助電子商務(wù)平臺做宣傳。二是評論者在某些利益的驅(qū)動下,發(fā)布虛假的評論信息,這是由互聯(lián)網(wǎng)的開放性決定的,人們可以無限制的發(fā)表自己的觀點(diǎn)。此外,消費(fèi)者購買商品時,往往會參照其他人購買該商品的評論信息,這是因為消費(fèi)者希望買到令自己滿意的商品。當(dāng)人們參考其他消費(fèi)者的評論時,會發(fā)現(xiàn)一些讓人產(chǎn)生質(zhì)疑的虛假評論,這就在一定程度上影響了該評論信息的參考價值,從而誤導(dǎo)消費(fèi)者,損害消費(fèi)者的利益。
二、虛假評論概述
虛假評論是由消費(fèi)者發(fā)表的不真實的、不符合實際的評論,具有欺騙性,從而誤導(dǎo)并損害消費(fèi)者的利益。由于在線評論通過虛假評論者的掩飾和喬裝,使得垃圾評論與正常的評論看起來是沒有差別的,這就導(dǎo)致虛假評論即使采用人工方法也難以完全檢測。于是相關(guān)學(xué)者不得不針對虛假評論檢測任務(wù)的特點(diǎn),結(jié)合統(tǒng)計學(xué)以及機(jī)器學(xué)習(xí)技術(shù)來對虛假評論進(jìn)行檢測。
(一)基于評論內(nèi)容的虛假評論監(jiān)測
在基于評論內(nèi)容的虛假在線評論檢測方面,Jindal N等人認(rèn)為重復(fù)的評論即是虛假評論,利用重復(fù)的在線評論數(shù)據(jù)集,采用shingle算法識別重復(fù)的評論。如果兩條評論的相似度大于0.9時,則判定這兩條評論是重復(fù)性的評論,然后采用logistic回歸方法建立檢測學(xué)習(xí)模型對評論進(jìn)行分類,分為虛假評論和非虛假評論兩大類。Tan等將評論描述成電路上的電阻,利用電阻距離來衡量評論之間的語義相似性,提出了一種基于電阻網(wǎng)絡(luò)的無關(guān)虛假評論自動檢測方法。
(二)基于評論者行為的虛假評論檢測
基于評論者行為的虛假在線評論檢測方法是以用戶為中心,采用用戶的行為特征建立分類器的一種檢測方法。Lim等從用戶評分行為出發(fā),依據(jù)經(jīng)驗對虛假評論者行為進(jìn)行建模,并根據(jù)過往經(jīng)驗設(shè)置各種行為特征的權(quán)重,通過尋找虛假評論的制造者繼而達(dá)到檢測虛假評論的目的。論文之中重點(diǎn)分析的行為包括虛假評論者通常會重點(diǎn)關(guān)注特定的產(chǎn)品或產(chǎn)品組、對所關(guān)注的產(chǎn)品或服務(wù)所給予的評價分?jǐn)?shù)與其他評論者分?jǐn)?shù)差別很大、對所關(guān)注的產(chǎn)品可能會發(fā)表多次評分級別相似的評論分?jǐn)?shù)且與其他評論者的分?jǐn)?shù)差別較大、在較短時間內(nèi)對所關(guān)注的產(chǎn)品做多次評論、早期參與評論且嚴(yán)重偏離平均值等。
三、虛假評論檢測原型系統(tǒng)
本文計對以上的研究問題和虛假評論的檢測任務(wù)特點(diǎn),具體研究內(nèi)容分以下幾個方面:
(一)研究主題-對立情感依賴模型檢測方法
針對評論信息的內(nèi)容特征,分析評論內(nèi)容的特性,考慮情感的依賴關(guān)系,研究評論內(nèi)容與主題對立情感依賴概率模型的構(gòu)建。在一條評論語句中可能存在著連接詞,而連接詞往往會影響情感詞的傾向性,例如,用“和”連接的兩個情感詞,情感傾向往往是類似的;而用“但是”連接的兩個情感詞,情感傾向常常是相反的。TOSM模型能夠提取評論的主題-對立情感信息,但其假設(shè)詞匯的情感是獨(dú)立的,但在實際中,情感詞的傾向性是相關(guān)的。因此,我們基于情感詞的情感傾向的相關(guān)性,提出一種主題-對立情感依賴模型(topic-opposite sentiment dependency model,TOSDM)來用于提取評論中的主題以及主題對應(yīng)的對立情感信息。該模型在TOSM模型的基礎(chǔ)上,考慮情感詞之間的依賴關(guān)系、詞匯的情感類別形成一個馬爾科夫鏈的形式,每一個詞的情感類別和前一個詞的情感類別是依賴的。TOSM模型是四層,該模型產(chǎn)生評論中的每一個詞,先從文檔-主題概率分布中選擇一個主題,然后從參數(shù)為ξ的Dirichlet分布中產(chǎn)生一個依賴變量x,由依賴變量x控制詞的情感類別的選擇,如果xi = 1,表明第i個詞的情感傾向性和第i-1個詞相同;如果xi = -1,則表明第i個詞的情感傾向性和第i-1個詞是相反的;如果xi = 0,則表明第i個詞和前一個詞的情感傾向性無關(guān)。這時從主題-情感分布中選擇一類情感,可以選擇褒義和貶義兩類情感,最后從選擇的情感詞匯中選擇情感詞,重復(fù)以上規(guī)則從而產(chǎn)生一條評論。利用該模型提取評論內(nèi)容主題及對應(yīng)的情感信息,結(jié)合評論的主題以及情感信息,研究評論內(nèi)容特征的提取方法,利用這些評論內(nèi)容的特征,采用有監(jiān)督的分類器,進(jìn)而研究基于評論內(nèi)容的虛假評論檢測方法。
(二)研究無監(jiān)督分類模型檢測方法
基于評論者行為的研究常是把虛假評論的識別看作是一個分類的過程,利用有監(jiān)督的支持向量機(jī)SVM、決策樹等分類器在人工標(biāo)注好的虛假評論集中進(jìn)行學(xué)習(xí),建立統(tǒng)計模型來進(jìn)行虛假評論檢測。但是,基于有監(jiān)督的檢測方法需要大量人工標(biāo)注的評論數(shù)據(jù)集,人工標(biāo)注評論數(shù)據(jù)既耗時又費(fèi)力,因此,如何利用未標(biāo)記數(shù)據(jù)對虛假評論進(jìn)行檢測是另一個關(guān)鍵問題。評論者的行為數(shù)據(jù)通常表現(xiàn)出評分較高或者較低、以某一個產(chǎn)品或者服務(wù)為目標(biāo)發(fā)布虛假評論、以某一類產(chǎn)品或者服務(wù)為目標(biāo)發(fā)布虛假評論等不同的特點(diǎn),這些評論數(shù)據(jù)的特點(diǎn)與真實評論和虛假評論之間有很大關(guān)聯(lián)性。我們首先考慮把這些不同特點(diǎn)的評論數(shù)據(jù)自動地歸入不同的類中,如:以某一個產(chǎn)品或者服務(wù)為目標(biāo)發(fā)布虛假評論的評論數(shù)據(jù),把它們歸為一類;之后,對歸類好的評論數(shù)據(jù),以每個類偏離整體評論數(shù)據(jù)集的程度,研究基于評論者行為的虛假評論檢測方法。
(三)研究融合評論內(nèi)容和評論者行為的半監(jiān)督虛假評論檢測方法
在以上兩個研究方法的基礎(chǔ)上,利用評論內(nèi)容和評論者行為特征,融合這兩類特征方面,假設(shè)這兩類特征是相互獨(dú)立,同時考慮利用未標(biāo)注的數(shù)據(jù)來提高識別效果,采用基于Co-Trainning的半監(jiān)督學(xué)習(xí)算法對虛假評論進(jìn)行檢測,設(shè)計出一種融合這兩類特征的半監(jiān)督虛假評論識別方法。訓(xùn)練兩個學(xué)習(xí)器的樣本集滿足以下兩個充分冗余的視圖:1、兩個數(shù)據(jù)集都足以用來描述該問題,即如果訓(xùn)練樣本足夠,分類器能夠分別從兩個數(shù)據(jù)集上學(xué)習(xí)到強(qiáng)分類器;2、在給定標(biāo)記時,兩個數(shù)據(jù)集是相互條件獨(dú)立。Co-training算法就是滿足以上條件的兩個視圖利用有標(biāo)記樣本分別訓(xùn)練出各自的分類器,然后使用這兩個分類器分別處理無標(biāo)記樣本。在協(xié)同訓(xùn)練的迭代過程中,對每個分類器選擇分類結(jié)果之中置信度高的數(shù)據(jù),再將它們加入到對方分類器的已標(biāo)記數(shù)據(jù)中,參與新一輪的分類器訓(xùn)練。直到使分類器的性能收斂或者已沒有未標(biāo)記數(shù)據(jù)為止,迭代終止。Co-training的兩個分類器分別使用對方標(biāo)注出的數(shù)據(jù)來幫助自己進(jìn)一步的來學(xué)習(xí)訓(xùn)練,以達(dá)到更好的分類效果。
(四)設(shè)計并實現(xiàn)虛假評論檢測原型系統(tǒng)
結(jié)合以上所討論的評論內(nèi)容特征、評論者行為特征,融合評論內(nèi)容特征和評論者行為特征構(gòu)建虛假評論檢測的原型系統(tǒng),為虛假評論檢測提供重要支撐。(作者單位:南京財經(jīng)大學(xué))
參考文獻(xiàn):
[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報,2010,21(8):1834-1848.
[2]祁翔宇.虛假評論檢測系統(tǒng)的設(shè)計與實現(xiàn)[D].大連理工大學(xué),2013.