尤苡名
(浙江理工大學(xué) 信息學(xué)院,杭州 310018)
互聯(lián)網(wǎng)的迅速發(fā)展使線上平臺在人們購物、旅游、用餐、住宿等各個方面占據(jù)了重要的作用.這些線上平臺擁有大量評論.評論信息作為橋梁聯(lián)結(jié)消費者和產(chǎn)品,不僅可以影響消費者的決策,還能作為反饋來促進(jìn)商家改善產(chǎn)品細(xì)節(jié).然而,評論者個體因為利益關(guān)系、品牌偏見等原因發(fā)布了許多虛假評論.他們甚至?xí)f(xié)同合作發(fā)布虛假評論,組成虛假評論群組.據(jù)調(diào)查顯示[1],美國版大眾點評網(wǎng)站Yelp上欺騙性評論的比例已從2006年的5%漲至2013年的20%.虛假評論誤導(dǎo)消費者決策,破壞消費體驗,危害性大.
2008年,Jindal等[2]首次對產(chǎn)品虛假評論開展研究并給出虛假評論的3種類型:
(1)不真實評論.評論制造者為了提高某產(chǎn)品的銷量,不管產(chǎn)品真實的特性大肆贊美該產(chǎn)品,或者為了壓制某產(chǎn)品的銷量詆毀該產(chǎn)品.
(2)只關(guān)注品牌的評論.評論者因為產(chǎn)品的品牌、廠商和銷售商對產(chǎn)品帶有偏見.
(3)無關(guān)評論.一般分為兩類:廣告和其他與評論無關(guān)的文本.
由于評論內(nèi)容多為短文本,虛假評論比垃圾網(wǎng)頁和垃圾郵件更難識別[3].國內(nèi)外學(xué)者重點研究第一類虛假評論.
虛假評論檢測難點在于找出有效的特征來更好地區(qū)分虛假評論與真實評論.最早的時候,研究者從評論內(nèi)容提取語言特征(例如,詞袋特征)用于檢測.然而,有經(jīng)驗的評論者編寫虛假評論模仿真實評論,所以利用評論內(nèi)容識別虛假評論,準(zhǔn)確性不高.于是,研究者結(jié)合行為異常信息來提高檢測準(zhǔn)確性.虛假評論檢測另一難點在于缺少標(biāo)準(zhǔn)標(biāo)注數(shù)據(jù)集評估算法性能.研究者引入圖結(jié)構(gòu),利用評論者、評論、產(chǎn)品之間的關(guān)系特征,把檢測任務(wù)轉(zhuǎn)為排序或者聯(lián)合分類問題,已知節(jié)點的信息通過連接的邊傳遞到未知節(jié)點.此類方法適用于標(biāo)注數(shù)據(jù)集少的情況.da方法檢測的效率不高.于是,研究者利用表示學(xué)習(xí)方法讓模型學(xué)習(xí)表示評論,減少人為設(shè)計特征的繁瑣性.
本文第1節(jié)從檢測的一般流程、特征分類、檢測方法三部分介紹虛假評論檢測技術(shù),重點比較了各類方法的優(yōu)缺點.第2節(jié)列舉了研究者們使用的合成數(shù)據(jù)集和真實世界的數(shù)據(jù)集.第3節(jié)對全文進(jìn)行總結(jié),同時探索了未來的研究方向.
虛假評論檢測的一般流程分為:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、特征設(shè)計、模型設(shè)計、模型評估.數(shù)據(jù)收集指自己爬取網(wǎng)頁數(shù)據(jù)或者下載他人整理的語料庫.數(shù)據(jù)預(yù)處理對后續(xù)的虛假評論檢測性能有著很大的影響[4].該階段去除了不相關(guān)信息,并對文本進(jìn)行分詞、去除停用詞、詞性分析.為了盡可能精確有效地表示評論,需要對數(shù)據(jù)的特征進(jìn)行分析設(shè)計,特征設(shè)計主要包括特征提取和特征選擇.評論特征通過歸一化或者規(guī)范化后輸入到設(shè)計的虛假評論檢測模型中.模型評估用于檢驗?zāi)P偷姆夯阅?常用的評估指標(biāo)有:AUC值、F1值、準(zhǔn)確率Accuracy、精確率Precision、召回率Recall.
研究中常用的特征可分為四類[5]:評論者的語言特征、評論的語言特征、評論者的行為特征和評論的行為特征,具體如表1所示.前兩類來自評論內(nèi)容,后兩類由元數(shù)據(jù)產(chǎn)生.這些特征是在以往的研究工作中統(tǒng)計出來的,依賴于專家們對不同領(lǐng)域數(shù)據(jù)的經(jīng)驗知識.
1.3.1 基于語言特征與行為特征的方法
基于語言學(xué)特征的方法屬于早期的研究方法.詞袋特征(unigram/bigram/trigram)是虛假評論識別最為常用的語言特征[6-8].Jindal等[2]提取重復(fù)評論的bigram特征,在亞馬遜數(shù)據(jù)集訓(xùn)練回歸模型,識別只關(guān)注品牌的評論和評論文本無關(guān)的兩類垃圾評論,AUC值高達(dá)90%.
Ott等[7]僅使用bigram特征在合成的黃金標(biāo)準(zhǔn)數(shù)據(jù)集訓(xùn)練支持向量機SVM模型,分類結(jié)果Accuracy達(dá)到89.6%.Feng等[9]利用unigram、深層句法特征和SVM模型對同一合成數(shù)據(jù)集進(jìn)行驗證,將Accuracy提高到91.2%.
Li等[10]擴充了黃金標(biāo)準(zhǔn)數(shù)據(jù)集,研究了虛假評論檢測領(lǐng)域遷移性問題.研究者利用Hotel數(shù)據(jù)集的Unigram特征訓(xùn)練SVM模型和稀疏相加生成模型(SAGE),然后在Restaurant和Doctor數(shù)據(jù)集上測試模型.Hotel數(shù)據(jù)和Restaurant數(shù)據(jù)相比有較多相似的屬性,而和Doctor相比相似性較少.實驗發(fā)現(xiàn)兩個模型在Restaurant數(shù)據(jù)集上的分類Accuracy都能達(dá)到75%左右,而在Doctor數(shù)據(jù)集上Accuracy只有50%左右.實驗說明詞袋特征用于虛假評論檢測領(lǐng)域遷移性差.
由于人工標(biāo)注樣例誤差大,任亞峰等[11]提出PU學(xué)習(xí)算法 (Positive-Unlabeled learning algorithm)識別虛假評論.作為半監(jiān)督性學(xué)習(xí)算法,PU算法在評論數(shù)據(jù)包含少量正例P和剩余全為未標(biāo)注樣例U的情況下構(gòu)造分類器,自動標(biāo)記未標(biāo)注樣例U.核心是確定間諜樣例的類別標(biāo)簽.該方法首先從未標(biāo)注評論樣例中抽取了可信負(fù)例,利用LDA主題模型抽取了它們的主題分布特征,并使用K-Means聚類主題分布相似的可信負(fù)例.然后,用Rocchio分類器識別出10個代表性正負(fù)樣例,并以代表性正負(fù)樣例為基準(zhǔn),混合種群性和個體性策略確定間諜樣例的類別標(biāo)簽.最后,利用多核學(xué)習(xí)算法建立最終的分類器.實驗在黃金標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行,識別Accuracy達(dá)到 83.21%.然而,如果間諜樣例所在子類正負(fù)樣例數(shù)目相近,并且間諜樣例與代表性正負(fù)樣例的相似度都不高,算法就難以確定間諜樣例的類別標(biāo)簽.此外,多核學(xué)習(xí)算法將特征映射到高維空間區(qū)分,效率不高,不適合處理大規(guī)模評論數(shù)據(jù).
表1 常用的評論、評論者的語言特征和行為特征
趙軍等[12]提出融合情感極性和轉(zhuǎn)折詞的邏輯回歸模型識別虛假評論.該方法使用優(yōu)勢比和逐步回歸變量篩選方法,比較了10個文本特征和行為特征變量的顯著性水平,最后選擇了6個對邏輯回歸模型影響最為顯著的特征.實驗在Amazon數(shù)據(jù)集上進(jìn)行,發(fā)現(xiàn)文本長度、情感強度和是否包含轉(zhuǎn)折詞的優(yōu)勢比最高.將轉(zhuǎn)折詞和情感特征融入模型有效地提高了檢測的準(zhǔn)確性,因為真實評論者在評論時往往比較全面.然而,該模型只是粗略地計算句子的情感極性,忽略了不同副詞帶來的情感強度的差異.此外,所選擇的特征中不包含時間相關(guān)的特征,而實際上虛假評論存在爆發(fā)時間窗.模型仍需要改進(jìn).
基于語言特征的方法應(yīng)用于點評網(wǎng)站中的評論數(shù)據(jù)時檢測效果較差.Mukherjee等[13]使用bigram特征在黃金標(biāo)準(zhǔn)數(shù)據(jù)集上訓(xùn)練SVM模型,然后將訓(xùn)練好的模型在Yelp點評網(wǎng)站的Restaurant評論數(shù)據(jù)集上測試,僅取得 68.5% 的準(zhǔn)確率.研究發(fā)現(xiàn)[2,13,14],將行為特征與語言學(xué)特征結(jié)合起來可以提高檢測準(zhǔn)確性.雖然虛假評論者在語言表述上模仿真實評論者,但是他們不能掩蓋異常的評論行為.
以往的研究多次利用評論爆發(fā)性[15-18]和評論評分異常性[19-21]構(gòu)建虛假評論檢測模型.評論的分布一般是隨機的,如果評論者的突發(fā)性評論集在所有評論集合中占的比例高,那么這些評論者極有可能是虛假評論者,而評論者發(fā)布的突發(fā)性評論極有可能是虛假評論[22].然而,Li等[23]指出,同時出現(xiàn)的評論不一定都是虛假評論.例如,當(dāng)電視廣告大肆宣傳產(chǎn)品時,許多消費者會同時購買相同的產(chǎn)品,該產(chǎn)品在這時間段內(nèi)會產(chǎn)生大量的評論.他們在大眾點評的餐廳數(shù)據(jù)集上發(fā)現(xiàn)一種co-bursting行為模式,即虛假評論者在同一小段時間內(nèi)積極地對同一批餐廳發(fā)布虛假評論,而其他時間段虛假評論者的評論行為比較消極.
Yang等[24]發(fā)現(xiàn)虛假評論群組中評論者的興趣相似(指評論包含的方面和情感).研究中首先找出評論內(nèi)容相似的評論者集合.然后,利用Author-Topic模型[25]提取剩余評論者的評論主題分布作為評論者的興趣向量;使用亞馬遜網(wǎng)上商城瀏覽器目錄接口找出同一個目錄節(jié)點下并且發(fā)表時間窗為一天內(nèi)的評論.找出興趣向量相似且評論時間窗相近的評論者作為候選者.最終,由三位專家判斷候選者是否為虛假評論者.實驗隨機選擇了方法檢測出的50名虛假評論者和50名真實評論者,然后由三位專家判斷真假性.實驗結(jié)果中,虛假評論者和真實評論者的Precision分別為84%、80%.但是,研究者并未評估所選的3個特征的有效性,或者找出更多特征來提高模型分類的準(zhǔn)確性.
將行為特征與語言特征結(jié)合可以改善虛假評論檢測效果,然而前提是需要足夠的數(shù)據(jù)抽取行為信息.Wang等[26]在Yelp酒店和餐廳兩個領(lǐng)域的評論數(shù)據(jù)上研究了冷啟動問題,旨在即時檢測出虛假評論者,降低危害.他們發(fā)現(xiàn)行為信息有限時,評論長度、評論者的評級偏差、最大評論內(nèi)容相似度和bigram特征結(jié)合較于僅使用bigram特征,檢測準(zhǔn)確率提高了5%(酒店領(lǐng)域),但是F1值降低了約5%、召回率降低了約19%,而提高后的準(zhǔn)確率也只達(dá)到60%左右.這說明行為信息不夠充分的情況下,虛假評論誤判率增加,行為特征對于虛假評論的區(qū)分度有限.
1.3.2 基于圖結(jié)構(gòu)的方法
基于圖結(jié)構(gòu)的方法利用評論、評論者、產(chǎn)品等對象之間的關(guān)系特征,將虛假評論者和虛假評論的檢測看作聯(lián)合分類或者排序問題[27].在該類方法中,對象被映射為圖結(jié)構(gòu)中的節(jié)點,不同對象之間的依賴關(guān)系被映射為圖結(jié)構(gòu)中的邊.對象與對象之間存在直接或間接的關(guān)聯(lián).
為了研究虛假評論者的檢測問題,Wang等[28]提出了異構(gòu)型評論圖的概念來描述評論者、評論和線上商店之間的關(guān)系.文章采用了基于網(wǎng)絡(luò)的算法并利用異構(gòu)圖各節(jié)點之間的關(guān)系來排序.如圖1所示,圖中存在三種類型的節(jié)點:評論者、商店和評論.一個評論者節(jié)點同其所寫評論之間有一條邊連接,一個評論節(jié)點同該評論所關(guān)聯(lián)的商店有一條邊相連接.而一個商店節(jié)點是通過評論者對該商店發(fā)表的評論與這個評論者節(jié)點間接關(guān)聯(lián).
圖1 評論者-評論-商店關(guān)系圖
他們還提出一個有效的迭代計算模型,該模型采用了節(jié)點加強的方法對評論者的可信度、商店的可靠性、評論的真實性進(jìn)行計算.研究者認(rèn)為評論的真實性取決于以下兩點:1)商店的可靠性.2)一定時間窗內(nèi)該評論與其他評論的一致性.商店的可靠性與評論者的可信度正相關(guān).評論者的可信度與評論的真實性正相關(guān).經(jīng)過多次迭代后,各節(jié)點的信譽度將逐漸收斂,系統(tǒng)也會趨于平衡.最終,得分較低的評論者歸為虛假評論者候選人.評論者可信度T(i)的計算公式如公式(1)所示.
其中,Hi表示評論者i的所有評論的真實性的總和.但是,缺點在于算法只根據(jù)計算的分?jǐn)?shù)對可疑的評論者進(jìn)行排序,最終還得依靠人來評估可疑對象,標(biāo)注虛假評論者.人工標(biāo)注基于給定的規(guī)則,在多數(shù)復(fù)雜的情況下,還需依靠人類的直覺和大量相關(guān)信息來判斷,因此準(zhǔn)確性有待商榷.
余傳明等[29]構(gòu)建個人-群體-商戶模型,量化關(guān)系特征,迭代計算個人、群體和商戶的虛假度并將其排序.該方法構(gòu)建商戶-個人關(guān)系模型、商戶-群體關(guān)系模型、個人-群體關(guān)系模型,并分別計算商戶和個人、商戶和群體以及個人和群體的相互影響程度.所用特征包含評論者個人行為特征、評論者群體行為特征、商家行為特征.實驗從國內(nèi)大型電商平臺上選取93家店鋪、9558個不同IP代表的不同評論者以及97 804條評論數(shù)據(jù)作為樣本,虛假評論者識別的Precision值為92.86%,Recall值為 86.47%,F1 值為 87.89%.該方法不需要手動標(biāo)記訓(xùn)練集,消除了分類模型的訓(xùn)練時間,可擴展到大型數(shù)據(jù)集.但是,關(guān)系模型在計算虛假度時只是簡單地對特征取平均值,忽略了不同行為特征的重要性差異.
邵珠峰等[30]構(gòu)建用戶之間關(guān)系的多邊圖模型,計算用戶的不可靠分?jǐn)?shù)來識別虛假評論者.用戶節(jié)點之間存在兩種類型的邊.若兩個用戶對同一商品評分相同或相似,用戶節(jié)點之間用支持邊連接,反之則用反對邊連接.該方法利用用戶的8種行為特征計算用戶初始特征分?jǐn)?shù),然后歸納用戶之間的支持邊、反對邊集合并利用TrustRank算法量化用戶之間的關(guān)系分?jǐn)?shù),這兩部分之和為用戶的不可靠分?jǐn)?shù).最后將不可靠分?jǐn)?shù)值較小的用戶作為虛假評論者候選者,邀請3位專業(yè)人士評估判斷出虛假評論者.缺點是,在計算初始特征分?jǐn)?shù)時,特征權(quán)重的分配沒有可靠的理論依據(jù),特征組合也未證明最優(yōu).另外,該方法憑借情感詞典簡單計算不同用戶之間的情感特征,分析不夠全面.
Akoglu等[31]提出Fraudeagle模型,利用產(chǎn)品、用戶、評論之間的關(guān)系識別虛假評論者.該模型在LBP(Loopy Belief Propagation)算法的基礎(chǔ)上改進(jìn).LBP 是基于信息循環(huán)傳遞的算法.用戶和產(chǎn)品映射為圖節(jié)點,評論映射為邊連接節(jié)點.對于未標(biāo)記的用戶,檢測過程主要分為計算分?jǐn)?shù)和分組兩部分.該方法利用最大可能性概率來計算分?jǐn)?shù)、標(biāo)注節(jié)點.節(jié)點的標(biāo)記依賴于評論的積極或者消極情感極性.方法的擴展性好,運行時間與網(wǎng)絡(luò)的大小成線性關(guān)系.缺點在于,加入新的節(jié)點之后就得重新迭代計算已有連接節(jié)點的概率分?jǐn)?shù).此外,可以考慮加入時序特征、評論文本特征來初始化節(jié)點概率分?jǐn)?shù),提高模型識別的準(zhǔn)確性.
Saeedreza等[32]提出NetSpam模型,利用異構(gòu)型信息網(wǎng)絡(luò) (HIN,Heterogeneous Information Networks)對Yelp和Amazon的評論數(shù)據(jù)集進(jìn)行分類.研究者將特征分為四類:評論-行為特征、評論-語言特征、用戶-行為特征、用戶-語言特征.該模型利用元路徑量化特征重要性,構(gòu)建模型時為特征分配不同的權(quán)重.通過實驗發(fā)現(xiàn),四種類型中評論-行為特征表現(xiàn)最好.選取重要的特征建模既能保證模型性能,又降低了算法的時間復(fù)雜度.除了基于評論者與評論的特征,研究者指出基于產(chǎn)品的特征的重要性也值得分析,但是該方法并未涉及.
1.3.3 表示學(xué)習(xí)方法
以上兩類研究方法致力于設(shè)計有效的特征來區(qū)分虛假評論與真實評論,特征設(shè)計依賴于專家的先驗知識.如果算法可以自動學(xué)習(xí)表示評論,就可以減少人為設(shè)計特征的時間,降低引入的噪聲.
Wang等[33]利用張量分解算法在低維向量空間表示學(xué)習(xí)評論者和產(chǎn)品的關(guān)系,利用bigram表示評論文本,然后將這三部分連接成一個評論整體,作為SVM模型的輸入.全局特征的矢量化有效地提高了檢測性能.在Yelp的Hotel和Restaurant的數(shù)據(jù)集[13]上選取相同數(shù)目的虛假評論與真實評論進(jìn)行實驗,F1值分別達(dá)到了87.0%、89.2%,Accuracy分別為 86.5%、89.9%.但是,該方法用bigram特征表示評論文本仍不夠有效.
Wang等[34]又進(jìn)一步研究了虛假評論是語言異常還是行為異常的問題.針對虛假評論的現(xiàn)狀,即有些評論者富有經(jīng)驗,在發(fā)表評論時善于偽裝,此時主要利用虛假評論者異常的行為區(qū)分虛假評論;另一些評論者則相反,評論中往往包含更多的語氣詞、情感詞,體現(xiàn)出較強的情感強度,所以只要利用語言特征就容易區(qū)分出虛假評論.研究方法利用MLP多層感知機學(xué)習(xí)行為特征向量,利用CNN卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)語言特征向量,并引入Attention機制動態(tài)學(xué)習(xí)行為特征和語言特征的權(quán)重.最終相比于Mukherjee等[13]使用現(xiàn)成的SVM 分類模型,F1 值提高了 1.5%,Accuracy提高了1.2%.這說明了現(xiàn)有模型對虛假評論檢測效果仍然有限.另外,相比于研究者此前工作[33],F1 值、Accuracy分別提高了1.9%和2.3%.Attention機制有效地區(qū)分了虛假評論屬于語言異常或是行為異常.至今為止,該方法在Yelp評論數(shù)據(jù)集上檢測的F1值和Accuracy值最優(yōu).然而遺憾的是,研究者未在其它實驗數(shù)據(jù)上驗證所提算法的健壯性.
張李義等[35]結(jié)合深度置信網(wǎng)絡(luò)DBN和模糊集識別淘寶的虛假交易.該方法利用用戶的歷史評論和交易記錄提取表示用戶行為的12個特征.首先,無監(jiān)督地訓(xùn)練每一層受限玻爾茲曼機網(wǎng)絡(luò).然后,根據(jù)輸入特征向量和頂層降維后傳遞的重構(gòu)特征向量之間的誤差對整個DBN網(wǎng)絡(luò)進(jìn)行有監(jiān)督反饋微調(diào).接著,采用模糊集描述用戶“是刷客”或者“不是刷客”的隸屬度.最后,將識別出的“刷客”的交易認(rèn)定為虛假交易.實驗結(jié)果中準(zhǔn)確率、精確率、召回率、F1值分別達(dá)到89%,84.21%,96%和89.72%.DBN作為深層網(wǎng)絡(luò)學(xué)習(xí)結(jié)構(gòu),能夠?qū)W習(xí)抽象特征,弱化淺層結(jié)構(gòu)的錯誤特征,從而緩解過擬合現(xiàn)象,提高模型分類效果.局限性在于,該方法分別選取了100名“刷客”和正常用戶進(jìn)行算法驗證,相比于電商平臺海量的用戶,數(shù)據(jù)量過少.
Dong等[36]提出端到端(end-to-end)混合神經(jīng)網(wǎng)絡(luò)和隨機森林的模型來識別虛假評論.隨機森林作為集成學(xué)習(xí)算法,在訓(xùn)練時能防止每一決策樹過擬合.該方法利用Autoencoder算法自動表示評論特征,作為隨機森林的輸入.該方法巧妙地結(jié)合了深度學(xué)習(xí)和傳統(tǒng)分類模型,為虛假評論檢測提供了新思路.在Amazon數(shù)據(jù)集[37]上實驗,Accuracy達(dá)到 96%.但是,該方法需要設(shè)置合適的參數(shù)平衡時間消耗和預(yù)測性能的關(guān)系.這需要反復(fù)實驗調(diào)整.此外,Autoencoder算法也被用于微博垃圾評論檢測[38].
1.3.4 小結(jié)
基于語言學(xué)特征和行為特征的方法使用的模型一般較為簡單,檢測的效果相對較好,但是特征設(shè)計過程耗時且具有挑戰(zhàn)性.不同數(shù)據(jù)集的數(shù)據(jù)稀疏程度、涉及的領(lǐng)域、語言的表述、評論者的關(guān)注面不同.所以,針對不同的數(shù)據(jù)集,需選取不同的特征進(jìn)行實驗.另外,特征設(shè)計一般依靠專家的經(jīng)驗,而專家們的經(jīng)驗也不完全可靠.
基于圖結(jié)構(gòu)的方法利用了評論、評論者、產(chǎn)品和商店之間的網(wǎng)絡(luò)關(guān)系,使用傳播算法、迭代算法等計算節(jié)點的分?jǐn)?shù).這類方法適用于標(biāo)注數(shù)據(jù)稀少或者無標(biāo)注數(shù)據(jù)的情況.在虛假評論檢測問題上,優(yōu)點是可以不依賴于人工標(biāo)注數(shù)據(jù),擴展性好.缺點是計算信譽度時利用的規(guī)則往往比較單一,新加入的節(jié)點影響已有節(jié)點的分?jǐn)?shù),所以需要重新迭代計算已有節(jié)點的分?jǐn)?shù).該類方法適用的網(wǎng)絡(luò)規(guī)模不宜過大,而且檢測效果還有待提升.
以上兩類方法用到的特征通過統(tǒng)計得到,而表示學(xué)習(xí)方法能自動學(xué)習(xí)表示評論,既能提高實驗效率又能提升檢測效果.虛假評論者為了躲避網(wǎng)站算法檢測,可能會增加評論的細(xì)節(jié)信息,或者利用賬號積攢信用后發(fā)布虛假評論.可見虛假評論的語言特征與行為特征是動態(tài)變化的,不可預(yù)知的.表示學(xué)習(xí)方法不需要依賴經(jīng)驗設(shè)計特征,因此魯棒性好.這類方法作為最新的研究趨勢,檢測效果優(yōu)于傳統(tǒng)的方法,然而這方面的研究較少而且不夠深入.
三類方法的比較具體見表2.
表2 三類方法的特點比較
研究者們不但致力于選擇有效的特征表示評論/評論者,尋找合適的模型提高檢測效果,而且探索研究多領(lǐng)域數(shù)據(jù).但是,虛假評論檢測研究主要問題是:缺少標(biāo)準(zhǔn)標(biāo)注數(shù)據(jù)集來評估算法性能.目前,研究者們主要利用眾包平臺構(gòu)造的評論數(shù)據(jù)或者真實世界點評網(wǎng)站的評論數(shù)據(jù).
眾包平臺通過向員工分配需求任務(wù),依靠人類的智慧來完成計算機還不能完成的任務(wù).例如,從許多照片中挑出最棒的商店前臺的照片,編寫產(chǎn)品描述性評論,或者區(qū)分出音樂CD封面上的歌手等[39].
Ott等[7]利用亞馬遜眾包平臺獲取黃金標(biāo)準(zhǔn)數(shù)據(jù)集,這是唯一公開可用的數(shù)據(jù)集.研究者通過向線上人員支付1$酬金令他們對20個受歡迎的芝加哥酒店構(gòu)建想象型的積極評論,共收集了400條虛假評論.此外,研究者在TripAdvisor.com上收集了這20家酒店的400 條積極評論作為真實評論.之后,Li等[10]為了研究分類器在不同領(lǐng)域的遷移性能,擴充了這800條評論數(shù)據(jù)集,構(gòu)造了跨酒店、餐廳、醫(yī)院3個領(lǐng)域的黃金標(biāo)準(zhǔn)數(shù)據(jù)集.該黃金標(biāo)準(zhǔn)數(shù)據(jù)集包含了3種類型的評論:領(lǐng)域?qū)<业奶摷僭u論,眾包平臺的虛假評論以及消費者的真實評論.實驗結(jié)果表明,酒店評論數(shù)據(jù)集訓(xùn)練成的分類模型在餐廳和醫(yī)院評論數(shù)據(jù)上分類效果不佳.
眾包平臺的員工并未刻意模仿真實評論的表述,構(gòu)造出的虛假評論和現(xiàn)實世界中的評論存在著較大差異.
點評網(wǎng)站一般有自己的虛假評論過濾算法,這些過濾算法是商業(yè)機密,不向外部開放.表3概括了來源于點評網(wǎng)站的研究常用數(shù)據(jù)集.其中,Yelp評論數(shù)據(jù)集[13]作為近似標(biāo)準(zhǔn)標(biāo)注數(shù)據(jù)集被廣泛用于虛假評論檢測的學(xué)術(shù)研究中.而Amazon評論數(shù)據(jù)集[37]由于數(shù)據(jù)量大極具研究價值,主要應(yīng)用于情感分析、觀點挖掘、產(chǎn)品推薦、虛假評論檢測等各個領(lǐng)域.
表3 點評網(wǎng)站評論數(shù)據(jù)集
近年來,線上消費者在做出決策前都會參考商業(yè)網(wǎng)站的產(chǎn)品評論.真實可靠的評論既能改善消費者體驗,也能促進(jìn)商家良性競爭.本文主要概括了研究常用的四類特征,總結(jié)了國內(nèi)外研究者提出的虛假評論檢測方法,并從特征工程的角度對比了基于語言特征和行為特征的方法、基于圖結(jié)構(gòu)的方法、基于表示學(xué)習(xí)方法的優(yōu)缺點,最后列舉了研究中使用的數(shù)據(jù)集.從現(xiàn)階段的檢測技術(shù)來看,虛假評論檢測仍有很大的探索空間,具體歸納為以下4點:
(1)針對來自不同領(lǐng)域的數(shù)據(jù)集,研究者們需要選取不同的特征來構(gòu)建分類器,重復(fù)特征選擇這一工作.這說明未來需要探索跨領(lǐng)域?qū)嶒瀬韮?yōu)化特征選擇的過程,減少重復(fù)性的人工操作.此外,最優(yōu)的特征選擇也是未來的探索方向.
(2)真實世界中虛假評論數(shù)據(jù)與真實評論數(shù)據(jù)不平衡,不平衡的數(shù)據(jù)訓(xùn)練出的模型效果較差.以往的研究通常利用采樣達(dá)到數(shù)據(jù)平衡.然而,訓(xùn)練的模型在測試自然分布的數(shù)據(jù)集時檢測效果下降.未來可以探索更多適用于真實世界中不平衡數(shù)據(jù)的技術(shù).
(3)公開的真實評論網(wǎng)站的數(shù)據(jù)集較少,以往的研究大多使用了人工構(gòu)造的數(shù)據(jù)集.但研究證實,經(jīng)人工構(gòu)造的數(shù)據(jù)集訓(xùn)練出的分類器在對真實世界的評論數(shù)據(jù)進(jìn)行分類時效果不理想[13].所以,可以進(jìn)一步探索如何利用真實世界大量未標(biāo)注數(shù)據(jù)來獲取合理的虛假評論數(shù)據(jù)集.
(4)虛假評論的冷啟動問題.Wang 等[26]針對這個未被前人探索過的問題,提出了一個基于圖結(jié)構(gòu)與CNN卷積神經(jīng)網(wǎng)絡(luò)的模型.評論的真實性越早判別,造成的不利影響越小.新用戶只發(fā)布一條虛假評論時,如何利用先驗知識準(zhǔn)確地判別評論的真實性具有重大意義.未來可以探索更多有效的檢測模型.