李耀鵬,徐德華
(同濟大學 經濟與管理學院,上海 201804)
在Web2.0的時代,人們越來越多地使用電子商務和輿論共享網站,因此,產生了海量的商品在線評論。由于在線商品評論對于消費者的購買意愿有較為顯著的影響,部分不良商家采用垃圾評論攻擊行為,通過發(fā)表虛假評論和評分試圖誤導消費者。垃圾評論的存在嚴重影響了在線評論應有作用的發(fā)揮,所以識別垃圾評論是一個緊急且重要的問題。目前,有許多關于垃圾評論識別的研究,按照識別對象,可分為識別垃圾評論發(fā)表者、識別垃圾評論發(fā)表者團體和直接識別垃圾評論。本文從識別對象的角度對垃圾評論檢測的研究現(xiàn)狀進行分析,以期能對相關工作的開展提供借鑒。
一些研究人員通過關注垃圾評論發(fā)表者來研究如何識別垃圾評論,他們在垃圾評論發(fā)表者方面進行了許多研究。垃圾評論發(fā)表者的檢測是以評論者為中心的,相比于直接檢測垃圾評論,垃圾評論發(fā)表者的檢測更加簡單、有效,因為一條評論能獲取的信息有限,比如評論文本、評分、發(fā)表時間等,但是一個評論人則可能發(fā)表多條評論,涉及多個產品,除了評論本身之外,還可以對其行為模式進行研究。
Lim等人[1]對垃圾評論發(fā)表者的行為特征進行建模并用于檢測垃圾評論發(fā)表者。他們使用垃圾評論行為的線性加權因子組合來計算評論者的整體垃圾評論分數(shù)。他們提出了基于打分行為的垃圾評論發(fā)表者的四種主要行為模式:針對某一個產品進行評分;針對某一類產品進行評分;總體偏差;早期偏差。
Jindal等人[2]發(fā)現(xiàn)了評論者的一些行為很可疑,比如一般正常的評論者所發(fā)表的評論往往包括積極的、中性的和消極的評論,但是有一部分評論者發(fā)表的評論全部是積極的或者全部是消極的。經過試驗發(fā)現(xiàn)這些行為特征與評論造假的關聯(lián)性很高。
Wang等人[3]提出了一種基于評論圖模型,利用評論者,評論和商鋪之間的影響來檢測垃圾評論發(fā)表者的迭代方法。該技術通過節(jié)點之間的相互關系計算評論者的可信度、評論的真實性以及商店的可靠性。
Fayazbakhsh等人[4]提出了一個類似的方法,也使用了一個評論圖模型。該方法再次對節(jié)點進行評分,然后使用迭代算法更新分數(shù)。這項研究所用的分數(shù)構成和初始化方法不同于Wang等人的研究。徐小婷等人[5]也采用了類似的方法,不同之處在于其采用了一種基于PageRank的評論者互評估可信度模型來檢測垃圾評論者。結果表明其模型在識別垃圾評論者方面是有效的,并且解決了僅有一條評論的評論者難以識別的問題。
Fei等人[6]使用核密度估計技術來建立了一種檢測特定產品的評論中的突發(fā)模式的算法。他們使用垃圾評論發(fā)表者的五個行為特征作為垃圾評論發(fā)表者檢測的指標,然后作者使用馬爾可夫隨機場(MRFs)來對突發(fā)模式中的評論者進行建模。他們的技術的精確度為83.7%,與以前的工作相比得出了更準確的結果。然而,F(xiàn)ei等人使用的最有效的特征是“亞馬遜驗證購買比例”;在任何檢測技術中使用這個特征都會極大地優(yōu)化該方法的準確性。它將用戶限制為真實的客戶,因為它代表了評論者必須已經購買了產品。但這個特征不能應用于其他數(shù)據集,不具備通用性。
某些情況下,垃圾評論活動可被視為群體性事件,即可能存在多個垃圾評論發(fā)表者被雇傭來發(fā)表評論,以達到一定的目的的情況。手動標記訓練數(shù)據以檢測垃圾評論發(fā)表者群體并不像垃圾評檢測中的其他任務那么困難,因為成員的垃圾評論行為是清晰的。來自垃圾評論發(fā)表者團體的第一個標記數(shù)據集是Mukherjee等人[7]創(chuàng)建的。
Mukherjee等人[8]使用頻繁模式挖掘技術來檢測垃圾評論發(fā)表者團體,通過上述特征對每個團體進行“Spamicity”打分,然后提出了GRank關系模型對垃圾評論發(fā)表團體進行排序,將評論者團體區(qū)分為垃圾評論或非垃圾評論團體。
實際中,創(chuàng)建不同內容的多個垃圾評論是很耗費時間和精力的,垃圾評論發(fā)表者不會自己撰寫大量內容獨特的垃圾評論,他們傾向于復制現(xiàn)有的垃圾評論的文本。因此,查找類似的評論是檢測垃圾評論的關鍵部分。Jindal等人[9]提出了第一種垃圾評論檢測技術。他們發(fā)現(xiàn),垃圾評論發(fā)表者通常會創(chuàng)建少量評論作為模板,并通過更改產品名稱將其復制到不同產品下面。因此,可以通過識別包含重復文本的評論來檢測垃圾評論。
Lai等人[10]提出了一個概率語言模型計算兩個評論之間的相似度分數(shù)。該模型使用Kullback-Leibler散度比較一些評論以衡量其內容相似度。
除了內容重復之外,評論的概念可能會出現(xiàn)重復。Algur等人[11]提出了一種度量概念相似度的技術,用于解決垃圾評論檢測問題。該技術被用來衡量被評論的產品其特征的相似性。作者利用傳統(tǒng)的余弦函數(shù)來度量概念特征相似度以檢測垃圾評論,從評論中提取的產品特征被用來構建評論矩陣。他們的方法的精確度是43.6%,效果不是很理想。
Ott等人[12]采用三種策略來處理垃圾評論檢測問題:①類型識別。Rayson等人[13]在計算語言學中的研究表明,文本的類型影響文本中詞性(POS)的分布。②心理語言檢測。心理語言學檢測賦予文本中使用的關鍵詞以心理語言學意義。語言查詢和字數(shù)統(tǒng)計(LIWC)軟件是著名的文本分析工具,它將80個心理語言學意義賦予給了4 500個關鍵詞。③文本分類。使用n-gram特征集,模擬評論的內容和上下文。結果顯示,使用LIWC和BIGRAMS在區(qū)分虛假垃圾評論方面的準確率達到了80%以上。該研究也被用來估計6個著名的在線評論社區(qū)的欺騙行為[14]。這兩項研究都使用從評論網站收集到的真實評論作為數(shù)據集。Banerjee等人[15]提出的另一種方法使用相同數(shù)據集,在文獻綜述的基礎上,作者假設欺騙性評論和真實性評論的可讀性(復雜性和閱讀難度),評論類型和評論寫作風格是不同的。
本文從識別垃圾評論發(fā)表者、識別垃圾評論發(fā)表者團體和直接識別垃圾評論這三個角度對垃圾評論識別的研究進行了綜述。該領域的研究已經比較成熟,但是仍然存在識別效果難以評估的問題,需要更多研究者投入精力。