胡 龍 茂
(安徽財(cái)貿(mào)職業(yè)學(xué)院, 合肥 230601)
基于用戶行為及文本內(nèi)容的垃圾評(píng)論識(shí)別研究
胡 龍 茂
(安徽財(cái)貿(mào)職業(yè)學(xué)院, 合肥 230601)
從海量的在線評(píng)論中自動(dòng)識(shí)別出垃圾評(píng)論,是消費(fèi)者及廠家有效利用在線評(píng)論的前提。結(jié)合垃圾評(píng)論者的行為特征及評(píng)論文本內(nèi)容,采用支持向量機(jī)構(gòu)建了垃圾評(píng)論識(shí)別模型。實(shí)驗(yàn)結(jié)果表明,該方法有效地識(shí)別了垃圾評(píng)論。
垃圾評(píng)論; 行為特征; 評(píng)論文本
當(dāng)前,網(wǎng)絡(luò)購物方興未艾,電商網(wǎng)站上產(chǎn)生了海量的在線產(chǎn)品評(píng)論。這些評(píng)論一方面會(huì)對(duì)潛在消費(fèi)者的購買決策產(chǎn)生重要影響,一方面也有助于廠商提高其產(chǎn)品質(zhì)量或服務(wù)。由于網(wǎng)絡(luò)的開放性、評(píng)論者的主觀性及產(chǎn)品或平臺(tái)的競爭性,網(wǎng)絡(luò)上出現(xiàn)了不少垃圾評(píng)論,主要分為2類:(1) 出于推銷或詆毀目的的虛假評(píng)論;(2) 與主題無關(guān)的評(píng)論。從海量的在線評(píng)論中識(shí)別出垃圾評(píng)論,對(duì)消費(fèi)者及廠家都有著重要的現(xiàn)實(shí)意義。
研究垃圾評(píng)論者的行為特征及評(píng)論文本內(nèi)容,采用支持向量機(jī)構(gòu)造了垃圾評(píng)論識(shí)別模型,有效地識(shí)別了垃圾評(píng)論。
文獻(xiàn)[1]首次對(duì)垃圾評(píng)論進(jìn)行了分類,并運(yùn)用Logistic回歸模型對(duì)垃圾評(píng)論進(jìn)行了檢測(cè)。文獻(xiàn)[2]從評(píng)論者對(duì)同一產(chǎn)品重復(fù)評(píng)分次數(shù),評(píng)分偏差,評(píng)論內(nèi)容的相似度來判斷其是否是垃圾評(píng)論者,從而確定其發(fā)表的評(píng)論是否為垃圾評(píng)論。文獻(xiàn)[3]以旅館評(píng)論數(shù)據(jù)集為研究對(duì)象,融合文本的語言特征和心理語言欺騙檢測(cè),采用SVM進(jìn)行文本分類來檢測(cè)虛假評(píng)論行為,實(shí)驗(yàn)精確度達(dá)到了90%。文獻(xiàn)[4]提出了垃圾評(píng)論者發(fā)表垃圾評(píng)論的5種行為模式,采用線性回歸模型進(jìn)行建模以識(shí)別垃圾評(píng)論者,檢測(cè)效果優(yōu)于用戶有用性投票的基準(zhǔn)方法。文獻(xiàn)[5]構(gòu)造了評(píng)論者、評(píng)論、商店以及回復(fù)者的評(píng)論關(guān)系圖,利用評(píng)論關(guān)系圖計(jì)算評(píng)論者的可信度以識(shí)別垃圾評(píng)論者,實(shí)驗(yàn)結(jié)果表明該方法的準(zhǔn)確率較高。文獻(xiàn)[6]從評(píng)論內(nèi)容、評(píng)論人、評(píng)分與文本情感的匹配程度等方面,設(shè)定22個(gè)評(píng)論特征,采用改良的決策樹識(shí)別垃圾評(píng)論達(dá)到了較高的預(yù)測(cè)精度。
目前的研究主要采用單一的行為檢測(cè)或文本內(nèi)容檢測(cè),檢測(cè)效果都不夠理想。文獻(xiàn)[6]雖然采取了二者的結(jié)合,但設(shè)置的用戶行為特征較少。因此,本次研究從用戶行為及評(píng)論內(nèi)容2個(gè)維度進(jìn)行垃圾評(píng)論識(shí)別,以有效提高垃圾評(píng)論識(shí)別的精度。
2.1支持向量機(jī)
支持向量機(jī)基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的原則,它能將數(shù)據(jù)表示成更高維度,從而將非線性分類問題轉(zhuǎn)換成線性分類問題。由于支持向量機(jī)所形成的分類面是最優(yōu)分類面,分類時(shí)僅需要支持向量,因此,分類速度很快。支持向量機(jī)對(duì)小樣本數(shù)據(jù)的學(xué)習(xí)有良好的推廣能力[7],近年來在文本分類、基因圖譜識(shí)別和手寫識(shí)別等方面都得到了成功的應(yīng)用。
2.2特征選擇
從用戶行為和評(píng)論文本2個(gè)方面識(shí)別垃圾評(píng)論,特征選擇如下:
(1) 用戶行為特征。在文獻(xiàn)[4]基礎(chǔ)上,通過對(duì)購物網(wǎng)站中評(píng)論者的行為特征分析,設(shè)置4類用戶行為特征。評(píng)分(A1):用戶出于推銷或詆毀的目的而打最高分或最低分的行為特征。評(píng)分一致度(A2):同一用戶對(duì)同一平臺(tái)的不同產(chǎn)品評(píng)分較一致的行為特征。評(píng)分偏差度(A3):用戶評(píng)分與平均評(píng)分偏差較大的行為特征。有用度(A4):其他評(píng)論閱讀者認(rèn)為是否“有用”的行為特征。
(2) 評(píng)論文本特征。在文獻(xiàn)[6]的基礎(chǔ)上,通過對(duì)評(píng)論文本分析,設(shè)置8類文本特征。產(chǎn)品(A5):評(píng)論中涉及產(chǎn)品本身(如“手機(jī)”)。產(chǎn)品屬性(A6):評(píng)論中涉及產(chǎn)品屬性。其他品牌(A7):評(píng)論中涉及與此商品同類的其他品牌產(chǎn)品信息。正面評(píng)價(jià)詞(A8):正面評(píng)價(jià)詞的數(shù)量。負(fù)面評(píng)價(jià)詞(A9):負(fù)面評(píng)價(jià)詞的數(shù)量。正面評(píng)價(jià)詞比例(A10):正面評(píng)價(jià)詞占總體評(píng)價(jià)詞比例。負(fù)面評(píng)價(jià)詞比例(A11):負(fù)面評(píng)價(jià)詞占總體評(píng)價(jià)詞比例。評(píng)論長度(A12):評(píng)論內(nèi)容的長度。
評(píng)論文本特征的計(jì)算方法如下:
A1=n
式中:A1—— 行為特征分值;
n—— 當(dāng)前評(píng)論者在平臺(tái)的評(píng)論總數(shù),n=1,2,3,4,5;
A2—— 一致度評(píng)分;
si—— 某條評(píng)論的評(píng)分。
式中:s0—— 當(dāng)前評(píng)論者對(duì)產(chǎn)品的評(píng)分;
n—— 某產(chǎn)品的評(píng)論總數(shù);
si—— 其他評(píng)論者對(duì)產(chǎn)品的評(píng)分。
A6=評(píng)論中包含產(chǎn)品屬性的數(shù)量
A8(A9)=評(píng)論中正(負(fù))面評(píng)價(jià)詞的數(shù)量
實(shí)驗(yàn)采用Python語言。支持向量機(jī)采用臺(tái)灣大學(xué)林智仁教授等人開發(fā)的Libsvm軟件。Libsvm提供了Python接口,核函數(shù)采用線性核,其他參數(shù)默認(rèn)。
3.1數(shù)據(jù)集
目前還沒有專門用于識(shí)別垃圾評(píng)論的中文數(shù)據(jù)集,因此采用爬蟲從國內(nèi)熱門的電商網(wǎng)站上抓取數(shù)據(jù)。通過對(duì)淘寶、京東、蘇寧和亞馬遜等網(wǎng)站的觀察,只有亞馬遜網(wǎng)站保留了評(píng)論者的鏈接信息。使用Python編程從亞馬遜網(wǎng)站上抓取某款熱門手機(jī)的評(píng)論共1 197條,然后按照留言者鏈接抓取評(píng)論者在亞馬遜網(wǎng)站上對(duì)其他商品的評(píng)論。
選擇3位垃圾評(píng)論標(biāo)注者對(duì)評(píng)論進(jìn)行獨(dú)立標(biāo)注,如果評(píng)論被大于等于2個(gè)的標(biāo)注者認(rèn)為是垃圾評(píng)論,則該條評(píng)論被標(biāo)記為垃圾評(píng)論。最終得到垃圾評(píng)論87條。
3.2實(shí)驗(yàn)結(jié)果分析
采用準(zhǔn)確率、召回率和綜合值評(píng)價(jià)垃圾評(píng)論識(shí)別的效果。結(jié)果如表1所示。
僅采用用戶行為特征時(shí),與主題無關(guān)的評(píng)論不易被識(shí)別出,造成召回率較低。僅采用文本特征時(shí),全是正面或負(fù)面情感易被識(shí)別為垃圾評(píng)論,導(dǎo)致準(zhǔn)確率較低。綜合采用用戶行為和文本特征時(shí),提高了無關(guān)評(píng)論和極端評(píng)論的判別精度,準(zhǔn)確率和召回率都有不同程度的提升。
研究采用用戶行為特征和文本特征識(shí)別垃圾評(píng)論,取得了一定的效果。隨著電商平臺(tái)對(duì)評(píng)論的激勵(lì)及約束機(jī)制的改變,垃圾評(píng)論的特征也會(huì)隨之變化,垃圾評(píng)論的識(shí)別方法還需進(jìn)一步優(yōu)化。
[1] JINDAL N, LIU B. Review Spam Detection [C]∥Proceedings of the 16th International Conference on World Wide Web. New York, NY, USA: ACM, 2007: 1189-1190.
[2] LIM E P, NGUYEN V A, JINDAL N, et al. Detecting Product Review Spammers Using Rating Behavior [C]∥Proceedings of the 19th ACM International Conference on Information and Knowledge Management. New York, NY, USA: ACM, 2010: 939-948.
[3] OTT M, CHOI Y, CARDIE C, et al. Finding Deceptive Opinion Spam by Any Stretch of the Imagination[C]∥ Meeting of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, 2011:309-319.
[4] 邱云飛,王建坤,邵良杉,等.基于用戶行為的產(chǎn)品垃圾評(píng)論者檢測(cè)研究[J].計(jì)算機(jī)工程,2012,38(11):254-257.
[5] 林秀嬌,魏晶晶,劉月,等.基于評(píng)論關(guān)系圖的垃圾評(píng)論者檢測(cè)研究[J].福州大學(xué)學(xué)報(bào),2015,43(2):170-175.
[6] 趙靜嫻.網(wǎng)絡(luò)交易垃圾評(píng)論智能識(shí)別研究[J].現(xiàn)代情報(bào),2016,36(4):57-61.
[7] VAPNIK V N. An Overview of Statistical Learning Theory[J]. IEEE Transactions on Neural Networks, 1999,10(5):988-999.
Abstract:Automated recognition of review spam from massive online reviews is a prerequisite for the effective use of online reviews by consumers and manufacturers. Based on the behavior characteristics of the commentator and the content of the comment text, this paper uses the support vector machine to construct the spam evaluation model. The experimental results show that this method can effectively identify the spam.
Keywords:review spam; behavior characteristics; review text
ResearchonReviewSpamRecognitionBasedonUserBehaviorandTextContent
HU Longmao
(Anhui Finance and Trade Vocational College, Hefei 230601, China)
TP18
A
1673-1980(2017)05-0105-03
2017-04-02
安徽省高校自然科學(xué)研究重點(diǎn)項(xiàng)目“基于產(chǎn)品評(píng)論細(xì)粒度情感分析的消費(fèi)者偏好模型構(gòu)建研究”(KJ2017A858)
胡龍茂(1973 — ),男,講師,研究方向?yàn)閿?shù)據(jù)挖掘、自然語言處理。
重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版)2017年5期