国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

點(diǎn)評(píng)網(wǎng)站中垃圾用戶(hù)識(shí)別研究

2020-07-04 02:13王亞
電腦知識(shí)與技術(shù) 2020年13期

王亞

摘要:點(diǎn)評(píng)網(wǎng)站作為一種新興的網(wǎng)絡(luò)交流平臺(tái),目前存在著大量垃圾用戶(hù),他們發(fā)布的虛假垃圾評(píng)論信息誤導(dǎo)了消費(fèi)者的選擇,引起不正當(dāng)?shù)氖袌?chǎng)競(jìng)爭(zhēng)。本文基于機(jī)器學(xué)習(xí)的分類(lèi)方法,對(duì)點(diǎn)評(píng)網(wǎng)站的垃圾用戶(hù)進(jìn)行研究,提出了基于用戶(hù)評(píng)論頻度的垃圾用戶(hù)檢測(cè)模型和基于用戶(hù)評(píng)論情感度的垃圾用戶(hù)檢測(cè)模型,并將模型融合進(jìn)行模型訓(xùn)練,以最大限度提高識(shí)別垃圾用戶(hù)的有效性。實(shí)驗(yàn)表明,本文提出的方法對(duì)垃圾用戶(hù)識(shí)別的準(zhǔn)確率最高可達(dá)70%。

關(guān)鍵詞:垃圾用戶(hù);用戶(hù)評(píng)論頻度;用戶(hù)評(píng)論情感度;情感詞庫(kù);邏輯回歸

中文分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)13-0214-03

1引言

隨著信息技術(shù)、互聯(lián)網(wǎng)以及電子商務(wù)的發(fā)展,第三方點(diǎn)評(píng)網(wǎng)站融合購(gòu)物、社區(qū)和點(diǎn)評(píng)為一體,如雨后春筍般涌現(xiàn),成為一種新興的網(wǎng)絡(luò)交流平臺(tái)。在我國(guó),其中就有一大批具有代表性的點(diǎn)評(píng)網(wǎng)站,比如:大眾點(diǎn)評(píng)網(wǎng)、淘寶口碑網(wǎng)、百度身邊、騰訊美食、豆瓣網(wǎng)、驢評(píng)網(wǎng)、愛(ài)幫網(wǎng)等。

點(diǎn)評(píng)網(wǎng)站為商家提供了一個(gè)發(fā)布商品、銷(xiāo)售商品的平臺(tái),也為購(gòu)買(mǎi)者提供了一個(gè)查看、了解、購(gòu)買(mǎi)、評(píng)價(jià)商品的平臺(tái)。通過(guò)點(diǎn)評(píng)網(wǎng)站,購(gòu)買(mǎi)者可以根據(jù)自己的消費(fèi)體驗(yàn)自由地對(duì)某商品或者出售該商品的商家以文字和打分的形式進(jìn)行點(diǎn)評(píng)。而用戶(hù)的評(píng)論信息對(duì)消費(fèi)者的購(gòu)買(mǎi)決策具有重要影響。網(wǎng)絡(luò)點(diǎn)評(píng)已經(jīng)成為消費(fèi)者做消費(fèi)決定的重要因素,用戶(hù)的點(diǎn)評(píng)對(duì)商家的發(fā)展至關(guān)重要。

在這種利益的推動(dòng)下,當(dāng)前在很多點(diǎn)評(píng)網(wǎng)站上的商家為了吸引更多的消費(fèi)者,存在雇傭大量的網(wǎng)絡(luò)垃圾用戶(hù)購(gòu)買(mǎi)虛假評(píng)論惡意抬高自己所售商品質(zhì)量和商家名氣的現(xiàn)象。同時(shí)還有的購(gòu)買(mǎi)虛假評(píng)論對(duì)競(jìng)爭(zhēng)的商鋪進(jìn)行惡意差評(píng)。這些惡意虛假評(píng)論嚴(yán)重干擾了市場(chǎng)的正常運(yùn)行,危害了市場(chǎng)誠(chéng)信。

目前在進(jìn)行評(píng)論垃圾用戶(hù)的檢測(cè)中,普遍認(rèn)為垃圾用戶(hù)發(fā)表的評(píng)論都是垃圾評(píng)論,而垃圾評(píng)論信息均是由垃圾用戶(hù)發(fā)布的。因而對(duì)垃圾用戶(hù)的識(shí)別主要聚焦于對(duì)垃圾評(píng)論的檢測(cè)上。對(duì)于垃圾評(píng)論的檢測(cè)研究,許多研究人員把目光聚集在評(píng)論的觀(guān)點(diǎn)挖掘上面,現(xiàn)有的工作也主要是利用自然語(yǔ)言處理技術(shù)和數(shù)據(jù)挖掘技術(shù)挖掘出評(píng)論是帶著積極的觀(guān)點(diǎn)還是消極的觀(guān)點(diǎn)。

Nitin Jindal和Bing Liu最早提出從評(píng)論可信度方面進(jìn)行垃圾評(píng)論的研究,他們認(rèn)為那些文本相似度很高的評(píng)論是垃圾評(píng)論,同時(shí)總結(jié)了24個(gè)特征用于建立分類(lèi)模型,最后利用邏輯回歸方法來(lái)得到一個(gè)分類(lèi)器,從而找出其他的垃圾評(píng)論。Chrysanthos Dellarocas等主要是從用戶(hù)評(píng)論行為的角度出發(fā)檢測(cè)垃圾用戶(hù),認(rèn)為垃圾用戶(hù)發(fā)表的所有評(píng)論都是垃圾評(píng)論,從而找出垃圾評(píng)。EePengLIM等建立了四種垃圾用戶(hù)檢測(cè)模型:基于目標(biāo)產(chǎn)品的垃圾用戶(hù)檢測(cè)模型、基于目標(biāo)產(chǎn)品組的垃圾用戶(hù)檢測(cè)模型、基于一般打分偏差的垃圾用戶(hù)檢測(cè)模型和基于有權(quán)重的打分偏差垃圾用戶(hù)檢測(cè)模型,從而得到四種垃圾指數(shù)。然后選取部分評(píng)論進(jìn)行人工標(biāo)注。最后,作者采用了線(xiàn)性回歸方法訓(xùn)練得到一個(gè)分類(lèi)模型,從而對(duì)其他的用戶(hù)進(jìn)行分類(lèi)。孫升蕓,田萱等是以同類(lèi)別商品、同品牌商品和同賣(mài)家商品為基礎(chǔ)建立垃圾用戶(hù)檢測(cè)模型,方法與EePengLIM類(lèi)似嘲。

豆瓣網(wǎng)是一個(gè)典型的點(diǎn)評(píng)網(wǎng)站,是中國(guó)最大與最權(quán)威的電影分享與評(píng)論社區(qū),收錄了百萬(wàn)條影片與影人的資料,因而本文擬針對(duì)點(diǎn)評(píng)網(wǎng)站以豆瓣網(wǎng)為例設(shè)計(jì)垃圾用戶(hù)檢測(cè)模型,通過(guò)對(duì)網(wǎng)站評(píng)論信息的分析,構(gòu)建了基于用戶(hù)評(píng)論頻率的垃圾用戶(hù)檢測(cè)模型和針對(duì)評(píng)論文本情感度的垃圾用戶(hù)檢測(cè)模型,并基于機(jī)器學(xué)習(xí)的分類(lèi)方法對(duì)這兩類(lèi)模型分別進(jìn)行垃圾用戶(hù)的識(shí)別和對(duì)融合模型進(jìn)行垃圾用戶(hù)的檢測(cè),以期提高垃圾用戶(hù)檢測(cè)的效率。

2點(diǎn)評(píng)網(wǎng)站一豆瓣網(wǎng)用戶(hù)特征提取

由于評(píng)論者中存在著很多的職業(yè)評(píng)論寫(xiě)手,他們以專(zhuān)門(mén)發(fā)表垃圾評(píng)論作為生存主業(yè)或副業(yè),因而在點(diǎn)評(píng)中將會(huì)頻繁的發(fā)布評(píng)論信息以混淆視聽(tīng)。因而本文擬根據(jù)評(píng)論頻率,構(gòu)建基于評(píng)論頻率的垃圾用戶(hù)檢測(cè)模型,檢測(cè)那些高頻發(fā)表評(píng)論的垃圾用戶(hù)。

垃圾評(píng)論通常是為了抬高或貶低某一商品或商家,經(jīng)常帶有強(qiáng)烈感情色彩,因此本文擬構(gòu)建基于情感程度的垃圾用戶(hù)檢測(cè)模型,即根據(jù)評(píng)論的情感程度判斷某一評(píng)論是否是垃圾評(píng)論,從而檢測(cè)那些發(fā)表過(guò)帶強(qiáng)烈情感色彩的垃圾用戶(hù)。

2.1用戶(hù)評(píng)論頻率特征

(1)影評(píng)時(shí)間特征

本文從垃圾用戶(hù)的目的性分析認(rèn)為影響票房而形成輿論的最好時(shí)機(jī)是電影上映前期,尤其為了對(duì)一部電影進(jìn)行惡意吹捧或惡意打壓,在電影上映后會(huì)注冊(cè)大量的垃圾用戶(hù)賬號(hào),并及時(shí)地給予大量的評(píng)論來(lái)引導(dǎo)輿論傾向。

因而本文將用戶(hù)發(fā)表影評(píng)時(shí)間與用戶(hù)注冊(cè)賬號(hào)時(shí)間的時(shí)間差、以及電影上映時(shí)間與電影評(píng)論時(shí)間的時(shí)間差分別作為一個(gè)特征,本文建立一個(gè)特征值Tc-n。表示用戶(hù)發(fā)表評(píng)論時(shí)間與用戶(hù)注冊(cè)賬號(hào)時(shí)間的時(shí)間差,如果該用戶(hù)發(fā)表了多條電影評(píng)論,則Tc-u。為時(shí)間差的平均值。本文建立一個(gè)特征值Tc-c,表示用戶(hù)發(fā)表影評(píng)時(shí)間與電影上映時(shí)間的時(shí)間差,如果該用戶(hù)發(fā)表了多條電影評(píng)論,則Tc-r,為對(duì)時(shí)間差求平均所得的平均值,具體見(jiàn)公式(1)。

對(duì)于文本有效詞集合f‘(x)獲得其長(zhǎng)度commentlengtll,以此表示文本長(zhǎng)度特征。

(2)影評(píng)文本情感度

用戶(hù)在發(fā)表電影評(píng)論時(shí)總會(huì)帶有一定的感情色彩,會(huì)有或喜歡或討厭或覺(jué)得電影一般等情緒的表露,垃圾用戶(hù)一般是對(duì)電影進(jìn)行惡意的貶低或故意抬高,為了對(duì)輿論造勢(shì),影響用戶(hù)對(duì)電影的印象,其評(píng)論中往往含較多的情感詞匯,因而本文認(rèn)為影評(píng)中的情感詞個(gè)數(shù)即影評(píng)文本的情感度可以反映用戶(hù)對(duì)電影的態(tài)度。

本文首先構(gòu)建了自己的影評(píng)情感詞庫(kù)。即將所有影評(píng)中打分為0分和1分的影評(píng)文本抽取出來(lái),然后抽取影評(píng)打分為4分和5分的影評(píng)文本,這兩類(lèi)文本作為基礎(chǔ)文本,即為高分影評(píng)文本和低分影評(píng)文本,采用iieba分詞并采用前面所構(gòu)建的停用詞庫(kù)去除兩類(lèi)文本中的停用詞,得到一些離散的詞匯。采用卡方檢驗(yàn)輸出計(jì)算這些離散的詞匯同兩類(lèi)文本之間的關(guān)系,并按卡方值由大到小進(jìn)行排序,然后結(jié)合人工識(shí)別從兩類(lèi)文本中得到兩類(lèi)情感詞匯,一類(lèi)情感詞匯是贊揚(yáng)電影的詞匯,總共包括93個(gè)詞匯,另一類(lèi)情感詞匯是貶低電影的詞匯,總共包括135個(gè)詞匯,其部分情感詞匯如圖1所示。

基于此本文用電影評(píng)論中所包含的情感詞的個(gè)數(shù)作為用戶(hù)對(duì)電影評(píng)論情感激烈程度的一種判斷。本文提取特征commentemotion作為用戶(hù)影評(píng)中所包含的情感詞個(gè)數(shù),如果用戶(hù)進(jìn)行了多部電影的評(píng)論,則commentemotion為其多部影評(píng)中的情感詞個(gè)數(shù)的平均值,見(jiàn)公式(4)。

(3)影評(píng)文本內(nèi)容特征

垃圾用戶(hù)的影評(píng)在一定程度上存在些相似陛,因而本文將用戶(hù)發(fā)表的評(píng)論文本亦作為一個(gè)用戶(hù)特征。具體實(shí)現(xiàn)方法是本文將每個(gè)用戶(hù)的影評(píng)寫(xiě)入到同一文件中,然后用jieba分詞對(duì)句子進(jìn)行處理,并通過(guò)構(gòu)建中文停用詞庫(kù)去除停用詞。采用word2vec對(duì)用戶(hù)的所有影評(píng)進(jìn)行embedding,最后得到embed-ding后的特征向量comment_w2v,用該特征向量作為用戶(hù)的一個(gè)特征參與訓(xùn)練。

3實(shí)驗(yàn)

本文提取了豆瓣網(wǎng)中的七部電影信息和用戶(hù)信息,結(jié)合用戶(hù)的基本信息、影評(píng)信息和用戶(hù)社交網(wǎng)信息,采用人工標(biāo)注出垃圾用戶(hù)和普通用戶(hù)作為樣本。在實(shí)驗(yàn)中,選取了相同數(shù)量的垃圾用戶(hù)和正常用戶(hù)采用五折交叉驗(yàn)證的方式參與訓(xùn)練。

實(shí)驗(yàn)根據(jù)提取的用戶(hù)特征,采用邏輯回歸的分類(lèi)方法進(jìn)行模型的訓(xùn)練,回歸參數(shù)采用默認(rèn)值,使用準(zhǔn)確率、精確率、召回率、F1值這四種指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià)。本文對(duì)不同的特征進(jìn)行融合,然后進(jìn)行模型的訓(xùn)練,所得的實(shí)驗(yàn)結(jié)果如表1所示:

實(shí)驗(yàn)結(jié)果表明,單純地采用用戶(hù)評(píng)論頻度特征進(jìn)行模型訓(xùn)練,識(shí)別垃圾用戶(hù)的準(zhǔn)確率為67%。用戶(hù)影評(píng)文本特征中,有效評(píng)論長(zhǎng)度和評(píng)論情感度每個(gè)特征僅有1維,而評(píng)論文本內(nèi)容長(zhǎng)度用word2vec進(jìn)行embedding后其特征為100維,為了保持維度的均衡,本文先將評(píng)論長(zhǎng)度和評(píng)論情感度結(jié)合作為用戶(hù)的特征進(jìn)行模型的訓(xùn)練,其識(shí)別水軍的準(zhǔn)確率為57.9%,這一結(jié)果要比單純只用評(píng)論情感度作為特征進(jìn)行模型訓(xùn)練效果要好一些。而單純用用戶(hù)評(píng)論文本詞向量作為用戶(hù)的特征進(jìn)行模型的訓(xùn)練效果并不太好,其準(zhǔn)確率僅為55.7%,若將三者結(jié)合,模型的準(zhǔn)確率可提高到59.2%。將本文所抽取的用戶(hù)評(píng)論頻度特征和用戶(hù)評(píng)論情感度特征融合進(jìn)行模型的訓(xùn)練,其準(zhǔn)確率可達(dá)到68.7%,而除去用戶(hù)評(píng)論文本的100維特征,將其它所有特征融合進(jìn)行模型的訓(xùn)練,其準(zhǔn)確率達(dá)到最高,將近70%,這說(shuō)明了用戶(hù)文本內(nèi)容詞向量特征在識(shí)別水軍用戶(hù)方面并不能算是一個(gè)很好的特征,其根本原因大概是水軍用戶(hù)的目的在于影響網(wǎng)絡(luò)輿情而非發(fā)布空內(nèi)容,因此其影評(píng)文本依然圍繞電影展開(kāi),在文本中涉及“劇本”“畫(huà)面”“特效”“演技”等關(guān)鍵詞,就詞頻統(tǒng)計(jì)特征與電影密切程度與普通用戶(hù)相近,此類(lèi)垃圾用戶(hù)為了改變網(wǎng)絡(luò)輿情,一般采用夸大優(yōu)點(diǎn)與缺點(diǎn)方式。為了使輿論變化接受度更高,此類(lèi)垃圾用戶(hù)會(huì)選擇普通用戶(hù)提出的觀(guān)點(diǎn)進(jìn)行深人。

4結(jié)語(yǔ)

本文選取點(diǎn)評(píng)網(wǎng)站以豆瓣網(wǎng)為例對(duì)垃圾用戶(hù)進(jìn)行識(shí)別研究,基于垃圾用戶(hù)的行為特征分析,提取了用戶(hù)評(píng)論頻度特征和用戶(hù)評(píng)論情感度特征,采用邏輯回歸分類(lèi)方法,對(duì)以上特征分別進(jìn)行模型訓(xùn)練以及融合進(jìn)行模型訓(xùn)練,以提高模型預(yù)測(cè)垃圾用戶(hù)的準(zhǔn)確率。實(shí)驗(yàn)證明,本文將多種模型特征融合進(jìn)行模型訓(xùn)練,其對(duì)水軍識(shí)別的準(zhǔn)確率最高可達(dá)到70%。