国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

國(guó)內(nèi)網(wǎng)絡(luò)水軍識(shí)別研究

2021-02-27 07:38楊海梅王恒
關(guān)鍵詞:水軍貝葉斯領(lǐng)域

◆楊海梅 王恒

國(guó)內(nèi)網(wǎng)絡(luò)水軍識(shí)別研究

◆楊海梅 王恒

(寧夏大學(xué)信息工程學(xué)院 寧夏 750000)

目前網(wǎng)絡(luò)水軍的識(shí)別已經(jīng)成為一項(xiàng)具有挑戰(zhàn)性的工作。為了維持良好的網(wǎng)絡(luò)環(huán)境,保證合理的網(wǎng)絡(luò)秩序,我們可以從大量的用戶信息中挖掘出水軍的特征和行為模式,從而發(fā)現(xiàn)網(wǎng)絡(luò)水軍。按水軍目標(biāo)領(lǐng)域可劃分為郵件水軍、電商領(lǐng)域的網(wǎng)絡(luò)水軍、社交領(lǐng)域的網(wǎng)絡(luò)水軍和微博領(lǐng)域的網(wǎng)絡(luò)水軍并從其目標(biāo)領(lǐng)域角度對(duì)近幾年國(guó)內(nèi)網(wǎng)絡(luò)水軍識(shí)別研究進(jìn)行綜述,并對(duì)網(wǎng)絡(luò)水軍識(shí)別方法進(jìn)行了敘述。

網(wǎng)絡(luò)水軍識(shí)別;社交網(wǎng)絡(luò)水軍;電商水軍;郵件水軍

1 網(wǎng)絡(luò)水軍識(shí)別的概述

現(xiàn)代社會(huì)信息化程度高,網(wǎng)絡(luò)承載著大數(shù)據(jù)的價(jià)值,例如新浪微博和豆瓣等擁有大量用戶,虛假言論和垃圾信息大量的產(chǎn)生傳播,這種危害的源頭就是俗稱的網(wǎng)絡(luò)水軍。通過(guò)挖掘隱藏在用戶信息中的水軍的特征和行為模式,實(shí)現(xiàn)網(wǎng)絡(luò)水軍識(shí)別。目前,網(wǎng)絡(luò)水軍識(shí)別研究在各領(lǐng)域都取得了較大的進(jìn)展。其特點(diǎn)主要包括:目標(biāo)范圍廣、危害影響大;評(píng)論內(nèi)容相似;數(shù)量多大量使用傀儡賬號(hào);行為不同于正常用戶。

2 網(wǎng)絡(luò)水軍識(shí)別相關(guān)研究

2.1 傳統(tǒng)網(wǎng)絡(luò)水軍

傳統(tǒng)的網(wǎng)絡(luò)水軍識(shí)別研究主要集中在郵件領(lǐng)域。傳統(tǒng)郵件水軍識(shí)別方法是基于垃圾郵件內(nèi)容分析,此方法的關(guān)注點(diǎn)在水軍制造的垃圾郵件本身,郵件的內(nèi)容分析包括:郵件的貝葉斯分類、基于關(guān)鍵詞分類、遺傳算法分類、神經(jīng)網(wǎng)絡(luò)分類等方法。早期的郵件水軍,通過(guò)檢測(cè)垃圾郵件內(nèi)容特征具有較高的準(zhǔn)確率。

2.2 新型網(wǎng)絡(luò)水軍

隨著網(wǎng)絡(luò)環(huán)境的復(fù)雜性和多樣性以及用戶辨別力的增強(qiáng),傳統(tǒng)網(wǎng)絡(luò)水軍制造傳播具有顯著特征內(nèi)容的影響在不斷降低。目前,新型網(wǎng)絡(luò)水軍按其目標(biāo)領(lǐng)域的不同,可分為電子商務(wù)領(lǐng)域、社交領(lǐng)域、論壇領(lǐng)域和郵件領(lǐng)域網(wǎng)絡(luò)水軍識(shí)別研究。

目前網(wǎng)絡(luò)水軍檢測(cè)選取的特征屬性主要包括:文本內(nèi)容、用戶行為和網(wǎng)絡(luò)環(huán)境。

2.2.1電商領(lǐng)域

在電商領(lǐng)域中,席曉晗[1]采用LDA主題模型來(lái)檢測(cè)評(píng)論短文本的主題,基于評(píng)論內(nèi)容的語(yǔ)義對(duì)評(píng)論劃分,這并非以前常用的純文本相似度的分析。王軍博[2]使用LDA模型確定每一件商品的評(píng)論主題,將與主題有較大偏離的評(píng)論被認(rèn)為是網(wǎng)絡(luò)水軍的可能性越大。張慧杰[3]為了減少單一特征的尺度空間模型帶來(lái)的誤判,他從水軍的行為特征、關(guān)系特征、群組行為等特征,構(gòu)建了多特征尺度空間模型。有研究者構(gòu)建行為特征識(shí)別效用評(píng)價(jià)模型,來(lái)分析評(píng)估電商水軍個(gè)人和團(tuán)體行為特征的識(shí)別效用,采用排序和分類模型對(duì)不同類電商水軍行為特征識(shí)別效用進(jìn)行真實(shí)評(píng)論數(shù)據(jù)的評(píng)測(cè)。并構(gòu)建用戶關(guān)系圖模型與識(shí)別算法來(lái)發(fā)現(xiàn)較大規(guī)模的電商水軍團(tuán)體。

2.2.2社交領(lǐng)域

在社交領(lǐng)域中,程傳鵬等人[4]等人對(duì)論壇水軍的七個(gè)特征計(jì)算權(quán)重,建立向量空間模型,使用KNN算法SVM軟件包來(lái)識(shí)別水軍,準(zhǔn)確率和召回率達(dá)到70%以上,此該方法對(duì)于特定話題水軍的識(shí)別具有實(shí)用性。有學(xué)者采用C4.5分類方法和BP神經(jīng)網(wǎng)絡(luò)以及樸素貝葉斯算法對(duì)網(wǎng)絡(luò)論壇水軍進(jìn)行檢測(cè),實(shí)驗(yàn)表明C4.5算法具有較好的性能在網(wǎng)絡(luò)論壇水軍檢測(cè)中。在水軍識(shí)別中使用熵值法確定各特征的權(quán)重,并采用主題識(shí)別模型對(duì)用戶特征進(jìn)行降維,綜合多特征自動(dòng)識(shí)別水軍使準(zhǔn)確率達(dá)到82. 4%,召回率高達(dá)88. 6%。

2.2.3微博領(lǐng)域

在微博領(lǐng)域中,孫衛(wèi)強(qiáng)[5]采用深度信念網(wǎng)絡(luò)對(duì)水軍識(shí)別構(gòu)建模型,挖掘?qū)W習(xí)網(wǎng)絡(luò)水軍共同特征,并使用Map Reduce框架來(lái)解決海量數(shù)據(jù)處理耗時(shí)的問(wèn)題,采用并行的Downpour SGD來(lái)加速RBM的訓(xùn)練。

張艷梅等人[6]采用貝葉斯模型識(shí)別水軍,并結(jié)合遺傳算法優(yōu)化初始的閾值矩陣,以此提高了分類模型的準(zhǔn)確性。程曉濤等人[7]在前人的基礎(chǔ)上增加時(shí)間特征和關(guān)系圖特征,在樸素貝葉斯、C4.5決策樹(shù)和貝葉斯網(wǎng)絡(luò)下融合各特征,提高了識(shí)別準(zhǔn)確率和召回率。崔麗娟[8]采用基于圖結(jié)構(gòu)和多特征方法識(shí)別水軍。對(duì)用戶構(gòu)建用戶關(guān)系圖,使用頻繁子圖和離群點(diǎn)算法挖掘出來(lái)的用戶群體定義為疑似網(wǎng)絡(luò)水軍團(tuán)體。再?gòu)慕Y(jié)構(gòu)特征、時(shí)間特征和內(nèi)容特征分析了網(wǎng)絡(luò)水軍團(tuán)體與正常用戶群體之間的不同,利用C4.5分類器進(jìn)一步對(duì)可疑網(wǎng)絡(luò)水軍團(tuán)體判定,最終得到網(wǎng)絡(luò)水軍團(tuán)體。

3 網(wǎng)絡(luò)水軍識(shí)別采用的方法

對(duì)于網(wǎng)絡(luò)水軍的分析,目前的研究主要基于內(nèi)容特征、用戶行為特征和用戶關(guān)系特征的分析方法。早期網(wǎng)絡(luò)水軍的識(shí)別主要基于內(nèi)容特征,所使用的算法有關(guān)鍵詞分類法、文本分析和B-Tree 索引等,目前,基于行為特征的識(shí)別分析方法包括貝葉斯算法、決策樹(shù)分類、k-means 聚類算法和邏輯回歸算法等?;谟脩絷P(guān)系特征的識(shí)別探測(cè)方法,如神經(jīng)網(wǎng)絡(luò)分類法、貝葉斯網(wǎng)絡(luò)等。

以下是幾位研究者對(duì)網(wǎng)絡(luò)水軍識(shí)別中所采用的方法和研究?jī)?nèi)容的敘述(表1):

表1 研究者對(duì)網(wǎng)絡(luò)水軍識(shí)別中所采用的方法和研究?jī)?nèi)容的敘述

4 網(wǎng)絡(luò)水軍研究難點(diǎn)

4.1 數(shù)據(jù)安全問(wèn)題

在互聯(lián)網(wǎng)環(huán)境中,用戶的隱私和信息安全制約了水軍研究的發(fā)展,出于隱私與信息安全的考慮,用戶不愿意提供個(gè)人完整和準(zhǔn)確的信息。在實(shí)驗(yàn)數(shù)據(jù)分析中怎樣避免用戶個(gè)人隱私是網(wǎng)絡(luò)水軍識(shí)別研究的一個(gè)難點(diǎn)。

4.2 特征定義

特征定義是水軍識(shí)別的關(guān)鍵,因?yàn)樗娔繕?biāo)領(lǐng)域不同其行為也有所不同,所以其呈現(xiàn)出來(lái)的特征也不相同。通過(guò)實(shí)驗(yàn)數(shù)據(jù)定義具有很高辨別網(wǎng)絡(luò)水軍的特征,是水軍識(shí)別研究的一個(gè)難點(diǎn)。

4.3 水軍識(shí)別結(jié)果的評(píng)價(jià)

一般采用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率、召回率和正確率等。在水軍識(shí)別研究中研究者常用人工評(píng)價(jià)方法,但是這種方法成本高且有一定的主觀性。如何有效評(píng)價(jià)水軍的表現(xiàn)也是水軍識(shí)別研究的一個(gè)難點(diǎn)。

5 總結(jié)

網(wǎng)絡(luò)水軍破壞網(wǎng)絡(luò)秩序,污染網(wǎng)絡(luò)環(huán)境,損害用戶利益。因而網(wǎng)絡(luò)水軍識(shí)別已受到業(yè)界的廣泛關(guān)注與應(yīng)用。大量學(xué)者開(kāi)始對(duì)各領(lǐng)域水軍進(jìn)行識(shí)別研究。網(wǎng)絡(luò)水軍識(shí)別研究都是基于水軍行為特征、內(nèi)容特征、關(guān)系特征與環(huán)境特征等,采用機(jī)器學(xué)習(xí)中的分類算法和深度學(xué)習(xí)模型等方法進(jìn)行特征提取來(lái)發(fā)現(xiàn)水軍。同時(shí)新型網(wǎng)絡(luò)水軍識(shí)別研究還存在一些問(wèn)題需深入研究,來(lái)提高水軍識(shí)別的準(zhǔn)確性和實(shí)用性。因此,網(wǎng)絡(luò)水軍識(shí)別的研究具有非常重要的意義和應(yīng)用前景。

[1]席曉晗.電子商務(wù)領(lǐng)域網(wǎng)絡(luò)水軍的行為特征研究[D]. 江西農(nóng)業(yè)大學(xué),2019.

[2]王軍博.基于電商評(píng)論網(wǎng)絡(luò)水軍識(shí)別[D]. 北京交通大學(xué),2016.

[3]張慧杰.基于多特征尺度空間模型的網(wǎng)絡(luò)水軍組織發(fā)現(xiàn)技術(shù)研究[D]. 浙江大學(xué),2015.

[4]程傳鵬,張書(shū)欽,劉小明,夏敏捷. 基于特定話題的網(wǎng)絡(luò)水軍識(shí)別研究[J]. 中原工學(xué)院學(xué)報(bào),2018.

[5]孫衛(wèi)強(qiáng).基于深度信念網(wǎng)絡(luò)的網(wǎng)絡(luò)水軍識(shí)別研究[D]. 湘潭大學(xué),2015.

[6]崔麗娟. 基于圖結(jié)構(gòu)與多特征的微博水軍團(tuán)體識(shí)別[D]. 南京郵電大學(xué),2018.

猜你喜歡
水軍貝葉斯領(lǐng)域
基于貝葉斯解釋回應(yīng)被告人講述的故事
2020 IT領(lǐng)域大事記
領(lǐng)域·對(duì)峙
資深“水軍”揭秘行業(yè)潛規(guī)則
網(wǎng)絡(luò)水軍
基于貝葉斯估計(jì)的軌道占用識(shí)別方法
水軍
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
水軍的前世今生