国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡電影評論中的水軍挖掘研究

2018-01-29 16:57:23胡曉康
科學與財富 2017年35期
關(guān)鍵詞:數(shù)據(jù)挖掘

摘要:針對當前電影評論中存在過多的水軍評論而導致電影評論失真的問題,分別討論了當前三種主流水軍挖掘方法在網(wǎng)絡電影評論中運用的可行性,之后通過對部分水軍賬號進行分析,從而總結(jié)出電影評論網(wǎng)絡水軍的一些共性特點。

關(guān)鍵詞:電影評論,網(wǎng)絡水軍,數(shù)據(jù)挖掘

1.引言

網(wǎng)絡水軍一般是以盈利為目的,通過對網(wǎng)絡輿論的控制和引導,為企業(yè)提供品牌炒作、產(chǎn)品營銷、口碑維護、危機公關(guān)等服務。隨著近幾年電影市場的火爆,網(wǎng)絡水軍開始大量滲透進各大電影論壇中,其評論欺騙人們相信一部電影值得看或者將一部影片的貶得一文不值,這會誤導人們決定看什么電影,嚴重影響著許多電影的口碑走向,無形中對一些電影的收益產(chǎn)生重大影響,并危害國家的文化產(chǎn)業(yè)發(fā)展。

2.網(wǎng)絡水軍挖掘的常見方法

目前,按照研究方法的不同,網(wǎng)絡水軍挖掘研究可以分為基于用戶產(chǎn)生內(nèi)容特征、基于環(huán)境特征的識別方法和基于用戶相關(guān)特征。

2.1 基于用戶產(chǎn)生內(nèi)容特征

該方法根據(jù)具體的評論內(nèi)容來對疑似水軍進行識別,早期的電影評論水軍往往發(fā)表許多內(nèi)容高度相似的影評,來達到其最大化網(wǎng)絡影響且最大程度減少工作量的目的,因此具有顯著可識別的特征,此時,結(jié)合機器學習中的自然語言處理、文本分類、情感分類等技術(shù),比較容易分辨出水軍的影評。但是,隨著當今網(wǎng)絡環(huán)境的復雜化及水軍行業(yè)的專業(yè)化,其影評更加接近于正常用戶,單單根據(jù)電影評論的內(nèi)容,很難對兩者進行區(qū)分,因此當前的電影評論水軍挖掘通過該方法并不能取得很好的效果。

2.2 基于環(huán)境特征的識別方法

網(wǎng)絡水軍的異常行為使其在網(wǎng)絡環(huán)境層級表現(xiàn)出不同于正常用戶的特點,研究者們通?;贗P的黑名單信息、TCP腳印信息、路由信息以及機器人網(wǎng)站命令追蹤信息等聯(lián)系起來對水軍的網(wǎng)絡級別特征經(jīng)行分析,以實現(xiàn)對水軍的追蹤。另外,也有學者利用網(wǎng)絡服務提供商的水軍記錄行為,從ISP角度提出流量級別的特征,實現(xiàn)對網(wǎng)絡水軍行為的建模。此外,基于水軍在制造垃圾評論時的網(wǎng)絡負載突然加大這一特點,近幾年通過網(wǎng)絡流量的角度去挖掘水軍特征也為這方面的研究提供了一條新思路。總的來說,基于環(huán)境特征的識別方法其研究需要相應的實驗數(shù)據(jù)集,而獲取相應的數(shù)據(jù)集存在相當大的難度,因此該方法在電影評論領(lǐng)域的運用并沒有得到大規(guī)模推廣。

2.3 基于用戶相關(guān)特征

基于用戶相關(guān)特征的方法又可以細分為基于用戶行為特征和基于用戶關(guān)系特征兩種方法。前者的經(jīng)典方法為通過人工標記首先建立訓練集,然后通過對已經(jīng)識別的網(wǎng)絡水軍進行分析并定義其特征,利用weka中的三種特征選擇算法評價各個網(wǎng)絡水軍行為特征的分辨力,采用傳統(tǒng)監(jiān)督分類方法,判斷未知用戶是否為網(wǎng)絡水軍。之后的方法大多圍繞該方法進行改進,以提高水軍識別的準確率。

后者是目前廣泛采用的用戶關(guān)系特征的識別研究,該方法基于社會網(wǎng)絡、圖模型理論的研究,通過網(wǎng)絡水軍不同于正常用戶的社交圈子的特點,來將兩者進行區(qū)分。由于電影評論領(lǐng)域的水軍往往會呈現(xiàn)高度的聚集性以及與普通用戶關(guān)系稀疏性的明顯特點。因此,網(wǎng)絡電影評論中的水軍更適合于通過用戶特征來進行挖掘。

3.電影評論中的水軍特點

通過收集微博電影評論平臺水軍賬戶信息及其外圍用戶信息進行分析,可以總結(jié)出疑似水軍用戶具有一些共同的特征。

首先,社交網(wǎng)絡中,正常用戶往往通過各種交互行為逐漸形成一個以用戶為中心的社交圈子,而水軍用戶賬號不具有正常的社會關(guān)系,其形成的社會網(wǎng)絡結(jié)構(gòu)特殊。水軍用戶往往會關(guān)注大量用戶,但并不關(guān)心這些用戶真實的社會網(wǎng)絡關(guān)系,其關(guān)注好友之間幾乎沒有連結(jié),也就是說,其賬戶雙邊的朋友關(guān)系比例很低。

其次,水軍的微博用戶等級低于合法用戶。水軍經(jīng)常會不斷注冊新用戶賬號,但卻不會去刻意經(jīng)營這些賬號,因此這些賬號本身不會有太多戶主的日常生活記錄,其個人主頁點擊率也會十分低。

另外,水軍的賬戶往往會在短時間內(nèi)同時發(fā)布大量的評論,對于電影的評分,出于雇傭者的要求,其給分極端(極高或極低)。

最后,水軍賬戶的轉(zhuǎn)發(fā)率低于合法用戶。其發(fā)布的評論往往更加主觀,即提出自己的意見來影響別人,而不是去傳播別人的意見。

4 結(jié)語

網(wǎng)絡的快速發(fā)展極大地便利了我們生活的同時,也使我們面臨著網(wǎng)絡水軍的騷擾。當前中國各大電影論壇為人們交流電影和交流彼此的經(jīng)驗提供了極好的平臺,而電影評論水軍的介入擾亂了正常的秩序,妨礙了用戶的利益。水軍研究作為數(shù)據(jù)挖掘領(lǐng)域近幾年的熱點,今后將會得到國內(nèi)外更廣泛的研究。因此,結(jié)合網(wǎng)絡電影評論水軍的特點,綜合其內(nèi)容、行為、關(guān)系和環(huán)境等特征,努力提高網(wǎng)絡水軍識別的準確率,對于維護網(wǎng)絡環(huán)境,恢復網(wǎng)絡秩序,促進中國電影市場與文化產(chǎn)業(yè)蓬勃發(fā)展,具有十分重要的意義。

參考文獻:

[1]Chen G, Cai W, Huang J, et al. Uncovering and Characterizing Internet Water Army in Online Forums[C]// IEEE International Conference on Data Science in Cyberspace. IEEE, 2016:169-178.

[2] 莫倩, 楊珂. 網(wǎng)絡水軍識別研究*[J]. 軟件學報, 2014(7):1505-1526.

[3]程曉濤, 劉彩霞, 劉樹新. 基于關(guān)系圖特征的微博水軍發(fā)現(xiàn)方法[J]. 自動化學報, 2015, 41(9):1533-1541.

[4]Zeng K, Wang X, Zhang Q, et al. Behavior Modeling of Internet Water Army in Online Forums[J]. Ifac Proceedings Volumes, 2014, 47(3):9858-9863.

作者簡介:胡曉康(1992—),男,山西臨汾人,山西財經(jīng)大學2015(管理科學與工程)學術(shù)碩士研究生,研究方向:信息與知識管理.endprint

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
數(shù)據(jù)挖掘在高校圖書館中的應用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
朔州市| 岐山县| 登封市| 绥中县| 越西县| 曲靖市| 从江县| 界首市| 桓台县| 大冶市| 通榆县| 鄢陵县| 万全县| 临武县| 股票| 嘉兴市| 舞钢市| 桐城市| 玉林市| 荃湾区| 海城市| 安丘市| 蓝山县| 永康市| 安图县| 吕梁市| 门源| 吉安市| 隆安县| 太和县| 黄龙县| 黄冈市| 肥东县| 太保市| 贵定县| 江阴市| 哈密市| 黄山市| 登封市| 威信县| 惠水县|