李新煥,黃偉力
(江西開放大學 江西工程職業(yè)學院,江西 南昌 330046)
隨著網(wǎng)絡的普及和科技的發(fā)展,人們的社交活動方式從傳統(tǒng)的書信聯(lián)絡到便捷的電子郵件,再到即時通信工具(如微信、QQ、微博等),可謂發(fā)生了翻天覆地的變化。與此同時,新浪微博為眾人所熟知,尤其是大多數(shù)知名人士和企業(yè)用戶都會在新浪微博上注冊認證。在微博平臺上大家可以暢所欲言,隨時隨地接收信息和發(fā)表觀點。正是由于微博使用的便利性,一些網(wǎng)絡水軍會帶偏某些熱點事件的走勢。因此,若要更好地控制網(wǎng)絡輿情,優(yōu)化網(wǎng)絡中的信息質量,引導風清氣正的網(wǎng)絡環(huán)境至關重要。
Fang等利用所提出的用戶名特征提取算法,對網(wǎng)絡中的僵尸粉進行識別研究。Chu等對用戶發(fā)表的內容及其賬號屬性進行研究分析,從中發(fā)現(xiàn)有絕大多數(shù)水軍使用第三方接口發(fā)送內容,同時還發(fā)現(xiàn)所發(fā)布的內容具有重復性和定點性,相反正常用戶很少會選擇在晚上發(fā)文。Irani等對眾多的社交網(wǎng)絡賬戶進行了研究,成功建立一個巨大的靜態(tài)用戶個人資料內容分析案例庫。通過比較幾種機器學習算法,最終獲得用以甄別水軍用戶的決策樹算法。王淑琪等研究微博中正常用戶和水軍用戶的差異,基于提取出的特征屬性去識別微博水軍,利用SVM算法對其進行分類,最后得到水軍識別的模型。程曉濤將傳統(tǒng)用戶的屬性及其行為特征相結合,得出一種全新的關系圖,這也充分證明了新特征的使用對于水軍的識別有了很大的提升。韓忠明等把用戶成為水軍的概率當作其屬性特征及行為特征的隱變量,從而構建了用于計算用戶成為水軍概率的模型。
目前對水軍的識別大都是基于對微博用戶語言特征和行為特征的分析,由于社交網(wǎng)絡的數(shù)據(jù)量巨大,微博內容也比較繁雜,因此內容本身的不確定性給水軍的識別帶來極大的挑戰(zhàn)。文章通過微博中的用戶信息對用戶進行識別,從而提高網(wǎng)絡水軍識別的準確率,同時還能對網(wǎng)絡輿情起到很好的控制作用,進而提高網(wǎng)絡上的信息質量。
據(jù)統(tǒng)計,新浪微博中的用戶占微博用戶的三分之二以上,因此本研究主要針對新浪微博中的用戶展開,利用新浪微博對外開放的API(應用程序編程接口)提取新浪微博中的數(shù)據(jù)。但由于API的升級限制,這就為從新浪微博中獲取數(shù)據(jù)帶來一定的困難,故本研究還采用網(wǎng)絡爬蟲(Web Scraper)輔助獲取數(shù)據(jù)。作者曾經(jīng)發(fā)表的文獻中詳細介紹了新浪微博API接口獲取數(shù)據(jù)的過程,故在此不再贅述,讀者可自行去參閱。
網(wǎng)絡爬蟲(Web Scraper)是一個輕量級的谷歌瀏覽器爬蟲插件,用于任意抓取Web頁面并使用幾行JavaScript代碼從中提取結構化數(shù)據(jù)。它能夠加載Web頁面并實現(xiàn)動態(tài)抓取。按照谷歌瀏覽器中的提示,下載Web Scraper并將其保存到本地,打開谷歌瀏覽器的擴展程序,打開開發(fā)者選項,將下載好的Web Scraper直接拖拽到里面,再返回到要抓取的頁面,打開開發(fā)者工具,即可找到并進入Web Scraper的界面,新建站點地圖并添加節(jié)點,選中要抓取的內容,最后將抓取到的數(shù)據(jù)以.xlsx或.csv的格式導出即可。
本研究總共獲取了12 680條微博數(shù)據(jù),對所獲取的數(shù)據(jù)進行了清理,如填寫少量缺失值、使噪聲數(shù)據(jù)光滑、刪除離群點的數(shù)據(jù)。為了使數(shù)據(jù)能夠適用于SVM,對部分字段進行了規(guī)范化處理,最終選擇其中3 600條數(shù)據(jù)作為樣本集。
1.2.1 微博用戶種類分析
本研究將微博中的用戶分為四類:(1)正常用戶。微博中正常使用賬號的用戶。(2)炒作型水軍。一般由營銷團隊(如第三方組織或權威人士)針對某一話題進行大力宣揚,以得到更多用戶的關注,從而提高知名度或品牌影響力。(3)營銷型水軍。通過夸張的視頻或圖片廣告極力宣傳商品的優(yōu)勢,甚至是通過編造虛假故事來博取用戶的信任或同情,以此來謀財。(4)謠言型水軍。針對當下熱點話題發(fā)布虛假言論,引導眾人產生不滿或恐慌的情緒。
1.2.2 特征屬性定義
微博用戶在社交網(wǎng)絡中的行為主要表現(xiàn)為通過發(fā)布微博、轉發(fā)評論等方式引起他人的關注。正常用戶一般是引導積極向上的正能量,或者是處于中立的態(tài)度,而網(wǎng)絡水軍則要占據(jù)顯要位置,以此來吸引大量用戶的注意,進而帶動整個話題的輿論方向,達到自己的目的或從中獲利。
通過對微博中用戶的特征屬性進行詳細的對比分析,可篩選得出有關網(wǎng)絡水軍的特征屬性:(1)關注數(shù)。當前用戶關注其他用戶的數(shù)量,水軍賬號的關注數(shù)量遠遠大于正常用戶的關注數(shù)量。(2)粉絲數(shù)。當前用戶被其他用戶關注的數(shù)量,水軍賬號的粉絲數(shù)少于正常用戶。(3)標簽數(shù)。為了讓更多的人了解自己,用戶一般會給自己貼標簽(如運動、購物、開心等),用戶貼的標簽越多,代表其是正常用戶的概率大,相反就是網(wǎng)絡水軍的概率大。(4)微博數(shù)。當前用戶發(fā)布的微博總數(shù),水軍賬號發(fā)布的微博數(shù)要遠遠高于正常用戶。(5)粉絲關注比(粉絲數(shù)/關注數(shù))。該比值越高,說明當前用戶為認證或權威用戶的概率更大;該比值越低,說明當前用戶為水軍賬號的概率更大。(6)資料完善度。如基本信息、聯(lián)系信息、職業(yè)信息、教育信息、標簽信息等五項指標,每項指標又包含許多更為具體的小指標,在此規(guī)定每個小指標用戶填寫則計為1,不填寫則計為0,資料完善度的各項值的和即為各項小指標相加。(7)有無簡介。向用戶介紹自己的基本情況、興趣愛好、最近狀態(tài)等,有計為1,無計為0。(8)陽光信用。共有5個等級,等級越高信用越好。
本研究基于多個二分類器設計了一個多分類器,利用臺灣林智仁教授開發(fā)的一套實現(xiàn)支持向量機的庫LibSVM中的函數(shù)svm.scale進行縮放,設置閾值為[-1,1]。處理過程如圖1所示。將提取出的微博用戶特征值輸入到分類器后,第一個分類器判斷該用戶是正常用戶還是炒作型水軍,第二個分類器判斷該用戶是正常用戶還是營銷型水軍,第三個分類器判斷該用戶是正常用戶還是謠言型水軍,第四個分類器判斷該用戶是營銷型水軍還是炒作型水軍,第五個分類器判斷該用戶是謠言型水軍還是炒作型水軍,第六個分類器判斷該用戶是營銷型水軍還是謠言型水軍。最后對這六個分類器的結果進行統(tǒng)計,得數(shù)最高的即為用戶類型。
圖1 多分類支持向量機模型
本研究中的數(shù)據(jù)一部分來自新浪微博開放平臺,一部分是通過網(wǎng)絡爬蟲獲取的,快速識別出水軍的類型對網(wǎng)絡輿情的控制至關重要。本文設計了微博數(shù)據(jù)爬取程序和用戶識別模型,用于獲取微博中用戶的關注數(shù)和粉絲數(shù),識別出水軍類型并進行統(tǒng)計分析。
以前期獲得的3 600條數(shù)據(jù)作為本研究的實驗數(shù)據(jù),人工分類如下:正常用戶有2 854條,網(wǎng)絡水軍有746條,其中炒作型水軍有369條,營銷型水軍有286條,謠言型水軍有91條。通過人工分類和多分類識別器得到的數(shù)據(jù)如表1、表2和圖2所示。
表1 人工分類得到的數(shù)據(jù)
表2 多分類器識別得到的數(shù)據(jù)
圖2 實驗數(shù)據(jù)識別結果
本研究定義了識別結果誤差率,其為人工分類識別結果和分類器識別結果差的絕對值,公式為:
根據(jù)圖2可以計算得出,正常用戶的識別結果誤差率為7.36%,炒作型水軍的識別結果誤差率為3.17%,營銷型水軍的識別結果誤差率為2.95%,謠言型水軍的識別結果誤差率為1.25%。四個識別結果誤差率的平均值約為3.68%,數(shù)值比較小,證明本研究提出的SVM多分類器識別方法對所提取數(shù)據(jù)的識別效果較好。
網(wǎng)絡給人們提供了極大的便利,但與此同時也帶來一些負面影響,如本文研究的網(wǎng)絡水軍極大地干擾了網(wǎng)絡輿論和信息安全,因此有必要將他們準確地識別出來并加以分類,以營造純凈健康的網(wǎng)絡環(huán)境。本文采用一種基于SVM算法的多分類器模型,根據(jù)用戶的特征信息進行檢測識別,將他們分為正常用戶、炒作型水軍、營銷型水軍、謠言型水軍四種類型。實驗結果表明,所提出的多分類器模型可以有效識別網(wǎng)絡水軍。希望在以后的研究中,能開發(fā)出更優(yōu)異的支持向量機算法模型,在識別網(wǎng)絡水軍上做到更加精準可靠。