国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于生成對(duì)抗網(wǎng)絡(luò)的社交機(jī)器人檢測(cè)

2022-04-07 03:23:14李陽陽楊英光
關(guān)鍵詞:賬號(hào)機(jī)器分類

李陽陽,楊英光

(1.中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院社會(huì)安全風(fēng)險(xiǎn)感知與防控大數(shù)據(jù)應(yīng)用國(guó)家工程實(shí)驗(yàn)室,北京 100041;2.中國(guó)科學(xué)技術(shù)大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,安徽 合肥 230026)

0 引 言

推特(Twitter)作為一個(gè)在線社交網(wǎng)絡(luò),擁有上億數(shù)量的活躍用戶。用戶可以通過推文(tweet)、提及(mention)、轉(zhuǎn)發(fā)(retweet)等動(dòng)作與其他用戶進(jìn)行交互,通過這些交互能夠連接全球各地的人,彼此間相互影響。新聞、想法都可以通過這些連接進(jìn)行傳播。對(duì)于所有注冊(cè)的用戶,都可以通過網(wǎng)頁或者應(yīng)用編程接口(API)訪問推特平臺(tái)提供的服務(wù)。這種方式使得人們能夠編寫軟件來完成控制賬戶自動(dòng)進(jìn)行發(fā)送推文或者轉(zhuǎn)發(fā)推文等動(dòng)作[1],這些賬戶被稱作機(jī)器賬號(hào)又被稱作社交機(jī)器人。隨著機(jī)器賬號(hào)的發(fā)展,機(jī)器賬號(hào)的活動(dòng)已經(jīng)在包括政治[2-4]、健康[5-8]和商業(yè)[9]等多個(gè)領(lǐng)域中被報(bào)道,2017年有項(xiàng)研究[10]估計(jì)活躍用戶中有9%~15%為機(jī)器賬號(hào)。有一部分機(jī)器賬號(hào)為惡意賬號(hào),發(fā)布惡意及有害信息。越來越多人企圖使用機(jī)器賬號(hào)達(dá)到影響政治經(jīng)濟(jì)、引導(dǎo)對(duì)立等目的,人們生活的多個(gè)方面都受到機(jī)器賬號(hào)影響甚至威脅。所以對(duì)社交媒體中機(jī)器賬號(hào)的檢測(cè)成為了一個(gè)極其重要的課題,不同的機(jī)器賬號(hào)檢測(cè)技術(shù)也得到了長(zhǎng)足發(fā)展。

令人擔(dān)心的是,機(jī)器賬號(hào)隨著時(shí)間不斷進(jìn)化和迭代,不斷采用更加復(fù)雜的技術(shù),例如改變討論的話題和推文的文本模式,使得機(jī)器賬號(hào)與真實(shí)賬號(hào)的差異性越來越小[11],更加難以對(duì)機(jī)器賬號(hào)進(jìn)行檢測(cè)。研究者們不斷提出更加復(fù)雜的方法來加入這場(chǎng)與機(jī)器賬號(hào)的競(jìng)賽之中。在過去幾年研究者們已經(jīng)提出了多種基于機(jī)器學(xué)習(xí)的針對(duì)推特平臺(tái)上的機(jī)器賬號(hào)檢測(cè)的框架。然而這些檢測(cè)方法仍然面臨著2個(gè)重要的挑戰(zhàn):被動(dòng)性和泛化性。現(xiàn)有的檢測(cè)方案都是被動(dòng)式檢測(cè)方案[12],這種方法的檢測(cè)流程是:先觀察機(jī)器賬號(hào)的存在,收集相關(guān)數(shù)據(jù)集進(jìn)行分析,針對(duì)分析的結(jié)果設(shè)計(jì)檢測(cè)方案,使用檢測(cè)方案進(jìn)行檢測(cè),機(jī)器賬號(hào)為了規(guī)避檢測(cè)繼續(xù)進(jìn)化。這種被動(dòng)式檢測(cè)方案使得檢測(cè)方案需要機(jī)器賬號(hào)的先驗(yàn)知識(shí),并落后于機(jī)器賬號(hào)的發(fā)展,機(jī)器賬號(hào)的可分類模式被發(fā)現(xiàn)之前,會(huì)有很長(zhǎng)的時(shí)間潛伏在社交網(wǎng)絡(luò)平臺(tái)之中。泛化性是為了能夠檢測(cè)不同訓(xùn)練數(shù)據(jù)集中的機(jī)器賬號(hào),這個(gè)作為一個(gè)對(duì)抗性的問題至關(guān)重要。因?yàn)樾滦蜋C(jī)器賬號(hào)總是能夠通過設(shè)計(jì)來規(guī)避檢測(cè)[13]。目前已有的基于機(jī)器學(xué)習(xí)的檢測(cè)方法都是將其視為二分類問題,并從收集到的帶有2類標(biāo)簽的數(shù)據(jù)來訓(xùn)練模型。但是這些方法一旦遇到不同于訓(xùn)練集特征的新一代機(jī)器帳號(hào)時(shí),泛化性不足[14],檢測(cè)效果大大降低。

為了一定程度上解決上述2種問題,本文提出一個(gè)假設(shè):假如本文對(duì)于數(shù)據(jù)集中的真實(shí)賬號(hào)足夠了解,那么本文完全可以通過從真實(shí)賬號(hào)學(xué)習(xí)到的潛在表征來區(qū)分真實(shí)賬號(hào)與機(jī)器帳號(hào)。這樣本文只需要收集大量的真實(shí)賬號(hào)的數(shù)據(jù),學(xué)習(xí)這些真實(shí)賬號(hào)的潛在模式。這樣的好處有:1)將以往的二分類問題轉(zhuǎn)化為單一類別的檢測(cè)方法[15],不需要依賴機(jī)器賬號(hào)的先驗(yàn)知識(shí);2)能夠以主動(dòng)式[12]的或者說是對(duì)抗式的思路分析當(dāng)前的檢測(cè)方法是否存在檢測(cè)弱點(diǎn),從而能夠?yàn)闄z測(cè)方法提供進(jìn)一步的改進(jìn)思路,提升檢測(cè)方法的穩(wěn)定性;3)由于只學(xué)習(xí)真實(shí)賬號(hào)的潛在特征,只要在學(xué)習(xí)到的潛在可識(shí)別模式上與真實(shí)賬號(hào)有差異的機(jī)器帳號(hào)出現(xiàn)時(shí),就能輕易地被檢測(cè)出來,大大提高檢測(cè)方法的泛化性。

本文提出一個(gè)檢測(cè)方法來對(duì)機(jī)器賬號(hào)進(jìn)行檢測(cè)。本文檢測(cè)方法使用計(jì)算機(jī)圖像領(lǐng)域中常用的生成對(duì)抗網(wǎng)絡(luò)[16]來訓(xùn)練檢測(cè)模型,將隨機(jī)噪聲作為生成器的輸入來生成虛假數(shù)據(jù),將生成的虛假數(shù)據(jù)和數(shù)據(jù)集中的真實(shí)賬號(hào)作為真實(shí)數(shù)據(jù)輸入到判別器中,并不斷迭代,這樣判別器為了能夠識(shí)別生成器生成的質(zhì)量越來越好的虛假數(shù)據(jù),就必須對(duì)輸入的真實(shí)數(shù)據(jù)即真實(shí)賬號(hào)充分地學(xué)習(xí),學(xué)習(xí)到潛在的識(shí)別模式。這樣本文就能拿到訓(xùn)練好的判別器來識(shí)別機(jī)器賬號(hào)和真實(shí)賬號(hào)。

通過使用生成對(duì)抗網(wǎng)絡(luò)作為本文的檢測(cè)方案,從而給對(duì)抗性思路提供又一種實(shí)現(xiàn)。同時(shí)使用生成器不斷進(jìn)行迭代,生成的虛假數(shù)據(jù)成功逃脫了當(dāng)前最先進(jìn)的檢測(cè)器的檢測(cè)。本文也將二分類問題變成了單分類問題,用經(jīng)過多輪訓(xùn)練的判別器進(jìn)行機(jī)器賬號(hào)檢測(cè),泛化性的問題也在一定程度上得到了解決。

本文的主要工作有:

1)提出了一個(gè)假設(shè),即如果對(duì)于真實(shí)賬號(hào)的數(shù)據(jù)進(jìn)行充分學(xué)習(xí),本文不需要機(jī)器賬號(hào)的數(shù)據(jù)也能對(duì)其進(jìn)行分類。

2)第1個(gè)將生成對(duì)抗網(wǎng)絡(luò)引入到機(jī)器賬號(hào)檢測(cè)領(lǐng)域中的研究,并提供了一種對(duì)抗性思路的實(shí)現(xiàn)。

3)通過使用生成對(duì)抗網(wǎng)絡(luò)的判別器進(jìn)行機(jī)器帳號(hào)檢測(cè),提高了檢測(cè)的泛化性。

1 相關(guān)工作

1.1 有監(jiān)督方法

目前有大量使用監(jiān)督機(jī)器學(xué)習(xí)的相關(guān)研究,這些方法主要從賬戶元信息[14]、社交網(wǎng)絡(luò)拓?fù)鋄17]和推文內(nèi)容[10]上提取大量特征。這些方法都依賴帶標(biāo)注的數(shù)據(jù)集。Botomete[18-19]方案利用隨機(jī)森林算法,提取特征訓(xùn)練7個(gè)不同的分類器,在十倍交叉驗(yàn)證下的AUC值為0.95 AUC。文獻(xiàn)[20]中用貝葉斯算法做機(jī)器賬號(hào)檢測(cè)。文獻(xiàn)[21]用卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)聯(lián)合抽取文本特征和時(shí)間序列信息進(jìn)行賬號(hào)檢測(cè)。文獻(xiàn)[22]使用異構(gòu)圖神經(jīng)網(wǎng)絡(luò),基于拓?fù)渲械馁~戶之間總會(huì)產(chǎn)生“聚合”的假設(shè),根據(jù)其他賬戶如何與這個(gè)賬戶“聚合”即可進(jìn)行機(jī)器賬號(hào)的檢測(cè)。文獻(xiàn)[15]將機(jī)器賬號(hào)檢測(cè)視為單分類問題,選取了幾個(gè)單分類檢測(cè)算法對(duì)比了不同算法的檢測(cè)效果。

1.2 無監(jiān)督方法

也有一些研究使用無監(jiān)督方法,這些方法對(duì)于跨域檢測(cè)的魯棒性更好,并且更適合發(fā)現(xiàn)機(jī)器賬號(hào)的協(xié)同作用。因?yàn)閱为?dú)考慮賬號(hào)時(shí),賬戶可能并不會(huì)表現(xiàn)出差異,從而被有監(jiān)督方法忽略。文獻(xiàn)[23]通過檢測(cè)重復(fù)出現(xiàn)的嵌入式的URL的內(nèi)容發(fā)現(xiàn)機(jī)器人群組。文獻(xiàn)[24]提取使用馬爾可夫集群算法來識(shí)別機(jī)器賬號(hào)群組。文獻(xiàn)[25]使用聚類方法通過賬戶特征和使用情況來查找機(jī)器人群組。文獻(xiàn)[26]分析發(fā)現(xiàn)有些賬號(hào)總是同一時(shí)間轉(zhuǎn)發(fā)推文,利用這個(gè)模式,以0.94的精度尋找到了機(jī)器人群組。

2 數(shù)據(jù)集與特征提取

本文使用的數(shù)據(jù)集來自Cresci與合作者完成的文獻(xiàn)[11]中公布的數(shù)據(jù)集。該數(shù)據(jù)集包含了不同類型的機(jī)器賬號(hào)信息,還包括了每一個(gè)賬號(hào)最近發(fā)表的推文及推文信息,學(xué)者們利用該數(shù)據(jù)集做了大量研究。

2.1 數(shù)據(jù)集

該數(shù)據(jù)集的概況如表1所示,總共包含9386個(gè)賬號(hào),3474個(gè)真實(shí)賬號(hào),其余的機(jī)器賬號(hào)被劃分成4種不同的類型。數(shù)據(jù)集中提供了賬號(hào)發(fā)表的推文數(shù)據(jù),同時(shí)也提供了賬號(hào)的元數(shù)據(jù),如朋友和關(guān)注者的數(shù)量、是否為默認(rèn)頭像等。每一個(gè)賬號(hào)都經(jīng)過了人工驗(yàn)證,以確認(rèn)分類是否正確。

表1 數(shù)據(jù)集概述

2.2 特征提取

為了能夠訓(xùn)練出效果良好的分類模型,本文從數(shù)據(jù)集中抽取了41個(gè)特征,抽取的特征情況如表2所示。

表2 抽取的特征及解釋

3 方 法

3.1 基線檢測(cè)方法

本文使用tweetbotornot2作為基線方法進(jìn)行對(duì)比。該方法基于監(jiān)督分類器xgboost[27],從用戶賬戶的屬性、推文統(tǒng)計(jì)信息和基于文本的模式抽取了3大類特征。該方法的分類效果與國(guó)際最流行檢測(cè)器Botometer[18-19]不分伯仲,但Botometer未開源,而tweetbotornot2已經(jīng)開源,使用R語言實(shí)現(xiàn)(tweetbotornot2.mikewk.com),可以部署并進(jìn)行機(jī)器賬號(hào)檢測(cè)。本文在對(duì)比實(shí)驗(yàn)時(shí),使用上述抽取的41維特征對(duì)tweetbotornot2進(jìn)行訓(xùn)練,所以下述簡(jiǎn)稱為TW-41。

3.2 提出的方法

在實(shí)驗(yàn)中發(fā)現(xiàn),TW-41對(duì)上述數(shù)據(jù)集中抽取的特征進(jìn)行訓(xùn)練后,在測(cè)試集中得到的評(píng)價(jià)指標(biāo)AUC能達(dá)到0.98,效果十分不錯(cuò),但該方法的缺點(diǎn)是跨數(shù)據(jù)集的泛化性較差。

于是本文考慮能否使用一種對(duì)抗性的方法,從隨機(jī)噪聲中產(chǎn)生特征數(shù)據(jù)集,通過不斷迭代,從而規(guī)避TW-41的檢測(cè),另外當(dāng)前的機(jī)器檢測(cè)方法都是同時(shí)依賴于真實(shí)賬號(hào)和機(jī)器賬號(hào)的示例數(shù)據(jù)集,從示例數(shù)據(jù)集中學(xué)習(xí)2種類型數(shù)據(jù)的差異,從而完成機(jī)器賬號(hào)檢測(cè)的任務(wù)。但是由于機(jī)器賬號(hào)是不斷進(jìn)化的,通過示例數(shù)據(jù)集的學(xué)習(xí)并進(jìn)行分類的方案無法應(yīng)對(duì)新的變種機(jī)器賬號(hào)。同時(shí)真實(shí)賬號(hào)是易于獲得的,本文考慮能否通過單分類方法,即只需要真實(shí)賬號(hào)的數(shù)據(jù),對(duì)真實(shí)賬號(hào)特征分布充分學(xué)習(xí),從而能夠?qū)C(jī)器賬號(hào)進(jìn)行檢測(cè)。這樣也能夠大大提高檢測(cè)方案的泛化性。

圖1 使用生成對(duì)抗網(wǎng)絡(luò)檢測(cè)方法的流程

針對(duì)上述的思考,本文決定使用生成對(duì)抗網(wǎng)絡(luò)來解決上述2個(gè)問題。圖1展示了本文的檢測(cè)方法流程:將隨機(jī)噪聲z~pz(z)作為輸入到生成器,讓生成器產(chǎn)生虛假數(shù)據(jù),生成器G使用多層感知機(jī)實(shí)現(xiàn),如式(1):

G(v;θG)=f(z;θf)

(1)

其中,f使用多層感知機(jī)實(shí)現(xiàn),θf是f的參數(shù),變量z來自高斯分布,如式(2):

(2)

其中,zv∈d×1,d等于對(duì)賬號(hào)抽取的特征向量維度。為了能夠讓生成器生成足夠接近真實(shí)賬號(hào)的數(shù)據(jù)欺騙判別器,本文定義生成器的損失函數(shù)如式(3):

(3)

其中,z為隨機(jī)噪聲,G為生成器,D為判別器。最小化LG即可優(yōu)化生成器。本文使用數(shù)據(jù)集中只包含真實(shí)賬號(hào)中比例為80%的數(shù)據(jù)提供給使用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的判別器D,作為真實(shí)數(shù)據(jù)輸入進(jìn)行學(xué)習(xí),如式(4):

(4)

其中,xi是特征向量,θf是判別器f的參數(shù)。將虛假數(shù)據(jù)和對(duì)應(yīng)的標(biāo)簽及真實(shí)數(shù)據(jù)和對(duì)應(yīng)的標(biāo)簽輸入到判別器,判別器不斷進(jìn)行迭代,損失函數(shù)如式(5):

(5)

4 實(shí)驗(yàn)與結(jié)果

4.1 實(shí)驗(yàn)設(shè)置

生成對(duì)抗網(wǎng)絡(luò)中的判別器和生成器使用的都是有3個(gè)隱藏層的深度神經(jīng)網(wǎng)絡(luò)。生成器的輸入是隨機(jī)產(chǎn)生的64維隨機(jī)噪聲,輸出是代表虛假數(shù)據(jù)的41維特征向量。判別器的輸入是41維特征向量,輸出[0,1]的數(shù)值代表該特征向量屬于真實(shí)數(shù)據(jù)的概率值。3個(gè)隱藏層的神經(jīng)元數(shù)量分別是1024、512、256,激活函數(shù)是能夠減少梯度稀疏程度的LeakyReLU,并添加了批量正則化層。本文使用Adam方法來優(yōu)化網(wǎng)絡(luò),并設(shè)置批尺寸為batch_size=32,學(xué)習(xí)率大小設(shè)置為lr=0.0002,可使網(wǎng)絡(luò)收斂的更加穩(wěn)定。

4.2 逃脫檢測(cè)

為了能夠評(píng)估使用生成對(duì)抗網(wǎng)絡(luò)中的生成器是否能夠產(chǎn)生與真實(shí)賬號(hào)高度相似的數(shù)據(jù),并逃脫當(dāng)下最流行檢測(cè)器的檢測(cè)。本文選擇訓(xùn)練好的TW-41作為評(píng)估方法,評(píng)估生成器生成的虛假數(shù)據(jù)的效果。生成器的輸入是噪聲數(shù)據(jù),輸出是特征向量。判別器不斷輸出對(duì)這些特征向量屬于真實(shí)數(shù)據(jù)的概率值,將其與數(shù)據(jù)的標(biāo)簽作為損失函數(shù)的輸入,計(jì)算損失,通過反向傳播優(yōu)化生成器。本文將迭代次數(shù)設(shè)置為500次,迭代次數(shù)與TW-41的判斷精度的結(jié)果如圖2所示。

圖2 TW-41生成對(duì)抗網(wǎng)絡(luò)隨迭代次數(shù)的檢測(cè)精度

從圖2可以看出,隨著生成器的迭代,生成器生成的數(shù)據(jù)從完全隨機(jī)逐漸在特征上接近真實(shí)數(shù)據(jù),但一開始產(chǎn)生的數(shù)據(jù)與TW-41用于訓(xùn)練的機(jī)器賬號(hào)相似,被識(shí)別出來,所以有了檢測(cè)正確率的上升。隨著迭代,當(dāng)生成器產(chǎn)生的數(shù)據(jù)已經(jīng)與真實(shí)賬號(hào)的分布一致時(shí),TW-41已經(jīng)無法識(shí)別這是生成的虛假數(shù)據(jù),將其識(shí)別為真實(shí)賬號(hào),所以精確度逐漸收斂到0。最后生成的數(shù)據(jù)完全逃脫了檢測(cè)。

4.3 判別器分類效果

本文使用數(shù)據(jù)集中的真實(shí)賬號(hào)和生成器產(chǎn)生的虛假數(shù)據(jù)對(duì)判別器進(jìn)行訓(xùn)練。這樣如果判別器對(duì)真實(shí)賬號(hào)的模式學(xué)習(xí)的足夠好,理論上不需要收集機(jī)器賬號(hào)就能夠?qū)C(jī)器賬號(hào)進(jìn)行檢測(cè),一定程度上能夠解決檢測(cè)方法跨數(shù)據(jù)集的泛化性問題。為了驗(yàn)證該想法,本文將隨機(jī)抽取真實(shí)賬號(hào)的80%作為訓(xùn)練數(shù)據(jù),并將剩余的20%的真實(shí)賬號(hào)和數(shù)量大致相等的Social spambots #2(s2)的20%作為測(cè)試數(shù)據(jù)。設(shè)置生成對(duì)抗網(wǎng)絡(luò)的迭代次數(shù)(epoch)分別為250、500、750、1000。由于是單分類問題,并且判別器輸出是概率值,所以本文選擇AUC作為評(píng)價(jià)指標(biāo)。不同迭代次數(shù)的AUC值如表3所示。

表3 GAN迭代次數(shù)及其判別器對(duì)測(cè)試數(shù)據(jù)集的AUC值

從表3可以看出,訓(xùn)練得到的判別器其AUC值均能達(dá)到90%以上,得到了很好的分類效果。

本文用真實(shí)賬號(hào)與4種機(jī)器賬號(hào)數(shù)據(jù)中的一種進(jìn)行組合成訓(xùn)練集,參數(shù)設(shè)置如表4所示。使用組合后的訓(xùn)練集中80%的數(shù)據(jù)對(duì)TW-41方法進(jìn)行訓(xùn)練,僅使用訓(xùn)練集中80%的真實(shí)賬號(hào)對(duì)生成對(duì)抗網(wǎng)絡(luò)中的判別器進(jìn)行訓(xùn)練。挑選出其他機(jī)器賬號(hào)數(shù)據(jù)的20%與剩余的20%的真實(shí)賬號(hào)數(shù)據(jù)組成測(cè)試集。用TW-41和生成對(duì)抗網(wǎng)絡(luò)中GAN-41的判別器分別在測(cè)試集上進(jìn)行測(cè)試,使用AUC作為評(píng)價(jià)指標(biāo)。結(jié)果如表5所示。

表4 TW-41與GAN對(duì)比實(shí)驗(yàn)的訓(xùn)練集和測(cè)試集參數(shù)設(shè)置

表5 TW-41與GAN-41的AUC值對(duì)比

從表5可以看出TW-41只有在使用與訓(xùn)練集相同分布的測(cè)試集上測(cè)試時(shí)能夠達(dá)到非常不錯(cuò)的效果,AUC指標(biāo)超過99%。但當(dāng)測(cè)試集中的機(jī)器人數(shù)據(jù)沒有在訓(xùn)練集中出現(xiàn)時(shí),TW-41的效果有些下降,此時(shí)GAN的判別器識(shí)別機(jī)器人的效果要更加優(yōu)秀,同時(shí)也說明了本文檢測(cè)方案的泛化性比TW-41等基于傳統(tǒng)機(jī)器學(xué)習(xí)的檢測(cè)方法更強(qiáng)。

為了能夠進(jìn)一步查看不同類型的特征對(duì)于檢測(cè)效果的影響,本文僅使用賬戶元數(shù)據(jù)中13個(gè)特征數(shù)據(jù)訓(xùn)練TW-13檢測(cè)器,以及僅僅使用剩下的28個(gè)從推文中抽取的內(nèi)容特征訓(xùn)練TW-28檢測(cè)器分別與對(duì)應(yīng)特征維度的生成對(duì)抗網(wǎng)絡(luò)進(jìn)行對(duì)比重復(fù)上述實(shí)驗(yàn),結(jié)果如表6和表7所示。從結(jié)果中能夠得出本文的檢測(cè)方法在特征維度不同時(shí),泛化性依然強(qiáng)于tweetbotornot2。

表6 TW-13與GAN-13的AUC值對(duì)比

表7 TW-28與GAN-28的AUC值對(duì)比

5 討 論

通過上述實(shí)驗(yàn)的結(jié)果可以發(fā)現(xiàn)只需要數(shù)據(jù)集中的真實(shí)賬號(hào)和將隨機(jī)噪聲輸入到生成器產(chǎn)生的生成數(shù)據(jù)來訓(xùn)練判別器,判別器就能夠以AUC值超過94%的高精確度來檢測(cè)機(jī)器賬號(hào)。本文分析原因是由于判別器對(duì)真實(shí)賬號(hào)抽取的特征學(xué)習(xí)到了良好的可識(shí)別模式,使其達(dá)到了良好的分類效果。并且還可以發(fā)現(xiàn),當(dāng)生成器不斷迭代時(shí),TW-41對(duì)生成的數(shù)據(jù)檢測(cè)的精度呈現(xiàn)先上升后下降的趨勢(shì),其原因是由于生成器生成數(shù)據(jù)的質(zhì)量不斷上升,當(dāng)其迭代到50次左右時(shí),生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)接近,但仍然存在可以被TW-41識(shí)別的特征,TW-41便能夠以很高的精度檢測(cè)出生成器生成的與真實(shí)數(shù)據(jù)相似的虛假數(shù)據(jù)。當(dāng)?shù)礁叽螖?shù)時(shí),生成的數(shù)據(jù)與真實(shí)賬號(hào)更加相似,生成的數(shù)據(jù)質(zhì)量越來越好,使得TW-41的檢測(cè)精度不斷下降直到接近0,逃脫了檢測(cè),可見即使是當(dāng)前檢測(cè)精度極高的先進(jìn)檢測(cè)方法,仍然存在著檢測(cè)弱點(diǎn)。

通過上述研究可以知道本文不需要提供機(jī)器賬號(hào)的數(shù)據(jù)就能訓(xùn)練出能夠檢測(cè)機(jī)器賬號(hào)的模型,也將二分類問題轉(zhuǎn)化為單一分類問題,并大大提高了檢測(cè)方案的泛化性,使得本方法相較其他方法更能夠檢測(cè)最新一代的機(jī)器賬號(hào)。

6 結(jié)束語

本文提出了使用生成對(duì)抗網(wǎng)絡(luò)來進(jìn)行機(jī)器賬號(hào)檢測(cè)。使用真實(shí)賬號(hào)作為真實(shí)數(shù)據(jù)訓(xùn)練判別器,使用訓(xùn)練好的判別器就可以對(duì)機(jī)器賬號(hào)進(jìn)行檢測(cè),本文檢測(cè)方法能夠?qū)崿F(xiàn)AUC值超過94%的高精確度,并且不需要任何機(jī)器帳號(hào)的先驗(yàn)知識(shí)。同時(shí)本文也用時(shí)下最先進(jìn)的TW-41檢測(cè)器,評(píng)判生成器生成的虛假數(shù)據(jù)的攻擊效果。

本文研究了如果有模型能夠?qū)φ鎸?shí)賬號(hào)的特征學(xué)習(xí)到良好的可識(shí)別模式,那么不需要對(duì)機(jī)器賬號(hào)有先驗(yàn)知識(shí)就可以達(dá)到很好的分類效果。

目前本文方法只在一種數(shù)據(jù)集中進(jìn)行了訓(xùn)練,這種方式得到的模型的穩(wěn)定性還不夠好,不能夠在所有的數(shù)據(jù)集組合作為測(cè)試集時(shí),AUC值都達(dá)到90%以上。未來筆者將收集更多數(shù)據(jù)集,用不同數(shù)據(jù)集中的真實(shí)賬號(hào)訓(xùn)練同一個(gè)判別器,達(dá)到更好的分類效果,進(jìn)一步借鑒不同檢測(cè)方案中特征抽取的方式,用不同方式訓(xùn)練出多個(gè)判別器。多個(gè)判別器能夠在不同的特征空間中學(xué)習(xí)到可分類模式,這樣由不同分類模式的判別器組成的集成分類器就能對(duì)單一賬號(hào)進(jìn)行打分,得出一個(gè)魯棒性更高的檢測(cè)器。同時(shí)筆者也將分析生成器生成的虛假數(shù)據(jù)和真實(shí)數(shù)據(jù)的相似性和差異性,分析導(dǎo)致虛假數(shù)據(jù)逃脫TW-41檢測(cè)的原因,找出TW-41等基于傳統(tǒng)機(jī)器學(xué)習(xí)方法實(shí)際存在的弱點(diǎn)。

猜你喜歡
賬號(hào)機(jī)器分類
機(jī)器狗
機(jī)器狗
彤彤的聊天賬號(hào)
分類算一算
施詐計(jì)騙走游戲賬號(hào)
派出所工作(2021年4期)2021-05-17 15:19:10
分類討論求坐標(biāo)
未來機(jī)器城
電影(2018年8期)2018-09-21 08:00:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
Google Play游戲取消賬號(hào)綁定沒有Google賬號(hào)也能玩
CHIP新電腦(2016年3期)2016-03-10 14:52:50
清远市| 东山县| 手机| 延长县| 沙田区| 得荣县| 孙吴县| 正宁县| 福清市| 什邡市| 临猗县| 临海市| 盐亭县| 宝山区| 天峨县| 阳山县| 南川市| 南和县| 永康市| 宣化县| 彭水| 瓮安县| 威远县| 宝丰县| 静乐县| 晋宁县| 杨浦区| 策勒县| 荔浦县| 响水县| 宣威市| 许昌县| 兰坪| 巴林右旗| 崇左市| 彭阳县| 慈溪市| 玉山县| 宝山区| 抚顺市| 新野县|