国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞向量集成與數(shù)據(jù)增強(qiáng)的惡意評(píng)論分類模型

2022-07-25 02:12:06楊金靈
科學(xué)技術(shù)創(chuàng)新 2022年22期
關(guān)鍵詞:向量分類評(píng)估

楊金靈

(大連外國(guó)語(yǔ)大學(xué),遼寧 大連 116044)

如今,隨著科技時(shí)代的到來(lái),人們?cè)诎l(fā)達(dá)的互聯(lián)網(wǎng)背景下往往傾向于利用方便的電子設(shè)備在網(wǎng)絡(luò)中發(fā)表各種各樣的言論和表達(dá)自身的情感。因此從眾多的意見(jiàn)中也產(chǎn)生了海量的數(shù)據(jù)。但是,其中不乏暗含著具有充滿威脅性的甚至報(bào)復(fù)性質(zhì)的惡意評(píng)論。據(jù)調(diào)查,網(wǎng)絡(luò)安全研究員Jeremy Fuchs 在發(fā)表的一份報(bào)告中寫(xiě)道,CheckPoint 公司旗下的電子郵件協(xié)作和安全公司的研究人員在12 月首次觀察到了大規(guī)模黑客利用谷歌文檔的評(píng)論功能進(jìn)行攻擊的趨勢(shì),并且到目前為止攻擊者通過(guò)利用谷歌基于云端的文字處理應(yīng)用程序的功能,已經(jīng)攻擊了30 個(gè)用戶的500 多個(gè)收件箱,來(lái)自100 多個(gè)不同的Gmail 賬戶。這類不良現(xiàn)象的頻繁發(fā)生聚集了越來(lái)越多的科學(xué)家和研究人員等業(yè)內(nèi)人士的焦點(diǎn)。在處理這一問(wèn)題的方法上,實(shí)則是一個(gè)文本分類的工作,因此利用經(jīng)典的,前沿的技術(shù)手段對(duì)這些文本進(jìn)行高效最優(yōu)地分類成為了科研人員研究的熱點(diǎn)問(wèn)題之一[1]。如在文獻(xiàn)[2]中陳等人提出了融合領(lǐng)域知識(shí)圖譜的方法,將跨境民族文化文本進(jìn)行歸類處理。

本文采用來(lái)自維基百科談話頁(yè)面編輯的評(píng)論數(shù)據(jù)集設(shè)計(jì)了惡意評(píng)論的文本分類任務(wù),即使研究者們的實(shí)驗(yàn)?zāi)P鸵呀?jīng)達(dá)到了不錯(cuò)的預(yù)測(cè)性能,但是在實(shí)驗(yàn)配置與數(shù)據(jù)集等方面仍有待改進(jìn)之處:

(1)將文本轉(zhuǎn)換成數(shù)值向量的詞向量中記錄了日常常見(jiàn)單詞文本的相似度,詞向量的選擇對(duì)于模型的分類性能有著巨大影響。而在某個(gè)語(yǔ)料庫(kù)單獨(dú)訓(xùn)練的詞向量往往會(huì)對(duì)統(tǒng)計(jì)學(xué)的捕捉存有偏差,因而降低模型的分類性能。在惡意評(píng)論分類模型中只使用了一個(gè)在fastText上預(yù)訓(xùn)練的300 維詞向量,因此在這一問(wèn)題上增大了模型預(yù)測(cè)值不準(zhǔn)確性的概率。

(2)現(xiàn)有的數(shù)據(jù)集中約有15 萬(wàn)條評(píng)論,由于樣本數(shù)量有限,因此模型在樣本數(shù)據(jù)集中能會(huì)導(dǎo)致惡意分類錯(cuò)誤的情況發(fā)生,從而危害模型的穩(wěn)健性(robustness)。因此,從模型所能夠?qū)W到的內(nèi)容與穩(wěn)健性角度來(lái)看,現(xiàn)有的模型仍存在不足。

(3)在現(xiàn)有的研究中,集成詞向量與數(shù)據(jù)增強(qiáng)較少被人們使用,研究方法層面也有所欠缺。

所以針對(duì)以上問(wèn)題,本文提出了一種集成詞向量與數(shù)據(jù)增強(qiáng)的惡意文本分類模型(ENSVEC-DA)。

1 實(shí)驗(yàn)設(shè)置

1.1 實(shí)驗(yàn)框架

本實(shí)驗(yàn)的總體流程介紹如下:

首先,準(zhǔn)備本實(shí)驗(yàn)所需的兩種訓(xùn)練集,分別為增強(qiáng)的訓(xùn)練集與非增強(qiáng)的訓(xùn)練集。

其次,先后選擇訓(xùn)練集中的一種,通過(guò)預(yù)訓(xùn)練的詞向量將里面的評(píng)論文本轉(zhuǎn)化為非集成的數(shù)值向量和集成的數(shù)值向量。

再次,通過(guò)是否增強(qiáng)訓(xùn)練集與是否集成詞向量?jī)蓛山M合得到四組對(duì)比實(shí)驗(yàn),并使用相同的測(cè)試集使RNN 網(wǎng)絡(luò)依次預(yù)測(cè)四組實(shí)驗(yàn)的惡意概率。

最后,計(jì)算出每組實(shí)驗(yàn)中六組標(biāo)簽所對(duì)應(yīng)的Acc、AUC、Brier Score 評(píng)估指標(biāo),通過(guò)對(duì)比評(píng)估指標(biāo)得出結(jié)論。實(shí)驗(yàn)框架如圖1 所示。

圖1 實(shí)驗(yàn)框架圖

1.2 實(shí)驗(yàn)數(shù)據(jù)集

本實(shí)驗(yàn)的樣本數(shù)據(jù)集采用來(lái)自維基百科談話頁(yè)面編輯的評(píng)論數(shù)據(jù)集,來(lái)源可靠且相對(duì)權(quán)威。

此數(shù)據(jù)集包含訓(xùn)練集與測(cè)試集,均含有6 個(gè)標(biāo)簽,總評(píng)論條數(shù)分別為159571 條和153165 條,其中在測(cè)試集里除-1 標(biāo)簽標(biāo)注的無(wú)效評(píng)論外共有63979 條有效評(píng)論,統(tǒng)計(jì)的樣本數(shù)據(jù)集如表1、表2 所示。

表1 訓(xùn)練集標(biāo)簽

表2 測(cè)試集標(biāo)簽

1.3 評(píng)估指標(biāo)

為了更合理且準(zhǔn)確地評(píng)估ENSVEC-DA 惡意文本分類模型的預(yù)測(cè)性能,本文選用了較為常用高效的準(zhǔn)確率Acc(Accuracy)、AUC(Area Under Curve)和布里爾分?jǐn)?shù)(Brier Score)三種評(píng)估指標(biāo)。詳見(jiàn)表3。

表3 性能評(píng)估相關(guān)值表

準(zhǔn)確率Acc(Accuracy)計(jì)算公式:

布里爾分?jǐn)?shù)(Brier Score)計(jì)算公式:

布里爾分?jǐn)?shù)是衡量概率校準(zhǔn)的一個(gè)參數(shù)[3],可以被認(rèn)為是對(duì)一組概率預(yù)測(cè)的“校準(zhǔn)”的量度。式(2)中:N 表示總共檢測(cè)的樣本數(shù)目,y^t是預(yù)測(cè)的概率值,yt是真實(shí)的概率值。

AUC 是ROC 曲線下方的面積大小[4],是對(duì)模型性能評(píng)估的一項(xiàng)重要指標(biāo)。ROC 曲線[5]的橫坐標(biāo)是假正例率(FPR),其計(jì)算公式為FPR=FP/(TN+FP),縱坐標(biāo)是真正例率(TPR),計(jì)算公式為TPR=TP/(TP+FN)。

在本實(shí)驗(yàn)中以是否集成詞向量,是否數(shù)據(jù)增強(qiáng)為變量,使變量?jī)蓛山M合得到四組對(duì)比實(shí)驗(yàn)。通過(guò)分別計(jì)算四組實(shí)驗(yàn)的評(píng)估指標(biāo)最終判斷模型的預(yù)測(cè)性能提升與否。

2 實(shí)驗(yàn)結(jié)果

2.1 詞向量集成技術(shù)對(duì)惡意評(píng)論分類性能的影響

為了驗(yàn)證詞向量集成技術(shù)具有提升模型分類性能的優(yōu)點(diǎn),我們基于非數(shù)據(jù)增強(qiáng)的訓(xùn)練集,對(duì)使用詞向量集成技術(shù)與非使用詞向量集成技術(shù)進(jìn)行了對(duì)比實(shí)驗(yàn)。表4、5、6 為實(shí)驗(yàn)評(píng)估指標(biāo)結(jié)果。

表4 Acc 評(píng)估指標(biāo)

在指標(biāo)值層面分析實(shí)驗(yàn)的惡意預(yù)測(cè)概率可以看出,詞向量集成技術(shù)對(duì)模型分類性能的提升有所幫助。雖然在表5 所示的AUC 指標(biāo)中,六種標(biāo)簽所對(duì)應(yīng)的AUC 數(shù)值在非集成詞向量方面表現(xiàn)更好,但是綜合對(duì)比Acc 和Brier Score 指標(biāo)后我們發(fā)現(xiàn),詞向量技術(shù)在某些惡意評(píng)論分類上有更優(yōu)效果。根據(jù)表4 進(jìn)一步分析,在toxic、server_toxic、obscene 這三種評(píng)論上集成詞向量比非集成詞向量的評(píng)估指標(biāo)Acc 值分別高出0.0026、0.0024 和0.0004。并且由表6 中的Brier Score 值所示,在集成詞向量實(shí)驗(yàn)中,server_toxic 的Brier Score 值比非集成詞向量實(shí)驗(yàn)的值降低了0.0003。因此,結(jié)合表4 與表6 的結(jié)果,我們發(fā)現(xiàn)詞向量集成技術(shù)可以提升部分種類的惡意評(píng)論的分類性能。

表5 AUC 評(píng)估指標(biāo)

表6 Brier Score 評(píng)估指標(biāo)

2.2 數(shù)據(jù)增強(qiáng)技術(shù)對(duì)惡意評(píng)論分類性能的影響

本組實(shí)驗(yàn)使用與上組實(shí)驗(yàn)相同的評(píng)估指標(biāo)來(lái)分析數(shù)據(jù)增強(qiáng)技術(shù)對(duì)惡意評(píng)論分類性能的影響。根據(jù)實(shí)驗(yàn)所得的惡意評(píng)論分值計(jì)算出的評(píng)估指標(biāo)展示如圖7-9。

對(duì)比分析表7、8、9 中的數(shù)據(jù),我們發(fā)現(xiàn)數(shù)據(jù)增強(qiáng)技術(shù)與詞向量集成技術(shù)所產(chǎn)生效果相似,兩者均提高了實(shí)驗(yàn)?zāi)P蛯?duì)某種惡意評(píng)論的分類性能。根據(jù)表中數(shù)據(jù)可得出結(jié)果如下:

表7 Acc 評(píng)估指標(biāo)

表8 AUC 評(píng)估指標(biāo)

表9 Brier Score 評(píng)估指標(biāo)

(1) 在server_toxic 和obscene種類上,數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)的Acc 值比非數(shù)據(jù)增強(qiáng)的Acc 值分別高出了0.0003 和0.0027。

(2)在AUC 值上,數(shù)據(jù)增強(qiáng)的indentity_hate 種類表現(xiàn)更好,且比非數(shù)據(jù)增強(qiáng)高出0.0022。

(3) 對(duì)比非數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)的Brier Score 值,在數(shù)據(jù)增強(qiáng)的實(shí)驗(yàn)里,server_toxic 和obscene 種類所對(duì)應(yīng)的數(shù)值分別降低了0.0001 和0.0004。

因此,可以肯定數(shù)據(jù)集成技術(shù)對(duì)惡意評(píng)論分類性能提升的積極影響。

2.3 ENSVEC-DA 惡意文本分類模型性能評(píng)估

為研究詞向量集成技術(shù)與數(shù)據(jù)增強(qiáng)技術(shù)的結(jié)合使用的ENSVEC-DA 惡意文本分類模型是否對(duì)分類性能產(chǎn)生有益影響,本文分別從ACC、AUC、Brier Score 三種評(píng)估指標(biāo)分析了本模型在四組實(shí)驗(yàn)中對(duì)六種惡意評(píng)論的預(yù)測(cè)分值,并通過(guò)繪制分組條形圖進(jìn)行對(duì)比分析,如圖2、3、4 所示。

圖2 Acc 評(píng)估指標(biāo)對(duì)比

圖3 AUC 評(píng)估指標(biāo)對(duì)比

圖4 Brier Score 評(píng)估指標(biāo)對(duì)比

從圖2 中我們可以發(fā)現(xiàn),在server_toxic 種類上,Acc 值雖然在集成詞向量和數(shù)據(jù)增強(qiáng)方面略低,但是總體在直方圖展示上幾乎呈現(xiàn)上升趨勢(shì),并且在toxic、obscene、indentity_hate 中,兩種技術(shù)的結(jié)合使用比其他某個(gè)組合實(shí)驗(yàn)的Acc 值更高。由AUC 評(píng)估指標(biāo)對(duì)比圖可見(jiàn),結(jié)合詞向量集成技術(shù)和數(shù)據(jù)增強(qiáng)技術(shù)的AUC 值比集成詞向量和非數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)的AUC 值在indentity_hate 種類表現(xiàn)上更好,并且在圖4 Brier Score 分組條形圖中的server_toxic 種類上,使用兩種技術(shù)的評(píng)估值比非使用兩者的評(píng)估值高。

由此可見(jiàn),詞向量集成技術(shù)和數(shù)據(jù)增強(qiáng)技術(shù)的結(jié)合使用使ENSVEC-DA 惡意文本分類模型的預(yù)測(cè)性能在部分種類的惡意評(píng)論上有所提升。

3 結(jié)論

通過(guò)分析惡意評(píng)論分類模型的實(shí)驗(yàn)配置與樣本數(shù)據(jù)集,我們發(fā)現(xiàn)了原實(shí)驗(yàn)中存在的使用詞向量單一,數(shù)據(jù)集信息有限的問(wèn)題,這會(huì)降低分類模型在某種惡意評(píng)論的預(yù)測(cè)性能。因此,本文中提出了ENSVEC-DA 惡意文本分類模型,使用詞向量集成技術(shù)和數(shù)據(jù)增強(qiáng)技術(shù)來(lái)有效解決這一問(wèn)題,通過(guò)控制是否集成詞向量和是否數(shù)據(jù)增強(qiáng)這兩個(gè)變量在同一測(cè)試集上做四組對(duì)比實(shí)驗(yàn)。最終結(jié)果顯示,ENSVEC-DA 惡意文本分類模型在某種惡意評(píng)論分類性能上表現(xiàn)更好,這有效地改善了現(xiàn)有方法的不足之處。

綜上,在未來(lái)的研究工作中我們將繼續(xù)多角度優(yōu)化并驗(yàn)證ENSVEC-DA 惡意文本分類模型的分類性能,使該模型應(yīng)用于更多領(lǐng)域中。

猜你喜歡
向量分類評(píng)估
向量的分解
分類算一算
聚焦“向量與三角”創(chuàng)新題
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
評(píng)估依據(jù)
立法后評(píng)估:且行且盡善
浙江人大(2014年5期)2014-03-20 16:20:25
蒙阴县| 麟游县| 油尖旺区| 泰和县| 聂荣县| 金川县| 中方县| 辽阳县| 色达县| 济阳县| 云林县| 汉川市| 古蔺县| 井陉县| 洞头县| 雷山县| 凤冈县| 陇南市| 广西| 巴彦淖尔市| 西畴县| 福海县| 金阳县| 安阳市| 蓝山县| 孝感市| 青田县| 集安市| 岳普湖县| 礼泉县| 绥阳县| 鄂伦春自治旗| 大同市| 班戈县| 新建县| 克拉玛依市| 科尔| 海丰县| 南宁市| 水城县| 吴忠市|