費寅杰,黃 旭*,曾孟佳
(1.湖州師范學(xué)院 信息工程學(xué)院,浙江 湖州;2.湖州學(xué)院 電子信息學(xué)院,浙江 湖州;3.湖州市城市多維感知與智能計算重點實驗室,浙江 湖州)
隨著互聯(lián)網(wǎng)的不斷蓬勃發(fā)展和網(wǎng)絡(luò)直播日益興起,通過彈幕文本實現(xiàn)互動成為網(wǎng)絡(luò)直播用戶之間交流的重要方式。
然而,由于網(wǎng)絡(luò)直播用戶來源廣泛、文化層次跨度大、情緒控制力參差不齊,出現(xiàn)了在海量直播彈幕中夾雜垃圾彈幕的現(xiàn)象,污染了直播環(huán)境,危害了社會風(fēng)氣[1]。為了降低垃圾彈幕對網(wǎng)絡(luò)直播環(huán)境的負(fù)面影響,直播平臺往往采用專門的方法識別用戶發(fā)布的內(nèi)容,確認(rèn)彈幕是否為違規(guī)信息,以便進(jìn)一步采取管控措施[2]。目前常用的是通過建立關(guān)鍵詞字典自動識別垃圾彈幕的方法來識別垃圾彈幕,這種方法誤封率高且關(guān)鍵詞字典維護(hù)成本較高[3],并不能真正滿足直播平臺的實際需求。
直播彈幕文本是短文本的一種,對直播彈幕文本中的垃圾彈幕進(jìn)行識別本質(zhì)就是文本分類的一種。
2014 年,Kim 等[4]將卷積神經(jīng)網(wǎng)絡(luò)(CNN)創(chuàng)造性地運用到了文本分類任務(wù)中,提出了TextCNN 模型,利用多個不同尺寸的卷積核來提取句子中的關(guān)鍵信息,從而能夠更好地捕捉文本中局部信息的相關(guān)性,提高文本淺層特征的提取能力,在短文本領(lǐng)域的分類效果很好,應(yīng)用廣泛。
2017 年,Lin Z[5]等人提出了一個特殊的正則式和一種引入自注意力機制進(jìn)行句子嵌入表達(dá)的方法,該方法能夠關(guān)注到句子不同地方的不同特征,在情感分類等文本任務(wù)上模型性能顯著提高。
2018 年,Google AI 團(tuán)隊[6]提出了使用雙向Transformer 結(jié)構(gòu)的Bert 模型,該模型采用兩種新的詞向量計算方法,基于特殊的掩碼策略學(xué)習(xí)任務(wù),將學(xué)習(xí)到的特征表示應(yīng)用于下游任務(wù),在自然語言領(lǐng)域的多個任務(wù)中取得創(chuàng)紀(jì)錄的成績。2019 年,百度公司[7]在BERT模型的基礎(chǔ)上做了進(jìn)一步的優(yōu)化,擴展了中文全詞掩碼策略,在中文的NLP 任務(wù)上取得了SOTA。楊森淇[8]等提出了一種基于ERNIE、深度金字塔神經(jīng)網(wǎng)絡(luò)和雙向門控循環(huán)單元的EGC 模型,減少其卷積層,保留更多特征,提高了模型的性能。
綜合以上研究,本文分析了垃圾彈幕文本特點,設(shè)計了一款融合ERNIE、TextCNN 和自注意力機制的適合垃圾彈幕識別的ERNIE-TextCNN-SA 模型。ERNIE 模型針對中文文本制定了特殊的掩碼策略,能夠更好地理解中文的語義信息;TextCNN 神經(jīng)網(wǎng)絡(luò)在短文本分類中性能優(yōu)秀,能夠更好地捕捉文本的局部相關(guān)性;加入自注意力機制,提高文本中重要特征的權(quán)重,降低無用特征對文本的影響。
本文設(shè)計了一款融合ERNIE、TextCNN 和自注意力機制的適合垃圾彈幕識別的ERNIE-TextCNN-SA模型,用于識別網(wǎng)絡(luò)直播中的垃圾彈幕,整體模型架構(gòu)如圖1 所示。
圖1 ERNIE-TextCNN-SA 模型結(jié)構(gòu)
輸入層就是用來將原始的文本數(shù)據(jù)先進(jìn)行分詞,對分詞后的每一個詞語,用詞向量方法轉(zhuǎn)化為詞向量,再將這些詞向量做等長處理,最后組成一個向量矩陣。
相較于靜態(tài)詞向量,預(yù)訓(xùn)練模型生成的動態(tài)詞向量可以更好地體現(xiàn)文本中的上下文特征,避免一詞多義的現(xiàn)象產(chǎn)生。本文采用ERNIE 詞向量來表示文本。對于一條文本信息,以漢字為基本單位對文本進(jìn)行分割并對其進(jìn)行掩碼訓(xùn)練,得到對應(yīng)的詞向量A:
每一次卷積操作相當(dāng)于一次特征向量的提取,通過定義不同的窗口,就可以提取不同的特征向量。對句子單詞每個可能的窗口做卷積操作得到卷積層的輸出
本文分析了垃圾彈幕文本特點,發(fā)現(xiàn)有些垃圾彈幕通過在垃圾文本的前后夾雜正常文本來躲避審查。針對這一特點,本文嘗試在TextCNN 模型中加入自注意力機制,對垃圾彈幕文本中的關(guān)鍵特征賦予更大權(quán)重,以突出關(guān)鍵文本特征,減輕不相關(guān)文本對分類結(jié)果的干擾。
自注意力機制的權(quán)重矩陣A 由softmax 函數(shù)計算歸一化后得到的值組成,可以用公式(4)表示:
池化層的主要目的是對卷積層所提取的信息進(jìn)行降維,減少計算量,降低過擬合的風(fēng)險。TextCNN 模型的池化層選用的是最大池化的方法,對重新分配過權(quán)重的特征向量選取最大值并對特征向量進(jìn)行整合,可以用公式(6)表示:
將最大池化后的特征信息送入全連接層,得到最后的輸出,最后將輸出通過Softmax 函數(shù)得到分類結(jié)果。
本文數(shù)據(jù)來源于bilibili 彈幕網(wǎng)站與斗魚直播平臺,經(jīng)過預(yù)處理和人工標(biāo)記后保留了8 000 余條彈幕文本,建立垃圾彈幕識別數(shù)據(jù)集。為了避免出現(xiàn)數(shù)據(jù)不平衡問題,數(shù)據(jù)集中垃圾彈幕文本和正常彈幕文本比例為1:1。
通過精準(zhǔn)度(Precision)、召回率(Recall)和F1 值3 個指標(biāo)對模型的分類效果進(jìn)行評估。3 個指標(biāo)值均在0~1 之間,值越接近1,說明模型的性能越好。具體的評價指標(biāo)計算方式如下:
式中:TP 表示判斷為某個類別的樣本中實際也屬于該類別的樣本數(shù);FP 表示判斷為某個類別的樣本中實際不屬于該類別的樣本數(shù);FN 表示判斷為不屬于某個類別的樣本中實際屬于該類別的樣本數(shù)。
在6 個不同的文本分類模型上進(jìn)行垃圾彈幕識別對比實驗,給定一個彈幕文本數(shù)據(jù),預(yù)測該文本數(shù)據(jù)是否為垃圾彈幕。6 個文本分類模型均在同一個訓(xùn)練集上訓(xùn)練、測試、調(diào)整超參數(shù),對實驗結(jié)果進(jìn)行比較。實驗結(jié)果如表1 所示。
表1 6 個文本分類模型在數(shù)據(jù)集的實驗結(jié)果
對于垃圾彈幕識別數(shù)據(jù)集,本文所挑選的6 個深度學(xué)習(xí)文本分類模型,分類效果均達(dá)到良好以上,在一定程度上說明將深度學(xué)習(xí)方法應(yīng)用于垃圾彈幕識別是可行的。6 個模型中ERNIE-TextCNN-SA 模型的分類效果最好,精確度到達(dá)了90.13%,與單純的ERNIE 模型相比精確度提高了2.77%,相比沒有改進(jìn)過的ERNIE-TextCNN 文本分類模型精確度高約1.2%且精確度較TextCNN 文本分類模型有較大提升。由此可知,將ERNIE-TextCNN-SA 模型融合的方法用于垃圾彈幕的識別相較于其他方法有一定優(yōu)勢。
部分直播彈幕文本的分類結(jié)果如表2 所示。有些垃圾彈幕為了躲避審查會在垃圾彈幕文本的前后夾雜正常文本,根據(jù)表2 可以看出,對于這一類的垃圾彈幕,沒有引入自注意力機制的文本分類模型對大部分類似的垃圾彈幕識別錯誤,而引入了自注意力機制的ERNIE-TextCNN-SA 模型仍能夠正確識別。由此可知,在垃圾彈幕文本分類中引入自注意力機制來突出文本的關(guān)鍵特征,關(guān)注文本中更為重要的信息,能夠提高垃圾彈幕文本分類方法的性能。
表2 直播彈幕文本分類樣例
本文構(gòu)建的ERNIE-TextCNN-SA 模型,在對比試驗中的實驗結(jié)果為6 個模型中最優(yōu)。實驗證明了該模型用于垃圾彈幕識別相較于其他算法有一定優(yōu)勢,為今后相關(guān)視頻直播彈幕文本相關(guān)領(lǐng)域的研究提供了一定的參考,但是仍然存在一些不足。本文所構(gòu)建的垃圾彈幕文本識別數(shù)據(jù)集還不夠全面且數(shù)據(jù)具有一定的時效性,一定程度上影響了文本分類模型的實際性能。在后續(xù)的研究中要繼續(xù)擴大數(shù)據(jù)集,加強數(shù)據(jù)集的全面性。