孟曌 田生偉 禹龍 王瑞錦
摘 要:為提高對(duì)文本語(yǔ)境深層次信息的利用效率,提出了聯(lián)合分層注意力網(wǎng)絡(luò)(HAN)和獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(IndRNN)的地域欺凌文本識(shí)別模型——HACBI。首先,將手工標(biāo)注的地域欺凌文本通過(guò)詞嵌入技術(shù)映射到低維向量空間中;其次,借助卷積神經(jīng)網(wǎng)絡(luò)(CNN)和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)提取地域欺凌文本的局部及全局語(yǔ)義特征,并進(jìn)一步利用HAN捕獲文本的內(nèi)部結(jié)構(gòu)信息;最后,為避免文本層次結(jié)構(gòu)信息丟失和解決梯度消失等問(wèn)題,引入IndRNN以增強(qiáng)模型的描述能力,并實(shí)現(xiàn)信息流的整合。實(shí)驗(yàn)結(jié)果表明,該模型的準(zhǔn)確率(Acc)、精確率(P)、召回率(R)、F1和AUC值分別為99.57%、98.54%、99.02%、98.78%和99.35%,相比支持向量機(jī)(SVM)、CNN等文本分類(lèi)模型有顯著提升。
關(guān)鍵詞:地域欺凌;結(jié)構(gòu)信息;分層注意力網(wǎng)絡(luò);獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò);詞向量;語(yǔ)境
中圖分類(lèi)號(hào):?TP391; TP181
文獻(xiàn)標(biāo)志碼:A
Regional bullying recognition based on joint hierarchical attentional network and independent recurrent neural network
MENG Zhao1, TIAN Shengwei1*, YU Long2, WANG Ruijin3
1.School of Software, Xinjiang University, Urumqi Xinjiang 830008, China;
2.Network Center, Xinjiang University, Urumqi Xinjiang 830046, China;
3.School of Information and Software Engineering, University of Electronic Science and Technology of China, Chengdu Sichuan 611731, China
Abstract:?In order to improve the utilization efficiency of deep information in text context, based on Hierarchical Attention Network (HAN) and Independent Recurrent Neural Network (IndRNN), a regional bullying semantic recognition model called HACBI (HAN_CNN_BiLSTM_IndRNN) was proposed. Firstly, the manually annotated regional bullying texts were mapped into a low-dimensional vector space by means of word embedding technology. Secondly, the local and global semantic information of bullying texts was extracted by using Convolutional Neural Network (CNN) and Bidirectional Long Short-Term Memory (BiLSTM), and internal structure information of text was captured by HAN. Finally, in order to avoid the loss of text hierarchy information and solve the gradient disappearance problem, IndRNN was introduced to enhance the description ability of model, which achieved the integration of information flow. Experimental results show that the Accuracy (Acc), Precision (P), Recall (R), F1 (F1-Measure) and AUC (Area Under Curve) values are 99.57%, 98.54%, 99.02%, 98.78% and 99.35% respectively of this model, which indicates that the effectiveness provided by HACBI is significantly improved compared to text classification models such as Support Vector Machine (SVM) and CNN.
Key words:?regional bullying; structural information; Hierarchical Attention Network (HAN); Independent Recurrent Neural Network (IndRNN); word vector; context
0 引言
近年來(lái),隨著互聯(lián)網(wǎng)的不斷發(fā)展和社交媒體的普遍應(yīng)用,人們?cè)诰W(wǎng)絡(luò)中對(duì)各類(lèi)事物的參與程度前所未有。移動(dòng)通信終端的普及進(jìn)一步使人們的工作和生活融入到網(wǎng)絡(luò)中,QQ、微信等即時(shí)通信軟件,Wiki、Facebook、微博、貼吧等各類(lèi)社交網(wǎng)站為世界范圍內(nèi)的網(wǎng)民提供了相互交流的平臺(tái),公眾廣泛參與到社會(huì)事件、政治活動(dòng)、產(chǎn)品服務(wù)等方面的評(píng)論中。然而由于缺乏監(jiān)管和網(wǎng)絡(luò)天然的匿名特點(diǎn),社交媒體帶給人們自由、便利和迅捷的同時(shí),也帶來(lái)很多負(fù)面影響,由此產(chǎn)生了海量欺凌信息。在日常生活中,常出現(xiàn)針對(duì)特定地域或特定地域人群的欺凌性言論,而這些地域欺凌性言論發(fā)布和傳播不僅嚴(yán)重地?fù)p害了被欺凌地域的形象,影響該地域的發(fā)展,破壞社會(huì)和諧,還給受害人或群體帶來(lái)心理和情感上的嚴(yán)重傷害。目前國(guó)內(nèi)地域欺凌語(yǔ)料庫(kù)較少,并不能滿(mǎn)足研究需求,因此構(gòu)建地域欺凌語(yǔ)料庫(kù)是該研究的一項(xiàng)重要基礎(chǔ)任務(wù)。深度學(xué)習(xí)技術(shù)在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和機(jī)器翻譯等領(lǐng)域大放異彩,為地域欺凌文本的識(shí)別提供了一種全新的思路,因此,如何利用現(xiàn)有的特征工程和深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別地域欺凌文本已成為一個(gè)重要的研究課題。
1 相關(guān)研究
欺凌言論的分析方法一般可以分為:基于淺層特征的方法、基于詞向量(word embedding)[1]的神經(jīng)網(wǎng)絡(luò)方法、情感分析方法以及基于對(duì)網(wǎng)絡(luò)欺凌相關(guān)人員分析的方法等。為了檢測(cè)欺凌文本中攻擊性?xún)?nèi)容和識(shí)別社交媒體中潛在的攻擊性用戶(hù),Chen等[2]提出詞匯和句法特征的檢測(cè)架構(gòu),但詞句分析需要人工參與設(shè)定各種規(guī)則,通用性有待商榷。Ashktorab等[3]從社交網(wǎng)站Ask.fm收集網(wǎng)絡(luò)欺凌文本,將其作為一種特殊的網(wǎng)絡(luò)優(yōu)化形式,以提高檢測(cè)的自動(dòng)化程度,并從欺凌的程度、文本中出現(xiàn)的角色和欺凌的類(lèi)別等方面對(duì)其進(jìn)行細(xì)粒度分類(lèi)。為捕捉不同文本環(huán)境中欺凌相關(guān)術(shù)語(yǔ)、上下文信息與Twitter上欺凌內(nèi)容分類(lèi)的關(guān)聯(lián)性,Burnap等[4]提出了基于規(guī)則的方法。為了進(jìn)一步根據(jù)欺凌術(shù)語(yǔ)的相關(guān)強(qiáng)度以及對(duì)文本中角色的引用進(jìn)行加權(quán),Zhou等[5]通過(guò)把褻瀆、猥褻和貶義的詞作為特征來(lái)確定欺凌內(nèi)容,建立機(jī)器學(xué)習(xí)模型來(lái)減小假陰率(False Negative, FN)。Dadvar等[6]使用第一和第二人稱(chēng)代詞對(duì)YouTube上的欺凌行為進(jìn)行分類(lèi),得到了良好的分類(lèi)效果。針對(duì)詞袋模型(Bag of Words, BoW)[7]技術(shù)的局限性,Collier等[8]利用詞匯泛化方法將詞典以外的URL(Uniform Resource Locator)、標(biāo)點(diǎn)符號(hào)和標(biāo)記符號(hào)等作為附加特征,能進(jìn)一步提高預(yù)測(cè)性能。為了進(jìn)一步克服詞袋模型表現(xiàn)出的局限性,Djuric等[9]提出了基于詞向量的神經(jīng)網(wǎng)絡(luò)方法,并使用詞向量模型來(lái)探索段落向量與段落內(nèi)部信息之間的關(guān)系,與直接使用單詞向量法相比,識(shí)別效果更好。因網(wǎng)絡(luò)欺凌和情感分析中的負(fù)面情感具有一定的相似性,從而可將情感分析作為網(wǎng)絡(luò)欺凌分析的輔助方法。Wijeratne等[10]通過(guò)基于情感的分析算法設(shè)計(jì)了通用監(jiān)測(cè)平臺(tái),但未考慮特定的社會(huì)媒體語(yǔ)言環(huán)境及其文化。Gitari等[11]使用分類(lèi)器將不帶情感的文本略過(guò),縮小研究范圍,提高欺凌文本的識(shí)別準(zhǔn)確率。Mishra等[12]等通過(guò)對(duì)185名青少年網(wǎng)民進(jìn)行問(wèn)卷調(diào)查,將網(wǎng)民之間的交流階段分成建立聯(lián)系、信息分享、親密關(guān)系生成和欺凌的四個(gè)階段,基于網(wǎng)絡(luò)欺凌、信任和信息共享的關(guān)系模型探求發(fā)生欺凌原因,并對(duì)欺凌程度作了定量分析。
上述研究在分類(lèi)準(zhǔn)確度上有一定的效果,但是忽略了文本中深層語(yǔ)義特征和上下文語(yǔ)境,且大多是基于淺層機(jī)器學(xué)習(xí)[13],對(duì)文本分類(lèi)問(wèn)題的表征和泛化能力有限。本文利用分層注意力網(wǎng)絡(luò)(Hierarchical Attention Network, HAN)[14]從單詞和句子兩個(gè)層面來(lái)捕獲地域欺凌文本的內(nèi)部結(jié)構(gòu)語(yǔ)義信息,并與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[15]、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory, BiLSTM)和獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(Independent Recurrent Neural Network, IndRNN)[16]聯(lián)合提取文本中欺凌詞句和整體語(yǔ)義信息,以提高對(duì)地域欺凌文本的描述和識(shí)別能力。
綜上所述,本文的主要貢獻(xiàn)包括:
1)構(gòu)建地域欺凌語(yǔ)料庫(kù)。通過(guò)對(duì)地域欺凌文本的上下文語(yǔ)境分析,將地域欺凌語(yǔ)料庫(kù)編制分為5個(gè)語(yǔ)境類(lèi)別,各類(lèi)語(yǔ)境共包含37個(gè)子類(lèi)別。
2)本文提出聯(lián)合分層注意力網(wǎng)絡(luò)和獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)的模型——HACBI(HAN_CNN_BiLSTM_IndRNN),采用HAN呈現(xiàn)出地域欺凌文本中關(guān)鍵單詞和句子的內(nèi)部結(jié)構(gòu)信息,用其捕獲上下文的相關(guān)性;借助IndRNN通過(guò)調(diào)節(jié)基于時(shí)間的梯度反向傳播,有效地解決梯度消失和梯度爆炸的問(wèn)題,提高對(duì)地域欺凌文本的上下文語(yǔ)義信息描述能力。
2 語(yǔ)料構(gòu)建
2.1 語(yǔ)境
在語(yǔ)言學(xué)中,王建華等[17]認(rèn)為語(yǔ)境是與語(yǔ)用主體(關(guān)注使用語(yǔ)言的人)、話(huà)語(yǔ)實(shí)體(關(guān)注語(yǔ)言手段本身)相對(duì)而存在的語(yǔ)用三大要素之一,并定義語(yǔ)境為人們?cè)谡Z(yǔ)言交際中理解和運(yùn)用語(yǔ)言所依賴(lài)的各種表現(xiàn)為言辭的上下文或不表現(xiàn)為言辭的主觀因素,因此,文本中要研究完整的文本語(yǔ)義,不僅要研究話(huà)語(yǔ)的本身意義,還要研究增生出的語(yǔ)境意義。
本文主要對(duì)地域欺凌文本的整體語(yǔ)境進(jìn)行研究,特別是上下文語(yǔ)境信息。上下文語(yǔ)境由具體的話(huà)語(yǔ)組成,它的意義首先必須依賴(lài)于一個(gè)個(gè)具體話(huà)語(yǔ)的意義,每個(gè)話(huà)語(yǔ)的意義又需要由具體的上下文來(lái)顯現(xiàn)。
2.2 語(yǔ)料庫(kù)構(gòu)建
構(gòu)建地域欺凌語(yǔ)料庫(kù),包括語(yǔ)料的獲取、標(biāo)注體系及規(guī)范的建立、資源建設(shè)平臺(tái)的構(gòu)建。構(gòu)建的語(yǔ)料來(lái)源于微博、知乎、百度貼吧、今日頭條等中文網(wǎng)頁(yè),為地域欺凌文本的識(shí)別提供基礎(chǔ)資源支撐。地域欺凌語(yǔ)料庫(kù)編制分為語(yǔ)言情境、情境語(yǔ)境、文化語(yǔ)境、背景語(yǔ)境和輔助語(yǔ)境5個(gè)語(yǔ)境類(lèi)別。語(yǔ)言情境包括單詞語(yǔ)境和上下文語(yǔ)境,如例1所示。
例1? 小柳較胖,看起來(lái)腿較粗,被同學(xué)小麗和小冰談?wù)摚骸澳憧葱×拇笙笸取!毙”f(shuō):“對(duì)啊,腿可真粗啊?!?/p>
情境語(yǔ)境包括外部關(guān)系和內(nèi)部關(guān)系兩個(gè)類(lèi)別。文化語(yǔ)境包括社會(huì)因素、民族因素、歷史因素。如例2所示,“東方人”在美國(guó)有欺凌的含義,2016年奧巴馬政府出臺(tái)禁止“東方人”等含有欺凌情感的詞語(yǔ),判斷得出“白人老板”稱(chēng)“亞裔員工”為“東方人”是一種地域欺凌。
例2? 在美國(guó)一家工廠(chǎng)里,一位白人老板對(duì)一位近期工作效率低下的亞裔員工說(shuō):“你的表現(xiàn)足以表明你是東方人?!?/p>
背景語(yǔ)境包括背景知識(shí)、社會(huì)常識(shí)和專(zhuān)業(yè)知識(shí)。輔助語(yǔ)境即言語(yǔ)表達(dá)者的表情、姿態(tài)、動(dòng)作及某些信號(hào)等。
語(yǔ)料標(biāo)注結(jié)構(gòu)如表1所示。
2.3 欺凌特征
根據(jù)地域欺凌文本的內(nèi)容,本文選取了10類(lèi)特征作為地域欺凌文本特征,包括欺凌程度、情感極性、欺凌指示詞詞性、欺凌類(lèi)別、依存句法分析、語(yǔ)義依存分析和語(yǔ)義角色七類(lèi)傳統(tǒng)手工特征和欺凌角色、欺凌指示詞、欺凌表現(xiàn)形式三類(lèi)特征。三類(lèi)特征具體描述如下:
1)欺凌角色。Xu等[18]指出,除面對(duì)面接觸外,地域欺凌也可以通過(guò)口頭和其他相關(guān)形式發(fā)生。欺凌事件發(fā)生的主要原因之一是認(rèn)知上的差異。欺凌事件角色如圖1所示。
其中,實(shí)心圓圈代表社會(huì)科學(xué)中的傳統(tǒng)角色,虛線(xiàn)圓圈代表社交媒體增加的新角色。邊代表角色之間的相互作用強(qiáng)度,實(shí)線(xiàn)的作用強(qiáng)度大于虛線(xiàn)。
2)欺凌指示詞。欺凌指示詞能反映該地域欺凌文本的主題,具有很強(qiáng)的欺凌指向性,因此本文選擇欺凌指示詞作為特征。如例3所示,“粗鄙”“鄉(xiāng)巴佬”等為欺凌指示詞。
例3? 卡帕多西亞人可能族源是安納托利亞的土著,在拜占庭生活的卡帕多西亞人行為粗獷,拜占庭人談?wù)摚骸翱ㄅ炼辔鱽喨耸谴直傻泥l(xiāng)巴佬,貪婪且暴力?!?/p>
3)欺凌表現(xiàn)形式。針對(duì)地域欺凌文本,其表現(xiàn)形式有三種,包括反語(yǔ)、隱喻和顯式欺凌。
3? 聯(lián)合分層注意力網(wǎng)絡(luò)和獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)的 HACBI模型
3.1 文本的層次結(jié)構(gòu)信息
文本具有層次結(jié)構(gòu),即詞語(yǔ)形成句子,句子形成文本。首先,以句子的形式聚合成地域欺凌文本的表示形式;其次,考慮到文本中不同的單詞和句子包含著不同的信息,而且單詞和句子的結(jié)構(gòu)信息高度依賴(lài)于上下文,起著不同的作用,因此為了進(jìn)一步刻畫(huà)地域欺凌文本的結(jié)構(gòu)信息,本文引入HAN從單詞和句子兩個(gè)層面來(lái)捕獲地域欺凌文本的內(nèi)部結(jié)構(gòu)語(yǔ)義信息。
本文利用HAN呈現(xiàn)地域欺凌文本中關(guān)鍵單詞和句子內(nèi)部結(jié)構(gòu)信息,并用其捕獲上下文之的相關(guān)性,而不是通過(guò)上下文信息對(duì)地域欺凌文本的序列進(jìn)行簡(jiǎn)單的過(guò)濾以獲取全局語(yǔ)義信息。
3.2 HACBI模型
為使模型更好地描述地域欺凌文本的內(nèi)部結(jié)構(gòu)信息,將通過(guò)詞嵌入技術(shù)(Word2Vec)和手工標(biāo)注所得到的地域欺凌文本輸入HAN中。詞嵌入是一種詞的分布式表示,將每個(gè)詞表示成一個(gè)連續(xù)實(shí)數(shù)值的向量。詞嵌入技術(shù)分為兩部分:第一部分為建立模型,第二部分是通過(guò)網(wǎng)絡(luò)獲取詞向量。當(dāng)網(wǎng)絡(luò)對(duì)地域欺凌文本訓(xùn)練完成后,便可得到所有詞語(yǔ)對(duì)應(yīng)的詞向量,并可以從地域欺凌文本中提取有效的上下文語(yǔ)義特征。在HACBI中,首先,通過(guò)CNN和BiLSTM對(duì)其進(jìn)行空間和時(shí)間上的擴(kuò)展,并提取地域欺凌文本的局部、全局特征;其次,考慮到文本中欺凌詞組對(duì)句子的表示有著關(guān)鍵性作用,本文利用詞“注意力”提取地域欺凌詞在句子中的語(yǔ)義信息,并計(jì)算該單詞在句子中的權(quán)重,然后對(duì)其語(yǔ)義特征進(jìn)行加權(quán)合并,還引入句“注意力”來(lái)刻畫(huà)句子對(duì)文本的表示形式,對(duì)其提取的語(yǔ)義信息進(jìn)行加權(quán)求和以及非線(xiàn)性映射和歸一化處理;最后,借助IndRNN的跨層連接原理(網(wǎng)絡(luò)內(nèi)部各個(gè)神經(jīng)元之間相互獨(dú)立)實(shí)現(xiàn)信息流的整合,以增強(qiáng)該HACBI對(duì)地域欺凌文本中上下文語(yǔ)義信息的描述能力和對(duì)語(yǔ)義信息在神經(jīng)元上傳遞的可解釋性,避免了層次結(jié)構(gòu)語(yǔ)義特征在層間傳遞的丟失并解決梯度消失等問(wèn)題,并用Softmax進(jìn)行地域欺凌文本的分類(lèi)。聯(lián)合分層注意力網(wǎng)絡(luò)和獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)的模型HACBI網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2中, H 代表模型的隱含層,且由CNN和BiLSTM構(gòu)成; w 和 s 分別代表著地域欺凌文本中的詞組和簡(jiǎn)短句子。
獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(IndRNN)中Hadamard信息流處理,具體計(jì)算如式(1)所示:
h t=σ( ω? x t+ λh t-1+ b ) (1)
其中: h t∈ R N和 x t∈ R M分別代表時(shí)間步長(zhǎng)T的輸入和隱藏狀態(tài); ω ∈ R N*M、 λ ∈ R N*N和 b ∈ R N分別代表當(dāng)前輸入的權(quán)重矩陣、循環(huán)權(quán)重矩陣和偏置值;σ是神經(jīng)元的激活函數(shù);N是該神經(jīng)網(wǎng)絡(luò)層中神經(jīng)元的數(shù)目,是Hadamard乘積。
而對(duì)于第n個(gè)神經(jīng)元,隱藏狀態(tài) h n,t可以通過(guò)式(2)計(jì)算得出:
h n,t=σ( ω n x t+ λ n h n,t-1+bn) (2)
其中, ω n和 λ n分別代表輸入權(quán)重矩陣和循環(huán)權(quán)重矩陣的第n行。由于每層中各個(gè)神經(jīng)元相互獨(dú)立,因此神經(jīng)元之間的鏈接可以通過(guò)堆疊兩層或更多層的IndRNN神經(jīng)元來(lái)實(shí)現(xiàn)。每個(gè)神經(jīng)元僅在前一時(shí)間步從輸入或它自己的隱藏狀態(tài)中接收信息,即隨著時(shí)間的推移(通過(guò) λ )獨(dú)立地聚集空間模式(通過(guò) ω )。
綜上所述,聯(lián)合分層注意力網(wǎng)絡(luò)和獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)模型HACBI的具體算法步驟如下:
1)利用詞嵌入技術(shù)和詞性標(biāo)注工具提取欺凌文本中的語(yǔ)義和特征提取,并映射成相應(yīng)的低維向量。初始化模型參數(shù)θ。對(duì)詞向量 α 進(jìn)行Dropout處理,經(jīng)過(guò)CNN層BiLSTM層進(jìn)一步提取文本的局部特征 β 和全局以及上下文語(yǔ)義特征 υ 。根據(jù)式(3)計(jì)算其關(guān)鍵特征的注意力概率 a ij,具體公式如下:
e ij= λ a·tanh( λ b· f i+ λ c· f j+ b k)
a ij=exp( e ij) /( ∑ T k=1 exp( e ij) )?? (3)
其中: e ij代表經(jīng)過(guò)分層注意力網(wǎng)絡(luò)的輸出特征,? f i和 f j代表隱藏層輸出特征, a ij代表第j個(gè)特征對(duì)第i個(gè)特征的注意力概率, λ a、 λ b、 λ c代表分層注意力網(wǎng)絡(luò)的權(quán)值矩陣, b k代表分層注意力網(wǎng)絡(luò)的偏置向量。第i種特征向量的新輸出特征 e new_i計(jì)算如式(4)所示:
e new_i=∑ n j=1? e ij· e j (4)
同理,可求取第j個(gè)特征向量的新特征值。
2)根據(jù)式(5)將局部和全局語(yǔ)義特征進(jìn)行融合:
e ′= βυ? (5)
其中: e ′代表經(jīng)過(guò)注意力獲取語(yǔ)義特征的編碼向量,代表向量拼接。
3)得出分類(lèi)結(jié)果g,即g=1為地域欺凌文本,g=0為非地域欺凌文本。
3.3 HACBI性能分析
為了評(píng)估該模型在計(jì)算平臺(tái)上的理論性能,對(duì)HACBI的性能進(jìn)行分析。HACBI性能分析如表2所示。
其中:CPU、GPU內(nèi)存占用表示的是運(yùn)行程序時(shí)所占用的計(jì)算機(jī)內(nèi)存的字節(jié)數(shù);CPU、GPU內(nèi)存占用比表示運(yùn)行程序時(shí)占用計(jì)算機(jī)內(nèi)存的百分比;模型耗時(shí)代表模型運(yùn)行150次迭代時(shí)所耗時(shí)間。
從表2中可以看出,本文所提模型算法在訓(xùn)練過(guò)程中,每次迭代僅耗費(fèi)約20s,因此,當(dāng)有新的訓(xùn)練數(shù)據(jù)需要進(jìn)行訓(xùn)練時(shí),較少的訓(xùn)練時(shí)間能夠滿(mǎn)足模型快速訓(xùn)練的要求,并且對(duì)CPU和GPU的占用較少,可滿(mǎn)足對(duì)地域欺凌文本的快速分類(lèi)識(shí)別的要求。
4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)數(shù)據(jù)
首先,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)下載中文網(wǎng)頁(yè)中的地域欺凌文本;其次,對(duì)其進(jìn)行去重、去噪等一系列處理;最后,篩選出11833篇包含地域欺凌的新聞報(bào)道或網(wǎng)友評(píng)論作為實(shí)驗(yàn)文本,其中地域欺凌文本正負(fù)例比例為1∶ 5。在對(duì)實(shí)驗(yàn)文本數(shù)據(jù)進(jìn)行預(yù)處理時(shí),采用jieba分詞法,即一種詞典分詞法,將句子拆成字,然后字和字組合進(jìn)入詞典中匹配。
4.2 實(shí)驗(yàn)結(jié)果
本文從以下幾方面對(duì)實(shí)驗(yàn)的準(zhǔn)確率(Accuracy, Acc)、精確率(Precision, P)、召回率(Recall, R)、F1(F1-Measure)和AUC(Area Under Curve)值進(jìn)行分析。
4.2.1 實(shí)驗(yàn)超參數(shù)設(shè)置
HACBI參數(shù)不合理設(shè)置會(huì)影響對(duì)特征的有效利用及對(duì)地域欺凌文本中語(yǔ)義信息的描述。超參數(shù)設(shè)置如表3所示。
本文使用簡(jiǎn)單高效、對(duì)參數(shù)更新時(shí)不受梯度伸縮變化影響的Adam優(yōu)化器。其中,Dropout表示Dropout損失率為0.25;Filter size(C)表示卷積核窗口大小為5,Kernel size(P)表示池化核窗口大小為2。
4.2.2? CNN層數(shù)、BiLSTM層數(shù)和IndRNN層數(shù) 不同層類(lèi)型及層數(shù)對(duì)模型性能的影響
HACBI模型中隱含層數(shù)直接影響模型對(duì)地域欺凌文本中的語(yǔ)義識(shí)別能力。以4.2.1節(jié)中的初始化參數(shù)為基礎(chǔ)驗(yàn)證HACBI性能,其中詞向量維度設(shè)置為150維。不同CNN層數(shù)、BiLSTM層數(shù)和IndRNN層數(shù)對(duì)模型性能的影響如表4所示。
由表4可知,在CNN為2層、BiLSTM為1層和IndRNN層數(shù)為2層時(shí),Acc、P、R、F1和AUC值效果最好。隨著B(niǎo)iLSTM層數(shù)增加,模型加入了大量與文本無(wú)關(guān)的噪聲和參數(shù),計(jì)算效率降低,并出現(xiàn)過(guò)擬合現(xiàn)象。隨著CNN層數(shù)和IndRNN層數(shù)的增加,各項(xiàng)指標(biāo)呈現(xiàn)先增后減的趨勢(shì)。當(dāng)層數(shù)太少時(shí),不能學(xué)習(xí)到更好的特征,特征的表征能力不足;當(dāng)層數(shù)過(guò)多時(shí),提取的深層特征更抽象,在丟失大量細(xì)節(jié)信息的同時(shí)也使特征的表征能力下降,模型在特征學(xué)習(xí)時(shí)出現(xiàn)了可能會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,降低模型對(duì)文本的識(shí)別效果。
4.2.3 詞向量維度和語(yǔ)料數(shù)量對(duì)模型性能的影響
詞向量維度和語(yǔ)料數(shù)量對(duì)模型性能的影響如表5所示。
由表5可知,當(dāng)詞向量維度為150維和語(yǔ)料數(shù)據(jù)量為11833篇時(shí),各項(xiàng)指標(biāo)呈現(xiàn)出最優(yōu)結(jié)果。當(dāng)詞向量維度太小時(shí),原始數(shù)據(jù)映射到低維空間中會(huì)丟失大量的細(xì)節(jié)信息,特征不能很好地描述文本的語(yǔ)義信息。詞向量維度過(guò)大時(shí),詞向量過(guò)于稀疏,增加很多非相關(guān)信息。隨著訓(xùn)練數(shù)據(jù)量增多時(shí),模型能更多地學(xué)習(xí)到文本中欺凌詞和欺凌語(yǔ)句的上下文信息,從而使模型具有更好泛化能力和識(shí)別能力。
4.2.4 面向欺凌特征對(duì)象的比較
在現(xiàn)有文獻(xiàn)對(duì)面向“欺凌”特征對(duì)象的研究中,本文除提取七類(lèi)傳統(tǒng)手工(Traditional Manual, TM)特征外,還提取欺凌角色“A”、欺凌指示詞“B”和欺凌表現(xiàn)形式“C”,TM與A、B、C的組合“M(Manual)”即本文手工特征,并結(jié)合詞向量“W(Word2Vec)”對(duì)地域欺凌文本內(nèi)容進(jìn)行描述,“W+M(Word2Vec+Manual)”是本文提出的特征工程。詞向量維度設(shè)置為150維,不同欺凌特征對(duì)模型性能的影響如表6所示。
由表6可知,本文提出的手工特征與詞向量結(jié)合的特征工程,各項(xiàng)指標(biāo)最優(yōu)。單用手工特征對(duì)文本的描述簡(jiǎn)單,不能很好地學(xué)習(xí)文本深層特征,而且需要人工參與進(jìn)行標(biāo)注,文本處理效率降低。單獨(dú)用詞向量特征不能很好地體現(xiàn)文本的細(xì)節(jié)內(nèi)容。
4.2.5 與現(xiàn)有識(shí)別模型的比較
為了進(jìn)一步驗(yàn)證HACBI對(duì)地域欺凌文本有更好的識(shí)別效果,將與支持向量機(jī)(Support Vector Machine, SVM)、CNN、BiLSTM、IndRNN、注意力機(jī)制(Attention Mechanism, AM)、CNN和BiLSTM的聯(lián)合模型(CNN_BiLSTM)、CNN和IndRNN的聯(lián)合模型(CNN_IndRNN)、BiLSTM和IndRNN的聯(lián)合模型(BiLSTM_IndRNN)及AM、CNN和BiLSTM的聯(lián)合模型(AM_CNN_BiLSTM, ACB)進(jìn)行對(duì)比,并分析執(zhí)行耗時(shí)。對(duì)不同模型中層數(shù)及超參數(shù)的設(shè)置保持一致。不同模型對(duì)比如表7所示。
表7中SVM使用徑向基函數(shù)(Radial Basis Function, RBF),當(dāng)gamma和懲罰系數(shù)C分別為1E-4和10時(shí),其識(shí)別效果達(dá)到最優(yōu)。
由表7可知,HACBI相比實(shí)驗(yàn)中其他模型在Acc、P、R、F1和AUC值均取得最優(yōu)。AM對(duì)文本的語(yǔ)義信息進(jìn)行提取,起到信息流整合的作用,但未對(duì)句子中的關(guān)鍵詞進(jìn)行特征加權(quán)求和,模型對(duì)文本的描述能力和對(duì)各個(gè)神經(jīng)元的可解釋性不足。CNN能提取局部特征,但丟失了全局語(yǔ)義信息。BiLSTM可提取全局語(yǔ)義特征,但忽略了大量局部信息,影響模型對(duì)文本內(nèi)容的描述。盡管SVM淺層機(jī)器學(xué)習(xí)在各項(xiàng)指標(biāo)上均優(yōu)于本節(jié)實(shí)驗(yàn)的其他模型,但僅僅對(duì)地域欺凌文本進(jìn)行簡(jiǎn)單分類(lèi),并未捕獲文本內(nèi)部的結(jié)構(gòu)信息,與HACBI相比,各項(xiàng)指標(biāo)分別降低了2.41個(gè)百分點(diǎn)、8.94個(gè)百分點(diǎn)、4.39個(gè)百分點(diǎn)、6.73個(gè)百分點(diǎn)和3.19個(gè)百分點(diǎn)。
在模型參數(shù)相同的條件下,與BiLSTM相比,CNN耗時(shí)減少了87.95%,IndRNN耗時(shí)減少了76.78%。BiLSTM在計(jì)算文本的雙向特征時(shí),將每個(gè)詞作為了時(shí)間點(diǎn),而CNN在參數(shù)微調(diào)(finetune)過(guò)程時(shí)只會(huì)對(duì)文本中的部分關(guān)鍵詞進(jìn)行更新。SVM對(duì)數(shù)據(jù)規(guī)模較小的文本進(jìn)行分類(lèi)效果好且耗時(shí)短。HACBI使用分層思想,在對(duì)文本特征學(xué)習(xí)時(shí)采用自根節(jié)點(diǎn)向下逐層獲取上下文語(yǔ)義信息的方法,與SVM相比,HACBI耗時(shí)減少了53.19%,在縮短耗時(shí)的同時(shí)提高了對(duì)文本的識(shí)別效果。
5 結(jié)語(yǔ)
針對(duì)現(xiàn)有的文本分類(lèi)模型在識(shí)別地域欺凌文本時(shí)存在忽略文本內(nèi)部層次結(jié)構(gòu)信息以及模型在訓(xùn)練過(guò)程中出現(xiàn)的梯度消失等問(wèn)題,本文提出HACBI地域欺凌文本識(shí)別模型。實(shí)驗(yàn)結(jié)果表明,該算法優(yōu)于SVM、CNN等文本分類(lèi)模型。其創(chuàng)新點(diǎn)在于HACBI模型采用詞“注意力”和句“注意力”的HAN來(lái)捕獲地域欺凌文本的內(nèi)部結(jié)構(gòu)信息,以增強(qiáng)文本中上下文之間的語(yǔ)義相關(guān)性,并引入IndRNN有效地避免信息在層間傳遞的丟失和解決梯度消失等問(wèn)題。接下來(lái)在增加語(yǔ)料的同時(shí)也會(huì)從細(xì)粒度分類(lèi)方面進(jìn)行下一步實(shí)驗(yàn)。
參考文獻(xiàn)
[1]?HU K, WU H, QI K, et al. A domain keyword analysis approach extending term frequency-keyword active index with Google Word2Vec model [J]. Scientometrics, 2018, 114(3): 1031-1068.
[2]?CHEN M, LIU W, YANG Z, et al. Automatic prosodic events detection using a two-stage SVM/CRF sequence classifier with acoustic features [C]// Proceedings of the 2012 Chinese Conference on Pattern Recognition, CCIS 321. Berlin: Springer, 2012: 572-578.
[3]?ASHKTORAB Z, HABER E, GOLBECK J, et al. Beyond cyberbullying: self-disclosure, harm and social support on ASKfm [C]//Proceedings of the 2017 ACM on Web Science Conference. New York: ACM, 2017: 3-12.
[4]?BURNAP P, COLOMBO G, AMERY R, et al. Multi-class machine classification of suicide-related communication on Twitter [J]. Online Social Networks and Media, 2017, 2: 32-44.
[5]?ZHOU Y T, DU Z G, ZHANG D, et al. Retrospective observational study about reducing the false negative rate of the sentinel lymph node biopsy: never underestimate the effect of subjective factors [J]. Medicine, 2017, 96(34): e7787.
[6]?DADVAR M, TRIESCHNINGG D, de JONG F. Experts and machines against bullies: a hybrid approach to detect cyberbullies [C]// Proceedings of the 27th Canadian Conference on Artificial Intelligence, LNCS 8436. Cham: Springer, 2014: 275-281.
[7]?FIRUZI K, VAKILIAN M, DARABAD V P, et al. A novel method for differentiating and clustering multiple partial discharge sources using S transform and bag of words feature[J]. IEEE Transactions on Dielectrics and Electrical Insulation, 2018, 24(6):3694-3702.
[8]??COLLIER N, NOBATA C, TSUJII J. Automatic acquisition and? classification of terminology using a tagged corpus in the molecular biology domain[J]. Terminology, 2001, 7(2): 239-257.
[9]??DJURIC N, ZHOU J, MORRIS R, et al. Hate speech detection? with comment embeddings[C]// Proceedings of the 24th International Conference on World Wide Web. New York: ACM, 2015: 29-30.
[10]?WIJERATNE S, DORAN D, SHETH A, et al. Analyzing the social media footprint of street gangs[C]// ISI 2015: Proceedings of the 2015 IEEE International Conference on Intelligence and Security Informatics. Piscataway, NJ: IEEE, 2015: 91-96.
[11]?GITARI N D, ZUPING Z, DAMIEN H, et al. A lexicon-based approach for hate speech detection[J]. International Journal of Multimedia and Ubiquitous Engineering, 2015, 10(4): 215-230.
[12]?MISHRA M K, KUMAR S, VAISH A, et al. Quantifying degree of cyber bullying using level of information shared and associated trust[C]//? INDICON 2015:? Proceedings of the 2015 Annual IEEE India Conference. Piscataway, NJ: IEEE, 2015: 1-6.
[13]?OGUZLAR A. With R programming, comparison of performance of different machine learning algorithms[J]. European Journal of Multidisciplinary Studies, 2018, 3(2): 172-172.
[14]?YANG Z, YANG D, DYER C, et al. Hierarchical attention networks for document classification[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1480-1489.
[15]?李洋,董紅斌.基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J].計(jì)算機(jī)應(yīng)用,2018,38(11):3075-3080. (LI Y, DONG H B. Text sentiment analysis based on feature fusion of convolution neural network and bidirectional long short-term memory network [J]. Journal of Computer Applications, 2018, 38(11): 3075-3080.)
[16]?LI S, LI W, COOK C, et al. Independently recurrent neural network (IndRNN): building a longer and deeper RNN[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2018: 5457-5466.
[17]?王建華,周明強(qiáng),盛愛(ài)萍.現(xiàn)代漢語(yǔ)語(yǔ)境研究[M].杭州:浙江大學(xué)出版社,2002:59. (WANG J H, ZHOU M Q, SHENG A P. On the Context of Modern Chinese[M]. Hangzhou: Zhejiang University Press, 2002: 59.)
[18]?XU J M, JUN K S, ZHU X, et al. Learning from bullying traces in social media[C]// Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2012: 656-666.