国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于混合編碼的社交媒體英語(yǔ)文本情緒檢測(cè)

2022-05-08 03:01黎家寧
科技創(chuàng)新與應(yīng)用 2022年12期
關(guān)鍵詞:代碼混合分類(lèi)

黎家寧

(大連民族大學(xué) 外國(guó)語(yǔ)學(xué)院,遼寧 大連 116600)

世界各地的人們都在大量使用Twitter和Facebook等社交媒體平臺(tái)來(lái)表達(dá)自己的觀點(diǎn)。這些平臺(tái)的廣泛應(yīng)用使得文本數(shù)據(jù)豐富,為自然語(yǔ)言處理領(lǐng)域的研究提出了各種挑戰(zhàn)。在這些挑戰(zhàn)中,檢測(cè)文本中傳達(dá)的情感在各個(gè)領(lǐng)域都具有重要意義。分析社交媒體文本內(nèi)容中表達(dá)的情感,對(duì)于評(píng)估人們?cè)诋a(chǎn)品評(píng)價(jià)、電影評(píng)價(jià)、對(duì)新出臺(tái)政府政策的接受等應(yīng)用中的理解力非常有用,這就增加了檢測(cè)它的必要性。在社交媒體中,人們傾向于使用不遵循標(biāo)準(zhǔn)句法結(jié)構(gòu)的非正式表達(dá)方式,使分類(lèi)成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。

首先,理解文本中表達(dá)的核心觀點(diǎn)僅限于情感分析[1],其中基于句子中極性矛盾的分類(lèi),即是否表達(dá)任何積極、消極或中性的行為,也可以稱(chēng)為觀點(diǎn)挖掘。在后期階段,它已經(jīng)進(jìn)化到識(shí)別更精細(xì)的情緒水平。這種情緒檢測(cè)和分類(lèi)的目的是識(shí)別精煉的情緒,如快樂(lè)、悲傷、憤怒。由于大量的單語(yǔ)語(yǔ)料庫(kù)的可用性,大多數(shù)有關(guān)情感檢測(cè)的研究分析都是在單語(yǔ)數(shù)據(jù)上進(jìn)行的。然而,公眾屬于多語(yǔ)言領(lǐng)域,當(dāng)他們涉足社交媒體時(shí),通常使用代碼混合語(yǔ)言[2]。碼混疊識(shí)別是將一種語(yǔ)言的形態(tài)成分嵌入另語(yǔ)言話語(yǔ)中的語(yǔ)義表達(dá)現(xiàn)象。這種用法在多語(yǔ)言社會(huì)中非常常見(jiàn),人們?cè)谑褂蒙缃幻襟w平臺(tái)時(shí),將一種語(yǔ)言的單詞翻譯成另一種語(yǔ)言,而不遵循任何標(biāo)準(zhǔn)的語(yǔ)義結(jié)構(gòu)。

印度是一個(gè)多元化的國(guó)家,在文化、語(yǔ)言和時(shí)尚方面,異質(zhì)性在全國(guó)普遍存在。13億人在印度使用大約1 600種語(yǔ)言。受至少2種語(yǔ)言的影響,印度公民往往在社交媒體上經(jīng)常使用混合語(yǔ)言。印地語(yǔ)是這個(gè)國(guó)家使用最多的語(yǔ)言。超過(guò)45%的人口以印地語(yǔ)為母語(yǔ),這使得印度英語(yǔ)(印地語(yǔ)+英語(yǔ))混合的社交媒體文本內(nèi)容過(guò)多。下面是一些直接從社交媒體上根據(jù)一些流行事件提取的印度-英語(yǔ)代碼混合文本樣本及其翻譯。

文本1:Aaj ye government ek shaandar decision le liya Article 370 koscarp karke.

翻譯:今天,本屆政府做出了一個(gè)偉大的決定,廢除了第三百七十條。

文本2:Indian team ke liye bura lag raha hai,they should have won.

翻譯:真為印度隊(duì)難過(guò),他們本該贏的。

文 本3:Pulwama attack ki news dekh kar bahut gussa aa gaya.Hamare armed forces jaroor retaliate karna hein.

翻譯:當(dāng)我看到普瓦馬襲擊的新聞時(shí),我非常生氣。本文的武裝部隊(duì)一定要報(bào)復(fù)。

正如給的例子所描述的,在代碼混合文本中,印地語(yǔ)單詞被音譯成羅馬文字,并與英語(yǔ)單詞一起書(shū)寫(xiě)。在文本1中,快樂(lè)的情緒是通過(guò)贊揚(yáng)政府作為shandara決定所采取的步驟來(lái)表達(dá)的;在文本2中,短語(yǔ)bura lag raha haisigne表達(dá)的悲傷的情緒;在文本3中bahut gussa aa gayain表達(dá)憤怒情緒。這類(lèi)句子的語(yǔ)義復(fù)雜性和句法結(jié)構(gòu)的異常變化使得在代碼混合的文本數(shù)據(jù)中進(jìn)行情感檢測(cè)非常困難。由于數(shù)據(jù)的缺乏,該情感檢測(cè)任務(wù)在印地語(yǔ)-英語(yǔ)代碼-混合語(yǔ)言領(lǐng)域的研究程度較低。

本文的目標(biāo)是檢測(cè)和分類(lèi)這些代碼,混合文本表達(dá)的情感。為了解決這一問(wèn)題,將Vijay等[3]人的印地語(yǔ)-英語(yǔ)代碼混合文本情緒檢測(cè)任務(wù)作為工作的基線。作為初步的努力,本文主要集中在數(shù)據(jù)的收集。因此,在他們提供的數(shù)據(jù)集的基礎(chǔ)上,還從各個(gè)平臺(tái)上抓取了codemixed social media內(nèi)容,共收集了12 000條文本。工作考慮的情緒類(lèi)別是快樂(lè)、悲傷和憤怒,每個(gè)文本都手工注釋與之相關(guān)的情緒。

1 數(shù)據(jù)收集及描述

Vijay等[3]人完成了印地語(yǔ)-英語(yǔ)代碼混合數(shù)據(jù)中情感檢測(cè)的基本工作。他們提供的數(shù)據(jù)集是這項(xiàng)工作的基礎(chǔ)數(shù)據(jù),基于此,開(kāi)始了語(yǔ)料庫(kù)的創(chuàng)建,收集更多的代碼混合文本的數(shù)據(jù),意圖更好地統(tǒng)計(jì)意義的分類(lèi)。Twitter API用于提取代碼混合的tweet。本文使用了一個(gè)python庫(kù)tweepy,并在程序生成文本數(shù)據(jù)。除了Twitter API外,F(xiàn)acebook和Instagram的評(píng)論也被匯集在一起以獲取所需的數(shù)據(jù)。內(nèi)容提取使用了很多關(guān)鍵詞,一些熱門(mén)的是三重塔拉克,巴拉克襲擊,CWC2019,Chandrayaan2,Election2019,克什米爾問(wèn)題,外科手術(shù)式打擊,莫迪,Jio Fiber,PV Sindhu。由于這些活動(dòng)吸引了如此多的公眾關(guān)注,可以很容易地獲得多種情感內(nèi)容。通過(guò)對(duì)Vijay等人數(shù)據(jù)集的收集和分析,共收集了12 000個(gè)印地語(yǔ)-英語(yǔ)代碼混合文本。數(shù)據(jù)類(lèi)和每個(gè)數(shù)據(jù)類(lèi)中出現(xiàn)句子數(shù)量的詳細(xì)描述見(jiàn)表1。每堂課的課文數(shù)量保持統(tǒng)一,避免班級(jí)失衡問(wèn)題。每一篇文章都有相應(yīng)的情感注解。實(shí)驗(yàn)中考慮的情感類(lèi)有快樂(lè)、悲傷和憤怒。注釋是由2個(gè)擁有2種語(yǔ)言知識(shí)的人通過(guò)指定的指令手工完成的。

表1 數(shù)據(jù)集的詳細(xì)描述

2 研究方法

在這一節(jié)中,將詳細(xì)描述適用于實(shí)驗(yàn)的方法。方法的流程如圖1所示。預(yù)處理:從社交媒體平臺(tái)提取的數(shù)據(jù)中包含了大量不需要的信息,如url、用戶名、標(biāo)簽、表情符號(hào)和其他特殊字符。為了刪除它們并使文本干凈,可以采用以下步驟:

圖1 方法流程圖

(1)從文本中刪除url。

(2)從文本中刪除所有用戶名和特殊字符。

(3)從整個(gè)文本中刪除所有額外的空格。

(4)將每個(gè)文本轉(zhuǎn)換為小寫(xiě)。

這些步驟以Jose等[4]人的工作為基礎(chǔ),在使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi)時(shí),預(yù)處理技術(shù)的作用提供了明確的支持。

重新訓(xùn)練模型和特征提?。涸谔卣魈崛」ぷ髦校褂妙A(yù)先訓(xùn)練的領(lǐng)域特定的詞嵌入模型[5]。使用這個(gè)預(yù)訓(xùn)練模型的原因是,它是由250K碼混合推文構(gòu)建而成的,這樣大的語(yǔ)料庫(kù)生成的訓(xùn)練模型可以提供更好的特征向量。本文用Word2Vec重新訓(xùn)練了這個(gè)模型。Word2Vec的核心思想是通過(guò)分析所有被標(biāo)記的詞,了解它們之間的語(yǔ)義關(guān)系,根據(jù)詞的相似度來(lái)實(shí)現(xiàn)向量相似度。

在Word2Vec中,有2種方法生成單詞向量。這2種方法分別是連續(xù)詞袋法和跳躍圖法。CBOW在工作中的作用是用本文清理的數(shù)據(jù)對(duì)模型進(jìn)行再培訓(xùn)。CBOW的主要功能是借助鄰接詞預(yù)測(cè)一個(gè)詞的前景,即根據(jù)上下文預(yù)測(cè)單個(gè)詞。Word2Vec是一個(gè)淺層神經(jīng)網(wǎng)絡(luò),其中存在2組權(quán)值。當(dāng)周?chē)膯卧~作為輸入時(shí),它預(yù)測(cè)單個(gè)單詞,如果在預(yù)測(cè)中有錯(cuò)誤,它將通過(guò)反向傳播進(jìn)行修正,以調(diào)整權(quán)重。在更好的預(yù)測(cè)之后,CBOW給出隱藏層和輸出層之間的權(quán)值作為單詞的數(shù)值向量。綜上所述,特征提取過(guò)程如下:

(1)對(duì)預(yù)處理獲得的已清洗文本進(jìn)行標(biāo)記。

(2)使用標(biāo)記化的單詞對(duì)模型進(jìn)行再訓(xùn)練。

(3)從重新訓(xùn)練的模型中為每個(gè)單詞生成數(shù)值向量,從而獲得每個(gè)句子的特征向量。

將從模型接收到的特征向量提供給各種深度學(xué)習(xí)算法進(jìn)行文本分類(lèi)。

單詞向量一旦生成,所有的單詞向量都被堆疊到一個(gè)嵌入矩陣中,并使用各自的行數(shù)作為索引。將令牌化句子中的每個(gè)詞替換為詞索引,并將其作為模型的輸入,傳遞給嵌入層。由于每個(gè)句子的長(zhǎng)度都是唯一的,所以使用零填充使它們的長(zhǎng)度統(tǒng)一。在嵌入層中,每個(gè)輸入整數(shù)作為索引訪問(wèn)包含所有可能特征向量的嵌入矩陣。在獲取每個(gè)句子的特征向量后,將其傳遞給深度神經(jīng)網(wǎng)絡(luò)模型。從相關(guān)工作中可以明顯看出,CNN和CNN為首的序列模型,如LSTM、BiLSTM已經(jīng)證明在許多文本分類(lèi)任務(wù)中提供了更好的結(jié)果。CNN層捕獲的必要特征對(duì)于LSTM進(jìn)行序列預(yù)測(cè)非常有用。它減少了LSTM上的負(fù)載,使計(jì)算速度更快。LSTM對(duì)順序數(shù)據(jù)的處理效果非常好,因?yàn)樗鼈兛梢赃x擇性地記住所需的模式,這在分類(lèi)任務(wù)中起著至關(guān)重要的作用。雙向LSTM層也被使用,因?yàn)樗鼈兛梢栽?個(gè)LSTM上訓(xùn)練,而不是第1個(gè)LSTM對(duì)輸入序列進(jìn)行訓(xùn)練,第2個(gè)LSTM對(duì)其反向拷貝進(jìn)行訓(xùn)練。簡(jiǎn)而言之即提出再訓(xùn)練一個(gè)雙語(yǔ)預(yù)訓(xùn)練模型來(lái)生成單詞嵌入特征向量和CNN頭神經(jīng)網(wǎng)絡(luò)模型用于印式英語(yǔ)碼混合文本分類(lèi)。

3 實(shí)驗(yàn)和結(jié)果

收集的12 000條代碼混合的社交媒體文本被考慮用于實(shí)驗(yàn)。每一個(gè)清理的文本被標(biāo)記,并給予再訓(xùn)練的模型,以生成單詞向量。語(yǔ)料庫(kù)中的每個(gè)詞都有索引并從嵌入層訪問(wèn)其各自的向量。調(diào)查結(jié)果表明,一維CNN在NLP分類(lèi)任務(wù)中取得了一些顯著的結(jié)果,因?yàn)樵~語(yǔ)的鄰近性可能并不總是一個(gè)良好的指示可訓(xùn)練模式的指標(biāo)。因此第1個(gè)實(shí)驗(yàn)是用1D-CNN做的。當(dāng)僅使用CNN時(shí),從模型中去掉LSTM層。LSTM和BiLSTM可以記憶在分析文本時(shí)具有重要意義的順序模式,因此也通過(guò)省略CNN層來(lái)利用它們。最后,采用CNN-LSTM和CNNBiLSTM模型,因?yàn)镃NN具有提取特征的能力,降低了LSTM或BiLSTM訓(xùn)練的復(fù)雜性。對(duì)CNN、LSTM、BiLSTM、CNN-LSTM、CNN-BiLSTM這5個(gè)模型進(jìn)行分類(lèi)實(shí)驗(yàn)。對(duì)每個(gè)模型進(jìn)行了15代的訓(xùn)練,并利用10倍交叉驗(yàn)證進(jìn)行模型評(píng)價(jià)。各分類(lèi)模型的性能指標(biāo)見(jiàn)表2。

表2 分類(lèi)模型的性能指標(biāo)

CNN-BiLSTM的分類(lèi)準(zhǔn)確率達(dá)到了83.21%,從所得結(jié)果可以看出,與其他模型相比,CNN-BiLSTM的分類(lèi)性能更好,CNN-BiLSTM模型列于表3,以直觀地展示其性能。從所提供的統(tǒng)計(jì)數(shù)據(jù)可以理解,CNN-BiLSTM在每一個(gè)類(lèi)的分類(lèi)中都有顯著的表現(xiàn),總體上的準(zhǔn)確性都是最優(yōu)的。

表3 CNN-BiLSTM分類(lèi)性能

4 結(jié)論

社交媒體平臺(tái)的普及為每個(gè)人通過(guò)文字或圖片來(lái)表達(dá)自己對(duì)各種話題的情感鋪平了道路。在印度,人們混合使用英語(yǔ)和當(dāng)?shù)卣Z(yǔ)言(代碼混合語(yǔ)言)來(lái)表達(dá)他們的情感。自動(dòng)識(shí)別那些通過(guò)代碼混合語(yǔ)言表達(dá)的情緒是一項(xiàng)乏味的任務(wù),因?yàn)樗?種(或更多)完全不同的語(yǔ)言的特征。本文提出了一種深度學(xué)習(xí)方法,用于識(shí)別各種社交媒體平臺(tái)(如Twitter和Facebook)中通過(guò)印地語(yǔ)-英語(yǔ)代碼混合語(yǔ)言表達(dá)的情緒。為了實(shí)現(xiàn)檢測(cè)模型,本文從不同的來(lái)源收集并清理了12 000條包含快樂(lè)、悲傷、憤怒等情緒的印地語(yǔ)-英語(yǔ)代碼混合句子。為了將句子轉(zhuǎn)換成向量,使用了雙語(yǔ)預(yù)訓(xùn)練模型,該模型再使用為該任務(wù)收集的語(yǔ)料庫(kù)進(jìn)行再訓(xùn)練。在檢測(cè)情感的各種深度學(xué)習(xí)模型中,CNN-BiLSTM模型的檢測(cè)準(zhǔn)確率較高,達(dá)到83.21%。該模型在分類(lèi)智能檢測(cè)方面也有良好的性能。由于典型的單語(yǔ)預(yù)訓(xùn)練模型不包含其他語(yǔ)言的詞匯,為了從代碼混合數(shù)據(jù)中檢測(cè)情感或其他信息,需要雙語(yǔ)預(yù)訓(xùn)練模型。此外,應(yīng)用CNN層可以從單詞嵌入中生成更有意義的信息,這些信息可以作為輸入傳遞給BiLSTM,BiLSTM捕獲句子的語(yǔ)義。未來(lái),通過(guò)在印度語(yǔ)言代碼混合文本領(lǐng)域創(chuàng)建大型語(yǔ)料庫(kù),這項(xiàng)任務(wù)可以擴(kuò)展到更精細(xì)的情感水平。

猜你喜歡
代碼混合分類(lèi)
混合宅
混合運(yùn)算大篷車(chē)
按需分類(lèi)
教你一招:數(shù)的分類(lèi)
說(shuō)說(shuō)分類(lèi)那些事
神秘的代碼
一周機(jī)構(gòu)凈增(減)倉(cāng)股前20名
重要股東二級(jí)市場(chǎng)增、減持明細(xì)
近期連續(xù)上漲7天以上的股
給塑料分分類(lèi)吧