国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽情緒分類研究

2021-05-12 10:52吳妍秀
現(xiàn)代計(jì)算機(jī) 2021年7期
關(guān)鍵詞:分類器神經(jīng)網(wǎng)絡(luò)標(biāo)簽

吳妍秀

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

0 引言

隨著全球網(wǎng)絡(luò)社交媒體的快速發(fā)展,越來(lái)越多用戶在推特、微博等社交平臺(tái)上發(fā)布內(nèi)容,分享自己的個(gè)人觀點(diǎn)、態(tài)度及情緒,挖掘海量文本中的此類信息變得尤為重要,使情緒分類成為熱門研究方向。情緒分類具有很高的應(yīng)用價(jià)值,它可以為輿情分析[1],個(gè)性化推薦,股票預(yù)測(cè)[2]等任務(wù)提供支持。

情緒具有多種分類方式:Ekman 等人[3]將基礎(chǔ)情緒劃分為joy、sadness、anger、fear、disgust、surprise 六類,在SemEval-2007 競(jìng)賽task 14: Affective Text[4]任務(wù)中,1250 條新聞標(biāo)題被以這六種情緒進(jìn)行標(biāo)注;Plutchik[5]提出了八種基礎(chǔ)情緒的分類,分別為acceptance、anger、anticipation、disgust、joy、fear、sadness、surprise。如表1所示,一段文本中可能包含多種情緒,且情緒之間具有關(guān)聯(lián),識(shí)別句子中同時(shí)存在的多種情緒仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。

多標(biāo)簽分類任務(wù)的定義為:假設(shè)X=Rd為d 維的樣本空間,Y={y1,y2,…,yq}為存在q 個(gè)標(biāo)簽的標(biāo)簽空間,多標(biāo)簽分類任務(wù)從訓(xùn)練集中學(xué)習(xí)函數(shù)映射h:X→2Y。

表1 SemEval2018 task 1[6]數(shù)據(jù)集中的推特及對(duì)應(yīng)情緒

1 研究現(xiàn)狀

1.1 多標(biāo)簽分類任務(wù)

多標(biāo)簽分類任務(wù)主要采用問(wèn)題轉(zhuǎn)化或算法適應(yīng)的方法,問(wèn)題轉(zhuǎn)化方法將多標(biāo)簽分類問(wèn)題轉(zhuǎn)化為其他較為熟悉的分類問(wèn)題,算法適應(yīng)方法采用現(xiàn)有的機(jī)器學(xué)習(xí)技術(shù)加以改進(jìn)來(lái)處理多標(biāo)簽數(shù)據(jù)。

二元關(guān)系法(BR)[7]將多標(biāo)簽分類問(wèn)題分解為q 個(gè)獨(dú)立的二分類問(wèn)題,每個(gè)二分類任務(wù)對(duì)應(yīng)標(biāo)簽空間中一個(gè)可能的標(biāo)簽;多標(biāo)簽K 近鄰(MLKNN)[8]采用K 近鄰算法作為基礎(chǔ)處理多標(biāo)簽數(shù)據(jù),通過(guò)鄰居節(jié)點(diǎn)的標(biāo)簽信息利用最大后驗(yàn)進(jìn)行預(yù)測(cè)。上述兩種方法為一階方法,單獨(dú)預(yù)測(cè)每個(gè)標(biāo)簽,忽略了標(biāo)簽的共現(xiàn)性,未考慮標(biāo)簽之間的關(guān)聯(lián),造成信息丟失。

基于排序的方法有排序-SVM[9]及校準(zhǔn)的標(biāo)簽排序算法(CLR)[10],排序-SVM 算法采用最大間隔來(lái)處理多標(biāo)簽數(shù)據(jù),對(duì)q 個(gè)線性分類器進(jìn)行優(yōu)化,最小化排序損失,并利用核函數(shù)解決非線性情況;CLR 將多標(biāo)簽分類問(wèn)題轉(zhuǎn)化為標(biāo)簽排序問(wèn)題,為每個(gè)標(biāo)簽對(duì)構(gòu)建二分類器,共構(gòu)建q(q-1)/2 個(gè)二分類器,通過(guò)人工插入的閾值標(biāo)簽得到最后的分類結(jié)果。上述兩種方法為二階方法,只考慮了兩個(gè)標(biāo)簽之間的共現(xiàn)性,未考慮真實(shí)世界中的標(biāo)簽關(guān)聯(lián)不止存在于二者之間。

分類器鏈(CC)[11]將多標(biāo)簽分類問(wèn)題轉(zhuǎn)化為鏈?zhǔn)降亩鄠€(gè)二分類問(wèn)題,鏈中前一個(gè)分類器的分類結(jié)果將輸入后續(xù)的分類器中;標(biāo)簽冪集(LP)[12]將問(wèn)題轉(zhuǎn)化為單標(biāo)簽多分類問(wèn)題,每個(gè)可能的標(biāo)簽組合被視為一個(gè)單獨(dú)的標(biāo)簽,使標(biāo)簽數(shù)量級(jí)增長(zhǎng)至2q。上述兩種方法為高階方法,可以考慮標(biāo)簽之間的關(guān)聯(lián),但CC 在訓(xùn)練過(guò)程中使用teacher forcing(即分類器的輸入為上一個(gè)分類器的黃金標(biāo)注,而不是其輸出的實(shí)際預(yù)測(cè)結(jié)果)會(huì)導(dǎo)致預(yù)測(cè)時(shí)的暴露誤差,LP 轉(zhuǎn)化問(wèn)題的方式使標(biāo)簽數(shù)量呈冪級(jí)增長(zhǎng)導(dǎo)致計(jì)算困難。

1.2 情緒分類任務(wù)

早期使用基于詞典與規(guī)則的方法解決該問(wèn)題:Balahur 等人[13]構(gòu)建了一個(gè)能觸發(fā)情緒的常識(shí)規(guī)則庫(kù)EmotiNet,該規(guī)則庫(kù)記錄了各種觸發(fā)情緒的事件,進(jìn)而對(duì)沒(méi)有明確提到情緒詞匯的文本進(jìn)行識(shí)別。但是人工構(gòu)建詞典及規(guī)則費(fèi)時(shí)費(fèi)力,覆蓋率仍不夠理想,且無(wú)法探測(cè)新詞。

Almeida 等人[14]將BR、CC、LP、MLKNN 等多標(biāo)簽分類任務(wù)的方法直接用于情緒多標(biāo)簽分類,傳統(tǒng)的多標(biāo)簽分類方法存在未考慮標(biāo)簽關(guān)聯(lián)或計(jì)算復(fù)雜的問(wèn)題。

Li 等人[15]統(tǒng)計(jì)了Ren-CECps 數(shù)據(jù)集[16]中的標(biāo)簽共現(xiàn)頻率及上下文出現(xiàn)相同標(biāo)簽的頻率,提出了依賴因子圖(DFG)模型,可以建模情緒標(biāo)簽及上下文之間的相關(guān)性。Zhu 等人[17]提出了語(yǔ)料庫(kù)融合的方法利用兩個(gè)情緒語(yǔ)料庫(kù),首先對(duì)兩個(gè)語(yǔ)料庫(kù)進(jìn)行有監(jiān)督的分類任務(wù),然后根據(jù)語(yǔ)料庫(kù)內(nèi)約束和語(yǔ)料庫(kù)外約束對(duì)預(yù)測(cè)結(jié)果進(jìn)行優(yōu)化。

2 神經(jīng)網(wǎng)絡(luò)方法

近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的方法快速發(fā)展,從傳統(tǒng)機(jī)器學(xué)習(xí)人工提取特征的方式變?yōu)樽詣?dòng)學(xué)習(xí)特征,由于自然語(yǔ)言序列輸入且不定長(zhǎng)的特性,可以使用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN 這類神經(jīng)元節(jié)點(diǎn)按時(shí)間序列連接的神經(jīng)網(wǎng)絡(luò),而長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM 及門控循環(huán)單元GRU改進(jìn)了RNN 梯度消失的問(wèn)題,使用LSTM 或GRU 編碼輸入句子成為了主流。

Abdul-Mageed 等人[18]利用hashtag 信息對(duì)語(yǔ)料進(jìn)行遠(yuǎn)監(jiān)督標(biāo)注,使用GRU 對(duì)文本進(jìn)行細(xì)粒度的情緒多分類任務(wù);Matsumoto 等人[19]利用emoji 表情符號(hào)監(jiān)督標(biāo)注語(yǔ)料,分別實(shí)驗(yàn)BiLSTM、BiGRU、CNN 三種神經(jīng)網(wǎng)絡(luò)的分類效果,最終效果BiLSTM 及BiGRU 優(yōu)于CNN。上述研究雖然使用遠(yuǎn)監(jiān)督學(xué)習(xí)解決了人工標(biāo)注語(yǔ)料費(fèi)時(shí)費(fèi)力,且標(biāo)注數(shù)據(jù)不足的問(wèn)題,但是將情緒分類看作普通的多分類問(wèn)題,未考慮真實(shí)世界中的情緒分類應(yīng)為多標(biāo)簽分類問(wèn)題。

Yu 等人[20]通過(guò)遷移學(xué)習(xí),利用情感分類任務(wù)提升樣本較少的多標(biāo)簽情緒分類任務(wù)的效果,編碼端使用BiLSTM 將句子編碼至兩個(gè)特征空間,分別為共享空間及情緒任務(wù)專有空間,通過(guò)雙向注意力正交優(yōu)化,捕獲情感詞及情緒專有詞的信息,最后將兩個(gè)隱藏向量拼接傳入多層感知機(jī)進(jìn)行分類,但需要人工設(shè)定閾值得到最后的多個(gè)標(biāo)簽。Jabreel 等人[21]拼接句子和標(biāo)簽,形成句子標(biāo)簽對(duì)集合,使用標(biāo)簽嵌入作為查詢向量計(jì)算每個(gè)詞的注意力,輸入BiGRU 進(jìn)行聯(lián)合編碼,將多標(biāo)簽分類問(wèn)題轉(zhuǎn)化為由同一個(gè)分類模型解決的二分類問(wèn)題。上述研究未考慮標(biāo)簽與標(biāo)簽之間的共現(xiàn)相關(guān)性。

在LSTM 的基礎(chǔ)上,可以使用Seq2Seq[22-23]進(jìn)行多標(biāo)簽分類任務(wù),將多標(biāo)簽分類問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,該模型為編碼-解碼結(jié)構(gòu),編碼端使用BiLSTM 提取輸入句子的特征,注意力機(jī)制通過(guò)聚焦文本序列的不同詞,對(duì)詞的隱藏狀態(tài)求和生成上下文向量;解碼端每個(gè)時(shí)刻接收上一個(gè)時(shí)刻的隱藏狀態(tài),及上一時(shí)刻的標(biāo)簽嵌入和該時(shí)刻由編碼端得到的上下文向量的拼接,將生成過(guò)的標(biāo)簽進(jìn)行mask 操作從而避免重復(fù)生成,最終按序列生成情緒標(biāo)簽。該研究將解碼端接收的上一時(shí)刻的標(biāo)簽嵌入改為了概率值加權(quán)的標(biāo)簽嵌入,減弱模型teacher forcing 造成的暴露誤差。

Fei 等人[24]提出了潛在情緒記憶網(wǎng)絡(luò)得到先驗(yàn)的情緒分布,其中的潛在情緒模塊使用變分自編碼器重構(gòu)輸入的詞袋來(lái)學(xué)習(xí)情緒分布;記憶模塊使用潛在情緒模塊得到的參數(shù)矩陣作為查詢向量,對(duì)輸入句子計(jì)算注意力,捕捉對(duì)應(yīng)情緒相關(guān)的上下文特征。模型使用了多跳BiGRU 得到輸出,每個(gè)時(shí)刻輸出一個(gè)情緒標(biāo)簽的二分類結(jié)果,潛在情緒模塊得到的情緒分布矩陣及情緒特征矩陣為整個(gè)模型共享,記憶模塊僅針對(duì)Bi-GRU 的每個(gè)時(shí)刻。

3 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

3.1 數(shù)據(jù)集

近年來(lái),由于該任務(wù)受到廣泛關(guān)注,有多個(gè)研究及競(jìng)賽提出并標(biāo)注了數(shù)據(jù)集,如:SemEval-2007 數(shù)據(jù)集、NLPCC-2014 數(shù)據(jù)集、Ren-CECps 數(shù)據(jù)集、SemEval-2018 數(shù)據(jù)集等。

目前使用較多的情緒多標(biāo)簽分類數(shù)據(jù)集為英文微博文本的SemEval-2018 task 1 的競(jìng)賽數(shù)據(jù)集及中文博客的Ren-CECps 數(shù)據(jù)集。如表2 所示,SemEval-18 數(shù)據(jù)集已劃分訓(xùn)練集、驗(yàn)證集、測(cè)試集,情緒標(biāo)簽為disgust、anger、joy、sadness、optimism、fear、anticipation、pessimism、love、surprise、trust 十一類;CEC 數(shù)據(jù)集為未劃分的結(jié)構(gòu)化數(shù)據(jù),情緒標(biāo)簽為joy、hate、love、sorrow、anxiety、surprise、anger、expect 八類。

統(tǒng)計(jì)得出的句子對(duì)應(yīng)標(biāo)簽個(gè)數(shù)如表3 所示,兩個(gè)數(shù)據(jù)集的每個(gè)句子樣例均包含一種或多種情緒。

表2 數(shù)據(jù)集情況

表3 情緒標(biāo)簽數(shù)量的分布情況

3.2 評(píng)價(jià)指標(biāo)

針對(duì)多標(biāo)簽分類問(wèn)題,除了傳統(tǒng)的F1 值度量以外,可以使用漢明損失[25]、杰卡德系數(shù)進(jìn)行度量。漢明損失用于評(píng)價(jià)被誤分類的樣本標(biāo)簽對(duì):

其中n 代表樣本個(gè)數(shù),l 代表標(biāo)簽個(gè)數(shù),Yi為真實(shí)標(biāo)注,h(x)i為預(yù)測(cè)結(jié)果,漢明損失越小,代表模型預(yù)測(cè)結(jié)果越準(zhǔn)確。

杰卡德系數(shù)用于衡量?jī)蓚€(gè)標(biāo)簽集合之間的相似性:

當(dāng)集合Yi、h(x)i都為空時(shí),Ja 定義為1。杰卡德系數(shù)越大,代表模型預(yù)測(cè)結(jié)果越準(zhǔn)確。

4 結(jié)語(yǔ)

本文對(duì)基于神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽情緒分類方法進(jìn)行了研究。多標(biāo)簽情緒分類對(duì)于業(yè)界挖掘用戶信息有很大幫助,神經(jīng)網(wǎng)絡(luò)的發(fā)展使該任務(wù)的效果有了進(jìn)一步提升。但由于神經(jīng)網(wǎng)絡(luò)的黑盒特性,仍有很多特征提取及解碼方式值得探索。

猜你喜歡
分類器神經(jīng)網(wǎng)絡(luò)標(biāo)簽
少樣本條件下基于K-最近鄰及多分類器協(xié)同的樣本擴(kuò)增分類
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
基于人工智能LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)成績(jī)預(yù)測(cè)
學(xué)貫中西(6):闡述ML分類器的工作流程
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負(fù)荷預(yù)測(cè)
基于樸素Bayes組合的簡(jiǎn)易集成分類器①
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測(cè)
基于AdaBoost算法的在線連續(xù)極限學(xué)習(xí)機(jī)集成算法
讓衣柜擺脫“雜亂無(wú)章”的標(biāo)簽
合山市| 玉溪市| 大港区| 巴马| 华阴市| 内江市| 闵行区| 略阳县| 光泽县| 习水县| 松桃| 安化县| 阿图什市| 杨浦区| 乐业县| 德昌县| 东城区| 阳城县| 磐石市| 沁阳市| 新建县| 建昌县| 出国| 松滋市| 大田县| 临泉县| 天峻县| 县级市| 宜章县| 宝坻区| 尉氏县| 宣化县| 洛宁县| 汉沽区| 威远县| 库尔勒市| 霍林郭勒市| 堆龙德庆县| 海林市| 辽宁省| 杭锦后旗|