国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感詞匯與機(jī)器學(xué)習(xí)的方面級(jí)情感分類

2020-02-08 06:55:52璞,李逍,劉
關(guān)鍵詞:互信息中性類別

張 璞,李 逍,劉 暢

(重慶郵電大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,重慶 400065)

0 引 言

情感分類作為情感分析的一項(xiàng)關(guān)鍵研究任務(wù)[1],受到研究人員的廣泛關(guān)注。已有研究中,多數(shù)學(xué)者的研究集中于文檔級(jí)及句子級(jí)的情感分類[2-9]。作為細(xì)粒度情感分析領(lǐng)域的一項(xiàng)研究任務(wù),方面級(jí)情感分類的目標(biāo)是確定句子中所描述對(duì)象的特定方面的情感極性。已有的方面級(jí)情感分類研究中,不少學(xué)者采用基于情感詞典的方法。王巍[10]通過構(gòu)建修飾詞表以及高頻搭配庫對(duì)評(píng)價(jià)單元進(jìn)行情感分類。該類方法的核心思想是“詞典+規(guī)則”,即根據(jù)情感詞典匹配評(píng)價(jià)短語中的情感詞,并考慮其中的否定詞、修飾詞以及搭配的評(píng)價(jià)對(duì)象,設(shè)計(jì)相應(yīng)的規(guī)則進(jìn)行情感分類,但由于網(wǎng)絡(luò)詞匯的不斷更新、語言表達(dá)的方式也復(fù)雜多變,該類方法難以處理新領(lǐng)域特有的語言現(xiàn)象。還有學(xué)者使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法來進(jìn)行方面級(jí)情感分類。Mohammad Al-Smadi等[11]利用樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、決策樹、k-最近鄰(kNN)、支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)方法來構(gòu)建分類器,進(jìn)行方面級(jí)情感分類。曾義夫等[12]提出一種基于雙記憶注意力機(jī)制的方面級(jí)情感分類模型來判斷評(píng)論中評(píng)價(jià)對(duì)象的情感傾向??傮w而言,基于機(jī)器學(xué)習(xí)的方法一定程度上彌補(bǔ)了情感詞典方法的不足,但需要大量時(shí)間和精力進(jìn)行數(shù)據(jù)標(biāo)注,且特征的提取和分類器的選取將直接影響到分類性能。

本文提出了一種基于情感詞匯與機(jī)器學(xué)習(xí)的方面級(jí)情感分類方法,在數(shù)據(jù)集上的微平均值和宏平均值分別達(dá)到89.61%和89.27%,相比4種傳統(tǒng)機(jī)器學(xué)習(xí)方法中表現(xiàn)最好的KNN方法分別提高了3.15%和3.66%。

1 相關(guān)介紹

1.1 評(píng)價(jià)搭配及情感類別

方面描述的是評(píng)價(jià)對(duì)象的某一側(cè)面,通常表示為評(píng)價(jià)對(duì)象的屬性,方面級(jí)情感分類任務(wù)主要針對(duì)由評(píng)價(jià)對(duì)象的某個(gè)特定方面與其評(píng)價(jià)詞組成的評(píng)價(jià)搭配進(jìn)行情感分類。例如“華為榮耀手機(jī)的做工好,顏色炫”這一評(píng)論語句中,評(píng)價(jià)對(duì)象為華為榮耀手機(jī),所涉及方面為做工和顏色,評(píng)價(jià)搭配包括<做工,好>和<顏色,炫>,相應(yīng)的方面級(jí)情感分類結(jié)果均為積極。通常,評(píng)價(jià)搭配可分為以下幾種:第一種中,評(píng)價(jià)詞的情感傾向與評(píng)價(jià)對(duì)象無關(guān),如評(píng)價(jià)搭配<手感,好>和<信號(hào),好>等,其中的評(píng)價(jià)詞語“好”始終表達(dá)正向的情感;第二種評(píng)價(jià)搭配的情感傾向由評(píng)價(jià)對(duì)象和評(píng)價(jià)詞語共同決定,如<性價(jià)比,高>的情感傾向?yàn)檎颍?價(jià)格,高>的情感傾向?yàn)樨?fù)向,評(píng)價(jià)詞“高”對(duì)不同的評(píng)價(jià)對(duì)象表現(xiàn)出的情感傾向也不同;還有少部分評(píng)價(jià)搭配的評(píng)價(jià)詞沒有明顯的情感詞,多表現(xiàn)為動(dòng)詞或動(dòng)詞短語的形式,如<電池,每天需要充電>,這一類評(píng)價(jià)搭配需要對(duì)其進(jìn)行深層次理解才能判斷其情感傾向。本文的情感傾向類別包括正向、中性和負(fù)向這3類。

1.2 Word2Vec

Word2Vec是Google開源的一款詞向量表示模型的學(xué)習(xí)工具,其基本思想是將文本中的每個(gè)詞映射為一個(gè)固定維度的向量,將詞與詞之間的語義關(guān)系轉(zhuǎn)化為它們對(duì)應(yīng)的詞向量之間的距離。Word2Vec主要有CBOW和Skip-Gram模型。對(duì)于某個(gè)詞w(t),如取上下文窗口大小為k,CBOW模型根據(jù)w(t-k) 至w(t+k) 的詞向量來預(yù)測(cè)當(dāng)前詞w(t) 的詞向量;Skip-Gram模型則利用當(dāng)前詞w(t) 和上下文窗口k來預(yù)測(cè)w(t-k) 至w(t+k) 的詞向量。本文使用Word2Vec訓(xùn)練詞向量模型來獲得文本的分布式表示。

1.3 互信息

互信息(MI)主要用來計(jì)算兩個(gè)隨機(jī)變量之間的相關(guān)性。對(duì)于某個(gè)特征項(xiàng)i和某個(gè)類別c,它們的互信息MI(i,c) 定義如式(1)所示

(1)

其中,N(i,c) 表示屬于類別c的文檔集合中出現(xiàn)特征項(xiàng)i的文檔數(shù)量;N(i) 表示數(shù)據(jù)集中出現(xiàn)特征項(xiàng)i的文檔數(shù)量;N(c) 表示屬于類別c的文檔數(shù)量;N為數(shù)據(jù)集中的文檔總數(shù)量。

2 情感分類方法流程

本文的方面級(jí)情感分類方法的流程如圖1所示。

圖1 本文方法的流程

2.1 基于情感詞匯的分類方法

2.1.1 傳統(tǒng)的情感詞典分類方法

情感詞典通常是指具有褒義或貶義傾向的詞語集合,傳統(tǒng)的基于情感詞典的分類方法在構(gòu)建和擴(kuò)充情感詞典之后,還需要考慮情感詞周圍的否定詞、修飾詞以及搭配的評(píng)價(jià)對(duì)象,對(duì)其制定相應(yīng)的規(guī)則進(jìn)情感分類,該方法分類效果的好壞取決于情感詞典和規(guī)則是否足夠完善。如產(chǎn)品的評(píng)價(jià)對(duì)象“電池”,與之搭配的評(píng)價(jià)詞“耐用”屬于褒義詞,但評(píng)價(jià)搭配<電池,不耐用>的情感傾向?yàn)樨?fù)向,這是由于包含了否定詞“不”,使得該評(píng)價(jià)搭配表現(xiàn)的情感傾向與情感詞典的判斷結(jié)果完全相反;再如評(píng)價(jià)搭配<電池,不是特別耐用>和<電池,不是很耐用>的情感傾向均表現(xiàn)為中性,這是由于否定詞“不是”與描述情感強(qiáng)度的修飾詞“特別”或“很”組合之后,整體表達(dá)的負(fù)向情感沒有那么強(qiáng)烈、肯定,但與正向情感又有較大差距,所以將這兩個(gè)評(píng)價(jià)搭配的情感傾向判定為中性;而對(duì)于評(píng)價(jià)搭配<電池,特別不耐用>和<電池,很不耐用>,同樣存在著否定詞“不”、表示情感強(qiáng)度的修飾詞“特別”和“很”,它們表現(xiàn)出來的情感傾向卻都是負(fù)向的。

因此,僅通過情感詞典和制定的相關(guān)規(guī)則對(duì)評(píng)價(jià)搭配進(jìn)行正向、中性和負(fù)向的情感分類,由于自然語言表達(dá)的多樣性導(dǎo)致規(guī)則的完整度難以達(dá)到理想狀態(tài)。

2.1.2 本文的情感詞匯分類方法

通過對(duì)已有標(biāo)注的評(píng)價(jià)搭配進(jìn)行觀察,發(fā)現(xiàn)大部分情感傾向?yàn)橹行缘脑u(píng)價(jià)搭配中的評(píng)價(jià)短語往往包含了特定的評(píng)價(jià)詞或修飾詞。如評(píng)價(jià)搭配<屏幕,有點(diǎn)小>,<質(zhì)量,還行>和<質(zhì)量,一般>等都表現(xiàn)為中性情感,其中的評(píng)價(jià)短語包含了“有點(diǎn)”和“還”等特定的修飾詞或“一般”等特定的評(píng)價(jià)詞,這些特定的詞與評(píng)價(jià)短語中的其它詞或不同的評(píng)價(jià)對(duì)象進(jìn)行搭配之后,表現(xiàn)的情感傾向?yàn)橹行?。?duì)評(píng)價(jià)搭配中這些特定詞進(jìn)行單獨(dú)考慮有利于提高情感分類效果。為方便敘述起見,本文將選取的極性評(píng)價(jià)詞及修飾詞統(tǒng)稱為情感詞匯。通過人工選取少量情感傾向與評(píng)價(jià)對(duì)象無關(guān)的正向、中性、負(fù)向情感詞組成情感詞匯,并根據(jù)以下策略判斷評(píng)價(jià)搭配的情感傾向:正向和負(fù)向情感詞與評(píng)價(jià)搭配中完整的評(píng)價(jià)短語進(jìn)行完全匹配,如評(píng)價(jià)搭配<運(yùn)行,流暢>可匹配為正向情感;對(duì)于情感詞匯中的中性修飾詞,則只需要情感詞匹配部分評(píng)價(jià)短語即可,如評(píng)價(jià)搭配<外表,還不錯(cuò)>和<性能,還可以>,它們的評(píng)價(jià)短語中有部分詞能夠成功匹配情感詞匯中的中性修飾詞“還”,因而傾向性判定為中性。本文的部分情感詞匯見表1。

表1 部分情感詞匯

2.2 融入互信息的情感分類方法

對(duì)沒有成功匹配2.1.2節(jié)中情感詞匯的評(píng)價(jià)搭配,本文使用Word2Vec對(duì)其進(jìn)行詞向量表示,然后利用傳統(tǒng)機(jī)器學(xué)習(xí)分類方法計(jì)算評(píng)價(jià)搭配屬于各類別的概率,并通過計(jì)算每個(gè)詞的互信息得到評(píng)價(jià)短語的總互信息,利用總互信息中各類別的占比對(duì)基礎(chǔ)的機(jī)器學(xué)習(xí)分類器得到的各類別分類概率進(jìn)行加權(quán),然后選擇加權(quán)后概率最大的類別作為該評(píng)價(jià)搭配的情感類別。

2.2.1 基礎(chǔ)的機(jī)器學(xué)習(xí)分類器

傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法中,邏輯回歸(LR)和支持向量機(jī)(SVM)分類器主要用于二分類,對(duì)于三分類問題通常需要使用一對(duì)一或一對(duì)多的方法對(duì)其進(jìn)行改進(jìn),但這兩種分類器在本文的測(cè)試數(shù)據(jù)中分類效果并不理想,沒有正確判斷情感傾向的評(píng)價(jià)搭配分別占總測(cè)試數(shù)據(jù)的16.51%和20.41%;而樸素貝葉斯(NB)分類器對(duì)測(cè)試數(shù)據(jù)分類錯(cuò)誤的比例達(dá)到23.93%。

特別地,K-最鄰近法(KNN)分類器在分類過程中選擇最近的K個(gè)樣本中投票最多的類別作為待預(yù)測(cè)樣本所屬類別的決策結(jié)果,在處理二分類問題時(shí)只要將K值選取為奇數(shù)就能保證其中一個(gè)類別的投票數(shù)多于另一個(gè)類別,從而達(dá)到分類目的,但在處理本文的三分類問題時(shí),可能存在某兩個(gè)或3個(gè)類別投票數(shù)相等的情況,這種情況下KNN分類器往往將第一個(gè)出現(xiàn)的類別作為決策結(jié)果,以至于對(duì)分類效果產(chǎn)生影響。通過分析結(jié)果得知,KNN中由于投票數(shù)相等導(dǎo)致的錯(cuò)誤占所有分類錯(cuò)誤的15.07%,而在測(cè)試數(shù)據(jù)中所有的出現(xiàn)兩個(gè)類別投票數(shù)相等的評(píng)價(jià)搭配中,以第一個(gè)出現(xiàn)的類別作為決策結(jié)果導(dǎo)致分類錯(cuò)誤的占47.83%,接近50%的隨機(jī)選擇結(jié)果。

本文將KNN分類器中各類別投票數(shù)占K值的比例作為該類別的分類概率,例如K值選取為5時(shí)對(duì)評(píng)價(jià)搭配<電池,不怎么好>和<包裝,太簡(jiǎn)單>進(jìn)行所屬類別預(yù)測(cè),得到的各類別分類概率見表2。

表2 KNN的分類概率

從表2中可以看出,KNN分類器將評(píng)價(jià)搭配<電池,不怎么好>的情感傾向預(yù)測(cè)為中性和負(fù)向的可能性相同,將評(píng)價(jià)搭配<包裝,太簡(jiǎn)單>的情感傾向預(yù)測(cè)為正向和負(fù)向的概率也相等,這種在兩個(gè)分類概率相同的類別中隨機(jī)選擇的情況必然會(huì)在一定程度上影響到分類結(jié)果的準(zhǔn)確性。因此,需要進(jìn)一步對(duì)基礎(chǔ)分類器的分類概率進(jìn)行一定的權(quán)重計(jì)算,以提升分類效果。

2.2.2 融入互信息的機(jī)器學(xué)習(xí)分類器

一方面,三分類過程中,LR、SVM、NB等分類器分類效果有待提高;另一方面,KNN分類器出現(xiàn)某兩個(gè)或3個(gè)類別的分類概率相等而進(jìn)行隨機(jī)選擇會(huì)導(dǎo)致分類效果降低。針對(duì)這些問題,本文將互信息中各類別的占比作為機(jī)器學(xué)習(xí)分類概率的權(quán)重進(jìn)行情感分類。首先利用哈爾濱工業(yè)大學(xué)研發(fā)的語言技術(shù)平臺(tái)(LTP)的分詞模塊對(duì)評(píng)價(jià)對(duì)象和評(píng)價(jià)短語進(jìn)行分詞處理,然后根據(jù)式(1)對(duì)評(píng)價(jià)短語中的每個(gè)詞分別計(jì)算其與正向、中性和負(fù)向3個(gè)類別的互信息,然后通過式(2)得到整個(gè)評(píng)價(jià)短語分別對(duì)3個(gè)類別的總互信息。特別地,其中互信息值的負(fù)數(shù)本文將其設(shè)置為0

(2)

式中:評(píng)價(jià)短語s表示為 {w1,w2,…,wn},類別集合為C={-1,0,1}。 對(duì)于輸入的測(cè)試數(shù)據(jù),首先通過機(jī)器學(xué)習(xí)分類器得到該評(píng)價(jià)搭配分別屬于正向、中性和負(fù)向的概率集合P={p1,p2,p3},然后根據(jù)評(píng)價(jià)短語的總互信息中各類別的占比分別對(duì)基礎(chǔ)分類器得到的概率進(jìn)行加權(quán),如式(3)所示,最后選擇加權(quán)計(jì)算之后概率最大的類別作為該評(píng)價(jià)搭配的情感傾向分類結(jié)果

(3)

式中:pi表示基礎(chǔ)分類器預(yù)測(cè)評(píng)價(jià)搭配屬于類別ci的概率值,MI(s,ci) 表示評(píng)價(jià)短語s對(duì)于類別ci的總互信息,若3個(gè)類別的總互信息都為0,則將3個(gè)類別的權(quán)重都分配為1,否則根據(jù)總互信息中各類別的占比進(jìn)行權(quán)重分配。以KNN分類器為例,其加權(quán)前后的概率見表3。

表3 互信息加權(quán)前后的概率值

2.3 本文的情感分類算法

本文方法的完整算法如下:

輸入:測(cè)試評(píng)價(jià)搭配集合D={d1,d2,…,dn};

輸出:各評(píng)價(jià)搭配所屬情感類別的集合R={r1,r2,…,rn},其中ri的取值為正向、中性或負(fù)向;

步驟1 構(gòu)建情感詞匯集合E;

步驟2 計(jì)算訓(xùn)練集中評(píng)價(jià)短語的每個(gè)詞分別對(duì)于3個(gè)類別的互信息MI(w)={MI(w,c1),MI(w,c2),MI(w,c3)},得到所有詞的互信息M={MI(w1),MI(w2),…,MI(wm)};

步驟3 若評(píng)價(jià)搭配能夠匹配情感詞匯E,則直接判斷評(píng)價(jià)搭配的情感傾向,否則進(jìn)入步驟4;

步驟4 將Word2Vec訓(xùn)練得到的評(píng)價(jià)搭配詞向量輸入到LR、SVM、NB和KNN等基礎(chǔ)機(jī)器學(xué)習(xí)分類器中進(jìn)行分類,得到評(píng)價(jià)搭配分別屬于3個(gè)類別的概率集合P={p1,p2,p3},根據(jù)集合M和式(2)得到評(píng)價(jià)搭配中評(píng)價(jià)短語s對(duì)各類別的總互信息集合MI={MI(s,c1),MI(s,c2),MI(s,c3)},利用式(3)對(duì)集合P中的分類概率進(jìn)行加權(quán),選取加權(quán)后概率最大的類別作為情感傾向類別,加入到R集合中;

步驟5 對(duì)每個(gè)評(píng)價(jià)搭配進(jìn)行步驟3和步驟4,直到測(cè)試數(shù)據(jù)全部處理完。

3 實(shí)驗(yàn)結(jié)果

3.1 實(shí)驗(yàn)設(shè)置及評(píng)價(jià)標(biāo)準(zhǔn)

3.1.1 實(shí)驗(yàn)數(shù)據(jù)

本文的實(shí)驗(yàn)數(shù)據(jù)集為自行爬取的3000條京東商城手機(jī)評(píng)論數(shù)據(jù),利用gensim工具包中的Word2Vec模型使用默認(rèn)參數(shù)對(duì)所有的評(píng)論數(shù)據(jù)進(jìn)行訓(xùn)練得到100維的詞向量。對(duì)其中的1027條評(píng)論中進(jìn)行人工標(biāo)注得到1800個(gè)評(píng)價(jià)搭配及其情感傾向,其中正向評(píng)價(jià)搭配682個(gè),中性評(píng)價(jià)搭配500個(gè),負(fù)向評(píng)價(jià)搭配618個(gè)。使用scikit-learn工具包中的LR、SVM、NB和KNN等作為基礎(chǔ)的機(jī)器學(xué)習(xí)分類器,選取70%已有標(biāo)注的評(píng)價(jià)搭配作為訓(xùn)練集,剩下的30%作為測(cè)試集。

3.1.2 評(píng)價(jià)標(biāo)準(zhǔn)

本文分別對(duì)正向、中性和負(fù)向情感的分類結(jié)果進(jìn)行準(zhǔn)確率、召回率和F1值計(jì)算,然后對(duì)3個(gè)類別分別計(jì)算宏平均值和微平均值作為分類器整體性能的評(píng)價(jià)標(biāo)準(zhǔn)。

3.2 對(duì)比實(shí)驗(yàn)

為了驗(yàn)證本文提出的針對(duì)評(píng)價(jià)搭配情感分類方法的有效性,選取了4種基礎(chǔ)的機(jī)器學(xué)習(xí)分類器作為對(duì)比實(shí)驗(yàn),將其直接對(duì)已有標(biāo)注的評(píng)價(jià)搭配進(jìn)行訓(xùn)練得到分類模型,包括LR、SVM、NB和KNN等分類器,其中KNN分類器的K值選取為5時(shí)的分類效果最好。

3.3 實(shí)驗(yàn)結(jié)果與分析

3.3.1 實(shí)驗(yàn)結(jié)果

本文實(shí)驗(yàn)所得到的正向、中性和負(fù)向情感分類的準(zhǔn)確率、召回率和F1值的實(shí)驗(yàn)結(jié)果分別見表4~表6,整體分類效果的宏平均值和微平均值見表7。其中,LR、SVM、NB、KNN分別代表4個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)分類方法,“LR(EL&MI)”分類方法則表示本文方法以“LR”作為機(jī)器學(xué)習(xí)分類器,在此基礎(chǔ)上結(jié)合了情感詞匯與互信息(簡(jiǎn)稱 EL&MI)而得到的方法,其它分類方法的表示類似。

3.3.2 實(shí)驗(yàn)分析

從表7的實(shí)驗(yàn)結(jié)果可以看出,對(duì)3類別情感分類問題,本文提出的方法和4種傳統(tǒng)機(jī)器學(xué)習(xí)方法相比較,宏平均值和微平均值都取得了較好的提升效果,其中最高的宏平均值和微平均值分別達(dá)到89.27%和89.61%。

表4 正向情感的分類結(jié)果

表5 中性情感的分類結(jié)果

表6 負(fù)向情感的分類結(jié)果

表7 宏平均值與微平均值實(shí)驗(yàn)結(jié)果

從表5的實(shí)驗(yàn)結(jié)果可以明顯發(fā)現(xiàn),4種基礎(chǔ)的機(jī)器學(xué)習(xí)分類器對(duì)中性情感的分類效果都不太好,其中SVM分類器的召回率只有50%,NB分類器的準(zhǔn)確率和F1值分別只有66.41%和61.15%,這個(gè)結(jié)果也驗(yàn)證了本文1.1節(jié)中提到的中性情感的判斷與正向、負(fù)向樣情感的區(qū)分度不夠明顯;而利用本文提出方法,SVM(EL&MI)分類器的準(zhǔn)確率略有降低,但召回率提升了32.67%,F(xiàn)1值提升了19.7%,NB(EL&MI)分類器的準(zhǔn)確率、召回率和F1值分別提升了13.98%、25.33%和20.02%,另外LR(EL&MI)和KNN(EL&MI)分類器的F1值分別提高了10.5%和7.74%。這個(gè)實(shí)驗(yàn)結(jié)果充分驗(yàn)證了本文所提出的方法對(duì)中性情感分類有顯著的提升效果。

從表4和表6的實(shí)驗(yàn)結(jié)果能夠看出,基礎(chǔ)的機(jī)器學(xué)習(xí)分類器對(duì)正向和負(fù)向情感的分類結(jié)果都好于表5的中性情感分類結(jié)果。而基于4種分類器的本文方法則對(duì)正向情感分類的F1值分別提高了3.33%、7.8%、9.06%和3.25%,且都達(dá)到90%以上,說明了本文方法對(duì)正向情感分類的有效性;負(fù)向情感的實(shí)驗(yàn)結(jié)果中,除了KNN(EL&MI)分類器的F1值幾乎保持不變外,LR(EL&MI)、SVM(EL&MI)、NB(EL&MI)等其它3個(gè)分類器的F1值分別提高了1.22%、3.65和3.01%,這也表明了本文方法對(duì)負(fù)向情感分類的有效性。

為了驗(yàn)證本文提出的情感詞匯和利用互信息對(duì)基礎(chǔ)分類器的分類概率進(jìn)行加權(quán)的這兩種方法各自的有效性,本文選取4種基礎(chǔ)機(jī)器學(xué)習(xí)分類器中取得最好效果的KNN分類器來另外設(shè)計(jì)了兩組對(duì)比實(shí)驗(yàn):只加入情感詞匯(簡(jiǎn)稱EL)和只加入互信息進(jìn)行加權(quán)(簡(jiǎn)稱MI),其實(shí)驗(yàn)結(jié)果見表8。

表8 KNN上分別加入EL和MI的分類結(jié)果

從表8中的實(shí)驗(yàn)結(jié)果可以看出,3種改進(jìn)方法都提升了正向和中性情感的分類效果,加入情感詞匯的方法KNN(EL)使負(fù)向情感分類的F1值提高了0.93%;方法KNN(EL)和KNN(MI)與KNN相比,在宏平均值上分別提升了1.9%和2.05%,而同時(shí)加入EL和MI之后,KNN(EL&MI)的宏平均值相比于KNN提高了3.66%,微平均值提高了3.15%。以上結(jié)果表明了本文方法對(duì)提升評(píng)價(jià)搭配情感分類性能的有效性。

4 結(jié)束語

本文提出一種基于情感詞匯與機(jī)器學(xué)習(xí)的方法進(jìn)行方面級(jí)情感分類,首先通過選取少量情感傾向不受評(píng)價(jià)對(duì)象影響的正向、中性和負(fù)向情感詞匯,對(duì)于匹配到情感詞匯的評(píng)價(jià)短語直接判斷情感傾向,否則通過計(jì)算每個(gè)詞的互信息得到評(píng)價(jià)短語的總互信息,然后利用總互信息值中各類別的占比來對(duì)基礎(chǔ)的機(jī)器學(xué)習(xí)分類器得到的各類別分類概率進(jìn)行加權(quán),再選擇加權(quán)后概率最大的類別作為該評(píng)價(jià)搭配的情感傾向,以此得到評(píng)論語句中每個(gè)評(píng)價(jià)搭配的情感類別,實(shí)驗(yàn)結(jié)果表明了本文方法的有效性。

近年來,深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺、自然語言處理等諸多領(lǐng)域內(nèi)不斷取得新的進(jìn)展,越來越多的研究者開始應(yīng)用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)、門限神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制等深度學(xué)習(xí)方法來構(gòu)建方面級(jí)情感分類模型。因此,下一步工作中,將考慮利用更多的評(píng)價(jià)搭配上下文信息以及情感知識(shí),構(gòu)建深度學(xué)習(xí)模型來進(jìn)一步提升方面級(jí)情感分類性能。

猜你喜歡
互信息中性類別
英文的中性TA
高橋愛中性風(fēng)格小配飾讓自然相連
FREAKISH WATCH極簡(jiǎn)中性腕表設(shè)計(jì)
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
聯(lián)合互信息水下目標(biāo)特征選擇算法
服務(wù)類別
改進(jìn)的互信息最小化非線性盲源分離算法
基于增量式互信息的圖像快速匹配方法
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
一株中性內(nèi)切纖維素酶產(chǎn)生菌的分離及鑒定
永州市| 新建县| 长宁县| 揭阳市| 宜良县| 惠安县| 睢宁县| 潼关县| 宝清县| 株洲市| 兴义市| 鄯善县| 多伦县| 呼和浩特市| 棋牌| 绥化市| 怀集县| 德庆县| 荣昌县| 横山县| 贵州省| 永川市| 永春县| 宁夏| 视频| 枣强县| 册亨县| 清水河县| 永顺县| 二连浩特市| 杭锦旗| 凤冈县| 饶阳县| 平邑县| 玛多县| 邓州市| 伽师县| 睢宁县| 巴马| 江川县| 合山市|