国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主題模型的微博評(píng)論方面觀點(diǎn)褒貶態(tài)度挖掘

2019-08-05 07:41:58張士兵任福繼張曉格
中文信息學(xué)報(bào) 2019年6期
關(guān)鍵詞:表情符號(hào)原創(chuàng)態(tài)度

張 茜, 張士兵, 任福繼, 張曉格,2

(1. 南通大學(xué) 電子信息學(xué)院,江蘇 南通226019;2. 南通先進(jìn)通信技術(shù)研究院有限公司,江蘇 南通 226019;3. 德島大學(xué) 工程學(xué)院,日本 德島 7700855)

0 引言

微博2.0是最受歡迎的應(yīng)用之一,它給予用戶更自由、更快捷的方式來溝通信息、表達(dá)觀點(diǎn)、記錄心情。這種140字左右的文字更新信息為公開可用的文本提供了豐富的資源。因此,很多對(duì)中文文本情感分析的研究都是基于微博平臺(tái)展開的[1-3]。新浪微博中的原創(chuàng)微博下存在著用戶評(píng)論,對(duì)這些評(píng)論進(jìn)行褒貶態(tài)度的挖掘能幫助用戶快速了解評(píng)論用戶對(duì)原創(chuàng)微博內(nèi)容的認(rèn)可程度,對(duì)評(píng)論進(jìn)行方面觀點(diǎn)的提取可以為用戶提供細(xì)粒度的信息。

微博情感分析的方法按照學(xué)習(xí)方法的不同可以分為監(jiān)督學(xué)習(xí)方法、半監(jiān)督學(xué)習(xí)方法與無監(jiān)督學(xué)習(xí)方法。近年來,以LDA(Lateut Dirichlet Allocation)為基礎(chǔ)的主題情感模型能有效地避免傳統(tǒng)無監(jiān)督學(xué)習(xí)方法依賴情感詞典的缺點(diǎn),達(dá)到較好的情感識(shí)別效果[4-7]。然而,直接對(duì)原創(chuàng)微博下的用戶評(píng)論進(jìn)行情感極性分析,并不能完全反映用戶對(duì)原創(chuàng)微博的褒貶態(tài)度。因?yàn)橛行┰u(píng)論針對(duì)原創(chuàng)微博,有些評(píng)論是用戶閱讀原創(chuàng)微博后有感而發(fā)表達(dá)的與原創(chuàng)無關(guān)的評(píng)論?,F(xiàn)舉例說明:

例1:原創(chuàng)微博內(nèi)容有關(guān)全國政協(xié)委員白巖松,提案中呼吁要多關(guān)注“非名?!钡膶W(xué)生。讓他憂心的是,“這些非名校的學(xué)生絕對(duì)是中國未來建設(shè)的基石。但他們大學(xué)四年就在不自信、自卑、迷茫,甚至混日子中度過”。

用戶1: 字字珠璣!醍醐灌頂[good]

用戶2: 工人農(nóng)民都是建設(shè)國家的基石!!

用戶3: 本科還好啦,??瞥鋈ジ徽腥舜姟二哈][二哈][二哈]

用戶1的評(píng)論內(nèi)容很容易看出,該評(píng)論針對(duì)原創(chuàng)微博本身。而用戶2與用戶3的評(píng)論都屬于與原創(chuàng)無關(guān)的評(píng)論,它們沒有表明對(duì)提案的態(tài)度傾向。用戶2感慨工人農(nóng)民對(duì)于國家建設(shè)都很重要,用戶3則敘述其認(rèn)為的??粕舐毈F(xiàn)狀。

由例1我們可以看出,只是分析情感極性而忽略評(píng)論對(duì)象,會(huì)影響評(píng)論集褒貶態(tài)度分類結(jié)果的準(zhǔn)確率。其次,用戶在發(fā)表評(píng)論時(shí),會(huì)選擇表情符號(hào)表達(dá)感情或是強(qiáng)調(diào)補(bǔ)充文字所表達(dá)的情感傾向,其中表情符號(hào)蘊(yùn)含了大量的情感信息[8],若將其作為噪聲去除,有可能會(huì)產(chǎn)生情感極性的誤判。

針對(duì)上述問題,我們提出了微博評(píng)論方面觀點(diǎn)褒貶態(tài)度挖掘方法。首先,提出通過三個(gè)相似度方法計(jì)算每條評(píng)論與原創(chuàng)微博的相關(guān)度,識(shí)別出與原創(chuàng)微博內(nèi)容無關(guān)的評(píng)論;其次,提出用融入了表情符號(hào)情感層與文本情感層的主題模型,實(shí)現(xiàn)微博評(píng)論方面觀點(diǎn)與褒貶態(tài)度的同步推導(dǎo)。實(shí)驗(yàn)表明,表情符號(hào)情感層的融入能提高模型的褒貶態(tài)度識(shí)別能力。

1 相關(guān)工作

隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)評(píng)論信息的日益增長,觀點(diǎn)挖掘技術(shù)逐漸成為數(shù)據(jù)挖掘技術(shù)中重要的一部分[9-10]。方面、持有者、觀點(diǎn)內(nèi)容及情感是組成觀點(diǎn)的四個(gè)元素[11]。Hu等[12]提出了通過關(guān)聯(lián)挖掘,提取高頻名詞及名詞短語作為意見目標(biāo)的方法。Zhou等[13]提出CMiner系統(tǒng)用于實(shí)現(xiàn)方面提取到觀點(diǎn)總結(jié),他們首次將CMiner系統(tǒng)用于微博話題評(píng)論數(shù)據(jù)。

近年來,以LDA主題模型[14]為基礎(chǔ)的方面觀點(diǎn)挖掘的方法逐漸受到關(guān)注。在這些方法中,方面和觀點(diǎn)詞被建模為主題。Titov等[15]通過拓展標(biāo)準(zhǔn)主題建模方法來歸納多粒度主題。他們表明當(dāng)局部主題可以發(fā)現(xiàn)方面時(shí),全局主題可以發(fā)現(xiàn)實(shí)體。李晨曦等[16]考慮到文本屬于不同類別的隱含信息,基于LDA主題模型建立了“類別—文檔—主題—單詞”四層結(jié)構(gòu)的新模型,用于提取多類型文檔的觀點(diǎn)信息。

微博的表情符號(hào)通常反映用戶的心情,蘊(yùn)含情感信息。謝麗星[17]指出表情符號(hào)在微博文本中以“[(.*?)]”的正則表達(dá)式出現(xiàn)。Zhang等[18]建立了一個(gè)加權(quán)網(wǎng)絡(luò)分析微博的情感,該網(wǎng)絡(luò)中表情符號(hào)為節(jié)點(diǎn),互信息關(guān)聯(lián)系度為邊的權(quán)重值。黃發(fā)良等[8]提出了一個(gè)基于多特征融合的微博主題情感挖掘模型TSMF(Topic Sentiment Model Based on Multi-feature Fusion)。該模型將情感表情符號(hào)與微博用戶性格情緒特征納入到圖模型LDA中,實(shí)現(xiàn)微博主題與情感的同步推導(dǎo)。

本文基于主題模型對(duì)原創(chuàng)微博下的評(píng)論進(jìn)行細(xì)粒度信息分析。我們將原創(chuàng)微博內(nèi)容與評(píng)論中的名詞及名詞短語作為每條評(píng)論的方面,其他詞語作為觀點(diǎn)詞語,來研究微博評(píng)論方面觀點(diǎn)提取的問題。如:“酸奶和養(yǎng)樂多是最好的選擇”這句評(píng)論中“酸奶”、“養(yǎng)樂多”是這條評(píng)論語句的方面信息,“最好”“選擇”是該條評(píng)論語句的觀點(diǎn)信息。我們首先計(jì)算語句之間方面的相關(guān)度,識(shí)別出評(píng)論對(duì)象與原創(chuàng)無關(guān)的評(píng)論;其次,我們使用JAOES(Joint Aspect-Based Opinion and Emoticon-Sentiment)模型實(shí)現(xiàn)評(píng)論集方面觀點(diǎn)和褒貶態(tài)度的同步推導(dǎo)。

2 方面觀點(diǎn)褒貶態(tài)度挖掘方法

本節(jié)首先介紹與原創(chuàng)微博內(nèi)容無關(guān)評(píng)論的判別方法,然后詳細(xì)介紹我們提出的微博評(píng)論褒貶態(tài)度挖掘算法。

2.1 與原創(chuàng)無關(guān)的評(píng)論判別

新浪微博原創(chuàng)微博下存在著很多評(píng)論,有些評(píng)論內(nèi)容是針對(duì)原創(chuàng)微博內(nèi)容本身,帶有褒貶態(tài)度傾向;有些評(píng)論則是用戶閱讀完原創(chuàng)微博內(nèi)容后有感而發(fā)寫下的,評(píng)論對(duì)象與原創(chuàng)微博內(nèi)容無關(guān)。因此,我們提出與原創(chuàng)無關(guān)的評(píng)論判別方法,通過計(jì)算原創(chuàng)微博與評(píng)論之間的相關(guān)度,識(shí)別與其無關(guān)的評(píng)論。

字符串相似度考慮的是同時(shí)出現(xiàn)在兩個(gè)方面當(dāng)中的漢字的個(gè)數(shù)。例如,“白巖松委員”,“白老師”和“白巖松”都是同一個(gè)評(píng)論對(duì)象,它們都擁有漢字“白”。通常用杰卡德相似性系數(shù)去度量短語AO1與AO2之間的字符串相似度,如式(1)所示。

(1)

其中,A(·)表示一個(gè)方面包含的漢字集。

(2)

為了得到兩個(gè)方面之間的語義相似度,我們使用Word2Vec訓(xùn)練詞向量?;谟?xùn)練好的詞向量模型,計(jì)算兩個(gè)方面之間相似度的值,從而判斷它們之間的關(guān)聯(lián)程度。如:“桃子”與“草莓”之間的相似度的值會(huì)遠(yuǎn)遠(yuǎn)大于“桃子”與“手機(jī)”之間相似度的值。

我們計(jì)算原創(chuàng)微博方面與每條評(píng)論語句方面之間的字符串相似度和語義相似度;計(jì)算每條評(píng)論觀點(diǎn)詞語與原創(chuàng)微博觀點(diǎn)詞語之間的情景相似度。將上述方法得到的三個(gè)相似度值進(jìn)行累加并歸一化,作為每條評(píng)論與原創(chuàng)微博的相關(guān)度。若相關(guān)度小于0.5,則認(rèn)為該評(píng)論是與原創(chuàng)內(nèi)容無關(guān)的評(píng)論。這個(gè)閾值是通過大量的實(shí)驗(yàn)而決定,可以使得與原創(chuàng)無關(guān)的評(píng)論的判別準(zhǔn)確率達(dá)到最優(yōu)。如果評(píng)論中不存在方面,則默認(rèn)評(píng)論對(duì)象存在于原創(chuàng)微博中。

2.2 褒貶態(tài)度挖掘

LDA“文檔—主題—單詞”三層貝葉斯主題模型,是無監(jiān)督學(xué)習(xí)算法,是典型的詞袋模型。LDA模型在訓(xùn)練數(shù)據(jù)時(shí)不需要手工標(biāo)注訓(xùn)練集,只需要文檔集以及指定主題的數(shù)目。在文本主題識(shí)別、文本分類的研究中廣為使用。

本文基于LDA主題模型,提出融入表情符號(hào)情感層與文本情感層的新模型JAOES (joint aspect-based opinion and emoticon-sentiment)(圖1所示,符號(hào)說明見表1),JAOES模型可以實(shí)現(xiàn)方面觀點(diǎn)和褒貶態(tài)度的同步推理。

圖1 JAOES圖模型

α(評(píng)論,表情符號(hào)情感,文本情感)—方面分布的Dir參數(shù)β(表情符號(hào)情感,文本情感,方面)—詞語分布的Dir參數(shù)λ(評(píng)論,表情符號(hào)情感)—文本情感分布的Dir參數(shù)μ評(píng)論-表情符號(hào)情感分布的Dir參數(shù)A(評(píng)論,表情符號(hào)情感,文本情感)—方面分布B(表情符號(hào)情感,文本情感,方面)—詞語分布V評(píng)論—表情符號(hào)情感分布E(評(píng)論,表情符號(hào)情感)—文本情感分布W評(píng)論中的詞語數(shù)w詞語t方面e文本情感q表情符號(hào)情感Q表情符號(hào)情感數(shù)L文本情感數(shù)T方面數(shù)M微博評(píng)論數(shù)N評(píng)論詞庫的詞語數(shù)

過濾掉人工標(biāo)注的與原創(chuàng)無關(guān)的評(píng)論得到的微博評(píng)論集D={s1,s2,…,sM}。其中,M為微博評(píng)論集D的總數(shù),N為評(píng)論集D的詞庫的詞語數(shù),每一條評(píng)論sm的文本部分是由Wm個(gè)單詞構(gòu)成的。JAOES生成評(píng)論集D的過程大致如下:首先,某條評(píng)論以一定的概率從評(píng)論—表情符號(hào)情感分布中選擇表情符號(hào)情感q,V服從參數(shù)為μ的Dirichlet分布;其次從(評(píng)論,表情符號(hào)情感)—文本情感分布中選擇文本情感e,E服從參數(shù)為λ的Dirichlet分布;根據(jù)(評(píng)論,表情符號(hào)情感,文本情感)—方面分布選出方面t,A服從參數(shù)為α的Dirichlet分布;最后,從(表情符號(hào)情感,文本情感,方面)—詞語分布選出詞語w,B服從參數(shù)為β的Dirichlet分布。算法1為該過程的形式化描述。

算法1微博評(píng)論集D的生成過程

for eachq∈{1, 2, …,Q}

for eache∈{1, 2, …,L}

for eacht∈{1, 2, …,T}

for eachw∈{1, 2, …,N}

chooseBq,e,t,w~Dir(β)

for each microblogm∈{1, 2, …,M}

for eachq∈{1, 2, …,Q}

chooseVm, q~Dir(μ)

for eache∈{1, 2, …,L}

chooseEm, q,e~Dir(λ)

for eacht∈{1, 2, …,T}

chooseAm, q,e,t~Dir(α)

for each wordwin microblog commentsm:

chooseq~(Vm)

choosee~(Em,q)

chooset~(Am,q,e)

choosew~(Bq,e,t)

2.2.1 模型推理

JAOES模型的推導(dǎo)采用Gibbs 采樣的方法,計(jì)算參數(shù)分布A,B,V與E。Gibbs 采樣是統(tǒng)計(jì)學(xué)中用于馬爾科夫蒙特卡洛(MCMC)的一種算法,它可以通過迭代采樣的方式對(duì)復(fù)雜的概率分布進(jìn)行推導(dǎo)[3]。詞語w、表情符號(hào)情感q、文本情感e與方面t的聯(lián)合分布P(w,t,e,q)如式(3)所示。

P(w,t,e,q)=P(w|t,e,q)P(t|e,q)P(e|q)P(q)

(3)

分別對(duì)分布B、A、E和V進(jìn)行積分得到式(3)各因子的推導(dǎo)公式,如式(4)~式(7)所示。

(4)

其中,nq,e,t,w表示詞語w同時(shí)屬于表情符號(hào)情感q、文本情感e、方面t的頻數(shù),nq,e,t表示所有同時(shí)屬于表情符號(hào)情感q、文本情感e、方面t的詞語的總頻數(shù)。Γ(*)為伽馬函數(shù)。

(5)

其中,nm,q,e,t表示第m句微博評(píng)論中,方面為t的詞語 同時(shí)屬于表情符號(hào)情感q、文本情感e的頻數(shù),nm,q,e表示第m句微博評(píng)論中,屬于表情符號(hào)情感q、文本情感e的詞語的總頻數(shù)。

(6)

其中,nm,q,e表示第m句微博評(píng)論中,文本情感為e的詞語屬于表情符號(hào)情感q的頻數(shù),nm,q表示第m句微博評(píng)論中,屬于表情符號(hào)情感q的詞語的總頻數(shù)。

(7)

其中,nm,q表示第m句微博評(píng)論中屬于表情符號(hào)情感q的詞語的頻數(shù),nm表示第m句微博評(píng)論總詞語數(shù)。

由上述聯(lián)合概率可以進(jìn)一步得到評(píng)論集方面觀點(diǎn)褒貶態(tài)度的后驗(yàn)分布,如式(8)所示。

(8)

分布V,E,A,B可形式化為式(9)~式(12)。

(9)

(10)

(11)

(12)

2.2.2 JAOES模型的先驗(yàn)

為了提升JAOES模型情感學(xué)習(xí)能力,在初始階段賦予微博評(píng)論詞庫里的每一個(gè)詞語情感極性。同時(shí)對(duì)每個(gè)詞語的表情符號(hào)情感進(jìn)行定義。

(1) 詞語情感先驗(yàn)

本文結(jié)合HowNet的正面/負(fù)面情感詞語、正面/負(fù)面評(píng)價(jià)詞語與NTUSD的正面/負(fù)面情感詞語,得到正面情感詞語語料庫與負(fù)面情感詞語語料庫。微博的論題開放的功能使得微博數(shù)據(jù)集的方面觀點(diǎn)跨領(lǐng)域性極強(qiáng),經(jīng)常會(huì)出現(xiàn)一些新的情感詞。文獻(xiàn)[19]提出潛在情感詞的自動(dòng)挖掘并計(jì)算其極性權(quán)重的算法。該方法利用共現(xiàn)特性,基于樸素貝葉斯公式計(jì)算未知情感詞語的情感權(quán)重值的大小并判斷其極性。該算法與應(yīng)用領(lǐng)域無關(guān),拓展性良好。對(duì)于評(píng)論詞庫中的每一個(gè)詞語,如果它存在于語料庫中,則直接賦予相應(yīng)的情感值。否則,采用上述方法對(duì)詞語進(jìn)行情感賦值。

(2) 表情符號(hào)先驗(yàn)

對(duì)于不帶有表情符號(hào)的語句,它擁有特定的標(biāo)簽且迭代過程中不發(fā)生任何變化?;谥氨砬榉?hào)情感標(biāo)簽的研究結(jié)果[20],我們將情感庫里參與研究的68個(gè)表情符號(hào)的情感分為三類:絕對(duì)積極情感符號(hào)(用來增強(qiáng)語句積極情感的表情符號(hào),例如,[開心])、絕對(duì)消極情感符號(hào)(用來增強(qiáng)語句消極情感的表情符號(hào),例如,[怒])和語境情感符號(hào)(表情符號(hào)的情感極性隨著語句的不同而改變,例如,[微笑])。對(duì)于每一條微博評(píng)論,若包含的表情符號(hào)屬于絕對(duì)積極/絕對(duì)消極情感符號(hào),則直接賦予相應(yīng)的表情符號(hào)情感,且在迭代過程中不會(huì)發(fā)生改變。對(duì)于不存在于情感庫的其他表情符號(hào)與語境情感符號(hào),由模型進(jìn)行隨機(jī)賦值,迭代過程中會(huì)發(fā)生改變。

2.2.3 微博評(píng)論褒貶態(tài)度挖掘算法

通過2.2.1節(jié)推導(dǎo)出求解JAOES模型需要的公式后,利用模型判斷用戶評(píng)論文本情感與表情符號(hào)情感,從而挖掘出每條用戶評(píng)論的褒貶態(tài)度傾向。為了方便敘述,構(gòu)造變量集WC={nm,nm,q,nm,q,e,nm,q,e,t,nq,e,t,w,nq,e,t}。

在進(jìn)行微博評(píng)論時(shí),有些用戶的文字表達(dá)很直接,有些很含蓄,有些則使用反語。若充分考慮表情符號(hào)提供的情感信息可以效提升微博情感分析的能力[21-22]。社會(huì)神經(jīng)系統(tǒng)科學(xué)研究表明[23],人類將表情符號(hào)視為真實(shí)的物理行為進(jìn)行響應(yīng),而不是簡單的將其當(dāng)作一個(gè)符號(hào)。因此,表情符號(hào)帶有的情感極性,能在一定程度上提高我們對(duì)情感判別的準(zhǔn)確性。針對(duì)上述現(xiàn)象,評(píng)論集褒貶態(tài)度挖掘算法包含以下四個(gè)部分。

(1) 數(shù)據(jù)預(yù)處理部分:該部分主要包括微博數(shù)據(jù)的去噪去停用詞與語句的分詞和詞性標(biāo)注,對(duì)詞語的表情符號(hào)情感、文本情感以及方面進(jìn)行初始賦值等。

(2) 對(duì)每條微博評(píng)論中的每個(gè)單詞w,計(jì)算P(qi=q,ei=e,ti=t|q-i,e-i,t-i,w),并且更新變量集WC。重復(fù)上述過程直到達(dá)到最大迭代次數(shù)。

(4) 通過評(píng)論的表情符號(hào)情感與文本情感判別評(píng)論的褒貶態(tài)度。如果存在表情符號(hào),則根據(jù)表情符號(hào)情感判別褒貶態(tài)度,表情符號(hào)情感為消極的評(píng)論為貶義態(tài)度評(píng)論,反之則為褒義態(tài)度評(píng)論;對(duì)于不存在表情符號(hào)的評(píng)論,則按照文本情感進(jìn)行褒貶態(tài)度判別,文本情感為消極則該評(píng)論為貶義態(tài)度評(píng)論,反之則為褒義態(tài)度評(píng)論。

輸入: 微博評(píng)論集D,α,β,μ,λ,Q,L,T;

輸出: 評(píng)論集中每條評(píng)論的褒貶態(tài)度傾向。

1. 微博評(píng)論數(shù)據(jù)預(yù)處理,對(duì)評(píng)論里的每一個(gè)詞語進(jìn)行表情符號(hào)情感,文本情感與方面的初始化;

2. count=1

3. while count <= 1000:

4. for eachsm∈D:

5. for each wordwinsm:

6. 從WC中除去當(dāng)前詞語所屬的表情符號(hào)情感,文本情感與方面;

7. 如果詞語w所在語句不包含表情符號(hào)或是包含的表情符號(hào)情感均為絕對(duì)積極/絕對(duì)消極情感,則詞語的表情符號(hào)情感的賦值不發(fā)生改變;否則,隨即賦予詞語w表情符號(hào)情感。通過公式(8)可以重新賦予詞語w文本情感與方面;

8. 更新變量WC;

9. count=count+1

10. for eachsm∈D:

11. if 存在表情符號(hào):

13.sm為貶義態(tài)度評(píng)論;

14. else:

15.sm為褒義態(tài)度評(píng)論;

16. else:

18.sm為貶義態(tài)度評(píng)論;

19. else:

20.sm為褒義態(tài)度評(píng)論。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

基于微博平臺(tái)的研究大部分是圍繞文本情感分類而展開的,現(xiàn)有的公開微博實(shí)驗(yàn)數(shù)據(jù)集缺少帶有表情符號(hào)的評(píng)論用戶的褒貶態(tài)度傾向數(shù)據(jù),因此無法滿足本文實(shí)驗(yàn)要求。因此,我們通過新浪微博API接口編寫網(wǎng)絡(luò)爬蟲構(gòu)造數(shù)據(jù)集。對(duì)于采集到的數(shù)據(jù)集,進(jìn)行如下預(yù)處理:1)微博評(píng)論中存在“@回復(fù)”形式的評(píng)論?為評(píng)論用戶之間的互動(dòng)評(píng)論,此類評(píng)論不屬于本文的研究對(duì)象,因此在預(yù)處理的過程中會(huì)過濾掉。同時(shí),不包含漢字或表情符號(hào)的評(píng)論,漢字長度不超過5個(gè)字符的用戶評(píng)論,都會(huì)進(jìn)行刪除;2)使用中科院的漢語分詞系統(tǒng)對(duì)所有語句進(jìn)行分詞,去除停用詞后保留語句的名詞及名詞短語、形容詞及形容詞短語和動(dòng)詞及動(dòng)詞短語部分。經(jīng)過預(yù)處理后的實(shí)驗(yàn)數(shù)據(jù)包括10組原創(chuàng)微博及其評(píng)論,共有2721條語句。數(shù)據(jù)集包含三類標(biāo)簽:褒義態(tài)度標(biāo)簽、貶義態(tài)度標(biāo)簽和與原創(chuàng)無關(guān)的評(píng)論標(biāo)簽。

3.2 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)由兩個(gè)部分構(gòu)成:第一部分使用準(zhǔn)確率(Accuracy)評(píng)價(jià)2.2.3節(jié)提出的褒貶態(tài)度挖掘算法。設(shè)置JAOES的迭代次數(shù)為1000次,α設(shè)為0.1,β設(shè)為0.01,μ設(shè)為1/Q,λ設(shè)為1/L,方面數(shù)T的值為10。實(shí)驗(yàn)中,將我們提出的方法與baseline方法基于評(píng)論集D進(jìn)行褒貶態(tài)度分類準(zhǔn)確率的比較。baseline方法同樣基于LDA模型實(shí)現(xiàn),從JAOES中去除表情符號(hào)層進(jìn)行訓(xùn)練?;€方法認(rèn)為文本情感極性為消極的評(píng)論為貶義態(tài)度評(píng)論,反之則為褒義態(tài)度評(píng)論;第二部分通過具體實(shí)例從以下兩個(gè)角度分析與原創(chuàng)無關(guān)的評(píng)論判別方法的必要性:1)與原創(chuàng)微博無關(guān)的評(píng)論判別方法對(duì)初始評(píng)論集褒貶態(tài)度分類準(zhǔn)確率的影響; 2)初始評(píng)論集和經(jīng)過與原創(chuàng)無關(guān)的評(píng)論判別方法過濾得到的評(píng)論集方面觀點(diǎn)提取結(jié)果的分析。

3.3 結(jié)果與分析

我們按照實(shí)驗(yàn)設(shè)置的內(nèi)容進(jìn)行實(shí)驗(yàn)并對(duì)結(jié)果進(jìn)行分析。

3.3.1 表情符號(hào)情感層對(duì)褒貶態(tài)度分類準(zhǔn)確率的影響

圖2展示了提出的方法與baseline方法褒貶態(tài)度分類的準(zhǔn)確率。

圖2 褒貶態(tài)度分類的準(zhǔn)確率

從圖2中我們可以看出,融入了表情符號(hào)情感層的JAOES模型褒貶態(tài)度識(shí)別的準(zhǔn)確率優(yōu)于baseline方法。原因有以下幾點(diǎn):1)用戶選擇表情符號(hào)營造出語境氛圍,同一個(gè)語句伴隨不同的表情符號(hào)能表現(xiàn)出不同的情感。因此,表情符號(hào)提供的情感信息更有助于判別評(píng)論的情感極性;2)用戶表達(dá)方式各有不同,當(dāng)某些用戶表達(dá)得委婉含蓄時(shí),增加了情感分類的難度。表情符號(hào)提供的信息更能體現(xiàn)評(píng)論的情感傾向,從而提高了褒貶態(tài)度分類的準(zhǔn)確率。

3.3.2 與原創(chuàng)無關(guān)的評(píng)論判別方法的影響

本節(jié)我們通過一個(gè)具體實(shí)例從兩個(gè)角度分析與原創(chuàng)無關(guān)的評(píng)論判別方法的影響。

例2: 原創(chuàng)微博內(nèi)容是“人大代表?xiàng)钋僭?018兩會(huì)上表示:臨近除夕大家已無心工作,建議春節(jié)假期延長至十天。這個(gè)建議你支持嗎?”該原創(chuàng)微博及其評(píng)論經(jīng)過預(yù)處理后得到357條評(píng)論語句。經(jīng)人工標(biāo)注后對(duì)該建議表示支持的褒義態(tài)度評(píng)論有146句;不支持該建議的貶義態(tài)度評(píng)論有58句;與原創(chuàng)無關(guān)的評(píng)論有153句。也就是說,40.90%的評(píng)論用戶是支持楊琴代表的建議的,16.25%的評(píng)論用戶表示不支持,其他的用戶則是發(fā)表了與原創(chuàng)無關(guān)的評(píng)論,并未表明是否支持該建議。

如果未剔除無與原創(chuàng)微博內(nèi)容無關(guān)的評(píng)論,使用JAOES模型訓(xùn)練后得到的評(píng)論的褒貶態(tài)度傾向結(jié)果如下:265條評(píng)論為褒義態(tài)度傾向,92條評(píng)論為貶義態(tài)度傾向。即:74.23%的評(píng)論用戶支持楊琴代表的建議,25.77%表示反對(duì);通過本文的評(píng)論判定方法識(shí)別出評(píng)論對(duì)象并非原創(chuàng)微博的用戶評(píng)論,再對(duì)其他用戶評(píng)論進(jìn)行褒貶態(tài)度挖掘得到的結(jié)果為:170條褒義態(tài)度傾向評(píng)論,70條貶義態(tài)度傾向評(píng)論。即:47.62%的評(píng)論用戶支持楊琴代表的建議,19.61%的評(píng)論用戶表示反對(duì)。

評(píng)論集中存在與原創(chuàng)無關(guān)的評(píng)論的這個(gè)事實(shí),如果忽略它直接進(jìn)行微博評(píng)論褒貶態(tài)度挖掘,會(huì)影響評(píng)論集的褒貶態(tài)度分類結(jié)果。在例2得到的實(shí)驗(yàn)結(jié)果認(rèn)為,74.23%的評(píng)論用戶是支持楊琴代表的建議的,與實(shí)際情況誤差了30%多;而進(jìn)行了與原創(chuàng)無關(guān)的評(píng)論判別后,再挖掘褒貶態(tài)度傾向的方法得到的結(jié)果認(rèn)為47.62%的評(píng)論用戶支持楊琴代表的建議,這個(gè)結(jié)果更接近于真實(shí)的支持率。

我們?nèi)匀皇褂美?分析初始評(píng)論集和經(jīng)過與原創(chuàng)無關(guān)的評(píng)論判別方法過濾得到的評(píng)論集方面觀點(diǎn)提取結(jié)果。表2展示了使用JAOES模型對(duì)初始評(píng)論集進(jìn)行方面觀點(diǎn)的提取得到的出現(xiàn)概率最高的詞語。

從褒義態(tài)度部分的方面觀點(diǎn)詞中,我們可以看出用戶對(duì)“臨近除夕大家已無心工作,春節(jié)假期延長至十天”這條建議的支持,及希望在擁有假期的同時(shí)不存在調(diào)休情況;貶義態(tài)度部分的方面觀點(diǎn)詞中,大概可以看出用戶覺得正常放假不調(diào)休就足夠了,就算延長假期,放假前還是會(huì)無心工作。表2中的一些方面觀點(diǎn)并不能讓他人明白評(píng)論用戶保持某態(tài)度的原因,尤其是“支持”一詞以高概率出現(xiàn)在貶義態(tài)度部分,更加讓人疑惑。

表2 初始評(píng)論集方面觀點(diǎn)

表3展示了2.1節(jié)提出的與原創(chuàng)無關(guān)的評(píng)論的判定方法后,使用JAOES模型對(duì)評(píng)論集進(jìn)行方面觀點(diǎn)的提取所得到的出現(xiàn)概率最高的詞語。

表3 評(píng)論集方面觀點(diǎn)

與表2得到的初始評(píng)論集方面觀點(diǎn)相比,表3的褒義態(tài)度部分“春運(yùn)”“路程”,“關(guān)系民生”能看出一些用戶支持建議的原因。表3的貶義態(tài)度部分的方面觀點(diǎn)能看出用戶不支持該建議的更多原因:除了上述分析的原因外,有些用戶由于值班的原因,對(duì)假期的長短抱無所謂的態(tài)度; 有些用戶覺得這個(gè)建議聽聽就行,不會(huì)真正被實(shí)施。

通過對(duì)例2的分析,我們可以看出:1)進(jìn)行與原創(chuàng)無關(guān)的評(píng)論判別后的評(píng)論集褒貶態(tài)度分類結(jié)果更接近于真實(shí)情況;2)進(jìn)行了與原創(chuàng)無關(guān)的評(píng)論判定后的評(píng)論集提取的方面觀點(diǎn)更能看出評(píng)論用戶保持某態(tài)度的原因;3)與原創(chuàng)微博相關(guān)度小的評(píng)論不參與方面觀點(diǎn)的判定,因此沒有出現(xiàn)表2中“支持”一詞存在于貶義態(tài)度部分讓人產(chǎn)生疑惑的現(xiàn)象。

對(duì)與原創(chuàng)無關(guān)的評(píng)論集進(jìn)行方面觀點(diǎn)的提取,可以讓用戶了解由原創(chuàng)微博內(nèi)容衍生而出的新的方面觀點(diǎn),這個(gè)結(jié)果為話題的推送等研究提供了豐富的信息。

4 總結(jié)

新浪微博中,原創(chuàng)微博下存在著大量評(píng)論。這些評(píng)論反映原創(chuàng)微博的內(nèi)容,用戶對(duì)原創(chuàng)內(nèi)容的態(tài)度以及與原創(chuàng)內(nèi)容相關(guān)的一些話題,包含了豐富的信息。若忽略評(píng)論對(duì)象,會(huì)影響評(píng)論集褒貶態(tài)度分類結(jié)果的準(zhǔn)確率。因此,我們首先提出與原創(chuàng)無關(guān)的評(píng)論判別方法識(shí)別對(duì)象并非原創(chuàng)微博的用戶評(píng)論;其次,將融入了表情符號(hào)情感層與文本情感層的主題模型,用于實(shí)現(xiàn)微博評(píng)論方面觀點(diǎn)與褒貶態(tài)度的同步推導(dǎo)。實(shí)驗(yàn)表明:表情符號(hào)情感層的融入能提高模型的褒貶態(tài)度識(shí)別能力。

猜你喜歡
表情符號(hào)原創(chuàng)態(tài)度
微信表情符號(hào)寫入判決:你發(fā)的每個(gè)表情都可能成為呈堂證供
2021年本刊原創(chuàng)題(二)
世界表情符號(hào)日
態(tài)度
文苑(2018年20期)2018-11-09 01:36:08
別人對(duì)你的態(tài)度,都是你允許的
文苑(2018年17期)2018-11-09 01:29:32
從題海中來,到原創(chuàng)中去
——記我的原創(chuàng)感悟
夏天好煩 懶也能穿出態(tài)度
Coco薇(2017年8期)2017-08-03 02:19:28
完形填空原創(chuàng)專練
態(tài)度決定一切
這個(gè)表情符號(hào),你用對(duì)了嗎
大作文(2016年7期)2016-05-14 11:13:25
申扎县| 加查县| 灵川县| 石棉县| 建德市| 蒲城县| 安远县| 崇州市| 辽阳市| 桑植县| 大方县| 和硕县| 双辽市| 庆云县| 垦利县| 沈丘县| 自贡市| 黄平县| 马山县| 化州市| 瑞金市| 台中县| 利川市| 宁晋县| 天门市| 朝阳县| 宁南县| 白城市| 尼玛县| 宁德市| 蒲城县| 徐汇区| 井陉县| 将乐县| 丽江市| 藁城市| 浙江省| 沁源县| 清水河县| 嵊泗县| 英吉沙县|