蘇靖楓,婁鑫坡,趙軍民
(河南城建學(xué)院 計(jì)算機(jī)與數(shù)據(jù)科學(xué)學(xué)院,河南 平頂山 467036)
語言學(xué)界往往將詞語的情感傾向稱為詞語的感情色彩,即詞語所附帶表示褒義或貶義態(tài)度的色彩[1-2]。根據(jù)詞語的感情色彩是否具有穩(wěn)定性將情感詞分為2類:一類是情感詞不隨語言環(huán)境而改變,具有比較穩(wěn)定的情感色彩,例如漂亮、善良、丑陋;另一類情感詞會(huì)隨著環(huán)境的不同改變其情感色彩,例如,詞語“驕傲”在“我為祖國(guó)的四大發(fā)明感到驕傲”中表現(xiàn)出了褒義的情感傾向,在“他考了99分就驕傲了”表現(xiàn)出了貶義的情感傾向。再如詞語“高”在“服務(wù)質(zhì)量高、水平高”中呈現(xiàn)了正面的情感傾向,而在“耗油高、價(jià)格高”中呈現(xiàn)了負(fù)面的情感傾向,稱此類詞語為語境情感詞語。
近年來,自然語言處理逐漸成為人工智能的研究熱點(diǎn)[3-4],情感分析又是自然語言處理中的研究重點(diǎn)和難點(diǎn)[5-7],而情感詞語情感傾向性的識(shí)別對(duì)情感分析極其重要。近幾年,有關(guān)文本情感分析方面出現(xiàn)了很多研究成果[8-9],主要是采用規(guī)則與統(tǒng)計(jì)相結(jié)合的方法對(duì)文本進(jìn)行識(shí)別,語言的復(fù)雜性導(dǎo)致其準(zhǔn)確度提升的難度較大。不少研究機(jī)構(gòu)將其研究成果構(gòu)建了情感傾向性詞典,例如HowNet情感分析詞語集[10-11]、同濟(jì)大學(xué)褒貶義情感詞典[12]、大連理工大學(xué)的DUTIR文本傾向性分析知識(shí)庫[13]等。盡管這些詞典給研究者提供了極大的便利,但是這些情感詞典對(duì)于每個(gè)詞語僅僅給出褒義或貶義的情感標(biāo)記,而語境情感詞語的情感色彩往往是由上下文來決定的,只簡(jiǎn)單地給出單個(gè)詞語的情感傾向是無法直接使用的。并且,由于缺乏統(tǒng)一的構(gòu)建標(biāo)準(zhǔn),同一個(gè)詞語在不同的情感詞典中可能會(huì)標(biāo)記不同的感情色彩,如“風(fēng)流”在HowNet中既有褒義又有貶義,而在臺(tái)灣大學(xué)的NTUSD中卻只是貶義。這就會(huì)給情感詞典的使用帶來混亂。因此,將通用情感詞語和語境情感詞語進(jìn)行區(qū)分,構(gòu)建準(zhǔn)確度更高的情感詞典十分必要。
本文將情感詞語的識(shí)別分為兩個(gè)方面:通用情感詞語的識(shí)別和語境情感搭配詞組的識(shí)別。對(duì)于語境情感詞語,研究發(fā)現(xiàn)當(dāng)它們與某些詞語搭配后往往能夠呈現(xiàn)出比較穩(wěn)定的情感傾向。
本文提出了一種基于關(guān)聯(lián)規(guī)則的語境情感搭配詞組的挖掘算法,本算法主要用于語境情感搭配詞組的識(shí)別。首先利用關(guān)聯(lián)規(guī)則中的支持度、置信度和可用度,從語料文本中識(shí)別出與語境情感詞具有搭配關(guān)系的常用詞語組合;然后,綜合利用搭配詞組所在句子以及相鄰句子信息對(duì)其傾向性進(jìn)行分析,進(jìn)而構(gòu)建領(lǐng)域相關(guān)的情感詞語搭配集合。
定義1:設(shè)T={w1,w2,…,wk…,wm}。其中wk表示項(xiàng)集T的數(shù)據(jù)項(xiàng),m表示數(shù)據(jù)項(xiàng)的個(gè)數(shù)。
定義2:P{wi→wj}表示詞wi出現(xiàn)時(shí)wj出現(xiàn)的概率。其中wi,wj?T,且wi∩wj=Φ,wi≠Φ,wj≠Φ。
定義5:如果sup(wi→wj)≥min_sup且conf(wi→wj)≥min_conf,則認(rèn)為wi、wj滿足強(qiáng)關(guān)聯(lián)規(guī)則。
其中:min_sup為最小支持度閾值,min_conf為最小置信度閾值。
從1.1節(jié)定義可知,支持度是關(guān)聯(lián)規(guī)則挖掘[14]重要度的評(píng)價(jià)標(biāo)準(zhǔn),其中支持度越大,表示詞在數(shù)據(jù)項(xiàng)集合中出現(xiàn)的頻率越高,則該詞在數(shù)據(jù)項(xiàng)集合中越具有代表性。置信度是衡量關(guān)聯(lián)規(guī)則準(zhǔn)確度的評(píng)價(jià)準(zhǔn)則,其置信度越大表示其準(zhǔn)確度也越大。對(duì)于關(guān)聯(lián)規(guī)則挖掘,只有支持度和置信度都大時(shí)挖掘出的規(guī)則才有價(jià)值。如果有規(guī)則支持度低但置信度高,說明該規(guī)則出現(xiàn)的概率較小,在數(shù)據(jù)集中不具有代表性。在文本集合上采用規(guī)則挖掘算法,其期望可信度表示后面一個(gè)詞在沒有前面詞作用下的自身支持度。
作用度則表示前面一個(gè)詞對(duì)后面一個(gè)詞的影響力,其作用度越大表示前面一個(gè)詞對(duì)后面一個(gè)詞的影響力就越大。在本文中,認(rèn)為作用度大于1的規(guī)則才是有價(jià)值意義的規(guī)則,說明前面一個(gè)詞對(duì)后面一個(gè)詞有促進(jìn)作用。
在一些具體的話題領(lǐng)域,語境情感詞往往會(huì)有一些常用的語用習(xí)慣,例如在電子產(chǎn)品評(píng)論中,情感詞“大”往往出現(xiàn)在含“屏幕、噪聲、聲音、存儲(chǔ)”等詞語的句子的概率較高,則可以認(rèn)為這些詞語之間存在著關(guān)聯(lián)關(guān)系。因此,本文提出了一種基于關(guān)聯(lián)規(guī)則的語境情感搭配詞組挖掘算法,能夠從產(chǎn)品評(píng)價(jià)語料中挖掘語境情感詞語的常用搭配詞組合。首先將語料中含語境情感詞的語句提取出來,然后計(jì)算其支持度、置信度和作用度,進(jìn)而得到語境情感詞的常用搭配。
基于關(guān)聯(lián)規(guī)則的語境情感搭配詞組識(shí)別算法如下:
輸入:文檔集合T,歧義情感詞表AW
輸出:常用搭配詞表FW
1 for每一個(gè)文本t∈Tdo
2 for 每一個(gè)詞wk∈tido
3 ifwk∈AWdo
4ti→事務(wù)集合TN
5 end if
6 end for
7 end for
8 for 每一個(gè)文本ti∈TNdo
9 計(jì)算sup、conf、lift
10 iflift≥1 andsup≥min_supandconf≥min_conf
11 (wi,wj)→FW
12 do if
13 do for
語境情感詞本身并不具備情感傾向性,但當(dāng)其與某些詞搭配之后往往表現(xiàn)出較強(qiáng)的情感傾向[15-16],本文稱之為“語境情感詞+搭配詞”組合。當(dāng)前,“語境情感詞+搭配詞”組合并沒有情感詞典可供其查詢。因此,要求算法不僅能夠識(shí)別出該組合,同時(shí)也要能夠判斷出該搭配詞組合的情感傾向性。由于“語境情感詞+搭配詞”組合受語境影響較深,往往隨語境的不同表現(xiàn)出差異較大的情感傾向性,即在某些語境中該組合表現(xiàn)為正向的情感傾向性,當(dāng)語境改變時(shí),同樣的搭配詞組合表現(xiàn)為負(fù)向情感傾向性。因此,“語境情感詞+搭配詞”組合需要充分考慮其語境的上下文信息。本文提出的基于“語境情感詞+搭配詞”算法充分考慮該詞組所在句子以及前后句信息來綜合判斷其情感傾向。
通常情況下,人們用語言對(duì)事情進(jìn)行描述時(shí)呈現(xiàn)一致性和連續(xù)性。例如,當(dāng)人們對(duì)某種事物進(jìn)行描述時(shí),往往是先進(jìn)行贊揚(yáng),再指出其缺點(diǎn);或者相反,先進(jìn)行批評(píng)再對(duì)其某一部分或者特征進(jìn)行肯定,一般情況下不會(huì)表揚(yáng)和批評(píng)交替進(jìn)行。因此,如果句子中出現(xiàn)轉(zhuǎn)折連詞,則轉(zhuǎn)折連詞前后其情感傾向性相反。如果未出現(xiàn)轉(zhuǎn)折連詞,但句子中出現(xiàn)多個(gè)情感詞,與其前后句中出現(xiàn)的多個(gè)情感詞的情感傾向性相同的概率較大。如果該句表現(xiàn)為正向的情感傾向性,則其中情感詞的情感傾向性為正向的概率較大。相反,如果該句表現(xiàn)為負(fù)向情感傾向性,則句子中情感詞為負(fù)向的情感傾向性概率較大。因此,本文提出了一種基于句內(nèi)和前后相鄰句的語境情感詞搭配組合情感識(shí)別算法。該算法充分利用語境情感詞詞組的相鄰情感詞來確定其情感傾向性。
規(guī)則1:句中出現(xiàn)轉(zhuǎn)折連詞,則轉(zhuǎn)折連詞前后情感傾向相反,否則,句中未出現(xiàn)轉(zhuǎn)折連詞則情感傾向性相同。例如:“蘋果新推出的iPhone11 plus屏幕大但電池不耐用”,其中搭配詞“電池-不耐用”是負(fù)向的情感搭配詞組,可以推出“電池-耐用”是正向的情感傾向。因?yàn)榫渲谐霈F(xiàn)轉(zhuǎn)折詞“但”,則“屏幕-大”是一個(gè)正向的情感傾向?!澳强钴囉秃牡投臆噧?nèi)布局寬敞”,其中搭配詞組“油耗-低”是一個(gè)正向的詞組,因?yàn)閷挸ㄊ且粋€(gè)正向情感詞,而且在此起遞進(jìn)作用。在沒有轉(zhuǎn)折句的句中“MS surface很好,滿足了學(xué)習(xí)的所有需求,功能很強(qiáng)大,外觀漂亮”,可以根據(jù)通用情感詞“漂亮”判斷“功能-強(qiáng)大”是一個(gè)正向的情感搭配詞組。
規(guī)則2:如果無法通過本句識(shí)別其中的情感句,則可以通過前后相鄰句子的情感傾向性來識(shí)別該句子。如果前后相鄰句子之間出現(xiàn)轉(zhuǎn)折連詞,則前后兩個(gè)句子情感傾向相反,否則前后句子情感傾向性相同。例如“這房間隔音差、房間小、性價(jià)比較低、衛(wèi)生也不好”,該句中不含通用性情感詞,但可以通過其句子前后句判斷其傾向性,句中“衛(wèi)生-不好”是負(fù)向的情感傾向性,則可以判斷“隔音-差”、“房間-小”、“性價(jià)比-低”也是負(fù)向的情感傾向。
一般情況下,“語境情感詞+搭配詞”的情感傾向性在句子中較穩(wěn)定,一旦識(shí)別出來,則可以將其加入情感詞典中去。但是少數(shù)詞組會(huì)隨語境的變化表現(xiàn)出不同的情感傾向性。例如,“華為MATE40的屏幕太大了”,該句中“屏幕-大”是一個(gè)負(fù)向的情感詞搭配詞組。而在“華為P40屏幕大,能耗低”中“屏幕-大”是一個(gè)正向的搭配詞組。此時(shí)需要考慮在大多數(shù)情況下,該搭配詞的情感傾向,一般認(rèn)為用戶評(píng)論“屏幕-大”是好事,可以認(rèn)定是一個(gè)正向的情感傾向詞。另外,該算法還可以根據(jù)同義詞、反義詞和搭配詞組中是否有否定詞等擴(kuò)展搭配詞詞組,例如,出現(xiàn)“能耗-大”是一個(gè)負(fù)向的情感搭配詞詞組,則“能耗-小”就是正向的搭配詞詞組。
綜上,則基于語境情感詞的傾向性識(shí)別算法如下:
輸入:句子集合S,搭配詞集合FW,情感詞典PW,連接詞詞表DC
輸出:搭配詞集合FW中搭配詞的情感傾向性
1 for 每一個(gè)句子si∈Sdo
2 ifPW∈sido
3 ifDC∈sido
4FWj←~PW//搭配詞與PW傾向性相反
5 end if
6 else do
7FWj←PW//搭配詞與PW傾向性相同
8 end else
9 end if
10 else ifwi-1&PW∈si-1do // 如果前一個(gè)句子si-1存在,且si-1包含情感詞語PW
11 ifDC∈si-1do
12FWj←~PW//搭配詞與PW傾向性相反
13 end if
14 else do
15FWj←PW//搭配詞與PW傾向性相同
16 end else
17 end else if
18 else ifsi+1&PW∈si+1do
19 ifDC∈si+1do
20FWj←~PW//搭配詞與PW傾向性相反
21 end if
22 else do
23FWj←PW//搭配詞與PW傾向性相同
24 end else
25 end else if
26 else do
27FWj←0//FWj無情感傾向性
28 end else
29 end for
(1)將候選情感詞表中的非通用情感詞都作為語境情感詞語,詞語數(shù)目共計(jì)4 769個(gè)。語境情感詞語有:屏幕、靚、均勻、手感、顏控、口味、捂持感、顫抖、信賴、方便、皮實(shí)、扛用、運(yùn)行、速度、流暢、快、輕盈、性價(jià)比、滿足、簡(jiǎn)約、大氣、高級(jí)、便宜、低廉、夸張……
(2)利用關(guān)聯(lián)規(guī)則挖掘技術(shù)從語料集合中識(shí)別語境情感詞語的常用搭配組合。利用關(guān)聯(lián)規(guī)則首先要確定文本語料的事務(wù)集。由于在評(píng)論文本中,人們經(jīng)常使用簡(jiǎn)短的句子進(jìn)行評(píng)價(jià),而不傾向于用長(zhǎng)句來表達(dá)觀點(diǎn),因此與語境情感詞語具有搭配關(guān)系的詞語大部分都在歧義情感詞附近,一般前后距離不會(huì)超過6個(gè)詞語。另外,一些獨(dú)立性差、無實(shí)義的虛詞或停用詞也很難成為有效的搭配詞,為此實(shí)驗(yàn)只選擇以歧義情感詞為中心前后M個(gè)名詞、動(dòng)詞或形容詞的語句片段組成事務(wù)集。
(3)利用本文1.2節(jié)提出的基于關(guān)聯(lián)規(guī)則的語境情感搭配詞組識(shí)別算法從語料庫中挖掘出相應(yīng)的“語境情感詞+搭配詞”組合,在評(píng)論文本和微博文本中,文本較短,直接表述觀點(diǎn),一般詞性為名詞、形容詞和動(dòng)詞等更容易做搭配詞,并且位于語境情感詞相搭配的搭配詞前后M個(gè)詞的位置。
本實(shí)驗(yàn)在Linux操作系統(tǒng)環(huán)境下,采用Java語言編寫,實(shí)驗(yàn)的數(shù)據(jù)集主要采用NLPCC2012和COAE2014關(guān)于微博文本情感分析的評(píng)測(cè)數(shù)據(jù)。實(shí)驗(yàn)參數(shù)設(shè)計(jì),α表示關(guān)聯(lián)規(guī)則的最小支持度閾值,β表示關(guān)聯(lián)規(guī)則的最小置信度閾值。考慮到中文詞的低頻性和歧義性,本實(shí)驗(yàn)認(rèn)為詞與詞之間共同出現(xiàn)超過10次則認(rèn)為這2個(gè)詞之間具有關(guān)聯(lián)性。因此α=10/N,其中N表示文本的總數(shù)。為了確定實(shí)驗(yàn)最優(yōu)化的參數(shù),則設(shè)計(jì)窗口大小W的取值為3、4、5、6共4組,參數(shù)β的值設(shè)置了0.001、0.005、0.01、0.015、0.02、0.03共6組。最后,實(shí)驗(yàn)選擇電子產(chǎn)品、酒店和旅游3個(gè)領(lǐng)域的文本作為實(shí)驗(yàn)數(shù)據(jù)集,選擇“高”、“大”、“差”等詞作為基礎(chǔ)詞來確定W和β的值,M表示搭配詞的數(shù)目。其中本實(shí)驗(yàn)的正確率P、召回率R和F值公式分別對(duì)應(yīng)公式(1)、(2)和(3)。
(1)
(2)
(3)
不同參數(shù)設(shè)置下獲取的搭配詞組數(shù)目見表1,實(shí)驗(yàn)結(jié)果見表2~表4。
表1 不同參數(shù)設(shè)置下獲取的搭配詞組數(shù)目
表2 不同參數(shù)設(shè)置下的正確率
表3 不同參數(shù)設(shè)置下的召回率
表4 不同參數(shù)設(shè)置下的F值
由表1可知:最小置信度閾值越小,窗口越大獲取的搭配情感詞越多。由表2和表3可以看出:隨著窗口W的逐漸增大,搭配詞組識(shí)別的正確率有所下降,但召回率有所提升。這是由于隨著窗口的逐漸增大,能過的詞被算法捕獲到,不僅捕獲了更多情感搭配詞,同時(shí)也捕獲到了噪聲詞。
由表4可以發(fā)現(xiàn),當(dāng)窗口大小為4,最小置信度閾值β為0.001時(shí),F(xiàn)值最高,達(dá)到0.63。因此將W的值設(shè)置為4,將語境情感詞語前后各4個(gè)詞語組成的語句片段提取出來作為事務(wù),最小置信度β取值0.001。
搭配詞組傾向性分析主要利用搭配詞的上下文關(guān)系來進(jìn)行判斷,實(shí)驗(yàn)分別從數(shù)碼產(chǎn)品、娛樂媒體和金融證券3個(gè)領(lǐng)域中共識(shí)別褒義情感詞組2 372組和貶義情感詞組466組,具體情況見表5。
表5 搭配詞組的識(shí)別結(jié)果
提出了一種基于關(guān)聯(lián)規(guī)則的語境情感搭配詞組的挖掘方法,首先利用關(guān)聯(lián)規(guī)則中的支持度、置信度和可用度,從語料文本中識(shí)別出與語境情感詞具有搭配關(guān)系的常用詞語組合。然后,綜合利用搭配詞組所在句子以及相鄰句子信息對(duì)其傾向性進(jìn)行分析,進(jìn)而構(gòu)建與該領(lǐng)域相關(guān)的情感詞語搭配集合。實(shí)驗(yàn)結(jié)果表明,本文提出的基于關(guān)聯(lián)規(guī)則的語境情感搭配詞組挖掘算法能夠挖掘出大量情感搭配詞語。