劉依歡
摘? ? 要: 文本情感分析的主要任務是識別和判斷文本中的情感單元,情感單元既包括直接決定了文本情感傾向的評價詞,又考慮了對情感傾向有間接影響的上下文。本文提出了評價詞的確定原則,從不同的角度對評價詞進行分類,并論述了影響文本情感強度的語言因素,包括詞匯、語境、固定搭配、語法手段、標點符號和表情等,試圖將文本中帶有情感傾向的成分識別出來,提高文本情感分析的效果。
關鍵詞: 情感分析? ? 評價詞? ? 情感單元? ? 語言因素
1.情感分析
文本的情感分析又稱意見挖掘,主要任務是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理,情感色彩是指文本體現(xiàn)出來的評價者的立場、態(tài)度和情感傾向。與詞語的情感色彩分類相同,文本的情感色彩(傾向)也分為褒義、貶義和中性三類。褒義是指評價者對評價對象持積極、正向、贊揚的態(tài)度,貶義是評價者持消極、負面、貶斥的態(tài)度,中性是評價者持中立態(tài)度。
在文本情感的處理過程中,為了方便表達和計算,引入極性和極值這兩個概念。這里的極性是指情感傾向的性質,即上文所說的正面、負面和中性,極值是對極性的賦值。在不考慮強度的情況下,當文本極性為正向時,極值為1,極性為負面時,極值為-1,極性為中性時,極值為0。
以書面形式呈現(xiàn)的文本,主要依靠帶有情感傾向的詞語來表達情感,而非借助眼神表情等身體語言,也即情感詞語是評價者表達情感的主要依據(jù)。這里所說的情感詞語是指情感評價單元,評價單元是以情感詞為核心的,長度更長的,帶有評論者主觀情感的語言單位。它既包括直接決定文本情感的評價詞,也考慮了間接影響情感傾向的上下文。在比較簡短的文本中,評價詞周圍沒有影響情感傾向的上下文,這時評價詞就是評價單元,因此這兩個概念并不是整體和部分的關系,它們有時是相等的。
在分析文本的情感傾向和強度時,關鍵是識別和判斷文本中的評價單元。目前學界和工業(yè)界大都采用基于統(tǒng)計的方法,研究了各種算法和模型,在識別評價對象、屬性尤其是情感單元方面取得了不錯的成果。但是現(xiàn)有系統(tǒng)對情感單元的語言特點研究得較少,因此本文將以汽車評價文本為基礎,從語言學的角度探討如何確定評價文本中評價詞和情感單元,并分析和總結影響文本情感強度的因素。
2.評價詞的確定及分類
2.1評價詞的確定
情感分析的難點是確定文本中的評價詞及影響情感極性強度的上下文,以及基礎上進行的情感分析。汽車評價文本中的評價詞是指體現(xiàn)了評價者對汽車某實體某屬性的態(tài)度、傾向的詞,如“好、舒服、滿意、討厭”等。
由于分析的層面不同,在具體的文本語境中,某些本身并無情感傾向的詞在文本中表現(xiàn)出了明顯的情感傾向,文本層面的情感詞比詞匯層面的情感詞范圍更廣。比如“高”“低”這類詞從詞匯角度來說,它們本身并無色彩義,但是當置于具體語境,與實際的屬性組合時,詞語就產生了相應的情感傾向,被處理成情感單元的評價詞。這一過程的實現(xiàn)依賴于社會常識,比如“汽車油耗高”,根據(jù)日常生活的常識,油耗越高,燃油越多,說明汽車性能低消耗大,是與評價者期望相反的消極表現(xiàn),因此極值為-1。
確定文本評價詞的原則是,直接決定評價者對評價對象態(tài)度的詞即為評價詞。需要注意的是在文本中,直接決定文本情感的成分有時也可能是詞組,比如“還需努力”、“比不上其他車”等,這些詞組找不出具體的評價詞,與一般的情感單元有所區(qū)別。
2.2評價詞的分類
我們可以從詞性、評價對象、極性變化等角度對評價詞進行分類,通過分類,能夠更加全面了解評價詞,準確地找出文本的情感單元。
(1)從詞性角度分類
根據(jù)詞性可以將評價詞大致分為三類,形容詞性情感詞、名詞性情感詞、動詞性情感詞。通過分析具體的汽車語料,發(fā)現(xiàn)形容詞性情感詞的比重最高,常見的形容詞性情感詞有“不錯”“好”“大”“舒服”等。名詞性情感詞的比重較小,常見的名詞性感情詞為“亮點”“弊病”等,有時名詞性的情感詞既能體現(xiàn)評價者的態(tài)度,也能幫助判斷文本所評價的屬性,這時的評價詞也是屬性詞,比如“異響”,即體現(xiàn)了評價者消極的態(tài)度,也標明了文本評價的屬性(汽車某部件的聲音)。動詞性情感詞比名詞性情感詞更多一些,常見的動詞性情感詞有“符合”“喜歡”“犧牲”等。形容詞性情感詞大都是對屬性的直接修飾,動詞性情感詞則更側重評價者的感受。
(2)從對象角度分類
評論文本最完整的情感表達是評論者評價實體屬性后給出自己態(tài)度,但是觀察語料后發(fā)現(xiàn),有些文本只是從實體的屬性出發(fā),給出與屬性相關的具體評價,但沒有出現(xiàn)評價者的直接態(tài)度。有些則從評論者的感受出發(fā),只給出自己的感受和傾向。省略評論者的態(tài)度或者屬性的修飾詞后,仍然能判斷出評價者的態(tài)度,原因與上文提到的本身無情感色彩的詞在語境中能夠體現(xiàn)評價者的態(tài)度一樣,即社會常識背景的支撐使我們能夠將情感信息補充完整。如“最滿意的一點性價比”和“性價比當時上市的時候沒有優(yōu)惠多少”。根據(jù)這一角度,可以將評價詞分為具體評價詞和直接態(tài)度詞兩類,具體評價詞多與屬性直接相關,直接態(tài)度詞則與評價者態(tài)度相關,以心理動詞為典型。
(3)從極性變化角度分類
情感詞的極性并不都是固定的,從這一角度出發(fā)可以將情感詞分為兩類。一類是情感傾向固定的詞,如“好”“不錯”“差”“滿意”“喜歡”等,我們將其稱為靜態(tài)詞,另一類為情感傾向不固定,詞語的極性只有在具體語境中才能確定的動態(tài)評價詞,如“高”“重”“大”“輕”等,我們稱之為動態(tài)詞。“汽車油耗高”“汽車性價比高”,這兩個例子評價詞都是“高”,但是極值卻相反。對于這兩類詞,在建立情感詞典時需要尤其注意,目前流行的做法是分類建立動態(tài)和靜態(tài)詞典,相對于靜態(tài)情感詞來說,動態(tài)情感詞由于涉及到更多的社會常識和領域知識,建立難度較大。
3.情感單元與極性強度
3.1情感單元
情感單元除了直接決定文本情感傾向的評價詞外,還包括能影響情感強度和極性的上下文。使用公式Ui=<ei, wi,fi>(i=1,3,4..)來表示情感單元,其中Ui是情感單元,wi是評價詞,ei和fi分別是上文、下文詞語,關于ei和fi的長度,從理論上來說是沒有上限的(也即情感單元的長度沒有上限),文本中除了評價的實體和屬性,所有的詞語都可以作為評價詞的上下文。
上下文按照對文本情感的影響按程度可分為兩類,第一類是改變極性的否定副詞以及表示否定的固定搭配,如“說不過去”“比不上”等,第二類是影響極性強度語言因素,比如大部分程度副詞、感嘆詞及文本中的其他成分。因此即使是不考慮情感強度的文本情感分析,只識別出評價詞也是不夠的,不能忽略評價詞的上下文對整個文本的情感傾向的影響。
3.2情感強度
極性強度是對情感分析的更高級的處理,它不僅需要分析文本的極性,還要分析情感的強烈程度。對于考慮情感強度的文本傾向性分析,極性賦值的情況相應地變得更復雜。電子商務平臺多采用星級評定(通常是5星)的方式來呈現(xiàn)用戶對產品的情感強度,現(xiàn)有的情感自動分析系統(tǒng)則采用數(shù)值賦值,取值的范圍在-3-3之間。負值仍然代表負面情感,正值代表正面情感,數(shù)值越大情感越強烈,0代表中立態(tài)度。
計算情感強度的方法主要有兩種,一是基于規(guī)則的方法,根據(jù)語感人為地規(guī)定影響情感強度的因素的分值,識別出所有的上下文后,進行數(shù)值計算。這種方法比較機械,對于詞典的依賴也較高,而且根據(jù)語感得到的強度值主觀性比較大。另外一種是統(tǒng)計與語義相結合的方法,首先讓計算機學習已經標注好情感強度的文本,抽取文本中影響情感強度的上下文及其強度值,再根據(jù)語義相似度,得到與這些上下文相似的成分的強度值。這種方法相對來說顆粒度更細,而且客觀性較強,但也忽略了語義之間的不平等性,影響了計算結果的準確性。
4.影響極性強度的語言因素
文本中影響情感強度的因素繁復多樣,現(xiàn)有的計算文本情感強度的情感分析系統(tǒng)對這些因素的處理比較簡單粗糙,大都將重點放在了詞匯方面,對于語境、固定句式、語法手段、標點、表情等方面的關注并不多。忽略這些因素可能會丟失文本中有價值的情感成分,影響強度計算的準確度。下文將詳細地分析這些因素,解釋它們影響情感強度的原因,并說明在計算時考慮這些因素的必要性。
4.1詞匯方面
影響文本情感強度最主要的因素是構成文本的詞匯,按照不同的詞性闡述詞匯對于極性強度的影響。
(1)副詞
副詞是影響文本情感傾向最典型的因素,根據(jù)語義范疇將副詞分為四類,分別為否定副詞、程度副詞、語氣副詞和范圍副詞,其中否定副詞和程度副詞對于極性強度的影響最為明顯。
否定副詞可以直接改變極值的正反,但并不是簡單地變成相反的極性,極性的強度也會發(fā)生變化。如“便宜”和“不便宜”的強度絕對值并不相等。對于這一現(xiàn)象的解釋是,否定詞“沒有”“不”對語義的影響比較復雜。在語義的情感極性方面,否定副詞的最主要的功能是使極性變得相反,如“不滿意汽車的外觀”,另一種可能是不改變極性,即否定冗余,如“不要太便宜”,雖然出現(xiàn)了否定副詞,但是文本的情感傾向還是沒有改變,仍然表達了正面積極的態(tài)度。類似的,在極性強度方面否定副詞的功能也比較復雜。根據(jù)語感,“便宜”和“貴”這兩個評價詞極性相反,強度相等,再比較“不便宜”和“貴”,得出“貴”表示的價格比“不便宜”的高,這樣就推出“便宜”和“不便宜”在強度上不相等。同等條件下,消費者更能接受價格低的產品,那么假設“貴”的極值是-1,“不便宜”的極值應該是介于-1到0。
現(xiàn)有系統(tǒng)對程度副詞的處理方法是根據(jù)強度的差異,將其細分成四個等級,再給這四個強度分配不同的值,進行情感計算。表格1對程度副詞分級,并給出每一級別的具體副詞例示(董麗麗,2014)。
(2)形容詞
在評價文本中,形容詞在多數(shù)情況下是情感單元的核心,即評價詞。形容詞在確定極性時至關重要,此外形容詞對舉使用時,也能夠體現(xiàn)評價者的情感強度。比如前面說到的“不錯”和“完美”。再如“便宜”和“實惠”,雖然這組詞語義相近而且極性一致,但是在極性強度上,后者明顯強于前者。相較于副詞,形容詞對強度的影響表現(xiàn)并不是很明顯。
(3)動詞
除了帶有明顯情感傾向的動詞,也就是直接態(tài)度詞,如“喜歡”“滿意”“肯定”之外,能愿動詞如“可以”“能”也能體現(xiàn)評價者的態(tài)度,影響情感強度。這類詞的語義功能主要是表達評價對象具備某種屬性或者能力的肯定。如果文本中出現(xiàn)了能愿動詞,也沒有否定副詞等能夠改變情感極性的詞的話,極值是正值的頻率遠遠高于負值的頻率。一般的動作動詞,如“符合”“接受”“優(yōu)化”“看中”等,這些詞本身的語義中就體現(xiàn)了正面積極的情感,因此當這些詞出現(xiàn)在文本中時也能夠幫助判斷情感傾向,至于情感強度,相對而言影響比較微弱。
(4)名詞
名詞對極性的影響與一般的動作動詞類似,主要是作為判斷評價文本情感傾向的輔助依據(jù),對于情感強度的影響并不明顯。如“缺陷”“異味”“通病”“亮點”這些詞本身的語義就帶有消極負面的含義,因此出現(xiàn)在文本中,體現(xiàn)評價者對于評價對象的態(tài)度。
(5)語氣詞
語氣詞與語氣副詞一樣,通過語氣的強弱來輔助情感強度的表達。語氣詞分為四大類,第一類陳述語氣,如“吧”“也好”“罷了”“著呢”等,這類語氣詞通常表達的是評價者妥協(xié)或者無所謂的態(tài)度,通常能夠削弱情感的強度;第二類疑問語氣,如“嗎”“呢”等,這類詞在表示反問時對情感影響才體現(xiàn)出來;第三類是祈使語氣,如吧、了、啊這類詞結合特點句式一起使用時才能對情感強度產生影響;最后一類是感嘆語氣,感嘆詞“啊”本身就是加強語氣的嘆詞,感嘆語氣結合標點符號如嘆號,兩者結合使用能夠使文本表達的情感強度更加強烈。
(6)嘆詞
嘆詞本身的功能,即用來表示感嘆。當評價者對評價對象的態(tài)度強烈時,通常會使用嘆詞輔助表達情感,因此情感單元應該要包括文本中出現(xiàn)的嘆詞。
(7)擬聲詞
汽車評價文本中出現(xiàn)擬聲詞的頻率比較小,在描述評價對象的屬性(通常是聲音)時,可以使得屬性具體化,也起到了加深情感強度的效果,如“汽車異響”和“汽車噼里啪啦的響”后者更加的感官化,強度更強。
(8)關聯(lián)詞
除了實詞外,虛詞也會影響文本的情感強度,其中作用比較明顯的是連詞。連詞的功能是連接句子成分,以顯示成分之間的邏輯關系。雖然不具備實詞表義的功能,但是具體的邏輯關系能夠體現(xiàn)成分之間的語義關系。如表示遞進關系的“不僅……,而且……”這組關聯(lián)詞的使用顯然會影響前后兩句語義情感強度值的分配,表示遞進關系的“雖然……,但是……”對文本情感的影響不僅體現(xiàn)在強度上,而且能夠作為判讀極性正負的輔助依據(jù),比如“這臺機器雖然價格高,但是性能很好?!边@里有一個對比和偏向,評價者對于性能的傾向更加明顯,所以我們在計算時,分配更高的強度值更加合理,而且前后兩句的轉折在情感上體現(xiàn)在兩句的極性值是相反的。表格2根據(jù)連詞的含義進行分配強度的表格(董麗麗),這種分配結果基本符合語感。
雖然目前的情感分析系統(tǒng)是以詞匯為重點,但也只關注副詞、形容詞、動詞、關聯(lián)詞這些對極性強度影響比較明顯的因素,對名詞和語氣詞等的關注相對少一些。但是對比“可以?!焙汀翱梢园。。?!”“質量還可以”以及“質量還可以吧”,這兩組例子中,第二句由于使用了語氣詞,文本的情感強度顯然發(fā)生了變化。在計算時,忽略這些因素可能會影響情感強度計算的精確度。
4.2語境
這里所說的語境不僅是指情感單元中評價詞的上下文,也指評價文本的評價對象和屬性。情感單元內的上下文前面已經論述得比較詳細了,因此這里的語境主要強調的是評價單元外的上下文。上文提到過,對于動態(tài)評價詞,其情感極性會因為評價對象和屬性的不同而不同,比如“耗能高”和“性價比高”,除了動態(tài)詞外,某些靜態(tài)詞在評價不同的對象或屬性時,情感強度也會不同。例如“不錯”,在評價“價格”和“外觀”時,兩者所表達的情感強度不同。原因可能是,對屬性“價格”來說,比“不錯”強度更加強烈的詞語比較有限,情感能夠增強的可能性比較小,但是對于“外觀”來說,“漂亮”“完美”等都是比“不錯”情感強度更加強烈的表達,情感能夠加深的空間還很大,因此前者的強度值要大一些。
4.3固定句式和搭配
文本中某些固定句式在選擇語境時,會體現(xiàn)出對某一固定極性的傾向,比如“到底是”,通常出現(xiàn)在極性為正的句子中,如“到底是蘋果的手機,分辨率很高”。而“擺在那里”“說不過去”“還談什么”“竟然還”,這些固定搭配通常出現(xiàn)在極性為負的句子中,如“畢竟價格擺在那里,質量好不到哪里”。
造成這種現(xiàn)象的原因與語義韻有關,這里的語義韻是指情感在語篇中流動所形成的語篇情感氛圍,某些原本不帶情感的詞出現(xiàn)的語篇情感氛圍比較固定,由于長久受到這種氛圍的影響,這些詞似乎也體現(xiàn)出一種情感傾向。由于這類詞依賴于帶有確定情感的評價詞,所以它們一般都不會獨立的出現(xiàn)在評價文本中,只是作為情感單元的上下文影響文本情感的強度。
4.4語法手段
這里要說的語法手段主要是重復,使用重復通常能夠加深強化情感。重復可以是詞匯的重復,也可以是句子的重復,標點的重復,更細致的還可以是詞匯內部的重復(重疊)如美美的,漂漂亮亮。由于收集的是網絡評價文本,文本比較偏向口語,因此在文本中會出現(xiàn)較多的重復。
4.5標點
上文中提到感嘆語氣搭配感嘆號,能夠加強評價者的態(tài)度。除此之外省略號、句號的使用和重復使用也能夠影響極性強度。尤其是針對網絡文本,省略號的使用和句號的重復使用都能夠體現(xiàn)評價者的情感傾向。評價者有時重復的使用句號或者省略號來表達無奈或者無語的情感,這能夠作為判斷文本極性的輔助依據(jù),同時也加深其貶斥的態(tài)度,會影響極性強度。
4.6表情
網絡文本的一個特點是經常使用輔助表達感情的表情和表情包,出現(xiàn)在文本的中表情符號或者表情包能夠幫助我們理解說話者的態(tài)度和感情,在一定程度上能夠影響極性強度,當評價者表達對一件商品的不滿時,可以使用生氣,暴怒等表情,這種通過表情體現(xiàn)的情感強度上的加深,應該在文本情感分析中加以區(qū)別。
語境、固定搭配、語法手段、標點符號、表情這些因素與詞匯因素相比,它們在文本中表現(xiàn)地比較隱性,或者不屬于典型的語言因素,因此在現(xiàn)有的情感分析系統(tǒng)中通常被忽視,通過分析我們可以看到,這些因素同樣能夠產生明顯的影響。
5.小結
本文論述了情感單元中評價詞的確定原則,從三個不同的角度對評價詞進行了分類。并研究了作為情感單元中影響情感強度的上下文,除了分析現(xiàn)有的情感分析系統(tǒng)比較關注的詞匯因素外,本文還詳細地分析了語境、固定搭配、語法手段、標點符號和表情等其他因素對文本情感強度的影響。
參考文獻:
[1]周詠梅,楊佳能,陽愛民.面向文本情感分析的中文情感詞典構建方法[J].山東大學學報(工學版),2013(4):27-33.
[2]鄭麗娟,王洪偉,基于情感本體的在線評論情感極性及強度分析:以手機為例[J].管理工程學報,2017(2):47-54.
[3]杜嘉忠,徐健,劉穎.網絡商品評論的特征——情感詞本體構建與情感分析研究[J].現(xiàn)代圖書情報技術,2014(5):74-81.
[4]張紫瓊,葉強,李一軍.互聯(lián)網商品評論情感分析研究綜述[J].管理科學學報,2010(6):84-96.
[5]郗亞輝.產品評價中領域情感詞典的構建[J].中文信息學報,2016(5):136-144.
[6]董麗麗,趙繁榮,張翔.基于領域本體、情感詞典的商品評論傾向性分析[J].計算機應用與軟件,2014(12):104-108.
[7]熊祖濤.基于Web文本信息抽取的微博輿情分析[D].西安:西安科技大學,2012.
[8]杜偉夫.文本傾向性分析中的情感詞典構建技術研究[D].哈爾濱:哈爾濱工業(yè)大學,2010.
[9]吳文婷,劉雪芹.冗余否定格式“不要太A”試析[J].文教資料,2009(7):41-43.
[10]靳俊杰.文學語篇中情感詞匯的韻律結構研究[J].長春大學學報,2017(11):35-40.
[11]王雅剛,劉正光.語義韻研究的理論增長點-構式語法視角[J].外語教學,2017(6):18-23.
[12]黃伯榮,廖序東.現(xiàn)代漢語[M].北京:高等教育出版社,2011.