江紅
Abstract: With the rapid development of e-commerce and social media, vast amounts of information regarding every aspect of the social life sprang into existence on the Internet. It has become urgent requirements of multiple fields in the society to analyse this information, mine the opinions behind it, and determine the sentiment orientation. This paper elaborates on the review of sentiment analysis and opinions mining in terms of their definitions, applications and classifications.
引言
情感分析與觀點(diǎn)挖掘是自然語言處理領(lǐng)域的一個(gè)基礎(chǔ)任務(wù),屬于文本分析范疇。其目的是從文本中判定識(shí)別論點(diǎn),挖掘分析情感傾向,抽取得出主要的觀點(diǎn)要素。
近年來,隨著互聯(lián)網(wǎng)與社會(huì)媒體的迅猛發(fā)展,涌現(xiàn)、并累積了含有觀點(diǎn)的海量文本,故而引發(fā)了人們對(duì)情感分析的探索研究熱潮。目前,在社會(huì)很多方面都可見到有關(guān)情感分析的應(yīng)用與產(chǎn)品,如醫(yī)院、旅游、金融領(lǐng)域等。正因如此,所以情感分析已經(jīng)吸引了研究學(xué)界的高度重視與關(guān)注。本文即針對(duì)這一內(nèi)容方向展開如下的研究討論。
1情感分析(觀點(diǎn)挖掘)定義
首先,需要厘清情感與觀點(diǎn)的區(qū)別與聯(lián)系。在Merriam-Webster詞典中,情感指的是一種態(tài)度、想法,或者是感性的判斷,而觀點(diǎn)是一種論斷和判斷,或者稱之為一種在人腦中形成的對(duì)于某一事物的評(píng)價(jià)。觀點(diǎn)用來描述情感、評(píng)價(jià)、態(tài)度及其要素,情感則用來描畫觀點(diǎn)中蘊(yùn)含的褒義或貶義的情感傾向。從上述定義不難看出,兩者之間有著緊密的內(nèi)在聯(lián)系,只是側(cè)重不同。觀點(diǎn)偏重于一個(gè)人對(duì)于某一事物形成的具體看法,而情感更側(cè)重的是一個(gè)人內(nèi)在的某種感情。此外,情感和觀點(diǎn)還具有一個(gè)共同特征,即都帶有鮮明的主觀性,都是主觀意愿的一種表現(xiàn)。而每個(gè)人的性情、經(jīng)歷、興趣、愛好等方面各有不同,即使同一個(gè)人,在不同時(shí)期也可能處于不同環(huán)境和地位,這些因素都會(huì)直接或間接影響一個(gè)人對(duì)事物所產(chǎn)生的情感傾向結(jié)果。
在學(xué)術(shù)界,情感分析,也可稱為觀點(diǎn)挖掘。其研究目標(biāo)是從文本中分析展示人們對(duì)于實(shí)體及其屬性所表達(dá)的觀點(diǎn)、情感、評(píng)價(jià)、態(tài)度和情緒。這里的實(shí)體可以是各種產(chǎn)品、個(gè)人、機(jī)構(gòu)、事情和服務(wù)等。這是一類旨在利用可計(jì)算的方法從自然語言文本中提取觀點(diǎn)和情感信息的研究。從自然語言處理的角度看,情感分析的任務(wù)就是識(shí)別出人們談?wù)摰闹黝}以及針對(duì)主題所表達(dá)出來的觀點(diǎn)傾向。
2情感分析的應(yīng)用
綜合前述研究,本文擬從個(gè)人、企業(yè)(機(jī)構(gòu))這2個(gè)角度來闡釋解讀情感分析的應(yīng)用需求,系統(tǒng)論述詳見如下。
2.1個(gè)人角度
當(dāng)某一個(gè)體試圖去做決定、并轉(zhuǎn)換為行為時(shí),通常會(huì)斟酌、考慮他人的意見、建議、觀點(diǎn)及看法?;蛘哒f,他人的意見和觀點(diǎn)對(duì)一個(gè)人的決定和行為將產(chǎn)生顯著影響。例如,當(dāng)某人在購買一款商品時(shí),就不僅會(huì)主動(dòng)聽取朋友、同事等對(duì)這個(gè)商品的有關(guān)意見,在當(dāng)今的大數(shù)據(jù)時(shí)代,更多的還會(huì)從互聯(lián)網(wǎng)上搜集與此商品有關(guān)的熱點(diǎn)評(píng)價(jià)或各種形式的集體討論等開放信息,根據(jù)這些信息來決定是否將購買這一行為付諸實(shí)施。
2.2企業(yè)(機(jī)構(gòu))角度
在過去,一個(gè)企業(yè)(機(jī)構(gòu))若想了解自己的產(chǎn)品或服務(wù)在大眾心中的品質(zhì)形象和評(píng)價(jià)等信息,只能通過面對(duì)面交流或采取設(shè)計(jì)調(diào)查問卷的方式獲取。同樣,在大數(shù)據(jù)時(shí)代,即可從互聯(lián)網(wǎng)上探尋搜羅相關(guān)信息。此外,對(duì)于企業(yè)(機(jī)構(gòu))來說,還有另一種路徑可以得到這些信息,即企業(yè)(機(jī)構(gòu))內(nèi)部數(shù)據(jù)。例如,企業(yè)(機(jī)構(gòu))的內(nèi)部生產(chǎn)數(shù)據(jù)、銷售數(shù)據(jù)、各種數(shù)據(jù)報(bào)表,調(diào)研報(bào)告等。從這些數(shù)據(jù)中,同樣可以反映出針對(duì)產(chǎn)品或服務(wù)的觀點(diǎn)信息。
3基于文本粒度的情感分析分類
情感分析的處理對(duì)象是文本,而文本有大有小,既可以是一個(gè)完整的文檔,也可以是一個(gè)句子,還可以是一個(gè)單詞或短語。根據(jù)文本的這一特性,情感分析研究可以劃分為3個(gè)層次,即:文檔級(jí)情感分析、句子級(jí)情感分析、屬性級(jí)情感分析。基于此,可得研究工作分述如下。
3.1文檔級(jí)情感分析
文檔級(jí)情感分析(document-level sentiment analysis)是判別一個(gè)完整文檔所表達(dá)的情感傾向是褒義的、還是貶義的技術(shù)處理方法。顯然,文檔級(jí)情感分析在運(yùn)行上也存在著一定欠缺,究其原因有2個(gè)方面。一方面,因?yàn)槲臋n級(jí)情感分析是將一個(gè)文檔視作一個(gè)整體,其目標(biāo)是判別通篇文檔的整體觀點(diǎn)和情感,而未對(duì)文檔中的具體實(shí)體或?qū)傩赃M(jìn)行情感分析,因此,文檔級(jí)情感分析未能臻至更精細(xì)的情感辨識(shí),導(dǎo)致文檔級(jí)情感分析的實(shí)用價(jià)值表現(xiàn)出明確的局限性。例如,針對(duì)一篇有關(guān)某個(gè)商品的含有觀點(diǎn)的文檔,文檔級(jí)情感分析只能判別出這篇文檔對(duì)這個(gè)商品總體上是褒義、還是貶義的情感傾向,這個(gè)判別結(jié)果對(duì)人們來說是粗糙的,人們往往需要探究了解更多細(xì)節(jié),而且這些細(xì)節(jié)對(duì)人們未來的決策可能發(fā)揮至關(guān)重要的支持作用,但是文檔級(jí)情感分析卻難以達(dá)到這一效果。另一方面,文檔級(jí)情感分析需要立足于一個(gè)前提假設(shè)基礎(chǔ)上,即假設(shè)這個(gè)完整文檔只對(duì)一個(gè)實(shí)體進(jìn)行評(píng)價(jià),研究可知該假設(shè)并不能滿足實(shí)際需求。實(shí)際情況往往是一個(gè)文檔會(huì)評(píng)價(jià)多個(gè)實(shí)體,這也在一定程度上削弱了文檔級(jí)情感分析的實(shí)用價(jià)值。例如,對(duì)論壇發(fā)言、博客等帖子的情感分析,在此過程中大多數(shù)帖子會(huì)同時(shí)評(píng)價(jià)多個(gè)實(shí)體,此時(shí)文檔級(jí)情感分析就不能判別出帖子的情感傾向。
3.2句子級(jí)情感分析
句子級(jí)情感分析(sentence-level sentiment analysis)的研究對(duì)象是含觀點(diǎn)文檔中的句子,判別句子中所包含的情感傾向,換言之就是判別每個(gè)句子中的情感傾向是正面、負(fù)面、還是中性的。其中,中性情感傾向意味著不含有觀點(diǎn)和情感傾向。相對(duì)文檔而言,句子可看成比較短的文檔,因此句子本身包含的信息較少,這就導(dǎo)致句子級(jí)情感分析的研究將頗具現(xiàn)實(shí)難度。
句子級(jí)情感分析與文檔級(jí)情感分析相比,有2個(gè)相似點(diǎn)。分析闡述如下。
(1)兩者都不研究觀點(diǎn)和情感傾向所指向的實(shí)體(或?qū)傩裕┦鞘裁础?/p>
(2)兩者都有一個(gè)前提假設(shè)。文檔級(jí)情感分析的前提假設(shè)是只對(duì)一個(gè)實(shí)體進(jìn)行評(píng)價(jià);句子級(jí)情感分析的前提假設(shè)是一個(gè)句子只表達(dá)了一個(gè)觀點(diǎn)或只含有一個(gè)情感傾向。
句子級(jí)情感分析與文檔級(jí)情感分析的不同之處,除判別對(duì)象的粒度不同外,句子級(jí)情感分析增加了中性情感傾向這一判別結(jié)果。實(shí)際應(yīng)用中,文檔中會(huì)出現(xiàn)很多不表達(dá)觀點(diǎn)和情感傾向的句子,這是句子級(jí)情感分析不容回避、且亟待有效判別的一個(gè)重要問題。
雖然句子級(jí)情感分析不像文檔級(jí)情感分析般寬泛、粗糙,但由于句子級(jí)情感分析仍然不能識(shí)別觀點(diǎn)和情感傾向的實(shí)體(或?qū)傩裕┦鞘裁矗词沟镁渥蛹?jí)情感分析在性能評(píng)價(jià)效果上依然欠佳。具體表現(xiàn)在2個(gè)方面。一方面,實(shí)際應(yīng)用中,如果只能給人們提供觀點(diǎn)和情感傾向,卻不能給出這些觀點(diǎn)和情感傾向所指稱的對(duì)象實(shí)體(或?qū)傩裕@對(duì)人們的需求而言,其意義和參考價(jià)值就會(huì)有大幅降低,那么句子級(jí)情感分析的應(yīng)用范圍也將受到很大限制。另一方面,因?yàn)榫渥蛹?jí)情感分析有潛在的前提假設(shè),即一個(gè)句子只表達(dá)一個(gè)觀點(diǎn)或只含有一個(gè)情感傾向,所以句子級(jí)情感分析只能判別僅有一個(gè)觀點(diǎn)的簡(jiǎn)單句,不能判別和處理復(fù)雜句、組合句等,也不能判別相對(duì)特殊的比較句。
3.3屬性級(jí)情感分析
屬性級(jí)情感分析(attribute-level sentiment analysis)直接關(guān)注的是觀點(diǎn)以及觀點(diǎn)的對(duì)象,而不是文檔、句子、短語等語言單位。該項(xiàng)研究?jī)?nèi)容是通過判別和挖掘發(fā)生在實(shí)體及其屬性上的觀點(diǎn)信息,并最終描述輸出所關(guān)注的對(duì)象實(shí)體及其屬性的觀點(diǎn)信息。屬性級(jí)情感分析能夠滿足人們想獲取有關(guān)實(shí)體及其屬性詳細(xì)信息的需求,具有良好的應(yīng)用價(jià)值和可觀的研究前景。還需一提的是,基于主題的情感分析、基于實(shí)體的情感分析、基于目標(biāo)的情感分析是屬性級(jí)情感分析在不同應(yīng)用領(lǐng)域中的不同命名。
在此基礎(chǔ)上不難看出,屬性級(jí)情感分析包含2個(gè)主要問題。一是觀點(diǎn)判別對(duì)象的抽取,即屬性本身的抽取??紤]到屬性與實(shí)體的密切關(guān)系,屬性抽取本身包含實(shí)體抽取。二是屬性級(jí)情感的抽取,其任務(wù)就是甄別判斷句子中針對(duì)不同屬性所表達(dá)的觀點(diǎn)傾向,推出其為正面、負(fù)面還是中性。
屬性級(jí)情感分析也面臨諸多問題尚且處于研發(fā)階段,在此僅給出方向性概述如下。
(1)在實(shí)體和屬性抽取方面。因?yàn)槌槿【炔桓?,需要研究和?chuàng)建新的提取方法;而且,目前只是基于名詞和名詞短語進(jìn)行屬性的抽取,還未能拓展到由動(dòng)詞表達(dá)的屬性抽取。
(2)在屬性級(jí)情感抽取方面。研究發(fā)現(xiàn)表達(dá)情感的語言學(xué)模板因?yàn)猷笥谧陨碓趹?yīng)用和描述上的困難而導(dǎo)致其應(yīng)用效率仍然差強(qiáng)人意;同時(shí),情感詞典因領(lǐng)域不同而存在顯著差別,所以情感詞典的建立和維護(hù)工作量則可堪稱巨大;此外,關(guān)于如何去掉各種拼寫、語法和標(biāo)點(diǎn)錯(cuò)誤等數(shù)據(jù)噪聲,實(shí)現(xiàn)預(yù)處理也是目前一個(gè)焦點(diǎn)性的研發(fā)課題。
4結(jié)束語
近年來,針對(duì)情感分析,人們?cè)谘芯亢蛻?yīng)用方面已經(jīng)進(jìn)行了深入探討,取得了長(zhǎng)足進(jìn)步。雖然如此,人們對(duì)于情感分析的認(rèn)識(shí)以及時(shí)下的解決方案仍未達(dá)到理想水準(zhǔn)。目前還沒有一個(gè)算法能夠?qū)嵭?、完備地解決情感分析問題。也就是說,在技術(shù)上,情感分析仍然具有廣闊的研究天地和發(fā)展空間。尤其是伴隨社會(huì)媒體數(shù)據(jù)的海量興起態(tài)勢(shì),讓人們可以在大數(shù)據(jù)基礎(chǔ)上開展研究、設(shè)計(jì)實(shí)驗(yàn)。期待不久的將來,通過不斷的探索創(chuàng)新,人們能夠搭建一個(gè)針對(duì)自然語言的情感分析處理系統(tǒng),只要對(duì)這個(gè)系統(tǒng)輸入一些含有觀點(diǎn)和情感的文檔、句子等,系統(tǒng)就能夠自動(dòng)調(diào)取情感分析高智能地處理輸出相應(yīng)觀點(diǎn)和情感的詳盡結(jié)果信息。
參考文獻(xiàn)
[1] LIU Bing. 情感分析:挖掘觀點(diǎn)、情感和情緒[M]. 劉康,趙軍,譯. 北京:機(jī)械工業(yè)出版社,2017.
[2] CHEN Zhiyuan, LIU Bing. Topic modeling using topics from many domains,lifelong learning and big data[C]//CML'14 Proceedings of the 31st International Conference on International Conference on Machine Learning. Beijing, China:ACM, 2014:II(703)-II(711).
[3] CHEN Zhiyuan, LIU Bing. Mining topics in documents:Standing on the shoulders of big data[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA:ACM,2014:1116-1125.
[4] MICHALSKI R S,BRATKO I,KUBAT M. 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘:方法和應(yīng)用[M]. 朱明,譯. 北京:電子工業(yè)出版社,2004.
[5] 黃林軍,張勇,郭冰榕. 機(jī)器學(xué)習(xí)技術(shù)在數(shù)據(jù)挖掘中的商業(yè)應(yīng)用[J]. 中山大學(xué)學(xué)報(bào)論叢,2005,25(6):145-148.
[6] 梁曉音. 機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用[J]. 廣西質(zhì)量監(jiān)督導(dǎo)報(bào),2008(11):38-39,42.
[7] GROTH R. 數(shù)據(jù)挖掘—構(gòu)筑企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)[M]. 侯迪,宋擒豹,譯. 西安: 西安交通大學(xué)出版社,2001.
[8] 田文英. 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘[J]. 石家莊職業(yè)技術(shù)學(xué)院學(xué)報(bào),2004,16(6):30-32.
[9] BOSE I, MAHAPATRA R K. Business data mining- a machine learning perspective [J]. Information & Management,2001,39(3):221-225.