楊睿 劉家興 宋夢(mèng)嬌 徐俊浩 李冉冉 王力卉
摘要:本文著眼于大眾情感需求,利用日益完善的人工智能技術(shù),實(shí)現(xiàn)人機(jī)間情感交流,為人類(lèi)創(chuàng)造一個(gè)可以向人工智能程序?qū)で笈惆?、盡情傾訴的機(jī)會(huì)。該研究致力于利用與人工智能的人機(jī)交互,結(jié)合互聯(lián)網(wǎng)時(shí)代心理咨詢(xún)服務(wù)的特征,填補(bǔ)大眾情感缺口。
關(guān)鍵詞:情感傾向分析;語(yǔ)義識(shí)別;人工智能;人機(jī)交互
1、 緒論
情感識(shí)別作為情感計(jì)算的一個(gè)關(guān)鍵分支,同時(shí)也是語(yǔ)義識(shí)別的一個(gè)重要應(yīng)用方向,涉及到心理分析、人工智能、信號(hào)處理等多個(gè)技術(shù)領(lǐng)域,具有很高的研究?jī)r(jià)值,已經(jīng)被應(yīng)用于情感陪伴、心理評(píng)估、輿情分析等多個(gè)方向。
由于現(xiàn)代語(yǔ)言,尤其是網(wǎng)絡(luò)用語(yǔ)的多樣性,傳統(tǒng)文本主題分類(lèi)方法不能有效完成情感傾向識(shí)別?;谡Z(yǔ)義特征的情感傾向識(shí)別方法,可以分析得出原始文本所包含的明確情感傾向,更有利于完成情感區(qū)分。
實(shí)現(xiàn)基于人工智能技術(shù)的情感語(yǔ)義識(shí)別應(yīng)用,需從語(yǔ)言語(yǔ)義識(shí)別和情感傾向分析兩方面展開(kāi)研究,其中情感傾向分析是關(guān)鍵環(huán)節(jié)。
2、 語(yǔ)言語(yǔ)義識(shí)別研究
2.1語(yǔ)義的表示
自然語(yǔ)言可通過(guò)分布語(yǔ)義,框架語(yǔ)義,模型論語(yǔ)義等三種主要途徑進(jìn)行表示。還可使用領(lǐng)域(domain)、意圖(intent)、詞槽(slot)等三種形式來(lái)表示語(yǔ)義。
(1)領(lǐng)域(domain)
通常按語(yǔ)言數(shù)據(jù)來(lái)源來(lái)劃分領(lǐng)域。統(tǒng)一行業(yè)背景或?qū)I(yè)范圍內(nèi)的語(yǔ)言數(shù)據(jù)劃分為統(tǒng)一領(lǐng)域,如醫(yī)療、交通等。領(lǐng)域在語(yǔ)法中可看作句子的主語(yǔ)。
(2)意圖(intent)
意圖類(lèi)似語(yǔ)法中的謂語(yǔ),是指對(duì)語(yǔ)義領(lǐng)域內(nèi)數(shù)據(jù)進(jìn)行的動(dòng)作或操作,比如查找交通等。
(3)詞槽(slot)
指語(yǔ)義領(lǐng)域的屬性,可看作語(yǔ)法中的賓語(yǔ),如交通類(lèi)型。
2.2語(yǔ)義識(shí)別的層次
(1)應(yīng)用層
應(yīng)用層是指語(yǔ)義的使用層面,如行業(yè)應(yīng)用等。
(2)NLP技術(shù)層
NLP技術(shù)層是指對(duì)自然語(yǔ)言經(jīng)過(guò)技術(shù)手段進(jìn)行加工、處理轉(zhuǎn)化成機(jī)器語(yǔ)言,或?qū)C(jī)器語(yǔ)言合成自然語(yǔ)言。
(3)底層數(shù)據(jù)層
底層數(shù)據(jù)層是指語(yǔ)義的領(lǐng)域來(lái)源。
3、 情感傾向分析研究
情感傾向性分析又稱(chēng)情感分類(lèi),是指針對(duì)給定的文本,識(shí)別其情感傾向是積極的還是消極的,或者是正面的還是負(fù)面的,是情感分析領(lǐng)域研究最多的問(wèn)題。
通常網(wǎng)絡(luò)文本包含大量主觀(guān)性?xún)?nèi)容和客觀(guān)性?xún)?nèi)容。其中客觀(guān)性?xún)?nèi)容是對(duì)事物的客觀(guān)描述,不帶有感情色彩和情感傾向;而主觀(guān)性?xún)?nèi)容則是筆者對(duì)客觀(guān)事物的看法及思考,帶有或強(qiáng)或弱的喜好厭惡等情感傾向。
顯而易見(jiàn),情感分類(lèi)的對(duì)象是帶有情感傾向的主觀(guān)性文本,因此情感分類(lèi)首先要進(jìn)行內(nèi)容的主客觀(guān)性分類(lèi)。文本的主客觀(guān)分類(lèi)主要以情感詞識(shí)別為主,利用基于情感詞典的特征表示方法和分類(lèi)器進(jìn)行詞匯的主客觀(guān)性識(shí)別分類(lèi),能夠提高情感分類(lèi)的速度和準(zhǔn)確度?;谇楦性~典的方法具體來(lái)說(shuō)就是,先對(duì)文本進(jìn)行分詞和停用詞處理等預(yù)處理工作,再利用構(gòu)建好的情感詞典,對(duì)文本進(jìn)行情感傾向分析,即字符串匹配,從而挖掘正面和負(fù)面情感信息。
下面分別介紹情感詞典構(gòu)建和情感傾向分析的情況。
3.1情感詞典構(gòu)建
情感詞典的構(gòu)建是情感分類(lèi)的前提和基礎(chǔ)。實(shí)踐中的情感詞典可歸為4類(lèi):通用情感詞、程度副詞、否定詞、領(lǐng)域詞。一般詞典使用過(guò)程中包含兩部分,詞語(yǔ)和權(quán)重。
現(xiàn)階段情感詞典的構(gòu)建方法主要是利用已有電子詞典進(jìn)行擴(kuò)展,例如對(duì)經(jīng)典詞典WordNet的擴(kuò)充,在建立種子形容詞詞匯表的基礎(chǔ)上,利用WorldNet中詞間的同義和近義關(guān)系判斷情感詞的情感傾向,并以此來(lái)判斷觀(guān)點(diǎn)的情感極性。如確有需要,也可通過(guò)語(yǔ)料來(lái)訓(xùn)練新的情感詞典,或建立專(zhuān)門(mén)的領(lǐng)域詞典,以提高情感分類(lèi)的準(zhǔn)確性。
實(shí)際工作中有很多開(kāi)源情感詞典可供選擇,例如BosonNLP情感詞典。該詞典是基于微博、新聞、論壇等數(shù)據(jù)來(lái)源構(gòu)建的情感詞典。此類(lèi)開(kāi)源詞典還有知網(wǎng)情感詞典等,大大降低了情感語(yǔ)義識(shí)別應(yīng)用開(kāi)發(fā)者的工作難度,有效調(diào)高其工作效率和質(zhì)量。
3.2 情感傾向分析
(1)情感詞典文本匹配算法
基于語(yǔ)義情感詞典的傾向性計(jì)算不同于以來(lái)大量訓(xùn)練數(shù)據(jù)集的機(jī)器學(xué)習(xí)算法,主要是利用情感詞典及句式詞庫(kù)分析文本語(yǔ)句的特殊結(jié)構(gòu)及情感傾向詞,采用權(quán)值算法代替?zhèn)鹘y(tǒng)人工判別或僅利用簡(jiǎn)單統(tǒng)計(jì)的方法進(jìn)行情感分類(lèi)。
基于詞典的文本匹配算法相對(duì)容易實(shí)現(xiàn),效率較高。此類(lèi)算法的原理是,完成語(yǔ)句分詞后,逐個(gè)遍歷所得詞語(yǔ)。如果有詞語(yǔ)命中詞典,則進(jìn)行相應(yīng)權(quán)重處理:
①正面詞權(quán)重為加法;
②負(fù)面詞權(quán)重為減法;
③否定詞權(quán)重取相反數(shù);
④程度副詞權(quán)重則與其所修飾詞語(yǔ)權(quán)重相乘。
(2)傾向性計(jì)算算法
前文介紹的情感詞典文本匹配算法給情感強(qiáng)度不同的情感詞賦予不同權(quán)值,之后就由傾向性計(jì)算算法進(jìn)行加權(quán)求和,最終輸出的權(quán)重值,就可以區(qū)分文字所表達(dá)的是正面的、中性的,還是負(fù)面的情感了。
利用如式(1)所示加權(quán)平均算法計(jì)算,可有效提高通用領(lǐng)域情感分類(lèi)的效率和準(zhǔn)確率。
其中,Np、Nn分別代表表達(dá)正面情感和負(fù)面情感的詞匯數(shù)目;wpi、wpj分別代表正面情感詞匯和負(fù)面情感詞匯的權(quán)值。
(3)確定閾值判斷文本傾向性
一般情況下,加權(quán)計(jì)算結(jié)果為正,是正面傾向;結(jié)果為負(fù),是負(fù)面傾向;得分為零則表示無(wú)傾向。一般采用自然語(yǔ)言中經(jīng)常使用的正確率、召回率和方差分析F值來(lái)評(píng)判算法效果。
以上情感傾向分析過(guò)程如圖1所示。
基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的分類(lèi)算法相比,雖屬于粗粒度的傾向性分類(lèi)方法,但由于不依賴(lài)標(biāo)注好的訓(xùn)練集,實(shí)現(xiàn)相對(duì)簡(jiǎn)單,對(duì)于普遍通用領(lǐng)域的網(wǎng)絡(luò)文本可有效快速地進(jìn)行情感分類(lèi)。
4、 結(jié)論
本文深入研究了情感語(yǔ)義識(shí)別技術(shù),利用情感詞典對(duì)文本內(nèi)容進(jìn)行情感分析。本文所提出算法可以自動(dòng)識(shí)別文本中的核心實(shí)體詞,對(duì)包含主觀(guān)信息的文本進(jìn)行情感傾向性判斷。由于采用了開(kāi)源情感詞典和相對(duì)粗顆粒的情感傾向分析算法,本文所設(shè)計(jì)應(yīng)用的情感判斷效果還有待提高。訓(xùn)練針對(duì)性更強(qiáng)的情感詞典,以及引入可以使得分析算法更精細(xì)的神經(jīng)網(wǎng)絡(luò)技術(shù),應(yīng)是未來(lái)研究中重點(diǎn)考慮的方向。
參考文獻(xiàn):
[1]劉騰飛,于雙元,張洪濤等.基于循環(huán)和卷積神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)研究[J].軟件,2018,39(01):64-69.
[2]吳亞熙,岑峰.基于卷積神經(jīng)網(wǎng)絡(luò)的多層級(jí)目標(biāo)檢測(cè)方法[J].軟件,2018,39(4):164-169.
課題項(xiàng)目:本文為沈陽(yáng)師范大學(xué)校級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃資助項(xiàng)目《基于語(yǔ)義識(shí)別的人工智能陪伴app——“智慧陪伴”》(項(xiàng)目編號(hào):202113067)成果。