国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于領(lǐng)域情感詞典的網(wǎng)絡(luò)評(píng)論傾向分析方法

2015-04-25 11:31:14何成萬(wàn)
關(guān)鍵詞:關(guān)聯(lián)詞傾向性語(yǔ)料

何成萬(wàn),王 格

武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205

0 引 言

隨著互聯(lián)網(wǎng)的普及和互聯(lián)網(wǎng)技術(shù)的發(fā)展,越來(lái)越多的人選擇在網(wǎng)上購(gòu)物、發(fā)表評(píng)論.如何從如此多紛繁復(fù)雜的信息中提取出對(duì)人們有用的信息就成為一個(gè)亟待解決的課題.文本情感傾向性分析的目的是對(duì)整篇文本所體現(xiàn)出的態(tài)度,即文本中的主觀信息進(jìn)行判斷[1].

目前進(jìn)行情感傾向分析主要的方法為基于機(jī)器學(xué)習(xí)的方法和基于情感詞典的方法.基于機(jī)器學(xué)習(xí)的方法涉及特定領(lǐng)域,在領(lǐng)域相關(guān)的文本傾向性分析中有較好的表現(xiàn),但是對(duì)于領(lǐng)域無(wú)關(guān)的文本進(jìn)行分析時(shí),效果不是很好.基于情感詞典的方法核心思想是構(gòu)造情感詞典,對(duì)待分析的文本進(jìn)行預(yù)處理之后,根據(jù)情感詞典進(jìn)行情感詞匹配,這種方法通用性強(qiáng),不需要語(yǔ)料處理工作,但是對(duì)于特定領(lǐng)域的文本,傾向分析效果不是很好.

本文以基于情感詞典的方法為基礎(chǔ),借鑒機(jī)器學(xué)習(xí)的思想,在情感詞典中加入領(lǐng)域情感詞,并構(gòu)造輔助詞典集合,提出一種改進(jìn)的基于情感詞典的傾向分析方法.對(duì)于動(dòng)態(tài)詞,本文給出了一種通過(guò)處理評(píng)論主體來(lái)處理動(dòng)態(tài)表達(dá)的方法,同時(shí)給出一種有監(jiān)督的詞典維護(hù)方法.

1 相關(guān)研究

觀點(diǎn)挖掘按照挖掘粒度來(lái)分可以分為文本級(jí)、句子級(jí)、詞語(yǔ)級(jí).文本級(jí)的挖掘又叫做情感傾向分析或文本分類(lèi),目的是判斷文本是褒義、貶義還是中性.

2002年Turny就提出了基于種子詞匯來(lái)發(fā)現(xiàn)情感詞的方法[2].Pang等使用了貝葉斯、最大熵、支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)的方法來(lái)構(gòu)造分類(lèi)器,并對(duì)這幾種方法進(jìn)行了對(duì)比[3].NozomiKobayashi等構(gòu)建了一個(gè)模式庫(kù),收錄了8種命中率比較高且比較準(zhǔn)的模式用來(lái)提取評(píng)價(jià)主體、評(píng)價(jià)方面和評(píng)價(jià)之間的關(guān)系[4],隨后做了大量的語(yǔ)料工作,研究了主體和屬性、屬性和屬性之間的層次關(guān)系,還對(duì)句子間的關(guān)系抽取做了一定的研究[5].Marrese等考慮到用戶(hù)對(duì)不同的產(chǎn)品發(fā)表不同的評(píng)論,找出旅游領(lǐng)域的特征,構(gòu)造出更復(fù)雜的擴(kuò)充和自然語(yǔ)言處理模型用于旅游領(lǐng)域的挖掘[6].Penalver等通過(guò)在特征選擇階段使用本體來(lái)提高基于特征的觀點(diǎn)挖掘,同時(shí)給傾向性分析提出了一種基于向量的分析方法[7].

朱嫣嵐提出了基于知網(wǎng)的語(yǔ)義傾向計(jì)算[8].孫建旺等利用詞典和機(jī)器學(xué)習(xí)相結(jié)合的方法來(lái)進(jìn)行中文微博的情感分析[9].肖紅等提出結(jié)合句法分析和情感詞典的網(wǎng)絡(luò)輿情分析的方法[10].王勇等構(gòu)建一種情感極性詞典來(lái)對(duì)微博情感進(jìn)行分類(lèi)[11].謝松縣等提出一種用語(yǔ)義關(guān)系構(gòu)建情感詞典的方法將中文情感詞轉(zhuǎn)換為對(duì)應(yīng)的英文,可以解決同一個(gè)詞語(yǔ)在不同語(yǔ)境下的傾向值分析[12].徐曉丹等利用情感詞典及特征加權(quán)相結(jié)合的方法來(lái)進(jìn)行傾向性判別[13].周詠梅等針對(duì)微博上的網(wǎng)絡(luò)用語(yǔ),使用上下文熵和詞頻統(tǒng)計(jì)閾值在過(guò)濾后的微博的語(yǔ)料部分中來(lái)濾篩選網(wǎng)絡(luò)用語(yǔ),構(gòu)建網(wǎng)絡(luò)情感詞典[14].

2 詞典構(gòu)造

本文構(gòu)造的詞典主要包括情感詞典和輔助詞典集,各詞典的關(guān)系如圖1所示.

圖1 詞典集結(jié)構(gòu)關(guān)系Fig.1 Structural relationship of dictionaries

2.1 情感詞典構(gòu)造

將 HowNet[15]發(fā)布的正面評(píng)價(jià)詞典、正面情感詞典、情感詞匯本體[16]中極性為“1”的詞合并去重,構(gòu)成正面基礎(chǔ)情感詞典,且詞語(yǔ)的情感傾向值都為“+1”;將 HowNet中的負(fù)面評(píng)價(jià)詞典、負(fù)面情感詞典、情感詞匯本體中極性為“2”的詞合并去重,構(gòu)成負(fù)面基礎(chǔ)情感詞典,且詞語(yǔ)的情感傾向值都為“-1”.

基礎(chǔ)情感詞典是通用詞典,這種詞典的優(yōu)點(diǎn)通用性強(qiáng).但是通用的情感詞典在領(lǐng)域相關(guān)的文本分析中,面對(duì)含有某些領(lǐng)域相關(guān)的情感詞的評(píng)論的時(shí)候并不能準(zhǔn)確分析出結(jié)果.為了增加對(duì)特定領(lǐng)域的識(shí)別能力,本文借鑒機(jī)器學(xué)習(xí)的思想,對(duì)特定領(lǐng)域進(jìn)行語(yǔ)料分析和學(xué)習(xí),擴(kuò)充基礎(chǔ)情感詞典.基礎(chǔ)情感詞典的擴(kuò)充過(guò)程如下:

step1:對(duì)于每一條訓(xùn)練語(yǔ)料,進(jìn)行分詞和停用詞過(guò)濾.

step2:將經(jīng)過(guò)預(yù)處理之后的文本與基礎(chǔ)情感詞典中的詞語(yǔ)匹配,如果匹配成功,則說(shuō)明該詞語(yǔ)已經(jīng)收錄在基礎(chǔ)情感詞典中,不再考慮;如果未匹配成功,則該詞語(yǔ)屬于未收錄詞語(yǔ),將該詞語(yǔ)加入未收錄候選詞表中.

step3:待所有訓(xùn)練語(yǔ)料處理完畢之后,對(duì)于未收錄候選詞表中的詞,進(jìn)行人工判斷詞語(yǔ)的情感傾向,并且根據(jù)傾向性賦予傾向值(褒義為“+1”,貶義為“-1”),將傾向值為正的詞,加入正向基礎(chǔ)情感詞典中,將傾向值為負(fù)的詞,加入負(fù)向基礎(chǔ)情感詞典中.

本文沒(méi)有使用SO-PMI或PMI等方法去計(jì)算情感詞更為具體的傾向值,原因有如下幾點(diǎn):

a.對(duì)于整個(gè)分析過(guò)程來(lái)講,正向詞傾向值定為+1,負(fù)向詞傾向值定為-1,這樣可以簡(jiǎn)化分析過(guò)程的計(jì)算量,并且具體的傾向值對(duì)傾向分析的影響沒(méi)有否定詞、程度副詞、關(guān)聯(lián)詞等的影響大.如本文這樣定義情感詞的傾向值,在傾向值計(jì)算的時(shí)候節(jié)省了開(kāi)銷(xiāo),配合輔助詞典進(jìn)行分析得到的分析結(jié)果已經(jīng)能夠滿(mǎn)足要求.

b.使用SO-PMI或PMI算法計(jì)算詞語(yǔ)傾向值,需要選擇種子詞,而種子詞的選擇方法沒(méi)有固定標(biāo)準(zhǔn),理論上是選擇情感傾向強(qiáng)烈的詞作為種子詞,但是計(jì)算詞語(yǔ)傾向性強(qiáng)烈程度本身就是要解決的問(wèn)題.另外,選擇的種子詞的數(shù)量對(duì)分析結(jié)果也有影響.

2.2 輔助詞典集的構(gòu)造

2.2.1 停用詞典 停用詞是在表達(dá)中為了語(yǔ)義連貫而添加的沒(méi)有實(shí)際意義的詞語(yǔ),或者對(duì)于情感傾向分析來(lái)說(shuō)沒(méi)有幫助的詞.例如,在“這部手機(jī)太好了”和“這部手機(jī)用著真流暢”中,“了”和“著”這兩個(gè)詞在語(yǔ)言表達(dá)上都沒(méi)有實(shí)際的意義,僅僅只是習(xí)慣表達(dá)或者為了語(yǔ)意連貫而加上的.本文構(gòu)建的停用詞典共收錄停用詞1 118個(gè).

2.2.2 否定詞典 在自然語(yǔ)言中,否定表達(dá)根據(jù)否定詞數(shù)量的不同,分為否定表達(dá)和多重否定.否定詞數(shù)量的多少能夠直接影響情感詞的傾向值.其中否定和三重否定表示的否定的意思,而雙重否定表達(dá)的是著重肯定的意思.這里引入乘積因子β,用來(lái)處理否定詞數(shù)量對(duì)情感詞傾向值的影響.在匹配的過(guò)程中記錄否定詞的匹配的次數(shù),匹配過(guò)程結(jié)束后,若否定詞的數(shù)量為偶數(shù),將β置為2,若否定詞的數(shù)量為奇數(shù),將β置為-1.

2.2.3 程度副詞詞典 程度副詞既可以改變情感詞的傾向性,又可以改變情感詞的傾向值,從而在分句及整句的傾向值計(jì)算中影響傾向分析的結(jié)果,例如“手機(jī)好用”是正面評(píng)價(jià),“手機(jī)很好用”是對(duì)“好用”的加強(qiáng).程度副詞詞典收錄了115個(gè)程度副詞,是將HowNet提供的程度級(jí)別詞典進(jìn)行人工篩選過(guò)濾之后,添加進(jìn)部分新詞構(gòu)成的.本文定義乘積因子α來(lái)綜合表征這三類(lèi)程度副詞的影響,在程度副詞詞典中記錄程度副詞的權(quán)值,在進(jìn)行程度副詞匹配時(shí),若匹配成功,則將情感詞的傾向值乘以α,并用于后續(xù)計(jì)算.程度副詞詞典結(jié)構(gòu)如表1所示.

表1 部分程度副詞及權(quán)值Table 1 Weights of some degree adverbs

2.2.4 關(guān)聯(lián)詞詞典 關(guān)聯(lián)詞是對(duì)傾向性分析影響較大的一個(gè)原因,尤其在中文表達(dá)中,連詞的出現(xiàn)頻率非常高,忽視這些連詞對(duì)傾向性的影響可能會(huì)使傾向值的計(jì)算不準(zhǔn)確,甚至導(dǎo)致傾向分析出現(xiàn)錯(cuò)誤,例如“這個(gè)手機(jī)雖然貴,但是性?xún)r(jià)比高”,這條評(píng)論里重點(diǎn)要表達(dá)的是對(duì)手機(jī)的正面情感,如果不考慮關(guān)聯(lián)詞,“貴”的傾向?yàn)椤埃?”,“性?xún)r(jià)比高”傾向值為“+1”,綜合傾向值為“0”,為中性,但是從漢語(yǔ)語(yǔ)法來(lái)看,這條評(píng)論表達(dá)了作者正面情感.為了處理關(guān)聯(lián)詞對(duì)于傾向分析的影響,本文構(gòu)建了關(guān)聯(lián)詞詞典.關(guān)聯(lián)詞詞典中收錄的是常用的漢語(yǔ)關(guān)聯(lián)詞,根據(jù)這些關(guān)聯(lián)詞對(duì)漢語(yǔ)表達(dá)不同分句之間語(yǔ)義的影響,賦予關(guān)聯(lián)詞所影響的分句不同的權(quán)值.定義參數(shù)θ表征重點(diǎn)分句的權(quán)值(非重點(diǎn)分句權(quán)值為1),部分關(guān)聯(lián)詞權(quán)重如表2所示.

表2 部分關(guān)聯(lián)詞及權(quán)重Table 2 Weights of some conjunctivewords

2.2.5 動(dòng)態(tài)詞典 動(dòng)態(tài)詞的處理是近年中文情感傾向分析中的一個(gè)難點(diǎn).所謂動(dòng)態(tài)詞,就是情感傾向不固定,隨著語(yǔ)境和評(píng)論主體的不同會(huì)發(fā)生變化的詞,如“快”、“高”等情感詞,單獨(dú)從詞語(yǔ)的傾向性來(lái)看是褒義的,收錄在正面情感詞典中,但是在“耗電快”、“發(fā)熱高”等表達(dá)中,顯然是負(fù)面的.

在不涉及領(lǐng)域的通用詞典中,對(duì)于這類(lèi)詞語(yǔ)是無(wú)法識(shí)別的,因?yàn)橥ㄓ迷~典是基于詞語(yǔ)匹配來(lái)分析的,無(wú)法識(shí)別語(yǔ)義信息.無(wú)法識(shí)別動(dòng)態(tài)情感詞將會(huì)大大降低情感分析的準(zhǔn)確度.

通過(guò)對(duì)大量語(yǔ)料研究,發(fā)現(xiàn)動(dòng)態(tài)表達(dá)呈現(xiàn)一定的規(guī)律,即情感詞之所以能夠表現(xiàn)出動(dòng)態(tài)的情感傾向,是因?yàn)檫@些動(dòng)態(tài)詞描述的是評(píng)論主體或評(píng)論主體某一屬性的特點(diǎn),而這些屬性往往是領(lǐng)域相關(guān)的,且情感詞往往具有與平時(shí)表達(dá)相反的情感傾向,如上文“耗電快”、“發(fā)熱高”等表達(dá)中的“快”、“高”.

在不涉及特定領(lǐng)域的傾向分析中,這些評(píng)論主體數(shù)量很多,但是具體到特定的領(lǐng)域,這些評(píng)論主體的數(shù)量就非常有限了,而本文的研究目的也正好是在保留通用性的情況下來(lái)滿(mǎn)足領(lǐng)域適用性,所以經(jīng)過(guò)大量的語(yǔ)料研究,提出了一種解決動(dòng)態(tài)詞傾向識(shí)別的方法,即構(gòu)建一個(gè)動(dòng)態(tài)詞典,其中收錄能夠改變情感詞傾向性的評(píng)論主體.通過(guò)上面的分析,筆者認(rèn)為解決動(dòng)態(tài)詞的核心不是怎樣去處理動(dòng)態(tài)詞本身,而是怎樣去識(shí)別動(dòng)態(tài)詞所描述的對(duì)象.通過(guò)語(yǔ)料分析,動(dòng)態(tài)詞的數(shù)量是不多的,涉及到特定領(lǐng)域的就更少了,但是這部分少量的動(dòng)態(tài)詞卻對(duì)某些評(píng)論的傾向分析的結(jié)果的準(zhǔn)確性起到了決定性的作用.

由于目前對(duì)動(dòng)態(tài)詞的研究還處于初步階段,本文給出了處理動(dòng)態(tài)詞的一種方法,但是動(dòng)態(tài)詞典的構(gòu)建需要手動(dòng)完成.

2.3 新詞發(fā)現(xiàn)及詞典維護(hù)方法

傾向分析中另外一個(gè)難點(diǎn),就是新詞識(shí)別的問(wèn)題.這里的新詞指的是情感詞典中未收錄的詞語(yǔ).例如“給力”、“坑爹”、“不明覺(jué)厲”等,這些詞是不符合漢語(yǔ)語(yǔ)法規(guī)則的,但是借由網(wǎng)絡(luò)快速傳播,從而讓大部分網(wǎng)民了解并廣泛使用.

目前國(guó)內(nèi)有部分這方面的研究,都是通過(guò)復(fù)雜的自動(dòng)發(fā)現(xiàn)算法來(lái)識(shí)別新詞,這樣做的優(yōu)點(diǎn)是完全不需要人工參與,但是就目前的研究現(xiàn)狀來(lái)看,識(shí)別效果并不是很好,而且算法復(fù)雜,開(kāi)銷(xiāo)很大.綜合考慮識(shí)別效果、算法復(fù)雜度、計(jì)算開(kāi)銷(xiāo)等因素,本文提出一種有監(jiān)督的新詞發(fā)現(xiàn)方法.

橫向比較每個(gè)網(wǎng)絡(luò)用語(yǔ)出現(xiàn)的時(shí)間,發(fā)現(xiàn)如此多的網(wǎng)絡(luò)用語(yǔ)并不是在短時(shí)間內(nèi)集中出現(xiàn)的,而是在相對(duì)較長(zhǎng)的時(shí)間里零散的出現(xiàn).考慮到這種事實(shí),花費(fèi)少量的人工來(lái)?yè)Q取高效的新詞發(fā)現(xiàn)效率是可行的,主要過(guò)程如下:

a.當(dāng)發(fā)現(xiàn)未匹配的分詞片段的時(shí)候,不僅僅只記錄該片段,同時(shí)記錄該片段的上一片段和下一片段,這樣當(dāng)提交給人工判斷時(shí)候方便人工進(jìn)行正確處理;

b.當(dāng)未匹配片段達(dá)到閾值,交由人工判斷,若判定為未收錄新詞,將該詞加入情感詞典或輔助詞典集中對(duì)應(yīng)的詞典;對(duì)于判斷為不是新詞的組合,添加進(jìn)非情感詞典中,這樣可以避免重復(fù)判斷不是新詞的高頻組合.

關(guān)于閾值T的設(shè)定可以根據(jù)分析規(guī)模的大小來(lái)設(shè)定.

這種新詞發(fā)現(xiàn)方法可以用來(lái)收錄情感詞典中為收錄的新詞,也可以用來(lái)維護(hù)構(gòu)建輔助詞典集.

3 傾向計(jì)算與結(jié)果分析

3.1 傾向值計(jì)算方法

通過(guò)分析可知,進(jìn)行傾向分析的評(píng)論必須是同一主體,若評(píng)論中含有多個(gè)評(píng)論主體,則需進(jìn)行句子級(jí)的挖掘.

設(shè)計(jì)傾向值計(jì)算方法的思路是先計(jì)算分句的傾向值,再計(jì)算整句的傾向值,最后計(jì)算文本的傾向值.算法描述如下:

輸入:待分類(lèi)文本d,情感詞典sendic,停用詞典stopdic,否定詞典ndic,程度副詞詞典levdic,關(guān)聯(lián)詞典reldic,動(dòng)態(tài)詞典dyndic;

輸出:文本d的分析結(jié)果

step1:將待分類(lèi)文本d使用中科院的分詞系統(tǒng) ICTCLAS[17]進(jìn)行分詞;

step2:將分詞完成的文本使用停用詞典stopdic進(jìn)行過(guò)濾;

step3:將文本按照句號(hào)劃分成整句集合S={S1,S2,..Sn}, 并對(duì)每一個(gè)整句根據(jù)逗號(hào)和分號(hào)劃分成分句 s1,s2,..sn;

step4:對(duì)每一分句使用情感詞典sendic匹配情感詞,若匹配失敗,則對(duì)下一分句進(jìn)行匹配,直至所有分句匹配失?。蝗羝ヅ涑晒?,進(jìn)行下一步;

step5:從情感詞的位置開(kāi)始反向遍歷分句,根據(jù)程度副詞詞典levdic匹配程度副詞,若匹配到程度副詞,則置乘積因子α=2,否則置乘積因子為1;

step6:從情感詞的位置反向遍歷分句,根據(jù)否定詞典ndic匹配否定詞,記錄否定詞的數(shù)量n,若n為奇數(shù),則置乘積因子β=-1,若為非0偶數(shù),則置為2,若為0則置為1;

step7:從情感詞的位置反向遍歷分句,根據(jù)動(dòng)態(tài)詞典dyndic匹配動(dòng)態(tài)情感詞的評(píng)論主體,若匹配成功,則將情感詞的傾向性改變,傾向值的絕對(duì)值不變;

step8:從情感詞的位置反向遍歷分句,根據(jù)關(guān)聯(lián)詞典reldic匹配關(guān)聯(lián)詞,根據(jù)關(guān)聯(lián)詞典中定義的分句權(quán)值確定乘積因子θ的值;

step9:根據(jù)公式(1)計(jì)算文檔d的傾向值O rientation(d);

step10:若d的傾向值>0,則文檔為褒義;若d的傾向值<0,則文檔為貶義.

式(1)中m為整句中分句的數(shù)量,n為文檔中整句的數(shù)量.O ri(w)為分句中情感詞結(jié)合動(dòng)態(tài)詞典dyndic之后的傾向值,α表示程度副詞對(duì)傾向性分析的影響;β表示否定詞對(duì)傾向性分析的影響;θ表示關(guān)聯(lián)詞對(duì)情感分析的影響.

3.2 試驗(yàn)和結(jié)果分析

以手機(jī)領(lǐng)域的評(píng)論為例,進(jìn)行情感詞典的擴(kuò)充和動(dòng)態(tài)詞典的構(gòu)造.實(shí)驗(yàn)數(shù)據(jù)為數(shù)據(jù)堂下載的真實(shí)手機(jī)評(píng)論.從獲取的手機(jī)評(píng)論中隨機(jī)選擇2 000條作為訓(xùn)練語(yǔ)料,用于情感詞典的構(gòu)建.從中選擇1 000條作為測(cè)試語(yǔ)料用于實(shí)驗(yàn)結(jié)果分析.

通過(guò)對(duì)2 000條訓(xùn)練語(yǔ)料進(jìn)行以上處理,新增了71個(gè)領(lǐng)域情感詞.其中褒義23個(gè),貶義48個(gè).將褒義詞添加進(jìn)正向基礎(chǔ)情感詞典,構(gòu)成正面情感詞典,將貶義詞添加進(jìn)負(fù)向基礎(chǔ)情感詞典,構(gòu)成負(fù)面情感詞典.構(gòu)成的正面情感詞典和負(fù)面情感詞典部分內(nèi)容如表3所示.

然后人工在手機(jī)評(píng)論的語(yǔ)料中搜集動(dòng)態(tài)情感詞的評(píng)論主體和評(píng)論主體的屬性,構(gòu)成動(dòng)態(tài)詞典,部分動(dòng)態(tài)詞典如圖2所示.

表3 部分正面情感詞Table 3 Some positive emotionalwords

圖2 部分動(dòng)態(tài)詞Fig.2 Some dynamic terms

邀請(qǐng)3位標(biāo)注者分別對(duì)1 000條測(cè)試語(yǔ)料進(jìn)行人工標(biāo)注,然后對(duì)標(biāo)注結(jié)果進(jìn)行匯總,若有兩名標(biāo)注者或所有標(biāo)注者對(duì)語(yǔ)料標(biāo)注為正向,則語(yǔ)料傾向性為正,若有兩名標(biāo)注者或所有標(biāo)注者對(duì)語(yǔ)料標(biāo)注為負(fù)向,則語(yǔ)料傾向性為負(fù).

將本文提出的方法和傳統(tǒng)的使用HowNet計(jì)算的方法進(jìn)行比較,為了更具體的對(duì)比分析兩種方法,對(duì)正面情感和負(fù)面情感分開(kāi)計(jì)算,結(jié)果如表4所示.

表4 實(shí)驗(yàn)結(jié)果Table 4 Experimental results

通過(guò)對(duì)上表實(shí)驗(yàn)數(shù)據(jù)的分析可以得到以下結(jié)論:

在進(jìn)行領(lǐng)域相關(guān)文本的傾向性分析時(shí),本文提出的方法在正面情感的判斷和負(fù)面情感的判斷上,無(wú)論準(zhǔn)確率和召回率都要比基于HowNet的傳統(tǒng)情感詞典方法要高.首先是因?yàn)閷?duì)HowNet進(jìn)行了篩選過(guò)濾,去除了不符合收錄規(guī)則的詞;其次是進(jìn)行了領(lǐng)域相關(guān)的訓(xùn)練語(yǔ)料的學(xué)習(xí)工作,引入了領(lǐng)域情感詞,并且擴(kuò)充了網(wǎng)絡(luò)流行用語(yǔ),對(duì)領(lǐng)域相關(guān)的評(píng)論進(jìn)行分析可以提高分析的準(zhǔn)確度;第三是輔助詞典集全面的考慮了語(yǔ)義和句子間的結(jié)構(gòu)關(guān)系,能夠處理否定詞、程度副詞、關(guān)聯(lián)詞,能夠提高傾向值計(jì)算的準(zhǔn)確性,對(duì)于動(dòng)態(tài)詞的識(shí)別能夠增強(qiáng)分析的準(zhǔn)確度.

4 結(jié) 語(yǔ)

以上提出的一種基于領(lǐng)域情感詞典的網(wǎng)絡(luò)評(píng)論傾向分析方法,給出了情感詞典的構(gòu)建和擴(kuò)充方法,并通過(guò)構(gòu)建輔助詞典集以及有監(jiān)督的維護(hù)方法來(lái)進(jìn)行輔助分析.

目前的方法還存在以下不足:不能識(shí)別網(wǎng)絡(luò)表達(dá)中表情符號(hào)和不符合語(yǔ)法規(guī)則的表達(dá);需要研究出自動(dòng)的新詞發(fā)現(xiàn)方法;對(duì)于特殊句式如反問(wèn)句等還不能識(shí)別.將在今后的工作中對(duì)這些問(wèn)題做進(jìn)一步的研究.

[1]黃萱菁,張奇,吳苑斌.文本情感傾向分析[J].中文信息學(xué)報(bào),2011,10(9):118-126.H UANG Xuan jing,Zhang Qi, W U Yuan bin.A Survey on Sentiment Analysis [J].Journal of Chinese information,2011,10(9) 118-126.(in Chinese)

[2]Turney PD.Thumbs up or thumbs down semantic orientation applied to unsupervised classification of views[C]//Proceedings of the 40th annualmeeting on association for computational linguistics.Philadelphia: Association for Computational Linguistics,2002:417-424.

[3]Pang B, Lee L.Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales [C]//Proceedings of the 43rd annualmeeting on association for computational linguistics.New York:NJ,ACM,2005:115-124.

[4]Nozomi Kobayashi, Kentaro Inui, Yuji Matsumoto.Collecting Evaluation Expressions for Opinion ExtractionIn[C]//Proceedings of the 1st International Joint Conference on Natural Language Processing(IJCNLP).2004:584–589.

[5]Nozomi Kobayashi, Kentaro Inui, Yuji Matsumoto.Extracting Aspect-Evaluating and Aspect-of Relatons in Opinion mining [C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Prague, June 2007:1065-1074.

[6]Marrese-Taylor E, Velasquez JD, Bravo-Marquez F.A novel deterministic approach for aspect-based opinionmining in tourism products reviews[J].Expert Systemswith Applications,2014,41(17):7764-7775.

[7]Penalver-Martinez I, Garcia-Sanchez F,Valencia-Garcia R,et al.Feature-based opinion mining through ontologies [J].Expert System with Applications,2014,41(13):5995-6008.

[8]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào), 2006,20(1):14-20.ZHU Yan-lan,MIN Jin,ZHOU Ya-qian,etc.Semantic orientation computing based on hownet[J].Journal of Chinese I nformation,2006,20(1):14-20.(in Chinese)

[9]孫建旺,呂學(xué)強(qiáng),張鐳翰.基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(7):177-181.S UN Jianwang L V Xueqiang Zhang Leihan.O n sentiment analysis of chinese microblogging based on lexicon and machine learning[J].Journal of C omputer A pplications and S oftware,2014,31(7):177-181.(in Chinese)

[10]肖紅,許少華.基于句法分析和情感詞典的網(wǎng)絡(luò)輿情傾向性分析研究[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(4):811-813.XIAO Hong,XU Shao- hua.Analysis on web public opinion orientation based on syntactic parsing and emotional dictionary [J].Small M icrocomputer system,2014,35(4):811-813.(in Chinese)

[11]王勇,呂學(xué)強(qiáng),姬連春,等.基于極性詞典的中文微博客情感分類(lèi) [J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(1):35-37,126.W ANG Yong, L V Xueqiang, J I Lianchun,et al.S entiment classification for chinese microblogging based on polarity lexicons [J].Computer A pplications and S oftware, 2014,31(1):35-37,126.(in Chinese)

[12]徐曉丹,段正杰,陳中育.基于擴(kuò)展情感詞典及特征加權(quán)的情感挖掘方法[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2014,144(6):15-18,69.XU Xiaodan,DUAN Zhengjie,CHEN Zhongyu.The sentimentminingmethod based on extended sentiment dictionary and integrated features [J].Journal of S handong U niversity(engineering science),2014,144(6):15-18,69.(in Chinese)

[13]謝松縣,劉博,王挺.應(yīng)用語(yǔ)義關(guān)系自動(dòng)構(gòu)建情感詞典[J].國(guó)防科技大學(xué)學(xué)報(bào), 2014,36(3):111-115.XIE Songxian,LIU Bo,WANG Ting.Applying semantic relations to construct sentiment lexicon automaticlly [J].Journal of N ational U niversity of D efense T echnology,2014,36(3):111-115.(in Chinese)

[14]周詠梅,陽(yáng)愛(ài)民,林江豪.中文微博情感詞典構(gòu)建方法[J].山東大學(xué)學(xué)報(bào)(工學(xué)版), 2014,4(3):36-40.ZHOU Yongmei,YANG Aimin,LIN Jianghao. A method of building Chinese microblog sentiment lexicon[J].Journal of S handong U niversity (engineering science), 2014,4(3):36-40.(in Chinese)

[15]周強(qiáng),馮松巖.構(gòu)建知網(wǎng)關(guān)系的網(wǎng)狀表示[J].中文信息學(xué)報(bào),2000,14(6):21-27.ZHOU Qiang ,F(xiàn)ENG Song-yan.Build a relation network representation for How-net.Journal of Chinese information,2000,14(6):21-27.(in Chinese)

[16]郭凱.基于評(píng)論情感的微博謠言檢測(cè)研究 [D].大連:大連理工大學(xué),2014.G UO Kai.The research of Microblog Rumors Dection Based on Comments Sentiment[D].Dalian: dalian university of technology,2014.(in Chinese)

[17]蔡小艷,寇應(yīng)展,沈巍,等.漢語(yǔ)詞法分析系統(tǒng)ICTCLAS在 Nutch一 0.9中的應(yīng)用與實(shí)現(xiàn) [J].軍械工程學(xué)院學(xué)報(bào), 2008, 20(5):63-70.CAIXiao yan, KOU Ying zhan , Shen Wei,et al.The Application and Realization of ICTCLASon Nutch-0.9[J].Journal of ordnance engineering college,2008,20(5):63-70.(in Chinese)

猜你喜歡
關(guān)聯(lián)詞傾向性語(yǔ)料
用關(guān)聯(lián)詞造句
高中摯友情誼長(zhǎng)
Your high school friends are your lifelong friends
基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測(cè)
關(guān)聯(lián)詞的秘密
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
“沒(méi)準(zhǔn)兒”“不一定”“不見(jiàn)得”和“說(shuō)不定”的語(yǔ)義傾向性和主觀性差異
《苗防備覽》中的湘西語(yǔ)料
融水| 惠水县| 宣威市| 尼木县| 枣庄市| 阳曲县| 专栏| 宣汉县| 繁峙县| 柘荣县| 遂宁市| 西和县| 奎屯市| 保德县| 锡林郭勒盟| 平山县| 准格尔旗| 如皋市| 皮山县| 贵州省| 株洲市| 南宁市| 闽侯县| 黑河市| 孟连| 隆回县| 徐汇区| 黄浦区| 文化| 当阳市| 扎囊县| 积石山| 周宁县| 泸溪县| 清涧县| 石景山区| 荥阳市| 罗平县| 黄梅县| 连云港市| 托克托县|