国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種中文偽評(píng)論語料半自動(dòng)獲取方法

2016-05-04 00:59:56郝秀蘭許方曲蔣云良
中文信息學(xué)報(bào) 2016年1期
關(guān)鍵詞:傾向性語料賓語

郝秀蘭,許方曲,蔣云良

(湖州師范學(xué)院 信息工程學(xué)院,浙江 湖州 313000)

一種中文偽評(píng)論語料半自動(dòng)獲取方法

郝秀蘭,許方曲,蔣云良

(湖州師范學(xué)院 信息工程學(xué)院,浙江 湖州 313000)

該文提出了一種中文偽評(píng)論語料半自動(dòng)收集方法,主要包括數(shù)據(jù)收集、句法分析、情感傾向性分析等方法,并對(duì)影響方法正確性的錯(cuò)誤進(jìn)行了總結(jié)。文中著重介紹了一種句法分析方法,在句法分析的基礎(chǔ)上提出了<評(píng)價(jià)對(duì)象,評(píng)價(jià)短語>的提取方法。該提取方法簡化了情感二元對(duì)的句法呈現(xiàn)模式。同時(shí),對(duì)部分實(shí)驗(yàn)結(jié)果進(jìn)行了分析,對(duì)提高文本情感分析的準(zhǔn)確率提出了一些建議。

計(jì)算機(jī)應(yīng)用;中文信息處理;傾向性分析;偽中文評(píng)論;半自動(dòng)獲取

1 引言

情感分析(sentiment analysis)[1-3],又稱觀點(diǎn)挖掘(opinion mining),是指通過挖掘文本中的觀點(diǎn)、看法、情緒、好惡等主觀信息,對(duì)文本的情感傾向做出類別判斷[4]。情感分析是網(wǎng)絡(luò)輿情、互聯(lián)網(wǎng)信息監(jiān)控使用的關(guān)鍵技術(shù)之一。

除了在互聯(lián)網(wǎng)輿情監(jiān)控領(lǐng)域的應(yīng)用[5],情感分析也被廣泛應(yīng)用于生活信息服務(wù)、醫(yī)療服務(wù)等關(guān)系民生的眾多行業(yè)[6-8]。本文關(guān)注的是文本情感分析在電子商務(wù)中的應(yīng)用。

電子商務(wù)網(wǎng)站中,有些特殊的評(píng)論:有的評(píng)論把好的產(chǎn)品/服務(wù)說成是不好的,有的把不好的產(chǎn)品/服務(wù)說成是好的,這兩類評(píng)論合稱為“偽評(píng)論”[1-2,8],偽評(píng)論是垃圾評(píng)論的一種。在現(xiàn)實(shí)中,這兩類評(píng)論都是非常有害的,前者損害商家的利益,后者損害消費(fèi)者的利益。但是,偽評(píng)論與真實(shí)評(píng)論混在一起,用人工的方法很難區(qū)分。

在文本分類中常用的訓(xùn)練數(shù)據(jù)集(又稱語料)獲取方法是人工標(biāo)注。但是,“偽評(píng)論”是人工不可識(shí)別的,也就是說,無法采用專家標(biāo)注的方法對(duì)其進(jìn)行標(biāo)注。

我們對(duì)現(xiàn)有的觀點(diǎn)挖掘語料進(jìn)行了調(diào)查,TREC設(shè)置的Blog Track、NTCIR的評(píng)測MOAT、中文傾向性分析評(píng)測COAE系列提供了一定規(guī)模的中文觀點(diǎn)挖掘語料。除此之外,不少研究單位和個(gè)人也提供了一定規(guī)模的觀點(diǎn)挖掘語料。但是,迄今為止,我們未發(fā)現(xiàn)專門用于中文偽評(píng)論檢測的語料。

Ott等[9]針對(duì)偽評(píng)論難于獲得的問題,借助Amazon Mechanical Turk[10]平臺(tái),收集了400篇欺騙性垃圾(宣傳性的“偽評(píng)論”),實(shí)驗(yàn)結(jié)果表明crowdsourcing是有效的。不幸的是,國內(nèi)沒有這樣的平臺(tái);我們國內(nèi)的用戶又不習(xí)慣到Amazon Mechanical Turk申請(qǐng)并完成“眾包”任務(wù)。

目前既沒有垃圾產(chǎn)品評(píng)論分析用的中文語料,也沒有相關(guān)的中文評(píng)論語料收集網(wǎng)站。為了取得“偽評(píng)論”語料,我們需要自己開發(fā)一個(gè)類似于Amazon Mechanical Turk的平臺(tái)。本文提出一種中文偽評(píng)論語料半自動(dòng)收集方法,主要采用了crowdsourcing思想,通過前臺(tái)網(wǎng)站針對(duì)性地收集用戶“創(chuàng)作”的評(píng)論,同時(shí)在后臺(tái)加入了相關(guān)文本處理技術(shù),對(duì)用戶提交的偽評(píng)論文本自動(dòng)進(jìn)行主題識(shí)別與傾向性分析,以減少管理人員的工作量。

本文的文本傾向性分析工作涉及到兩方面的內(nèi)容:

<評(píng)價(jià)對(duì)象,評(píng)價(jià)詞語>二元對(duì)的抽取及其傾向性確定。Popeseu[11]、李巖[12]、張莉[13]等嘗試使用句法關(guān)系模板挖掘二元對(duì)之間的修飾關(guān)系?;谀0宓姆椒▋?yōu)點(diǎn)是準(zhǔn)確率高,缺點(diǎn)是擴(kuò)展性差。Titov[14], C. Sauper[15]采用話題模型挖掘情感文本中的評(píng)價(jià)對(duì)象、評(píng)價(jià)短語。話題模型理論上的召回率較高,但是不易理解。

評(píng)論整體傾向性的確定。依靠一些已有的情感詞典對(duì)帶有情感傾向性的評(píng)價(jià)單元進(jìn)行計(jì)算,進(jìn)行傾向性加權(quán)求和來獲取文本傾向,代表性的工作有Hu MQ[16]。由于“部分相加不等于整體”現(xiàn)象的存在,這種方法是有缺陷的。

中國科學(xué)院自動(dòng)化研究所的宗成慶[17]利用詞性、詞作為組合特征進(jìn)行分類;中科院自動(dòng)化所的王根、趙軍[18]提出基于多重冗余標(biāo)記的CRFs,使用不同特征,將情感分析中的多個(gè)分類任務(wù)統(tǒng)一在一個(gè)模型之中;Andrew L. Maas[19]通過學(xué)習(xí)詞匯向量來獲取詞匯-文檔間的語義信息及情感內(nèi)容;L. Jiang[20]等在對(duì)Twitter進(jìn)行情感分類時(shí),結(jié)合了與目標(biāo)相關(guān)的特征,并考慮了相關(guān)的tweets,提高了與目標(biāo)相關(guān)的情感分類的性能。綜上所述,融合多種相關(guān)信息有利于提高情感分類的準(zhǔn)確率。

我們根據(jù)基本思想構(gòu)建了一個(gè)平臺(tái)原型。該平臺(tái)既能夠用來收集中文偽評(píng)論語料,又可以當(dāng)作一個(gè)中文文本傾向性分析工具,還可以當(dāng)作一個(gè)淺層中文句法分析工具來用。

2 基本思想

偽評(píng)論的收集主要采用了crowdsourcing思想,同時(shí)在后臺(tái)加入了相關(guān)主題識(shí)別與傾向性分析等文本處理技術(shù),對(duì)用戶提交的評(píng)論文本自動(dòng)進(jìn)行分析,以減少管理人員的工作量。

2.1 評(píng)論生成

產(chǎn)品的背景材料,包括產(chǎn)品種類、產(chǎn)品介紹等通過前臺(tái)網(wǎng)站展現(xiàn)給用戶,用戶閱讀相關(guān)材料之后,可以“創(chuàng)作”并提交評(píng)論。經(jīng)后臺(tái)主題分析及傾向性分析之后,管理員讀取傾向性分析結(jié)果為正的評(píng)論進(jìn)行審核后,最終確定該評(píng)論是否符合要求。如果評(píng)論通過了管理員的審核,那么這個(gè)評(píng)論就是一個(gè)合格的宣傳性“偽評(píng)論”,可用作識(shí)別宣傳性“偽評(píng)論”的訓(xùn)練樣本。管理員可以把一批合格的宣傳性“偽評(píng)論”從數(shù)據(jù)中心導(dǎo)出,交給相關(guān)人員使用。

2.2 主題分析

我們使用了簡單的主題判定方法,對(duì)于每一個(gè)產(chǎn)品類別,我們都提供了目前所知的品牌名稱(中英文均給出)。由于以文本文件的形式提供,未被包括在內(nèi)的新品牌,用戶可隨時(shí)添加。通過判斷評(píng)論文本中是否包含這類產(chǎn)品的品牌之一,來確定評(píng)論是否主題相關(guān)。如果評(píng)論不包含該類產(chǎn)品的任意一個(gè)品牌,那么就認(rèn)為主題無關(guān)。

2.3 句法及評(píng)論傾向性分析

句法分析建立在分詞及詞性標(biāo)注的基礎(chǔ)上,通過反復(fù)應(yīng)用漢語短語組成規(guī)則,進(jìn)行短語分析,詳見第三節(jié)。對(duì)包含產(chǎn)品某個(gè)特征或評(píng)價(jià)詞語的短語,進(jìn)行進(jìn)一步分析處理,識(shí)別出<評(píng)價(jià)對(duì)象,評(píng)價(jià)詞語>二元對(duì),并確定其傾向性;在此基礎(chǔ)上,根據(jù)評(píng)價(jià)對(duì)象(屬性)在整個(gè)產(chǎn)品中的重要性,對(duì)其進(jìn)行加權(quán)處理,得到整個(gè)評(píng)論的情感傾向,詳見第四節(jié)。與Hu MQ[16]工作的不同之處在于我們對(duì)產(chǎn)品的整體評(píng)價(jià)也加了一部分權(quán)重。分詞及詞性標(biāo)注使用了NLPIR/ICTCLAS2014 windows調(diào)用模塊[21]。

3 句法分析

我們從網(wǎng)上免費(fèi)下載的NLPIR/ICTCLAS2014分詞系統(tǒng)名詞識(shí)別及詞性標(biāo)注較準(zhǔn)確,但是有關(guān)動(dòng)詞的知識(shí)提供的并不多。在提供的詞性標(biāo)注文檔中,包含有vd 副動(dòng)詞、vx 形式動(dòng)詞、vi 不及物動(dòng)詞(內(nèi)動(dòng)詞)等可特殊使用的動(dòng)詞標(biāo)記。但是,我們?cè)趯?shí)際使用時(shí)發(fā)現(xiàn),這三類標(biāo)記使用的較少,尤其是“會(huì)”、“可能”等這些副動(dòng)詞,在該分詞系統(tǒng)標(biāo)注中都簡單地標(biāo)為“v”。在句法分析中,動(dòng)詞是最重要的詞類之一,直接影響句法分析的結(jié)果。所以,對(duì)于NLPIR/ICTCLAS2014分詞系統(tǒng)標(biāo)注過詞性的評(píng)論文本,我們還需要進(jìn)一步處理,補(bǔ)充動(dòng)詞的相關(guān)知識(shí)。

3.1 面向自動(dòng)漢語句法分析的動(dòng)詞/形容詞詞性標(biāo)注

英文動(dòng)詞通過詞形變化來表示時(shí)態(tài),還可以通過變化的詞形式來表示分詞短語(過去分詞、現(xiàn)在分詞)、動(dòng)名詞(動(dòng)詞+ing)等,通過這些詞形我們能夠確切地了解作者使用動(dòng)詞的意圖。但是,在信息處理用漢語里,動(dòng)詞到底怎么用,在目前的分詞及詞性標(biāo)注系統(tǒng)里,沒有得到很好地體現(xiàn)。例如,“v+n”這種結(jié)構(gòu),可以是動(dòng)賓結(jié)構(gòu),也可以是定中結(jié)構(gòu),遇到這個(gè)結(jié)構(gòu),我們?cè)撛趺刺幚??鑒于“v+n”結(jié)構(gòu)表示的動(dòng)賓短語較多,我們對(duì)“v+n”表示定中結(jié)構(gòu)當(dāng)作特例來進(jìn)行處理。

另外,在漢語中,有些動(dòng)詞只能帶動(dòng)詞或形容詞作賓語,對(duì)于這些動(dòng)詞我們都進(jìn)行了特殊處理,以保證短語分析的正確性。

3.1.1 帶動(dòng)詞的定中結(jié)構(gòu)

在漢語中,也存在不及物動(dòng)詞,如“落”、“流”、“搗蛋”等。當(dāng)“v+n”結(jié)構(gòu)中的動(dòng)詞是不及物動(dòng)詞時(shí),只能是定中結(jié)構(gòu)[22-23]。我們用vi表示不及物動(dòng)詞,構(gòu)建了一個(gè)不及物動(dòng)詞表vi.txt,并將”vi+n”表示為一個(gè)定中結(jié)構(gòu)的構(gòu)成規(guī)則。對(duì)于NLPIR/ICTCLAS2014分詞及詞性標(biāo)注后的元標(biāo)注數(shù)據(jù),凡是出現(xiàn)在vi.txt且標(biāo)注為“v”的詞,我們將它的詞性統(tǒng)一更新為“vi”。

由動(dòng)詞和一些語素用字、后接成分組合,也可以構(gòu)成定中結(jié)構(gòu)。例如,v+ng,v+k,v+rg,v+ag。這里,ng是名詞性語素,ag是形容詞性語素,rg是代詞性語素,k是后綴。

動(dòng)詞性語素vg與其后的名詞一起,也可構(gòu)成定中結(jié)構(gòu),形式為:vg+n。

3.1.2 能愿動(dòng)詞

漢語的能愿動(dòng)詞也叫“助動(dòng)詞”,是一類表示可能、必要、必然、意愿等意義的動(dòng)詞,如“不用”、“能”、“會(huì)”、 “應(yīng)該”等。在語言學(xué)界,有的把它當(dāng)作副詞,認(rèn)為它在修飾后面的動(dòng)詞[24];而有的則把它當(dāng)作是必須以動(dòng)詞作賓語的動(dòng)詞。為方便處理,也為了與英語中這類詞的使用方法保持一致,我們把此類動(dòng)詞當(dāng)副詞來處理。我們采用vd.txt能愿動(dòng)詞表對(duì)標(biāo)注后的數(shù)據(jù)詞性作了更新,將它的詞性統(tǒng)一更新為“vd”。

3.1.3 帶動(dòng)詞作賓語的動(dòng)詞

在現(xiàn)代漢語中,有些動(dòng)詞是可以帶動(dòng)詞作賓語的[25]。語言學(xué)研究人員認(rèn)為,心理動(dòng)詞和使令動(dòng)詞就是這樣的動(dòng)詞。經(jīng)反復(fù)查看資料,我們整理了四部可帶動(dòng)詞作賓語的動(dòng)詞:VObjVV.txt存放只可動(dòng)詞作賓語的動(dòng)詞,VObjVN.txt存放可用名詞、動(dòng)詞作賓語的動(dòng)詞,VObjNVA.txt存放可用名詞、動(dòng)詞、形容詞作賓語的動(dòng)詞,VObjVA.txt存放可以用動(dòng)詞、形容詞作賓語的動(dòng)詞。每部詞典的名字即該類動(dòng)詞的詞性標(biāo)注符號(hào)。后面的兩部詞典中的動(dòng)詞也可以用形容詞作賓語,與下面的形賓動(dòng)詞共享數(shù)據(jù)。

3.1.4 形賓動(dòng)詞

形賓動(dòng)詞是指可以用形容詞作賓語的動(dòng)詞。語言學(xué)研究人員研究發(fā)現(xiàn),在《動(dòng)詞用法詞典》收錄的動(dòng)詞中,有135個(gè)動(dòng)詞可帶形容詞作賓語[26]。這135個(gè)動(dòng)詞把同形異義的詞當(dāng)作不同的詞來處理.進(jìn)一步地,這135個(gè)動(dòng)詞又可以細(xì)化為四類,放在不同的詞典中,使用不同的標(biāo)注方法來標(biāo)注這些詞。

VObjA.txt里存放只可以用形容詞作賓語的動(dòng)詞,有四個(gè)詞;VObjNA.txt存放可以用名詞、形容詞作賓語的動(dòng)詞,去重后共45個(gè)詞;VObjNVA.txt存放可用名詞、動(dòng)詞、形容詞作賓語的動(dòng)詞,去重后共71個(gè)詞;VObjVA.txt存放可以用動(dòng)詞、形容詞作賓語的動(dòng)詞,去重后共十個(gè)詞。每部詞典的名字即該類動(dòng)詞的詞性標(biāo)注符號(hào)。后面的兩部詞典與上面的可用動(dòng)詞作賓語的動(dòng)詞共享數(shù)據(jù)。

3.2 基于正則表達(dá)式匹配的句法分析

正則表達(dá)式,又稱正規(guī)表示法、常規(guī)表示法(regular expression),是計(jì)算機(jī)科學(xué)中的一個(gè)概念。正則表達(dá)式使用單個(gè)字符串來描述、匹配一系列符合某個(gè)句法規(guī)則的字符串。

本文系統(tǒng)使用的局部句法分析把所要分析的短語結(jié)構(gòu)用正則表達(dá)式來表示。而帶有詞性標(biāo)注的字符串(經(jīng)3.1的動(dòng)詞標(biāo)注處理之后)可以分離成字串、標(biāo)注串,局部句法分析主要使用在標(biāo)注串中查找表示成正則表達(dá)式的短語的方法來實(shí)現(xiàn)。

根據(jù)各種短語的構(gòu)成特點(diǎn)[22-29],我們對(duì)其進(jìn)行了分類。有些在整個(gè)句子的識(shí)別過程中,只需要使用一次,我們把它放在了表1(部分實(shí)例);而有的短語結(jié)構(gòu)可能需要多次處理,我們把它放在了表2(部分實(shí)例)。

結(jié)構(gòu)標(biāo)記:POB--介詞短語,DE--“的”字結(jié)構(gòu),ATT--定中,ADV--狀中,CMP--動(dòng)補(bǔ),VOB--動(dòng)賓,VV--連動(dòng),SBV--主謂。

在句法分析過程中,如果是簡單句,那么除VOB、SBV結(jié)構(gòu)之外的其他短語都是在第一層次處理的,第二層次處理VOB結(jié)構(gòu),第三層次是VV、SBV結(jié)構(gòu)。但是,現(xiàn)代漢語是相當(dāng)靈活的,小句幾乎可以充當(dāng)任何成分,增加了句法分析的難度。

表1 部分詞一級(jí)的處理規(guī)則及其正則表達(dá)式

表2 部分常見中文短語結(jié)構(gòu)及其正則表達(dá)式

4 傾向性分析

4.1 短語傾向性標(biāo)注

傾向性分析使用了HowNet所提供的中文傾向性分析用詞匯表(S1)、數(shù)據(jù)堂(www.datatang.com)提供的清華大學(xué)的傾向性分析用加權(quán)詞匯表(選取了部分)(S2)以及項(xiàng)目組自己整理的網(wǎng)絡(luò)用情感表情符表(S3)、程度副詞表、否定詞表、轉(zhuǎn)折連詞表、并列連詞表、總結(jié)連詞表等詞匯表,作為情感分析的基礎(chǔ)資源。詞表均以文本文件的形式提供。

取得帶詞性標(biāo)注的數(shù)據(jù)之后,我們首先使用基本情感傾向詞匯表S1、S2、S3對(duì)形容詞、動(dòng)詞、名詞及情感符號(hào)的情感進(jìn)行標(biāo)注,然后再依據(jù)程度副詞表、否定詞表對(duì)一些副詞進(jìn)行情感標(biāo)注。程度副詞只影響情感的強(qiáng)弱,而否定詞則會(huì)使情感的極性發(fā)生翻轉(zhuǎn)。由轉(zhuǎn)折連詞連接的兩個(gè)短語,前后極性相反;而由并列連詞連接的兩個(gè)短語,前后極性一致??偨Y(jié)連詞連接的短語傾向,則有助于推斷整個(gè)評(píng)論的傾向。

4.1.1 情感修飾部分D_modifier的計(jì)算

主要是副詞的情感值,這個(gè)值可能會(huì)使情感強(qiáng)度加強(qiáng)或變?nèi)?程度副詞),情感極性發(fā)生翻轉(zhuǎn)(否定副詞)。D_modifier的初始值設(shè)為1:D_modifier=1;遇到情感值非零的副詞,假設(shè)其情感值為val_d,更新D_modifier:

(1)

4.1.2 短語情感值P_emotion的計(jì)算

假設(shè)中心詞的情感值為val_main,那么短語的情感值為:

(2)

例1 {[非常 | d | 0 | ], (非常), (d)} {[簡潔 | a | 1 | ], (簡潔),(a)}

P_emotion=1;//”非?!钡那楦兄禐?時(shí),D_modifier用默認(rèn)值1,對(duì)后面的中心語沒有影響;P_emotion=1.5;//”非?!钡那楦兄禐?.5時(shí),D_modifier為1.5,加強(qiáng)后面的中心語的情感。

例2 {[并 | d | 0 | ], (并), (d)} {[不 | d | -1 | ], (不), (d)} {[妨礙 | v | -1 | ], (妨礙), (v)}

P_emotion=1;

D_modifier=-1; val_main=-1

計(jì)算過程:

“并”的情感值為0,不更新D_modifier;

“不”的情感值為-1,更新D_modifier,D_modifier=-1

4.2 <評(píng)價(jià)對(duì)象,評(píng)價(jià)短語>二元對(duì)提取

對(duì)于每一類產(chǎn)品,我們給出了一個(gè)主要特征文件,并對(duì)每個(gè)特征的重要性進(jìn)行了加權(quán)標(biāo)注。這樣,有兩種獲取二元對(duì)的方法:一是識(shí)別出特征文件中提供的特征,依據(jù)特征所在的短語(評(píng)價(jià)對(duì)象),由句法關(guān)系來找評(píng)價(jià)短語;另一種是依據(jù)評(píng)價(jià)短語找評(píng)價(jià)對(duì)象:根據(jù)情感詞所在的短語(評(píng)價(jià)短語),由句法知識(shí)找到情感所針對(duì)的對(duì)象(評(píng)價(jià)對(duì)象),從而獲得<評(píng)價(jià)對(duì)象,評(píng)價(jià)短語>二元對(duì)。

由句法關(guān)系提取二元對(duì)示例:

例3 “具有/具/有”表示擁有且存有主述事物的屬性特征。常見的有兩種用法:主述事物+“具有/具/有”+屬性特征,“具有/具/有”+屬性特征+“的”+主述事物。

在第一種用法中,”具有/具/有”是句子中的主要?jiǎng)釉~,作謂語,此時(shí)符合要求的二元對(duì)是<主述事物,屬性特征>,如表3中的測試用例S0002所示。

在第二種用法中,“具有/具/有”之前通常是一個(gè)動(dòng)詞,“具有/具/有”位于一個(gè)“的”字結(jié)構(gòu)內(nèi),符合要求的二元對(duì)是<主述事物,“具有/具/有”+屬性特征+“的”>,如表3中的測試用例S0001所示。

表3 <評(píng)價(jià)對(duì)象,評(píng)價(jià)特征>二元對(duì)提取示例

例4 狀中結(jié)構(gòu)(ADV)中,中心語是情感短語,而修飾詞是介詞短語(在……上,在……方面),這時(shí),情感對(duì)象為介詞的賓語——介詞后的名詞性成分,如S0003所示。

例5 定中結(jié)構(gòu)(ATT)中,修飾語是情感短語,此時(shí)中心語即為評(píng)價(jià)對(duì)象,如S0004所示,由“優(yōu)秀的工業(yè)外型設(shè)計(jì)”,可提取出二元對(duì):<工業(yè)外型設(shè)計(jì),優(yōu)秀的>。

例6 主謂結(jié)構(gòu)(SBV)中,謂語是情感短語,此時(shí)主語即為評(píng)價(jià)對(duì)象,如S0005所示,由“反光板會(huì)不會(huì)突然壞掉”,可提取出二元對(duì):<反光板,突然壞掉>。

例7 動(dòng)賓結(jié)構(gòu)(OBJ)中,謂語是情感短語,此時(shí)賓語即為評(píng)價(jià)對(duì)象,如S0006所示,可提取出二元對(duì):<佳能130的屏幕, 喜歡>。

4.3 評(píng)論整體情感傾向的確定

找出二元對(duì)之后,依據(jù)4.1所提供的傾向性計(jì)算方法,計(jì)算其情感傾向值;根據(jù)評(píng)價(jià)對(duì)象,確定該二元對(duì)屬于哪個(gè)側(cè)面/特征。在評(píng)論整體的情感分析程中,首先可以利用式(3)(滿足4的約束)來計(jì)算評(píng)論Ri的語義傾向:

(3)

(4)

(5)

其中,NumA是側(cè)面的總數(shù),SO(Aj)是第j個(gè)側(cè)面的語義傾向,SO(All)是整體的評(píng)價(jià),λj是第j個(gè)側(cè)面的評(píng)價(jià)所占的系數(shù),α、β分別為各側(cè)面的評(píng)價(jià)均值、整體的評(píng)價(jià)在Ri的情感傾向確定時(shí)所占的系數(shù)。

在原型中,λj,α、β的值暫由人工指定,放在指定的文本文件中。在算法實(shí)現(xiàn)中,依據(jù)式(5),β采用動(dòng)態(tài)調(diào)整的策略,相應(yīng)地,α的值也做動(dòng)態(tài)地調(diào)整(α=1-β)。如果想通過機(jī)器學(xué)習(xí)的方法自動(dòng)學(xué)習(xí)這些參數(shù)值,學(xué)好后,放入指定的文本文件即可。

5 實(shí)驗(yàn)結(jié)果

本文所提的評(píng)論傾向性分析思想有點(diǎn)兒類似于李巖等[12]。在COAE 2013評(píng)測的任務(wù)三——觀點(diǎn)句抽取評(píng)測中,對(duì)于每個(gè)分句,他們都使用哈爾濱工業(yè)大學(xué)的LTP工具進(jìn)行句法分析,得到詞與詞之間的修飾關(guān)系和層次關(guān)系(25種),每個(gè)詞和父結(jié)點(diǎn)構(gòu)成一個(gè)詞語對(duì),利用某種方法對(duì)詞語對(duì)進(jìn)行評(píng)分;子句的得分是將詞語對(duì)的得分按層次加和計(jì)算得到。最后,將子句的得分加和得到文檔的得分。在任務(wù)3的測評(píng)中,系統(tǒng)整體的Macro F1和Micro F1是最好的。

李巖等[12]基于依存分析的觀點(diǎn)句要素抽取——COAE 2013的任務(wù)四?;舅枷胧潜闅v詞,判斷是否滿足特征(主要有詞性和依存關(guān)系兩種)。人工找到二十種可能的依存關(guān)系:(評(píng)價(jià)對(duì)象,評(píng)價(jià)特征,情感詞)或(評(píng)價(jià)對(duì)象,情感詞)。由于微博數(shù)據(jù)并非規(guī)范化的文體,規(guī)則不可能有完全的覆蓋,嘗試用產(chǎn)品和屬性詞表進(jìn)行匹配提高系統(tǒng)召回率。在評(píng)測中,系統(tǒng)整體的Macro F1和Micro F1排名第二。

本文所提的方法將二元對(duì)的呈現(xiàn)方式歸結(jié)為五種,簡化了二元對(duì)的呈現(xiàn)模式。理論上來講,與李巖等[12]所提的方法有類似的結(jié)果。但是,經(jīng)過實(shí)際測試,我們的實(shí)驗(yàn)結(jié)果要差一些。部分原因是程序邏輯的問題,比如說,在有多個(gè)正則表達(dá)式可以匹配時(shí),優(yōu)先使用哪個(gè)。

6 存在問題

在系統(tǒng)原型實(shí)現(xiàn)過程中,除了上節(jié)提到的程序邏輯問題,我們還發(fā)現(xiàn)了一些需要自然語言理解的底層技術(shù)來解決的問題。

6.1 詞性標(biāo)注錯(cuò)誤

例8 負(fù)責(zé)這項(xiàng)事務(wù)的高級(jí)工程師,非常認(rèn)真負(fù)責(zé)。

負(fù)責(zé)/v 這項(xiàng)/r 事務(wù)/n 的/u 高級(jí)/a 工程師/n ,/w 非常/d 認(rèn)真/ad 負(fù)責(zé)/v 。/w

“負(fù)責(zé)”可做形容詞,也可做動(dòng)詞,第二個(gè)“負(fù)責(zé)”應(yīng)做形容詞,而這個(gè)詞在不同詞性下的含義是不同的,詞性標(biāo)注錯(cuò)誤直接導(dǎo)致情感判斷出錯(cuò)。

6.2 新詞識(shí)別及分詞錯(cuò)誤問題

例9 酷派700是一款支持雙模雙待功能的翻蓋雙屏3手機(jī)。

酷/ag 派/v 700/m 是/v 一/m 款/q 支持/v 雙/m 模/ng 雙/m 待/vg 功能/n 的/u 翻蓋/v 雙/m 屏/ng 3/m 手機(jī)/n 。/w

“酷派”是一個(gè)專有名詞,不能被正確識(shí)別。

6.3 指代消解問題

例10 很多人抨擊奧迪的致命缺點(diǎn),但這并不影響我毫無保留地愛它,為它自豪!

分詞及詞性標(biāo)注之后:

很多/m 人/n 抨擊/v 奧迪/n 的/b 致命/a 缺點(diǎn)/n ,/w 但/c 這/r 并/d 不/d 影響/v 我/r 毫無/v 保留/v 地/u 愛/v 它/r ,/w 為/p 它/r 自豪/a !/w

在這里,可以識(shí)別出二元對(duì):<它,毫無保留地愛>,<它,自豪>

但是,這樣的結(jié)果感覺很奇怪,如果通過指代消解,就可以得到:

<奧迪,毫無保留地愛>,<奧迪,自豪>

6.4 詞匯情感標(biāo)注問題

目前使用較頻繁的情感資源,如Hownet情感詞匯表,是以詞形的形式給出的。但是,一詞多義在語言中是一個(gè)普遍現(xiàn)象,例如,“次”作為形容詞時(shí)表示負(fù)向情感,而作為量詞時(shí),不具有情感傾向。同一詞性下只有一個(gè)詞義的情況下,用詞性進(jìn)行排歧是一種區(qū)別情感傾向的方法。如果同一詞性下有多個(gè)詞義,表現(xiàn)出不同的語義傾向,此時(shí)通過詞性并不能正確區(qū)分情感,如“幼稚”[30]。如果能通過上下文對(duì)出現(xiàn)在情感詞匯表的詞進(jìn)行詞義排歧,那么必將會(huì)提高情感傾向分析的準(zhǔn)確率。

詞義排歧、新詞識(shí)別、詞性標(biāo)注、指代消解都是典型的NLP問題,它們是正確地進(jìn)行傾向性分析的基礎(chǔ)。

[1] N Jindal, B Liu. Opinion Spam and Analysis[C]//Proceedings of WSDM’08. 2008: 219-230.

[2] Jindal N, Liu B. Analyzing and detecting review spam[C]//Proceedings of the 7th IEEE Int’l Conf.on Data Mining. Washington: IEEE Computer Society, 2007: 547-552.

[3] 趙妍妍, 秦兵, 劉挺,等. 文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(8): 1834-1848.

[4] 王素格, 李德玉, 魏英杰,等. 基于賦權(quán)粗糙隸屬度的文本情感分類方法[J]. 計(jì)算機(jī)研究與發(fā)展,2011,48(5): 855-861.

[5] 梁軍,柴玉梅,原慧斌,等.基于深度學(xué)習(xí)的微博情感分析[J].中文信息學(xué)報(bào),2014, 28(5):155-161.

[6] 李國林,萬常選,邊海容,等.基于語素的金融證券域文本情感探測[J].計(jì)算機(jī)研究與發(fā)展,2011,48(z2):432-437.

[7] 王昊,楊亮,林鴻飛,等.日本地震的微博熱點(diǎn)事件分析[J].中文信息學(xué)報(bào),2012,26(5):7-13.

[8] 林煜明,王曉玲,朱濤,等.用戶評(píng)論的質(zhì)量檢測與控制研究綜述[J].軟件學(xué)報(bào),2014, 25(3):506-527.

[9] Ott M, Choi Y Cardie, et al. Finding Deceptive Opinion Spam by Any Stretch of the Imagination [C]//Proceedings of ACL 2011: 309-319.

[10] https://www.mturk.com/mturk/welcome[EB/OL]. [2014-12-8]

[11] Popeseu AM, Etzioni O. Extracting Product Features and Opinions from Reviews [C]//Proceedings of HLT-EMNLP 2005. 2005: 339-346.

[12] 李巖,徐蔚然,陳光. PRIS_COAE CPAE 2013評(píng)測報(bào)告[C]//第五屆中文傾向性分析評(píng)測研討會(huì)(COAE 2013)評(píng)測報(bào)告論文集,2013: 53-69.

[13] 張莉, 錢玲飛, 許鑫等. 基于核心句及句法關(guān)系的評(píng)價(jià)對(duì)象抽取[J]. 中文信息學(xué)報(bào), 2011, 25(3):23-29.

[14] Titov I, McDonald R. Modeling Online Reviews with Multi-grain Topic Models [C]//Proceedings of WWW 2008. 2008: 111-120.

[15] C Sauper, A Haghighi, R Barzilay. Content Models with Attitude [C]//Proceedings of ACL 2011. 2011: 350-358.

[16] Hu MQ, Liu B. Mining and Summarizing Customer Reviews [C]//Proceedings of KDD 2004. 2004: 68-177.

[17] Shoushan Li, Chengqing Zong and Xia Wang. Sentiment Classification through Combining Classifiers with Multiple Feature Sets [C]//Proceedings of NLP-KE 2007. 2007: 135-140.

[18] 王根, 趙軍. 基于多重冗余標(biāo)記CRFs的句子情感分析研究[J]. 中文信息學(xué)報(bào), 2007, 21(5): 51-55,86.

[19] Andrew L Maas, Raymond E Daly, Peter T Pham, et al. Learning Word Vectors for Sentiment Analysis [C]//Proceedings of ACL 2011: 142-150.

[20] L Jiang, M Yu, M Zhou, et al. Target-dependent Twitter Sentiment Classification [C]//Proceedings of ACL 2011: 151-160.

[21] http://ictclas.nlpir.org/[EB/OL]. [2014-12-8]

[22] 謝濤麗.定中式“V+N”結(jié)構(gòu)研究[D].上海師范大學(xué)碩士學(xué)位論文,2010.

[23] 尹世超.動(dòng)詞直接作定語與名詞中心語的類[J].語文研究,2002,(2):1-7.

[24] 呂叔湘.呂叔湘全集(第一卷):中國文法要略[M].沈陽: 遼寧教育出版社, 2002.

[25] 張學(xué)會(huì).淺析動(dòng)詞作賓語的謂賓動(dòng)詞[J].大慶師范學(xué)院學(xué)報(bào),2008,28(1):99-101.

[26] 馬新娜.試論形容詞作賓語的述賓短語[D].浙江師范大學(xué)碩士學(xué)位論文,2010.

[27] 武欽青.述程結(jié)構(gòu)“V/A+得+程度補(bǔ)語”研究[D].上海師范大學(xué)碩士學(xué)位論文,2012.

[28] 錢小飛.“地”字結(jié)構(gòu)識(shí)別[J].現(xiàn)代語文(語言研究),2006,(5):61-63.

[29] 李淑榮.語氣詞“好了”[J].語文學(xué)刊,2006,(7):97-99.

[30] 楊亮,張紹武,林鴻飛等.基于圖排序的詞匯情感消歧研究[J].中文信息學(xué)報(bào),2014, 28(6):129-136.

Semi-automatic Acquisition of Fake Chinese Reviews

HAO Xiulan, XU Fangqu, JIANG Yunliang

(School of Information Engineering, Huzhou University, Huzhou, Zhejiang 313000, China)

An approach is introduced to acquire fake Chinese reviews semi-automatically. It mainly includes a platform to get fake reviews, a syntactic parser, and a sentiment analysis component. Emphasis is on a syntactic based sentiment pair extraction, . Finally, we analyze some experimental results and give some suggestions to improve the accuracy of sentiment analysis.

computer application; Chinese information processing; sentiment analysis; fake Chinese reviews; semi-automatic acquisition

郝秀蘭(1970—),副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,數(shù)據(jù)與知識(shí)工程。Email:hxl2221_cn@zjhu.edu.cn蔣云良(1967—),教授,主要研究領(lǐng)域?yàn)橹R(shí)融合,大數(shù)據(jù)處理與專家系統(tǒng)。Email:jylsy@zjhu.edu.cn許方曲(1993—),主要研究領(lǐng)域?yàn)檐浖?yōu)化。Email:2392096782@qq.com

1003-0077(2016)01-0190-08

2013-07-08 定稿日期: 2014-08-10

浙江省自然科學(xué)基金(LY12F02012);國家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃(201310347007);國家自然科學(xué)基金(61370173,61202290);浙江省科技計(jì)劃資助項(xiàng)目(2013C31138)

TP391

A

猜你喜歡
傾向性語料賓語
基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測
連詞that引導(dǎo)的賓語從句
賓語從句及練習(xí)
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
中考試題中的賓語從句
關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
“沒準(zhǔn)兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
語言與翻譯(2015年4期)2015-07-18 11:07:43
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
旌德县| 从江县| 社旗县| 潢川县| 吉安市| 和顺县| 来宾市| 宝山区| 仁寿县| 绍兴县| 弥勒县| 青海省| 溧阳市| 山阳县| 阳曲县| 建昌县| 山东省| 青海省| 军事| 舟山市| 铅山县| 凤阳县| 牡丹江市| 建平县| 徐水县| 铜梁县| 济源市| 临汾市| 宣汉县| 黑龙江省| 定兴县| 崇阳县| 吉木萨尔县| 荔波县| 甘南县| 小金县| 满洲里市| 丘北县| 黎平县| 天峻县| 兴海县|