国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文產(chǎn)品評論細(xì)粒度情感分析綜述

2017-09-05 04:06胡龍茂
軟件導(dǎo)刊 2017年7期

胡龍茂

摘 要:消費者在購物網(wǎng)站上發(fā)表的購后評論既包含對產(chǎn)品的總體評價,也包含對產(chǎn)品某些特征的評價,如何從評論文本中挖掘出細(xì)粒度情感信息是消費者和企業(yè)亟待解決的問題。從中文產(chǎn)品評論的特征識別、觀點識別和情感詞典構(gòu)建等方面介紹了相關(guān)技術(shù)及研究進(jìn)展,并指出了各自的優(yōu)勢與不足,最后展望了中文產(chǎn)品評論細(xì)粒度情感分析未來的研究方向。

關(guān)鍵詞:中文產(chǎn)品評論;特征識別;觀點識別;情感詞典;細(xì)粒度情感

DOIDOI:10.11907/rjdk.171944

中圖分類號:TP301

文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2017)007-0213-03

0 引言

近年來,我國電子商務(wù)發(fā)展迅猛,網(wǎng)購市場交易規(guī)模不斷增長,消費者發(fā)表的購后評論也越來越多。評論中往往既包含對產(chǎn)品的總體評價,也包含對產(chǎn)品某些特征的評價。這些評價一方面可以為其他消費者選購商品提供細(xì)粒度信息,另一方面也為企業(yè)挖掘不同類別消費者的偏好提供了可能性。

對產(chǎn)品屬性的評價也稱為細(xì)粒度情感分析,一般包含4個任務(wù):①產(chǎn)品特征識別;②與產(chǎn)品特征相關(guān)聯(lián)的觀點抽??;③觀點的極性及強度判斷;④觀點排序[1]。國外學(xué)者在較早時候即對英文評論的細(xì)粒度情感分析開展了卓有成效的研究[1-2],國內(nèi)學(xué)者隨之對中文產(chǎn)品評論開展了研究,也取得了較多研究成果。由于中英文在分詞、句法等方面的差異,本文主要從中文產(chǎn)品評論的特征識別、特征觀點抽取和情感詞典建設(shè)3方面介紹相關(guān)技術(shù)及研究進(jìn)展。

1 產(chǎn)品特征識別

產(chǎn)品特征描述產(chǎn)品的各個方面,Popescu等[1]認(rèn)為產(chǎn)品特征可細(xì)分為5個類別,包括產(chǎn)品的屬性、部件、部件特征、產(chǎn)品的相關(guān)概念和概念特征。如在評論“電腦不錯,顯卡也給力,玩游戲電影畫質(zhì)也毫無壓力”中,顯卡是產(chǎn)品部件,游戲是產(chǎn)品概念。

1.1 基于無監(jiān)督方法的產(chǎn)品特征識別

無監(jiān)督方法主要包括基于頻繁項的方法和基于主題模型的方法。

1.1.1 基于頻繁項的特征識別

該方法通常將評論中頻繁出現(xiàn)的名詞和名詞短語應(yīng)用某些過濾規(guī)則抽取出來作為產(chǎn)品特征。Hu和Liu[2]提取出評論中的所有名詞和名詞短語,利用關(guān)聯(lián)規(guī)則挖掘頻繁項, 并把頻繁項作為產(chǎn)品特征候選集,最后通過剪枝移除冗余特征;李實等[3]從中文特點出發(fā),拓展了Hu提出的基于關(guān)聯(lián)規(guī)則的英文評論產(chǎn)品特征識別方法,在識別中文產(chǎn)品特征時,基本達(dá)到了接近于Hu的較好效果;熊壯[4]首先利用名詞序列中的互信息識別名詞短語,然后利用關(guān)聯(lián)規(guī)則從評論語料中挖掘文本模式,并利用此文本模式對名詞和名詞短語進(jìn)行聚類,最后利用從網(wǎng)站上直接獲取的產(chǎn)品品牌和產(chǎn)品型號作為外部資源,結(jié)合人工歸納的“整體-部件”關(guān)系文本模式進(jìn)行產(chǎn)品特征識別。與Hu的方法相比,召回率降低了2%,準(zhǔn)確率提高了10%;郝玫和王道平[5]將產(chǎn)品評論面向供應(yīng)鏈建立產(chǎn)品評價概念樹,然后對此評價樹采用關(guān)聯(lián)規(guī)則進(jìn)行頻繁項挖掘,將最小支持度為1%的項轉(zhuǎn)換為客戶關(guān)注特征,查全率達(dá)到了90.5%,比僅采用關(guān)聯(lián)規(guī)則高出18.1%。

徐葉強等[6]首先通過30組詞性規(guī)則確定候選評價對象,然后采用特殊詞過濾、非完整性過濾及非穩(wěn)定性過濾規(guī)則過濾候選評價對象,最后利用評價短語共現(xiàn)規(guī)則及評價對象出現(xiàn)頻率進(jìn)行置信度排序,置信度高的直接認(rèn)定為評價對象,置信度低的結(jié)合擴充規(guī)則進(jìn)行確認(rèn)。該方法取得了較好效果,F(xiàn)值達(dá)到0.681。

高磊等[7]借鑒分類的思想,在產(chǎn)品對比評論集上采用L1-norm 規(guī)則化的線性回歸方法獲取候選特征集,然后通過詞頻和點互信息剪枝得到最終的產(chǎn)品特征,在4種數(shù)據(jù)集上,F(xiàn)平均值達(dá)到了0.74的良好效果;李俊等[8]首先通過模板及頻率剪枝得到候選特征集,然后采用HITS算法對候選集進(jìn)行排序,從而獲得最終的產(chǎn)品特征,在5種評論集上進(jìn)行測試,F(xiàn)值可以達(dá)到77.3%;張建華等[9]首先抽取了評論中的依存句法庫,進(jìn)一步分析得到名詞和名詞短語主要屬于8種依存關(guān)系,然后構(gòu)造二叉樹并進(jìn)行后序遍歷得到產(chǎn)品特征。實驗結(jié)果表明,該方法取得了較好效果。

基于頻繁項的識別方式簡單高效,但易于將不是產(chǎn)品特征的高頻詞識別為產(chǎn)品特征,同時容易遺漏低頻特征詞。

1.1.2 基于主題模型的特征識別

主題模型通常用于發(fā)現(xiàn)文本的話題,由于評論者通常圍繞產(chǎn)品特征發(fā)表意見,學(xué)者們開始在產(chǎn)品特征的識別中引入主題模型;馬柏樟和顏志軍[10]將評論中的名詞和名詞短語過濾掉專有名詞和品牌名詞后,采用LDA模型訓(xùn)練得到候選特征集,然后進(jìn)行同義詞詞林?jǐn)U展和遺漏詞補缺,得到最終的產(chǎn)品特征,該方法在兩個評論集上都明顯好于關(guān)聯(lián)規(guī)則方法;佘維軍等[11]首先提取包含名詞、動詞或形容詞的分句,通過詞性模板獲得顯式特征并進(jìn)行聚類構(gòu)成特征語料庫,然后構(gòu)建must-link 和 cannot-link約束,采用LDA進(jìn)行主題聚類,獲得產(chǎn)品特征。實驗結(jié)果表明,該方法比僅采用句法分析或LDA的方法更有效。

為達(dá)到較高的準(zhǔn)確率和召回率,基于主題模型的識別方式需要大量評論語料。

1.2 基于半監(jiān)督方法的產(chǎn)品特征識別

郗亞輝[12]給出觀點種子集合,考慮了產(chǎn)品特征和觀點之間的直接及間接句法依存關(guān)系,利用雙向傳播算法迭代抽取特征及觀點,引入“整體-部分”模式和“沒有”模式提高特征抽取的召回率,然后將抽取到的特征集和觀點集按照HITS算法排序,最后通過計算領(lǐng)域相關(guān)度進(jìn)行優(yōu)化,得到產(chǎn)品特征,取得了較好效果;楊曉燕等[13]利用詞性模板集得到候選觀點評價對象,采用上下文相關(guān)的方法計算候選評價對象分值,將分值高的10個對象認(rèn)定為評價對象,然后從包含初始種子集和評價對象的句子中進(jìn)一步抽取詞性模板,采用上下文相關(guān)的方法計算確定合適的模板,反復(fù)迭代抽取模板和評價對象。實驗結(jié)果表明,和上下文無關(guān)的方法相比,該方法的性能獲得了大幅提高。endprint

基于半監(jiān)督的方式迭代抽取產(chǎn)品特征,不需要很多評論語料,但確定產(chǎn)品特征的閾值參數(shù)需要手工調(diào)整。

1.3 基于監(jiān)督方法的產(chǎn)品特征識別

余傳明等[14]針對餐館評論數(shù)據(jù),將其分為服務(wù)、口味、環(huán)境、價格4個產(chǎn)品屬性進(jìn)行標(biāo)注,利用多個一對一支持向量機進(jìn)行分類,平均F值達(dá)到87.3,大大高于最大熵方法;呂品等[15]將評價對象分為組成部分、功能及性質(zhì),將與之關(guān)聯(lián)的觀點分為觀點內(nèi)容及強度,然后將評論中的詞用12種標(biāo)記符號進(jìn)行標(biāo)注,最后利用CRF進(jìn)行挖掘。結(jié)果顯示,挖掘評價對象的F值接近或超過80%。

基于監(jiān)督的特征識別準(zhǔn)確率和召回率較高,對于每種訓(xùn)練集都要進(jìn)行人工標(biāo)注,需要消耗較多人力物力。

2 觀點識別

主要包括基于語義的方法和基于機器學(xué)習(xí)的方法。

2.1 基于語義的觀點識別

該方法用形容詞和副詞的褒貶含義計算產(chǎn)品特征、句子及篇章的情感傾向。史偉等[16]將情感詞匯分為評價詞語和情感詞語兩類,在此基礎(chǔ)上建立模糊情感本體,然后從HowNet中抽取70個程度詞按0.8~1.5的倍數(shù)乘以情感詞匯分值,同時考慮否定詞的作用,構(gòu)建了從特征層、句子層到文檔層的情感計算方法。實驗結(jié)果表明,該方法具有較高準(zhǔn)確性;孫春華和劉業(yè)政[17]將評論中的特征句表示為特征詞、情感詞和修飾詞的三元組,通過上下文識別特征的等同、等級和相關(guān)關(guān)系,對句子和篇章進(jìn)行傾向性合成。該方法和人工標(biāo)注的結(jié)果存在顯著的正相關(guān)關(guān)系;陳炯等[18]從評價詞和評價對象的依存句法出發(fā),在評論語料庫中抽取出頻率較高的語法模板庫,然后利用語法模板庫識別評價搭配。實驗結(jié)果表明,該方法是有效的,F(xiàn)值達(dá)到將近70%。

基于語義的觀點識別簡單易行,無需對評論語料進(jìn)行標(biāo)注,但識別效果不太好。

2.2 基于機器學(xué)習(xí)的觀點識別

張磊等[19]總結(jié)了中文評論中情感詞與特征詞的5種依存關(guān)系,設(shè)計了詞的詞性、距離及依存關(guān)系的結(jié)構(gòu)、路徑關(guān)系和距離等特征模板,采用最大熵模型抽取了特征-情感對,該方法的平均F值達(dá)到75.36%;孫曉和唐陳意等[20]引入詞、詞性、語義角色及語法樹父節(jié)點特征,采用CRFs同步抽取情感詞和情感對象,然后引入語法、詞義等上下文信息,采用最大熵模型進(jìn)行傾向性判別。實驗結(jié)果顯示,在情感對象-情感詞對的抽取上,F(xiàn)值達(dá)到0.831,同時大幅提高了情感分類精度;劉麗等[21]首先采用Tri-train對評論語料進(jìn)行半自動標(biāo)注,融合詞、詞性和依存句法等多種特征,采用CRF抽取評價對象和評價詞,然后對評價對象進(jìn)行語法樹剪枝,獲得正確的評價單元,并形成可視化報告。該方法在評價對象和正負(fù)面評價詞的識別上綜合準(zhǔn)確率均達(dá)到89%左右;賈聞俊等[22]首先通過詞性模板、依存句法模板抽取出名詞實體和評價短語,然后利用分層狄利克雷過程將名詞實體聚類成產(chǎn)品屬性,然后將評價短語的權(quán)重和情感詞典作為先驗知識,采用LDA計算產(chǎn)品屬性的情感傾向,該模型具有較高的情感傾向準(zhǔn)確率;彭云等[23]提出了情感詞和特征詞的三類must-link和cannot-link語義關(guān)系,將這三類語義關(guān)系進(jìn)行融合,構(gòu)建must-link和cannot-link語義圖,然后將此語義關(guān)系圖作為約束,采用LDA進(jìn)行特征詞、情感詞和特征詞-情感詞對的提取。實驗結(jié)果表明,該方法比AMC的準(zhǔn)確率均高出約10%。

基于機器學(xué)習(xí)的方式大多需要對語料進(jìn)行標(biāo)注,然后利用模型進(jìn)行訓(xùn)練以識別觀點。該類方法的準(zhǔn)確率較高,但需人工參與程度較高。

3 情感詞典構(gòu)建

目前大部分通用情感詞典是通過人工構(gòu)建的,中文情感詞典主要是知網(wǎng)(HowNet)的情感分析詞語集,其中包含了中英文的評價詞和情感詞。由于應(yīng)用領(lǐng)域的差異及新詞的不斷出現(xiàn),基于人工構(gòu)建的情感詞典在實際使用中效果不太理想,學(xué)者們開始聚焦于情感詞典的自動構(gòu)建。

黃高峰等[24]將情感詞細(xì)分為表達(dá)情緒的7類細(xì)粒度情感詞,從知網(wǎng)中篩選出種子詞集,利用知網(wǎng)的義原層次樹設(shè)計義原相似度計算方法,計算情緒語料庫中抽取的情緒詞和種子詞的相似度,得到了具有權(quán)重的細(xì)粒度情感詞庫;郗亞輝[25]首先利用雙向傳播算法獲取評論中的特征詞和情感詞,提出了情感詞之間的4種上下文約束關(guān)系,將這種約束結(jié)合情感詞種子融入標(biāo)簽傳播算法中,計算出情感詞的褒貶,最后利用上下文計算情感沖突,以識別領(lǐng)域相關(guān)的情感詞。實驗結(jié)果表明,該方法能有效提高情感傾向計算的效果。

4 結(jié)語

本文對中文產(chǎn)品評論細(xì)粒度情感分析的3方面研究進(jìn)行了綜述,指出了各自的優(yōu)勢和不足。隨著我國電子商務(wù)的發(fā)展,評論的細(xì)粒度情感分析日益成為研究熱點,未來需要深入研究的內(nèi)容主要有:①基于監(jiān)督的方法識別產(chǎn)品特征及觀點的準(zhǔn)確率較高,但需要對大量語料進(jìn)行標(biāo)注,而少量標(biāo)注或無需標(biāo)注的方式識別產(chǎn)品特征及觀點的準(zhǔn)確率較低,采用半自動方式標(biāo)注語料有助于節(jié)省人力,且達(dá)到較好的識別效果;②微博或?qū)з従W(wǎng)站(如it168)上也發(fā)表了很多產(chǎn)品意見,由于這些評論者和購物網(wǎng)站的賣家沒有直接聯(lián)系,發(fā)表的意見會更客觀。將這些產(chǎn)品評論和購物網(wǎng)站的產(chǎn)品評論結(jié)合起來,有助于提高觀點識別的準(zhǔn)確率;③現(xiàn)有的評論語料庫很少,目前舉辦了八屆的中文傾向性分析評測(Chinese Opinion Analysis Evaluation, COAE)提供的測評語料中雖不少涉及了產(chǎn)品評論,但未進(jìn)行細(xì)致的分類,也沒有標(biāo)注數(shù)據(jù),無法滿足全方位的細(xì)粒度情感分析。研究要素級(產(chǎn)品特征及觀點)的標(biāo)注規(guī)范,收集大量評論數(shù)據(jù)并設(shè)置“篇章─句子─要素級”的標(biāo)注語料將有助于細(xì)粒度情感分析的快速發(fā)展。

參考文獻(xiàn):

[1]POPESCU A-M, ETZIONI O.Extracting product features and opinions from review[C].Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing,Stroudsburg,USA:Association for Computational Linguistics,2005.endprint

[2]HU M, LIU B. Mining opinionfeatures in customer reviews[C].Proceedings of the 19th National Conference on Artifical Intelligence. AAAI Press, 2004:755-760.

[3]李實,葉強,李一軍,等.中文網(wǎng)絡(luò)客戶評論的產(chǎn)品特征挖掘方法研究[J].管理科學(xué)學(xué)報,2009(2):142-152.

[4]熊壯.基于無監(jiān)督學(xué)習(xí)的產(chǎn)品特征抽取[J].計算機工程與應(yīng)用,2012,48(10):160-163.

[5]郝玫,王道平.面向供應(yīng)鏈的產(chǎn)品評論中客戶關(guān)注特征挖掘方法研究[J].現(xiàn)代圖書情報技術(shù),2014,30(4):65-70.

[6]徐葉強,朱艷輝,王文華,等.中文產(chǎn)品評論中評價對象的識別研究[J].計算機工程,2012,38(20):140-143.

[7]高磊,戴新宇,黃書劍,等.基于特征選擇和點互信息剪枝的產(chǎn)品屬性提取方法[J].模式識別與人工智能,2015(2):187-192.

[8]李俊,陳黎,王亞強,等.面向電子商務(wù)網(wǎng)站的產(chǎn)品屬性提取算法[J].小型微型計算機系統(tǒng),2013,34(11):2477-2481.

[9]張建華,翁鳴,李曉樂,等.基于依存句法和二叉樹模型的評價對象抽取[J].計算機技術(shù)與發(fā)展,2016(2):52-55,60.

[10]馬柏樟,顏志軍.基于潛在狄利特雷分布模型的網(wǎng)絡(luò)評論產(chǎn)品特征抽取方法[J].計算機集成制造系統(tǒng),2014,20(1):96-103.

[11]佘維軍,劉子平,楊衛(wèi)芳,等.基于改進(jìn)LDA主題模型的產(chǎn)品特征抽取[J].計算機與現(xiàn)代化,2016(11):1-6,57.

[12]郗亞輝.產(chǎn)品評論特征及觀點抽取研究[J].情報學(xué)報,2014,33(3):326-336.

[13]楊曉燕,徐戈,廖祥文,等.上下文相關(guān)的雙向自舉觀點評價對象抽取方法[J].計算機工程與應(yīng)用,2015(15):143-147,178.

[14]余傳明,陳雷,張小青,等.基于支持向量機的產(chǎn)品屬性識別研究[J].情報學(xué)報,2010,29(6):1038-1044.

[15]呂品,鐘珞,蔡敦波,等.基于CRF的中文評論有效性挖掘產(chǎn)品特征[J].計算機工程與科學(xué),2014,36(2):359-366.

[16]史偉,王洪偉,何紹義,等.基于語義的中文在線評論情感分析[J].情報學(xué)報,2013,32(8):860-867.

[17]孫春華,劉業(yè)政.基于產(chǎn)品特征詞關(guān)系識別的評論傾向性合成方法[J].情報學(xué)報,2013,32(8):844-852.

[18]陳炯,張虎,曹付元,等.面向中文客戶評論的評價搭配識別研究[J].計算機工程與設(shè)計,2013,34(3):1073-1077.

[19]張磊,李珊,彭艦,等.基于依存關(guān)系和最大熵的特征—情感對分類[J].電子科技大學(xué)學(xué)報,2014(3):420-425.

[20]孫曉,唐陳意.基于層疊模型細(xì)粒度情感要素抽取及傾向分析[J].模式識別與人工智能,2015(6):513-520.

[21]劉麗,王永恒,韋航,等.面向產(chǎn)品評論的細(xì)粒度情感分析[J].計算機應(yīng)用,2015,35(12):3481-3486,3505.

[22]賈聞俊,張暉,楊春明,等.面向產(chǎn)品屬性的用戶情感模型[J].計算機應(yīng)用,2016,36(1):175-180.

[23]彭云,萬常選,江騰蛟,等.基于語義約束LDA的商品特征和情感詞提取[J].軟件學(xué)報,2017,28(3):676-693.

[24]黃高峰,周學(xué)廣,李娟,等.具有權(quán)重因子的細(xì)粒度情感詞庫構(gòu)建方法[J].計算機工程,2014(11):211-214.

[25]郗亞輝.產(chǎn)品評論中領(lǐng)域情感詞典的構(gòu)建[J].中文信息學(xué)報,2016,30(5):136-144.endprint

微博| 乌兰县| 崇左市| 台湾省| 陕西省| 邓州市| 北川| 乐业县| 莆田市| 葵青区| 巨鹿县| 南岸区| 普兰店市| 荔波县| 太保市| 西乌珠穆沁旗| 萝北县| 萨迦县| 九龙坡区| 岳普湖县| 商都县| 漠河县| 历史| 岑巩县| 长沙市| 婺源县| 桃园县| 弥勒县| 祁阳县| 峨边| 进贤县| 城市| 兴国县| 贵州省| 鄂尔多斯市| 五家渠市| 武穴市| 师宗县| 贵南县| 两当县| 澳门|