一種多特征融合的中文微博評(píng)價(jià)對(duì)象提取方法

2016-06-30 20:09劉璟朱艷輝田海龍馬進(jìn)

電腦知識(shí)與技術(shù) 2016年14期

關(guān)鍵詞：特征選擇

劉璟++朱艷輝++田海龍++馬進(jìn)

摘要：針對(duì)目前中文微博評(píng)價(jià)對(duì)象抽取方法準(zhǔn)確率較低的問題，本文提出一種基于條件隨機(jī)場的多特征融合方法抽取評(píng)價(jià)對(duì)象，通過分析語義角色、詞頻、形容詞位置特征與正確評(píng)價(jià)對(duì)象的關(guān)系，制定了融合基本特征、語義角色特征、詞頻特征和形容詞位置特征的條件隨機(jī)場多特征模板，實(shí)驗(yàn)結(jié)果表明，本文的方法提高了評(píng)價(jià)對(duì)象抽取的正確率。

關(guān)鍵詞：評(píng)價(jià)對(duì)象提?。惶卣鬟x擇；中文微博；條件隨機(jī)場

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2016）14-0188-03

1 概述

在信息爆炸的現(xiàn)代社會(huì)，中文微博評(píng)價(jià)對(duì)象抽取研究有非常大的的商業(yè)價(jià)值，中文評(píng)價(jià)對(duì)象抽取不僅可以服務(wù)于上層的情感分析任務(wù)，其結(jié)果還可以直接用于生活中數(shù)據(jù)統(tǒng)計(jì)分析。

目前對(duì)評(píng)價(jià)對(duì)象的抽取方法主要分為三個(gè)類別：基于無監(jiān)督學(xué)習(xí)的抽取方法、基于監(jiān)督學(xué)習(xí)的抽取方法和半監(jiān)督學(xué)習(xí)的方法。Jakob N[1]提出了一種包含句法模式的情緒圖走向方法提取評(píng)價(jià)對(duì)象候選集，然后采用自主學(xué)習(xí)策略抽取評(píng)價(jià)對(duì)象。文獻(xiàn)[2]和[3]利用條件隨機(jī)場模型的序列標(biāo)注方法抽取評(píng)價(jià)對(duì)象。戴敏，王榮洋[4]引使用條件隨機(jī)場抽取評(píng)價(jià)對(duì)象并引入了一些句法特征。宋暉，史南勝[5]對(duì)半監(jiān)督學(xué)習(xí)方法提取評(píng)價(jià)對(duì)象進(jìn)行了研究。Hu Minqing， Liu Bing[6]使用關(guān)聯(lián)規(guī)則提取評(píng)價(jià)對(duì)象的候選集。Xu Liheng[7]利用句法分析信息和隨機(jī)游走模型抽取評(píng)價(jià)對(duì)象。劉鴻宇。趙妍妍，秦兵等[8]使用句法路徑自動(dòng)識(shí)別情感評(píng)價(jià)單元。還有學(xué)者采用了話題模型抽取評(píng)價(jià)對(duì)象。本文的目標(biāo)就是構(gòu)建一個(gè)最優(yōu)的條件隨機(jī)場模型抽取中文微博的評(píng)價(jià)對(duì)象。

2 多特征融合的條件隨機(jī)場評(píng)價(jià)對(duì)象抽取方法

條件隨機(jī)場模型在自然語言處理任務(wù)中，相對(duì)于隱馬爾科夫模型等其他模型，它能更好利用所提供的上下文信息，相對(duì)于其他模型性能更好。

2.1特征選擇算法分析

1）語義角色特征

語義角色對(duì)評(píng)價(jià)對(duì)象抽取有重要的意義。定義集合SemT，對(duì)所有名詞進(jìn)行計(jì)算，滿足以下兩個(gè)條件中的任意一個(gè)則該名詞屬于集合SemT。切分詞為動(dòng)詞且該評(píng)價(jià)對(duì)象候選集為受事者，切分詞為形容詞且該評(píng)價(jià)對(duì)象候選集為施事者。定義集合SemF，若名詞屬于實(shí)施著或者受事者，且不屬于集合SemT，則該名詞屬于集合SemF。圖1和圖2給出了語義角色與評(píng)價(jià)對(duì)象的關(guān)系圖。當(dāng)切分詞為動(dòng)詞時(shí)，受事者為極大可能為評(píng)價(jià)對(duì)象，當(dāng)切分詞為形容詞時(shí)實(shí)施者極大可能為評(píng)價(jià)對(duì)象。

2）詞頻特征

經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn)，評(píng)價(jià)對(duì)象一般為名詞或名詞短語，對(duì)于微博觀點(diǎn)句“我的手機(jī)從三星換到三星再換到三星，初體驗(yàn)總是很美好，到最后放棄的原因都是同一個(gè)：老死機(jī)?！逼渲忻~“三星”出現(xiàn)了三次，也是本文要抽取的評(píng)價(jià)對(duì)象，通過分析微博觀點(diǎn)句語料，我們發(fā)現(xiàn)在句子中頻繁出現(xiàn)的名詞極有可能為本文要抽取的評(píng)價(jià)對(duì)象。所以本文提出對(duì)微博觀點(diǎn)句中所有名詞提取出它在訓(xùn)練語料中的詞頻作為條件隨機(jī)場的一個(gè)特征模板。通過統(tǒng)計(jì)訓(xùn)練語料中詞頻與評(píng)價(jià)對(duì)象的關(guān)系，其結(jié)果如圖3所示，由圖可知，當(dāng)詞頻為1時(shí)，在訓(xùn)練語料中出現(xiàn)的次數(shù)最多，正確的評(píng)價(jià)對(duì)象個(gè)數(shù)也最多，但是正確評(píng)價(jià)對(duì)象所占的比率并不高，也就是當(dāng)詞頻為1時(shí)，正確的評(píng)價(jià)對(duì)象多的同時(shí)，不正確的評(píng)價(jià)對(duì)象也非常的多。當(dāng)詞頻大于等于3小于11時(shí)，正確評(píng)價(jià)對(duì)象所占比例達(dá)到了60%以上；當(dāng)詞頻大于等于11的時(shí)候，正確評(píng)價(jià)對(duì)象所占比例有個(gè)大幅的下降，并進(jìn)入較低的區(qū)域。

3）形容詞位置特征

對(duì)訓(xùn)練語料中正確的評(píng)價(jià)對(duì)象和其與形容詞的位置特征進(jìn)行統(tǒng)計(jì)，其統(tǒng)計(jì)結(jié)果如圖4所示。由圖我們可以看出當(dāng)該名詞與形容詞距離在大于等于1小于等于3的時(shí)候正確的評(píng)價(jià)對(duì)象個(gè)數(shù)都在200以上，有較高的正確率；當(dāng)該名詞與形容詞最小距離在大于3小于等于7時(shí)，正確的評(píng)價(jià)個(gè)數(shù)在150左右，雖然有很多的正確評(píng)價(jià)對(duì)象，但是錯(cuò)誤的評(píng)價(jià)對(duì)象也多；當(dāng)該詞與形容詞最小距離大于7時(shí)，其正確的評(píng)價(jià)對(duì)象小于50并有趨向于0 的趨勢，其主要原因是，微博短小精悍，一般都不會(huì)很長。

2.2設(shè)計(jì)條件隨機(jī)場多特征融合模板

特征選擇對(duì)條件隨機(jī)場模型的評(píng)價(jià)對(duì)象抽取結(jié)果很大的影響，因此選擇什么樣的特征是本實(shí)驗(yàn)考慮的重點(diǎn)，通過上文的特征選擇，本文使用到的特征模板如下面的表所示。

雖然條件機(jī)場模型可以容納各種復(fù)雜的自定義特征，但是過多的特征也會(huì)導(dǎo)致條件隨機(jī)場性能降低。我們在相關(guān)研究的基礎(chǔ)上，通過分析，根據(jù)自己實(shí)驗(yàn)的特點(diǎn)，制定了基本詞性特征模板和三個(gè)擴(kuò)展特征模板。

3實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)評(píng)價(jià)方法有很多種，本文采用正確率P、召回率R和F值來驗(yàn)證方法對(duì)評(píng)價(jià)對(duì)象抽取的有效性。本文使用第七屆中文傾向分析測試預(yù)料中的5000句觀點(diǎn)句作為測試集，得到實(shí)驗(yàn)結(jié)果如表5所示：

將本文的方法與文獻(xiàn)[4]的方法對(duì)比得到對(duì)比實(shí)驗(yàn)結(jié)果如表6所示：

由實(shí)驗(yàn)結(jié)果可知，對(duì)于基本的詞性模板，條件隨機(jī)場很難判斷評(píng)價(jià)對(duì)象，但是加入了語義角色的模板之后，實(shí)驗(yàn)結(jié)果有了很大的提高，語義角色的特征對(duì)評(píng)價(jià)對(duì)象抽取有很大的意義。在加入詞頻模板和形容詞位置特征模板F值分別提高了1.5%和4.5%，將本文方法與文獻(xiàn)[4]方法對(duì)比，F(xiàn)值提高了3.3%，實(shí)驗(yàn)結(jié)果表明，本文的方法有效提高了評(píng)價(jià)對(duì)象抽取的正確率。

參考文獻(xiàn)：

[1] Jakob N， Gurevych I. Extracting Opinion Targets in a Single and Cross-Domain Setting with Conditional Random Fields[C]//Proceedings of EMNLP-2010. 2010： 1035-1045.

[2] Li Fangtao， Han Chao， Huang Minlie， et al. Structure-aware review mining and summarization[C]//Proc of the 23rd International Conference on Computational Linguistics. 2010： 653-661.

[3] Ma Tengfei.Wan Xiaojun. Opinion target extracton in Chinese news comments[C]//proc of the 23rd International Conference on Computational Liuguistcs， 2010： 23-27.

[4] 戴敏，王榮洋. 基于句法特征的評(píng)價(jià)對(duì)象抽取方法研究[J]. 中文信息學(xué)報(bào)，2014，28（4）：93-97.

[5] 宋暉，史南勝. 基于模式匹配與半監(jiān)督學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取[J]. 計(jì)算機(jī)工程，2013，39（10）：221-226.

[6] Hu Minqing，Liu Bing. Mining Opinion Features in Customer Reviews[C]//Proc. of the 19th National Conference on Artifical Intelligence. San Jose，USA： AAAI Press，2004.

[7] Xu Liheng，Liu Kang，Zhao Jun. Mining opinion words and opinion targets in a two-stage framework[C]Proc of the 51st Annual Meeting of the Association for Computational Linguistics. 2013.

[8] 趙妍妍，秦兵. 基于句法路徑的情感評(píng)價(jià)單元識(shí)別[J].軟件學(xué)報(bào)，2011，22（5）：887-898.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種多特征融合的中文微博評(píng)價(jià)對(duì)象提取方法