劉璟++朱艷輝++田海龍++馬進(jìn)
摘要:針對(duì)目前中文微博評(píng)價(jià)對(duì)象抽取方法準(zhǔn)確率較低的問題,本文提出一種基于條件隨機(jī)場的多特征融合方法抽取評(píng)價(jià)對(duì)象,通過分析語義角色、詞頻、形容詞位置特征與正確評(píng)價(jià)對(duì)象的關(guān)系,制定了融合基本特征、語義角色特征、詞頻特征和形容詞位置特征的條件隨機(jī)場多特征模板,實(shí)驗(yàn)結(jié)果表明,本文的方法提高了評(píng)價(jià)對(duì)象抽取的正確率。
關(guān)鍵詞:評(píng)價(jià)對(duì)象提?。惶卣鬟x擇;中文微博;條件隨機(jī)場
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)14-0188-03
1 概述
在信息爆炸的現(xiàn)代社會(huì),中文微博評(píng)價(jià)對(duì)象抽取研究有非常大的的商業(yè)價(jià)值,中文評(píng)價(jià)對(duì)象抽取不僅可以服務(wù)于上層的情感分析任務(wù),其結(jié)果還可以直接用于生活中數(shù)據(jù)統(tǒng)計(jì)分析。
目前對(duì)評(píng)價(jià)對(duì)象的抽取方法主要分為三個(gè)類別:基于無監(jiān)督學(xué)習(xí)的抽取方法、基于監(jiān)督學(xué)習(xí)的抽取方法和半監(jiān)督學(xué)習(xí)的方法。Jakob N[1]提出了一種包含句法模式的情緒圖走向方法提取評(píng)價(jià)對(duì)象候選集,然后采用自主學(xué)習(xí)策略抽取評(píng)價(jià)對(duì)象。文獻(xiàn)[2]和[3]利用條件隨機(jī)場模型的序列標(biāo)注方法抽取評(píng)價(jià)對(duì)象。戴敏,王榮洋[4]引使用條件隨機(jī)場抽取評(píng)價(jià)對(duì)象并引入了一些句法特征。宋暉,史南勝[5]對(duì)半監(jiān)督學(xué)習(xí)方法提取評(píng)價(jià)對(duì)象進(jìn)行了研究。Hu Minqing, Liu Bing[6]使用關(guān)聯(lián)規(guī)則提取評(píng)價(jià)對(duì)象的候選集。Xu Liheng[7]利用句法分析信息和隨機(jī)游走模型抽取評(píng)價(jià)對(duì)象。劉鴻宇。趙妍妍,秦兵等[8]使用句法路徑自動(dòng)識(shí)別情感評(píng)價(jià)單元。還有學(xué)者采用了話題模型抽取評(píng)價(jià)對(duì)象。本文的目標(biāo)就是構(gòu)建一個(gè)最優(yōu)的條件隨機(jī)場模型抽取中文微博的評(píng)價(jià)對(duì)象。
2 多特征融合的條件隨機(jī)場評(píng)價(jià)對(duì)象抽取方法
條件隨機(jī)場模型在自然語言處理任務(wù)中,相對(duì)于隱馬爾科夫模型等其他模型,它能更好利用所提供的上下文信息,相對(duì)于其他模型性能更好。
2.1特征選擇算法分析
1)語義角色特征
語義角色對(duì)評(píng)價(jià)對(duì)象抽取有重要的意義。定義集合SemT,對(duì)所有名詞進(jìn)行計(jì)算,滿足以下兩個(gè)條件中的任意一個(gè)則該名詞屬于集合SemT。切分詞為動(dòng)詞且該評(píng)價(jià)對(duì)象候選集為受事者,切分詞為形容詞且該評(píng)價(jià)對(duì)象候選集為施事者。定義集合SemF,若名詞屬于實(shí)施著或者受事者,且不屬于集合SemT,則該名詞屬于集合SemF。圖1和圖2給出了語義角色與評(píng)價(jià)對(duì)象的關(guān)系圖。當(dāng)切分詞為動(dòng)詞時(shí),受事者為極大可能為評(píng)價(jià)對(duì)象,當(dāng)切分詞為形容詞時(shí)實(shí)施者極大可能為評(píng)價(jià)對(duì)象。
2)詞頻特征
經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn),評(píng)價(jià)對(duì)象一般為名詞或名詞短語,對(duì)于微博觀點(diǎn)句“我的手機(jī)從三星換到三星再換到三星,初體驗(yàn)總是很美好,到最后放棄的原因都是同一個(gè):老死機(jī)?!逼渲忻~“三星”出現(xiàn)了三次,也是本文要抽取的評(píng)價(jià)對(duì)象,通過分析微博觀點(diǎn)句語料,我們發(fā)現(xiàn)在句子中頻繁出現(xiàn)的名詞極有可能為本文要抽取的評(píng)價(jià)對(duì)象。所以本文提出對(duì)微博觀點(diǎn)句中所有名詞提取出它在訓(xùn)練語料中的詞頻作為條件隨機(jī)場的一個(gè)特征模板。通過統(tǒng)計(jì)訓(xùn)練語料中詞頻與評(píng)價(jià)對(duì)象的關(guān)系,其結(jié)果如圖3所示,由圖可知,當(dāng)詞頻為1時(shí),在訓(xùn)練語料中出現(xiàn)的次數(shù)最多,正確的評(píng)價(jià)對(duì)象個(gè)數(shù)也最多,但是正確評(píng)價(jià)對(duì)象所占的比率并不高,也就是當(dāng)詞頻為1時(shí),正確的評(píng)價(jià)對(duì)象多的同時(shí),不正確的評(píng)價(jià)對(duì)象也非常的多。當(dāng)詞頻大于等于3小于11時(shí),正確評(píng)價(jià)對(duì)象所占比例達(dá)到了60%以上;當(dāng)詞頻大于等于11的時(shí)候,正確評(píng)價(jià)對(duì)象所占比例有個(gè)大幅的下降,并進(jìn)入較低的區(qū)域。
3)形容詞位置特征
對(duì)訓(xùn)練語料中正確的評(píng)價(jià)對(duì)象和其與形容詞的位置特征進(jìn)行統(tǒng)計(jì),其統(tǒng)計(jì)結(jié)果如圖4所示。由圖我們可以看出當(dāng)該名詞與形容詞距離在大于等于1小于等于3的時(shí)候正確的評(píng)價(jià)對(duì)象個(gè)數(shù)都在200以上,有較高的正確率;當(dāng)該名詞與形容詞最小距離在大于3小于等于7時(shí),正確的評(píng)價(jià)個(gè)數(shù)在150左右,雖然有很多的正確評(píng)價(jià)對(duì)象,但是錯(cuò)誤的評(píng)價(jià)對(duì)象也多;當(dāng)該詞與形容詞最小距離大于7時(shí),其正確的評(píng)價(jià)對(duì)象小于50并有趨向于0 的趨勢,其主要原因是,微博短小精悍,一般都不會(huì)很長。
2.2設(shè)計(jì)條件隨機(jī)場多特征融合模板
特征選擇對(duì)條件隨機(jī)場模型的評(píng)價(jià)對(duì)象抽取結(jié)果很大的影響,因此選擇什么樣的特征是本實(shí)驗(yàn)考慮的重點(diǎn),通過上文的特征選擇,本文使用到的特征模板如下面的表所示。
雖然條件機(jī)場模型可以容納各種復(fù)雜的自定義特征,但是過多的特征也會(huì)導(dǎo)致條件隨機(jī)場性能降低。我們在相關(guān)研究的基礎(chǔ)上,通過分析,根據(jù)自己實(shí)驗(yàn)的特點(diǎn),制定了基本詞性特征模板和三個(gè)擴(kuò)展特征模板。
3實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)評(píng)價(jià)方法有很多種,本文采用正確率P、召回率R和F值來驗(yàn)證方法對(duì)評(píng)價(jià)對(duì)象抽取的有效性。本文使用第七屆中文傾向分析測試預(yù)料中的5000句觀點(diǎn)句作為測試集,得到實(shí)驗(yàn)結(jié)果如表5所示:
將本文的方法與文獻(xiàn)[4]的方法對(duì)比得到對(duì)比實(shí)驗(yàn)結(jié)果如表6所示:
由實(shí)驗(yàn)結(jié)果可知,對(duì)于基本的詞性模板,條件隨機(jī)場很難判斷評(píng)價(jià)對(duì)象,但是加入了語義角色的模板之后,實(shí)驗(yàn)結(jié)果有了很大的提高,語義角色的特征對(duì)評(píng)價(jià)對(duì)象抽取有很大的意義。在加入詞頻模板和形容詞位置特征模板F值分別提高了1.5%和4.5%,將本文方法與文獻(xiàn)[4]方法對(duì)比,F(xiàn)值提高了3.3%,實(shí)驗(yàn)結(jié)果表明,本文的方法有效提高了評(píng)價(jià)對(duì)象抽取的正確率。
參考文獻(xiàn):
[1] Jakob N, Gurevych I. Extracting Opinion Targets in a Single and Cross-Domain Setting with Conditional Random Fields[C]//Proceedings of EMNLP-2010. 2010: 1035-1045.
[2] Li Fangtao, Han Chao, Huang Minlie, et al. Structure-aware review mining and summarization[C]//Proc of the 23rd International Conference on Computational Linguistics. 2010: 653-661.
[3] Ma Tengfei.Wan Xiaojun. Opinion target extracton in Chinese news comments[C]//proc of the 23rd International Conference on Computational Liuguistcs, 2010: 23-27.
[4] 戴敏,王榮洋. 基于句法特征的評(píng)價(jià)對(duì)象抽取方法研究[J]. 中文信息學(xué)報(bào),2014,28(4):93-97.
[5] 宋暉,史南勝. 基于模式匹配與半監(jiān)督學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取[J]. 計(jì)算機(jī)工程,2013,39(10):221-226.
[6] Hu Minqing,Liu Bing. Mining Opinion Features in Customer Reviews[C]//Proc. of the 19th National Conference on Artifical Intelligence. San Jose,USA: AAAI Press,2004.
[7] Xu Liheng,Liu Kang,Zhao Jun. Mining opinion words and opinion targets in a two-stage framework[C]Proc of the 51st Annual Meeting of the Association for Computational Linguistics. 2013.
[8] 趙妍妍,秦兵. 基于句法路徑的情感評(píng)價(jià)單元識(shí)別[J].軟件學(xué)報(bào),2011,22(5):887-898.