国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種多特征融合的中文微博評(píng)價(jià)對(duì)象提取方法

2016-06-30 20:09劉璟朱艷輝田海龍馬進(jìn)
電腦知識(shí)與技術(shù) 2016年14期
關(guān)鍵詞:特征選擇

劉璟++朱艷輝++田海龍++馬進(jìn)

摘要:針對(duì)目前中文微博評(píng)價(jià)對(duì)象抽取方法準(zhǔn)確率較低的問題,本文提出一種基于條件隨機(jī)場的多特征融合方法抽取評(píng)價(jià)對(duì)象,通過分析語義角色、詞頻、形容詞位置特征與正確評(píng)價(jià)對(duì)象的關(guān)系,制定了融合基本特征、語義角色特征、詞頻特征和形容詞位置特征的條件隨機(jī)場多特征模板,實(shí)驗(yàn)結(jié)果表明,本文的方法提高了評(píng)價(jià)對(duì)象抽取的正確率。

關(guān)鍵詞:評(píng)價(jià)對(duì)象提?。惶卣鬟x擇;中文微博;條件隨機(jī)場

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)14-0188-03

1 概述

在信息爆炸的現(xiàn)代社會(huì),中文微博評(píng)價(jià)對(duì)象抽取研究有非常大的的商業(yè)價(jià)值,中文評(píng)價(jià)對(duì)象抽取不僅可以服務(wù)于上層的情感分析任務(wù),其結(jié)果還可以直接用于生活中數(shù)據(jù)統(tǒng)計(jì)分析。

目前對(duì)評(píng)價(jià)對(duì)象的抽取方法主要分為三個(gè)類別:基于無監(jiān)督學(xué)習(xí)的抽取方法、基于監(jiān)督學(xué)習(xí)的抽取方法和半監(jiān)督學(xué)習(xí)的方法。Jakob N[1]提出了一種包含句法模式的情緒圖走向方法提取評(píng)價(jià)對(duì)象候選集,然后采用自主學(xué)習(xí)策略抽取評(píng)價(jià)對(duì)象。文獻(xiàn)[2]和[3]利用條件隨機(jī)場模型的序列標(biāo)注方法抽取評(píng)價(jià)對(duì)象。戴敏,王榮洋[4]引使用條件隨機(jī)場抽取評(píng)價(jià)對(duì)象并引入了一些句法特征。宋暉,史南勝[5]對(duì)半監(jiān)督學(xué)習(xí)方法提取評(píng)價(jià)對(duì)象進(jìn)行了研究。Hu Minqing, Liu Bing[6]使用關(guān)聯(lián)規(guī)則提取評(píng)價(jià)對(duì)象的候選集。Xu Liheng[7]利用句法分析信息和隨機(jī)游走模型抽取評(píng)價(jià)對(duì)象。劉鴻宇。趙妍妍,秦兵等[8]使用句法路徑自動(dòng)識(shí)別情感評(píng)價(jià)單元。還有學(xué)者采用了話題模型抽取評(píng)價(jià)對(duì)象。本文的目標(biāo)就是構(gòu)建一個(gè)最優(yōu)的條件隨機(jī)場模型抽取中文微博的評(píng)價(jià)對(duì)象。

2 多特征融合的條件隨機(jī)場評(píng)價(jià)對(duì)象抽取方法

條件隨機(jī)場模型在自然語言處理任務(wù)中,相對(duì)于隱馬爾科夫模型等其他模型,它能更好利用所提供的上下文信息,相對(duì)于其他模型性能更好。

2.1特征選擇算法分析

1)語義角色特征

語義角色對(duì)評(píng)價(jià)對(duì)象抽取有重要的意義。定義集合SemT,對(duì)所有名詞進(jìn)行計(jì)算,滿足以下兩個(gè)條件中的任意一個(gè)則該名詞屬于集合SemT。切分詞為動(dòng)詞且該評(píng)價(jià)對(duì)象候選集為受事者,切分詞為形容詞且該評(píng)價(jià)對(duì)象候選集為施事者。定義集合SemF,若名詞屬于實(shí)施著或者受事者,且不屬于集合SemT,則該名詞屬于集合SemF。圖1和圖2給出了語義角色與評(píng)價(jià)對(duì)象的關(guān)系圖。當(dāng)切分詞為動(dòng)詞時(shí),受事者為極大可能為評(píng)價(jià)對(duì)象,當(dāng)切分詞為形容詞時(shí)實(shí)施者極大可能為評(píng)價(jià)對(duì)象。

2)詞頻特征

經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn),評(píng)價(jià)對(duì)象一般為名詞或名詞短語,對(duì)于微博觀點(diǎn)句“我的手機(jī)從三星換到三星再換到三星,初體驗(yàn)總是很美好,到最后放棄的原因都是同一個(gè):老死機(jī)?!逼渲忻~“三星”出現(xiàn)了三次,也是本文要抽取的評(píng)價(jià)對(duì)象,通過分析微博觀點(diǎn)句語料,我們發(fā)現(xiàn)在句子中頻繁出現(xiàn)的名詞極有可能為本文要抽取的評(píng)價(jià)對(duì)象。所以本文提出對(duì)微博觀點(diǎn)句中所有名詞提取出它在訓(xùn)練語料中的詞頻作為條件隨機(jī)場的一個(gè)特征模板。通過統(tǒng)計(jì)訓(xùn)練語料中詞頻與評(píng)價(jià)對(duì)象的關(guān)系,其結(jié)果如圖3所示,由圖可知,當(dāng)詞頻為1時(shí),在訓(xùn)練語料中出現(xiàn)的次數(shù)最多,正確的評(píng)價(jià)對(duì)象個(gè)數(shù)也最多,但是正確評(píng)價(jià)對(duì)象所占的比率并不高,也就是當(dāng)詞頻為1時(shí),正確的評(píng)價(jià)對(duì)象多的同時(shí),不正確的評(píng)價(jià)對(duì)象也非常的多。當(dāng)詞頻大于等于3小于11時(shí),正確評(píng)價(jià)對(duì)象所占比例達(dá)到了60%以上;當(dāng)詞頻大于等于11的時(shí)候,正確評(píng)價(jià)對(duì)象所占比例有個(gè)大幅的下降,并進(jìn)入較低的區(qū)域。

3)形容詞位置特征

對(duì)訓(xùn)練語料中正確的評(píng)價(jià)對(duì)象和其與形容詞的位置特征進(jìn)行統(tǒng)計(jì),其統(tǒng)計(jì)結(jié)果如圖4所示。由圖我們可以看出當(dāng)該名詞與形容詞距離在大于等于1小于等于3的時(shí)候正確的評(píng)價(jià)對(duì)象個(gè)數(shù)都在200以上,有較高的正確率;當(dāng)該名詞與形容詞最小距離在大于3小于等于7時(shí),正確的評(píng)價(jià)個(gè)數(shù)在150左右,雖然有很多的正確評(píng)價(jià)對(duì)象,但是錯(cuò)誤的評(píng)價(jià)對(duì)象也多;當(dāng)該詞與形容詞最小距離大于7時(shí),其正確的評(píng)價(jià)對(duì)象小于50并有趨向于0 的趨勢,其主要原因是,微博短小精悍,一般都不會(huì)很長。

2.2設(shè)計(jì)條件隨機(jī)場多特征融合模板

特征選擇對(duì)條件隨機(jī)場模型的評(píng)價(jià)對(duì)象抽取結(jié)果很大的影響,因此選擇什么樣的特征是本實(shí)驗(yàn)考慮的重點(diǎn),通過上文的特征選擇,本文使用到的特征模板如下面的表所示。

雖然條件機(jī)場模型可以容納各種復(fù)雜的自定義特征,但是過多的特征也會(huì)導(dǎo)致條件隨機(jī)場性能降低。我們在相關(guān)研究的基礎(chǔ)上,通過分析,根據(jù)自己實(shí)驗(yàn)的特點(diǎn),制定了基本詞性特征模板和三個(gè)擴(kuò)展特征模板。

3實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)評(píng)價(jià)方法有很多種,本文采用正確率P、召回率R和F值來驗(yàn)證方法對(duì)評(píng)價(jià)對(duì)象抽取的有效性。本文使用第七屆中文傾向分析測試預(yù)料中的5000句觀點(diǎn)句作為測試集,得到實(shí)驗(yàn)結(jié)果如表5所示:

將本文的方法與文獻(xiàn)[4]的方法對(duì)比得到對(duì)比實(shí)驗(yàn)結(jié)果如表6所示:

由實(shí)驗(yàn)結(jié)果可知,對(duì)于基本的詞性模板,條件隨機(jī)場很難判斷評(píng)價(jià)對(duì)象,但是加入了語義角色的模板之后,實(shí)驗(yàn)結(jié)果有了很大的提高,語義角色的特征對(duì)評(píng)價(jià)對(duì)象抽取有很大的意義。在加入詞頻模板和形容詞位置特征模板F值分別提高了1.5%和4.5%,將本文方法與文獻(xiàn)[4]方法對(duì)比,F(xiàn)值提高了3.3%,實(shí)驗(yàn)結(jié)果表明,本文的方法有效提高了評(píng)價(jià)對(duì)象抽取的正確率。

參考文獻(xiàn):

[1] Jakob N, Gurevych I. Extracting Opinion Targets in a Single and Cross-Domain Setting with Conditional Random Fields[C]//Proceedings of EMNLP-2010. 2010: 1035-1045.

[2] Li Fangtao, Han Chao, Huang Minlie, et al. Structure-aware review mining and summarization[C]//Proc of the 23rd International Conference on Computational Linguistics. 2010: 653-661.

[3] Ma Tengfei.Wan Xiaojun. Opinion target extracton in Chinese news comments[C]//proc of the 23rd International Conference on Computational Liuguistcs, 2010: 23-27.

[4] 戴敏,王榮洋. 基于句法特征的評(píng)價(jià)對(duì)象抽取方法研究[J]. 中文信息學(xué)報(bào),2014,28(4):93-97.

[5] 宋暉,史南勝. 基于模式匹配與半監(jiān)督學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取[J]. 計(jì)算機(jī)工程,2013,39(10):221-226.

[6] Hu Minqing,Liu Bing. Mining Opinion Features in Customer Reviews[C]//Proc. of the 19th National Conference on Artifical Intelligence. San Jose,USA: AAAI Press,2004.

[7] Xu Liheng,Liu Kang,Zhao Jun. Mining opinion words and opinion targets in a two-stage framework[C]Proc of the 51st Annual Meeting of the Association for Computational Linguistics. 2013.

[8] 趙妍妍,秦兵. 基于句法路徑的情感評(píng)價(jià)單元識(shí)別[J].軟件學(xué)報(bào),2011,22(5):887-898.

猜你喜歡
特征選擇
正交基低冗余無監(jiān)督特征選擇法
網(wǎng)絡(luò)入侵檢測場景下的特征選擇方法對(duì)比研究
基于實(shí)例學(xué)習(xí)和協(xié)同子集搜索的特征選擇方法
基于最大信息系數(shù)和近似馬爾科夫毯的特征選擇方法
Kmeans 應(yīng)用與特征選擇
基于GA和ELM的電能質(zhì)量擾動(dòng)識(shí)別特征選擇方法
聯(lián)合互信息水下目標(biāo)特征選擇算法
基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
非線性電路多軟故障的智能優(yōu)化遞階特征選擇診斷方法
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法