胡龍茂
摘要:在線評論中特征抽取是產(chǎn)品意見挖掘的基礎(chǔ),直接影響到最終挖掘結(jié)果的準(zhǔn)確性。針對現(xiàn)有特征抽取方法的準(zhǔn)確率和召回率偏低問題,該文通過設(shè)計(jì)詞性序列模板產(chǎn)生候選特征集,利用PMI-IR方法進(jìn)行篩選,最終獲得產(chǎn)品特征集。實(shí)驗(yàn)結(jié)果表明,該方法取得較好效果。
關(guān)鍵詞:在線評論;特征抽?。恍蛄心0?;PMI
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)33-8076-03
Abstract: As a foundation of further analysis in in Chinese Online comments, features extraction influences the precision of the opinion mining results. Aiming at solving problems of relatively low precision, rate of coverage when using existing product features method, this paper designs part of speech sequence templates to obtain product features candidates, then utilizes PMI-IR method to filter product features candidates and obtain product features set. Experimental results show that this method is effective.
Key words: online comments; feature extraction; sequence template; PMI
1 概述
隨著電子商務(wù)的興起,越來越多的用戶從網(wǎng)上購買商品并發(fā)表購后評論。與此同時,用戶在購買商品之前,也都會查看其他用戶對所購商品的評論,試圖發(fā)現(xiàn)其他用戶對商品的總體意見及各屬性的意見,從而決定其購買行為。由此, 近年來許多學(xué)者對在線評論展開了研究, 意見挖掘就是這類研究的熱點(diǎn)之一, 其目標(biāo)是從海量的在線評論中分析每個用戶對于商品的態(tài)度?,F(xiàn)有的評論挖掘研究主要包含四個任務(wù):產(chǎn)品特征抽??;評論觀點(diǎn)抽?。辉u論觀點(diǎn)的極性以及強(qiáng)度判斷;評論挖掘結(jié)果的匯總以及按用戶觀點(diǎn)排序[1]。特征抽取是整個意見挖掘的基礎(chǔ),只有全面準(zhǔn)確地抽取出用戶評論中所涉及的產(chǎn)品特征,之后的分析才能有的放矢。因此, 本文將嘗試探討中文在線評論中產(chǎn)品特征抽取研究。
2 相關(guān)研究
目前,已有不少學(xué)者針對英文產(chǎn)品評論中特征詞抽取方法進(jìn)行研究。文獻(xiàn)[2-3]首先對評論語料進(jìn)行詞性標(biāo)注, 提取出所有的名詞和名詞短語構(gòu)成事務(wù)文件, 然后利用Apriori關(guān)聯(lián)規(guī)則抽取高頻的特征詞, 最后通過修剪規(guī)則提高準(zhǔn)確率和覆蓋率。文獻(xiàn)[4]提出了一種雙向傳播方法(DP, DoublePropagation), 根據(jù)詞匯依賴關(guān)系, 并考慮了代詞和否定詞的影響, 進(jìn)行特征詞和感情詞的抽取。文獻(xiàn)[5]引入句法特征使用基于條件隨機(jī)場模型的監(jiān)督學(xué)習(xí)方法實(shí)現(xiàn)評價(jià)對象抽取,明顯提高了評價(jià)對象的抽取召回率。國內(nèi)也有不少學(xué)者對中文產(chǎn)品評論屬性詞抽取方法進(jìn)行研究。文獻(xiàn)[6]抓取大量介紹產(chǎn)品的網(wǎng)頁,從中手工整理構(gòu)建屬性詞表。文獻(xiàn)[7]首先應(yīng)用中文分詞工具對網(wǎng)絡(luò)評論信息進(jìn)行分詞和詞性標(biāo)注,得到最初的產(chǎn)品特征名詞集合,然后采用潛在狄利特雷分布文本訓(xùn)練模型篩選出候選產(chǎn)品特征詞集合,進(jìn)而通過同義詞詞林拓展和過濾規(guī)則得到最終的產(chǎn)品特征集合,通過實(shí)驗(yàn)對比分析驗(yàn)證了所提方法的有效性。
因?yàn)楝F(xiàn)有產(chǎn)品特征抽取方法的準(zhǔn)確率和召回率都不太高,所以有必要進(jìn)行深入研究,該文主要工作如下:(1)設(shè)計(jì)詞性序列模板產(chǎn)生候選特征集,詞性序列模板不僅包含了名詞和名詞短語,還包括字符串、非及物動詞和動詞短語模板。(2)利用PMI-IR方法篩選候選特征集,構(gòu)建產(chǎn)品特征集。
5 總結(jié)
本文嘗試了新的方法對中文在線評論進(jìn)行產(chǎn)品特征抽取, 取得了較好的效果, 今后將結(jié)合特征詞-評價(jià)詞對的抽取方法,提高產(chǎn)品特征抽取的準(zhǔn)確率。
參考文獻(xiàn):
[1] Popescu A M,Etzioni O.Extracting product features and opinions from review[C].Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing,Stroudsburg,USA :Association for Computational Linguistics,005:339-346.
[2] Hu Minjing,Liu Bing.Mining Opinion Features in Customer Reviews[C].Proceedings of the 19th National Conference on Artifical Intelligence,ACM Press,2004.
[3] Hu Minjing,Liu Bing.Mining and Summarizing Customer Reviews[C].Proceedings of the ACM SIGKDD Conference on Knowledge Discovery and Data Mining,ACM Press,2004:168-177.
[4] Qiu G, Liu B, Bu J, Chen C. Expanding domain sentiment lexicon through double propagation[C].Proc. of the 21st International Joint Conference on Artificial Intelligences,2009:1199?1204.
[5] 呂品,鐘珞,蔡敦波,等.基于CRF的中文評論有效性挖掘產(chǎn)品特征[J].計(jì)算機(jī)工程與科學(xué),2014,36(2):359-366.
[6] 張孟,彭一凡.中文傾向性分析的研究[C].第1屆中文傾向性分析評測研討會論文集,2008:38-45.
[7] 馬柏樟,顏志軍.基于潛在狄利特雷分布模型的網(wǎng)絡(luò)評論產(chǎn)品特征抽取方法[J].計(jì)算機(jī)集成制造系統(tǒng),2014,20(1):96-103.