国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

細(xì)粒度情感分析的酒店評(píng)論研究

2016-12-17 05:11朱夢(mèng)堯徐志廣張宏俊
傳感器與微系統(tǒng) 2016年12期
關(guān)鍵詞:項(xiàng)集出游詞典

李 鳴, 吳 波, 宋 陽(yáng), 朱夢(mèng)堯, 徐志廣, 張宏俊

(1.上海大學(xué) 通信與信息工程學(xué)院,上海 200444;2.中國(guó)科學(xué)院 上海高等研究院,上海 201210; 3.西安航天恒星科技實(shí)業(yè)(集團(tuán))公司,陜西 西安 710061)

?

細(xì)粒度情感分析的酒店評(píng)論研究

李 鳴1,2, 吳 波2, 宋 陽(yáng)3, 朱夢(mèng)堯1, 徐志廣2, 張宏俊2

(1.上海大學(xué) 通信與信息工程學(xué)院,上海 200444;2.中國(guó)科學(xué)院 上海高等研究院,上海 201210; 3.西安航天恒星科技實(shí)業(yè)(集團(tuán))公司,陜西 西安 710061)

酒店在線評(píng)論細(xì)粒度挖掘具有重要研究意義。以酒店在線評(píng)論具體特征屬性和情感分類為研究目標(biāo),應(yīng)用Apriori算法和情感詞典匹配算法,對(duì)重慶霧都賓館在線評(píng)論數(shù)據(jù)深入挖掘,挖掘出用戶最關(guān)注的酒店十大特征和滿意度結(jié)果,進(jìn)一步挖掘出商務(wù)出差等五種不同出游類型人最關(guān)注的酒店五大特征和滿意度結(jié)果。這種方法不僅能對(duì)酒店領(lǐng)域評(píng)論進(jìn)行分析,同樣能夠應(yīng)用于其他領(lǐng)域。

酒店在線評(píng)論; 特征挖掘; 情感分析; 細(xì)粒度; 情感詞典匹配

0 引 言

隨著電子商務(wù)的快速發(fā)展,越來越多的人在網(wǎng)絡(luò)上預(yù)訂酒店并對(duì)入住體驗(yàn)進(jìn)行在線評(píng)論。這些評(píng)論不僅有利于潛在的酒店消費(fèi)者參考,也有利于商家有針對(duì)性地改善服務(wù)質(zhì)量。然而,酒店評(píng)論信息量龐大冗雜,給于消費(fèi)者和商家查找有用的信息帶來了極大的麻煩,如何方便快捷地挖掘出評(píng)論中有價(jià)值的信息逐漸成為研究熱點(diǎn)。情感分析能從評(píng)論中獲取用戶的喜怒哀樂,了解用戶對(duì)酒店的喜好程度。

傳統(tǒng)的情感分析主要采用兩類方法,基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法。2002年,Turney P D[1]提出了基于種子詞匯發(fā)現(xiàn)情感詞的方法。Pang B等人[2]采用了貝葉斯、最大熵、支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)的方法來構(gòu)造分類器,并對(duì)這幾種方法進(jìn)行了對(duì)比。Kobayashi N等人[3]構(gòu)建了一個(gè)模式庫(kù),收錄了8種命中率比較高且較準(zhǔn)的模式用來提取評(píng)價(jià)主體、評(píng)價(jià)方面和評(píng)價(jià)之間的關(guān)系。 Marrese-Taylor E等人[4]考慮到用戶對(duì)不同的產(chǎn)品發(fā)表的評(píng)論不同,找出旅游領(lǐng)域的特征,構(gòu)造出更準(zhǔn)確的自然語(yǔ)言處理模型用于旅游領(lǐng)域的挖掘。

然而,前面基于篇章、句子級(jí)別的粗粒度情感分析由于沒有考慮情感所針對(duì)的具體對(duì)象,無法滿足用戶了解酒店各個(gè)特征屬性的需求。李杰等人[5]對(duì)特征提取的研究進(jìn)行了全面的概括,文獻(xiàn)[6,7]著重對(duì)酒店細(xì)粒度的情感分析進(jìn)行研究:通過關(guān)聯(lián)規(guī)則方法識(shí)別出評(píng)價(jià)對(duì)象特征詞、情感詞以及情感修飾詞,并找出他們之間的關(guān)系,計(jì)算出相應(yīng)的情感值,構(gòu)建相關(guān)領(lǐng)域的屬性詞表和情感詞表。這些方法在英文領(lǐng)域取得了不錯(cuò)的成果,但是在中文語(yǔ)言下的適應(yīng)性不是很理想。

本文在前人研究的基礎(chǔ)上,將Apriori關(guān)聯(lián)規(guī)則算法應(yīng)用于中文酒店評(píng)論領(lǐng)域,并結(jié)合酒店領(lǐng)域情感詞典做分類,最終實(shí)現(xiàn)了更為準(zhǔn)確的評(píng)論挖掘。通過對(duì)重慶霧都賓館的評(píng)論數(shù)據(jù)進(jìn)行屬性特征挖掘,實(shí)現(xiàn)細(xì)粒度屬性分類,挖掘出用戶最關(guān)注的酒店十大特征及滿意度結(jié)果,進(jìn)一步挖掘出商務(wù)出差等五種不同出游類型人最關(guān)注的酒店五大特征及滿意度結(jié)果。這些結(jié)果對(duì)潛在的酒店用戶具有重要的參考價(jià)值,同時(shí)對(duì)于商家有針對(duì)性地改善服務(wù)質(zhì)量有積極作用。

1 算法框架

圖1為本文的算法框架圖。特征挖掘模塊挖掘出用戶關(guān)注的酒店特征,并通過查找合并同義詞進(jìn)行特征過濾。觀點(diǎn)句識(shí)別與情感分類模塊根據(jù)挖掘的特征集識(shí)別出觀點(diǎn)句,并根據(jù)用戶出游類型特征將識(shí)別的觀點(diǎn)句用情感詞典匹配方法進(jìn)行情感極性分類。

圖1 算法框架圖Fig 1 Algorithm frame

2 關(guān)鍵算法

2.1 Apriori算法

本文特征挖掘模塊采用了Apriori算法,Apriori算法是挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。在這個(gè)算法中,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集。利用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí),通過逐層搜索的迭代方法,即將k項(xiàng)集用于探察k+1項(xiàng)集,來窮盡數(shù)據(jù)集中的所有頻繁項(xiàng)集。先找到頻繁1項(xiàng)集集合L1,然后用L1找到頻繁2項(xiàng)集集合L2,接著用L2找L3,直到找不到頻繁k項(xiàng)集,找每個(gè)Lk需要一次數(shù)據(jù)庫(kù)掃描。在本文中,特征挖掘模塊定義最小支持度為0.6 %,只要是在評(píng)論句子集中出現(xiàn)的次數(shù)大于等于3次,都提取出來作為候選特征集,最終經(jīng)實(shí)驗(yàn)調(diào)優(yōu)為6 %,選出了23個(gè)頻繁特征集。

2.2 情感詞典匹配技術(shù)

2.2.1 構(gòu)建酒店領(lǐng)域情感詞典

本文構(gòu)建的酒店領(lǐng)域情感詞典包括:基礎(chǔ)情感詞典、酒店領(lǐng)域情感詞典、網(wǎng)絡(luò)情感術(shù)語(yǔ)詞典、否定詞典和程度副詞詞典。

基礎(chǔ)情感詞典由正面基礎(chǔ)情感詞典和負(fù)面基礎(chǔ)情感詞典組成。將HowNet中的正面情感詞、評(píng)價(jià)詞和中文情感詞匯本體庫(kù)中極性為“1”的詞合并去重,并去掉情感傾向不顯著的詞條組成正面基礎(chǔ)情感詞典;將HowNet中的負(fù)面情感詞、評(píng)價(jià)詞和中文情感詞匯本體庫(kù)中極性為“2”的詞合并去重,并去掉情感傾向不顯著的詞條組成負(fù)面基礎(chǔ)情感詞典。最終形成的基礎(chǔ)情感詞典含5 821個(gè)正面情感詞,10 186個(gè)負(fù)面情感詞。

構(gòu)建酒店領(lǐng)域?qū)S们楦性~典采用了Turney等的點(diǎn)互信息法,思想是依據(jù)目標(biāo)詞和基準(zhǔn)詞間的點(diǎn)互信息,確立兩詞關(guān)聯(lián),預(yù)測(cè)目標(biāo)詞的情感分。采用SO—PMI算法,計(jì)算目標(biāo)詞與基準(zhǔn)詞的正負(fù)面點(diǎn)互信息之差,差值大于0 為正面情感詞, 反之為負(fù)面情感詞。其中,Pset和Nset分別是正面和負(fù)面基準(zhǔn)詞的集合,公式如下

(1)

該實(shí)驗(yàn)的基準(zhǔn)詞選取方法如下:從攜程網(wǎng)上采集了30萬條評(píng)論數(shù)據(jù),初始評(píng)論文本經(jīng)預(yù)處理,提取形容詞、副詞為候選詞,遍歷基礎(chǔ)情感詞典庫(kù)做對(duì)比,去掉和基礎(chǔ)情感詞典庫(kù)重復(fù)的詞,按詞頻由大到小排序。依據(jù)前30個(gè)形容詞和副詞的極性,選擇5個(gè)正面基準(zhǔn)詞,5個(gè)負(fù)面基準(zhǔn)詞。共得到87個(gè)正面情感詞, 134 個(gè)負(fù)面情感詞的酒店領(lǐng)域?qū)S们楦性~典。

網(wǎng)絡(luò)術(shù)語(yǔ)情感詞典:網(wǎng)絡(luò)專用情感術(shù)語(yǔ)是網(wǎng)絡(luò)中出現(xiàn)的風(fēng)靡一時(shí)的詞語(yǔ),不能被傳統(tǒng)的基礎(chǔ)情感詞典正確的識(shí)別,但是卻被廣泛使用。本實(shí)驗(yàn)以搜狗互聯(lián)網(wǎng)詞庫(kù)(SogouW)的數(shù)據(jù)為基礎(chǔ)并人工添加一些近期廣泛使用的網(wǎng)絡(luò)情感詞匯來構(gòu)造網(wǎng)絡(luò)術(shù)語(yǔ)情感詞典。否定詞典由人工收集整理的42個(gè)否定詞構(gòu)成。程度副詞表達(dá)了情感的強(qiáng)烈程度,利用HowNet收集的程度級(jí)別詞語(yǔ),并借鑒藺璜的方法構(gòu)建程度副詞詞典。

2.2.2 情感詞典匹配算法設(shè)計(jì)

對(duì)構(gòu)建好的酒店領(lǐng)域情感詞典詞語(yǔ)分別賦予強(qiáng)度值。表1為酒店領(lǐng)域情感詞典詞語(yǔ)及其相應(yīng)強(qiáng)度值示例。

服務(wù)于應(yīng)用型人才培養(yǎng)目標(biāo),大學(xué)物理課程需要在各個(gè)環(huán)節(jié)進(jìn)行改革,這項(xiàng)工作一直在進(jìn)行中,同時(shí)也取得了一些成效。應(yīng)該認(rèn)識(shí)到改革是一個(gè)動(dòng)態(tài)的、與時(shí)俱進(jìn)的過程,有利于教學(xué)質(zhì)量提高、有利于學(xué)生創(chuàng)新能力提升的方法和措施都是物理課程改革應(yīng)該嘗試的。

3 仿真驗(yàn)證

3.1 實(shí)驗(yàn)內(nèi)容

本實(shí)驗(yàn)主要有兩部分內(nèi)容:構(gòu)建情感詞典和特征挖掘。

1)構(gòu)建情感詞典:在攜程網(wǎng)上爬取了重慶和西安的酒店評(píng)論共30萬條,主要提取了評(píng)論內(nèi)容、用戶信息、用戶評(píng)分、用戶出游類型和用戶出游時(shí)間等信息,將這些數(shù)據(jù)用由中國(guó)科學(xué)院計(jì)算機(jī)所編寫的中文分詞工具ICTCLAS進(jìn)行分詞和詞性標(biāo)注,構(gòu)建酒店領(lǐng)域情感詞典。

表1 酒店領(lǐng)域情感詞典及其強(qiáng)度值示例

2)特征挖掘:選擇了重慶霧都賓館由商務(wù)出差、情侶出游、家庭親子、朋友出游、獨(dú)自出行5種出游類型用戶評(píng)價(jià)且評(píng)價(jià)內(nèi)容豐富的數(shù)據(jù)各100條。對(duì)500條評(píng)價(jià)數(shù)據(jù)進(jìn)行特征挖掘,挖掘出該賓館的23項(xiàng)頻繁特征項(xiàng)集,并根據(jù)頻繁特征項(xiàng)識(shí)別出觀點(diǎn)句子并分類。最后分別對(duì)這5種不同出游類型的用戶評(píng)論進(jìn)行分析,得到每種出游類型的人關(guān)注的酒店特征和相應(yīng)的評(píng)價(jià),并統(tǒng)計(jì)出結(jié)果。

3.2 實(shí)驗(yàn)結(jié)果與分析

對(duì)重慶霧都賓館500條評(píng)論數(shù)據(jù)進(jìn)行挖掘得到的酒店頻繁特征項(xiàng)集如圖2所示。圖中不僅可以看出用戶對(duì)酒店地理位置、服務(wù)、房間、交通等一般特征比較關(guān)注,還可以看出用戶對(duì)該酒店提供的浴缸、衣帽間等特有服務(wù)也很有興趣。該酒店管理者可以通過這些評(píng)論繼續(xù)改進(jìn)自己的特色服務(wù),用戶也可能因這些特色服務(wù)而被吸引消費(fèi)。

圖2 酒店頻繁特征項(xiàng)集Fig 2 Frequent features item sets of hotel

圖3為挖掘重慶霧都賓館500條評(píng)論數(shù)據(jù)得到的用戶最關(guān)注的酒店10個(gè)特征和滿意度。由圖可知,用戶最關(guān)注該酒店的房間、位置、服務(wù)、早餐等,對(duì)位置、安靜和交通非常滿意,對(duì)服務(wù)滿意度比較低,酒店應(yīng)該針對(duì)這些滿意度低的方面做出相應(yīng)的改善來提高酒店的核心競(jìng)爭(zhēng)力。

圖3 用戶最關(guān)注的酒店十大特征和滿意度Fig 3 Ten features of hotel that most users concerned andsatisfaction results

圖4為商務(wù)出差、情侶出游等五種不同出游類型的人最關(guān)注的酒店五大特征和滿意度。由圖可知,商務(wù)出差最關(guān)注服務(wù)質(zhì)量但是對(duì)服務(wù)不滿意;情侶出游對(duì)安靜比較關(guān)注且非常滿意等。酒店管理者可以根據(jù)不同出游類型的客戶評(píng)論做出相應(yīng)的改善,對(duì)客戶比較滿意的特色服務(wù)大力推廣,客戶也可以根據(jù)相應(yīng)的出游類型評(píng)論來選擇適合自己的酒店。

圖4 五種不同出游類型人最關(guān)注的酒店五大特征及其滿意度Fig 4 Five features of hotel that five different kinds of travellers most concerned together with degree of satisfaction

4 結(jié) 論

本文在對(duì)重慶和西安30萬條酒店評(píng)論挖掘的基礎(chǔ)上,構(gòu)建了酒店領(lǐng)域情感詞典。以重慶霧都賓館的評(píng)論數(shù)據(jù)為例,挖掘出用戶最關(guān)注的酒店十大特征及滿意度結(jié)果,進(jìn)一步挖掘出商務(wù)出差等五種不同出游類型人最關(guān)注的酒店五大特征及滿意度結(jié)果。這些結(jié)果表明細(xì)粒度情感分析具有巨大價(jià)值:一方面,酒店管理者不僅可以了解用戶對(duì)酒店具體特征的滿意度,還可以了解不同類型用戶對(duì)酒店的需求,更能有針對(duì)性地改善服務(wù);另一方面,幫助用戶了解酒店各個(gè)特征優(yōu)劣,從而幫助用戶更加明智的做出決策。

[1] Turney P D,Littman M L.Measuring praise and criticism:Infe-rence of semantic orientation from association[J].ACM Transactions on Information Systems(TOIS),2003,21(4):315-346.

[2] Pang B,Lee L,Vaithyanathan S.Thumbs up:Sentiment classification using machine learning techniques[C]∥Proceedings of Association for Computational Linguistics Conference on Empirical Methods in Natural Language Processing,ACL’02,2002:79-86.

[3] Kobayashi N,Inui K,Matsumoto Y,et al.Collecting evaluative expressions for opinion extraction[M]∥Berlin Heidelberg:Springer 2005:596-605.

[4] Marrese-Taylor E,Velásquez J D,Bravo-Marquez F.A novel deterministic approach for aspect-based opinion mining in tourism products reviews[J].Expert Systems with Applications,2014,41(17):7764-7775.

[5] 李 杰,周 萍.語(yǔ)音情感識(shí)別中特征參數(shù)的研究進(jìn)展[J].傳感器與微系統(tǒng),2012,31(2):4-7.

[6] Kanayama H,Nasukawa T.Fully automatic lexicon expansion for domain-oriented sentiment analysis[C]∥Proceedings of the 2006 Conference on Empirical Methods in Natural Language Proces-sing,Association for Computational Linguistics,2006:355-363.

[7] Hu M,Liu B.Mining and summarizing customer reviews[C]∥Proceedings of the Tenth International Conference on Knowledge Discovery and Data Mining,ACM,2004:168-177.

Research on hotel reviews based on fine-grained sentiment analysis

LI Ming1,2, WU Bo2, SONG Yang3, ZHU Meng-yao1, XU Zhi-guang2, ZHANG Hong-jun2

(1.School of Communication and Information Engineering,Shanghai University,Shanghai 200444,China; 2.Shanghai Advanced Research Institute,Chinese Academy of Sciences,Shanghai 201210,China; 3.Xi’an Space Star Technology Group Co Ltd,Xi’an 710061,China)

Fine-grained mining of hotel online reviews are of great importance.Specific feature and emotional attributes of hotel online reviews can be taken as research targets,using Apriori algorithm and semantic lexicon matching algorithm,online reviews data of Chongqing Wu Du Hotel are mined,ten features that most users concerned and satisfaction results of the hotel can be inferred and five features of the hotel that five different kinds of travellers such as bussiness man most concerned together with corresponding degree of satisfaction results can also be mined in further exploration.This method can be applied in other fields.

hotel online reviews; feature mining; sentiment analysis; fine-grained; semantic lexicon matching

10.13873/J.1000—9787(2016)12—0041—03

2016—03—02

TP 391

A

1000—9787(2016)12—0041—03

李 鳴(1990-),女,湖北隨州人,碩士,研究方向?yàn)榫频暝诰€評(píng)論數(shù)據(jù)的情感傾向分析。

猜你喜歡
項(xiàng)集出游詞典
米蘭·昆德拉的A-Z詞典(節(jié)選)
米沃什詞典
未來出游大作戰(zhàn)
不確定數(shù)據(jù)的約束頻繁閉項(xiàng)集挖掘算法
假期帶娃出游防走失
出游季你都“妝”對(duì)了嗎
漫畫詞典
大衛(wèi)出游
《胡言詞典》(合集版)刊行
一種新的改進(jìn)Apriori算法*
利川市| 三江| 鱼台县| 微博| 阜新市| 阜城县| 沙湾县| 万山特区| 驻马店市| 丰宁| 丰顺县| 依安县| 毕节市| 开鲁县| 惠东县| 大荔县| 无极县| 南城县| 永德县| 康马县| 玉门市| 庄浪县| 闻喜县| 特克斯县| 卓尼县| 江川县| 汶川县| 滨州市| 青冈县| 马龙县| 九江市| 秦皇岛市| 陕西省| 平山县| 湘阴县| 侯马市| 高要市| 裕民县| 芮城县| 北票市| 辉南县|