国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)分析角度論述游客目的地印象

2021-12-24 10:48:51蔡金勇羅浩杰李澤星沈洋
電子樂園·上旬刊 2021年3期
關(guān)鍵詞:數(shù)據(jù)分析

蔡金勇 羅浩杰 李澤星 沈洋

摘要:本文旨在利用數(shù)據(jù)分析對游客對景區(qū)與酒店的評價進行數(shù)據(jù)挖掘,由于游客滿意度與目的地美譽度緊密相關(guān),游客滿意度越高,目的地美譽度就越大。找出其中穩(wěn)定客源、取得競爭優(yōu)勢、吸引游客到訪消費等的主要原因。這對于旅游企業(yè)科學(xué)監(jiān)管、資源優(yōu)化配置以及市場持續(xù)開拓具有長遠而積極的作用。

關(guān)鍵詞:數(shù)據(jù)分析;jieba分詞; 停用詞; 均方誤差; 編輯距離

一、問題重述

提升景區(qū)及酒店等旅游目的地美譽度是各地文旅主管部門和旅游相關(guān)企業(yè)非常重視和 關(guān)注的工作,涉及到如何穩(wěn)定客源、取得競爭優(yōu)勢、吸引游客到訪消費等重要事項。游客滿意度與目的地美譽度緊密相關(guān),游客滿意度越高,目的地美譽度就越大。

二、景區(qū)及酒店印象分析

(一)使用方法

我們將會用到j(luò)ieba分詞的方法,有三種分詞模式

(1) 精確模式:試圖將句子最精確地切開,適合文本分析;

(2) 全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義問題;

(3) 搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。

(二)問題解決

1.目的地TOP20熱門詞

本節(jié)使用jieba模塊中的精準(zhǔn)模式對網(wǎng)評文本進行分詞,再使用中文常用停用詞(中文停用詞表“cn_stopwords.txt”,哈工大停用詞表“hit_stopwords.txt”,百度停用詞表“baidu_stopword.txt”,四川大學(xué)機器智能實驗室停用詞庫“scu_stopwords.txt”)表對文本進行過濾,遍歷所有詞語,每出現(xiàn)一次加一,再將對應(yīng)鍵值轉(zhuǎn)換為列表,根據(jù)詞語出現(xiàn)的次數(shù)進行從到大到小進行排列,將排名前二十的熱詞及熱度輸出。

2. 每家酒店和景區(qū)的印象詞云表

我們將景區(qū)評論及酒店評論使用JupyterNotebook將其轉(zhuǎn)換為矩陣,新建一個空列表list1,創(chuàng)建一個循環(huán),將矩陣中第一列一樣的評論依此增加如list1中,每次添加完一次之后對list1進行分詞及過濾之后將前20個數(shù)據(jù)保存入對應(yīng)名稱的后綴為.csv的文件中。

總結(jié):由于數(shù)據(jù)處理對象為景區(qū)評論和酒店評論,我們選用停用詞表時可以選用針對性較強的,可以過濾更多無關(guān)詞語。分詞方法有很多,可以針對不同情況使用。待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建議直接輸入 GBK 字符串,可能無法預(yù)料地錯誤解碼成 UTF-8

三、景區(qū)及酒店的綜合評價

1. 數(shù)學(xué)模型及相應(yīng)算法

我們對問題一中的熱度數(shù)據(jù)對景區(qū)及酒店的服務(wù)、位置、設(shè)施、衛(wèi)生、性價比進行分析,在列表中衛(wèi)生熱度只有1931,而與其近似的干凈則占熱度3459,所以我們決定用干凈的熱度來表示衛(wèi)生的熱度。以及列表中性價比的熱度為2237,與其近似的便宜熱度為3190,及免費2360,考慮到有可能會有一句網(wǎng)評中都包含了這幾個詞語,所以我們決定用熱度較高的便宜來表示性價比的熱度。然后對這五個求權(quán)重得到下表:

提取出這五個的權(quán)重生成5×1的矩陣mat3,mat3則為評分權(quán)重矩陣。再將酒店評分提取出來生成5×50的矩陣mat1,將景區(qū)評分提取出來生成5×50的矩陣mat2。

用x1=np.dot(mat1,mat3)求得對酒店評分的預(yù)測矩陣,x2= np.dot(mat2,mat3)求得對景區(qū)的預(yù)測矩陣,在excel表中提取出酒店評分真實值y1及景區(qū)評分真實值y2。然后使用預(yù)測矩陣x減去真實矩陣y,分別得到差值矩陣d1,d2。

然后使用預(yù)測矩陣x減去真實矩陣y,分別得到差值矩陣d1,d2。

最后使用均方誤差進行模型判斷:

MSE:

計算酒店評分的均方誤差:np.dot(np.transpose(d1),d1)/50

計算景區(qū)評分的均方誤差:np.dot(np.transpose(d2),d2)/50

計算酒店加景區(qū)評分的均方誤差:

(np.dot(np.transpose(d2),d2)+np.dot(np.transpose(d1),d1))/100

得到MSE(酒店)≈0.0098

MSE(景區(qū))≈ 0.0121

MSE(酒店+景區(qū))≈ 0.0109

當(dāng)MSE越小,我們建立的模型越好。

四、網(wǎng)評文本的有效性分析

出于各種原因,網(wǎng)絡(luò)評論常常出現(xiàn)內(nèi)容不相關(guān)、簡單復(fù)制修改和無有效內(nèi)容等現(xiàn)象,為了解決這個問題,我們使用了計算編輯距離的方法。

1.算法

編輯距離,又稱Levenshtein距離(也叫做Edit Distance),是指兩個字串之間,由一個轉(zhuǎn)成另一個所需的最少編輯操作次數(shù),如果它們的距離越大,說明它們越是不同。許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。

代碼實現(xiàn):

Levenshtein.distance(’abc’,’cba’)

Levenshtein.distance(’kitten’,’sitting’)

2.問題解決

通過計算編輯距離,我們剔除距離小于0.5的數(shù)據(jù),使得數(shù)據(jù)更加簡潔,提高數(shù)據(jù)有效性。

在執(zhí)行過程中,為了減少計算,我們首先對數(shù)據(jù)進行了清洗,主要用到了去停用詞,結(jié)巴精準(zhǔn)分詞等方法,然后計算編輯距離。但是通過對比較結(jié)果進行分析,我們發(fā)現(xiàn)距離普遍較小,即相關(guān)性普遍較大,無法進行有效剔除。因此我們放棄了此方法,選擇分析文本。

我們將每個文本與后面的文本進行比較,得到對應(yīng)的相關(guān)性(代碼用的是1-aa,因此,值越靠近1相關(guān)性越強):

我們將這些篩選出的相關(guān)度高的數(shù)據(jù)進行剔除,就整理出來了一個更有效的數(shù)據(jù)。

猜你喜歡
數(shù)據(jù)分析
電子物證檢驗的數(shù)據(jù)分析與信息應(yīng)用研究
基于matlab曲線擬合的數(shù)據(jù)預(yù)測分析
商情(2016年40期)2016-11-28 11:28:07
分眾媒體趨勢下場景營銷的商業(yè)前景
商(2016年32期)2016-11-24 17:39:41
佛山某給水管線控制測量探討
科技資訊(2016年18期)2016-11-15 18:05:53
SPSS在環(huán)境地球化學(xué)中的應(yīng)用
考試周刊(2016年84期)2016-11-11 23:57:34
大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務(wù)日常工作中的應(yīng)用
淺析大數(shù)據(jù)時代背景下的市場營銷策略
新常態(tài)下集團公司內(nèi)部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
峨眉山市| 阳山县| 牡丹江市| 郎溪县| 米泉市| 鹤壁市| 平定县| 祥云县| 五河县| 阿克陶县| 宁城县| 田林县| 丁青县| 女性| 文登市| 大余县| 华容县| 峨眉山市| 龙陵县| 金阳县| 陇南市| 扶风县| 潍坊市| 岐山县| 长寿区| 鹿邑县| 伊春市| 合作市| 宁陵县| 灵石县| 广州市| 崇礼县| 蒙阴县| 浪卡子县| 满洲里市| 华容县| 施秉县| 乐都县| 松潘县| 梅州市| 民县|