曹宛如
河北地質(zhì)大學(xué),河北石家莊 050031
近年來旅游業(yè)實現(xiàn)開放式發(fā)展,在線訂閱旅游行程成為一種人們追捧的新時尚,在線旅游APP用戶規(guī)模穩(wěn)步增長。在線旅游APP推出的旅游行程根據(jù)游客的不同需求推薦各類的方案,游客從推薦中根據(jù)個人的不同需求選取自己喜歡的產(chǎn)品自助訂閱。
盡管各類在線旅游APP滿足大眾對旅游的多種個性化需求,但是存在的問題仍屢見不鮮,在線訂閱的旅游行程后評價是游客分享旅游體驗的主要渠道,評價的內(nèi)容已經(jīng)成為影響潛在游客的訂閱在線旅游行程重要因素,逐漸成為旅游行業(yè)研究的對象之一,因此通過網(wǎng)絡(luò)評論的內(nèi)容分析游客對于在線訂閱的旅游行程的滿意度尤為重要。本文從網(wǎng)絡(luò)環(huán)境下游客旅游評論的角度,對游客旅游滿意度進行分析,以適應(yīng)當(dāng)前迅速變化的社會環(huán)境以及人們的消費心理的改變[2]。
本文文本分析涉及到的理論及方法包括結(jié)巴分詞、決策樹構(gòu)建和LDA模型等。
根據(jù)游客對在線訂購的旅游行程產(chǎn)品的評價,基于文本分析對旅游行業(yè)游客滿意度進行分析,具體地,研究工作包含以下幾個方面:
首先,通過結(jié)巴分詞的方法進行分詞處理[3]。根據(jù)前綴建立游客滿意度評論詞庫,將處理過的評論內(nèi)容進行分詞處理,并進行詞頻統(tǒng)計,繪制詞云圖。
其次,采用分類回歸決策樹(CART),構(gòu)建決策樹衡量模型好壞。構(gòu)造特征空間和標(biāo)簽,將樣本數(shù)據(jù)劃分為訓(xùn)練集和測試集,隨機選取滿意度影響因素與對應(yīng)的情感綜合評價多維數(shù)據(jù)矩陣中的75%作為測試集,其余25%作為驗證集,詞轉(zhuǎn)向量后即可構(gòu)建決策樹。
然后,采用情感分析,利用詞典資源、情感語集對分詞的各詞語的詞性進行判斷,建立情感詞庫,對詞語的感情極性進行分析,即判斷某個體對客體的感情傾向的方向,將評論內(nèi)容進行分詞、量化為數(shù)值型數(shù)據(jù),根據(jù)權(quán)重匹配得到情感值,做出正面和負(fù)面詞云圖,分析結(jié)果。
最后,使用Python中的Genism庫來構(gòu)建LDA主題模型對評論內(nèi)容進行分類,它可以以概率分布的形式給出每篇文檔的主題,從而依據(jù)主題分布進行主題聚類或者是文本分類。需要建立詞典及語料庫,利用函數(shù)功能定義余弦相似度函數(shù)做出正面評論和負(fù)面評論LDA主題數(shù)尋優(yōu)圖,根據(jù)主題尋優(yōu)圖選取余弦相似度接近于零的主題數(shù),基于每個主題下生成的最有可能詞語分別對正面評論和負(fù)面評論進行兩個潛在主題的特征詞提取并分析。
由收集的樣例數(shù)據(jù)3990條評論,數(shù)據(jù)分為訓(xùn)練樣本集和測試樣本集兩部分。首先需要對各網(wǎng)站評論內(nèi)容進行去重和數(shù)據(jù)清洗處理,去重后評論有3814條,并刪除評論中會含有對文本分析沒用價值的詞。
本文運用結(jié)巴分詞對3814條評論內(nèi)容進行分詞處理,對每條評論的分詞數(shù)量的分布情況進行分析。利用python做出分詞后的詞云圖,用于呈現(xiàn)出現(xiàn)頻次處于前100的高頻詞匯,在詞云圖中,字號最大的是“酒店”,說明作為游客在旅游中最關(guān)心的因素是酒店。其次是“廈門”“不錯”“同程”“導(dǎo)游”“鼓浪嶼”“服務(wù)”等,詞云圖中大部分的高頻詞都是偏積極或者中性的,說明大多數(shù)游客對于旅游體驗持滿意態(tài)度,并對酒店、導(dǎo)游、服務(wù)、時間、安排、早餐幾方面比較看重。
通過構(gòu)建決策樹可實現(xiàn)對評論內(nèi)容的情感分類,利用從訓(xùn)練集的評論內(nèi)容中自動學(xué)習(xí)到的信息,對測試集評論的情感方向進行預(yù)測。經(jīng)過處理后的2844個樣本中,差評、中評和好評的數(shù)量分別為383條、342條和2119條。決策樹計算結(jié)果顯示,訓(xùn)練樣本集上的準(zhǔn)確率為78%,測試樣本集上的準(zhǔn)確率為78%。正面情感詞匯的F1-score較高為87%,精確率為78%,召回率為99%。負(fù)面情感詞匯的F1-score較低為36%,精確率為70%,召回率為24%。平均的F1-score為71%,總體來說構(gòu)建模型的效果不錯[4]。
采用知網(wǎng)發(fā)布的情感語集,并在詞庫中加入新詞“贊”“推薦”“好評”等,以提高情感分析的準(zhǔn)確性。接著對于不同的情感方向詞語進行權(quán)重分配,然后利用表連接的方式將情感詞庫的權(quán)重匹配到前面處理過的評論分詞中,正面詞權(quán)重為1,負(fù)面詞權(quán)重為-1。對于在評論中出現(xiàn)否定詞或者雙重否定的情況,修正情感影響。
根據(jù)每條評論得到的的情感得分對評論內(nèi)容重新打上情感方向的標(biāo)簽,情感得分大于零的評論為“正”,得分小于零的為“負(fù)”,等于零的為“中”,得到帶有情感方向的評論共3251條。在分析評論的情感方向時,主要分析的是游客對旅游感受的正負(fù)面情感方向,因此我們主要分析機器學(xué)習(xí)方法在正負(fù)面的準(zhǔn)確率,計算得出總體判斷準(zhǔn)確率約為72%。
由正負(fù)面的情感詞云圖的對比可清晰看出,正面的情感詞云圖詞語分布較為密集,負(fù)面詞云圖分布較為稀疏。說明對于自己的旅游體驗感覺良好的游客占了絕大多數(shù),只有很少一部分游客對于自己的行程不滿意。主要的負(fù)面詞包括“投訴”“失望”“難吃”“無聊”“貴”“不合理”“不負(fù)責(zé)任”等。由此反映出商家應(yīng)在食物、服務(wù)、價格等方面做出相應(yīng)改善,以減少游客在這些方面的不滿[5]。
基于LDA模型的主題分析,它的優(yōu)點能夠精確的反映出他們的主題[1]。本文使用python的genism庫來構(gòu)建LDA主題模型對評論內(nèi)容進行分類。本次分析中當(dāng)主題數(shù)為2時余弦相似度幾乎接近于零,因此將正面和負(fù)面評論的LDA主題數(shù)都定為2,同時每個主題下生成10個最有可能的詞語。
根據(jù)對游客旅游積極評論內(nèi)容的兩個潛在主題的特征詞提取,主題1的高頻特征詞如“酒店”“飛機”“房間”“接機”,說明游客對于整個行程中對交通和住宿方面的滿意度較高。主題2的高頻特征詞如“行程”“導(dǎo)游”“廈門”“服務(wù)”。主要反映了游客對行程中導(dǎo)游的服務(wù)滿意度較高。
根據(jù)對游客旅游消極評論內(nèi)容的兩個潛在主題的特征詞提取,主題1的高頻特征詞如“差”“客服”“安排”“吃”,說明游客對于行程中客服的安排以及食物方面的滿意度較低。主題2的高頻特征詞如“酒店”“導(dǎo)游”“飛機”“時間”“安排”“房間”。發(fā)現(xiàn)包含的范圍計較廣,無論是導(dǎo)游的服務(wù)、時間的安排還是住宿方面都沒有達到游客的滿意。說明商家在行程安排和住宿方面仍有很大的提升空間[6]。
本文利用文本挖掘技術(shù)在評論內(nèi)容中獲取游客的實際體驗信息,將非結(jié)構(gòu)化的評論內(nèi)容通過結(jié)巴分詞進行分詞、量化處理,進而轉(zhuǎn)化成結(jié)構(gòu)型數(shù)據(jù)。進行決策樹模型的構(gòu)建,將原數(shù)據(jù)集細(xì)化區(qū)分為訓(xùn)練集和測試集,最后構(gòu)建的模型在測試集上的預(yù)測準(zhǔn)確率為78%,預(yù)測結(jié)果總體上良好。情感得分與游客的滿意度呈現(xiàn)出正相關(guān)關(guān)系,總體準(zhǔn)確率為72%。最后利用LDA模型對評論內(nèi)容的主題進行提取,主要得出以下結(jié)論:游客對于旅游的正面評價遠遠多于負(fù)面評價,在對旅游體驗進行評價時,游客往往會更關(guān)注兩大方面。一方面是旅游過程中的剛性需求,比如住宿需求、出行需求、餐飲需求等,如在住宿時游客對于住宿環(huán)境、住宿質(zhì)量以及酒店服務(wù)等方面十分看重,在選擇出行工具時也會綜合出行工具的性價比及舒適度加以考量。另一方面則是對行程安排、導(dǎo)游、景點客服非必選服務(wù)的抉擇,如行程安排的合理性影響了游客對于旅游行程的實際體驗感,導(dǎo)游的服務(wù)質(zhì)量會影響游客對剩余行程的繼續(xù)與否,景點客服的服務(wù)態(tài)度會影響游客對該景點的回訪率等。