沈俊鑫 林佳慧 李 晶
(1. 昆明理工大學管理與經(jīng)濟學院 云南昆明 650500;2. 寧波工程學院經(jīng)濟與管理學院 浙江寧波 315211)
在全球新冠肺炎疫情的背景之下,旅游業(yè)發(fā)展舉步維艱。相比2019年,2020年的國內(nèi)旅游收入下降了34964.62億元,同比下降61%,旅游人次也大幅下降,不足2019年旅游人次的一半。同時,旅游行業(yè)仍然存在虛假宣傳、強迫消費、安全衛(wèi)生等問題[1],而文化和旅游部又提出要以高質(zhì)量旅游服務供給引領和創(chuàng)造新需求,助力建設高標準旅游市場體系,不斷增強廣大游客的獲得感、幸福感、安全感[2]。因此,學者們越來越關注游客的偏好、興趣特征,從游客感知出發(fā),提高旅游服務質(zhì)量,推動旅游業(yè)復蘇。但是,旅游服務質(zhì)量的傳統(tǒng)研究大多采用定性方法建立旅游服務質(zhì)量指標體系,通過問卷調(diào)查獲取游客滿意度評價,量化后再采用其他方法進行研究。然而通過建立指標體系來獲取游客對旅游目的地的評價,并不能完整地展現(xiàn)游客對旅游目的地的看法[3]。同時,問卷調(diào)查缺乏彈性,不能了解問卷以外的信息,而且受限于研究者的認知水平,可能會遺漏一些更深層和細致的信息,甚至會出現(xiàn)認知偏見和錯誤的預設。然而,隨著互聯(lián)網(wǎng)的快速發(fā)展和社交媒體的推廣與普及,游客開始在旅游社交平臺或是網(wǎng)站上發(fā)布大量關于旅途的評論信息,研究者可以通過評論數(shù)據(jù)獲取游客對旅游目的地的整體看法,大數(shù)據(jù)的時代來臨也為處理這些評論數(shù)據(jù)提供了工具。此外,云南擁有豐富的旅游資源,旅游業(yè)作為云南省的支柱性產(chǎn)業(yè),對其經(jīng)濟增長有顯著的拉動作用。鑒于此,本文將運用游客情感分析的理論,通過擴充游客評論情感詞典,提高情感分析的準確性,以赴云南旅游的游客評論為文本數(shù)據(jù),感知游客對云南旅游服務質(zhì)量的態(tài)度與看法,探尋其對旅游目的地的情感傾向與特征,揭示游客產(chǎn)生不同情感傾向的原因,希望對云南旅游業(yè)的復蘇和發(fā)展提供積極參考。
隨著旅游業(yè)的快速發(fā)展,旅游市場競爭日趨激烈,學者們開始關注旅游服務質(zhì)量,試圖通過提高服務質(zhì)量來增強旅游目的地或旅游企業(yè)的競爭力。Gronroos[4-5]最早提出了顧客感知服務質(zhì)量模型,接著將服務質(zhì)量理論引入旅游學的研究中,從顧客視角出發(fā),定義旅游服務質(zhì)量的概念。隨后,Voget和Fesenmaier[6]提出服務提供者和企業(yè)無法真正了解游客的需求,應該關注游客本身,才能達到提升旅游服務質(zhì)量的目標。而隨著旅游服務質(zhì)量理論的發(fā)展與傳播,國內(nèi)學者也從廣義與狹義兩方面對旅游服務質(zhì)量進行了定義[7]。在旅游服務質(zhì)量的評價模型方面,學者們大多采用的是傳統(tǒng)的SERVQUAL、SERVPERF和IPA等服務質(zhì)量評價模型,創(chuàng)新度不夠。比如,閆金娟和趙希勇[8]以SERVPER評價模型為理論基礎,運用德爾菲法選擇指標,構建了鄉(xiāng)村旅游服務質(zhì)量評價體系。國外學者運用SERVQUAL模型評價西里西亞博物館的旅游服務質(zhì)量[9]。此外,還有學者運用IPA模型對旅游服務質(zhì)量提升進行了深入的研究[10]。在研究方法方面,國內(nèi)學者主要使用的是模糊綜合評價法和灰色關聯(lián)法。其中,學者們大都是運用模糊評價法構建旅游質(zhì)量評價指標體系,對游客體驗的旅游服務質(zhì)量進行評價[11-12];也有學者從模糊數(shù)學的角度建立旅游服務質(zhì)量的模糊評價模型[13];王恩旭等[14]則是運用灰色關聯(lián)法分析入境游客對旅游服務質(zhì)量的滿意度,發(fā)現(xiàn)交通、娛樂和購物服務質(zhì)量相對較差。
總體來說,學者們偏向用不同方法、模型去研究旅游服務質(zhì)量,雖然有做出新的嘗試,但是對模型和方法的改進不大,也沒有對游客關注的旅游要素進行情感傾向區(qū)分,比如旅游地的景色、旅游路線的安排、旅游地當?shù)氐奈幕厣龋@些要素是如何影響游客的情緒,對游客會產(chǎn)生怎樣的影響,仍然有待進一步研究。
互聯(lián)網(wǎng)的高速發(fā)展加快了信息的傳播速度,使得在線評論成為人們闡述個人觀點、看法的重要形式。同時,大數(shù)據(jù)技術的發(fā)展也為挖掘網(wǎng)絡文本深層信息提供了各種工具。
在線評論可以構建一個包含文本信息、用戶信息、情感信息等方面的數(shù)據(jù)集,挖掘數(shù)據(jù)集中的用戶情感信息,對用戶生成個性化推薦[15]。還有研究表明,通過對評論文本特征以及評論者的社會身份和社會網(wǎng)絡展開分析,可以找出影響酒店在線評論同行評價的因素[16]。在線客戶評論和評分是影響旅游購買決策的強大信息來源[17],旅游網(wǎng)站上游客的在線評論可信度會對其他游客購買決策產(chǎn)生影響[18]。游客在線評論是游客對旅游地的形象感知在互聯(lián)網(wǎng)上的映射,通過對網(wǎng)絡信息的挖掘與分析,可以幫助游客了解旅游地的形象特征[19]。但總的來說,在線文本挖掘的相關研究大都集中在社交平臺評論和產(chǎn)品使用評論,對游客評論的研究還相對較少,而且主要是研究游客評論反映的旅游地形象,對通過游客評論感知目的地旅游服務質(zhì)量的研究關注度還不夠。
近年來,情感分析已經(jīng)成為一個熱門的研究話題,可以將情感文本分類用來收集用戶的偏好[20]。文本的情感分類廣泛應用在市場營銷、政治學、心理學、人機交互、人工智能等領域,并展現(xiàn)了巨大的潛力。通過對情感分類的不同研究方法歸納匯總,發(fā)現(xiàn)文本情感分類的方法主要分為基于情感詞典、基于機器學習以及基于深度學習三種[21-22]。比如,有學者運用基于詞典的情感分析方法對酒店評論進行細粒度分類,了解用戶對酒店服務質(zhì)量的細粒度情感評價,研究影響用戶滿意度的因素[23]。李杰和李歡[24]則是通過卷積神經(jīng)網(wǎng)絡算法提取產(chǎn)品特征并對產(chǎn)品在線評論進行情感分類。
研究在線評論情感分類的相關文獻發(fā)現(xiàn),含有明確情感傾向的文本很容易判斷其情感極性,但對于不含任何情感詞的中性文本判斷的準確度不高[25],說明在判斷情感傾向時更應該關注那些沒有使用明確的情感詞語來表達情感的文本,而不是帶有明顯情感傾向的文本。因此,學者們開始通過改進算法或是對詞典進行擴充來提高情感分類的準確性。比如,景麗等[26]將情感詞典與機器學習相結合,構建了網(wǎng)絡評論情感分類模型,對情感詞典進行擴充后得出基于情感詞典的分類結果,再通過機器學習方法提高難以確定情感傾向文本的分類準確性。Fahad[27]利用基于監(jiān)督學習的Logistic回歸分類器對文本內(nèi)容進行情感檢測,明顯提高了系統(tǒng)情感分類的性能。
通過回顧相關文獻,可以發(fā)現(xiàn)在線評論文本的挖掘技術和情感分析技術已經(jīng)在眾多領域應用,其發(fā)展和研究已經(jīng)較為成熟,這也為接下來的研究提供了技術基礎。鑒于此,本文從游客感知角度出發(fā),運用大數(shù)據(jù)文本挖掘和情感分析技術,從游客評論數(shù)據(jù)中探尋赴云南旅游游客的情感傾向和特征,了解云南旅游服務質(zhì)量的當前狀況。
本文選擇云南省作為研究區(qū)域,一是因為云南擁有豐富的旅游資源,旅游業(yè)對云南經(jīng)濟的拉動作用十分突出。二是在全球疫情的大環(huán)境下,出境游基本處于停滯狀態(tài),而國內(nèi)疫情在嚴格防控下,旅游業(yè)逐漸開始復蘇。云南省是我國的旅游大省,2020年國內(nèi)赴云南的游客人數(shù)為5.29億人次,已經(jīng)達到了疫情前2019年的66.13%,相比其他地方,將云南省作為研究區(qū)域有較好的現(xiàn)實意義。在此基礎上,本文選取了云南省的昆明、大理、麗江、迪慶、西雙版納共五個著名的云南旅游城市進行研究,又從這五個城市中選取了網(wǎng)絡上點評數(shù)量最多的景點,包括滇池、石林、民族村、斗南花市、七彩云南歡樂世界、蒼山、洱海、大理古城、麗江古城、玉龍雪山、瀘沽湖、香格里拉、梅里雪山、普達措、松贊林寺、景洪告莊、野象谷、西雙版納原始森林公園共18個景點。
本文采集的游客數(shù)據(jù)來源于攜程網(wǎng),利用Python抓取了13899條游客在線評論,收集的數(shù)據(jù)為2021年一整年的游客評論,包含了一年中的所有節(jié)假日。但原始數(shù)據(jù)良莠不齊,包含了大量的噪音。所以先要對數(shù)據(jù)進行清理,去掉重復、無意義評論和默認好評后剩余7021條有效游客評論。接著利用Python中的Jieba分詞包對游客的評論進行分詞,為了提高分詞的效率,整合了百度、哈工大以及四川大學機器智能實驗室停用詞表并進行去重,剩下了1501個停用詞,加上根據(jù)游客的評論和游記整理出來的65個停用詞,一共1566個停用詞構成了停用詞表,用來過濾掉評論文本中無意義的詞語和字符。
1. 游客評論情感詞典
首先將HowNet情感詞典、清華大學李軍褒貶義詞典和臺灣大學NTUSD簡體中文情感詞典進行匯總、去重并刪去了一些生僻字和與旅游業(yè)無關的詞匯,得到了基礎情感詞典。其中,正面詞9659個,負面詞12908個。其次,通過閱讀和整理旅游相關文獻以及游客評論,提取和整理了游客評價的詞典,共包含446個正面詞和518個負面詞。最后,匯總得到游客評論情感詞典,總共是10105個正面詞和13426個負面詞。
同時,考慮到游客表達的情感傾向的強弱,進一步對情感詞前后的程度副詞進行了梳理,對不同的程度副詞賦予不同的系數(shù)。本文選取了HowNet詞庫中的219個程度副詞,根據(jù)其強弱等級,包括極其/最、很、較、稍、欠、過六個等級,以0.5為單位依次遞減,從3到0.5賦權重。例如,當一條評論中出現(xiàn)“好看”這個詞時,將被記錄1分,而當“好看”這個詞的前面還有“最”或者“很”等程度副詞的時候,分值將變?yōu)?分或者2.5分。對分句的所有情感詞進行得分計算之后,將對每一條評論的正負情感得分進行總計。程度副詞可以用來判斷文本的情感強弱,而否定詞和轉(zhuǎn)折詞則會導致句子的情感傾向發(fā)生變化。因此,筆者整理了39個否定詞和轉(zhuǎn)折詞作為否定詞典。情感詞典的具體規(guī)則見表1。
表1 情感詞典具體規(guī)則
2. 基于情感詞典的情感分類模型
設計情感分類的算法用于計算每條評論的情感得分,以此判斷游客對云南旅游服務質(zhì)量的態(tài)度和看法。首先利用Python將每條游客的評論根據(jù)標點符號進行切分,分成多個短句;再應用Jieba模塊對每個子句進行分詞,去除停用詞后組成一個分詞字典。將分詞和游客評論情感詞典進行匹配,找出每句話中的情感詞,再查找情感詞的前后是否存在程度副詞和否定詞,若存在,則賦予相應的系數(shù)。然后計算每個分句的情感得分值,將各個分句的情感得分進行加減計算,最終得到每條評論的情感得分值。具體的公式如下:
其中,F(xiàn)i表 示每個分句的情感得分,m表示每個分句的否定詞個數(shù),w是分句中程度詞對應的權重,s表示分句的找出正面詞和負面詞后的基礎得分,n表示每條評論的分句數(shù),F(xiàn)表示每條評論的總分。根據(jù)以上算法,計算出每條評論的情感得分,得分大于0的為正面評論,得分小于0的為負面評論,等于0則為中性評論。
基于上述算法對游客評論文本進行情感分析后,使用Python環(huán)境下的Wordcloud模塊對正面和負面評論進行主題挖掘,找出關鍵詞,根據(jù)詞頻的變化對游客評論進行可視化。同時,利用ROST Content Mining的社會語義網(wǎng)絡對正面、負面評論文本進行內(nèi)容挖掘,生成關鍵詞社會網(wǎng)絡關系圖,探尋關鍵詞之間的邏輯關系。
通過前面的處理,游客評論被分成正面、負面、中性評論三類。正面評論5869條,中性評論631條,負面評論521條。其中,昆明是正面評論比例最高的旅游目的地,其次是大理;而負面評論比例最高的旅游目的地是西雙版納。詳細數(shù)據(jù)見表2。
表2 云南游客評論情感分類統(tǒng)計表
對游客評論進行了情感分類后,接下來運用詞云和社會語義網(wǎng)絡將云南五個旅游目的地的正面和負面評論數(shù)據(jù)可視化,讓游客評論以更加直觀的方式展現(xiàn)出來,也方便進一步提取評論文本中的信息。
1. 基于詞云的可視化分析
根據(jù)情感分類后的評論文本,為正面評論和負面評論分別繪制出詞云圖(見圖1、圖2),進一步挖掘評論文本中隱藏的信息,找出關鍵特征。
圖1 正面評論詞云圖
圖2 負面評論詞云圖
通過正面評價詞云圖可以直觀地看出,游客在旅游中最關注旅游地的景色、可玩性、旅游體驗感,圖中“景色、值得、風景、美、好玩、漂亮、體驗、推薦”以及“性價比高”等詞的出現(xiàn)頻率較高,旅游目的地可以以景色為賣點進行宣傳,吸引游客;同時,旅游地可以在可玩性和體驗感方面進行提升、改善,提高游客滿意度。
從負面評價詞云圖中較為直觀地反映了赴云南旅游的游客對旅游地的負面印象。其中,“沒有、景色、一般、貴、商業(yè)化、體驗、差、可玩性低、服務”和“排隊”等都是出現(xiàn)頻率較高的詞,說明旅游地的景色一般、體驗沒有達到游客預期、景區(qū)商業(yè)化嚴重、可玩性低、工作人員服務態(tài)度不好以及排隊時間長等原因都會使游客對旅游目的地產(chǎn)生不滿情緒,從而進行差評。同時,詞云圖也展現(xiàn)了云南旅游業(yè)存在的部分問題,指出了云南旅游業(yè)需要改進的地方。
2. 基于語義網(wǎng)絡的可視化分析
詞云分析可以非常直觀地看到游客的關注點,但不能展現(xiàn)關鍵詞之間的邏輯關系。因此,還需要為正面、負面評論分別構建社會網(wǎng)絡關系圖(見圖3、圖4),探尋游客產(chǎn)生正面和負面評論的原因。其中,節(jié)點之間的連線表示關鍵詞之間的關聯(lián),線條的疏密程度表示詞語之間共現(xiàn)的頻率高低。
圖3 正面評論社會網(wǎng)絡關系圖
圖4 負面評論社會網(wǎng)絡關系圖
從正面評論社會網(wǎng)絡關系圖中可以看到,主要關鍵詞是“值得、風景、景色”,而“導游、性價比高、有趣、方便、拍照”則是次要關鍵詞。其中“值得”與“玩得開心、方便、文化、特色”等正面評價詞相關聯(lián),“景色”連接了“拍照、美麗、性價比高”等詞,“風景”則主要與“時間、有趣、自然”相連。由此可以看出,旅游地的美景和高性價比的體驗是游客產(chǎn)生好評的主要原因。除此之外,精彩的表演、好玩的項目、旅游地可以拍照打卡、交通方便、旅行團時間路線安排合理、熱情好客的導游以及當?shù)匚幕厣諊鷿庥舻纫蛩匾矔層慰彤a(chǎn)生正面的評價。
負面評論社會網(wǎng)絡關系圖中,可以看到“大象”“表演”“門票”“景色”這四個是主要關鍵詞,也是游客產(chǎn)生負面情緒的重要因素。其中“大象”與“可憐、看不到、人員”等詞相關聯(lián),“表演”也連接了“大象、孔雀、商業(yè)化”等詞,表明動物表演的殘忍可能是造成游客產(chǎn)生負面評價的重要原因;“門票”與“性價比低、可玩性低、沒啥、體驗、不值”等詞連接,說明游客認為游玩的實際體驗與門票價格不一致也是其產(chǎn)生負面評價的原因之一;“景色”主要連接了“沒啥、不推薦、有待改進”等詞,可以判斷游客發(fā)布負面評價是因為旅游地景色令人失望。而工作人員態(tài)度惡劣、體驗感差等原因會導致游客產(chǎn)生負面情緒,甚至出現(xiàn)投訴。此外,還發(fā)現(xiàn)“遺憾”和“沒看到”主要是由于當?shù)靥鞖饣驎r間導致,還有部分負面評價集中在游客出現(xiàn)高原反應和景區(qū)商業(yè)化嚴重等因素上。這些負面評價集中反映了云南旅游業(yè)中急需改進的地方,也為下文提出改進措施指明了方向。
總體來說,游客對云南旅游地產(chǎn)生正負面情感傾向的原因不盡相同,對不同城市的情感傾向也同樣具有差異。通過分析發(fā)現(xiàn),游客更偏向昆明、大理、麗江三個旅游城市,不僅正面評論比例高,而且負面評論也較低。其中,昆明作為云南省會城市,提供的旅游景點多樣,而且配套的旅游服務設施較完善,能夠滿足游客在旅途中的觀光、休閑、購物、美食等多種需求。大理、麗江可能配套的旅游服務設施不如昆明完善,但自身的旅游資源豐富,足夠吸引游客。而迪慶和西雙版納相對而言,都屬于云南的邊境城市,比較偏遠,交通不便,而且吸引游客的旅游景點多為自然景觀和人文古跡,配套的旅游服務設施也不夠完善,一旦遇上惡劣天氣,非常容易引發(fā)游客的負面情緒。
在對負面評價進行分析時,可以發(fā)現(xiàn)“體驗感一般”是游客產(chǎn)生負面情感傾向的一個重要原因,這可能是由于旅游地同質(zhì)化現(xiàn)象嚴重,游客認為和其他地方的景區(qū)沒有區(qū)別,完全沒有體現(xiàn)云南本地的特色。同時,對比了負面評論相應的游客評分發(fā)現(xiàn),游客雖然發(fā)布了負面的評論,但是不一定會給出非常低的評分,評分主要集中在3~5分,說明游客的評分和評價內(nèi)容不一致,由此表明了通過處理游客評論文本對游客情感傾向進行分類具有一定的科學性。
本文基于大數(shù)據(jù)技術獲取游客評論數(shù)據(jù),通過游客評論感知云南旅游服務質(zhì)量,運用情感分類方法來分析游客的情感傾向和特征,最后采用可視化技術將游客的情感傾向和特征直觀地展示出來,進一步挖掘出評論文本中隱藏的深層信息,研究結論如下:
一是赴云南旅游的游客產(chǎn)生正、負面情感評論的原因不盡相同。其中,游客對于自然風光、文化特色、美食、網(wǎng)紅打卡點等一般都會給出正面評價;而對收費較高的項目、商業(yè)化嚴重的古城等容易產(chǎn)生差評,主要原因是游客在價格預期和實際體驗之間的落差較大,導致其認為性價比低,從而產(chǎn)生不滿情緒。此外,游客即使對旅游目的地的某些服務或因素不滿,也不一定會發(fā)布低分差評,因此旅游網(wǎng)站上的總體評分偏高。
二是游客非常重視旅途中的體驗感,旅游目的地的“體驗感一般”容易使游客產(chǎn)生負面情緒,而景區(qū)商業(yè)化、同質(zhì)化嚴重是造成游客認為“體驗感一般”的重要原因。
三是游客對不同城市的情感傾向與該城市的基本特征息息相關。一般來說,旅游基礎設施齊全、交通便利的大城市相對旅游設施不完善的邊緣小城更容易獲得游客正面評價。
為了推動疫情之下的旅游市場回暖,促進云南旅游業(yè)繼續(xù)高質(zhì)量發(fā)展,本文基于旅游大數(shù)據(jù)對云南旅游服務質(zhì)量當前存在的問題進行了研究,為云南旅游業(yè)發(fā)展提出以下建議:
一是完善現(xiàn)有的旅游服務配套設施,滿足游客多種需求,為游客提供高質(zhì)量的旅游體驗;合理規(guī)劃偏遠景區(qū)的道路,增加中心城區(qū)與景區(qū)之間的交通設施,不僅可以方便游客出入景區(qū),在人流量大時還可以減少排隊、堵車現(xiàn)象。
二是旅游目的地要重視網(wǎng)絡評論,及時了解游客情感偏好,利用數(shù)據(jù)挖掘和分析技術,了解游客真實的情感特征,能夠有針對性地進行相關營銷策略調(diào)整,為游客提供更加貼心、便捷的服務。比如,游客對旅游目的地產(chǎn)生“不值”的負面情感,大都是因為理想與現(xiàn)實之間的差距太大,旅游目的地可以通過大數(shù)據(jù)技術建立游客數(shù)據(jù)庫,根據(jù)游客偏好提供相關的服務或是產(chǎn)品,滿足游客的需求。
三是加強對旅游從業(yè)人員的服務意識培訓與管理,做到以游客為本,避免服務態(tài)度惡劣、誘導消費、強制消費等情況發(fā)生,從根源上減少因服務意識不強導致游客不滿的情況發(fā)生。
四是找準旅游城市和旅游產(chǎn)品定位,堅持文化與旅游相融合。充分挖掘具有云南文化特色的旅游資源,比如,云南的多民族文化、普洱茶文化等,與當前同質(zhì)化嚴重的景區(qū)形成差異,讓游客體驗到云南的別樣風情,提升游客的旅游體驗感。同時,還可以引進高新技術,打造智慧景區(qū),不僅可以提高景區(qū)管理效率,還能吸引年輕游客。
本文利用大數(shù)據(jù)文本分析技術對赴云南旅游游客的情感傾向和特征做出了積極的嘗試,相比傳統(tǒng)的問卷調(diào)查方法,大數(shù)據(jù)能夠大幅度增加樣本量,而且選取了2021年一整年的評論數(shù)據(jù),覆蓋了一年中所有的節(jié)假日,數(shù)據(jù)具有實時性,基本上可以獲得游客對云南旅游地的整體評價情況,能更加深刻地挖掘游客評論數(shù)據(jù)中的信息。同時,通過研究游客產(chǎn)生正負面情感傾向的原因,還有游客對不同城市產(chǎn)生不同的情感的原因,為改進云南旅游服務質(zhì)量指明了方向。當然,本文也存在一些不足的地方。比如,通過大數(shù)據(jù)對文本情感分類只是基于給定的規(guī)則對人腦思維進行簡單模擬,而不是像人一樣思考、推測、判斷,無法達到人類進行情感分類的精確度。另外,本文的數(shù)據(jù)也具有局限性,僅限于攜程網(wǎng)站,并未從其他領域網(wǎng)站上獲取數(shù)據(jù)并進行對比分析,無法發(fā)現(xiàn)不同網(wǎng)站的游客是否存在不同情感偏好。