張超群,郝小芳,王大睿,李曉翔,完顏兵
(1.廣西民族大學人工智能學院,南寧 530006;2.廣西民族大學電子信息學院,南寧 530006)
隨著大數(shù)據(jù)時代的到來,各類網(wǎng)絡(luò)大數(shù)據(jù)百花齊放,信息量大、可獲取性強、傳播力廣已成為網(wǎng)絡(luò)大數(shù)據(jù)不可替代的優(yōu)勢。國家《“十三五”旅游業(yè)發(fā)展規(guī)劃》專門提到“全面建成小康社會后對旅游業(yè)發(fā)展提出更高要求,為旅游發(fā)展提供重大機遇,旅游業(yè)將迎來新一輪黃金發(fā)展期?!甭糜螛I(yè)順應時代發(fā)展趨勢,不斷向前發(fā)展。游客滿意度是游客在到達旅游地之前的期望與游客在目的地實際體驗相對比,依據(jù)期望與實際體驗的比較結(jié)果形成的愉快或失望的狀態(tài)。目的地美譽度則是由多個因素影響,而游客對目的地的感知信任直接影響目的地美譽度。鑒于游客滿意度直接影響目的地美譽度,國內(nèi)外學者對此進行了相關(guān)研究。例如,有些研究者通過遺傳算法支持向量回歸、基于經(jīng)驗模型分解和神經(jīng)網(wǎng)絡(luò)模型、上下文知識方法和在線數(shù)據(jù)來預測目的地旅游需求;有些研究者使用決策樹分析入境游客的行為,并從社會大數(shù)據(jù)中提取有用信息用于制定目的地管理策略;有些研究者運用多元回歸分析、結(jié)構(gòu)化方程建模、分析搜索引擎和運用SPSS等軟件技術(shù)進行頻數(shù)、方差、因子、相關(guān)性及回歸分析獲取游客目的地形象感知,從而了解游客的行為特征。這些研究主要分析游客的行為特征,以此預測游客的偏好。
在信息化時代,游客傾向于查閱各種旅游攻略來制定個人旅游計劃,而如何從海量的網(wǎng)評文本數(shù)據(jù)中獲得游客的旅游偏好,成為我們的研究目標。有別于已有的相關(guān)研究重點關(guān)注行為分析,本文側(cè)重于主題分析,主要是對在線網(wǎng)評文本運用數(shù)據(jù)挖掘技術(shù)提取高頻詞匯,來分析游客的旅游趨向,從而了解游客的總體需求,進而優(yōu)化旅游資源配置,提高游客滿意度,提升目的地美譽度,促進旅游業(yè)的可持續(xù)發(fā)展。
本文需要分析的數(shù)據(jù)來源有兩個:①由2021年第九屆“泰迪杯”全國數(shù)據(jù)挖掘挑戰(zhàn)賽官(https://www.tipdm.org:10010/#/competition/1354705811842195456/question)提供的數(shù)據(jù);②爬取窮游網(wǎng)(https://place.qyer.com/china/citylist-0-0-1)獲得的在線網(wǎng)評數(shù)據(jù)。這兩個網(wǎng)站均提供不同類別的網(wǎng)評文本數(shù)據(jù),也都包含游客對旅游目的地的印象評價。
對源數(shù)據(jù)進行處理的總體流程如圖1所示,主要包括數(shù)據(jù)預處理、數(shù)據(jù)分析、數(shù)據(jù)篩選。首先,對網(wǎng)評文本主要進行re去重和Jieba分詞的預處理。然后用詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)算法提取關(guān)鍵字,通過K-means算法找出聚類中心,結(jié)合K最近鄰(K-Nearest Neighbor,KNN)算法對其分類。最后,統(tǒng)計數(shù)據(jù)并將其按詞頻排序,在構(gòu)建專業(yè)語料庫的基礎(chǔ)上,計算高頻詞與語料庫長度,篩選出符合隱含狄利克雷分布(latent dirichlet allocation,LDA)主題模型分析的數(shù)據(jù),并將其映射為特征需求,從而獲得游客的旅游偏好。
圖1 數(shù)據(jù)處理總體流程
1.2.1 數(shù)據(jù)預處理
(1)數(shù)據(jù)清理。數(shù)據(jù)清理一般是指清除噪聲、補充缺失信息和刪除離群點等過程。由于“泰迪杯”數(shù)據(jù)存在一定的單一性,在“泰迪杯”數(shù)據(jù)基礎(chǔ)上,為了更好地對游客目的地印象進行分析,從窮游網(wǎng)爬取172個網(wǎng)評文本頁面作為分析的基礎(chǔ)語料庫,該語料庫包含中國全部城市、區(qū)域名稱及相關(guān)評論。由于兩者數(shù)據(jù)包含大量的標簽信息、圖片、視頻以及一些特殊字符等無效信息,本文通過Python語言及re正則表達式,對網(wǎng)評文本進行數(shù)據(jù)清理,其處理過程如下:
1)清理原始數(shù)據(jù)中的特殊字符,如空格、標點符號等。
2)在大規(guī)模數(shù)據(jù)中將數(shù)據(jù)逐條讀入,清理重復出現(xiàn)的字段、格式不正確、時間不匹配等記錄。
3)利用re正則表達式清理每條記錄中的屬性和標簽等其他與數(shù)據(jù)分析無關(guān)的特殊符號。
4)將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換為計算機能夠識別的結(jié)構(gòu)化數(shù)據(jù),并將結(jié)構(gòu)化數(shù)據(jù)按UTF-8編碼格式逐條寫入CSV文件中。
(2)中文分詞與停用詞過濾。中文分詞是指以空格作為分隔詞來分割出構(gòu)成文本的單詞。中文文本是按單詞連字的,并且單詞之間沒有間隙。因此,在處理中文文本消息時,首先需要做的一件事情是拆分單詞,稱其對應的技術(shù)為自動分詞技術(shù)。中文分詞技術(shù)主要分為如圖2所示的四類。
圖2 中文分詞技術(shù)分類
本文采用Python Jieba庫對中文進行分詞。Jieba庫采用基于前綴詞典實現(xiàn)高效詞圖掃描,獲取每個詞的詞頻,用正則表達式切分語句并對其分詞,生成所有可能成詞情況的有向無環(huán)圖,采用動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合;對于未登錄詞,采用基于漢字成詞能力的隱馬爾科夫模型(hidden markov model,HMM),使得中文分詞效果最優(yōu)化。
在對文本數(shù)據(jù)分詞后,仍然存在很多對數(shù)據(jù)分析無意義的詞,這些詞統(tǒng)稱為停用詞。為了進一步減輕數(shù)據(jù)分析難度和提高建模分析效果,需要對網(wǎng)評文本去停用詞。本文中的停用詞主要來源于網(wǎng)絡(luò)中通用的停用詞,通過過濾掉文檔中的停用詞,可以大大減少內(nèi)存的占比并降低停用詞帶來的噪聲,從而有效提高分詞的精確性。
1.2.2 數(shù)據(jù)分析
(1)TF-IDF算法。在對網(wǎng)評文本數(shù)據(jù)分詞后,需要把這些詞語轉(zhuǎn)化為向量,以供挖掘分析使用,這里采用TF-IDF算法,把網(wǎng)評信息轉(zhuǎn)換為權(quán)重向量。TF-IDF算法的具體原理如下:
1)計算詞頻,即TF權(quán)重(term frequency)。
2)計算逆文檔頻率(inverse document frequency),即IDF權(quán)重。
建立一個語料庫,用于模擬文本的使用情景。若文本中的詞條與語料庫吻合度低,則IDF越大,表明該詞條類別區(qū)分能力較強。
TD-IDF與詞條在文本中出現(xiàn)的次數(shù)成正比,與在整個語言中出現(xiàn)的次數(shù)成反比。求文本中每個詞的TF-IDF值,并進行排序,詞頻較高的即為特征詞。
生成TF-IDF向量的具體步驟如下:
1)運用TF-IDF算法,找出每個網(wǎng)評信息中與服務(wù)、位置、設(shè)施、衛(wèi)生、性價比相關(guān)的關(guān)鍵詞。
2)從網(wǎng)評文本中提取1)得到的關(guān)鍵詞,組成集合,計算每個集合分詞的詞頻,若無,則記為0。
3)按公式(3)計算每個網(wǎng)評信息的TF-IDF權(quán)重向量。
(2)特征提取。特征提取的流程如圖3所示,文本處理一般是將詞語作為特征項,如果直接使用分詞后的數(shù)據(jù)不僅會造成“維數(shù)災難”,而且會給后續(xù)的評分預測模型的構(gòu)建與分析帶來很大困難。若將無關(guān)詞語提取出來,將會對模型評分預測造成干擾,影響最后結(jié)果,因此,需要根據(jù)詞語在評論文本中的重要性,賦予其權(quán)重值,特征詞權(quán)重越大就越能表示評論文本的情感,對最后結(jié)果影響越大。根據(jù)特征詞的權(quán)重將影響評分預測的詞語特征選出,運用TF-IDF過濾掉在網(wǎng)評文本中出現(xiàn)次數(shù)較少的詞并計算特征詞的權(quán)重。
圖3 特征提取流程
(3)K-means聚類。通過去重后對文本進行分詞,運用K-means算法提取五個關(guān)鍵詞的聚類中心。根據(jù)“少數(shù)服從多數(shù)”判定聚類中心所屬類別。K-means算法的大致步驟如圖4所示。
圖4 K-means算法步驟
(4)KNN算法。由K-means分類得到聚類中心,并結(jié)合KNN算法得出中心相似元素,從而判斷其類別。KNN算法是一種簡單的無參數(shù)的文本分類方法,不需要給定額外數(shù)據(jù),即使存在噪聲也可以對給定實驗樣本數(shù)據(jù)通過比較進行有效的分類,其處理流程如圖5所示。
圖5 KNN算法處理流程
1.2.3 數(shù)據(jù)篩選
對網(wǎng)評文本進行數(shù)據(jù)預處理后,統(tǒng)計每一條評論內(nèi)容的中文字符數(shù),并和爬取窮游網(wǎng)得到的語料庫進行比較來區(qū)分評論文本的有效性。對數(shù)據(jù)分類,將其區(qū)分為有效評論和無效評論兩類。其中,有效評論是指大于5個詞且符合語料庫的評論;而無效評論是指小于5個詞且不符合語料庫的評論。對網(wǎng)評文本進行分類處理的流程如圖6所示。
圖6 網(wǎng)評文本分類處理流程
圖7、圖8分別是對景區(qū)、酒店的評論數(shù)據(jù)進行處理前后的數(shù)據(jù)量變化對比圖,這說明對網(wǎng)評文本進行數(shù)據(jù)處理可以有效減少后續(xù)分析要處理的數(shù)據(jù)量。
圖7 景區(qū)評論數(shù)據(jù)數(shù)量變化對比
圖8 酒店評論數(shù)據(jù)數(shù)量變化對比
通過對網(wǎng)評文本進行詞頻分析,從文本中提取出排名在前20名的熱門旅游目的地,其結(jié)果如表1所示,詞頻越高表示游客對其關(guān)注度越高。用詞云圖對游客目的地進行可視化,其結(jié)果如圖9所示,詞頻越高,詞語呈現(xiàn)越大;反之,詞頻越低,詞語呈現(xiàn)越小。
表1 排名前20的旅游目的地熱門詞
圖9 游客目的地詞云圖
由表1和圖9可知,頻次較高的旅游目的地景點有溫泉、公園、過山車、動物園、樂園、沙灘、瀑布、峽谷等,說明游客在業(yè)余時間喜歡戶外游玩,偏向于去景點放松和參加集體游玩項目,體現(xiàn)當代廣大人民群眾的休閑旅游的特征。此外,頻次較高的旅游目的地有廣州、深圳、珠海等,說明游客傾向于去南方城市游玩。
利用LDA主題模型進行景區(qū)及酒店主題挖掘,并對聚類的結(jié)果進行可視化展示,呈現(xiàn)出聚類主題和每個主題中的關(guān)鍵詞。根據(jù)主題中體現(xiàn)的游客評論的關(guān)注點,整理、歸納并總結(jié)出游客關(guān)注指標,對用戶關(guān)注差異進行分析。
由于網(wǎng)評數(shù)據(jù)量大,從海量文本中直接獲取有用的信息較為困難。在網(wǎng)評文本挖掘的過程中,對網(wǎng)評文本預處理后,用LDA模型對其進行主題識別,以挖掘網(wǎng)評語料中隱藏的用戶需求,獲得的主題識別圖如圖10—圖14所示。
圖10—圖14是對網(wǎng)評文本數(shù)據(jù)進行主題分析,根據(jù)高頻詞的分布情況,將其從5個維度進行可視化。在主題識別圖的左側(cè),每個圓圈代表海量文本的一個主題;圓圈之間的距離體現(xiàn)主題之間的相似度,如果距離越近,則說明兩個主題越相似;圓圈的大小表示主題出現(xiàn)的概率,越大說明其所代表的主題核心度越高,小圓圈代表次要主題。在主題識別圖右側(cè)的條形圖中,每列對應的主題詞與文本詞語的關(guān)聯(lián)度表示為:
圖10 評論數(shù)據(jù)識別主題1(服務(wù))
圖14 評論數(shù)據(jù)識別主題5(衛(wèi)生)
圖11 評論數(shù)據(jù)識別主題2(位置)
圖12 評論數(shù)據(jù)識別主題3(設(shè)施)
圖13 評論數(shù)據(jù)識別主題4(性價比)
主題和文本詞語間的關(guān)聯(lián)度由詞頻和詞語表現(xiàn),并且可以通過調(diào)節(jié)參數(shù)λ(0≤λ≤1)來調(diào)節(jié)關(guān)聯(lián)度。若λ越趨近于1,則認為該主題下詞頻越高的詞與主題越相關(guān),但這些出現(xiàn)次數(shù)較多的詞可能同時出現(xiàn)在其他主題中。若λ越趨近于0,則表明該主題下特征詞與主題越相關(guān),這些詞通常僅趨向于該主題。
本文取λ=1,對于圖10—圖14,圖中5個圓圈的大小表示主題出現(xiàn)的概率大小,每個圓圈之間的距離為不同主題之間的關(guān)聯(lián)度,條形圖為每個主題的可視化展示,不同的主題對應不同的條形圖,每個條形圖中標紅部分為該主題詞在對應的主題中出現(xiàn)的頻次,即為游客特征需求。從圖10—圖14中可知,主題1(服務(wù))和主題5(衛(wèi)生)清晰分明,與其他主題沒有重疊和交叉現(xiàn)象;而主題2(位置)、主題3(設(shè)施)和主題4(性價比)之間有交叉重疊現(xiàn)象,說明這幾個主題之間有重復的主題詞。
通過LDA模型對網(wǎng)評文本進行主題識別,將圖10—圖14中條形圖的每個主題映射為特征需求,根據(jù)每個主題的分類屬性,可將所有的評論數(shù)據(jù)集識別為“服務(wù)”“位置”“設(shè)施”“性價比”“衛(wèi)生”這5個主題,根據(jù)公式(4)可計算出每個主題詞與文本詞語之間的關(guān)聯(lián)度分別為23.6%、23.3%、22.9%、15.6%和14.5%,關(guān)聯(lián)度表示主題詞與文本詞語間的關(guān)聯(lián)關(guān)系,具體關(guān)聯(lián)程度由詞頻和詞語表現(xiàn),詞頻越高則表示與該主題的關(guān)聯(lián)度越高,具體實驗結(jié)果如表2所示。由表2可知,游客對服務(wù)的關(guān)聯(lián)度最大,有酒店、溫泉、早餐、房間、適合、感覺、體驗等特征需求,這表明游客更關(guān)注對目的地服務(wù)的評價。
表2 游客特征主題需求映射
在旅游過程中,游客最關(guān)注景區(qū)及酒店的特征需求,游客通過對旅途的真實反饋,在一定程度上能將自身需求傳遞給旅游企業(yè),以便企業(yè)對旅游方案做出針對性調(diào)整。表2正是將游客網(wǎng)評數(shù)據(jù)映射為企業(yè)最關(guān)注的特征需求,以此來挖掘游客更深層次的需求,有助于企業(yè)將未來規(guī)劃與游客的旅游偏好密切聯(lián)系起來。
網(wǎng)評文本數(shù)據(jù)已成為旅游企業(yè)獲取游客需求的主要渠道。隨著經(jīng)濟的不斷發(fā)展,人們開始追求更高質(zhì)量的生活,對旅游也有更高的要求。為了精準定位目標游客,旅游企業(yè)應充分了解游客喜好,提供大眾喜聞樂見的服務(wù)?;谏衔牡姆治鼋Y(jié)果,對旅游企業(yè)的健康持續(xù)發(fā)展建議如下:
(1)針對服務(wù)方面,了解游客真正需求,提供精準個性化服務(wù)。針對不同客戶群體,推出多種特色旅游服務(wù)套餐。例如,針對親子旅游,可選擇成人和小孩游樂設(shè)施并存的景區(qū),并提供家庭式的酒店客房;針對青年游客,可選擇當下熱門刺激、性價比高的游樂項目,并提供現(xiàn)代化簡約風格的酒店客房;針對情侶游客,可為其提供浪漫的情侶套房,個性化定制浪漫景區(qū)的旅游路線,還提供旅行拍攝的服務(wù);針對老年游客,可為其制定紅色或自然景區(qū)路線,選擇環(huán)境舒適、價格實惠的酒店。
(2)針對位置、設(shè)施和性價比方面,借助大數(shù)據(jù)分析與預測,開發(fā)旅游景區(qū)流量監(jiān)控系統(tǒng),為游客提供最佳的旅游路線,并且大力加強基礎(chǔ)設(shè)施建設(shè),建立智慧景區(qū)和智慧酒店,保證旅游服務(wù)和價值付出成正比。
近年來,旅游需求猛增和時空分布不均,熱門景區(qū)高度集中,資源供不應求。對此應該充分利用交通、地理位置、社交媒體、氣候、住宿等大數(shù)據(jù),開發(fā)流量檢測系統(tǒng),提前對游客流量進行有效監(jiān)控。同時應該推動旅游的信息化發(fā)展,如提供景區(qū)電子門票售票、進出口電子檢票、智能排隊、電子導游、二維碼識別語音講解、酒店自助入住等,不斷提高景區(qū)和酒店基礎(chǔ)設(shè)施建設(shè),提高性價比。
(3)針對衛(wèi)生方面,應該加強對酒店和景區(qū)的衛(wèi)生監(jiān)管,加大衛(wèi)生的宣傳力度。
隨著景區(qū)的游客量增大,景區(qū)也面臨著衛(wèi)生問題,因此,在景區(qū)應該修建適量的衛(wèi)生區(qū),方便游客處理旅途中產(chǎn)生的垃圾。與此同時,應設(shè)立相應的監(jiān)管部門,對破壞景區(qū)衛(wèi)生的行為做出相應處罰。同時,政府加強保護環(huán)境的宣傳力度,增強公民的衛(wèi)生環(huán)保意識。
隨著大數(shù)據(jù)時代的到來及人民生活水平不斷提高,旅游業(yè)發(fā)展也應順勢而為。有別于已有的相關(guān)研究重點關(guān)注游客的行為分析,本文主要根據(jù)文本分析理論,對“泰迪杯”挑戰(zhàn)賽官網(wǎng)、窮游網(wǎng)的網(wǎng)評文本數(shù)據(jù)先用正則表達式等方法進行數(shù)據(jù)清理,再用Jieba庫分詞,接著用TF-IDF算法提取關(guān)鍵詞,根據(jù)K-means聚類得出聚類中心,結(jié)合KNN算法將其分類,用LDA模型進行主題分析,并將主題詞映射為特征需求。實驗結(jié)果表明,游客主要關(guān)注目的地的服務(wù)、位置、設(shè)施、性價比、衛(wèi)生,并根據(jù)分析得到這五個方面的特征需求對旅游企業(yè)健康持續(xù)發(fā)展提出三條有益建議,有助于旅游企業(yè)將游客的旅游偏好與企業(yè)的未來規(guī)劃結(jié)合起來,優(yōu)化旅游資源配置,不斷提高游客滿意度,從而提升目的地美譽度,盡量滿足游客多元化的旅游需求。
由于數(shù)據(jù)的安全性和保密性,獲取數(shù)據(jù)難度較大,本文僅對“泰迪杯”挑戰(zhàn)賽官網(wǎng)和窮游網(wǎng)的網(wǎng)評文本數(shù)據(jù)進行分析。下一步將通過多渠道方式獲取形式多樣的數(shù)據(jù)進行全面深入的研究,使研究成果更具有普適性。