賈艷平,翟晉剛
(山西旅游職業(yè)學(xué)院,山西 太原 030031)
互聯(lián)網(wǎng)信息化技術(shù)的快速發(fā)展,帶來網(wǎng)絡(luò)數(shù)據(jù)量的爆發(fā)式增長,對這些海量數(shù)據(jù)進(jìn)行處理,研究這些數(shù)據(jù)背后隱藏著某些有用的信息,已經(jīng)成為各行各業(yè)共同需要解決的難題。隨著我國旅游業(yè)進(jìn)入快速發(fā)展階段,旅游業(yè)也面臨著處理和挖掘龐大網(wǎng)絡(luò)旅游數(shù)據(jù)的難題,傳統(tǒng)的數(shù)據(jù)分析方法理念無法適應(yīng)新時代下的旅游數(shù)據(jù)分析要求,而基于爬蟲技術(shù)進(jìn)行數(shù)據(jù)抓取與可視化技術(shù)是當(dāng)前一種行之有效的數(shù)據(jù)分析方法,越來越多的行業(yè)借助該技術(shù)對本行業(yè)產(chǎn)生龐大的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行處理與分析[1]。近年來,我國旅游業(yè)快速發(fā)展,互聯(lián)網(wǎng)技術(shù)在旅游業(yè)的應(yīng)用產(chǎn)生了海量用戶信息和游客評論信息。游客在線評論數(shù)據(jù)的獲取、數(shù)據(jù)處理與分析及可視化等均存在較多的困難。爬蟲技術(shù)的發(fā)展為分析游客在線評論提供了有效的方法,通過爬蟲技術(shù)對在線游客評論數(shù)據(jù)實(shí)現(xiàn)獲取、分析、可視化,從而為研究旅游景區(qū)發(fā)展提供重要信息。
本文利用Python爬蟲技術(shù),實(shí)現(xiàn)對某旅游景區(qū)網(wǎng)站的游客對該旅游景點(diǎn)酒店評價數(shù)據(jù)的動態(tài)抓取,該技術(shù)包括以下三種技術(shù)構(gòu)成,具體如圖1所示。
圖1 Python爬蟲技術(shù)構(gòu)成
Beautiful Soup屬于Python爬蟲技術(shù)的一個庫,負(fù)責(zé)從各類網(wǎng)站的網(wǎng)頁中獲取相關(guān)數(shù)據(jù),以實(shí)現(xiàn)對網(wǎng)頁相關(guān)數(shù)據(jù)的動態(tài)爬取。它能夠通過一些比較簡單的Python爬蟲函數(shù)實(shí)現(xiàn)分析、導(dǎo)航、查詢、修改等功能。此外,它利用對文檔進(jìn)行解析的方法,實(shí)現(xiàn)快速獲取用戶所需的數(shù)據(jù)。由于Beautiful Soup操作并不復(fù)雜,因此不必開發(fā)較復(fù)雜的代碼就能設(shè)計出比較完善的計算機(jī)使用程序[2]。
Selenium屬于一種應(yīng)用,是對Web網(wǎng)頁應(yīng)用程序進(jìn)行實(shí)際測試的工具,安裝在瀏覽器中直接運(yùn)行即可完成網(wǎng)頁的測試。測試套件實(shí)現(xiàn)了對讀入數(shù)據(jù)各種測試過程與結(jié)果可視化。此外,還具有很強(qiáng)的模擬功能,可以模擬真實(shí)用戶對網(wǎng)站進(jìn)行各種具體操作,比如閱讀、查看網(wǎng)頁、錄入相關(guān)文字以及點(diǎn)開各種鏈接等[2]。
XPath屬于Python爬蟲技術(shù)的解析庫,它是一種在XML文件中實(shí)現(xiàn)信息查找的重要語言,最早應(yīng)用于對XML文檔的搜索,也能夠?qū)崿F(xiàn)對HTML文檔進(jìn)行查找。因此在數(shù)據(jù)挖掘過程中也能夠采用XPath實(shí)現(xiàn)相應(yīng)的數(shù)據(jù)信息抓取。XPath具有較強(qiáng)的選擇作用,供給極其簡單、清晰的路徑選擇,還能供給100個以上內(nèi)建函數(shù),用于字符串、時間匹配以及序列與數(shù)值處理等,多數(shù)需要進(jìn)行定位的節(jié)點(diǎn)均能通過XPath實(shí)現(xiàn)選擇[3]。
以五一假期某著名旅游景區(qū)網(wǎng)站游客對酒店評論內(nèi)容信息數(shù)據(jù)作為研究對象,通過Python爬蟲技術(shù)對該旅游景區(qū)網(wǎng)站注冊的1014家酒店的游客留下的評論內(nèi)容信息數(shù)據(jù)進(jìn)行抓取,共取得游客評論29801條。通過統(tǒng)計、歸納、處理發(fā)現(xiàn)這些游客評論信息,內(nèi)容評價集中在酒店住宿價格、酒店環(huán)境、酒店服務(wù)以及周邊交通等。具體評價內(nèi)容,見圖2。
圖2 旅客評論內(nèi)容信息詞云數(shù)據(jù)可視化示意圖
圖2為采用Python爬蟲技術(shù)對某著名旅游景點(diǎn)網(wǎng)站所有游客對該景區(qū)全部酒店的在線評論數(shù)據(jù)進(jìn)行預(yù)處理之后,通過詞云分析法制作的數(shù)據(jù)可視化示意圖。通過圖2不難看出,該圖依照頻率出現(xiàn)高低、字體、顏色等不同形式展現(xiàn)游客評論數(shù)據(jù)關(guān)鍵詞的顯著性,字體越大,顏色越深,代表游客對其進(jìn)行評價的人數(shù)越多,評價頻率越高,說明游客對該內(nèi)容關(guān)注度越高。由此體現(xiàn)這些關(guān)鍵詞對旅游景區(qū)酒店的重要性的大小[3]。從圖2能清楚地看出價格實(shí)惠、交通便利、干凈衛(wèi)生、服務(wù)周到、環(huán)境良好以及公交車方便等評論內(nèi)容是出現(xiàn)概率較多的關(guān)鍵詞,在詞云可視化圖的視覺上表現(xiàn)非常突出,是龐大游客評論數(shù)據(jù)中抓取的游客關(guān)心的重點(diǎn)內(nèi)容。
從游客評論內(nèi)容可以看出,游客整體上對某旅游景點(diǎn)的酒店住宿狀況沒有過多的負(fù)面評論,基本上是滿意的。在這評論當(dāng)中,價格實(shí)惠、環(huán)境良好以及干凈衛(wèi)生得到旅游消費(fèi)者的認(rèn)同,通過Python爬蟲技術(shù)對其進(jìn)行統(tǒng)計,結(jié)果見圖3。
圖3 住宿環(huán)境與價格優(yōu)惠比較示意圖
旅游酒店住宿備受游客關(guān)注,其承載著旅游途中“家”的作用。游客在旅游的過程中在酒店的時間相對較長,酒店的住宿環(huán)境必然影響到游客的旅游滿意度。圖3顯示,干凈衛(wèi)生、環(huán)境良好、床較舒服、床上用品好、設(shè)備齊全、陽臺很好、餐廳較差、空調(diào)以及價格實(shí)惠幾乎包括了酒店吃、住、休息所有方面的信息。而這10個方面均獲得游客滿意評論數(shù)超過4000條,其中酒店衛(wèi)生干凈獲得游客滿意評論數(shù)達(dá)到了22749條,說明游客非常在意酒店住宿環(huán)境,當(dāng)然這也說明游客對某旅游景點(diǎn)酒店住宿環(huán)境比較滿意。酒店價格實(shí)惠獲得游客滿意評論數(shù)24265條,全網(wǎng)游客滿意度最高,說明某旅游景區(qū)酒店實(shí)惠的價格對于游客而言最具吸引力[3]。
酒店所在地理位置的交通便捷性是游客十分關(guān)注的,如果酒店所在位置交通不便,那么游客必將花費(fèi)大量的時間在路途上。游客外出旅游,如果景區(qū)酒店距離景區(qū)過遠(yuǎn)會導(dǎo)致游客在景區(qū)游玩的時間大大縮短,同時在景區(qū)來回的路上要長時間坐車,必然大幅度降低游客旅游的滿意度[4]。本研究的酒店分布在景區(qū)的周圍,距離景區(qū)不足10公里,乘公交車在30分鐘以內(nèi)的車程,打出租車在10分鐘以內(nèi)的車程,這使得游客不論是出行游玩,還是外出購物均比較方便。采用Python爬蟲技術(shù)對該酒店地理位置交通便捷性的評論內(nèi)容進(jìn)行統(tǒng)計,結(jié)果如表1所示。
表1 游客評論提及交通情況統(tǒng)計結(jié)果
由表1可知,游客非常關(guān)注旅游景點(diǎn)的交通便利性。旅游景點(diǎn)交通便利可以保障游客快速從酒店到達(dá)景區(qū),將更多的時間用在景區(qū)游覽上,便利的交通對游客具有一定的吸引力,同時也直觀展現(xiàn)了景區(qū)基礎(chǔ)設(shè)施的建設(shè)情況。
旅游酒店行業(yè)隸屬于服務(wù)行業(yè),酒店的服務(wù)態(tài)度直接影響游客的滿意度。旅游酒店在經(jīng)營和發(fā)展的過程中必須始終堅持以游客需求為導(dǎo)向的服務(wù)理念,促進(jìn)旅游酒店服務(wù)的持續(xù)升級[5]。旅游酒店的服務(wù)態(tài)度是游客入住酒店十分關(guān)注的內(nèi)容,良好的服務(wù)態(tài)度使得游客旅途輕松、愉悅,產(chǎn)生一種賓至如歸的感覺,同時也增加了游客下次旅游入住酒店的概率。采用Python爬蟲技術(shù)對某酒店服務(wù)態(tài)度的評論內(nèi)容進(jìn)行了統(tǒng)計,結(jié)果如表2所示。
表2 游客評論提及酒店服務(wù)態(tài)度情況統(tǒng)計結(jié)果
由表2可知,游客對旅游酒店服務(wù)態(tài)度的評價主要包括服務(wù)周到、老板熱情、工作人員態(tài)度好、住宿優(yōu)先、印象好、管家貼心、伙食很好共七個方面,均屬于褒義的評價。上述七個方面的游客評論數(shù)均超過2000條,其中服務(wù)周到的游客評論數(shù)最多,為17264條,這七個方面的評價包含了酒店服務(wù)的所有方面,這在一定程度上說明了游客對旅游酒店服務(wù)態(tài)度是比較滿意的。
通過Python爬蟲技術(shù)對預(yù)處理好的某旅游景點(diǎn)網(wǎng)站有關(guān)酒店服務(wù)質(zhì)量評論數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)語義可視化分析。使用該系統(tǒng)處理前,需要在系統(tǒng)中自行定義比較容易被拆分的專有名詞,與此同時還需將“常?!薄敖Y(jié)束”等冗余的詞語進(jìn)行清除,然后把文本數(shù)據(jù)中隱藏的語義信息,通過圖表的方式展現(xiàn)出來。把相關(guān)數(shù)據(jù)輸入系統(tǒng)就可以獲得圖4所示的可視化示意圖。
圖4 酒店服務(wù)質(zhì)量的游客在線評論數(shù)據(jù)網(wǎng)絡(luò)語義可視化示意圖
通過圖4可以看出,圖中呈現(xiàn)多中心結(jié)構(gòu),且呈分散組合構(gòu)成不一樣的網(wǎng)絡(luò)。游客對該旅游景點(diǎn)的門票、位置、公交車、老板、印象等關(guān)鍵性要素特別關(guān)注,游客關(guān)注的關(guān)鍵要素及出現(xiàn)的高頻詞,見表3。
由表3可知,公交車、門票、位置、服務(wù)、住宿、印象、購物等詞不僅是游客關(guān)注的關(guān)鍵性要素,同時也是旅游酒店服務(wù)中游客評論數(shù)據(jù)語義網(wǎng)絡(luò)的中心節(jié)點(diǎn)。游客評論數(shù)據(jù)語義網(wǎng)絡(luò)中心節(jié)點(diǎn)和周邊的游客評論中出現(xiàn)的高頻詞呈現(xiàn)出分散連接的關(guān)系,高頻詞距離節(jié)點(diǎn)越近,那么該高頻詞和節(jié)點(diǎn)關(guān)鍵性要素之間的關(guān)系越密切。酒店服務(wù)對游客旅游的滿意度具有至關(guān)重要的影響,旅游酒店為游客提供吃、住、休等服務(wù),酒店服務(wù)和旅游的整個過程相伴,即提升酒店服務(wù)質(zhì)量對提升游客旅游滿意度意義重大[6]。
表3 游客關(guān)注的關(guān)鍵性要素及對應(yīng)高頻詞統(tǒng)計結(jié)果
通過Python爬蟲技術(shù)對某旅游景點(diǎn)網(wǎng)站有關(guān)游客對酒店評論數(shù)據(jù)進(jìn)行抓取,發(fā)現(xiàn)游客差評內(nèi)容主要體現(xiàn)在房間隔音效果不理想、房間有異味、網(wǎng)速慢、熱水器陳舊、偶爾停電、停車場偏小以及有的房間天花板發(fā)霉等方面。具體見圖5。
圖5 酒店存在不足
通過圖5可知,某旅游景點(diǎn)酒店存在房間隔音效果不理想、房間有異味、網(wǎng)速不好、熱水器陳舊,偶爾停電、停車場偏小以及有的房間天花板發(fā)霉等方面的不足,這些問題是酒店以后需要不斷改善的地方,以吸引更多的游客來店入住,從而提升酒店的入住率。
利用Python爬蟲技術(shù),對2019年五一假期期間某著名旅游景點(diǎn)網(wǎng)站游客對住宿酒店的評論數(shù)據(jù)抓取的信息進(jìn)行詳細(xì)研究,總共抓取到29801條評論,共涉及該旅游景點(diǎn)的1014家酒店。通過對游客評論數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)游客對該景點(diǎn)的住宿酒店最關(guān)注的是價格、環(huán)境、服務(wù)以及酒店交通等關(guān)鍵性要素;分析游客對酒店評論情況,結(jié)果表明,游客對該景點(diǎn)酒店的關(guān)鍵要素滿意的評論數(shù)據(jù)均超過2000條,最高獲得24265條。由此可知從總體情況而看,游客對該景區(qū)酒店還是比較滿意,盡管該酒店也存在一定不足。本文只選擇游客對酒店評論數(shù)據(jù)進(jìn)行可視化分析,今后將進(jìn)一步擴(kuò)充研究對象,一是數(shù)據(jù)爬蟲從單一平臺發(fā)展到多網(wǎng)絡(luò)平臺;二是通過Python爬蟲技術(shù)抓取酒店方面數(shù)據(jù)的同時,逐步將抓取的數(shù)據(jù)擴(kuò)充到景點(diǎn)服務(wù)、導(dǎo)游以及行程安排等方面。