陳氫 馮進杰
摘 要:[目的/意義]社交媒體網(wǎng)站的飛速發(fā)展為我們貢獻了海量數(shù)據(jù),通過對這些數(shù)據(jù)的進一步挖掘,可以實現(xiàn)個性化服務推薦。[方法/過程]本文利用地理標簽中的豐富的元數(shù)據(jù)信息,結(jié)合基于密度的DBSCAN聚類算法和TF-IDF的統(tǒng)計方法,來提取和識別當?shù)氐木包c區(qū)域,然后結(jié)合季節(jié)來計算景點的熱度,最后運用基于混合過濾的推薦算法,為游客實現(xiàn)個性化旅游服務推薦。[結(jié)果/結(jié)論]通過Flickr網(wǎng)站爬取到的Geo-tagged數(shù)據(jù)集驗證了本文提出方法的有效性。
關鍵詞:地理標簽數(shù)據(jù);DBSCAN聚類;旅游;個性化服務推薦
DOI:10.3969/j.issn.1008-0821.2019.10.003
〔中圖分類號〕G251 〔文獻標識碼〕A 〔文章編號〕1008-0821(2019)10-0024-08
Abstract:[Purpose/Significance] The rapid development of social media websites has contributed a lot of data to us.Through further mining of these data,we can realized the personalized recommendations service.[Method/Process]This paper used the metadata information in the geo-tagged dataset,combined with the DBSCAN clustering algorithm based on density and the TF-IDF statistical method to extract and identify the local spots,and then calculated the hot of the local spots in combination with the seasons.At last,we used Hybrid filtering algorithm to achieve personalized travel recommend services.[Result/Conclusion]The Geo-tagged dataset from the Flickr website proved the effectiveness of the papers extraction method.
Key words:geo-tagged data;DBSCAN clusters;travel;personalized service recommendation
近年來,伴隨著計算機通訊技術的發(fā)展,很多傳統(tǒng)行業(yè)逐漸與移動互聯(lián)網(wǎng)融合,獲得新的發(fā)展機遇,旅游行業(yè)就是其中之一。隨著物資水平的極大提高,旅游已經(jīng)成為人們的基本生活方式,是消費閑暇時光的最好選擇之一。與此同時,隨著交通工具的快速發(fā)展,出行方式已經(jīng)開始由傳統(tǒng)的跟團旅游逐漸轉(zhuǎn)變?yōu)橛捎慰妥孕兄鲗У淖择{游或者自助游,游客也開始更加注重旅游的質(zhì)量[1]。然而對于自駕游和自助游,還存在著諸多的不便之處,例如面對一個陌生的旅游目的地,游客需要考慮諸多因素,像景點的可玩性,交通的便利性,游玩的時間以及門票的價格等等,這無疑會消耗游客大量的時間和精力來進行決策[2]。同時,龐大的旅游市場也給政府和公共服務部門帶來了巨大的壓力,面對人山人海的黃金周,如何緩解人流壓力,這已然成為現(xiàn)代旅游發(fā)展需要突破的瓶頸。
伴隨著移動互聯(lián)網(wǎng)和4G通訊技術的發(fā)展,傳統(tǒng)旅游行業(yè)迎來的新的發(fā)展契機。Facebook、Flickr、馬蜂窩等社交分享網(wǎng)站的出現(xiàn),每天可以產(chǎn)生海量的游客照片和旅游攻略,這些照片和旅游攻略中含有豐富的元數(shù)據(jù)信息,包括地理位置信息、拍攝的時間以及用戶的情境等等[3],我們將這種包含地理標注信息的照片稱之為地理標簽數(shù)據(jù)。通過對地理標簽數(shù)據(jù)的處理和挖掘,可以提取游客的游玩軌跡和景點停留時間以及游玩時的情境信息,這些地理標簽數(shù)據(jù)為研究游客的行為偏好,以及城市的旅游特征提供了豐富的一手數(shù)據(jù)。
因此,本文以地理標簽數(shù)據(jù)為研究對象,利用DBSCAN的聚類算法和TF-IDF方法來挖掘和識別景點區(qū)域,結(jié)合旅游淡旺季來綜合計算景點區(qū)域的熱度,按照旅游時間來建立景點區(qū)域數(shù)據(jù)庫,最后使用基于混合過濾推薦算法為用戶進行個性化旅游路線推薦,減輕用戶的信息困擾和決策壓力。
1 相關研究
移動智能終端的普及,使地理標簽數(shù)據(jù)爆炸式涌現(xiàn)在我們面前,這給我們的個性化推薦研究帶來海量的數(shù)據(jù)資源,因為包含地理位置、時間、文本等信息,逐漸成為眾多學者研究的熱點。國外早就將地理標簽數(shù)據(jù)應用于建立用戶旅游偏好模型以及重建游客的旅行軌跡。Pladino S等[4]利用地理標簽數(shù)據(jù)對幾個著名的旅游景點的吸引力進行了量化,得出了景點的熱度排名;Crandall D等[5]首先提取了地理標簽數(shù)據(jù)中地理位置信息,然后采用基于支持向量機算法來對含有地理位置的的非地理標簽照片進行分類,最后結(jié)合均值偏移算法來計算當?shù)氐木皡^(qū)熱點區(qū)域和相關排名;Majid A等[6]提出利用照片的時間戳結(jié)合互聯(lián)網(wǎng)資料來獲取旅游當?shù)貧夂颍?,人文等相關上下文消息,構(gòu)建了基于地理標簽數(shù)據(jù)的個性化推薦模型,Lu X等[7]通過聚類的方式從地理標簽數(shù)據(jù)中提取出熱門的旅行路線,并將旅游的持續(xù)時間和旅游成本進行綜合考慮,幫助游客進行旅游路線的選擇。
國內(nèi)在地理標簽數(shù)據(jù)的研究尚處于初步階段。朱金悅等[8]利用從Flickr中的地理標簽數(shù)據(jù),結(jié)合核密度的聚類方法對海南省的游客時空行為進行分析;武傳表等[9]利用1997-2014年的地理標簽數(shù)據(jù)研究了赴大連市游客的時空行為特征,發(fā)現(xiàn)游客的旅游時間季節(jié)性和時段性特征明顯,而且游客的游玩目的地呈現(xiàn)多樣性;馬麗君等[10]對江蘇省入境及國內(nèi)游客的空間聚集性進行了分析;楊興柱等[11]對南京市內(nèi)部旅游客流空間分布格局進行了實態(tài)模擬。國內(nèi)專家學者大多利用地理標簽數(shù)據(jù)來分析游客的游覽軌跡和行為特征,將其應用在個性化推薦方面的研究尚少。因此,本文嘗試構(gòu)建基于地理標簽數(shù)據(jù)的個性化旅游服務模型,首先獲取景點的熱點區(qū)域(Hot of Location,HOL),然后集合旅游的季節(jié)來獲得景點區(qū)域的熱度,建立景點區(qū)域的數(shù)據(jù)庫,最后結(jié)合用戶的偏好和旅游情境,為用戶實現(xiàn)個性化景點和游玩線路推薦。
2 研究重點與模型建立
2.1 景點區(qū)域的提取和識別
目前關于景點區(qū)域的提取有多種方法,比較成熟的有基于k均值聚類(K-mean)和基于均值漂移(Mean-shift)的聚類算法,還有基于核密度的聚類方法。然而采用最多還是基于密度的DBSCAN(Density-Based Spatial Clustering of Application with Noise)算法來對景點區(qū)域進行聚類[12]。DBSCAN算法的核心思想是將緊密相連的樣本點定義為同一類,一般會預先設立1個閾值,樣本的密度大于該閾值,則可視為同一類。DBSCAN算法可以在空間數(shù)據(jù)中發(fā)現(xiàn)任何形狀的簇,而且可以自動去除離群的數(shù)據(jù)點,受噪聲數(shù)據(jù)的影響較小,不需要預先設置聚類的個數(shù),在對海量樣本數(shù)據(jù)進行聚類時有較好的效果,因此本文采用DBSCAN算法對地理標簽數(shù)據(jù)進行聚類來提取景點區(qū)域。
我們利用DBSCAN算法進行景點聚類時,有兩個核心的參數(shù)(參數(shù)ε和參數(shù)MitPts),它們兩個是用來描述樣本集的緊密程度。其中參數(shù)ε用來描述樣本領域的閾值,即聚類的半徑;參數(shù)MitPts用來描述某一個樣本的距離為ε的領域中樣本個數(shù)的閾值(每一類簇中最少的照片數(shù)量)[13]。
利用DBSCAN算法進行景點聚類主要流程分為兩步:1)掃描每個樣本點p,如果p沒有被掃描過,則檢查p距離為領域中照片的個數(shù),如果MitPts值大于閾值,則p為核心對象,如果MitPts值小于閾值,則視為噪點,舍棄;2)若p為核心對象,將p放入聚類中心簇c中,將p的領域內(nèi)所有樣本點q加入候選集,進行下一步的掃描中。依次遍歷所有的點,直至所有樣本點都被訪問到,具體流程如圖1所示。例如取MitPts的閾值為5,紅色的點即為核心對象,圖2中用綠色箭頭連起來的即為景點的區(qū)域。
通過DBSCAN算法提取到景點的區(qū)域后,景點區(qū)域的名稱可能與實際名稱并不相符。還需要到景點區(qū)域進行識別,對聚類后的景點區(qū)域進行命名。筆者這里采用TF-IDF的統(tǒng)計方法,TF-IDF算法認為一個詞的重要性與其在文檔中出現(xiàn)的頻率成正比,與其在語料庫中出現(xiàn)的頻率成反比,利用TF-IDF算法對照片的文本標簽進行挖掘,提取文本標簽中詞頻最高的詞語作為景點區(qū)域的名稱。
2.3 景點區(qū)域數(shù)據(jù)庫
在確定了景點的區(qū)域和景點的熱度后,我們在進行景點的個性化服務推薦時還需要考慮游客游玩的天氣、季節(jié)以及景點的門票價格等其他因素的影響,因為有些景區(qū)在某些季節(jié)是不對外開放的,為了便于更好地為游客進行個性化服務推薦,我們建立基于本體的數(shù)據(jù)庫。
對于景點L,我們首先要確定有多少用戶訪問過該景點,然后根據(jù)每個用戶拍攝的照片進行排序,對于同一個用戶的拍攝同一景點區(qū)域的照片,我們可以設立1個閾值θ,如果兩張照片的時間戳小于閾值θ,則可以記為1次旅程,記用戶的旅玩時間為。為了便于后續(xù)對用戶偏好的分析,本文按照事務型方式來建立數(shù)據(jù)庫,我們將游客的游玩事件記為V=(vu,vl,vt),我們可以利用游玩的時間戳通過互聯(lián)網(wǎng)獲取游客的情境信息,以及游玩天氣等基本信息,為了便于分析,本文將游客游玩的時間戳轉(zhuǎn)換成用戶游玩的情境,具體記錄信息如表1所示。
2.4 個性化服務推薦模型
基于地理標簽的游客個性化服務的研究方法就是先通過社交媒體網(wǎng)站上獲取到地理標簽數(shù)據(jù)后,我們通過對地理標簽進行信息挖掘,發(fā)現(xiàn)當?shù)氐木包c區(qū)域,景點區(qū)域的熱度,同時建立景點的數(shù)據(jù)庫,
3 實驗過程與結(jié)果分析
3.1 數(shù)據(jù)的采集和預處理
Flickr是雅虎旗下的一家基于Web2.0的照片分享網(wǎng)站,通過共享照片讓用戶可以相互交流,上面有全世界網(wǎng)友分享的海量照片,使我們獲得地理標簽數(shù)據(jù)的最佳選擇之一,并且Flickr網(wǎng)站提供開放的api接口,注冊成為其開發(fā)者會員,就可以爬取網(wǎng)站上的數(shù)據(jù)[15]。
Flickr網(wǎng)站提供支持多種語言的api接口工具包,筆者采用目前使用最為成熟的基于Python腳本語言Beejs Python Flickr API工具包對地理標簽數(shù)據(jù)進行采集。根據(jù)本文的研究需求,選取文本標簽為Wuhan,時間從2008年1月1日到2018年12月31日的所有數(shù)據(jù),從數(shù)據(jù)集中提取用戶的id、照片的id、照片的地理位置(經(jīng)緯度)以及照片的文本標簽,照片的拍攝時間等信息,如表2所示,共計得到23 856條記錄。
剛從Flickr網(wǎng)站上獲取到的地理標簽數(shù)據(jù)并不能直接用于DBSCAN聚類分析,我們要對采集到的數(shù)據(jù)進行預處理,去除其中部分沒有價值的數(shù)據(jù)。利用數(shù)據(jù)的清洗可以用來剔除與主題無關的數(shù)據(jù)信息,如收集到的與景點無關的照片。為了地理標簽的質(zhì)量,我們制定以下清洗規(guī)則。
1)對于照片的地理標簽與實際圖片內(nèi)容不匹配的照片,經(jīng)分析后,應該是設備定位功能不準確導致的,由于客戶在1天之內(nèi)的活動范圍有限,對于此類數(shù)據(jù),我們只能視為無效數(shù)據(jù),進行剔除處理。
2)對于景點的同一位置,在同一時間或者短時間內(nèi)具有多張相同的照片,經(jīng)分析發(fā)現(xiàn),是因為用戶習慣于拍攝多張照片以便于從中篩選出最合適的照片這種行為導致,為了消除大量重復照片對景點區(qū)域識別的干擾,我們從時間id和地點id相差不大的照片選取其中1張作為代表,刪除其他照片。
3)對于與景點無關的數(shù)據(jù),例如個人自拍照、家庭聚會照、事故現(xiàn)場等與景點無關的照片,會干擾景點區(qū)域的識別,也只能進行剔除處理。
通過對地理標簽數(shù)據(jù)的預處理,最后得到包含有435個用戶的18 652張照片,來進行下一步的信息挖掘。
3.2 景點區(qū)域提取及熱度排名
進行景點區(qū)域的聚類時,DBSCAN算法中的聚類半徑ε和聚類中心簇范圍內(nèi)照片的數(shù)量MitPts影響著景點區(qū)域的識別準確與否。為了選擇合適的聚類半徑和MitPts,本文選取了100個用戶的4 523張照片,進行不同權重的對比,具體結(jié)果見圖4。
[5]Crandall D,Backstrom L.Mapping the Worlds Photos[C]//In Proceedings of the International Conference on World Wide Web(WWW 09)ACM.New York,2009:168-181.
[6]Majid A,Chen L,Chen G,et al.A Context-aware Personalized Travel Recommendation System Based on Geotagged Social Media Data Mining[J].International Journal of Geographical Information Science,2013,27(4):1-23.
[7]Lu X,Wang C.Generating Travel Routes from Geo-Tagged Photos for Trip Planning[C]//In Proceedings of the 18th ACM International Conference on Multimedia.Italy,2010:143-152.
[8]朱金悅,胡濤.基于地理標記照片的游客空間分布特征研究——以海南省為例[J].旅游論壇,2016,9(6):17-22.
[9]武傳表,向慧容.基于地理標記照片的赴大連游客時空行為特征研究[J].遼寧師范大學學報:自然科學版,2017,40(3):387-394.
[10]馬麗君,孫根年.江蘇省國際國內(nèi)旅游的空間聚集性及成因分析[J].商業(yè)研究,2009,(2):170-174.
[11]楊興柱,蔣鍇,陸林.南京市游客路徑軌跡空間特征研究——以地理標記照片為例[J].經(jīng)濟地理,2014,34(1):181-187.
[12]Schmidt B,Laamanen H.Location-based Mobile Tourist Services-first User Experiences[J].Information and Communication Technologies in Tourist,2003:115-123.
[13]肖政.基于空間數(shù)據(jù)挖掘的個性化旅游景點推薦系統(tǒng)研究[D].武漢:華中師范大學,2016.
[14]Lee I,Cai G.Exploration of Geo-tagged Photos Through Data Mining Approaches[J].International Journal Expert Systems with Applications,41:397-405.
[15]王楠.基于地理標簽的旅游信息服務研究[D].西安:陜西師范大學,2016.
[16]百度百科“信息熵”詞條[EB/OL].https://baike.baidu.com/item/信息熵,2018-10-08.
[17]陳氫,馮進杰.多維情境融合的移動情境感知服務系統(tǒng)構(gòu)建研究[J].情報理論與實踐,2018,41(8):115-119,160.
[18]王楠.基于地理標簽的旅游信息服務研究[D].西安:陜西師范大學,2016.
[19]Majid A.基于地理標簽的社會媒體數(shù)據(jù)挖掘的智能旅游推薦研究[D].杭州:浙江大學,2012.
(責任編輯:孫國雷)