鐘 翔,韓 旭,朱彩云,王曉萌
(天津濱海國際機場信息技術(shù)部,天津 300300)
機場作為一個開放性、服務(wù)型的企業(yè),旅客服務(wù)滿意度是機場長期關(guān)注的重要指標。大數(shù)據(jù)時代,給機場提高旅客服務(wù)水平帶來新的機遇和挑戰(zhàn)。在大數(shù)據(jù)環(huán)境下,機場可迅速有效地獲得旅客的相關(guān)信息,如旅客的基本信息、航班信息、值機方式、攜帶行李信息、是否為團隊等。利用技術(shù)手段對機場旅客群體進行分類,并分析出不同旅客的特征差異。
聚類是指把具有相似特征的事物劃分為一類,即“物以類聚”。根據(jù)旅客的主體特征及出行特征等數(shù)據(jù),采用K均值聚類方法[1-3]將機場旅客群體[4]進行有效劃分。聚類可使同類旅客的特征相似,而不同類旅客的特征不同。采用聚類方法可對機場旅客群體進行有效劃分,能夠幫助機場管理部門發(fā)現(xiàn)特征迥異的旅客群,便于對不同旅客提供更優(yōu)質(zhì)、更精準的服務(wù)[5-7]。
K均值算法屬于聚類分析方法中一種基本且應(yīng)用廣泛的算法。其原理是:首先從樣本數(shù)據(jù)集中隨機選取K個點作為初始質(zhì)心;然后計算各樣本到質(zhì)心的距離,把樣本劃分到離其最近的那個質(zhì)心所在的簇中;再將新形成的每簇數(shù)據(jù)對象的平均值作為新的質(zhì)心,如果相鄰兩次迭代的質(zhì)心無任何變化,說明已收斂,算法結(jié)束。K均值算法快速、簡單,對大數(shù)據(jù)集有較高的效率,但初始質(zhì)心是隨機的。由于初始質(zhì)心的選擇對聚類結(jié)果有較大影響,且易陷入局部最優(yōu),因此,可采用二分K均值算法。
二分K均值算法是對K均值算法的改進與擴充,主要是為了改進K均值算法的初始質(zhì)心隨機選擇造成聚類結(jié)果不確定性的問題。該算法首先將所有點作為一個簇,然后將該簇一分為二,之后選擇其中一個簇繼續(xù)劃分。選擇哪個簇進行劃分取決于對其劃分是否可最大程度降低誤差平方和(SSE,sum of the squared error)的值。上述基于SSE的劃分過程不斷重復(fù),直至得到用戶指定簇的數(shù)目為止。
在歐幾里德空間中,衡量簇的質(zhì)量通常使用SSE度量。其計算方法為執(zhí)行聚類分析后,對每個點計算一個誤差值,即非質(zhì)心點到最近質(zhì)心的距離,然后將這些距離值的平方相加求和,作為SSE去評估一個聚類的質(zhì)量如何,最終目標是使SSE最小。在n維歐幾里德空間中,SSE可表示為
其中:k為簇的數(shù)目;ci為簇Ci的聚類中心;x為該簇的一個樣本。
算法的具體思路為:
1)把整個數(shù)據(jù)集看成一個聚簇,計算并保存每個樣本到質(zhì)心的距離;
2)在簇集中選取SSE最大的簇進行m次二分聚類劃分;
3)根據(jù)式(1)計算每個劃分得到的2個簇總的SSE,選擇最小SSE對應(yīng)的劃分結(jié)果,將其替換被劃分的簇。
4)迭代步驟2)和步驟3)直到聚簇數(shù)目達到K后停止。
1)聚類指標選取
指標選擇是建立機場旅客群體劃分模型的關(guān)鍵步驟。由于某些旅客行為指標不能直接反映旅客群體特征,因此,需從機場安檢信息系統(tǒng)數(shù)據(jù)庫中篩選出旅客行為指標數(shù)據(jù)并進行修正和完善,才能更加全面地描述旅客群的行為特征。通過分析得出:旅客主體特征指標主要包括旅客年齡、性別、出行次數(shù)及平均停留時間等;旅客出行特征指標主要包括值機方式、攜帶行李數(shù)量、艙位、是否為團隊等。
2)數(shù)據(jù)標準化
為了消除數(shù)據(jù)指標間的量綱影響[8],需對樣本數(shù)據(jù)進行標準化處理,使數(shù)據(jù)指標之間具有可比性。
采用z-score數(shù)據(jù)標準化法,對序列x1,x2,…,xn進行變換,即
3)程序?qū)崿F(xiàn)
采用Python語言實現(xiàn)二分K均值算法[9-10],利用Pyodbc庫連接本地機場旅客樣本數(shù)據(jù)庫,通過Numpy科學計算庫對樣本數(shù)據(jù)進行計算。
選擇2016年6月至2017年5月全年天津機場旅客出行數(shù)據(jù)作為研究對象,選取旅客平均年齡、平均出行次數(shù)、平均停留時間等主體特征作為聚類指標,利用二分K均值算法建立機場旅客主體特征劃分模型。通過程序運行時間及誤差大小調(diào)整K值,K值越大,誤差越小。對不同K值的運算結(jié)果進行分析,發(fā)現(xiàn)樣本數(shù)據(jù)中平均年齡和平均出行次數(shù)的聚類結(jié)果不理想。選取K=8時的聚類結(jié)果進行分析,如表1所示。
表1 K=8時的聚類結(jié)果Tab.1 Clustering results when K=8
通過表1可看出,聚類劃分的8類中有5類的一年出行次數(shù)質(zhì)心在1附近,約占全樣本的86.38%,聚類結(jié)果不理想。因此,最終將出行次數(shù)為1次的旅客及出行次數(shù)為1次以上的旅客分別進行聚類分析。
通過對出行次數(shù)為1次的旅客主體特征建立劃分模型,K取3~8,比較誤差大小,發(fā)現(xiàn)K>5后誤差減小趨勢不明顯。均衡考慮算法的運行時間,選取K=5對出行1次的旅客群體進行劃分,結(jié)果如表2所示。
表2 K=5時出行1次的機場旅客群體聚類結(jié)果Tab.2 Clustering result of airport passengers with once departure when K=5
據(jù)表2分析出行1次的機場旅客各年齡段的平均停留時間可知:第1類旅客平均年齡約60歲,平均停留時間66.20 min;第2類旅客平均年齡約32歲,平均停留時間57.34 min;第3類旅客平均年齡約24歲,平均停留時間104.24 min;第4類旅客平均年齡約36歲,平均停留時間172.44min;第5類旅客平均年齡約51歲,平均停留時間101.65 min。綜上所述:機場大多數(shù)旅客從通過安檢到航班計劃起飛都會預(yù)留至少1 h的時間;年齡在32、60歲左右的人群平均停留時間也都為1 h左右;部分36歲左右旅客人群平均停留時間都在2 h左右,但這部分旅客占比很少。另外,據(jù)以上分析第2類旅客在機場出行次數(shù)為1次的旅客中占比最大,可見年輕旅客為天津機場旅客的主體力量。因此,需多了解年輕旅客的需求并提供相應(yīng)服務(wù)。
利用同樣的方法,建立出行1次以上的機場旅客主體特征劃分模型,結(jié)果如表3所示。
表3 K=5時出行大于1次的機場旅客群體聚類結(jié)果Tab.3 Clustering result of airport passengers with more than once departure when K=5
對表3聚類結(jié)果進行統(tǒng)計分析,機場旅客中第4類旅客占比最多,其次是第5類和第1類旅客,第3類和第2類旅客占比較少。其中:第1類旅客的主要特征是平均年齡約61歲,男性占比76%,平均出行次數(shù)2.69次,平均停留時間68.02 min;第2類旅客的主要特征是停留時間長,平均停留時間153.22 min,平均年齡約39歲,女性占比65%,平均出行次數(shù)2.38次;第3類旅客的主要特征是出行次數(shù)較多,平均出行次數(shù)9.01次,平均年齡約40歲,男性占比84%,平均停留時間69.54 min;第4類旅客的主要特征是平均年齡約32歲,男性占比72%,平均出行次數(shù)2.57次,平均停留時間63.89 min,第5類旅客的主要特征是平均年齡約51歲,男女比例相當,平均出行次數(shù)2.46次,平均停留時間101 min。綜上分析可知,出行次數(shù)多的旅客平均年齡約40歲,停留時間在1 h左右。由此可見,這類人多為商務(wù)出行旅客。因商務(wù)旅客非常看重機場離港流程的效率,所以需不斷優(yōu)化流程,提高出行效率。
隨著年輕旅客和商務(wù)旅客出行比例不斷增長,建議機場增加自助服務(wù)設(shè)施,推動簡化商務(wù)項目。另外,針對無行李旅客,可在安檢區(qū)域推出適合商務(wù)旅客出行的無行李旅客通道,提高旅客出行的便捷性。為吸引旅客重復(fù)體驗機場的產(chǎn)品和服務(wù),提高旅客滿意度,增強旅客忠誠度,機場可推出常旅客計劃。根據(jù)不同旅客群體的特征設(shè)計不同的服務(wù)及產(chǎn)品,從而有效地調(diào)配機場資源,集中優(yōu)勢資源為旅客提供更優(yōu)質(zhì)的服務(wù)。
旅客的出行特征主要選取旅客值機方式、攜帶行李數(shù)量、艙位、是否團隊為分類指標,進行K均值算法的聚類。在全年樣本下建立基于K均值算法的機場旅客出行特征劃分模型,如表4所示,K=4時聚類結(jié)果特征最為明顯。
從表4分析得出,乘坐公務(wù)艙和頭等艙的人數(shù)在團隊出行旅客中占比相對較?。ǖ?類占比0.91%,第3類占比0.41%),在非團隊旅客中占比相對較大(第1類占比1.32%,第4類占比2.13%)。由此可知:對于團體出行的旅客而言,大多會選擇經(jīng)濟艙出行;對于非團隊旅客乘坐公務(wù)艙及頭等艙的概率偏大。下面對上述4類人群的出行特征進行分析。
第1類非團隊、非商務(wù)人群。其出行特點以自助值機與網(wǎng)上值機為主,攜帶行李較少,乘坐公務(wù)艙與頭等艙人數(shù)占出行總?cè)藬?shù)的1.32%,相較于第4類非團隊旅客而言偏低,因此,此類人群命名為非商務(wù)型。這類人群主要以短時公務(wù)出差或出游旅客為主,由于攜帶行李較少,所以這類旅客通過網(wǎng)上值機及自助辦理手續(xù)的人數(shù)偏多。由此可見,網(wǎng)上值機及自助值機在攜帶行李較少的旅客中被利用的程度很高,這樣既減少了這類旅客高峰時刻在值機柜臺辦理手續(xù)時排隊等待時間,還能為真正需要在值機柜臺辦理行李托運的旅客節(jié)省時間。因此,為提高機場自助值機的使用效率,機場可根據(jù)實際需求增加自助值機的數(shù)量及調(diào)整擺放位置,使更多無需托運行李的旅客可通過自助值機設(shè)備辦理手續(xù),減少旅客由于排隊時間過長而引起的誤機率及相關(guān)的投訴率。
表4 K=4時機場旅客出行特征聚類后的占比情況Tab.4 Clustering result of airport passengers’departure characteristics when K=4 %
第2類團隊商務(wù)人群。其出行特點以柜臺值機為主,攜帶行李較多,乘坐頭等艙與公務(wù)艙出行人數(shù)占總?cè)藬?shù)的0.91%,相較于第3類團隊旅客而言偏高,因此,此類人群命名為商務(wù)型。通過分析可知,與第3類相比這類人群中攜帶隨從人員較多的公眾人物相對較多,如知名歌手、演員類人群。對于這類人群而言,比較注重隱私的保護,因此,機場可針對此類人群開設(shè)專用的VIP通道。對于影響力過大的公眾人物,提前安排專業(yè)人員進行引導及人身安全的保護,且對公眾人物的行程也必須做到嚴格保密,禁止對外擴散,避免由于人群大量擁堵圍觀而造成群體性不安全事件的發(fā)生。
第3類團隊非商務(wù)人群。這類人群主要以自助值機和網(wǎng)上值機為主,攜帶行李較少,乘坐公務(wù)艙和頭等艙的人群占比也較少,因此可分析出此類人群主要以跟團旅行或團體出行為主。由于定義的團隊人數(shù)為10人,所以該類人群團隊出游的概率較大,10人團體出差/辦公的幾率相對較少。因此,對團隊旅客做好針對性服務(wù)是保持機場良好秩序的關(guān)鍵,增設(shè)團隊專用值機柜臺、增加團隊專用座椅區(qū)、開通團隊旅客專用安檢通道、增設(shè)團隊旅客專用充電樁等便捷服務(wù),都可有效地控制航站樓內(nèi)的良好秩序。
第4類非團隊商務(wù)人群。其主要值機方式為柜臺值機,乘坐公務(wù)艙和頭等艙的占比人數(shù)最多。由此可分析出此類人群以個體或少量團體長時公務(wù)出差及公眾人物出行(攜帶人員10人以下)為主,因此會攜帶相對較多的行李。此類人群攜帶行李較多,且公務(wù)艙及頭等艙旅客偏多,針對此類旅客應(yīng)做好頭等艙及公務(wù)艙專用值機柜臺和專用安檢通道的引導工作,避免由于在值機柜臺和安檢通道等待時間過長而影響出行。
通過對旅客群體“畫像”,可看出不同身份、不同出行目的的人群都會有各自的出行偏好,同一類型的人群會有共同的出行特征。因此,機場可根據(jù)歷史的出行特征對每個人定義分類標簽,根據(jù)每個人的標簽類型來提供專業(yè)性較強的服務(wù)內(nèi)容,做到“因人而異”地提供服務(wù),增強旅客的出行體驗度,最終可提高旅客的服務(wù)滿意度,通過提升定制性服務(wù)水平為機場贏得更多的“常旅客”。
采用K均值聚類算法針對機場旅客的主體特征和出行特征構(gòu)建機場旅客群體劃分模型,分析同類旅客的相似特征,挖掘出不同類型旅客的不同行為特征,以此來確定機場旅客群體的類別,為機場管理部門推行個性化服務(wù)提供決策依據(jù)。
利用大數(shù)據(jù)分析技術(shù)研究機場旅客的行為特征,挖掘潛在的旅客群體,可協(xié)助機場實現(xiàn)精準服務(wù)和精準營銷,從而提升機場的旅客體驗度。如果能獲取到旅客更多類型的數(shù)據(jù),如旅客的消費數(shù)據(jù)、移動APP數(shù)據(jù)等,通過大數(shù)據(jù)分析可幫助機場構(gòu)建旅客“畫像”,分析旅客消費特征,進而可優(yōu)化廣告投放、餐飲和商貿(mào)優(yōu)惠推送,幫助提高機場的非航收入,使機場的運營變得更加智能化。