国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種融合個(gè)體屬性與社交關(guān)系的民航旅客價(jià)值度量方法

2018-03-15 10:17:00丁建立劉曉慶王家亮
航空學(xué)報(bào) 2018年2期
關(guān)鍵詞:度量旅客社交

丁建立,劉曉慶,王家亮

1.中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 天津 300300 2.中國(guó)民航大學(xué) 天津市智能信號(hào)與圖像處理重點(diǎn)實(shí)驗(yàn)室,天津 300300

隨著中國(guó)經(jīng)濟(jì)的高速增長(zhǎng)和國(guó)民收入的普遍提高,民航已不再僅僅是高收入人群的出行選擇,而是成為了一種大眾化、平民化的出行方式,民航和鐵路之間以及各航空公司之間的競(jìng)爭(zhēng)日趨激烈。旅客資源的質(zhì)量和數(shù)量成為航空公司致勝的關(guān)鍵,因此對(duì)旅客的細(xì)分和研究[1-4]成為當(dāng)前的研究熱點(diǎn)。如何評(píng)估旅客價(jià)值、挖掘旅客關(guān)系及發(fā)現(xiàn)潛在高價(jià)值旅客,成為各航空公司搶奪旅客資源、提高核心競(jìng)爭(zhēng)力的重要因素。

目前國(guó)內(nèi)外對(duì)于民航旅客價(jià)值的研究主要集中在旅客個(gè)體價(jià)值層面,通過構(gòu)建RFM(Recency, Frequency, Monetary)模型,根據(jù)旅客乘機(jī)時(shí)間近度系數(shù)R、乘機(jī)頻率F、花費(fèi)金額M等特征,綜合計(jì)算旅客個(gè)體當(dāng)前實(shí)際產(chǎn)生的價(jià)值[5]。為了挖掘旅客潛在價(jià)值,徐冰宇等提出構(gòu)建旅客-航線二部圖[6],基于隨機(jī)游走預(yù)測(cè)旅客未來出行概率,計(jì)算旅客潛在價(jià)值,但該模型僅考慮了旅客與航線的關(guān)系,忽略了旅客與旅客之間的相互影響。

2014年韓敏提出旅客價(jià)值排序Passenger Rank算法[7],認(rèn)為旅客除了個(gè)體價(jià)值外,其在社會(huì)網(wǎng)絡(luò)中的影響價(jià)值也應(yīng)該考慮在內(nèi),該算法分別計(jì)算旅客獨(dú)飛價(jià)值和網(wǎng)絡(luò)價(jià)值并加權(quán)求和獲得旅客總價(jià)值,但其將獨(dú)飛價(jià)值作為旅客個(gè)體價(jià)值,而實(shí)際上旅客獨(dú)飛和共飛時(shí)自身消費(fèi)的所有價(jià)值都應(yīng)該屬于旅客個(gè)體價(jià)值,且在計(jì)算旅客網(wǎng)絡(luò)價(jià)值時(shí),只考慮了旅客拓?fù)潢P(guān)系,忽略了旅客個(gè)體價(jià)值的差異導(dǎo)致的影響力差異,僅根據(jù)拓?fù)浣Y(jié)構(gòu)計(jì)算節(jié)點(diǎn)的網(wǎng)絡(luò)價(jià)值,不夠準(zhǔn)確和全面。

目前國(guó)內(nèi)外對(duì)于民航旅客關(guān)系網(wǎng)絡(luò)構(gòu)建和旅客價(jià)值度量的研究存在以下問題:首先,民航旅客關(guān)系網(wǎng)絡(luò)的構(gòu)建只局限于分析PNR(Passenger Name Record)數(shù)據(jù),通過旅客同訂單關(guān)系,計(jì)算旅客間乘機(jī)關(guān)聯(lián)度以量化旅客關(guān)系[8],而實(shí)際上,旅客間存在同一訂單的顯式關(guān)系和不同訂單的隱式關(guān)系,而不同訂單的隱式關(guān)系更具挖掘價(jià)值;其次,對(duì)旅客價(jià)值度量的方法過于簡(jiǎn)單和單一,沒有綜合考慮旅客個(gè)體價(jià)值及其在社會(huì)關(guān)系網(wǎng)絡(luò)中的相互影響,而旅客價(jià)值既取決于個(gè)體價(jià)值又受其社交關(guān)系的影響。

為了解決以上問題,本文提出了一種融合個(gè)體屬性與社交關(guān)系的民航旅客價(jià)值度量方法,采用改進(jìn)的RFMc(Recency, Frequency, Monetary, cab class)模型計(jì)算旅客個(gè)體價(jià)值并根據(jù)多關(guān)系評(píng)價(jià)(Multi-Relationship Evaluation,MRE)模型獲得旅客關(guān)系系數(shù),構(gòu)建旅客社交關(guān)系網(wǎng)絡(luò),采用PageRank算法模型模擬旅客價(jià)值的網(wǎng)絡(luò)傳遞,最終實(shí)現(xiàn)可動(dòng)態(tài)調(diào)整旅客個(gè)體價(jià)值和社交關(guān)系權(quán)重系數(shù)的旅客價(jià)值度量方法。

1 PageRank算法

PageRank算法最初用于解決頁面排序問題,它基于網(wǎng)頁之間的鏈接,根據(jù)全局網(wǎng)頁的鏈接情況計(jì)算各個(gè)網(wǎng)頁的重要程度。PageRank算法認(rèn)為,在Web圖模型中一個(gè)網(wǎng)頁入鏈數(shù)量越多,則該網(wǎng)頁越重要;鏈入該網(wǎng)頁的網(wǎng)頁質(zhì)量越高,則該網(wǎng)頁越重要。即網(wǎng)頁的質(zhì)量由鏈入該網(wǎng)頁的數(shù)量和質(zhì)量共同決定,這就是PageRank算法的數(shù)量和質(zhì)量假設(shè)。

基于以上兩個(gè)假設(shè),PageRank算法首先賦予所有網(wǎng)頁相同的初始重要性得分,其次通過公式ri+1=Mri迭代計(jì)算來更新每個(gè)網(wǎng)頁的PageRank得分,直到得分趨于穩(wěn)定,獲得最終的重要性得分結(jié)果,其中r為網(wǎng)頁重要性得分向量,M為轉(zhuǎn)移概率矩陣??紤]到一些出度或入度為零的網(wǎng)頁(也稱為孤立網(wǎng)頁),在原基礎(chǔ)上增加了阻尼系數(shù)α進(jìn)行平滑處理,計(jì)算公式變?yōu)椋簉i+1=αMri+(1-α)e,其中e表示從任一網(wǎng)頁不經(jīng)過鏈路而隨機(jī)跳到任意網(wǎng)頁的概率向量。這里假設(shè),用戶以等概率跳轉(zhuǎn)到任意網(wǎng)頁節(jié)點(diǎn),故e取值為[1/N,1/N,…,1/N],其中N為網(wǎng)頁數(shù)量。

PageRank算法的提出吸引了一大批學(xué)者對(duì)其進(jìn)行研究,為了解決PageRank算法忽略了主題相關(guān)性這一問題,斯坦福大學(xué)計(jì)算機(jī)科學(xué)系提出了Topic-sensitive PageRank算法[9],提高了結(jié)果的相關(guān)性和主題性,使得用戶的個(gè)性化查詢得以實(shí)現(xiàn)。Kamvar等在2003年提出基于塊的個(gè)性化算法——BlockRank[10],從更粗粒度的角度提高了算法計(jì)算效率。2009年一種基于主題級(jí)隨機(jī)游走的排序算法[11]被提出,解決了Topic-sensitive PageRank算法中需要預(yù)定義主題的問題。朱凡微等在2015年提出基于可用性Hub選擇的有計(jì)劃逼近完全個(gè)性化PageRank算法[12-13],使得算法的計(jì)算效率和準(zhǔn)確度得以動(dòng)態(tài)調(diào)整。2016年魏巍等充分運(yùn)用豐富的節(jié)點(diǎn)信息和網(wǎng)絡(luò)拓?fù)湫畔?,提出了一種基于多源異構(gòu)大規(guī)模圖結(jié)構(gòu)的排序算法[14],實(shí)現(xiàn)了半監(jiān)督的圖節(jié)點(diǎn)排序。

PageRank算法的一系列改進(jìn)使其在對(duì)圖結(jié)構(gòu)重要節(jié)點(diǎn)排序方面具有高可擴(kuò)展性和高有效性,因此也越來越廣泛地被應(yīng)用于各研究領(lǐng)域,包括關(guān)鍵字提取[15-17],作者、論文、期刊等網(wǎng)絡(luò)的節(jié)點(diǎn)重要性排序[18-20]等。

與網(wǎng)頁排序和其他圖節(jié)點(diǎn)排序相似,社交網(wǎng)絡(luò)中的旅客對(duì)于航空公司的價(jià)值,既包含其個(gè)體消費(fèi)價(jià)值,又包含其社交關(guān)系價(jià)值,綜合旅客個(gè)體價(jià)值和社交關(guān)系的綜合度量才是對(duì)旅客價(jià)值的全面度量。況且,旅客成長(zhǎng)趨勢(shì)受其所在社交網(wǎng)絡(luò)的影響,一個(gè)目前個(gè)體消費(fèi)價(jià)值較低的旅客與高價(jià)值旅客關(guān)系越親密,其消費(fèi)潛力越大,未來成長(zhǎng)為高價(jià)值旅客可能性就越大。基于這一思想,本文充分挖掘旅客訂票和離港數(shù)據(jù),通過RFMc模型計(jì)算旅客個(gè)體價(jià)值,并通過MRE模型分析旅客關(guān)系,構(gòu)建民航旅客社交關(guān)系網(wǎng)絡(luò),充分利用PageRank算法在大規(guī)模圖節(jié)點(diǎn)排序中的高效性和高可擴(kuò)展性,設(shè)計(jì)實(shí)現(xiàn)民航旅客價(jià)值排序(Civil Aviation Passengers Value Rank, CAPV-Rank)算法,通過旅客間的價(jià)值傳遞模擬真實(shí)世界里旅客間的相互影響,并通過權(quán)重因子動(dòng)態(tài)調(diào)整旅客個(gè)體價(jià)值和社交關(guān)系對(duì)旅客價(jià)值度量的權(quán)重系數(shù),實(shí)現(xiàn)旅客個(gè)體價(jià)值計(jì)算、旅客網(wǎng)絡(luò)價(jià)值計(jì)算、融合旅客個(gè)體價(jià)值和網(wǎng)絡(luò)價(jià)值的混合計(jì)算等多種旅客價(jià)值度量模式,并根據(jù)旅客當(dāng)前個(gè)體價(jià)值和社交關(guān)系預(yù)測(cè)旅客未來價(jià)值,進(jìn)而挖掘潛在高價(jià)值旅客。

2 民航旅客社交關(guān)系網(wǎng)絡(luò)模型和CAPV-Rank算法

定義1民航旅客社交關(guān)系網(wǎng)絡(luò):被定義為無向加權(quán)網(wǎng)絡(luò)G=(P,E,V,W),P為所有旅客集合,E為所有旅客關(guān)系集合,V為所有旅客個(gè)體價(jià)值集合,W為所有關(guān)系權(quán)重集合。

民航旅客社交關(guān)系網(wǎng)絡(luò)模型包括旅客個(gè)體價(jià)值計(jì)算(RFMc)模型和多關(guān)系評(píng)價(jià)(MRE)模型,是旅客價(jià)值排序CAPV-Rank算法設(shè)計(jì)的基礎(chǔ)。

2.1 RFMc模型

定義2旅客個(gè)體價(jià)值:根據(jù)旅客個(gè)體消費(fèi)數(shù)據(jù)計(jì)算旅客個(gè)體對(duì)于航空公司的價(jià)值,也指旅客對(duì)航空公司的利潤(rùn)貢獻(xiàn)值。

傳統(tǒng)的RFM模型使用顧客消費(fèi)近度、消費(fèi)頻率和消費(fèi)金額來綜合衡量顧客價(jià)值。從PNR數(shù)據(jù)中可以得到旅客的乘機(jī)金額、乘機(jī)時(shí)間和乘機(jī)頻率,針對(duì)民航的具體情況和特點(diǎn),引入艙位等級(jí)C對(duì)應(yīng)的票價(jià)折扣來表示旅客當(dāng)次消費(fèi)對(duì)航空公司的價(jià)值貢獻(xiàn)等級(jí),提出RFMc模型計(jì)算民航旅客個(gè)體價(jià)值,其中MC為結(jié)合艙位等級(jí)計(jì)算得到的旅客相對(duì)乘機(jī)總金額。

2.1.1 旅客相對(duì)乘機(jī)總金額MC

考慮到民航的特殊性,不同的飛機(jī)艙位等級(jí)和折扣為航空公司帶來的實(shí)際盈利率不同,因此在分析旅客消費(fèi)金額時(shí)應(yīng)區(qū)別對(duì)待。

將艙位等級(jí)C(對(duì)應(yīng)票價(jià)折扣)作為票價(jià)的權(quán)重計(jì)算旅客相對(duì)消費(fèi)總金額MC:

(1)

式中:ci為旅客第i次乘機(jī)的票價(jià)折扣;mi為旅客第i次乘機(jī)的票價(jià);k為購(gòu)票次數(shù)。

2.1.2 乘機(jī)時(shí)間近度系數(shù)R

定義3最近乘機(jī)時(shí)間t:旅客最近一次乘機(jī)時(shí)間與當(dāng)前時(shí)間(使用該模型計(jì)算旅客個(gè)體價(jià)值的時(shí)間)間隔。

定義4乘機(jī)平均周轉(zhuǎn)時(shí)間t0:旅客相鄰兩次乘機(jī)時(shí)間間隔的平均值:

(2)

式中:tsum為旅客總乘機(jī)次數(shù);ti為旅客第i次和第i+1次乘機(jī)時(shí)間間隔;ts為預(yù)計(jì)算得到的全旅客集的平均周轉(zhuǎn)時(shí)間。

定義5乘機(jī)時(shí)間近度系數(shù)R:旅客再次乘機(jī)的可能性:

(3)

乘機(jī)平均周轉(zhuǎn)時(shí)間t0反應(yīng)了旅客相鄰兩次乘機(jī)間隔的期望值,當(dāng)最近乘機(jī)時(shí)間t小于等于平均周轉(zhuǎn)時(shí)間t0時(shí),R值為1;當(dāng)t大于t0時(shí),旅客再次乘機(jī)的可能性逐漸降低,R值逐漸減少。

2.1.3 乘機(jī)頻率F

旅客乘機(jī)頻率F反應(yīng)了旅客的活躍度和忠誠(chéng)度,乘機(jī)頻率越大活躍度和忠誠(chéng)度越高,則該旅客對(duì)于航空公司的價(jià)值越大。

綜上,將旅客相對(duì)乘機(jī)總金額、乘機(jī)時(shí)間近度系數(shù)和乘機(jī)頻率加權(quán)求和,獲得旅客個(gè)體價(jià)值v:

v=ω1MC+ω2R+ω3F

(4)

式中:ω1、ω2和ω3為各指標(biāo)的權(quán)重系數(shù)??紤]到各個(gè)指標(biāo)的測(cè)量尺度不同,需將MC、R和F標(biāo)準(zhǔn)化后再加權(quán)求和。

2.2 MRE模型

旅客同乘關(guān)系包含同訂單的顯式同乘關(guān)系和不同訂單的隱式同乘關(guān)系,MRE多關(guān)系評(píng)價(jià)模型融合訂單數(shù)據(jù)和離港數(shù)據(jù),量化旅客顯隱式雙層關(guān)系并融合時(shí)間因素進(jìn)行多關(guān)系的綜合評(píng)價(jià)。

2.2.1 旅客同訂單關(guān)系

定義6旅客同訂單關(guān)系:指同一訂單的旅客關(guān)系,旅客的一次同訂單關(guān)系包括該訂單的旅客數(shù)量、旅客艙位等級(jí)差和訂單生成日期。

根據(jù)PNR數(shù)據(jù)構(gòu)建全體旅客的同訂單關(guān)系,用Pij表示旅客i和旅客j的同訂單關(guān)系序列,Pij[k]={|[ci[k]-cj[k]|,s[k],tp[k]}是序列中的第k項(xiàng)紀(jì)錄,表示旅客i和旅客j第k次同訂單的訂單數(shù)據(jù),其中:s[k]為該訂單的旅客數(shù)量,tp[k]為該訂單生成日期,ci[k]為該訂單中旅客i的艙位等級(jí)(對(duì)應(yīng)票價(jià)折扣)。

(5)

式中:sp[k]為旅客i和旅客j第k次同訂單關(guān)系得分。

2.2.2 旅客同乘關(guān)系

定義7同乘關(guān)系:指乘坐同一航班的旅客關(guān)系,包括碰巧同乘關(guān)系和約定同乘關(guān)系。一次同乘關(guān)系包括該次同乘的航班起飛日期、旅客座位距離、值機(jī)序號(hào)距離、艙位等級(jí)差等屬性。

據(jù)離港數(shù)據(jù)構(gòu)建全體旅客的同乘關(guān)系,用Dij表示旅客i和旅客j的同乘關(guān)系序列,Dij[k]={|[dci[k]|,|dseat[k]|,|dclass[k]|,td[k]}是序列中的第k項(xiàng)紀(jì)錄,表示旅客i和旅客j第k次同乘時(shí)的航班數(shù)據(jù),td[k]為該航班起飛日期,dci[k]為旅客i和旅客j的值機(jī)序號(hào)距離,dseat[k]為旅客i和旅客j航班座位的歐氏距離,dclass[k]為旅客i和旅客j的艙位等級(jí)差。

(6)

(7)

2.2.3 融入時(shí)間因素的多關(guān)系綜合評(píng)價(jià)

旅客價(jià)值按照邊權(quán)不均勻傳遞,旅客關(guān)系越親密邊權(quán)越大則獲得的傳遞價(jià)值越大,因此邊權(quán)計(jì)算的科學(xué)性、準(zhǔn)確性直接影響旅客價(jià)值度量結(jié)果。

RFM模型根據(jù)顧客消費(fèi)近度系數(shù)R預(yù)測(cè)顧客再次消費(fèi)的可能性。同樣,對(duì)于民航旅客,本文認(rèn)為旅客關(guān)系也具有時(shí)間相關(guān)性:最近同行過的旅客,再次同行的可能性更大,關(guān)系更親密;相反,即使曾經(jīng)同行多次,但近兩年都沒有同行記錄,也要考慮是否該旅客關(guān)系已經(jīng)消失?;谝陨峡紤],設(shè)定觀測(cè)時(shí)間窗口,觀察時(shí)間窗口內(nèi)的旅客關(guān)系,引入時(shí)間衰減因子τ,使得旅客關(guān)系具有時(shí)間感知性。

假設(shè)旅客旅客i和旅客j最后一次同訂單(或同乘)時(shí)間為t,則旅客i和旅客j同訂單(或同乘)關(guān)系的時(shí)間衰減因子τ可表示為

(8)

式中:T-t′為觀測(cè)時(shí)間窗口的長(zhǎng)度;T為時(shí)間窗口的結(jié)束時(shí)間;t′為時(shí)間窗口的起始時(shí)間。t≤t′表示在觀測(cè)時(shí)間窗口內(nèi)旅客未發(fā)生同訂單(或同乘)關(guān)系,則認(rèn)為該關(guān)系消失,令τ=0。

引入時(shí)間衰減因子后,旅客同訂單關(guān)系得分可表示為式(9),旅客同乘關(guān)系得分為式(10):

(9)

(10)

式中:τPij為旅客i和旅客j同訂單關(guān)系的時(shí)間衰減因子;τDij為旅客i和旅客j同乘關(guān)系的時(shí)間衰減因子。

將旅客同乘關(guān)系得分和同訂單關(guān)系得分規(guī)范化后加權(quán)求和,獲得旅客關(guān)系總得分。計(jì)算公式為

(11)

式中:Wij為旅客i和旅客j的關(guān)系總得分;ωp、ωd分別為同訂單關(guān)系權(quán)重、同乘關(guān)系權(quán)重,ωp<ωd。

2.3 CAPV-Rank算法設(shè)計(jì)

2.3.1 傳統(tǒng)PageRank算法

有個(gè)成語叫狡兔三窟,那是指動(dòng)物們。現(xiàn)代某些貪官,狡猾地常愛玩腳踏兩只船的伎倆。他們的攀援術(shù)是誰有用就依附誰,多頭出擊。他們認(rèn)為,“腳踏兩只船”是一種生存之道。如果只會(huì)死心塌地地踏著一條船劃著一支槳獨(dú)行于風(fēng)雨之中,實(shí)在是有些“虛度了豐富多彩的人生”。這些人,生活的理念是,寶貴的生命可不能在一棵樹上吊死。在一艘船里葬身,那多虧!所以,他們的生存之道是,多給自己留條后路,多踩幾條船才會(huì)無后顧之憂,哪條船更穩(wěn)上哪條,不損毫發(fā),何樂而不為?

在Web圖模型中,網(wǎng)頁為節(jié)點(diǎn),網(wǎng)頁間的鏈接關(guān)系為邊,節(jié)點(diǎn)得分即表示網(wǎng)頁重要性。節(jié)點(diǎn)得分通過邊向鄰居節(jié)點(diǎn)傳遞,節(jié)點(diǎn)i的得分等于其從鄰居節(jié)點(diǎn)獲得的得分總和,表達(dá)式為

(12)

式中:ri為節(jié)點(diǎn)i的得分;N(i)為節(jié)點(diǎn)i的鄰居節(jié)點(diǎn);O(j)為節(jié)點(diǎn)j的出度。

為了解決懸掛節(jié)點(diǎn),引入阻尼系數(shù)α,加入虛鏈路使節(jié)點(diǎn)得分不僅可以從鄰居節(jié)點(diǎn)沿實(shí)際鏈路傳遞獲得,還可以從任意節(jié)點(diǎn)沿虛鏈路傳遞獲得,節(jié)點(diǎn)i得分表達(dá)式為

(13)

式中:α為阻尼系數(shù),表示節(jié)點(diǎn)沿實(shí)際鏈路繼續(xù)傳遞的概率;1-α為沿虛鏈路隨機(jī)跳轉(zhuǎn)概率;N為網(wǎng)頁數(shù)量。

推廣至所有節(jié)點(diǎn),節(jié)點(diǎn)得分向量計(jì)算公式為

(14)

2.3.2 CAPV-Rank算法

1) 引入旅客價(jià)值轉(zhuǎn)移概率矩陣M

(15)

式中:N(i)為節(jié)點(diǎn)i的鄰居節(jié)點(diǎn)集。由式(15)可知Mij≠M(fèi)ji,這是因?yàn)殡m然Wij=Wji,但旅客i和旅客j自身的社交關(guān)系不同,該組關(guān)系在各自社交關(guān)系中所占的比重不同,因此轉(zhuǎn)移概率不同。

2) 引入個(gè)性化轉(zhuǎn)移向量U

在民航旅客社交關(guān)系網(wǎng)絡(luò)G中,V為通過RFMc模型計(jì)算得到的旅客個(gè)體價(jià)值集合,vi表示旅客i的個(gè)體價(jià)值,定義旅客個(gè)性化轉(zhuǎn)移向量為U=[u1u2…un],n為旅客數(shù)量,ui為旅客i的個(gè)性化轉(zhuǎn)移概率,表達(dá)式為

(16)

傳統(tǒng)PageRank算法中所有節(jié)點(diǎn)得分和為1,由于旅客數(shù)為千萬量級(jí),旅客價(jià)值規(guī)范化和為1會(huì)導(dǎo)致各旅客價(jià)值極小,不利于收斂性的判定,因此將旅客價(jià)值總和初始化為n。

3) 融合旅客個(gè)體價(jià)值和社交關(guān)系計(jì)算旅客i的價(jià)值得分ri為

(17)

式中:阻尼系數(shù)α用來調(diào)整社交關(guān)系和旅客個(gè)體價(jià)值對(duì)旅客價(jià)值度量的影響程度,0≤α≤1。

4) 推廣至全旅客集,融合旅客個(gè)體價(jià)值和社交關(guān)系計(jì)算旅客價(jià)值得分向量,即

(18)

設(shè)置迭代終止條件為

‖Ri+1-Ri‖2≤ε

PageRank算法收斂性已得到證明,CAPV-Rank算法只是基于PageRank算法做了參數(shù)調(diào)整,顯然也是收斂的。無論賦予怎樣的初值,最終R會(huì)趨于一個(gè)穩(wěn)定值,即為旅客價(jià)值。

3 網(wǎng)絡(luò)模型構(gòu)建中的問題和算法討論

3.1 旅客身份識(shí)別

由于PNR和離港數(shù)據(jù)中旅客證件信息龐雜,同一旅客每次乘機(jī)可能使用不同的證件信息。為了準(zhǔn)確計(jì)算旅客個(gè)體價(jià)值和評(píng)價(jià)旅客關(guān)系,旅客身份識(shí)別成為網(wǎng)絡(luò)模型構(gòu)建中首要解決的關(guān)鍵問題。

本文將PNR數(shù)據(jù)進(jìn)行數(shù)據(jù)關(guān)聯(lián)和身份聚合,構(gòu)建旅客證件信息列表,添加旅客序列號(hào)PSG_ID作為旅客的唯一標(biāo)識(shí),如表1所示。

其中旅客序列號(hào)[1,2,3,…,n]是旅客的唯一標(biāo)識(shí),證件號(hào)均進(jìn)行過加密處理。由表1可知,旅客1對(duì)應(yīng)3種證件類型和3個(gè)證件號(hào)。

表1 旅客證件信息列表樣例Table 1 Example of passenger document information

3.2 旅客關(guān)系識(shí)別

3.2.1 刪除假隱式關(guān)系

由于旅客隱式同乘關(guān)系有的特征明顯,例如值機(jī)序號(hào)相連且座位相鄰,據(jù)此可以判斷這兩位乘客可能是約定的同乘關(guān)系,具有一定的社會(huì)關(guān)系;有的隱秘不易被發(fā)現(xiàn),例如雖然同乘時(shí)座位和值機(jī)序號(hào)不都相鄰,但是同乘多次,據(jù)此也可判斷乘客之間有一定的社會(huì)關(guān)系;還有些旅客同乘關(guān)系僅有一次,且該次同乘中座位號(hào)或值機(jī)序號(hào)不都相鄰,本文認(rèn)為這種情況極可能是碰巧同乘而旅客雙方并不存在社會(huì)關(guān)系。

因此,結(jié)合構(gòu)建好的旅客同乘關(guān)系和同訂單關(guān)系,若兩位旅客不存在同訂單關(guān)系,同乘關(guān)系僅有一次且該次同乘值機(jī)序號(hào)和座位號(hào)不都相鄰,則將這兩位旅客視為碰巧同乘并將二者之間的同乘關(guān)系刪除。

3.2.2 保護(hù)真實(shí)旅客關(guān)系

有些多于兩人的小團(tuán)體出行,內(nèi)部成員不可能兩兩都座位相鄰、值機(jī)序號(hào)相鄰,但其存在一定的社會(huì)關(guān)系,為保護(hù)這些真實(shí)旅客關(guān)系不被誤認(rèn)為假隱式關(guān)系,需要在構(gòu)建旅客同乘關(guān)系時(shí),首先識(shí)別離港數(shù)據(jù)中的同行小團(tuán)體,并將團(tuán)體內(nèi)部成員之間的所有同乘關(guān)系均設(shè)置為值機(jī)序號(hào)相鄰且座位相鄰。

3.3 模型中的參數(shù)設(shè)置

對(duì)于式(4)中RFMc指標(biāo)權(quán)重的分配問題,由于行業(yè)背景不同、對(duì)客戶的關(guān)注層面不同,因而沒有統(tǒng)一的分配方案。在民航背景下,旅客個(gè)體價(jià)值體現(xiàn)在旅客對(duì)于民航利潤(rùn)的貢獻(xiàn)值,而旅客相對(duì)乘機(jī)金額MC是旅客實(shí)際消費(fèi)貢獻(xiàn)值的直觀體現(xiàn),對(duì)民航收益影響最大;其次,旅客乘機(jī)頻率F反映了旅客的活躍度和忠誠(chéng)度,是旅客價(jià)值度量需要考慮的重要因素;最后,綜合旅客消費(fèi)近度系數(shù)R和旅客平均周轉(zhuǎn)時(shí)間可以預(yù)測(cè)旅客再次乘機(jī)的概率。因此在民航旅客個(gè)體價(jià)值計(jì)算的權(quán)重分配中,應(yīng)遵循值度最重、頻度次之、近度最次的原則。

對(duì)于式(8),本文將時(shí)間窗口長(zhǎng)度設(shè)為兩年,表示若旅客在最近兩年內(nèi)沒有發(fā)生同乘(或同訂單)關(guān)系,則認(rèn)為旅客關(guān)系消失,將曾經(jīng)積累的關(guān)系清零。例如:在2016年5月1日使用本模型評(píng)價(jià)旅客關(guān)系,設(shè)定時(shí)間窗口為兩年,則時(shí)間窗口結(jié)束時(shí)間T為2016-05-01,起始時(shí)間t′為2014-05-01。若旅客i和旅客j最后一次同訂單(或同乘)時(shí)間為2015年5月1日,則t=2015-05-01,計(jì)算可得τ=365/730=0.5,若t≤t′,表示旅客在觀測(cè)時(shí)間窗口內(nèi)沒有發(fā)生同訂單(或同乘)關(guān)系,即令τ=0。由于本文使用的訓(xùn)練數(shù)據(jù)集為一年的數(shù)據(jù),時(shí)間窗口設(shè)為2年,因此τ值均大于0.5。實(shí)際應(yīng)用中,時(shí)間窗口的長(zhǎng)度可視情況而定。

3.4 CAPV-Rank算法討論

CAPV-Rank算法既可用來進(jìn)行多模式下的旅客價(jià)值度量,又可用來預(yù)測(cè)旅客未來價(jià)值的變化趨勢(shì),挖掘潛在高價(jià)值旅客。

3.4.1 旅客價(jià)值度量

旅客價(jià)值度量幫助航空公司進(jìn)行旅客管理并制定各種營(yíng)銷策略,基于不同的業(yè)務(wù)需要,旅客價(jià)值度量的出發(fā)點(diǎn)和立足點(diǎn)不同,則度量標(biāo)準(zhǔn)不同。

CAPV-Rank算法可以通過調(diào)節(jié)α權(quán)重因子,靈活調(diào)整旅客個(gè)體價(jià)值和社交關(guān)系對(duì)旅客價(jià)值度量的影響系數(shù):

1) 當(dāng)α=0時(shí),Ri+1=αMRi+(1-α)U=U,忽略了社交關(guān)系對(duì)旅客價(jià)值的影響,僅通過RFMc模型分析旅客個(gè)體實(shí)際消費(fèi)情況來度量旅客價(jià)值。與傳統(tǒng)RFM相比,RFMc模型考慮了艙位等級(jí)不同而帶給航空公司不同的利潤(rùn)價(jià)值,更適用于民航背景下的旅客價(jià)值計(jì)算。

2) 當(dāng)α=1時(shí),Ri+1=αMRi+(1-α)U=MRi,忽略了旅客個(gè)體價(jià)值,僅根據(jù)旅客之間的社交關(guān)系采用改進(jìn)的PageRank算法模型衡量旅客價(jià)值。與傳統(tǒng)帶權(quán)PageRank算法不同的是,本文構(gòu)建旅客社交網(wǎng)絡(luò)時(shí),分析了PNR數(shù)據(jù)和離港數(shù)據(jù)雙數(shù)據(jù)源,對(duì)旅客關(guān)系挖掘得更徹底進(jìn)而價(jià)值度量更全面。

3) 當(dāng)0<α<1時(shí),Ri+1=αMRi+(1-α)U,是融合了旅客個(gè)體價(jià)值和社交關(guān)系的混合度量方法,真正將個(gè)體價(jià)值融入社交關(guān)系網(wǎng)絡(luò)并使其參與到旅客價(jià)值迭代計(jì)算的過程中,對(duì)旅客價(jià)值度量更全面,且通過α動(dòng)態(tài)調(diào)整旅客個(gè)體價(jià)值和社交關(guān)系的權(quán)重,滿足多變的業(yè)務(wù)需求。

3.4.2 旅客價(jià)值預(yù)測(cè)

1) 預(yù)測(cè)旅客個(gè)體價(jià)值,挖掘潛在高價(jià)值旅客

CAPV-Rank算法認(rèn)為旅客價(jià)值受其所在社交網(wǎng)絡(luò)的影響,當(dāng)前價(jià)值較低的旅客與高價(jià)值旅客聯(lián)系越緊密,消費(fèi)潛力越大,未來成為高價(jià)值旅客的概率越大,因此根據(jù)旅客當(dāng)前個(gè)體價(jià)值和社交關(guān)系預(yù)測(cè)旅客未來個(gè)體價(jià)值,通過參數(shù)α控制社交關(guān)系對(duì)旅客價(jià)值的影響系數(shù),根據(jù)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)尋求最佳的α,使其達(dá)到較好的預(yù)測(cè)效果。

根據(jù)參數(shù)確定后的式(18)計(jì)算得到旅客個(gè)體價(jià)值的預(yù)測(cè)結(jié)果為Rn×1=[r1r2…rn]T,Un×1=[u1u2…un]T為旅客當(dāng)前個(gè)體價(jià)值,則旅客的潛在價(jià)值向量Tn×1為

Tn×1=Rn×1-Un×1

(19)

從Tn×1中選擇最大的前k個(gè)值,即為潛在價(jià)值最大的k個(gè)旅客。

2) 預(yù)測(cè)旅客價(jià)值相對(duì)生長(zhǎng)速度

旅客價(jià)值相對(duì)生長(zhǎng)速度是旅客增加的價(jià)值和原有價(jià)值的比值,當(dāng)前個(gè)體價(jià)值越小而潛在價(jià)值越大,潛在價(jià)值相對(duì)生長(zhǎng)速度越快。定義旅客潛在價(jià)值相對(duì)生長(zhǎng)速度為RT,表達(dá)式為

(20)

從RT中選擇最大的前k個(gè)值,即為相對(duì)生長(zhǎng)速度最快的k個(gè)旅客。與旅客潛在價(jià)值預(yù)測(cè)相比,預(yù)測(cè)旅客相對(duì)生長(zhǎng)速度,更有助于發(fā)現(xiàn)當(dāng)前價(jià)值很小而潛在價(jià)值相對(duì)較大的旅客。

4 實(shí)驗(yàn)與分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)用到的數(shù)據(jù)來自于民航訂座系統(tǒng)中2015、2016年旅客訂票(PNR)數(shù)據(jù)和離港(Departure)數(shù)據(jù),其中PNR數(shù)據(jù)集中每一行是一個(gè)旅客關(guān)于某次行程的訂票記錄,Departure數(shù)據(jù)集中每一行是一個(gè)旅客關(guān)于某次行程的離港記錄??紤]到本文提出的旅客價(jià)值度量模型依賴于旅客真實(shí)的社交關(guān)系網(wǎng)絡(luò),對(duì)網(wǎng)絡(luò)的完整性要求較高,因此以中國(guó)某航空公司為研究目標(biāo),從訂座系統(tǒng)的全數(shù)據(jù)集中提取出該航空公司2015、2016兩年都有乘機(jī)記錄的全旅客出行數(shù)據(jù)集,該數(shù)據(jù)集共有旅客2千多萬名,旅客出行記錄1.6億多條,其中2015年7千多萬條,2016年8千多萬條。

共生成3個(gè)數(shù)據(jù)集:D1(2015年全旅客出行數(shù)據(jù)集),D2(2016年全旅客出行數(shù)據(jù)集),D3(2015和2016兩年的全旅客出行數(shù)據(jù)集)。

根據(jù)3.1節(jié)構(gòu)建的旅客證件信息列表,將數(shù)據(jù)集中的旅客證件號(hào)替換為對(duì)應(yīng)的旅客序列號(hào)PSG_ID,作為旅客的唯一標(biāo)識(shí)。同時(shí),為方便計(jì)算旅客個(gè)體價(jià)值,將數(shù)據(jù)集中的艙位等級(jí)代碼替換為各代碼對(duì)應(yīng)的票價(jià)折扣,其中頭等艙票價(jià)為全價(jià)的1.5倍,公務(wù)艙票價(jià)為全價(jià)的1.3倍,超級(jí)經(jīng)濟(jì)艙票價(jià)等于全價(jià)的1倍,其他普通經(jīng)濟(jì)艙為全價(jià)的0.95~0.25倍不等。

4.2 基準(zhǔn)算法

1) RFMc模型。根據(jù)旅客歷史消費(fèi)記錄,獲得旅客乘機(jī)時(shí)間近度系數(shù)R、乘機(jī)頻率F和消費(fèi)金額M度量旅客價(jià)值。

2) 加權(quán)PageRank算法。分析PNR數(shù)據(jù),根據(jù)旅客歷史訂單構(gòu)建旅客同行關(guān)系網(wǎng)絡(luò),將旅客同訂單次數(shù)作為邊權(quán)重,使用加權(quán)PageRank算法度量旅客價(jià)值。

3) Passenger Rank算法[7]。該算法分為兩個(gè)獨(dú)立過程:使用RFMc模型計(jì)算旅客價(jià)值,將獨(dú)飛次數(shù)占乘機(jī)總次數(shù)的比例與旅客價(jià)值相乘作為旅客個(gè)體價(jià)值;使用加權(quán)PageRank算法計(jì)算旅客網(wǎng)絡(luò)價(jià)值,最后將兩部分加權(quán)求和得到旅客總價(jià)值。

Passenger Rank算法使用RFM算法與加權(quán)PageRank分別單獨(dú)計(jì)算旅客個(gè)體價(jià)值與網(wǎng)絡(luò)價(jià)值再求和,在計(jì)算旅客個(gè)體價(jià)值和網(wǎng)絡(luò)價(jià)值時(shí)都具有局限性:首先,旅客個(gè)體價(jià)值是旅客個(gè)體消費(fèi)帶給航空公司的利潤(rùn)價(jià)值,因此無論是旅客獨(dú)飛還是與他人同行,旅客本身花費(fèi)的機(jī)票價(jià)格都應(yīng)該歸為其個(gè)體價(jià)值;其次,不同于其他行業(yè),不同艙位等級(jí)為航空公司帶來較大的利潤(rùn)差異,也體現(xiàn)了旅客不同的消費(fèi)水平,因此也應(yīng)該作為旅客個(gè)體價(jià)值的衡量標(biāo)準(zhǔn)之一;最后,計(jì)算旅客網(wǎng)絡(luò)價(jià)值時(shí),不僅應(yīng)該考慮旅客關(guān)系的強(qiáng)弱,還要考慮旅客因個(gè)體消費(fèi)水平不同對(duì)網(wǎng)絡(luò)的影響力也截然不同。

4) 隨機(jī)游走算法。隨機(jī)游走算法通過分析旅客個(gè)體出行數(shù)據(jù),構(gòu)建旅客-航線二部圖網(wǎng)絡(luò),再使用隨機(jī)游走模型預(yù)測(cè)旅客未來可能選擇的航線,最后根據(jù)航線價(jià)值預(yù)測(cè)旅客未來價(jià)值。

4.3 算法功能分析和實(shí)驗(yàn)設(shè)計(jì)

CAPV-Rank算法融合了旅客當(dāng)前個(gè)體價(jià)值和社交關(guān)系,既可用于旅客價(jià)值度量又可進(jìn)行旅客個(gè)體價(jià)值預(yù)測(cè):① 進(jìn)行旅客價(jià)值度量時(shí),參數(shù)α控制旅客個(gè)體價(jià)值和社交關(guān)系對(duì)于旅客價(jià)值度量的權(quán)重分配,參數(shù)α的設(shè)置主要依托于具體的業(yè)務(wù)背景和目的,可以根據(jù)需要進(jìn)行調(diào)整;② 進(jìn)行旅客個(gè)體價(jià)值預(yù)測(cè)時(shí),參數(shù)α協(xié)調(diào)旅客個(gè)體消費(fèi)的穩(wěn)定性和社交關(guān)系對(duì)旅客價(jià)值的影響,可以根據(jù)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)尋求最佳的α,以達(dá)到更好的預(yù)測(cè)效果。

4.3.1 對(duì)旅客價(jià)值的度量

由于旅客價(jià)值是不確定的概念,且在不同的業(yè)務(wù)需求、業(yè)務(wù)背景下,由于出發(fā)點(diǎn)和立足點(diǎn)不同,對(duì)旅客價(jià)值的度量標(biāo)準(zhǔn)也不同,因此很難直接證明本文提出的CAPV-Rank算法對(duì)旅客價(jià)值度量的準(zhǔn)確性優(yōu)于其他算法,但就算法靈活性和穩(wěn)定性而言,CAPV-Rank算法明顯優(yōu)于其他算法。

1) 算法靈活性

當(dāng)前業(yè)界對(duì)民航旅客價(jià)值的研究主要有旅客個(gè)體價(jià)值度量和網(wǎng)絡(luò)價(jià)值度量。與傳統(tǒng)度量方法不同的是,CAPV-Rank算法可以通過調(diào)節(jié)參數(shù)α,實(shí)現(xiàn)多種旅客價(jià)值度量模式,如3.3.1節(jié)所述,在α=0時(shí)實(shí)現(xiàn)旅客個(gè)體價(jià)值度量,在α=1時(shí)實(shí)現(xiàn)旅客網(wǎng)絡(luò)價(jià)值度量,在0<α<1時(shí)實(shí)現(xiàn)融合旅客個(gè)體價(jià)值和社交關(guān)系的混合價(jià)值度量,且在各種模式下,都優(yōu)于現(xiàn)有算法。

2) 混合價(jià)值度量的穩(wěn)定性

僅根據(jù)旅客實(shí)際個(gè)體消費(fèi)數(shù)據(jù)計(jì)算旅客個(gè)體價(jià)值具有滯后性,且由于旅客短期消費(fèi)不穩(wěn)定,使得旅客價(jià)值計(jì)算結(jié)果穩(wěn)定性較差;而融合了旅客個(gè)體消費(fèi)水平和社交關(guān)系的總體價(jià)值,在事實(shí)消費(fèi)數(shù)據(jù)的基礎(chǔ)上結(jié)合旅客社交關(guān)系綜合度量旅客價(jià)值,社交關(guān)系的影響減弱了旅客個(gè)體短期不穩(wěn)定消費(fèi)對(duì)旅客價(jià)值度量的影響,因而對(duì)旅客價(jià)值度量穩(wěn)定性更好。

綜上,在旅客價(jià)值度量方面主要檢驗(yàn):① 參數(shù)α對(duì)旅客價(jià)值度量結(jié)果的影響;② CAPV-Rank算法的穩(wěn)定性與其他基準(zhǔn)算法的穩(wěn)定性比較。

4.3.2 對(duì)旅客個(gè)體價(jià)值的預(yù)測(cè)

1) 混合算法具有前瞻性,可以根據(jù)旅客當(dāng)前個(gè)體價(jià)值和旅客社交關(guān)系預(yù)測(cè)旅客未來個(gè)體價(jià)值,α為進(jìn)行旅客個(gè)體價(jià)值預(yù)測(cè)時(shí),旅客受社交關(guān)系的影響系數(shù),也可以稱為旅客向鄰居旅客學(xué)習(xí)的步長(zhǎng)因子,α越大,社交網(wǎng)絡(luò)對(duì)旅客價(jià)值預(yù)測(cè)結(jié)果影響越大。

2) 根據(jù)旅客個(gè)體價(jià)值的預(yù)測(cè)結(jié)果,挖掘潛在高價(jià)值旅客和高生長(zhǎng)速度旅客。

因此,對(duì)旅客價(jià)值預(yù)測(cè)主要檢驗(yàn):① 參數(shù)α對(duì)旅客個(gè)體價(jià)值預(yù)測(cè)準(zhǔn)確性的影響;② 算法對(duì)潛在高價(jià)值旅客挖掘和高生長(zhǎng)速度旅客發(fā)現(xiàn)的準(zhǔn)確性與基準(zhǔn)算法的比較。

4.4 算法評(píng)價(jià)指標(biāo)

本文采用Spearman等級(jí)相關(guān)系數(shù)作為旅客價(jià)值度量穩(wěn)定性和旅客個(gè)體價(jià)值預(yù)測(cè)準(zhǔn)確性的評(píng)價(jià)指標(biāo),采用Jaccard相似系數(shù)作為潛在高價(jià)值旅客挖掘和潛在高生長(zhǎng)速度旅客發(fā)現(xiàn)的準(zhǔn)確性評(píng)價(jià)指標(biāo)。

4.4.1 Spearman等級(jí)相關(guān)系數(shù)

Spearman等級(jí)相關(guān)系數(shù)用來估計(jì)兩個(gè)變量X、Y之間的相關(guān)性,如果兩個(gè)變量取值的兩個(gè)集合中均不存在相同的兩個(gè)元素,那么當(dāng)其中一個(gè)變量可以表示為另一個(gè)變量的很好的單調(diào)函數(shù)時(shí),兩個(gè)變量之間的相關(guān)系數(shù)可以達(dá)到+1或-1。

斯皮爾曼等級(jí)相關(guān)系數(shù)f計(jì)算公式為

(21)

本實(shí)驗(yàn)中的Xrank為待檢驗(yàn)算法(基準(zhǔn)算法或者不同α下的CAPV-Rank算法)在數(shù)據(jù)集D1上計(jì)算的旅客價(jià)值向量R1的排序結(jié)果向量,其中Xrank i為第i個(gè)旅客價(jià)值在Xrank中的排名。Yrank在進(jìn)行不同實(shí)驗(yàn)時(shí),分別為:① 進(jìn)行α因子的影響檢驗(yàn)時(shí),Yrank為不同α下的CPAV-Rank算法在數(shù)據(jù)集D1上計(jì)算的旅客價(jià)值向量R1的排序結(jié)果向量;② 進(jìn)行算法穩(wěn)定性檢驗(yàn)時(shí),Yrank為待檢驗(yàn)算法在數(shù)據(jù)集D3上計(jì)算的旅客價(jià)值向量R3的排序結(jié)果向量;③ 進(jìn)行旅客個(gè)體價(jià)值預(yù)測(cè)的準(zhǔn)確性檢驗(yàn)時(shí),Yrank為待檢驗(yàn)算法數(shù)據(jù)集D2上計(jì)算得到旅客個(gè)體價(jià)值向量U2的排序向量。其中Yrank i為第i個(gè)旅客價(jià)值在Yrank中的排名。

Spearman等級(jí)相關(guān)系數(shù)越大,說明采用該算法在兩個(gè)數(shù)據(jù)集上計(jì)算結(jié)果的相關(guān)性越大,算法穩(wěn)定性越好,對(duì)旅客個(gè)體價(jià)值預(yù)測(cè)越準(zhǔn)確。

4.4.2 Jaccard相似系數(shù)

Jaccard相似系數(shù)核心思想是計(jì)算兩個(gè)集合A和B的交集元素在A,B的并集中所占的比例,用符號(hào)J(A,B)表示。其具體定義為

(22)

本實(shí)驗(yàn)中集合A是指由待檢驗(yàn)算法在數(shù)據(jù)集D1上輸出的旅客潛在價(jià)值列表T(或相對(duì)生長(zhǎng)速度列表RT)中潛在價(jià)值(或相對(duì)生長(zhǎng)速度)最大的k個(gè)旅客,而集合B是在數(shù)據(jù)集D1和D2上計(jì)算旅客價(jià)值U1和U2,獲得旅客實(shí)際個(gè)體價(jià)值變化UG=U2-U1(或旅客實(shí)際相對(duì)生長(zhǎng)速度向量UG/U1),取出值最大的k個(gè)旅客生成的集合。

J(A,B)越大(最大值為1)表示集合A與集合B相同的元素越多,也即算法預(yù)測(cè)準(zhǔn)確性越好。

4.5 實(shí)驗(yàn)與結(jié)果分析

實(shí)驗(yàn)共分為兩部分:① 檢驗(yàn)參數(shù)α對(duì)算法性能的影響;② 比較本文提出的算法與基準(zhǔn)算法在旅客價(jià)值度量方面的穩(wěn)定性和預(yù)測(cè)的準(zhǔn)確性。

4.5.1 參數(shù)α對(duì)算法性能的影響

1) 對(duì)旅客價(jià)值度量結(jié)果的影響

令α=(0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1)計(jì)算旅客價(jià)值,并與使用RFMc模型得到的旅客價(jià)值做Spearman等級(jí)相關(guān)性分析,結(jié)果見圖1。

當(dāng)α=0時(shí),R=U,與通過RFMc模型計(jì)算旅客個(gè)體價(jià)值結(jié)果相等,故相關(guān)性為1。隨著α的增加,CAPV-Rank算法與RFMc算法計(jì)算結(jié)果相關(guān)性逐漸減弱。

圖1 α因子對(duì)計(jì)算結(jié)果的影響Fig.1 Influence of α on calculation result

2) 對(duì)預(yù)測(cè)結(jié)果準(zhǔn)確性的影響

在不同α下使用CAPV-Rank算法計(jì)算旅客個(gè)體價(jià)值,并與第2年旅客真實(shí)個(gè)體價(jià)值做Spearman等級(jí)相關(guān)性分析,結(jié)果見圖2。

由圖2可以看出當(dāng)α=0.4時(shí),CAPV-Rank算法在旅客個(gè)體價(jià)值預(yù)測(cè)效果最好,因此令α=0.4,在實(shí)際應(yīng)用中,為達(dá)到最佳的預(yù)測(cè)效果,可以進(jìn)行更細(xì)致的參數(shù)尋優(yōu)。

4.5.2 與基準(zhǔn)算法的比較

1) 旅客價(jià)值度量

分別采用α=0.4下的CAPV-Rank算法、Passenger Rank算法[7]、加權(quán)PageRank算法和RFM模型在數(shù)據(jù)集D1和數(shù)據(jù)集D3上進(jìn)行民航旅客價(jià)值計(jì)算,將計(jì)算結(jié)果進(jìn)行Spearman等級(jí)相關(guān)性分析,Spearman等級(jí)相關(guān)系數(shù)越大,對(duì)旅客價(jià)值度量的穩(wěn)定性越好,結(jié)果見表2。

圖2 不同α下預(yù)測(cè)結(jié)果的準(zhǔn)確性Fig.2 Accuracy of the prediction with different α

表2 度量結(jié)果的穩(wěn)定性Table 2 Stability of measurement results

算法Spearman等級(jí)相關(guān)系數(shù)CAPV-Rank算法(α=0.4)0.822PassengerRank算法0.781加權(quán)PageRank算法0.544RFM模型0.693

2) 旅客個(gè)體價(jià)值預(yù)測(cè)

分別將采用α=0.4下的CAPV-Rank算法、Passenger Rank算法[7]、加權(quán)PageRank算法和RFM模型在數(shù)據(jù)集D1上進(jìn)行旅客個(gè)體價(jià)值計(jì)算的結(jié)果與在數(shù)據(jù)集D2采用各自算法計(jì)算的旅客個(gè)體價(jià)值結(jié)果進(jìn)行Spearman等級(jí)相關(guān)性分析,Spearman等級(jí)相關(guān)系數(shù)越大,對(duì)旅客個(gè)體價(jià)值預(yù)測(cè)的準(zhǔn)確性越好,結(jié)果見表3。

隨機(jī)游走算法[6]建立旅客-航線二部圖網(wǎng)絡(luò),通過預(yù)測(cè)旅客未來可能選擇的航線來計(jì)算旅客潛在價(jià)值,該算法只考慮旅客與航線的關(guān)系,忽略了同行旅客之間的相互影響,而且由于絕大多數(shù)旅客出行數(shù)據(jù)極少,導(dǎo)致預(yù)測(cè)準(zhǔn)確率較差。CAPV-Rank算法綜合考慮旅客個(gè)體消費(fèi)水平和同行旅客的影響,對(duì)旅客潛在價(jià)值具有更好的預(yù)測(cè)效果。

由表2和表3可以看出,CAPV-Rank算法與其他算法相比,度量穩(wěn)定性和預(yù)測(cè)準(zhǔn)確性更好。

表3 對(duì)旅客個(gè)體價(jià)值預(yù)測(cè)的準(zhǔn)確性Table 3 Accuracy of individual value prediction

3) 潛在高價(jià)值旅客挖掘

分別使用CAPV-Rank算法、隨機(jī)游走算法在數(shù)據(jù)集D1上計(jì)算旅客潛在價(jià)值,將計(jì)算結(jié)果與旅客真實(shí)價(jià)值變化結(jié)果作Jaccard相關(guān)性分析(k=2 000 000),結(jié)果見表4。

表4 潛在價(jià)值預(yù)測(cè)的準(zhǔn)確性Table 4 Accuracy of potential value prediction

4) 潛在高生長(zhǎng)速度旅客發(fā)現(xiàn)

分別使用CAPV-Rank算法、隨機(jī)游走算法在數(shù)據(jù)集D1上預(yù)測(cè)旅客價(jià)值相對(duì)生長(zhǎng)速度,將預(yù)測(cè)結(jié)果與旅客真實(shí)價(jià)值相對(duì)生長(zhǎng)速度結(jié)果作Jaccard相似性分析(k=2 000 000),結(jié)果見表5。

表5 相對(duì)生長(zhǎng)速度預(yù)測(cè)的準(zhǔn)確性Table 5 Accuracy of relative growth rate prediction

與潛在價(jià)值預(yù)測(cè)相比,潛在生長(zhǎng)速度預(yù)測(cè)有助于發(fā)現(xiàn)當(dāng)前旅客個(gè)體價(jià)值更小、潛在價(jià)值更大的旅客。隨機(jī)游走算法僅根據(jù)旅客個(gè)人消費(fèi)預(yù)測(cè)潛在價(jià)值,嚴(yán)重依賴于旅客個(gè)體消費(fèi)數(shù)據(jù),而個(gè)體價(jià)值更小的旅客出行數(shù)據(jù)更少,因此預(yù)測(cè)準(zhǔn)確性更差。CAPV-Rank算法構(gòu)建旅客社交關(guān)系網(wǎng)絡(luò),根據(jù)旅客真實(shí)社交關(guān)系預(yù)測(cè)旅客價(jià)值,解決了數(shù)據(jù)稀疏造成的預(yù)測(cè)準(zhǔn)確率低下的問題,在旅客價(jià)值預(yù)測(cè)、潛在高價(jià)值旅客挖掘和潛在高生長(zhǎng)速度旅客發(fā)現(xiàn)方面更準(zhǔn)確。

5 結(jié) 論

1) 本文提出的CAPV-Rank算法既可以實(shí)現(xiàn)旅客價(jià)值度量又可以預(yù)測(cè)旅客未來個(gè)體價(jià)值及挖掘潛在高價(jià)值旅客。

2) CAPV-Rank算法進(jìn)行旅客價(jià)值度量時(shí),可以根據(jù)不同需求和目的,動(dòng)態(tài)調(diào)整旅客個(gè)體價(jià)值和社交關(guān)系權(quán)重因子,實(shí)現(xiàn)旅客個(gè)體價(jià)值度量、旅客網(wǎng)絡(luò)價(jià)值度量、融合旅客個(gè)體屬性與社交關(guān)系的混合價(jià)值度量3種度量模式,適應(yīng)各種業(yè)務(wù)場(chǎng)景,滿足不同業(yè)務(wù)需求。

3) 進(jìn)行旅客個(gè)體價(jià)值計(jì)算時(shí),引入艙位等級(jí)C,將傳統(tǒng)RFM模型改進(jìn)為RFMc模型計(jì)算旅客個(gè)體價(jià)值,更適合民航背景下的旅客個(gè)體價(jià)值度量。

4) 進(jìn)行混合價(jià)值度量時(shí),CAPV-Rank算法在事實(shí)消費(fèi)數(shù)據(jù)的基礎(chǔ)上結(jié)合旅客社交關(guān)系綜合度量旅客價(jià)值,社交關(guān)系的加入克服了旅客個(gè)體短期不穩(wěn)定消費(fèi)對(duì)旅客價(jià)值度量的影響,因而對(duì)旅客價(jià)值度量穩(wěn)定性更好。

5) 進(jìn)行旅客價(jià)值預(yù)測(cè)和潛在高價(jià)值旅客發(fā)現(xiàn)時(shí),CAPV-Rank算法可以動(dòng)態(tài)調(diào)整因子,訓(xùn)練獲得使預(yù)測(cè)效果最佳的步長(zhǎng)因子α,有效預(yù)測(cè)旅客價(jià)值、挖掘潛在高價(jià)值旅客和高生長(zhǎng)速度旅客。

6) 本文深入挖掘多數(shù)據(jù)源中的旅客關(guān)系,構(gòu)建旅客顯隱式雙層關(guān)系網(wǎng)絡(luò),解決了非同訂單的旅客同乘關(guān)系易被忽略、真實(shí)旅客關(guān)系難以識(shí)別等問題,為今后旅客群體的分類、旅客社交關(guān)系識(shí)別及旅客行為偏好研究提供了新的解決思路。

[1] 馮霞, 徐冰宇, 盧敏. 民航旅客訂票行為細(xì)分及群體特征分析[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2015, 36(8): 2217-2222.

FENG X, XU B Y, LU M. Booking behavior subdivision and characteristic analysis of civil aviation passenger[J]. Computer Engineering and Design, 2015, 36(8): 2217-2222 (in Chinese).

[2] 潘玲玲. 基于旅客行為的航空旅客細(xì)分模型研究及其實(shí)現(xiàn)[D]. 南京: 南京航空航天大學(xué), 2012: 1-57.

PANG L L. The research and realization of civil aviation customer segmentation based on customer behavior[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2012: 1-57 (in Chinese).

[3] 林友芳, 王琨琨, 周超, 等. 基于社交網(wǎng)絡(luò)的民航旅客偏好建模[J]. 北京交通大學(xué)學(xué)報(bào), 2014, 38(6): 33-39

LIN Y F, WANG K K, ZHOU C, et al. Modeling the preference of air passengers based on social network[J]. Journal of Beijing Jiaotong University, 2014, 38(6): 33-39 (in Chinese).

[4] 王坤坤. 民航旅客座位偏好建模與應(yīng)用研究[D]. 北京: 北京交通大學(xué), 2015: 1-48.

WANG K K. Research of modeling the seat preference of civil aviation passengers and its applications[D]. Beijing: Beijing Jiaotong University, 2015: 1-48 (in Chinese).

[5] 曹衛(wèi)東, 白亮, 聶笑盈. 基于Map/Reduce的民航高價(jià)值旅客發(fā)現(xiàn)方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2015, 36(4): 1078-1083.

CAO W D, BAI L, NIE X Y. Method of discovering high-value passengers of civil aviation based on map/reduce[J]. Computer Engineering and Design, 2015, 36(4): 1078-1083 (in Chinese).

[6] FENG X, XU B Y, MIN L, et al. Potential high-value passengers discovery by random walk on passenger-route heterogeneous network[J]. Journal of Computational & Theoretical Nanoscience, 2015, 12(8): 1568-1593.

[7] 韓敏. 基于社會(huì)網(wǎng)絡(luò)的民航旅客價(jià)值排序算法研究與實(shí)現(xiàn)[D]. 北京: 北京交通大學(xué), 2014: 22-38.

HAN M. The research and implementation on ranking the aviation passengers’ values based on social network[D]. Beijing: Beijing Jiaotong University, 2014: 22-38 (in Chinese).

[8] 馮霞, 李勇, 陳卉敏. 民航旅客社會(huì)網(wǎng)絡(luò)構(gòu)建方法研究[J].計(jì)算機(jī)仿真, 2013, 30(6): 51-54, 142.

FENG X, LI Y, CHEN H M. Research on constructing social network of airline customers from data of PNR[J]. Computer Simulation, 2013, 30(6): 51-54,142 (in Chinese).

[9] HAVELIWALA T H. Topic-sensitive PageRank[C]∥International Conference on World Wide Web, 2002:517-526.

[10] KAMVAR S D, HAVELIWALA T H, MANNING C D, et al. Exploiting the block structure of the web for computing PageRank[R]. Palo Alto, San Francisco: Stanford University Technical Report, 2003: 1-13.

[11] YANG Z, TANG J, ZHANG J, et al. Topic-level random walk through probabilistic model[M]∥Advances in Data and Web Management. Berlin: Springer Berlin Heidelberg, 2009: 162-173.

[12] 朱凡微, 吳明暉, 應(yīng)晶. 高效個(gè)性化PageRank算法綜述[J]. 中國(guó)科技論文, 2012, 7(1): 7-13.

ZHU F W, WU M H, YING J. Efficient personalized PageRank computation: A survey[J]. China Sciencepaper, 2012, 7(1): 7-13 (in Chinese).

[13] ZHU F W, FANG Y, CHANG C C, et al. Scheduled approximation for personalized PageRank with utility-based hub selection[J]. The VLDB Journal, 2015, 24(5): 1-25.

[14] WEI W, GAO B, LIU T Y, et al. A ranking approach on large-scale graph with multidimensional heterogeneous information[J]. IEEE Transactions on Cybernetics, 2016, 46(4): 930.

[15] WAN X, XIAO J. Single document keyphrase extraction using neighborhood knowledge[C]∥National Conference on Artificial Intelligence, 2008: 855-860.

[16] LI D, LI S, LI W, et al. A semi-supervised key phrase extraction approach: learning from title phrases through a document semantic network[C]∥Proceedings of the, Meeting of the Association for Computational Linguistics, 2010: 296-300.

[17] SIDDIQI S, SHARAN A. Keyword and keyphrase extraction techniques: A literature review[J]. International Journal of Computer Applications, 2015, 109(2): 18-23.

[18] MIHALCEA R, TARAU P. TextRank: Bringing order into texts[J]. Unt Scholarly Works, 2004: 404-411.

[19] AMJAD T, DING Y, DAUD A, et al. Topic-based heterogeneous rank[J]. Scientometrics, 2015, 104(1): 1-22.

[20] DING Y. Topic-based PageRank on author cocitation networks[J]. Journal of the Association for Information Science and Technology, 2011, 62(3): 449-466.

猜你喜歡
度量旅客社交
有趣的度量
社交之城
英語世界(2023年6期)2023-06-30 06:28:28
社交牛人癥該怎么治
意林彩版(2022年2期)2022-05-03 10:25:08
模糊度量空間的強(qiáng)嵌入
非常旅客意見簿
社交距離
迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
你回避社交,真不是因?yàn)閮?nèi)向
文苑(2018年17期)2018-11-09 01:29:28
我是人
故事大王(2018年3期)2018-05-03 09:55:52
給小旅客的禮物
空中之家(2016年1期)2016-05-17 04:47:43
郁南县| 望江县| 黄平县| 康马县| 白山市| 苏尼特左旗| 西峡县| 策勒县| 北宁市| 丹江口市| 稷山县| 霞浦县| 吉木乃县| 封丘县| 南部县| 开远市| 甘孜县| 阿图什市| 苗栗市| 策勒县| 日土县| 万源市| 浦县| 肥城市| 漳浦县| 古交市| 岢岚县| 高台县| 随州市| 霍邱县| 涞水县| 延津县| 舟曲县| 景德镇市| 乌恰县| 鹤岗市| 徐闻县| 丰顺县| 封丘县| 南川市| 思南县|