国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向民航旅客同行特征提取與設計

2021-02-25 09:15:24邢澤文李忠虎
計算機工程與設計 2021年2期
關鍵詞:訂票艙位特征提取

徐 濤,邢澤文,盧 敏,李忠虎

(1.中國民航大學 計算機科學與技術學院,天津 300300;2.中國民航大學 中國民航信息技術科研基地,天津 300300;3.中國民航信息網絡股份有限公司 民航旅客服務智能化應用技術重點實驗室,北京 101318)

0 引 言

民航旅客同行關系描述兩名旅客是否發(fā)生共同訂票并乘坐相同航班的行為,是民航領域重要的社交關系,具有廣泛的應用,其中包括:①航空公司通過旅客同行關系可針對旅客共同出行需求進行精準的旅客出行偏好服務推薦和個性化定向服務;②機場通過同行旅客特征的提取,可獲得黑白名單中隨同出行的旅客名單,進而針對上述旅客開展有針對性的黑白名單分級安檢,提升安保服務效率。

為了更準確挖掘民航旅客同行關系,本文開展民航旅客同行特征抽取研究,旨在從旅客的訂票數據中抽取能夠刻畫兩名旅客共同出行的特征集合。其主要思想是:首先從大規(guī)模的民航旅客訂票記錄進行特征屬性分類并構建特征群,然后對同行旅客對之間各特征計算信息熵并進行相關性分析,提取旅客同行表現出強相關性的特征,最后細化設計同行旅客對的特征集合。實驗結果表明,本文所抽取的特征反映了不同強度的旅客同行關系,且利用特征向量對基礎分類器模型進行訓練預測,平均準確率高達0.91,驗證了該特征提取方法具有極高的適用性。

本文的主要貢獻是:①克服了因各同行旅客社區(qū)內的平均節(jié)點度為0.12,具有極強的稀疏性,使得傳統(tǒng)特征提取方法不適用的難題。在有限的數據字段中提取并特征,對后續(xù)的民航旅客同行網絡鏈接預測具有借鑒意義[1,2];②利用基礎分類器對各特征及特征集合進行訓練預測實驗,并得到較高的準確率,驗證了特征提取具有一定的適用價值。

1 相關工作

理論上,目前仍缺乏直接對民航同行旅客特征提取的研究文獻。針對特征提取的研究方向集中在文本特征[3,4]、圖像特征[5,6]、社交網站數據特征[7,8]等領域。在相關研究文獻中,通常將文本特征提取的分為Filter過濾式和Wrapper封裝式兩大類[9]。其原理是將高維度高冗余性的文本信息進行特征降維并分類,并選擇一個最優(yōu)特征子集。在圖像特征提取研究中,主要以圖像構成元素進行分類特征抽取,如顏色、形狀、紋理等。對于社交網站數據來說,不僅可以利用文本特征提取方法對網站數據熱度進行提取,在構建社交網絡用戶社區(qū)的基礎上,可針對其節(jié)點關系強度及節(jié)點相似度等網絡結構特征進行提取分析。然而這些方法難以應用于民航同行旅客特征提取工作中,原因是其相比文本和圖像來說,數據集呈散列性且字段較少,其特征提取方法在該問題下適用性極低;且民航同行旅客數據相比社交網站用戶數據,動態(tài)性較差,稀疏性極強,不適合使用相似度算法來對旅客之間的關系強度進行特征提取分析。

李志宇等提出一種大規(guī)模網絡中基于節(jié)點結構特征映射的鏈接預測方法[10],其利用網絡數據集序列化方法,將網絡節(jié)點的結構特征信息映射到一個連續(xù)的固定維度的實數向量并學習,計算節(jié)點相似度來進行網絡中的鏈接預測。Wan等提出了一個社會化網絡用戶關系強度計算模型,該研究使用了某社交網絡用戶數據,分別建立計算直接關系和間接關系的關系強度模型,預測用戶之間的社交關系。該兩種方法使用數據動態(tài)性極強,社交網站數據量大且容易獲取,成本小,噪聲數據容易處理,但關系可靠性差,與民航旅客數據相比差異較大,適用性較弱。

2 問題提出及分析

本文對近某年民航旅客訂票記錄(passenger name records,PNR)進行旅客同行關系統(tǒng)計。在原始的民航旅客訂票數據集中,每一條PNR擁有包括訂票號(PNRNBR)在內共17個屬性字段(表1)。將每條PNR的屬性字段進行篩選并分類為每對節(jié)點的3種信息特征群,即旅客個人信息特征群、航班信息特征群和旅客行為信息特征群。3種信息特征群包括的所有屬性字段定義見表2。

表1 民航旅客訂票記錄(PNR)字段描述及示例

表2 特征群分類及描述

其中,利用訂票號這一特征作為唯一標識與航班信息特征群將PNR分為具有同行關系旅客和非同行旅客。其中同一航班下同一訂單內的旅客之間為同行旅客,同一航班下不同訂單間的旅客為非同行旅客。需要說明的是,在同一趟航班下的所有旅客擁有相同的飛行旅程,而同一航班下不同訂單間的旅客可能存在未一起購票卻是同行的關系,也就是所謂的潛在同行關系。但對于所有非同一訂單間的旅客對集合下這種情況十分稀少。

本文對同行旅客間的旅客個人信息特征群及旅客行為信息特征群的各特征數據標準化,對各特征分類占比進行統(tǒng)計并計算其信息增益(表3)。由于身份證號字段本身屬于加密后數據,對其進行相關分析失去意義,故不對其進行分析

(1)

IG(T)=H(C)-H(C|T)

(2)

其中,利用式(1)計算信息熵H,式(2)計算信息增益;T表示各特征,本文中指旅客個人信息特征群及旅客行為信息特征群中的每一特征;C表示總聚類,在本文中指樣本空間中同行與非同行旅客對集合。

表3 同行旅客對各特征分類占比及信息增益(總信息熵:0.998)

根據表3結果直觀顯示,旅客個人信息特征群中各特征均有一定程度的信息增益,但性別特征的信息增益僅為0.003;而旅客行為信息特征群中各特征相對產生較大的信息增益,其中折扣率及艙位特征表現較為顯著。然而這種做法只是從統(tǒng)計學意義出發(fā)對特征進行選擇,由于民航旅客數據局限性勢必會降低某些具有真實意義的特征判斷,為此本文提出針對民航旅客同行特征進行提取設計及向量化,并建立基于民航旅客同行特征的關系預測分類器模型。

3 旅客同行特征提取及設計

在第2節(jié)中,本文提出將PNR原始數據進行同行旅客對篩選,在旅客兩兩同行數據的基礎上將其整合并數據標準化為旅客對原始特征提取并分類,計算信息熵和信息增量等參數來判斷原始特征提取的可靠程度及適用性強弱。由數據結果可知,旅客個人信息特征群中的性別特征及旅客行為信息特征群中的團隊名特征,其信息增益僅為0.003和0.004,可信度極低。不難證明,在乘機過程中,同行關系作為依附于社會關系的一種旅客所特有的關系,在性別異同中同樣類似于社會關系中性別的選擇且相比社會關系中的性別差異更為簡單,故在旅客同行特征細化中不再將性別特征加入細化分析。

而將團隊名作為原始特征進行分析時發(fā)現,大量的旅客PNR中缺少對團隊名的標記或記錄,使得在計算信息熵時不得不將缺失字段作為第三類特征表現加入計算且結果表現不佳。團隊名作為缺失數據較多的字段對特征細化產生極大的影響,且缺少實際應用價值,故本文同樣不將該原始特征加入細化分析。

3.1 旅客同行特征提取及細化分析

將旅客同行特征兩兩整合,提取中強相關及強相關特征,細化并設計針對同行旅客之間的特征屬性見表4。

表4 特征屬性描述及釋義

(1)年齡差特征

利用出生年份特征可計算同行旅客間的年齡差,并對該結果進行劃分如圖1所示,民航同行旅客間年齡差由小到大呈對數分布。故將年齡差特征設置為0歲-5歲、5歲-15歲、15歲-30歲、大于30歲這4個區(qū)間定義為year_feat進行特征分類,可使特征數據均勻且符合實際意義。

圖1 年齡差百分比分布

(2)地址特征

居民身份證前4位代表地址碼(省市),反映了該旅客的出生戶籍,將該特征數據提取并細化為旅客對信息特征屬性,由數據統(tǒng)計顯示,旅客同行網絡中地址碼相同的旅客對占旅客對集合的72%,驗證該特征在一定程度上可以根據實際情況判斷旅客對間同行關系中潛在社交關系的可能性,若旅客本身具有一定的潛在社交關系,故可以將native_feat作為一個必要不充分條件來判斷他們有是否有同行關系。

(3)艙位特征

飛機在安排座位時會利用艙位將座位分成不同的等級,不同的艙位對應的機票折扣不同,價格不同所得到的服務也不一樣。在一趟航班中最多可達24種不同的艙位[11]。艙位具有將旅客客票劃分為不同等級的作用,故利用cabin_feat作為特征屬性進行提取,可以反映旅客之間的相似度,進而確定他們是否構成同行關系。

(4)折扣率特征

各航空公司為促進營銷通常會在不同時段銷售不同折扣的機票,不同折扣的機票往往在旅客退票、簽轉、行李額等權限方面進行區(qū)別劃分。selloff_feat表示在購票時對于價格的選擇作為特征屬性進行提取。該特征從側面反映了旅客之間是否在相同或相近的時段內進行了購票行為,進而確定他們是否構成同行關系。

(5)座位關系特征

座位行號與座位號屬性是旅客在該航班中座位的確定標識。在一般情況下同行的旅客會選擇靠近的位置就坐。將旅客座位行號差值seat_row_dif單獨定義一類特征,而座位號通常是由A到K之間的字母表示,故不適合單獨作為特征。所以本文將旅客對座位號屬轉化為ASCII值并求差值與座位行號差值相加定義seat_sum特征。

(6)登機序號特征

在民航客票信息中,登機序號指旅客在值機時生成的序號,將旅客對登機序號差值boarding_dif定義為登機序號特征,與座位關系特征有著類似的作用。通常同行的旅客會在值機方面存在伴隨的行為特征,故可以從登機序號的關系特征一定程度反映出旅客之間是否存在同行關系。

3.2 特征向量化

同行旅客特征提取后數據種類與判斷方式不同,3.1中定義的年齡差特征、地址特征、艙位特征及折扣率特征均屬于類別型特征。其中,年齡差特征以區(qū)間分為4類,其它3種特征分為相同或不同兩類。由于類別性特征無法直接數字化表示,因此要借助原特征的分類特點,組合產生新特征并將其文本化用于提取儲存和任務計算,并采用0/1二值方式進行量化。

圖2代表了年齡差特征定義四維向量分別儲存將其分為的4個特征;地址特征、艙位特征及折扣率特征均定義二維向量儲存,其中[1 0]代表特征相同,[0 1]代表特征不同。而座位關系特征及登機序號特征作為數值型特征的轉換相對簡單,將其維持原始特征值進行儲存即可。圖3為將旅客對提取所有特征組成的特征矩陣集示意。

圖2 特征向量化表示

圖3 提取旅客對所有特征組成特征矩陣集示例

4 實驗及結果分析

4.1 實驗設置

(1)原始數據

將近某兩年民航旅客訂票記錄PNR作為實驗數據,其中包含旅客個人信息、航班信息、旅客行為信息等共17個字段,總訂單數量為74 461 114單。其中,旅客節(jié)點總數為180 451 121,而邊總數只有24 503 142,平均節(jié)點度為0.12,稀疏性極強;圖4顯示了同樣兩年間同行旅客訂單數統(tǒng)計,其中單人行程訂單數占總訂單數的82.79%,不僅進一步驗證旅客同行網絡的極強稀疏性,更說明了在訂單數據中表現出的同行關系十分稀少,可用于研究的同行旅客數據只占總數據的不到18%。

圖4 中航信近某兩年PNR數據同行旅客訂單數統(tǒng)計(總訂單數:74 461 114)

(2)數據預處理

由于原始數據量極為龐大,且存在大量缺失字段,故首先判斷各字段數據是否為空,刪除有空字段的PNR,并刪除出行次數小于5次的旅客訂票記錄以便數據分析;利用order_id將每條訂單數據按相同訂單號進行儲存,并利用航班信息屬性集合進行分類,即將乘坐同一航班的旅客信息進行分類并儲存。

(3)實驗評價指標

本文采用支持向量機(support vector machine,SVM)分類器對數據進行二元分類預測,將每一種特征對模型進行分類預測,采用均方誤差作為評價指標(mean square error,MSE)表示特征間的差異。并將所有特征加入訓練,使用準確率(Accuracy)、召回率(Recall)、F1值(F-Mea-sure)作為評價指標來評價本文特征提取方法。

(4)K-折交叉驗證

由于處理后的實驗數據經過正負例分別為20 067例和2 931 44例,比例不均衡,故加入損失函數,并按照正負例相應的比例定義懲罰值,使用K-折交叉驗證。即將實驗數據平均隨機分為K份,每次將其中的K-1份作為訓練數據,另一份作為預測數據,共進行K輪實驗,并將K份測試數據評價結果的平均值作為最終的算法性能。

4.2 實驗環(huán)境

本文使用map-reduce平臺進行對PNR數據的加密處理,算法使用Python語言進行編寫。樣本數據處理及參數計算運行硬件環(huán)境為MacBook Pro 2.4 GHz主頻,Intel Core i5處理器,8 G內存的計算機;原始數據預處理及模型訓練預測運行硬件環(huán)境為DELL 3.40 GHz主頻,Intel(R)Core(TM)i7-6800K處理器,64 G內存的計算機并行NVIDIA TITAN Xp COLLECTORS EDITION的GPU。

4.3 實驗結果及分析

4.3.1 單一特征模型預測分析

將處理后的所有正負例實驗數據隨機排列,分別提取各特征組成特征矩陣并平均分成10份,進行10-折交叉驗證,輸出得到各特征訓練預測的均方誤差如圖5所示。圖5可以看出,年齡差特征和艙位特征的平均誤差率分別在0.46和0.41,單一影響強度最低;折扣率特征和艙位特征的平均誤差率分別在0.33和0.24,說明對關系預測效果有一定的單一影響強度;而座位關系特征和登機序號特征的平均誤差率分別達到了0.20和0.17,驗證二者在各個特征中表現出的關系預測效果最佳。

圖5 各單一特征模型預測均方誤差

4.3.2 特征集合模型預測分析

將實驗數據中所有特征提取并組合成具有13維的特征矩陣輸入SVM模型進行特征訓練,分別使用5-折交叉驗證和10-折交叉驗證進行對比,來驗證將本文提取到的特征組合后的關系預測效果(表5)。

表5 組合特征模型預測實驗結果

其中,在10-折交叉驗證下組合特征模型預測結果平均準確率可達0.916,召回率也在表現良好,驗證了本文提出的針對民航旅客同行特征提取方法在旅客同行網絡研究領域具有極大的適用價值。

5 結束語

民航旅客同行關系特征的提取作為旅客同行網絡鏈接預測的基礎研究,不僅可以對旅客同行網絡進行網絡補全,還可以應用于航司的航班推薦,也為機場對旅客的分級安檢提供了方便。為了精準提取影響強度大的特征,本文在民航旅客訂票記錄上進行數據分析,分類提取了針對民航同行旅客間的特征對,并將各特征向量化,組成特征矩陣,利用分類器模型SVM對其進行訓練預測。實驗結果表明,各特征對分類預測結果均具有一定程度的影響強度,且在5-折及10-折交叉驗證組合特征模型中的預測準確率分別達到0.84和0.91以上。

猜你喜歡
訂票艙位特征提取
數據驅動航空收益管理艙位分配研究*
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
航空訂票惡意行為檢測方法
電子測試(2018年15期)2018-09-26 06:01:22
Bagging RCSP腦電特征提取算法
訂票姑娘
商界(2017年3期)2017-03-14 17:07:40
第三十八周:每個人的艙位都是單人艙
媽媽寶寶(2017年3期)2017-02-21 01:22:26
基于聯(lián)盟互租戰(zhàn)略的近洋航線班輪艙位互租與分配優(yōu)化
基于MED和循環(huán)域解調的多故障特征提取
Walsh變換在滾動軸承早期故障特征提取中的應用
軸承(2010年2期)2010-07-28 02:26:12
稍安勿躁
苗栗市| 和硕县| 莲花县| 高州市| 浏阳市| 晋江市| 南通市| 乌什县| 福泉市| 舒城县| 华坪县| 乐清市| 黔西县| 榆树市| 江口县| 克什克腾旗| 江北区| 于田县| 兴国县| 广元市| 隆安县| 赤水市| 紫阳县| 隆林| 清镇市| 合肥市| 鄂尔多斯市| 苍南县| 潞城市| 华亭县| 筠连县| 灌南县| 滦南县| 三台县| 黔西| 进贤县| 白水县| 伊宁市| 深州市| 肃北| 五家渠市|