基于有監(jiān)督機(jī)器學(xué)習(xí)的旅客購(gòu)票行為建模分析

2023-11-30 11:32張鐙月彭超華

科技與創(chuàng)新 2023年22期

張鐙月，彭超華

（1.上海對(duì)外經(jīng)貿(mào)大學(xué)國(guó)際經(jīng)貿(mào)學(xué)院，上海 201600；2.南通大學(xué)機(jī)械工程學(xué)院，江蘇南通 226019）

隨著社會(huì)經(jīng)濟(jì)的發(fā)展，中國(guó)高速鐵路的運(yùn)營(yíng)里程也經(jīng)歷了爆發(fā)式增長(zhǎng)。高速鐵路大大減少了人們的出行時(shí)間，提升了出行品質(zhì)，同時(shí)以安全、換乘方便、乘坐舒適著稱。但是選擇高鐵還是傳統(tǒng)的火車(chē)出行，對(duì)不同的人來(lái)說(shuō)，有不同的意愿。

為了更合理地研究旅客出行購(gòu)票行為的規(guī)律，為鐵路部門(mén)提供一些建議和意見(jiàn)，本文首先確立了旅客出行影響因素模型的基本架構(gòu)，建立旅客購(gòu)票行為與影響因素關(guān)系的數(shù)學(xué)模型。

隨后基于Scott-Knott 檢驗(yàn)對(duì)旅客購(gòu)票行為的機(jī)器學(xué)習(xí)模型實(shí)證研究進(jìn)行考核，從11 種有監(jiān)督機(jī)器學(xué)習(xí)算法中選擇泛化能力最好的機(jī)器學(xué)習(xí)模型，以此為基礎(chǔ)建立旅客購(gòu)票行為的計(jì)算模型，針對(duì)學(xué)生購(gòu)票行為進(jìn)行預(yù)測(cè)。

針對(duì)一定區(qū)域、特定階段、具有代表性人群的購(gòu)票行為進(jìn)行探索性研究，分析高鐵客運(yùn)量與傳統(tǒng)火車(chē)客運(yùn)量的規(guī)律。

1 旅客購(gòu)票行為與影響因素關(guān)系建模

1.1 數(shù)據(jù)預(yù)處理

本文所用的數(shù)據(jù)來(lái)自于2019年江蘇省研究生數(shù)學(xué)建?？蒲袆?chuàng)新實(shí)踐大賽。共有161 人參與了信息統(tǒng)計(jì)，統(tǒng)計(jì)的特征如表1 所示。

表1 統(tǒng)計(jì)特征名稱及簡(jiǎn)稱

由于其中的一些指標(biāo)無(wú)法表現(xiàn)出可區(qū)分的特征，因此本文需要剔除統(tǒng)計(jì)特征中的學(xué)號(hào)信息及起點(diǎn)終點(diǎn)信息。

旅客效用函數(shù)模型的求解依賴于經(jīng)濟(jì)性、快捷性、方便性、舒適性及安全性，而量化這些指標(biāo)的基本特征可以概括為里程、行駛時(shí)長(zhǎng)、個(gè)人收入及票價(jià)。本文對(duì)上述基本特征進(jìn)行了可視化分析。

從分析結(jié)果來(lái)看，行駛里程在500～2 000 km 的人數(shù)占據(jù)了絕大部分，這符合火車(chē)/高鐵長(zhǎng)途出行的基本屬性；其次統(tǒng)計(jì)到的行駛時(shí)長(zhǎng)普遍在0～15 h，考慮到火車(chē)/高鐵的行駛速度，這也與行駛里程相呼應(yīng)；再次本文所研究的人群是學(xué)生群體，他們普遍的個(gè)人支配收入為2 000 元左右，這也決定了他們主要選擇的購(gòu)票價(jià)格為0～800 元。

考慮到旅客的個(gè)人可支配收入會(huì)對(duì)后續(xù)多個(gè)特征產(chǎn)生影響，本文對(duì)參與調(diào)查的學(xué)生群體的個(gè)人收入情況進(jìn)行了三分位數(shù)分箱處理，以此將學(xué)生群體劃分為高收入、中等收入及低收入群體，并進(jìn)行0、1、2 編碼，統(tǒng)計(jì)結(jié)果如表2 所示。

表2 學(xué)生群體收入劃分

1.2 各特征影響及相互影響建模分析

結(jié)合上文初篩后的特征，本文給出了各特征相互耦合影響的示意圖，如圖1 所示。

圖1 各特征相互耦合影響圖

從指標(biāo)篩選過(guò)程中可知，效用函數(shù)的求解還依賴于各交通工具的費(fèi)率及旅客的時(shí)間價(jià)值。此處使用旅客的旅途時(shí)間價(jià)值替代時(shí)間價(jià)值，因此各交通工具的費(fèi)率及旅途時(shí)間價(jià)值數(shù)學(xué)定義如下：

式中：Ri為第i種交通方式的平均費(fèi)率的數(shù)值；Fi為票價(jià)的數(shù)值；Li為第i種交通方式的運(yùn)行里程的數(shù)值；V（Ti）為旅途時(shí)間價(jià)值的數(shù)值；Ti為出行時(shí)間的數(shù)值。

引入這2 個(gè)特征后，對(duì)標(biāo)簽和特征進(jìn)行Pearson相關(guān)性檢驗(yàn)，結(jié)果如表3 所示。

表3 各特征與標(biāo)簽的Pearson 相關(guān)性檢驗(yàn)

在引入費(fèi)率和時(shí)間價(jià)值這2 個(gè)標(biāo)簽后，其與標(biāo)簽的Pearson 相關(guān)性檢驗(yàn)結(jié)果超過(guò)了0.65，表現(xiàn)出了強(qiáng)相關(guān)性，因此，將2 個(gè)標(biāo)簽考慮在內(nèi)使結(jié)果更加理想。

1.3 基于Fisher-Score 準(zhǔn)則對(duì)特征影響程度建模分析

Fisher-Score 準(zhǔn)則是由DUDA 等在2012 年提出的一種有監(jiān)督的特征選擇算法[1]。它根據(jù)是否隸屬于同一個(gè)標(biāo)簽的特征的特征值進(jìn)行篩選。該準(zhǔn)則對(duì)于每個(gè)特征的評(píng)估得分描述如下：

式中：nj、μij、μi及uij2分別為類中的樣本數(shù)、特征fi的平均值、類j中樣本的特征fi的平均值及類j中樣本的特征fi的方差值。

此外，F(xiàn)isher-Score 準(zhǔn)則可以視為拉普拉斯分?jǐn)?shù)的一個(gè)特例，與拉普拉斯分?jǐn)?shù)類似，它也可以通過(guò)貪婪選擇原則類似獲得具有最大Fisher 分?jǐn)?shù)的特征來(lái)獲得前個(gè)特征?；谏鲜鲈u(píng)分模型，本文對(duì)上節(jié)通過(guò)了Pearson 相關(guān)性檢驗(yàn)的10 個(gè)特征進(jìn)行模型求解，結(jié)果如表4 所示。

表4 各特征Fisher-Score 得分

從各特征的得分及排序結(jié)果來(lái)看，時(shí)間價(jià)值和費(fèi)率這2 個(gè)特征的影響程度均超過(guò)了0.7，在10 個(gè)特征中是最高的。

其次是行駛時(shí)長(zhǎng)和票價(jià)這2 個(gè)特征的得分超過(guò)了0.2，但相比于時(shí)間價(jià)值和費(fèi)率，這2 個(gè)指標(biāo)的重要性明顯降低。

其余的6 個(gè)特征的得分均未超過(guò)0.1，該結(jié)果表明這6 個(gè)特征的重要程度不及前面4 個(gè)特征。

1.4 旅客購(gòu)票行為的機(jī)器學(xué)習(xí)模型實(shí)證研究

1.4.1 分析流程及偽代碼

尋找最優(yōu)的有監(jiān)督學(xué)習(xí)算法，并以該算法為基礎(chǔ)，建立可以預(yù)測(cè)旅客購(gòu)票行為的數(shù)學(xué)模型。

分析流程圖和項(xiàng)目執(zhí)行偽代碼分別如圖2 及圖3所示。

圖2 分析流程圖

1.4.2 模型準(zhǔn)備

常用的11 種有監(jiān)督機(jī)器分類器學(xué)習(xí)算法如表5所示。

表5 有監(jiān)督學(xué)習(xí)算法分類

1.4.3 顯著性檢驗(yàn)

使用Scott-Knott 檢驗(yàn)[2]為本文考慮的所有方法（總共11 種）進(jìn)行排序和分組。Scott-Knott 檢驗(yàn)嘗試將這些不同的方法劃分到具有顯著性差異的秩中（α=0.05）。具體來(lái)說(shuō)，Scott-Knott 檢驗(yàn)使用分層聚類分析為每個(gè)方法設(shè)置不同的秩。首先將所有方法基于平均性能（基于AUC 或F1指標(biāo)）劃分成2 組。如果處在一組內(nèi)的方法仍存在顯著差異性，則其會(huì)迭代使用上述過(guò)程將該組內(nèi)的方法繼續(xù)分組，直至組內(nèi)的方法之間不存在顯著差異性為止。

1.4.4 結(jié)果分析

執(zhí)行圖2 所示的流程及圖3 的偽代碼，并對(duì)模型訓(xùn)練的結(jié)果進(jìn)行Scott-Knott 檢驗(yàn)，檢驗(yàn)的結(jié)果如圖4所示。從查準(zhǔn)率P來(lái)看，梯度提升樹(shù)（Gradient Boosting Decision Tree，GBDT）優(yōu)于隨機(jī)森林（Random Forest，RF）及后面其他的有監(jiān)督學(xué)習(xí)算法；從查全率R來(lái)看，二次判別分析（ Quadratic Discriminant Analysis Algorithm，QDA）優(yōu)于RF（隨機(jī)森林）及后面的其他算法；從F1的檢驗(yàn)結(jié)果來(lái)看，RF（隨機(jī)森林）在11 種有監(jiān)督學(xué)習(xí)算法中的效果最好；從AUC（Area Under Curve，ROC 曲線下與坐標(biāo)軸圍成的面積）的檢驗(yàn)結(jié)果來(lái)看，同樣是RF（隨機(jī)森林）表現(xiàn)出了最優(yōu)的泛化能力。綜上所述，RF（隨機(jī)森林）是這11 種有監(jiān)督學(xué)習(xí)算法中泛化能力最好的算法，因此，本文將基于RF（隨機(jī)森林）建立可供計(jì)算的具體旅客購(gòu)票行為的數(shù)學(xué)模型。

圖4 檢驗(yàn)結(jié)果

1.4.5 旅客購(gòu)票行為計(jì)算模型建模

基于1.4.4 節(jié)對(duì)11 種機(jī)器學(xué)習(xí)模型的實(shí)證研究，選定了泛化能力最好的隨機(jī)森林模型進(jìn)行進(jìn)一步的研究，它執(zhí)行的主要流程如下。

1.4.5.1 產(chǎn)生訓(xùn)練集

隨機(jī)森林采用的是有放回的無(wú)權(quán)重抽樣。該方法先使用Bootstrap 抽樣從原數(shù)據(jù)集中每次抽取n個(gè)訓(xùn)練樣本，共進(jìn)行k輪抽取，得到k個(gè)訓(xùn)練集，然后每次使用一個(gè)訓(xùn)練集來(lái)訓(xùn)練得到一個(gè)模型，最后將得到的k個(gè)模型采用投票的方式得到分類結(jié)果。Bagging 抽樣方法是以可重復(fù)的獨(dú)立隨機(jī)抽樣為基礎(chǔ)的，在原數(shù)據(jù)集中的每個(gè)樣本都有可能被抽到，但在重復(fù)多次后，有的樣本是不能被抽取到的，不能抽到的概率是（1－1/N）N，N為原始數(shù)據(jù)集中樣本的個(gè)數(shù)。

1.4.5.2 節(jié)點(diǎn)分裂與特征選取

隨機(jī)森林采用的CART （ Classification and Regression Tree）決策樹(shù)就是基于基尼系數(shù)進(jìn)行特征選擇，基尼系數(shù)的選擇標(biāo)準(zhǔn)就是每個(gè)子節(jié)點(diǎn)達(dá)到最高的純度，即落在子節(jié)點(diǎn)中的所有觀察都屬于同一個(gè)分類，此時(shí)基尼系數(shù)最小，純度最高，不確定度最小。對(duì)于一般的決策樹(shù)，假如總共有k類，樣本屬于第k類的概率為pk，則該概率分布的基尼（Gini）指數(shù)為：

由此可見(jiàn)，基尼指數(shù)越大，不確定性就越大；基尼系數(shù)越小，不確定性越小，數(shù)據(jù)分割越徹底。而CART 樹(shù)是二叉樹(shù)，上式又可以表示為：

在遍歷每個(gè)特征的每個(gè)分割點(diǎn)時(shí)，當(dāng)使用特征A=a，將D劃分為2 個(gè)子集，即D1（滿足A=a的樣本集合）、D2（不滿足A=a的樣本集合）。則在特征A=a的條件下D的基尼指數(shù)為：

隨機(jī)森林中的每棵CART 決策樹(shù)都是通過(guò)不斷遍歷這棵樹(shù)的特征子集的所有可能的分割點(diǎn)，尋找Gini系數(shù)最小的特征的分割點(diǎn)，將數(shù)據(jù)集分成2 個(gè)子集，直至滿足停止條件為止。

1.4.5.3 森林形成與算法執(zhí)行

重復(fù)上面單棵決策樹(shù)樣本抽樣和構(gòu)建每棵決策樹(shù)2 個(gè)步驟，就建立了大量沒(méi)有剪枝的決策樹(shù)，這些決策樹(shù)的組合就構(gòu)成了隨機(jī)森林模型。隨機(jī)森林模型的最終分類結(jié)果是根據(jù)模型中每棵決策樹(shù)的分類結(jié)果通過(guò)投票的形式得出的，得票最多的分類結(jié)果就是算法的輸出結(jié)果。

2 旅客購(gòu)票行為建模

2.1 效用函數(shù)模型

當(dāng)運(yùn)輸通道內(nèi)出現(xiàn)供城際旅客可選的交通工具為i種時(shí)，每種交通工具對(duì)應(yīng)的效用值大小可用效用函數(shù)式來(lái)對(duì)不同交通工具特定的效用進(jìn)行標(biāo)定，城際旅客總是喜好效用值較低的交通方式，其數(shù)學(xué)表達(dá)式為：

式中：λn為第n項(xiàng)影響因素的權(quán)重值；為第i種交通工具的第n項(xiàng)影響因素，即上文中的票價(jià)、運(yùn)行時(shí)間、方便性、舒適度及安全性。

2.2 機(jī)器學(xué)習(xí)模型

為了研究旅客購(gòu)票行為發(fā)生的潛在規(guī)律，從數(shù)據(jù)本身出發(fā)，通過(guò)建立合適的機(jī)器學(xué)習(xí)模型訓(xùn)練分類器，然后對(duì)數(shù)據(jù)集進(jìn)行交叉驗(yàn)證，并通過(guò)包括查準(zhǔn)率P、查全率R、查準(zhǔn)率和查全率的調(diào)和平均1/F1及ROC 曲線下的面積AUC 的值對(duì)機(jī)器學(xué)習(xí)模型泛化性能力進(jìn)行評(píng)估。各指標(biāo)的數(shù)學(xué)定義如下：

式中：TP和FP分別為混淆矩陣的真正例和假反例的數(shù)值；xi和yi分別為ROC 曲線的坐標(biāo)點(diǎn)的數(shù)值。

將上文中的票價(jià)、運(yùn)行時(shí)間、方便性、舒適度及安全性這些參數(shù)視為特征，將旅客的購(gòu)票行為視為標(biāo)簽，建立有監(jiān)督的機(jī)器學(xué)習(xí)的模型，其示意圖如圖5所示。

圖5 旅客購(gòu)票行為機(jī)器學(xué)習(xí)模型

3 旅客購(gòu)票行為預(yù)測(cè)分析

通過(guò)1.4 節(jié)的建模分析與求解，建立了基于隨機(jī)森林的有監(jiān)督機(jī)器學(xué)習(xí)模型。為了提高模型的準(zhǔn)確性和泛化能力，本文對(duì)所擁有的數(shù)據(jù)進(jìn)行訓(xùn)練，進(jìn)而得到訓(xùn)練好的學(xué)習(xí)器。用該學(xué)習(xí)器預(yù)測(cè)下一年寒假每個(gè)學(xué)生的購(gòu)票行為，預(yù)測(cè)結(jié)果如表6 所示。

表6 下一年寒假每個(gè)學(xué)生的購(gòu)票行為結(jié)果預(yù)測(cè)

將表6 預(yù)測(cè)的結(jié)果進(jìn)行可視化，如圖6、圖7 所示。由圖6 與圖7 可知，購(gòu)買(mǎi)火車(chē)票的人數(shù)約為22 人，約占總?cè)藬?shù)的25.88%；購(gòu)買(mǎi)高鐵票的人數(shù)約為63 人，約占總?cè)藬?shù)的74.12%。從預(yù)測(cè)的結(jié)果可知，雖然旅客購(gòu)票行為受多方面因素制約，但是大部分學(xué)生在回程過(guò)程中還是更愿意選擇高鐵出行。

圖6 購(gòu)買(mǎi)不同種類車(chē)票的人數(shù)分布

圖7 購(gòu)買(mǎi)不同種類車(chē)票的人數(shù)占比分布

4 結(jié)束語(yǔ)

本文選定的區(qū)域?yàn)槟暇虾！⑻囟A段為寒暑假期間、研究的代表性人群為大學(xué)生群體。其中南京—上海的軌道交通有京滬普鐵、滬寧城際及京滬高鐵。以黎暉關(guān)于《鐵路出行方式選擇行為模型研究》[3]的結(jié)論為基礎(chǔ)進(jìn)行討論?？傮w上看，各鐵路中性別分布比較均勻，在年齡分布上主要是18～45 歲的青年。各鐵路乘客的學(xué)歷分布呈現(xiàn)較大差異，京滬高速與滬寧城際乘客的學(xué)歷較高，大部分乘客為本科及以上學(xué)歷，而京滬普鐵乘客以本科以下學(xué)歷居多。在職業(yè)分布上，滬寧城際和京滬高鐵主要服務(wù)對(duì)象為職員和學(xué)生，而這2 類群體在普鐵占比較少。乘客收入分布特征為京滬高鐵高于滬寧城際高于京滬普鐵。而從出行目的來(lái)看，滬寧城際和京滬高鐵中均有30%以上的客流為出差客流，京滬普鐵則相對(duì)較少。

同時(shí)，筆者基于MNL（Multinomial Logit Model，離散選擇模型）對(duì)乘客的出行意愿和影響因素進(jìn)行了分析。結(jié)果表明，年齡對(duì)京滬普鐵產(chǎn)生顯著的正效應(yīng)，乘客年齡越大，選擇京滬普鐵的概率越大。隨著學(xué)歷的增加，旅客選擇普通鐵路的概率降低。職業(yè)對(duì)京滬普鐵具有突出的顯著作用，尤其是對(duì)學(xué)生出行和職員出行的吸引力較低，這也側(cè)面反映了節(jié)約時(shí)間、正點(diǎn)率高是學(xué)生與職員2 類群體的主要訴求。

上述研究結(jié)論表明了滬寧干線每天都有存在必要的需求，可稱這些需求為基礎(chǔ)需求Q。本文選定的人群為大學(xué)生群體，大學(xué)生經(jīng)濟(jì)是典型的“候鳥(niǎo)型”經(jīng)濟(jì)，由大學(xué)生寒暑假所造成的車(chē)站客流量擁堵也是具有“候鳥(niǎo)型”特征的，將這種“候鳥(niǎo)型”客流量稱為Q′。Q和Q′的疊加勢(shì)必會(huì)給鐵路交通帶來(lái)較大的負(fù)擔(dān)。但是從研究結(jié)果來(lái)看，Q′是可以通過(guò)相應(yīng)的計(jì)算方法和數(shù)學(xué)方法進(jìn)行估算的。

因此，只有大致把握Q′的規(guī)模，才能使鐵路局管理人員提前做好車(chē)輛車(chē)次等計(jì)劃的安排。為了從更一般的角度描述對(duì)Q′的估計(jì)，給出以下解決方案：①鐵路管理部門(mén)通過(guò)校園實(shí)地問(wèn)卷調(diào)查或者面向大學(xué)生網(wǎng)上問(wèn)卷調(diào)查獲取相關(guān)信息；②鐵路管理局通過(guò)后臺(tái)比對(duì)篩選相應(yīng)的調(diào)查對(duì)象；③結(jié)合后臺(tái)數(shù)據(jù)與問(wèn)卷調(diào)查數(shù)據(jù)形成有效的數(shù)據(jù)集；④對(duì)數(shù)據(jù)集進(jìn)行特征工程處理；⑤進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練，并預(yù)測(cè)結(jié)果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡