張鐙月,彭超華
(1.上海對(duì)外經(jīng)貿(mào)大學(xué)國(guó)際經(jīng)貿(mào)學(xué)院,上海 201600;2.南通大學(xué)機(jī)械工程學(xué)院,江蘇南通 226019)
隨著社會(huì)經(jīng)濟(jì)的發(fā)展,中國(guó)高速鐵路的運(yùn)營(yíng)里程也經(jīng)歷了爆發(fā)式增長(zhǎng)。高速鐵路大大減少了人們的出行時(shí)間,提升了出行品質(zhì),同時(shí)以安全、換乘方便、乘坐舒適著稱。但是選擇高鐵還是傳統(tǒng)的火車(chē)出行,對(duì)不同的人來(lái)說(shuō),有不同的意愿。
為了更合理地研究旅客出行購(gòu)票行為的規(guī)律,為鐵路部門(mén)提供一些建議和意見(jiàn),本文首先確立了旅客出行影響因素模型的基本架構(gòu),建立旅客購(gòu)票行為與影響因素關(guān)系的數(shù)學(xué)模型。
隨后基于Scott-Knott 檢驗(yàn)對(duì)旅客購(gòu)票行為的機(jī)器學(xué)習(xí)模型實(shí)證研究進(jìn)行考核,從11 種有監(jiān)督機(jī)器學(xué)習(xí)算法中選擇泛化能力最好的機(jī)器學(xué)習(xí)模型,以此為基礎(chǔ)建立旅客購(gòu)票行為的計(jì)算模型,針對(duì)學(xué)生購(gòu)票行為進(jìn)行預(yù)測(cè)。
針對(duì)一定區(qū)域、特定階段、具有代表性人群的購(gòu)票行為進(jìn)行探索性研究,分析高鐵客運(yùn)量與傳統(tǒng)火車(chē)客運(yùn)量的規(guī)律。
本文所用的數(shù)據(jù)來(lái)自于2019年江蘇省研究生數(shù)學(xué)建??蒲袆?chuàng)新實(shí)踐大賽。共有161 人參與了信息統(tǒng)計(jì),統(tǒng)計(jì)的特征如表1 所示。
表1 統(tǒng)計(jì)特征名稱及簡(jiǎn)稱
由于其中的一些指標(biāo)無(wú)法表現(xiàn)出可區(qū)分的特征,因此本文需要剔除統(tǒng)計(jì)特征中的學(xué)號(hào)信息及起點(diǎn)終點(diǎn)信息。
旅客效用函數(shù)模型的求解依賴于經(jīng)濟(jì)性、快捷性、方便性、舒適性及安全性,而量化這些指標(biāo)的基本特征可以概括為里程、行駛時(shí)長(zhǎng)、個(gè)人收入及票價(jià)。本文對(duì)上述基本特征進(jìn)行了可視化分析。
從分析結(jié)果來(lái)看,行駛里程在500~2 000 km 的人數(shù)占據(jù)了絕大部分,這符合火車(chē)/高鐵長(zhǎng)途出行的基本屬性;其次統(tǒng)計(jì)到的行駛時(shí)長(zhǎng)普遍在0~15 h,考慮到火車(chē)/高鐵的行駛速度,這也與行駛里程相呼應(yīng);再次本文所研究的人群是學(xué)生群體,他們普遍的個(gè)人支配收入為2 000 元左右,這也決定了他們主要選擇的購(gòu)票價(jià)格為0~800 元。
考慮到旅客的個(gè)人可支配收入會(huì)對(duì)后續(xù)多個(gè)特征產(chǎn)生影響,本文對(duì)參與調(diào)查的學(xué)生群體的個(gè)人收入情況進(jìn)行了三分位數(shù)分箱處理,以此將學(xué)生群體劃分為高收入、中等收入及低收入群體,并進(jìn)行0、1、2 編碼,統(tǒng)計(jì)結(jié)果如表2 所示。
表2 學(xué)生群體收入劃分
結(jié)合上文初篩后的特征,本文給出了各特征相互耦合影響的示意圖,如圖1 所示。
圖1 各特征相互耦合影響圖
從指標(biāo)篩選過(guò)程中可知,效用函數(shù)的求解還依賴于各交通工具的費(fèi)率及旅客的時(shí)間價(jià)值。此處使用旅客的旅途時(shí)間價(jià)值替代時(shí)間價(jià)值,因此各交通工具的費(fèi)率及旅途時(shí)間價(jià)值數(shù)學(xué)定義如下:
式中:Ri為第i種交通方式的平均費(fèi)率的數(shù)值;Fi為票價(jià)的數(shù)值;Li為第i種交通方式的運(yùn)行里程的數(shù)值;V(Ti)為旅途時(shí)間價(jià)值的數(shù)值;Ti為出行時(shí)間的數(shù)值。
引入這2 個(gè)特征后,對(duì)標(biāo)簽和特征進(jìn)行Pearson相關(guān)性檢驗(yàn),結(jié)果如表3 所示。
表3 各特征與標(biāo)簽的Pearson 相關(guān)性檢驗(yàn)
在引入費(fèi)率和時(shí)間價(jià)值這2 個(gè)標(biāo)簽后,其與標(biāo)簽的Pearson 相關(guān)性檢驗(yàn)結(jié)果超過(guò)了0.65,表現(xiàn)出了強(qiáng)相關(guān)性,因此,將2 個(gè)標(biāo)簽考慮在內(nèi)使結(jié)果更加理想。
Fisher-Score 準(zhǔn)則是由DUDA 等在2012 年提出的一種有監(jiān)督的特征選擇算法[1]。它根據(jù)是否隸屬于同一個(gè)標(biāo)簽的特征的特征值進(jìn)行篩選。該準(zhǔn)則對(duì)于每個(gè)特征的評(píng)估得分描述如下:
式中:nj、μij、μi及uij2分別為類中的樣本數(shù)、特征fi的平均值、類j中樣本的特征fi的平均值及類j中樣本的特征fi的方差值。
此外,F(xiàn)isher-Score 準(zhǔn)則可以視為拉普拉斯分?jǐn)?shù)的一個(gè)特例,與拉普拉斯分?jǐn)?shù)類似,它也可以通過(guò)貪婪選擇原則類似獲得具有最大Fisher 分?jǐn)?shù)的特征來(lái)獲得前個(gè)特征?;谏鲜鲈u(píng)分模型,本文對(duì)上節(jié)通過(guò)了Pearson 相關(guān)性檢驗(yàn)的10 個(gè)特征進(jìn)行模型求解,結(jié)果如表4 所示。
表4 各特征Fisher-Score 得分
從各特征的得分及排序結(jié)果來(lái)看,時(shí)間價(jià)值和費(fèi)率這2 個(gè)特征的影響程度均超過(guò)了0.7,在10 個(gè)特征中是最高的。
其次是行駛時(shí)長(zhǎng)和票價(jià)這2 個(gè)特征的得分超過(guò)了0.2,但相比于時(shí)間價(jià)值和費(fèi)率,這2 個(gè)指標(biāo)的重要性明顯降低。
其余的6 個(gè)特征的得分均未超過(guò)0.1,該結(jié)果表明這6 個(gè)特征的重要程度不及前面4 個(gè)特征。
1.4.1 分析流程及偽代碼
尋找最優(yōu)的有監(jiān)督學(xué)習(xí)算法,并以該算法為基礎(chǔ),建立可以預(yù)測(cè)旅客購(gòu)票行為的數(shù)學(xué)模型。
分析流程圖和項(xiàng)目執(zhí)行偽代碼分別如圖2 及圖3所示。
圖2 分析流程圖
1.4.2 模型準(zhǔn)備
常用的11 種有監(jiān)督機(jī)器分類器學(xué)習(xí)算法如表5所示。
表5 有監(jiān)督學(xué)習(xí)算法分類
1.4.3 顯著性檢驗(yàn)
使用Scott-Knott 檢驗(yàn)[2]為本文考慮的所有方法(總共11 種)進(jìn)行排序和分組。Scott-Knott 檢驗(yàn)嘗試將這些不同的方法劃分到具有顯著性差異的秩中(α=0.05)。具體來(lái)說(shuō),Scott-Knott 檢驗(yàn)使用分層聚類分析為每個(gè)方法設(shè)置不同的秩。首先將所有方法基于平均性能(基于AUC 或F1指標(biāo))劃分成2 組。如果處在一組內(nèi)的方法仍存在顯著差異性,則其會(huì)迭代使用上述過(guò)程將該組內(nèi)的方法繼續(xù)分組,直至組內(nèi)的方法之間不存在顯著差異性為止。
1.4.4 結(jié)果分析
執(zhí)行圖2 所示的流程及圖3 的偽代碼,并對(duì)模型訓(xùn)練的結(jié)果進(jìn)行Scott-Knott 檢驗(yàn),檢驗(yàn)的結(jié)果如圖4所示。從查準(zhǔn)率P來(lái)看,梯度提升樹(shù)(Gradient Boosting Decision Tree,GBDT)優(yōu)于隨機(jī)森林(Random Forest,RF)及后面其他的有監(jiān)督學(xué)習(xí)算法;從查全率R來(lái)看,二次判別分析( Quadratic Discriminant Analysis Algorithm,QDA)優(yōu)于RF(隨機(jī)森林)及后面的其他算法;從F1的檢驗(yàn)結(jié)果來(lái)看,RF(隨機(jī)森林)在11 種有監(jiān)督學(xué)習(xí)算法中的效果最好;從AUC(Area Under Curve,ROC 曲線下與坐標(biāo)軸圍成的面積)的檢驗(yàn)結(jié)果來(lái)看,同樣是RF(隨機(jī)森林)表現(xiàn)出了最優(yōu)的泛化能力。綜上所述,RF(隨機(jī)森林)是這11 種有監(jiān)督學(xué)習(xí)算法中泛化能力最好的算法,因此,本文將基于RF(隨機(jī)森林)建立可供計(jì)算的具體旅客購(gòu)票行為的數(shù)學(xué)模型。
圖4 檢驗(yàn)結(jié)果
1.4.5 旅客購(gòu)票行為計(jì)算模型建模
基于1.4.4 節(jié)對(duì)11 種機(jī)器學(xué)習(xí)模型的實(shí)證研究,選定了泛化能力最好的隨機(jī)森林模型進(jìn)行進(jìn)一步的研究,它執(zhí)行的主要流程如下。
1.4.5.1 產(chǎn)生訓(xùn)練集
隨機(jī)森林采用的是有放回的無(wú)權(quán)重抽樣。該方法先使用Bootstrap 抽樣從原數(shù)據(jù)集中每次抽取n個(gè)訓(xùn)練樣本,共進(jìn)行k輪抽取,得到k個(gè)訓(xùn)練集,然后每次使用一個(gè)訓(xùn)練集來(lái)訓(xùn)練得到一個(gè)模型,最后將得到的k個(gè)模型采用投票的方式得到分類結(jié)果。Bagging 抽樣方法是以可重復(fù)的獨(dú)立隨機(jī)抽樣為基礎(chǔ)的,在原數(shù)據(jù)集中的每個(gè)樣本都有可能被抽到,但在重復(fù)多次后,有的樣本是不能被抽取到的,不能抽到的概率是(1-1/N)N,N為原始數(shù)據(jù)集中樣本的個(gè)數(shù)。
1.4.5.2 節(jié)點(diǎn)分裂與特征選取
隨機(jī)森林采用的CART ( Classification and Regression Tree)決策樹(shù)就是基于基尼系數(shù)進(jìn)行特征選擇,基尼系數(shù)的選擇標(biāo)準(zhǔn)就是每個(gè)子節(jié)點(diǎn)達(dá)到最高的純度,即落在子節(jié)點(diǎn)中的所有觀察都屬于同一個(gè)分類,此時(shí)基尼系數(shù)最小,純度最高,不確定度最小。對(duì)于一般的決策樹(shù),假如總共有k類,樣本屬于第k類的概率為pk,則該概率分布的基尼(Gini)指數(shù)為:
由此可見(jiàn),基尼指數(shù)越大,不確定性就越大;基尼系數(shù)越小,不確定性越小,數(shù)據(jù)分割越徹底。而CART 樹(shù)是二叉樹(shù),上式又可以表示為:
在遍歷每個(gè)特征的每個(gè)分割點(diǎn)時(shí),當(dāng)使用特征A=a,將D劃分為2 個(gè)子集,即D1(滿足A=a的樣本集合)、D2(不滿足A=a的樣本集合)。則在特征A=a的條件下D的基尼指數(shù)為:
隨機(jī)森林中的每棵CART 決策樹(shù)都是通過(guò)不斷遍歷這棵樹(shù)的特征子集的所有可能的分割點(diǎn),尋找Gini系數(shù)最小的特征的分割點(diǎn),將數(shù)據(jù)集分成2 個(gè)子集,直至滿足停止條件為止。
1.4.5.3 森林形成與算法執(zhí)行
重復(fù)上面單棵決策樹(shù)樣本抽樣和構(gòu)建每棵決策樹(shù)2 個(gè)步驟,就建立了大量沒(méi)有剪枝的決策樹(shù),這些決策樹(shù)的組合就構(gòu)成了隨機(jī)森林模型。隨機(jī)森林模型的最終分類結(jié)果是根據(jù)模型中每棵決策樹(shù)的分類結(jié)果通過(guò)投票的形式得出的,得票最多的分類結(jié)果就是算法的輸出結(jié)果。
當(dāng)運(yùn)輸通道內(nèi)出現(xiàn)供城際旅客可選的交通工具為i種時(shí),每種交通工具對(duì)應(yīng)的效用值大小可用效用函數(shù)式來(lái)對(duì)不同交通工具特定的效用進(jìn)行標(biāo)定,城際旅客總是喜好效用值較低的交通方式,其數(shù)學(xué)表達(dá)式為:
式中:λn為第n項(xiàng)影響因素的權(quán)重值;為第i種交通工具的第n項(xiàng)影響因素,即上文中的票價(jià)、運(yùn)行時(shí)間、方便性、舒適度及安全性。
為了研究旅客購(gòu)票行為發(fā)生的潛在規(guī)律,從數(shù)據(jù)本身出發(fā),通過(guò)建立合適的機(jī)器學(xué)習(xí)模型訓(xùn)練分類器,然后對(duì)數(shù)據(jù)集進(jìn)行交叉驗(yàn)證,并通過(guò)包括查準(zhǔn)率P、查全率R、查準(zhǔn)率和查全率的調(diào)和平均1/F1及ROC 曲線下的面積AUC 的值對(duì)機(jī)器學(xué)習(xí)模型泛化性能力進(jìn)行評(píng)估。各指標(biāo)的數(shù)學(xué)定義如下:
式中:TP和FP分別為混淆矩陣的真正例和假反例的數(shù)值;xi和yi分別為ROC 曲線的坐標(biāo)點(diǎn)的數(shù)值。
將上文中的票價(jià)、運(yùn)行時(shí)間、方便性、舒適度及安全性這些參數(shù)視為特征,將旅客的購(gòu)票行為視為標(biāo)簽,建立有監(jiān)督的機(jī)器學(xué)習(xí)的模型,其示意圖如圖5所示。
圖5 旅客購(gòu)票行為機(jī)器學(xué)習(xí)模型
通過(guò)1.4 節(jié)的建模分析與求解,建立了基于隨機(jī)森林的有監(jiān)督機(jī)器學(xué)習(xí)模型。為了提高模型的準(zhǔn)確性和泛化能力,本文對(duì)所擁有的數(shù)據(jù)進(jìn)行訓(xùn)練,進(jìn)而得到訓(xùn)練好的學(xué)習(xí)器。用該學(xué)習(xí)器預(yù)測(cè)下一年寒假每個(gè)學(xué)生的購(gòu)票行為,預(yù)測(cè)結(jié)果如表6 所示。
表6 下一年寒假每個(gè)學(xué)生的購(gòu)票行為結(jié)果預(yù)測(cè)
將表6 預(yù)測(cè)的結(jié)果進(jìn)行可視化,如圖6、圖7 所示。由圖6 與圖7 可知,購(gòu)買(mǎi)火車(chē)票的人數(shù)約為22 人,約占總?cè)藬?shù)的25.88%;購(gòu)買(mǎi)高鐵票的人數(shù)約為63 人,約占總?cè)藬?shù)的74.12%。從預(yù)測(cè)的結(jié)果可知,雖然旅客購(gòu)票行為受多方面因素制約,但是大部分學(xué)生在回程過(guò)程中還是更愿意選擇高鐵出行。
圖6 購(gòu)買(mǎi)不同種類車(chē)票的人數(shù)分布
圖7 購(gòu)買(mǎi)不同種類車(chē)票的人數(shù)占比分布
本文選定的區(qū)域?yàn)槟暇虾!⑻囟A段為寒暑假期間、研究的代表性人群為大學(xué)生群體。其中南京—上海的軌道交通有京滬普鐵、滬寧城際及京滬高鐵。以黎暉關(guān)于《鐵路出行方式選擇行為模型研究》[3]的結(jié)論為基礎(chǔ)進(jìn)行討論??傮w上看,各鐵路中性別分布比較均勻,在年齡分布上主要是18~45 歲的青年。各鐵路乘客的學(xué)歷分布呈現(xiàn)較大差異,京滬高速與滬寧城際乘客的學(xué)歷較高,大部分乘客為本科及以上學(xué)歷,而京滬普鐵乘客以本科以下學(xué)歷居多。在職業(yè)分布上,滬寧城際和京滬高鐵主要服務(wù)對(duì)象為職員和學(xué)生,而這2 類群體在普鐵占比較少。乘客收入分布特征為京滬高鐵高于滬寧城際高于京滬普鐵。而從出行目的來(lái)看,滬寧城際和京滬高鐵中均有30%以上的客流為出差客流,京滬普鐵則相對(duì)較少。
同時(shí),筆者基于MNL(Multinomial Logit Model,離散選擇模型)對(duì)乘客的出行意愿和影響因素進(jìn)行了分析。結(jié)果表明,年齡對(duì)京滬普鐵產(chǎn)生顯著的正效應(yīng),乘客年齡越大,選擇京滬普鐵的概率越大。隨著學(xué)歷的增加,旅客選擇普通鐵路的概率降低。職業(yè)對(duì)京滬普鐵具有突出的顯著作用,尤其是對(duì)學(xué)生出行和職員出行的吸引力較低,這也側(cè)面反映了節(jié)約時(shí)間、正點(diǎn)率高是學(xué)生與職員2 類群體的主要訴求。
上述研究結(jié)論表明了滬寧干線每天都有存在必要的需求,可稱這些需求為基礎(chǔ)需求Q。本文選定的人群為大學(xué)生群體,大學(xué)生經(jīng)濟(jì)是典型的“候鳥(niǎo)型”經(jīng)濟(jì),由大學(xué)生寒暑假所造成的車(chē)站客流量擁堵也是具有“候鳥(niǎo)型”特征的,將這種“候鳥(niǎo)型”客流量稱為Q′。Q和Q′的疊加勢(shì)必會(huì)給鐵路交通帶來(lái)較大的負(fù)擔(dān)。但是從研究結(jié)果來(lái)看,Q′是可以通過(guò)相應(yīng)的計(jì)算方法和數(shù)學(xué)方法進(jìn)行估算的。
因此,只有大致把握Q′的規(guī)模,才能使鐵路局管理人員提前做好車(chē)輛車(chē)次等計(jì)劃的安排。為了從更一般的角度描述對(duì)Q′的估計(jì),給出以下解決方案:①鐵路管理部門(mén)通過(guò)校園實(shí)地問(wèn)卷調(diào)查或者面向大學(xué)生網(wǎng)上問(wèn)卷調(diào)查獲取相關(guān)信息;②鐵路管理局通過(guò)后臺(tái)比對(duì)篩選相應(yīng)的調(diào)查對(duì)象;③結(jié)合后臺(tái)數(shù)據(jù)與問(wèn)卷調(diào)查數(shù)據(jù)形成有效的數(shù)據(jù)集;④對(duì)數(shù)據(jù)集進(jìn)行特征工程處理;⑤進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練,并預(yù)測(cè)結(jié)果。