国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Adaboost-CART模型的動(dòng)臥列車客座率預(yù)測(cè)

2019-10-25 01:37王煜方偉王亮薛冰
中國(guó)鐵路 2019年10期
關(guān)鍵詞:客座率誤差率次數(shù)

王煜,方偉,王亮,薛冰

(1.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所,北京 100081;2.中國(guó)國(guó)家鐵路集團(tuán)有限公司,北京 100844)

0 引言

近年來,動(dòng)臥列車已成為高鐵旅客運(yùn)輸中頗受歡迎的一種運(yùn)輸產(chǎn)品[1],培育了一批“忠實(shí)”的旅客群體,整體客座率較好。隨著鐵路運(yùn)輸企業(yè)逐漸向市場(chǎng)化運(yùn)營(yíng)靠攏,實(shí)施了更加靈活多變、有針對(duì)性的開行方案和票價(jià)方案[2-3],對(duì)動(dòng)臥列車客座率進(jìn)行預(yù)測(cè)便成為鐵路運(yùn)輸企業(yè)優(yōu)化運(yùn)輸資源配置、提升運(yùn)輸效率、實(shí)現(xiàn)更大經(jīng)濟(jì)效益的必然要求和重要支撐。因此,動(dòng)臥列車客座率預(yù)測(cè)具有較強(qiáng)的實(shí)際指導(dǎo)意義。

目前,對(duì)高鐵動(dòng)車組列車客座率預(yù)測(cè)研究較多,不同學(xué)者采用多種模型方法進(jìn)行預(yù)測(cè),如多元回歸模型、時(shí)間序列模型[4-5]、神經(jīng)網(wǎng)絡(luò)模型[6]、決策樹模型、灰色理論模型[7-8]、集成學(xué)習(xí)算法模型等[9]。每種模型各有優(yōu)點(diǎn),但也存在一定局限性:多元回歸模型和時(shí)間序列模型以統(tǒng)計(jì)學(xué)理論的線性算法為基礎(chǔ),對(duì)樣本數(shù)量和質(zhì)量要求較高,對(duì)非線性數(shù)據(jù)預(yù)測(cè)結(jié)果較差;神經(jīng)網(wǎng)絡(luò)模型較復(fù)雜,容易陷入局部極值,當(dāng)樣本量過小時(shí)很難提高訓(xùn)練準(zhǔn)確率;單一使用決策樹模型在小樣本情況下容易產(chǎn)生欠擬合,且剪枝條件等參數(shù)較難確定。綜合考慮以上因素,采用Adaboost集成學(xué)習(xí)算法對(duì)CART模型進(jìn)行優(yōu)化,建立Adaboost-CART模型,克服單一CART模型在數(shù)據(jù)樣本過小情況下精度不足的問題,提高單一CART模型的準(zhǔn)確性,并應(yīng)用于動(dòng)臥列車客座率預(yù)測(cè)。

1 Adaboost-CART模型原理

1.1 CART模型及特征選擇

決策樹模型是通過一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類或回歸的過程,判斷依據(jù)是樣本數(shù)據(jù)的特征值,如果不考慮效率等因素,樣本所有特征的判斷終會(huì)將某個(gè)樣本分到一個(gè)類上。實(shí)際上,樣本所有特征中有一些特征在分類時(shí)起到?jīng)Q定性作用,決策樹的構(gòu)造過程就是找到這些具有決定性作用的特征,根據(jù)其決定性程度構(gòu)造1個(gè)倒立的樹,決定性作用最大的那個(gè)特征作為根節(jié)點(diǎn),然后遞歸找到各分支下子數(shù)據(jù)集中次大的決定性特征,直至子數(shù)據(jù)集中所有數(shù)據(jù)都屬于同一類。

CART模型屬于決策樹模型的一種,在信息熵(ID3)、信息增益比(C4.5)等傳統(tǒng)特征切分準(zhǔn)則基礎(chǔ)上,采用基尼系數(shù)(Gini系數(shù))來選取合適的特征作為切分節(jié)點(diǎn),通過二元遞歸分割的方式形成一個(gè)優(yōu)化的二叉樹,進(jìn)而實(shí)現(xiàn)分類或回歸。Gini系數(shù)是對(duì)當(dāng)前特征不純性的度量,該特征包含的類別雜亂度越低,Gini系數(shù)就越小,優(yōu)先選擇Gini系數(shù)小的特征作為分類特征。假設(shè)有K個(gè)類別,第k個(gè)類別的概率為pk,則Gini系數(shù)表達(dá)式為:

為簡(jiǎn)化計(jì)算,CART模型每次僅對(duì)某個(gè)特征的值進(jìn)行二分,而不是多分,這樣建立的是二叉樹,相應(yīng)Gini系數(shù)表達(dá)式為:

CART分類樹輸出結(jié)果為離散值,當(dāng)使用CART模型輸出樣本為連續(xù)值時(shí),便是CART回歸樹,此時(shí)采用方差的方式選擇特征和特征值劃分點(diǎn)。CART回歸樹中任意劃分特征A,對(duì)應(yīng)任意劃分點(diǎn)s兩邊劃分的數(shù)據(jù)集為D1和D2,求出使D1、D2集合的方差和最小時(shí)的特征和特征值劃分點(diǎn),表達(dá)式為:

式中:c1為D1數(shù)據(jù)集的樣本輸出均值;c2為D2數(shù)據(jù)集的樣本輸出均值;A為任意特征;s是特征A的一個(gè)劃分點(diǎn);xi為樣本值;yi為模型輸出值。

1.2 Adaboost集成學(xué)習(xí)算法

CART模型具有很強(qiáng)的泛化能力,受到異常數(shù)據(jù)影響較小,但與所有大樣本統(tǒng)計(jì)方法相同,當(dāng)樣本量較小時(shí)模型不穩(wěn)定。使用Adaboost集成學(xué)習(xí)算法能夠使CART模型重復(fù)使用樣本數(shù)據(jù),并通過集成多個(gè)CART模型做出最終預(yù)測(cè),不僅提高了準(zhǔn)確率,還增強(qiáng)了CART模型處理小樣本數(shù)據(jù)的穩(wěn)定性,從而改進(jìn)預(yù)測(cè)效果。以CART模型作為弱學(xué)習(xí)器,利用Adaboost集成學(xué)習(xí)算法對(duì)多個(gè)CART模型進(jìn)行集成,最終組合成一個(gè)強(qiáng)學(xué)習(xí)器,并利用該強(qiáng)學(xué)習(xí)器預(yù)測(cè)動(dòng)臥列車客座率。

Adaboost集成學(xué)習(xí)算法是Boosting算法的一個(gè)分支,先訓(xùn)練出1個(gè)弱學(xué)習(xí)器,根據(jù)結(jié)果誤差率更新樣本的權(quán)重,增加誤差率高的樣本的權(quán)重,根據(jù)調(diào)整權(quán)重后的樣本訓(xùn)練出第2個(gè)弱學(xué)習(xí)器,如此迭代循環(huán),直到訓(xùn)練出T個(gè)弱學(xué)習(xí)器,最終通過集合策略將這T個(gè)弱學(xué)習(xí)器進(jìn)行整合,成為一個(gè)強(qiáng)學(xué)習(xí)器。主要步驟為:

(1)假設(shè)有樣本集T={(X1,Y1),(X2,Y2),…,(Xm,Ym)},弱學(xué)習(xí)器G(x),將樣本集T帶入G(x)訓(xùn)練,迭代次數(shù)為K。

(2)初始化樣本集權(quán)重D1=(W11,W12,W13,...,W1m)。

(3)使用具有權(quán)重Dk的樣本集進(jìn)行訓(xùn)練,得到弱學(xué)習(xí)器Gk(x)。

(4)計(jì)算訓(xùn)練集的最大誤差Ek=max| yi- Gk(xi)|,i=1,2,…,m。

式中Zk為規(guī)范化因子,

(9)重復(fù)上述過程,設(shè)定迭代次數(shù)閾值,最終組合成強(qiáng)學(xué)習(xí)器,該學(xué)習(xí)器為f(x)=∑akGk(x)。

2 實(shí)例應(yīng)用

2.1 特征選擇與樣本數(shù)據(jù)

旅客列車客座率的影響因素主要有季節(jié)周期、旅客需求變化、價(jià)格需求彈性、宏觀經(jīng)濟(jì)影響等。目前,

我國(guó)動(dòng)臥列車開行區(qū)間主要為京滬、京廣(深)、滬深、滬西、京昆等[10],運(yùn)行距離較長(zhǎng),主要競(jìng)爭(zhēng)對(duì)手為同區(qū)間的航空客運(yùn)。短期來看,航空票價(jià)水平直接影響動(dòng)臥列車的客座率。航空票價(jià)隨預(yù)售期、航班種類、機(jī)型、附加服務(wù)等的不同而動(dòng)態(tài)調(diào)整。選取某個(gè)固定的價(jià)格指標(biāo)或某個(gè)時(shí)點(diǎn)的價(jià)格指標(biāo)作為參考基準(zhǔn)代表性較差,通過大量跟蹤統(tǒng)計(jì)發(fā)現(xiàn),經(jīng)濟(jì)艙比其他艙位更具有價(jià)格代表性,可以反映航空票價(jià)的整體水平。

因此,在整個(gè)預(yù)售期內(nèi),每隔固定時(shí)間對(duì)所有航班經(jīng)濟(jì)艙最低票價(jià)進(jìn)行一次記錄,并計(jì)算出記錄時(shí)刻對(duì)應(yīng)始發(fā)日期的經(jīng)濟(jì)艙最低票價(jià)的平均數(shù)、中位數(shù)、眾數(shù)3個(gè)指標(biāo)。最后,將最終時(shí)刻(選取始發(fā)日期的前一天)的經(jīng)濟(jì)艙票價(jià)平均數(shù)、中位數(shù)、眾數(shù)和當(dāng)日動(dòng)臥列車票價(jià)水平確定為Adaboost-CART模型的4個(gè)特征指標(biāo)。將選取的樣本數(shù)據(jù)輸入CART模型,按照均方差最小的原則對(duì)上述4個(gè)特征指標(biāo)進(jìn)行連續(xù)二分,最后形成1個(gè)倒立的二叉樹模型,即CART回歸模型。此時(shí)CART回歸模型是一個(gè)弱學(xué)習(xí)器,容易導(dǎo)致過擬合,因而預(yù)測(cè)精度不高。按照Adaboost集成學(xué)習(xí)算法原理,對(duì)該CART回歸模型進(jìn)行迭代優(yōu)化,每次迭代時(shí)通過增加誤差較大的樣本的權(quán)重,產(chǎn)生一組新的訓(xùn)練樣本,將新的訓(xùn)練樣本輸入CART模型重新訓(xùn)練,產(chǎn)生新的學(xué)習(xí)器,最后綜合考慮迭代次數(shù)和誤差率,將所有學(xué)習(xí)器按照權(quán)重組合為一個(gè)強(qiáng)學(xué)習(xí)器,并對(duì)動(dòng)臥列車客座率進(jìn)行最終預(yù)測(cè)。

樣本數(shù)據(jù)方面,選取116 d的數(shù)據(jù)(116組數(shù)據(jù))作為研究對(duì)象,形成116×5的數(shù)據(jù)矩陣,其中,前4列為每個(gè)樣本對(duì)應(yīng)的4個(gè)特征指標(biāo),最后1列為對(duì)應(yīng)的動(dòng)臥列車客座率(以京滬動(dòng)臥列車為例)。京滬動(dòng)臥列車日客座率分布見圖1,可看出動(dòng)臥列車日客座率主要集中在60%~80%,其次為40%~60%。動(dòng)臥列車客座率最低為16.9%、最高為95.3%,中位數(shù)為66.3%,平均值為65.3%。

圖1 京滬動(dòng)臥列車日客座率分布

2.2 訓(xùn)練模型

利用前100組樣本數(shù)據(jù)訓(xùn)練Adaboost-CART模型,后16組樣本數(shù)據(jù)進(jìn)行模型檢驗(yàn)。通過參數(shù)的反復(fù)調(diào)整,確定迭代次數(shù)為500、學(xué)習(xí)率為0.5時(shí)達(dá)到相對(duì)誤差最小的目標(biāo)。前100組樣本數(shù)據(jù)擬合結(jié)果與實(shí)際值對(duì)比見圖2。

圖2 前100組樣本數(shù)據(jù)擬合值與實(shí)際值對(duì)比

2.3 結(jié)果分析

利用訓(xùn)練好的模型對(duì)后16組樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),并比較預(yù)測(cè)值與實(shí)際值(見圖3)。為便于比較和分析,同時(shí)采用單一CART模型和多元回歸模型進(jìn)行預(yù)測(cè),結(jié)果見表1。其中每個(gè)樣本的預(yù)測(cè)誤差由|預(yù)測(cè)值-實(shí)際值|/實(shí)際值×100%計(jì)算得出,誤差平均值為16個(gè)樣本預(yù)測(cè)誤差的算術(shù)平均值。

圖3 Adaboost-CART模型預(yù)測(cè)值與實(shí)際值對(duì)比

表1 不同模型預(yù)測(cè)結(jié)果 %

由圖3和表1可知,基于Adaboost-CART模型對(duì)京滬動(dòng)臥列車客座率預(yù)測(cè)的誤差平均值為6.0%,顯著小于單一CART模型的11.8%和多元回歸模型的13.6%,說明Adaboost-CART模型有較高的準(zhǔn)確率。

Adaboost集成學(xué)習(xí)算法的核心是通過不停的迭代優(yōu)化弱學(xué)習(xí)器,將幾個(gè)弱學(xué)習(xí)器最終組合成一個(gè)強(qiáng)學(xué)習(xí)器。為了研究迭代次數(shù)對(duì)模型預(yù)測(cè)精度的影響,進(jìn)行了20次試驗(yàn)。在學(xué)習(xí)率為0.5的基礎(chǔ)上,第一次試驗(yàn)迭代次數(shù)為50次,第二次試驗(yàn)迭代次數(shù)為100次,以此類推,最后一次試驗(yàn)迭代次數(shù)為1 000次。計(jì)算每次試驗(yàn)的誤差率(見圖4),可知,隨著迭代次數(shù)的增加,預(yù)測(cè)結(jié)果的誤差率迅速下降,在迭代次數(shù)為500次時(shí)達(dá)到最小,同時(shí),迭代次數(shù)超過200次后,預(yù)測(cè)結(jié)果誤差率基本穩(wěn)定在一個(gè)范圍內(nèi),上下波動(dòng)。由此也進(jìn)一步驗(yàn)證,Adaboost-CART模型比單一CART模型在預(yù)測(cè)精度上有優(yōu)勢(shì)。

圖4 迭代次數(shù)與誤差率關(guān)系

迭代次數(shù)的增加也意味著模型變得更復(fù)雜,需要消耗更大的計(jì)算能力。因此,需要根據(jù)實(shí)際情況合理確定迭代次數(shù),實(shí)現(xiàn)計(jì)算復(fù)雜度和精度的平衡。

3 結(jié)論

以CART模型作為弱學(xué)習(xí)器,采用Adaboost集成學(xué)習(xí)算法進(jìn)行集成,通過調(diào)整樣本數(shù)據(jù)權(quán)重和不斷迭代,對(duì)弱學(xué)習(xí)器持續(xù)改進(jìn),最終訓(xùn)練出一個(gè)強(qiáng)學(xué)習(xí)器。

按照固定的時(shí)間間隔對(duì)京滬區(qū)間航空經(jīng)濟(jì)艙最低票價(jià)進(jìn)行統(tǒng)計(jì),計(jì)算出對(duì)應(yīng)每個(gè)始發(fā)日期航空經(jīng)濟(jì)艙最低票價(jià)的平均數(shù)、中位數(shù)、眾數(shù),并與京滬動(dòng)臥列車票價(jià)一同作為特征值輸入訓(xùn)練后的模型,對(duì)動(dòng)臥列車客座率進(jìn)行預(yù)測(cè)。結(jié)果表明:采用Adaboost-CART模型能夠較好地對(duì)動(dòng)臥列車客座率進(jìn)行預(yù)測(cè),且預(yù)測(cè)效果相比單一CART模型、多元回歸模型有較大提升,驗(yàn)證了所提出模型的有效性和可靠性。

隨著迭代次數(shù)的增加,模型預(yù)測(cè)誤差率快速下降,但達(dá)到一定迭代次數(shù)后,誤差率穩(wěn)定在一個(gè)區(qū)間范圍內(nèi),上下波動(dòng)。隨著迭代次數(shù)的增加,模型的復(fù)雜程度和所需的計(jì)算量也相應(yīng)增長(zhǎng),如何選擇迭代次數(shù)與模型精度的平衡點(diǎn)需要進(jìn)一步研究。

猜你喜歡
客座率誤差率次數(shù)
提升高鐵列車開行效益的實(shí)踐與思考
2020年,我國(guó)汽車召回次數(shù)同比減少10.8%,召回?cái)?shù)量同比增長(zhǎng)3.9%
俄羅斯是全球閱兵次數(shù)最多的國(guó)家嗎?
生化檢驗(yàn)全程中質(zhì)量控制管理方式及應(yīng)用意義
降低評(píng)吸人員單料煙感官評(píng)分誤差率探討
航空:上半年各航司運(yùn)營(yíng)數(shù)據(jù)解析
南航迎旺季 油價(jià)跌利好
航空:客座率同比改善
無線傳感器網(wǎng)絡(luò)定位算法在環(huán)境監(jiān)測(cè)中的應(yīng)用研究
探索性作戰(zhàn)仿真實(shí)驗(yàn)重復(fù)次數(shù)控制研究
巴彦淖尔市| 云安县| 十堰市| 南川市| 大余县| 屏东县| 苍梧县| 黄骅市| 张家界市| 伊金霍洛旗| 贡觉县| 克什克腾旗| 大新县| 鲁甸县| 澎湖县| 称多县| 通渭县| 邛崃市| 鹤壁市| 青冈县| 安新县| 邳州市| 平泉县| 临高县| 宁武县| 墨玉县| 筠连县| 金溪县| 康马县| 乌拉特中旗| 阳西县| 舟山市| 自贡市| 兴海县| 宁河县| 井冈山市| 渭源县| 涞水县| 手游| 汉沽区| 中卫市|