国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主成分分析與多元線性回歸模型的鐵路貨運需求預測

2020-02-03 02:39:08孟祥愛宋欣悅
電子技術與軟件工程 2020年19期
關鍵詞:貨運量關聯(lián)度線性

孟祥愛 宋欣悅

(北京交通大學計算機與信息技術學院 北京市 100044)

我國鐵路發(fā)展起步很早,鐵路網(wǎng)相對完善,鐵路貨運歷史也很悠長。據(jù)中國國家鐵路集團有限公司統(tǒng)計,2019年全國鐵路固定資產(chǎn)投資完成8029 億元,超額完成年初確定的8000 億元任務,創(chuàng)下了近4年的最高值。同時2019年全國鐵路投產(chǎn)鐵路新線8489 公里。截至2019年底,全國鐵路營業(yè)里程達到13.9 萬公里以上。隨著鐵路交通的不斷發(fā)展,鐵路貨運在我國貨運體系中逐步占據(jù)關鍵地位。2019年,國家鐵路完成貨物發(fā)送量34.4 億噸,創(chuàng)歷史新高,同比增長7.8%。根據(jù)中鐵總的《三年行動方案》,到2020年,國家鐵路貨運量預期達到37.18 億噸。這意味著,2020年國家鐵路貨運量比2019年將增加8.1%。未來鐵路交通將進一步發(fā)展,鐵路貨運需求也將會繼續(xù)保持增長趨勢。

在鐵路貨運需求態(tài)勢持續(xù)增長的情況下,鐵路貨運需求預測變得尤為重要,一方面,相對準確的預測結(jié)果對鐵路相關部門的決策可以提供一定的依據(jù),對全國鐵路固定資產(chǎn)投資具有指導作用,另一方面,我國鐵路市場環(huán)境復雜,鐵路貨運量影響因素在持續(xù)變化,科學準確的預測方法更加必要。

對鐵路貨運需求進行預測,首先應當對鐵路貨運的影響因素進行分析,如宏觀經(jīng)濟指標、大宗貨物產(chǎn)量、其他運輸方式之間的聯(lián)系等。文獻[1]將鐵路貨運需求預測方法分為以下幾類[1]:時間序列法、影響因素法、組合預測法、四階段法、機器學習法共五類,本文使用的方法為組合預測法,即通過灰色關聯(lián)分析法和主成分分析法對已有的數(shù)據(jù)進行學習,找到數(shù)據(jù)間的依賴關系,使用多元線性回歸模型對未知的數(shù)據(jù)進行預測,觀察擬合值,計算相對誤差,得到模型精度。

1 鐵路貨運量影響因素及其關聯(lián)度分析

1.1 影響因素

由于鐵路貨運需求量是一個復雜的變量,為了更準確地對鐵路貨運量進行預測,應當綜合全面地考慮鐵路貨運量的影響因素,但由于鐵路貨運量影響因素眾多[2],部分影響因素的關聯(lián)度相對較小,全部考慮則成本較大,因此本文選擇文獻[3]中灰色關聯(lián)分析和ARDL 模型實證分析出的主要影響因素:國內(nèi)生產(chǎn)總值、工業(yè)增加值、第二產(chǎn)業(yè)增加值、公路貨運量、進出口總額、鐵路營業(yè)里程、工業(yè)增加值占國內(nèi)生產(chǎn)總值比重、第二產(chǎn)業(yè)增加值占國內(nèi)生產(chǎn)總值比重共七個影響因素[3],通過下節(jié)介紹的灰色關聯(lián)分析定量分析,得到各個影響因素與鐵路貨運量之間的關聯(lián)度數(shù)據(jù),進而得到與鐵路貨運量關聯(lián)最大的影響因素。如表1所示。

其中公路貨運量與鐵路貨運量是平行維度,國內(nèi)生產(chǎn)總值、工業(yè)增加值、第二產(chǎn)業(yè)增加值屬于宏觀因素,此外貨運量還應合理考慮各個影響因素對鐵路貨運量需求的影響,比如哪些是正影響,哪些是負影響,這些都在一定程度上對最終擬合效果的準確性有指導決定作用。

1.2 灰色關聯(lián)分析

灰色關聯(lián)分析法被廣泛應用于鐵路貨運量預測當中,因此在介紹主成分分析法之前,首先介紹灰色關聯(lián)分析方法,將灰色關聯(lián)分析得到的關聯(lián)度較高的影響因素應用到主成分分析法中,得到相應的主成分,最終將其得到的主成分替換多元線性回歸分析中的各個影響因素,觀察擬合值與相對誤差。

灰色關聯(lián)分析的基本思想是在建立確定反映系統(tǒng)行為特征的參考序列和影響系統(tǒng)行為的比較序列的基礎上,計算比較序列相對于參考序列曲線幾何形狀的關聯(lián)度,由此判斷自變量與因變量之間的關系[4]。

灰色關聯(lián)分析的具體計算步驟如下:

第一步:確定分析數(shù)列。對于本文來講及確定哪些是影響因素(自變量),又稱為比較數(shù)列,哪個是鐵路貨運需求量(因變量),又稱為參考數(shù)列。

第二步,變量的無量綱化。在進行灰色關聯(lián)度分析時,需要對數(shù)據(jù)進行無量綱化處理[5],防止因為影響因素的不便于比較的問題而難以得出正確的結(jié)論。

第三步,計算關聯(lián)系數(shù)

其中ρ即為相對關聯(lián)系數(shù),其中θ∈(0,∞),稱為合成系數(shù)。θ越小,分辨力越大,一般θ 的取值區(qū)間為(0,1),具體取值可視情況而定。當θ ≤0.5463 時,分辨力最好,通常取θ=0.5。

第四步,計算關聯(lián)度。因為關聯(lián)系數(shù)是比較數(shù)列(自變量)與參考數(shù)列(因變量)在各個時刻(即曲線中的各點)的關聯(lián)程度值,因此得到的數(shù)據(jù)很多,而信息過于分散不便于進行整體性比較。因此有必要將各個時刻(即曲線中的各點)的關聯(lián)系數(shù)集中為一個值,即求其平均值,作為比較數(shù)列與參考數(shù)列間關聯(lián)程度的數(shù)量表示,關聯(lián)度記為ri[6]。

第五步,關聯(lián)度排序。關聯(lián)度按大小排序,如果r1<r2,則參考數(shù)列y 與比較數(shù)列x2 更相似。關聯(lián)度越接近1,則說明該影響因素與鐵路貨運需求量之間的關系越親密,及自變量對因變量的影響最大。在算出Xi(k)序列與Y(k)序列的關聯(lián)系數(shù)后,計算各類關聯(lián)系數(shù)的平均值,平均值ri 就稱為Y(k)與Xi(k)的關聯(lián)度。

根據(jù)灰色關聯(lián)分析,得到各個影響因素的關聯(lián)度如表2,并進行排序,可以看到各個影響因素與鐵路貨運量的關聯(lián)度都達到了0.5以上,其中公路貨運量對鐵路貨運量的影響是幾個影響因素中最大的,其次是鐵路營業(yè)里程和工業(yè)增加值,而第二產(chǎn)業(yè)增加值占國內(nèi)生產(chǎn)總值比重和工業(yè)增加值占國內(nèi)生產(chǎn)總值比重的影響則最小,這也為今后的決策制定提供了方向。

表1:2000~2019年我國宏觀經(jīng)濟與綜合交通運輸體系各指標的年度數(shù)據(jù)

表2:2000~2019年鐵路貨運量與各變量的灰色關聯(lián)分析結(jié)果

表3:主成分分析法成分矩陣

1.3 主成分分析法

主成分分析[7]就是用較少的變量去解釋原來資料中的大部分數(shù)據(jù),將很多相關性很高的變量轉(zhuǎn)化成彼此相互獨立或不相關的變量。通常是選出比原始變量個數(shù)少,能解釋大部分變量的幾個新變量,稱為主成分,并用以解釋數(shù)據(jù)變化的綜合性指標。主成分分析實際上是一種降維方法,在力保數(shù)據(jù)信息丟失少的原則下,對多個變量數(shù)據(jù)進行最佳綜合簡化,即對高維變量空間進行降維處理[8]。

主成份分析是最經(jīng)典的基于線性分類的分類系統(tǒng)[9]。這個分類系統(tǒng)的最大特點就是利用線性擬合的思路把分布在多個維度的高維數(shù)據(jù)投射到幾個軸上。如果每個樣本只有兩個數(shù)據(jù)變量,這種擬合就是線性擬合。

表4:一元線性回歸分析模型得到的擬合值

表5:多元線性回歸分析模型得到的擬合值(共六個影響因素)

表6:基于主成分分析法與多元線性回歸分析模型的擬合值

a1x1+a2x2=P 其中x1和x2分別是樣本的兩個變量,而a1和a2則被稱為loading,計算出的P 值就被稱為主成份。實際上,當一個樣本只有兩個變量的時候,主成份分析本質(zhì)上就是做一個線性回歸。公式a1x1+a2x2=P 本質(zhì)上就是一條直線。如果一個樣本有n 個變量,那主成份就變?yōu)椋篴1x1+a2x2+......+anxn=PC1,其中PC1稱為第一主成份,以此類推可以得到第二主成分、第三主成分等。

將灰色關聯(lián)分析得到的影響因素帶入,得到主成分得分系數(shù)矩陣如表3。

2 基于多元線性回歸模型進行鐵路貨運量需求預測

2.1 多元回歸分析模型

2.1.1 多元回歸分析模型簡述所謂回歸分析法,就是在掌握大量觀察數(shù)據(jù)基礎上,利用數(shù)理統(tǒng)計方法建立因變量與自變量之間的回歸關系函數(shù)表達式(簡稱為回歸方程式)?;貧w分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測值)之間的關系,這種因變量與自變量的不確定性的關系(相關性關系)。這種技術通常用于預測分析,時間序列模型以及發(fā)現(xiàn)變量之間的因果關系。

一元線性回歸指的是只有兩個變量x 與y,其中x 為自變量,y 為因變量。并且y 與x 成某種線性關系。這樣的情況我們稱其為一元線性回歸問題。其基本形式為:Y=a+bx+c

其中,a、b 均為參數(shù)項。c 為隨機變量,因為在兩組變量之間,是無法滿足嚴格的線性關系的。所以,此項是補齊線性關系之中誤差,也稱為擾動項。想要擬合線性關系,兩組變量需要滿足一一對應關系,相當于形成若干組鍵值對。但想要線性回歸真實可靠還需要注意,所有的擾動項還需要保持同方差、正態(tài)分布、互相獨立、零均值的情況才能保證線性回歸所估計出的值是真實可靠的數(shù)值。對于自變量X 的要求則是非隨機保證其為確定性變量。還需要保證自變量與擾動項之間不相關,若存在相關關系只可能是線性方程中參數(shù)估值存在誤差。對于所有的擾動項分布都要遵循正態(tài)分布,如圖所示。只有這樣線性回歸所估計出的模型才可以采信。

在對函數(shù)進行擬合之后,我們可以得到一個線性模型:y=a+bx。其中,a 與b 是參數(shù)a 和b 的擬合值。y 是y 的估計值,也稱回歸值。其中,我們采用的同一個總體之中的不同樣本集也會得到不同的回歸直線。樣本集越大,樣本回歸直線越接近總體回歸直線。所以,我們在訓練線性模型的時候選取合適的樣本大小可以得到一個較為精確的回歸直線。

為了獲取線性參數(shù)a 和b,可以選擇最小二乘法,通過最小化真實值與估計值的誤差平方和(MSE)來進行模型的判定。代價函數(shù)為下式:

得到關于擬合參數(shù)a 與b 的函數(shù)后,要求此函數(shù)極值要對兩個參數(shù)分別求偏導,并使其偏導數(shù)為0。在此情況下求出的參數(shù)即為模型的擬合參數(shù)。在一元線性回歸之中,選擇這樣的方式是比較簡便的。但在多元模型中,正規(guī)方程求解的辦法就會比較消耗時間,這時我們往往會選擇梯度下降法來求多元函數(shù)的極值。求解后可得:

上述結(jié)果即為通過正規(guī)方程求解法得出的,一元線性回歸擬合參數(shù)值。

多元線性回歸的主要特點是,自變量不再是一組數(shù)據(jù),而是由多于一組以上的數(shù)據(jù)作為自變量。所以,多元線性回歸的模型形式為:

多元線性回歸方程與一元線性回歸方程一樣,通過最小二乘法進行參數(shù)估計。所以我們可以得出下式:

通過對此式求極值,可以得到一個針對不同參數(shù)求導的方程組,我們對這個方程組進行整理,將方程組所有的數(shù)據(jù)項進行展開,并參照矩陣乘法的方法,對所得出的式子繼續(xù)化簡,并得出參數(shù)矩陣b 的求解式子:

2.1.2 實驗結(jié)果分析

由于2008年之前的實際值與當前實際值相差較多,且年代久遠,近年來各影響因素都發(fā)生了很大的變化,因此參考意義不大,本文選用08年~19年共十二年的數(shù)據(jù),首先構建一元線性回歸模型對數(shù)據(jù)進行擬合,觀察擬合值,求得相對誤差如表4所示。

如表4,平均相對誤差為6.40%,由此可見使用關聯(lián)度最大的公路貨運量為影響因素得到的一元線性回歸模型擬合效果一般。

表5 為使用關聯(lián)度0.55 以上的影響因素:公路貨運量、鐵路營業(yè)里程、工業(yè)增加值、第二產(chǎn)業(yè)增加值、國內(nèi)生產(chǎn)總值、進出口總額(共六個),構建多元線性回歸模型得到的擬合值與相對誤差。

平均相對誤差為0.86%,擬合效果較好。而采用主成分分析法與多元線性回歸模型得到的結(jié)果如表6所示。

平均相對誤差為0.75%,為幾種方法中擬合效果最好的。

2.2 預測結(jié)果比較分析

通過對比一元線性回歸模型、灰色關聯(lián)分析與多元線性回歸模型結(jié)合、主成分分析法與多元線性回歸模型結(jié)合得到的擬合值與相對誤差,可以看出基于主成分分析法與多元線性回歸模型的擬合效果是最好的,一元線性回歸模型擬合效果較差,這也驗證了鐵路貨運需求量受多方影響,是一個很復雜的因變量,在預測過程中需要我們綜合考慮多方面的影響因素,才能更科學準確地進行預測,只考慮一種很難得到理想的結(jié)果?;谥鞒煞址治龇ㄅc多元線性回歸模型的方法綜合考慮了多種影響因素,因此有較好的擬合效果。

3 結(jié)論與展望

本文采用主成分分析與多元線性回歸模型結(jié)合的方法對鐵路年度貨運量進行預測,既可以解決影響因素的冗余的問題,又可以綜合考慮影響因素的影響,不會漏掉關鍵影響因素。主要實驗過程為首先對鐵路貨運需求相關的影響因素進行灰色關聯(lián)分析,并按關聯(lián)度大小排序,選出影響因素中關聯(lián)度較大的幾種,然后采用主成分分析法得到相關主成分,帶入多元線性回歸模型中,觀察擬合值與預測值,計算相對誤差。同時使用一元線性回歸模型、灰色關聯(lián)分析與多元線性回歸模型對處理過的數(shù)據(jù)集進行分析,同樣得到相應年份數(shù)據(jù)的擬合值,計算出相對誤差。形成對比試驗,通過比較相對誤差,得出結(jié)論基于主成分分析法與多元線性回歸模型的擬合效果是最好的,這種模型綜合考慮了所有影響因素,又避免了信息冗余,在鐵路年度貨運量的預測中有較好的結(jié)果,相對誤差可達0.75%。

同時本文存在一定的局限性,未能將此方法應用在月度數(shù)據(jù),或具體某一物品的年度鐵路貨運量預測上,如煤炭、鐵礦石等,可在今后的實驗中驗證此種方法是否適用于其他場景。

猜你喜歡
貨運量關聯(lián)度線性
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
線性回歸方程的求解與應用
二階線性微分方程的解法
2017年上半年拉脫維亞港口貨運量同比增長7%
基于灰色關聯(lián)度的水質(zhì)評價分析
基于灰關聯(lián)度的鋰電池組SOH評價方法研究
電源技術(2015年11期)2015-08-22 08:50:18
基于灰色關聯(lián)度的公交線網(wǎng)模糊評價
河南科技(2014年16期)2014-02-27 14:13:25
廣義區(qū)間灰數(shù)關聯(lián)度模型
具有θ型C-Z核的多線性奇異積分的有界性
布尔津县| 县级市| 广汉市| 共和县| 喜德县| 平江县| 金华市| 汉阴县| 老河口市| 南开区| 邛崃市| 宿迁市| 当阳市| 通江县| 北宁市| 沁水县| 镇江市| 惠安县| 九寨沟县| 云林县| 德钦县| 清远市| 黄浦区| 唐山市| 比如县| 万宁市| 云梦县| 靖宇县| 玛多县| 北流市| 濉溪县| 曲阳县| 蒲江县| 肇东市| 陇川县| 平山县| 兰溪市| 上犹县| 阳山县| 南江县| 贡觉县|