馮耀 梅曉 呂燕賓 丁沂
摘要:航班延誤預(yù)測(cè)在航空領(lǐng)域有著廣泛的應(yīng)用,不僅可以減少航空公司在經(jīng)濟(jì)和信譽(yù)等方面的損失,而且可以給旅客提供更多的便利和更好的服務(wù)。利用線性回歸方法設(shè)計(jì)一個(gè)Web服務(wù),用來(lái)預(yù)測(cè)航班是否延誤。用戶(hù)輸入航班號(hào)、出發(fā)時(shí)間、出發(fā)機(jī)場(chǎng)和到達(dá)機(jī)場(chǎng),系統(tǒng)利用航班的歷史記錄和天氣等信息預(yù)測(cè)航班到港時(shí)間。
關(guān)鍵詞:航班延誤預(yù)測(cè);線性回歸模型;Web服務(wù);訓(xùn)練;測(cè)試
隨著社會(huì)和經(jīng)濟(jì)發(fā)展以及人們生活水平的提高,越來(lái)越多的人開(kāi)始去國(guó)內(nèi)外發(fā)展生意或旅游。為了更加便利、省時(shí),在選擇出行工具時(shí),多數(shù)人都會(huì)選擇搭乘航旅工具。近年來(lái)隨著空中航班航行次數(shù)的增加,航班延誤成為航旅中不可避免的一個(gè)問(wèn)題。如果能夠提前預(yù)知航班的延誤,那么必然可以采取應(yīng)對(duì)措施來(lái)減少由于延誤影響帶來(lái)的經(jīng)濟(jì)和信譽(yù)的損失,從而提高用戶(hù)的滿(mǎn)意度。
影響航班延誤的因素很多,比如出發(fā)機(jī)場(chǎng)、出發(fā)機(jī)場(chǎng)的天氣、飛機(jī)機(jī)型、出發(fā)時(shí)間、飛行過(guò)程中的天氣情況、到達(dá)機(jī)場(chǎng)、到達(dá)機(jī)場(chǎng)的天氣等等,其原因很復(fù)雜,且多屬不確定因素,航班延誤問(wèn)題一直不能有效解決。航班延誤主要分為出發(fā)延誤和到達(dá)延誤,通過(guò)對(duì)航班測(cè)試數(shù)據(jù)集的分析發(fā)現(xiàn),航班的出發(fā)延誤時(shí)間和到達(dá)延誤時(shí)間之間有明顯的線性相關(guān)性,而且出發(fā)延誤比到達(dá)延誤受到的影響因素要少得多。因此,只要能合理預(yù)測(cè)出航班的出發(fā)延誤,就能根據(jù)這種關(guān)系推理出航班的到達(dá)延誤。
1 線性回歸分析
在統(tǒng)計(jì)學(xué)中,線性回歸是利用線性回歸方程的最小平方函數(shù)對(duì)一個(gè)或多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。這種函數(shù)是一個(gè)或多個(gè)回歸系數(shù)的模型參數(shù)的線性組合?;貧w分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱(chēng)為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱(chēng)為多元線性回歸分析。在線性回歸中,數(shù)據(jù)使用線性預(yù)測(cè)函數(shù)來(lái)建模,并且未知的模型參數(shù)也是通過(guò)數(shù)據(jù)來(lái)估計(jì),這些模型被叫作線性模型。最常用的線性回歸建模是給定x值的Y的條件均值是x的仿射函數(shù)。不太一般的情況,線性回歸模型可以是一個(gè)中位數(shù)或一些其他的給定X的條件下Y的條件分布的分位數(shù)作為x的線性函數(shù)表示。像所有形式的回歸分析一樣,線性回歸也把焦點(diǎn)放在給定X值的Y的條件概率分布,而不是X和Y的聯(lián)合概率分布(多元分析領(lǐng)域)。
2 基于線性回歸的航班延誤預(yù)測(cè)模型
2.1 線性回歸模型的建立
通過(guò)對(duì)數(shù)據(jù)集的分析發(fā)現(xiàn),航班的出發(fā)延誤與到達(dá)延誤之間有明顯的線性相關(guān)性(見(jiàn)圖1),可以使用線性回歸模型來(lái)預(yù)測(cè)航班的到達(dá)延誤,具體的公式為:航班到達(dá)延誤=參數(shù)1×航班出發(fā)延誤+參數(shù)2,可以通過(guò)最小二乘法來(lái)估計(jì)模型的參數(shù)。一旦利用測(cè)試數(shù)據(jù)估計(jì)出最優(yōu)的參數(shù)1和參數(shù)2,就可以將航班出發(fā)延誤帶入公式計(jì)算出航班到達(dá)延誤。
2.2 航班延誤預(yù)測(cè)算法
(1)輸入航班號(hào)、出發(fā)時(shí)間、出發(fā)機(jī)場(chǎng)、到達(dá)機(jī)場(chǎng),在測(cè)試數(shù)據(jù)中找到要預(yù)測(cè)的航班。
(2)根據(jù)該航班記錄的出發(fā)天氣,機(jī)型和機(jī)場(chǎng)等信息在訓(xùn)練數(shù)據(jù)中找到相近的數(shù)據(jù)并計(jì)算這些記錄的出發(fā)延誤時(shí)間。
(3)將這些相近數(shù)據(jù)的出發(fā)延誤時(shí)間的平均值作為要預(yù)測(cè)的航班的出發(fā)延誤時(shí)間。
(4)將出發(fā)延誤時(shí)間帶入線性回歸方程計(jì)算航班的到達(dá)延誤時(shí)間。
(5)如果航班到達(dá)延誤時(shí)間大于30分鐘,判斷該航班延誤。
3 實(shí)驗(yàn)分析
3.1 數(shù)據(jù)說(shuō)明及數(shù)據(jù)預(yù)處理
數(shù)據(jù)采用的是國(guó)內(nèi)多個(gè)機(jī)場(chǎng)的航班數(shù)據(jù),其中數(shù)據(jù)的時(shí)間是自2015年11月03日至2016年02月26日的119432條航班信息,每條航班包括航班號(hào),航空公司,出發(fā)機(jī)場(chǎng),出發(fā)城市,目的機(jī)場(chǎng),目的城市,航班日期,計(jì)劃起降時(shí)間與實(shí)際起降時(shí)間,經(jīng)停次數(shù),航線,機(jī)型,距離,最高溫度,最低溫度,天氣描述,風(fēng)向,風(fēng)力,空氣指數(shù),空氣質(zhì)量描述,空氣質(zhì)量級(jí)別等21個(gè)因素。
對(duì)航班原始數(shù)據(jù)進(jìn)行了幾步預(yù)處理操作:
(1)去除航班取消的情況。原始數(shù)據(jù)中存在實(shí)際到達(dá)時(shí)間為空的航班,即航班因故取消,或者未知等情況,對(duì)此就對(duì)包含該因素的數(shù)據(jù)不進(jìn)行考慮,于是把這些航班數(shù)據(jù)進(jìn)行了去除。
(2)選擇因素。在航班預(yù)測(cè)方面,希望這個(gè)數(shù)據(jù)是能夠?qū)︻A(yù)測(cè)的影響是比較大的,因素與航班延誤之間的相關(guān)性越大,對(duì)于預(yù)測(cè)幫助也就更大。刪除因素包括刪除原始數(shù)據(jù)中的重復(fù)因素和無(wú)關(guān)因素兩種,其中有些因素的性質(zhì)重復(fù),將其歸結(jié)到了重復(fù)因素;有些通過(guò)以往的數(shù)據(jù)和經(jīng)驗(yàn)判斷發(fā)現(xiàn)于航班延誤無(wú)關(guān)或者關(guān)聯(lián)不大,就將其分為無(wú)關(guān)因素。對(duì)原始數(shù)據(jù)的21個(gè)因素,我們進(jìn)行了篩選,最終發(fā)現(xiàn)航班的出發(fā)延誤時(shí)間和到達(dá)延誤時(shí)間之間有明顯的線性相關(guān)性,而且出發(fā)延誤比到達(dá)延誤受到的影響因素要少得多。因此,只要能合理預(yù)測(cè)出航班的出發(fā)延誤,就能根據(jù)這種關(guān)系推理出航班的到達(dá)延誤。
3.2 實(shí)驗(yàn)結(jié)果分析
測(cè)試數(shù)據(jù)總共82366條,均誤差為29.7分鐘。其中無(wú)延誤的數(shù)據(jù)(到達(dá)延誤時(shí)間小于30分鐘)69157條,延誤數(shù)據(jù)(到達(dá)延誤時(shí)間大于30分鐘)13209條,延誤數(shù)據(jù)占整個(gè)數(shù)據(jù)量的16%。對(duì)于沒(méi)有發(fā)生延誤的數(shù)據(jù),預(yù)測(cè)的數(shù)據(jù)準(zhǔn)確數(shù)為68093條,預(yù)測(cè)準(zhǔn)確率高達(dá)98%;對(duì)于延誤了的數(shù)據(jù),預(yù)測(cè)的準(zhǔn)確數(shù)為603條,預(yù)測(cè)準(zhǔn)確率4.6%;最終預(yù)測(cè)正確的數(shù)據(jù)為68696條,其中預(yù)測(cè)錯(cuò)誤的條數(shù)為13670條,錯(cuò)誤率為16.5%。
另外,預(yù)測(cè)值和實(shí)際值相差絕對(duì)值在30分鐘內(nèi)的有61985條;預(yù)測(cè)值和實(shí)際值相差絕對(duì)值在50分鐘內(nèi)的有9888條;預(yù)測(cè)值和實(shí)際值相差絕對(duì)值在100分鐘內(nèi)有6253條;預(yù)測(cè)值和實(shí)際值相差絕對(duì)值在100分鐘以上有4240條。
4 Web服務(wù)開(kāi)發(fā)
4.1 開(kāi)發(fā)工具和環(huán)境
處理器:Inter(R)Core(TM) i7-4710MQ CPU@2.5GHz
內(nèi)存:4.00GB
系統(tǒng)類(lèi)型:64位
硬盤(pán):500G
操作系統(tǒng):Windows 10
開(kāi)發(fā)及運(yùn)行環(huán)境:Visual Studio 2015、Microsoft.NETFramework 4.0
4.2 系統(tǒng)功能及運(yùn)行
(1)輸入接口:http GET請(qǐng)求形:http://[hostname]/query?flightno=[航班號(hào)]&depairport=[出發(fā)機(jī)場(chǎng)三字碼]&arrairport=[到達(dá)機(jī)場(chǎng)三字碼]&date=[計(jì)劃日期,形如"YYYY-MM-DD"]。
(2)輸出接口:返回結(jié)果為json格式,包含請(qǐng)求的航班號(hào)、計(jì)劃起飛日期和時(shí)刻、計(jì)劃到達(dá)日期和時(shí)刻、預(yù)測(cè)起飛日期和時(shí)刻、預(yù)測(cè)到達(dá)日期和時(shí)刻、是否延誤。系統(tǒng)運(yùn)行界面如圖2所示。
5 結(jié)語(yǔ)
對(duì)于國(guó)內(nèi)航班到港延誤預(yù)測(cè)問(wèn)題,我們提出了一個(gè)線性回歸模型,開(kāi)發(fā)了一個(gè)Web服務(wù)對(duì)航班延誤進(jìn)行預(yù)測(cè),并在一個(gè)國(guó)內(nèi)真實(shí)的航班歷史記錄數(shù)據(jù)集上對(duì)方法和系統(tǒng)的有效性和可用性進(jìn)行了驗(yàn)證。將在今后的工作中進(jìn)一步優(yōu)化系統(tǒng),提高系統(tǒng)預(yù)測(cè)的準(zhǔn)確率,降低預(yù)測(cè)平均誤差。