□ 李華鋒 辜汝桐 吳東岳/文
民航的信息收集和分析工作是保障航空公司航班簽派放行和運(yùn)行控制不可或缺的一部分,對(duì)民航信息崗位的有效管理是確保各類信息上傳下達(dá)的有力措施。航行情報(bào)工作的航行通告體現(xiàn)了民航信息工作的信息質(zhì)量要求——完整、及時(shí)、準(zhǔn)確、一致與規(guī)范。隨著民用航空業(yè)的高速發(fā)展,通告量快速增長(zhǎng)、通告類型與來源也不斷豐富,然而以航行通告崗為代表的民航信息部門所面臨的工作負(fù)荷也不斷加大。工作負(fù)荷的大小無疑直接影響著工作人員的工作狀態(tài),因此精確評(píng)價(jià)和預(yù)測(cè)民航信息崗工作負(fù)荷有助于提升服務(wù)品質(zhì)、保障飛行安全。
對(duì)民航從業(yè)人員工作負(fù)荷的分析過去集中在主觀量表、工作時(shí)長(zhǎng)以及生理指標(biāo)等三個(gè)維度,國(guó)際民航組織(1984)1使用DORATASK 方法與MBB 方法,開創(chuàng)性地總結(jié)出一種ATC 扇區(qū)容量與工作負(fù)荷有效評(píng)估方法。隨著大數(shù)據(jù)時(shí)代的到來,當(dāng)前已有不少學(xué)者使用機(jī)器學(xué)習(xí)等方法對(duì)工作負(fù)荷進(jìn)行預(yù)測(cè)與評(píng)估,Chatterji 和Sridhar(1999)2通過神經(jīng)網(wǎng)絡(luò)模型對(duì)管制員的工作負(fù)荷進(jìn)行評(píng)估與模擬,得到工作負(fù)荷的預(yù)測(cè)模型,可模擬各種情形下管制員的工作負(fù)荷。Agnetis 和Smriglio(2000)3提出一種隱枚舉算法,分析在m 個(gè)并行機(jī)上尋找n 個(gè)作業(yè)的可行調(diào)度模型,該算法能有效地求解簽派員的工作負(fù)載。吳丹和潘衛(wèi)軍(2015)4以扇區(qū)復(fù)雜性因素為評(píng)價(jià)指標(biāo),綜合考慮扇區(qū)交通態(tài)勢(shì),借助ATWIT 技術(shù)進(jìn)行測(cè)評(píng),用BP 神經(jīng)網(wǎng)絡(luò)評(píng)估管制員工作負(fù)荷。溫瑞英和王紅勇(2015)5根據(jù)地空通信實(shí)測(cè)數(shù)據(jù),利用嶺跡圖篩選復(fù)雜度評(píng)價(jià)指標(biāo),建立嶺回歸BP 神經(jīng)網(wǎng)絡(luò)組合模型,對(duì)管制員的工作負(fù)荷進(jìn)行預(yù)測(cè)。楊琪等(2021)6結(jié)合飛行員生理指標(biāo)數(shù)據(jù)、NASATLX 量表主觀評(píng)價(jià)數(shù)據(jù)指標(biāo),建立基于粒子群算法優(yōu)化的支持向量機(jī)的飛行員工作負(fù)荷預(yù)測(cè)模型。綜上,可看出目前學(xué)界對(duì)于工作負(fù)荷的研究已經(jīng)逐漸從評(píng)估轉(zhuǎn)變?yōu)轭A(yù)測(cè),而機(jī)器學(xué)習(xí)與深度學(xué)習(xí)等算法在其中發(fā)揮了極大的用處。
本文以航行通告崗為例,提出基于相似日數(shù)據(jù)的AdaBoost 民航信息崗工作負(fù)荷預(yù)測(cè)模型,使用灰色關(guān)聯(lián)分析采集訓(xùn)練集中的相似日數(shù)據(jù),提高樣本的數(shù)據(jù)相關(guān)性,最后根據(jù)集成學(xué)習(xí)理念構(gòu)建特征機(jī)器學(xué)習(xí)預(yù)測(cè)模型,并將其運(yùn)用于工作負(fù)荷預(yù)測(cè)之中?;诒疚乃岱椒ǎ娇展驹诤罄m(xù)需要進(jìn)行工作負(fù)荷預(yù)測(cè)時(shí),可以實(shí)時(shí)根據(jù)系統(tǒng)后臺(tái)數(shù)據(jù)進(jìn)行預(yù)測(cè),有效縮短工作負(fù)荷評(píng)估周期,提高工作負(fù)荷預(yù)測(cè)的準(zhǔn)確性。
相似日是指預(yù)測(cè)日在訓(xùn)練集中信息類型和數(shù)量相似的歷史日(孟洋洋等,2010)7。相似日能夠反映特定類型與數(shù)量的信息收發(fā)情形下民航信息崗的工作負(fù)荷。然而,由于部分訓(xùn)練數(shù)據(jù)與預(yù)測(cè)日之間的時(shí)間跨度較長(zhǎng),外界的變化(如航季變化、大規(guī)模軍事演習(xí)、特殊地區(qū)的變化等)可能導(dǎo)致相似日數(shù)據(jù)與預(yù)測(cè)日的實(shí)際情況存在很大的不同。利用這些數(shù)據(jù)樣本對(duì)模型進(jìn)行訓(xùn)練,預(yù)測(cè)結(jié)果與實(shí)際值可能存在較大誤差。
相鄰日是指與預(yù)測(cè)日時(shí)間相近的歷史日。相鄰日與預(yù)測(cè)日之間,時(shí)間跨度短,除了信息類型與數(shù)量有所不同之外,其他情況大體上是一致的,這彌補(bǔ)了僅以信息類型與數(shù)量作為依據(jù)進(jìn)行預(yù)測(cè)的不足。相似日和相鄰日的合理使用能夠起到取長(zhǎng)補(bǔ)短、相得益彰的效果,因此在相似日選擇上采取“近大遠(yuǎn)小”的時(shí)間原則(譚風(fēng)雷等,2022)8。選擇相似日數(shù)據(jù)可以提高模型訓(xùn)練時(shí)輸入特征與目標(biāo)輸出之間的相關(guān)性。由于相似日的航行通告數(shù)據(jù)在工作負(fù)荷和情境因素上與目標(biāo)日更為接近,因此機(jī)器學(xué)習(xí)模型能夠更好地學(xué)習(xí)和預(yù)測(cè)工作負(fù)荷趨勢(shì)。
航行通告崗的信息處理體現(xiàn)在航行通告的數(shù)量與類型,而航行通告的及時(shí)處理與通報(bào)是航行通告崗的基本工作要求,因此航行通告崗的整體工作負(fù)荷主要體現(xiàn)在單位時(shí)間內(nèi)是否及時(shí)處理收到的通告。本文以單位時(shí)間內(nèi)通告處理數(shù)量與通告接收數(shù)量之比作為航行通告崗工作負(fù)荷的評(píng)價(jià)指標(biāo)。采用“近大遠(yuǎn)小”時(shí)間原則篩選出相似日數(shù)據(jù),以工作負(fù)荷為特征的訓(xùn)練集更具有類似性和時(shí)間延續(xù)性。
不同類別的信息,影響其處理難度、工作量以及處理過程的靈活程度等,因此在分析航行通告崗的工作負(fù)荷時(shí)使用航行通告類型與收?qǐng)?bào)情況作為評(píng)價(jià)航行通告復(fù)雜性的評(píng)價(jià)指標(biāo),所選指標(biāo)具體如表1:
表1:航行通告復(fù)雜性評(píng)價(jià)指標(biāo)
收?qǐng)?bào)類型與數(shù)量的波動(dòng)性和無規(guī)律性是影響工作負(fù)荷預(yù)測(cè)精度的重要原因,因此尋找預(yù)測(cè)日與歷史數(shù)據(jù)間的關(guān)系對(duì)于提升預(yù)測(cè)精度至關(guān)重要。本文選取灰色關(guān)聯(lián)分析作為數(shù)據(jù)樣本集的獲取方法。灰色關(guān)聯(lián)分析針對(duì)航行通告復(fù)雜性情況進(jìn)行分析,以數(shù)據(jù)序列為基礎(chǔ),通過灰色關(guān)聯(lián)度反映影響因子間的相似程度。在序列中,令X0為被預(yù)測(cè)序列,Xi為對(duì)比序列,數(shù)據(jù)序列和對(duì)比序列之間的關(guān)聯(lián)度系數(shù)為:
CART 決策樹又名分類回歸樹,是在ID3 決策樹的基礎(chǔ)上進(jìn)行優(yōu)化的決策樹,主要有以下三個(gè)特點(diǎn):CART 既能是分類樹,又能是回歸樹,這主要取決于輸出數(shù)據(jù)是離散還是連續(xù)的。CART 采用二值分割法對(duì)數(shù)據(jù)進(jìn)行分割,形成二叉樹。當(dāng)CART 是分類樹時(shí),基尼指數(shù)被用作節(jié)點(diǎn)拆分的基礎(chǔ)?;嵯禂?shù)越小,該特征中包含的雜波就越低。當(dāng)CART 是回歸樹時(shí),以樣本的最小方差作為節(jié)點(diǎn)分割的依據(jù),它主要是對(duì)各種特征因子進(jìn)行遞歸劃分,預(yù)測(cè)結(jié)果由最終的葉節(jié)點(diǎn)均值得到。
通過CART 算法構(gòu)建初步模型,提出自適應(yīng)提升的工作負(fù)荷預(yù)測(cè)方法,利用 AdaBoost 的權(quán)重分配與重組,再次提高模型的預(yù)測(cè)精度。自適應(yīng)提升算法最早應(yīng)用于分類問題,隨著研究的深入,AdaBoost 算法現(xiàn)可通過改變樣本權(quán)值的分布應(yīng)用于回歸預(yù)測(cè)。
AdaBoost 從初始訓(xùn)練集中訓(xùn)練CART 基學(xué)習(xí)器,在每次的迭代過程后根據(jù)基學(xué)習(xí)器的表現(xiàn)與誤差調(diào)整訓(xùn)練樣本分布與計(jì)算權(quán)重;與普通boosting 族算法不同,AdaBoost 會(huì)提高前一輪基學(xué)習(xí)器錯(cuò)誤分類的樣本權(quán)值,同時(shí)降低正確分類的樣本的權(quán)值,不斷重復(fù),直到達(dá)到預(yù)先指定的基學(xué)習(xí)器數(shù)量。最后根據(jù)組合策略將所有基學(xué)習(xí)器組合起來,得到最終的強(qiáng)學(xué)習(xí)器。這個(gè)過程被稱為集成學(xué)習(xí),其一般結(jié)構(gòu)如圖1所示。
圖1:集成學(xué)習(xí)結(jié)構(gòu)
構(gòu)造基于相似日的AdaBoost 民航信息崗工作負(fù)荷預(yù)測(cè)模型步驟為:
1.利用 GRA 分析訓(xùn)練集數(shù)據(jù)與預(yù)測(cè)日間的關(guān)聯(lián)程度,采取“近大遠(yuǎn)小”時(shí)間原則選擇相似日構(gòu)成訓(xùn)練集,并將數(shù)據(jù)進(jìn)行歸一化處理。
2.初始化CART 和訓(xùn)練樣本的權(quán)值分布D(1),在步驟1 的基礎(chǔ)上,得到?jīng)Q策樹的全局分裂最優(yōu)解,并將結(jié)果賦予CART 決策樹。
式中,m為樣本容量,w1i表示訓(xùn)練初始基學(xué)習(xí)器時(shí)第i個(gè)樣本的權(quán)值;
3.使用權(quán)重為Dk的樣本集訓(xùn)練數(shù)據(jù),即對(duì)T 個(gè)決策樹進(jìn)行訓(xùn)練時(shí),得到基學(xué)習(xí)器Gk(x)并計(jì)算誤差:
4.根據(jù)預(yù)測(cè)誤差計(jì)算出第k個(gè)基學(xué)習(xí)器的回歸誤差率以及其權(quán)重系數(shù):
5.根據(jù)權(quán)重Dk更新下一次樣本的權(quán)重分布(Zk是規(guī)范化因子):
6.根據(jù)以上步驟訓(xùn)練到設(shè)定的基學(xué)習(xí)器數(shù)量與其對(duì)應(yīng)的權(quán)重系數(shù)ak,根據(jù)相應(yīng)的組合策略得到最終強(qiáng)學(xué)習(xí)器:
f(x)=Gk*(x)
其中,Gk*(x)是所有的中位數(shù)值乘以對(duì)應(yīng)序號(hào)k*對(duì)應(yīng)的弱學(xué)習(xí)器。
基于相似日的AdaBoost 工作負(fù)荷預(yù)測(cè)模型流程如圖2,根據(jù)最終強(qiáng)學(xué)習(xí)器進(jìn)行民航信息崗工作負(fù)荷預(yù)測(cè)并得到最終預(yù)測(cè)結(jié)果:
圖2:基于相似日的GA-CART-AdaBoost工作負(fù)荷預(yù)測(cè)模型流程
以南方航空運(yùn)指中心航行情報(bào)部航行通告室為研究對(duì)象,通過采集其2021 年第四季度的航行通告處理數(shù)據(jù)進(jìn)行解析處理,內(nèi)容包括收發(fā)報(bào)數(shù)量,處理時(shí)間,通告類別等信息。
下面將歷史樣本中2021 年11 月26 日~2021 年12 月05 日作為待預(yù)測(cè)日,分析這10 個(gè)待預(yù)測(cè)日的相似日選擇結(jié)果。以2021 年11 月26 日為例,篩選出關(guān)聯(lián)度≥0.9 的相似日共9 日,分別為評(píng)價(jià)項(xiàng)10 月2 日、8 日、14 日、22 日、29 日,11 月4 日、5 日、8 日、9 日、10 日、15 日、21 日、22 日、30 日,12 月7 日、10 日、17 日。此時(shí)基于時(shí)間“近大遠(yuǎn)小”原則,通過統(tǒng)計(jì)手段選擇時(shí)間跨度上最近的5 個(gè)相似日為11 月15 日、21 日、22 日、30 日與12 月7 日。同理可得2021 年11 月26 日~2021 年12 月05 日10 個(gè)待預(yù)測(cè)日的相似日選擇結(jié)果,結(jié)果如表2 所示。根據(jù)以上相似日選擇搭建訓(xùn)練集樣本,本文以1 小時(shí)為1 個(gè)時(shí)間片段,每個(gè)時(shí)間片段的計(jì)算結(jié)果作為1 個(gè)樣本,去除重復(fù)日數(shù)后有效樣本數(shù)共計(jì)840 個(gè),其中訓(xùn)練集與測(cè)試集的占比為8 ∶2。
表2:待預(yù)測(cè)日的相似日選擇結(jié)果
從表2 可以看出,待預(yù)測(cè)日篩選出的相似日有的距離待預(yù)測(cè)日較遠(yuǎn),有的距離較近,這表明文中所采用的方法不僅考慮了時(shí)間因素,還充分考慮了航行通告當(dāng)日的復(fù)雜性情況,這樣選擇的相似日具有較高的相似性。
選用均方根誤差(RMSE)、平均絕對(duì)相對(duì)誤差(MAPE)、決定系數(shù)R2這3 項(xiàng)性能指標(biāo)對(duì)預(yù)測(cè)模型精度進(jìn)行評(píng)價(jià):
1.均方根誤差(RMSE):均方誤差(MSE)是預(yù)測(cè)值與實(shí)際值之差平方的期望值,RMSE 為均方誤差(MSE)的平方根,取值越小,模型準(zhǔn)確度越高。
2.平均絕對(duì)相對(duì)誤差(MAPE):絕對(duì)誤差的平均值,是平均絕對(duì)誤差(MAE)的變形,它是一個(gè)百分比值。取值越小,模型準(zhǔn)確度越高,越能反映預(yù)測(cè)值誤差的實(shí)際情況。
3.決定系數(shù)R2:將預(yù)測(cè)值跟只使用均值的情況下相比,結(jié)果越靠近1 模型準(zhǔn)確度越高。
式中:yi表示第i個(gè)預(yù)測(cè)時(shí)間段真實(shí)的工作負(fù)荷值;表示使用預(yù)測(cè)模型預(yù)測(cè)的第i個(gè)工作負(fù)荷值; 表示真實(shí)工作負(fù)荷值的平均值。
為驗(yàn)證本文預(yù)測(cè)模型相比于其他預(yù)測(cè)模型在預(yù)測(cè)精度和預(yù)測(cè)效率上是否具有優(yōu)越性,本文對(duì)比分析3 種預(yù)測(cè)模型的預(yù)測(cè)性能。
預(yù)測(cè)模型1:構(gòu)建單一CART 工作負(fù)荷預(yù)測(cè)模型。
預(yù)測(cè)模型2:在模型1 的基礎(chǔ)上,經(jīng)過自適應(yīng)提升算法的權(quán)重自分配與重組,構(gòu)建 AdaBoost 工作負(fù)荷預(yù)測(cè)模型。
預(yù)測(cè)模型3:在模型2 的基礎(chǔ)上,使用GRA 和“近大遠(yuǎn)小”時(shí)間原則對(duì)訓(xùn)練集的相似日進(jìn)行選擇,構(gòu)建基于相似日的AdaBoost 工作負(fù)荷預(yù)測(cè)模型。
具體模型預(yù)測(cè)誤差評(píng)價(jià)指標(biāo)對(duì)比如表3 所示。由表3 可知,相比于 CART、AdaBoost 預(yù)測(cè)模型,本文所使用方法的誤差評(píng)價(jià)指標(biāo)RMSE 分別降低32.44%和10.19%,MAPE 分別降低78.13% 和66.11%, 相對(duì)系數(shù)分別提高10.10%和1.21%,基于相似日的AdaBoost 預(yù)測(cè)模型的各項(xiàng)預(yù)測(cè)誤差指標(biāo)值均最小。因此,本文所提預(yù)測(cè)模型預(yù)測(cè)效率和預(yù)測(cè)性能優(yōu)于上述其他模型。
表3:預(yù)測(cè)誤差指標(biāo)對(duì)比
預(yù)測(cè)模型在工作負(fù)荷預(yù)測(cè)以及告警上表現(xiàn)優(yōu)異,能夠在席位資源編排、動(dòng)態(tài)調(diào)整工作、人力成本分析等方面提供技術(shù)與數(shù)據(jù)支持。通過準(zhǔn)確的工作負(fù)荷預(yù)測(cè),為情報(bào)人員設(shè)定合理的負(fù)荷閾值。當(dāng)預(yù)測(cè)的工作負(fù)荷超過閾值時(shí),系統(tǒng)可以發(fā)出預(yù)警,提醒管理層及時(shí)采取措施進(jìn)行干預(yù)。可以評(píng)估工作任務(wù)分配合理性,根據(jù)預(yù)測(cè)的工作負(fù)荷數(shù)據(jù),動(dòng)態(tài)調(diào)整情報(bào)人員的工作任務(wù),對(duì)席位資源合理化管理,使得工作效率最大化。
未來也可為相關(guān)工作任務(wù)與環(huán)境提供合理優(yōu)化參考指標(biāo),解決如何在日益增長(zhǎng)的信息管理需要下確保信息及時(shí)上傳下達(dá)的難題,使用機(jī)器學(xué)習(xí)、運(yùn)籌學(xué)等方法對(duì)信息處理策略進(jìn)行優(yōu)化(胡海青等,2022)10。根據(jù)預(yù)測(cè)的工作負(fù)荷和緊急程度,合理安排信息處理順序,確保高優(yōu)先級(jí)的信息能夠得到及時(shí)處理,同時(shí)避免在低優(yōu)先級(jí)信息上浪費(fèi)過多資源。
通過準(zhǔn)確的工作負(fù)荷預(yù)測(cè),可以為控制情報(bào)人員的工作負(fù)荷處于合理水平提供有效的支持,能夠更好地平衡情報(bào)人員的工作負(fù)荷,提高工作效率和準(zhǔn)確性,深入貫徹“數(shù)據(jù)驅(qū)動(dòng)安全”的新發(fā)展理念。
基于對(duì)民航信息崗工作負(fù)荷研究不夠深入、工作數(shù)據(jù)與評(píng)估預(yù)測(cè)模型結(jié)合較為局限的問題,本文提出基于相似日的AdaBoost 民航信息崗工作負(fù)荷預(yù)測(cè)模型,根據(jù)工作負(fù)荷預(yù)測(cè)精度與信息復(fù)雜性關(guān)聯(lián)性強(qiáng)的特點(diǎn),以預(yù)測(cè)日的信息類別與數(shù)量為研究特征,利用時(shí)間“近大遠(yuǎn)小”原則有針對(duì)性地選擇相似信息收發(fā)情況下的相似日作為訓(xùn)練數(shù)據(jù)集,提高模型回歸精度。同時(shí)將CART 決策樹進(jìn)行集成學(xué)習(xí),在基于GRA 尋找的相似日訓(xùn)練數(shù)據(jù)集基礎(chǔ)上,對(duì)比其他預(yù)測(cè)模型,具有較高的預(yù)測(cè)精度與預(yù)測(cè)穩(wěn)定性,并成功應(yīng)用于航空公司航行通告崗工作負(fù)荷的預(yù)測(cè)與評(píng)估工作中。本文所使用的研究方法為加快推動(dòng)傳統(tǒng)評(píng)估方法和創(chuàng)新算法深度融合,促進(jìn)傳統(tǒng)要素驅(qū)動(dòng)向注重創(chuàng)新驅(qū)動(dòng)轉(zhuǎn)變,提升行業(yè)系統(tǒng)化、協(xié)同化、智能化提供了全新視角。
在工作過程中存在大量非結(jié)構(gòu)化動(dòng)態(tài)的工作負(fù)荷數(shù)據(jù),如何在海量數(shù)據(jù)中獲得一種更為高效、準(zhǔn)確、適用性強(qiáng)的工作負(fù)荷評(píng)價(jià)與預(yù)測(cè)的指標(biāo)體系和方法,是未來繼續(xù)研究的方向。
此外,在處理特征相關(guān)性強(qiáng)的數(shù)據(jù)時(shí),決策樹的回歸結(jié)果表現(xiàn)一般,對(duì)于類別樣本數(shù)不一致的數(shù)據(jù),信息增益的結(jié)果將傾向于具有更多數(shù)字特征的數(shù)據(jù)。如何優(yōu)化模型的泛化能力也是未來研究的重點(diǎn)。(作者單位:中國(guó)南方航空股份有限公司)