李帥標(biāo),趙海燕,陳慶奎,曹 健
1(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海市現(xiàn)代光學(xué)系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,光學(xué)儀器與系統(tǒng)教育部工程研究中心,上海 200093)2(上海交通大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,上海 200030)
為了提高運(yùn)營(yíng)效率,降低成本,提高客戶(hù)服務(wù)質(zhì)量并降低人為錯(cuò)誤的可能性,越來(lái)越多的公司采用過(guò)程感知信息系統(tǒng)(Process-Aware Information Systems,PAISs)來(lái)支持其業(yè)務(wù)流程,同時(shí)以事件日志的形式記錄每個(gè)執(zhí)行活動(dòng)的蹤跡.這一轉(zhuǎn)變致使企業(yè)積累大量數(shù)據(jù),為了提高企業(yè)效益,從海量數(shù)據(jù)中提取有用信息預(yù)測(cè)業(yè)務(wù)過(guò)程實(shí)例這一趨勢(shì)得到很大發(fā)展.
目前已經(jīng)提出很多用于預(yù)測(cè)業(yè)務(wù)過(guò)程實(shí)例行為的方法[1,2],比如預(yù)測(cè)業(yè)務(wù)過(guò)程風(fēng)險(xiǎn)或者業(yè)務(wù)過(guò)程剩余執(zhí)行時(shí)間等.對(duì)于業(yè)務(wù)過(guò)程風(fēng)險(xiǎn)而言,這些預(yù)測(cè)可幫助過(guò)程管理者識(shí)別出具有風(fēng)險(xiǎn)的過(guò)程實(shí)例并提前給出解決方法以減少損失,比如資源重新分配或人工干預(yù)等.同樣,業(yè)務(wù)過(guò)程剩余執(zhí)行時(shí)間對(duì)過(guò)程管理者或用戶(hù)體驗(yàn)非常重要,比如客戶(hù)在銀行辦理業(yè)務(wù)時(shí),提供預(yù)測(cè)結(jié)束時(shí)間對(duì)客戶(hù)滿(mǎn)意度有積極影響.
近年來(lái),研究者提出了一些方法以對(duì)業(yè)務(wù)過(guò)程剩余執(zhí)行時(shí)間進(jìn)行預(yù)測(cè).但是現(xiàn)有預(yù)測(cè)方法主要采用了黑盒模型,它們是通過(guò)歷史事件日志文件構(gòu)建一個(gè)整體模型,然后將模型輸出值作為預(yù)測(cè)的剩余時(shí)間值.雖然現(xiàn)有技術(shù)能夠預(yù)測(cè)業(yè)務(wù)過(guò)程活動(dòng)剩余時(shí)間值,但是沒(méi)有解釋后續(xù)活動(dòng)的信息是如何影響預(yù)測(cè)的時(shí)間總值的.比如對(duì)一個(gè)簡(jiǎn)單的串行業(yè)務(wù)過(guò)程實(shí)例A→B→C→D而言,假設(shè)當(dāng)前業(yè)務(wù)過(guò)程執(zhí)行到B,如需預(yù)測(cè)活動(dòng)B的剩余時(shí)間,黑盒方法則利用歷史記錄訓(xùn)練模型直接預(yù)測(cè)活動(dòng)B到達(dá)活動(dòng)D的剩余時(shí)間,而不考慮活動(dòng)C對(duì)剩余時(shí)間的影響.一些學(xué)者在對(duì)業(yè)務(wù)過(guò)程時(shí)間預(yù)測(cè)研究的實(shí)驗(yàn)結(jié)果表明考慮上下文信息對(duì)預(yù)測(cè)效果有積極影響[3],所以考慮活動(dòng)C的相關(guān)特征應(yīng)該能夠?qū)︻A(yù)測(cè)結(jié)果準(zhǔn)確性的提高有積極影響.另外,業(yè)務(wù)過(guò)程活動(dòng)作為時(shí)間序列活動(dòng),活動(dòng)之間存在的依賴(lài)關(guān)系對(duì)結(jié)果也有很大影響.
為了考慮各個(gè)活動(dòng)對(duì)剩余時(shí)間的影響以及活動(dòng)之間的關(guān)系對(duì)最終預(yù)測(cè)結(jié)果的影響,我們提出一種基于Stacking策略的模型融合(Stacking Strategy for Model Fusion,SSMF)的白盒方法用于業(yè)務(wù)過(guò)程剩余時(shí)間的預(yù)測(cè).該模型由兩部分組成,第一部分引入樸素貝葉斯(Naive Bayes,NB)模型用于計(jì)算當(dāng)前狀態(tài)選擇下一個(gè)活動(dòng)的概率,引入支持向量回歸(Support Vector Regression,SVR)用于計(jì)算當(dāng)前活動(dòng)狀態(tài)到達(dá)下一活動(dòng)狀態(tài)花費(fèi)的時(shí)間;第二部分將當(dāng)前活動(dòng)預(yù)測(cè)所有可能的分支概率與分支時(shí)間作為訓(xùn)練集,對(duì)長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;最后模型預(yù)測(cè)結(jié)果即為當(dāng)前活動(dòng)剩余執(zhí)行時(shí)間.
本文后續(xù)內(nèi)容組織安排如下:第2節(jié)介紹近年來(lái)業(yè)務(wù)過(guò)程時(shí)間預(yù)測(cè)的研究方法;第3節(jié)介紹SSMF算法的基本思想、本論文中使用的相關(guān)機(jī)器學(xué)習(xí)技術(shù)以及SSMF模型的具體實(shí)現(xiàn)過(guò)程,第4節(jié)闡述相關(guān)實(shí)驗(yàn)與分析,第5節(jié)是對(duì)全文進(jìn)行總結(jié)以及未來(lái)工作方向的分析.
近年來(lái),業(yè)務(wù)過(guò)程的剩余時(shí)間預(yù)測(cè)問(wèn)題已經(jīng)被很多學(xué)者所研究.Aalst等人在文獻(xiàn)[4]中提出了第一個(gè)側(cè)重于時(shí)間視角的預(yù)測(cè)方法,該方法從歷史事件日志信息構(gòu)建帶有標(biāo)注的變遷系統(tǒng)(An Annotated Transition System),為了預(yù)測(cè)業(yè)務(wù)過(guò)程的剩余完成時(shí)間,使用狀態(tài)表示函數(shù)將到目前為止執(zhí)行的活動(dòng)序列映射到變遷系統(tǒng)中的一個(gè)狀態(tài),并通過(guò)基于類(lèi)似狀態(tài)下的較早的過(guò)程實(shí)例的平均完成時(shí)間來(lái)進(jìn)行預(yù)測(cè).文獻(xiàn)[5,6]中提出了一種在文獻(xiàn)[4]中描述技術(shù)的擴(kuò)展方法,他們根據(jù)“上下文特征”對(duì)日志文件中的蹤跡進(jìn)行聚類(lèi),然后,對(duì)于每個(gè)聚類(lèi),他們使用文獻(xiàn)[4]中描述的方法創(chuàng)建預(yù)測(cè)模型.對(duì)于新的運(yùn)行實(shí)例,使用預(yù)測(cè)聚類(lèi)樹(shù)對(duì)其進(jìn)行聚類(lèi),然后使用屬于特定聚類(lèi)的模型進(jìn)行剩余時(shí)間的預(yù)測(cè).在文獻(xiàn)[7]中,Bolt等人則提出一種稱(chēng)為查詢(xún)目錄的新方法,為了計(jì)算新的部分蹤跡尾部(Partial Trace Tail)的剩余時(shí)間,將其與查詢(xún)目錄(Query Catalogs)中存儲(chǔ)的部分蹤跡尾部進(jìn)行比較,將匹配的部分蹤跡尾部的平均剩余時(shí)間作為剩余時(shí)間預(yù)測(cè)值.文獻(xiàn)[8]中,Polato等人使用了一種ε-SVR機(jī)器學(xué)習(xí)算法對(duì)業(yè)務(wù)過(guò)程進(jìn)行剩余執(zhí)行時(shí)間的預(yù)測(cè).該方法使用業(yè)務(wù)過(guò)程的歷史蹤跡活動(dòng)屬性信息訓(xùn)練ε-SVR模型,并通過(guò)編碼技術(shù)將部分蹤跡的特征轉(zhuǎn)換為適合模型輸入的格式,輸出的值即為估計(jì)的剩余執(zhí)行時(shí)間.Navarin等人[9]提出了一種基于LSTM神經(jīng)網(wǎng)絡(luò)模型對(duì)剩余時(shí)間預(yù)測(cè)的方法,其特點(diǎn)是學(xué)習(xí)長(zhǎng)期的依賴(lài)關(guān)系.它將歷史完整蹤跡中各活動(dòng)信息通過(guò)編碼技術(shù)轉(zhuǎn)換為支持LSTM輸入的特征向量進(jìn)行模型的訓(xùn)練,最后將未完成的蹤跡信息輸入模型之中進(jìn)行時(shí)間的預(yù)測(cè).
上述方法雖然考慮了活動(dòng)特征對(duì)結(jié)果產(chǎn)生的影響,但是并沒(méi)有考慮單個(gè)活動(dòng)對(duì)最終預(yù)測(cè)結(jié)果能夠產(chǎn)生的影響大小.另外,文獻(xiàn)[9]中雖然考慮了活動(dòng)之間的依賴(lài)關(guān)系,但是其學(xué)習(xí)對(duì)象為已經(jīng)發(fā)生的活動(dòng),與本文有所區(qū)別.本文中的LSTM神經(jīng)網(wǎng)絡(luò)是從后續(xù)還未發(fā)生的業(yè)務(wù)過(guò)程活動(dòng)對(duì)象中學(xué)習(xí)長(zhǎng)期依賴(lài)關(guān)系.基于上述描述,我們提出一種SSMF模型來(lái)預(yù)測(cè)當(dāng)前正在執(zhí)行業(yè)務(wù)過(guò)程的剩余時(shí)間.另外,實(shí)驗(yàn)結(jié)果表明該模型考慮更多的上下文特征,其預(yù)測(cè)結(jié)果具有更高的預(yù)測(cè)精度.
在真實(shí)的業(yè)務(wù)流程執(zhí)行過(guò)程中,當(dāng)某個(gè)活動(dòng)結(jié)束后,其后續(xù)可能包含多條分支路徑,為了展示單個(gè)活動(dòng)或基本元素以及活動(dòng)之間存在的“上下文”對(duì)整體結(jié)果的影響,我們的算法思想可分為兩步.第一步對(duì)單個(gè)活動(dòng)對(duì)最終預(yù)測(cè)效果的影響程度進(jìn)行學(xué)習(xí).為了解決這個(gè)問(wèn)題,我們根據(jù)NB與SVR預(yù)測(cè)當(dāng)前活動(dòng)選擇后續(xù)活動(dòng)的概率與到達(dá)各活動(dòng)的執(zhí)行時(shí)間,對(duì)當(dāng)前活動(dòng)后續(xù)所有分支路徑上的活動(dòng)進(jìn)行同樣的操作以獲取當(dāng)前活動(dòng)點(diǎn)所有可能值(概率與時(shí)間值)組合.第二步依據(jù)已獲取的信息估計(jì)當(dāng)前活動(dòng)的剩余時(shí)間.通過(guò)對(duì)最大概率路徑時(shí)間預(yù)測(cè)、期望值時(shí)間預(yù)測(cè)以及真實(shí)執(zhí)行路徑時(shí)間預(yù)測(cè)等幾種不同方法的分析,我們發(fā)現(xiàn)在每一個(gè)活動(dòng)處,根據(jù)已經(jīng)獲取的各種可能的信息組合對(duì)活動(dòng)剩余時(shí)間的預(yù)測(cè)可能是一個(gè)非線(xiàn)性的模型.神經(jīng)網(wǎng)絡(luò)能夠很好的解決非線(xiàn)性問(wèn)題[10],同時(shí)能夠?qū)W習(xí)活動(dòng)之間存在的依賴(lài)關(guān)系,所以我們選用神經(jīng)網(wǎng)絡(luò)模型用于預(yù)測(cè)剩余時(shí)間.
本文所提模型目的用于預(yù)測(cè)當(dāng)前活動(dòng)剩余執(zhí)行時(shí)間,由于只有部分活動(dòng)得到了執(zhí)行,后續(xù)的執(zhí)行路徑還是不確定的,因此,模型首先使用NB與SVR預(yù)測(cè)其后續(xù)可能選擇活動(dòng)的分支概率與執(zhí)行時(shí)間,這是一種用于統(tǒng)計(jì)當(dāng)前活動(dòng)點(diǎn)后續(xù)所有可能特征的方式,為訓(xùn)練后續(xù)模型做準(zhǔn)備.其次,將當(dāng)前活動(dòng)點(diǎn)所統(tǒng)計(jì)的所有分支概率與各個(gè)活動(dòng)之間的執(zhí)行時(shí)間作為L(zhǎng)STM模型的輸入特征,并通過(guò)訓(xùn)練好的LSTM模型用于預(yù)測(cè)當(dāng)前活動(dòng)點(diǎn)的剩余執(zhí)行時(shí)間.
基于上述描述,我們提出一種基于Stacking模型融合策略的業(yè)務(wù)過(guò)程剩余執(zhí)行時(shí)間預(yù)測(cè)方法.為了更好的理解算法基本思想,我們通過(guò)圖1對(duì)其作出解釋.
圖1 模型執(zhí)行過(guò)程解析圖Fig.1 Analysis of the model execution process
如圖1所示,假設(shè)業(yè)務(wù)過(guò)程活動(dòng)執(zhí)行到活動(dòng)A,且其后續(xù)可能的活動(dòng)為B,C,D.第一步:根據(jù)已經(jīng)訓(xùn)練好的NB與SVR模型預(yù)測(cè)其后續(xù)可能選擇活動(dòng)的分支概率與執(zhí)行時(shí)間,其中P1,P2,P3值表示活動(dòng)A選擇后續(xù)活動(dòng)B,C,D的概率,T1,T2,T3值用于衡量從活動(dòng)A到達(dá)后續(xù)活動(dòng)B,C,D的估計(jì)時(shí)間.第二步:根據(jù)第一步計(jì)算的結(jié)果,將{P1,P2,P3,T1,T2,T3}作為輸入特征輸入活動(dòng)A所對(duì)應(yīng)的已訓(xùn)練結(jié)束的神經(jīng)網(wǎng)絡(luò)模型,其輸出結(jié)果即為活動(dòng)A的預(yù)測(cè)剩余執(zhí)行時(shí)間.
本節(jié)主要介紹在本篇論文中運(yùn)用到的機(jī)器學(xué)習(xí)技術(shù)與相關(guān)知識(shí).
3.2.1 樸素貝葉斯分類(lèi)器
樸素貝葉斯分類(lèi)器是一個(gè)基于貝葉斯定理應(yīng)用的概率分類(lèi)器,它可以預(yù)測(cè)給定樣本屬于特定類(lèi)的概率.貝葉斯定理數(shù)學(xué)公式如公式(1):
(1)
其中P(A)表示A的先驗(yàn)概率,P(B)表示B的先驗(yàn)概率.樸素貝葉斯則是借助上述思想計(jì)算概率,具體實(shí)現(xiàn)過(guò)程如下:
1)假設(shè)T表示訓(xùn)練樣本集合,每個(gè)樣本都有對(duì)應(yīng)的類(lèi)別,類(lèi)別集合Y={y1,…,yk}.每個(gè)樣本由n維向量表示,X={x1,…,xn}用于描述n個(gè)屬性的n個(gè)測(cè)量值.
2)給定樣本X,樸素貝葉斯分類(lèi)器借助公式(2)預(yù)測(cè)X屬于具有最高后驗(yàn)概率的類(lèi).
(2)
其中,P(X)對(duì)于訓(xùn)練集中所有類(lèi)別而言,其值是一樣的,因此計(jì)算過(guò)程只需考慮P(X|Yi)P(Yi)的結(jié)果.另外,樸素貝葉斯分類(lèi)器假設(shè)屬性值對(duì)給定類(lèi)的影響與其他屬性值無(wú)關(guān).故P(X|Yi)可轉(zhuǎn)化為公式(3):
(3)
3)對(duì)于樣本X,根據(jù)公式(4)找出所有類(lèi)別中最大后驗(yàn)概率值,并將該類(lèi)別作為樣本X的預(yù)測(cè)類(lèi)別.
P(yi|X)=max{P(y1|X),…,P(yk|X)}
(4)
3.2.2 支持向量回歸
為了說(shuō)明支持向量回歸機(jī)的基本思想,通過(guò)線(xiàn)性回歸函數(shù)對(duì)其簡(jiǎn)要介紹.表達(dá)形式見(jiàn)公式(5).
(5)
(6)
一般引入拉格朗日函數(shù)將優(yōu)化問(wèn)題轉(zhuǎn)為其對(duì)偶形式:
(7)
(8)
對(duì)于不能用線(xiàn)性函數(shù)進(jìn)行回歸的訓(xùn)練數(shù)據(jù),利用核函數(shù)將訓(xùn)練集映射到高維空間之后再進(jìn)行線(xiàn)性回歸.
3.2.3 LSTM神經(jīng)網(wǎng)絡(luò)
LSTM神經(jīng)網(wǎng)絡(luò)是一種改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)人工智能算法,LSTM對(duì)時(shí)間序列相關(guān)數(shù)據(jù)的處理有很好的效果[12].LSTM模型可以記憶更長(zhǎng)的上下文[13].目前圖2中的LSTM細(xì)胞應(yīng)用最為廣泛[14].
圖中123標(biāo)號(hào)分別表示遺忘門(mén)、輸入門(mén)以及輸出門(mén).
圖2 LSTM隱藏層細(xì)胞結(jié)構(gòu)Fig.2 LSTM cell structure in hidden layer
遺忘門(mén):其功能用來(lái)決定從細(xì)胞狀態(tài)中拋棄何種信息.該門(mén)讀入當(dāng)前時(shí)間點(diǎn)的輸入xt以及上一層細(xì)胞的輸出ht-1,通過(guò)公式(9)計(jì)算ft值并將其賦值給當(dāng)前細(xì)胞狀態(tài)Ct-1.其中1表示保留其信息,0表示舍棄其信息.
ft=σ(Wf*[ht-1,xt]+bf)
(9)
輸入門(mén):其功能用來(lái)決定多少新的信息添加到細(xì)胞狀態(tài)中.該過(guò)程包含兩部分,第一部分:通過(guò)sigmoid函數(shù)決定哪些輸入需要添加到細(xì)胞狀態(tài)中,另外通過(guò)tanh函數(shù)生成候選向量值用來(lái)更新細(xì)胞狀態(tài).第二部分:更新舊細(xì)胞狀態(tài)Ct-1為新?tīng)顟B(tài)Ct.計(jì)算公式見(jiàn)公式(10)-公式(12).
it=σ(Wi*[ht-1,xt]+bi)
(10)
Ctemp=tanh(WC*[ht-1,xt]+bC)
(11)
Ct=ft*Ct-1+it*Ctemp
(12)
輸出門(mén):其功能用來(lái)決定最終輸出哪些信息.該門(mén)運(yùn)行過(guò)程分為兩步,第一步:通過(guò)公式(13)決定細(xì)胞狀態(tài)Ct中的哪些信息被輸出;第二步:對(duì)細(xì)胞狀態(tài)使用tanh處理得到結(jié)果并與第一步的結(jié)果相乘,以確定最終輸出的信息,計(jì)算公式見(jiàn)公式(14).
ot=σ(Wo*[ht-1,xt]+bo)
(13)
ht=ot*tanh(Ct)
(14)
模型融合通過(guò)對(duì)不同模型結(jié)果的融合得到一個(gè)新的結(jié)果,該結(jié)果將取代各個(gè)原始模型的預(yù)測(cè)結(jié)果.Stacking策略是由Wolpert[15]等人提出的一種對(duì)分類(lèi)器疊加組合思想的方法.該方法首先提取有效特征進(jìn)行第一次的訓(xùn)練和預(yù)測(cè),并將該操作視為第一層,其次將第一層訓(xùn)練的結(jié)果采用合適的融合方法進(jìn)行二次訓(xùn)練與預(yù)測(cè),即第二層的訓(xùn)練與預(yù)測(cè),以獲得更為精確的預(yù)測(cè)結(jié)果[16].本文利用Stacking策略的思想,出于對(duì)單個(gè)活動(dòng)對(duì)結(jié)果的影響以及活動(dòng)之間存在的依賴(lài)關(guān)系的考慮,提出一種業(yè)務(wù)過(guò)程剩余時(shí)間預(yù)測(cè)算法,其模型結(jié)構(gòu)如圖3所示.
圖3 Stacking模型融合結(jié)構(gòu)圖Fig.3 Stacking model fusion structure
圖3表明本文所提模型共包含兩層結(jié)構(gòu):第0層結(jié)構(gòu)與第1層結(jié)構(gòu).第0層結(jié)構(gòu)由樸素貝葉斯分類(lèi)器與支持向量回歸構(gòu)成,第0層結(jié)構(gòu)里包含的模型通常被稱(chēng)為基分類(lèi)器或基回歸器,基分類(lèi)器與基回歸器的輸出結(jié)果將作為第1層的輸入數(shù)據(jù).第1層結(jié)構(gòu)由LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)成,通過(guò)對(duì)第0層的輸出結(jié)果進(jìn)行訓(xùn)練以預(yù)測(cè)剩余時(shí)間.因該層輸入的數(shù)據(jù)是一種通過(guò)融合方法產(chǎn)生的元數(shù)據(jù),故第1層也被稱(chēng)為元數(shù)據(jù)分類(lèi)器或回歸器.在獲取第0層的輸出結(jié)果后,需要采用一定的方法對(duì)輸出結(jié)果進(jìn)行融合,融合方法可以分為兩種,固定融合方法(Fixed Rules,FR)和可訓(xùn)練融合方法(Trained Rules,TR)[17].本文模型中采用的是一種流行的元學(xué)習(xí)(Meta-learning)可訓(xùn)練融合方法,它是一種將上一層輸出結(jié)果作為中間特征[18](元數(shù)據(jù))的方法.即對(duì)第0層的各個(gè)輸出結(jié)果進(jìn)行組合作為第1層模型的輸入特征.
上述框架共經(jīng)過(guò)兩次訓(xùn)練,兩次訓(xùn)練即相互獨(dú)立又相互關(guān)聯(lián).獨(dú)立指的是兩次訓(xùn)練都是單獨(dú)訓(xùn)練互不影響,關(guān)聯(lián)指的是上一層模型的輸出作為下一層模型的輸入.
本小節(jié)對(duì)模型的實(shí)現(xiàn)過(guò)程進(jìn)行詳細(xì)介紹,首先介紹SSMF中各個(gè)子模型的運(yùn)行過(guò)程,然后對(duì)其整體運(yùn)行流程進(jìn)行描述.
3.4.1 NB模型的使用
樸素貝葉斯分類(lèi)器應(yīng)用于SSMF模型第0層,首先將已經(jīng)預(yù)處理的數(shù)據(jù)劃分為訓(xùn)練集與測(cè)試集;然后以業(yè)務(wù)過(guò)程活動(dòng)開(kāi)始執(zhí)行到當(dāng)前活動(dòng)獲取的信息作為訓(xùn)練輸入特征,將當(dāng)前活動(dòng)真正選擇下一活動(dòng)作為訓(xùn)練輸出目標(biāo),訓(xùn)練當(dāng)前活動(dòng)NB模型,并用于預(yù)測(cè)當(dāng)前活動(dòng)選擇下一可能活動(dòng)的概率.業(yè)務(wù)過(guò)程活動(dòng)繼續(xù)執(zhí)行,為了提高預(yù)測(cè)的精度,需要將已執(zhí)行的活動(dòng)特征添加到數(shù)據(jù)集中,采用上述方式統(tǒng)計(jì)各個(gè)活動(dòng)點(diǎn)可能選擇下一活動(dòng)的概率,直至業(yè)務(wù)過(guò)程活動(dòng)執(zhí)行結(jié)束.
3.4.2 SVR模型的使用
支持向量回歸器應(yīng)用于SSMF模型第0層,首先將已經(jīng)預(yù)處理的數(shù)據(jù)劃分為訓(xùn)練集與測(cè)試集;然后以業(yè)務(wù)過(guò)程活動(dòng)開(kāi)始執(zhí)行到當(dāng)前活動(dòng)獲取的信息作為訓(xùn)練輸入特征,將當(dāng)前活動(dòng)執(zhí)行到下一活動(dòng)的真實(shí)時(shí)間作為訓(xùn)練輸出目標(biāo),訓(xùn)練當(dāng)前活動(dòng)SVR模型,并用于預(yù)測(cè)當(dāng)前活動(dòng)執(zhí)行到下一可能活動(dòng)的時(shí)間.業(yè)務(wù)過(guò)程活動(dòng)繼續(xù)執(zhí)行,為了提高預(yù)測(cè)的精度,需要將已執(zhí)行的活動(dòng)特征添加到數(shù)據(jù)集中,采用上述方式統(tǒng)計(jì)各個(gè)活動(dòng)點(diǎn)可能到達(dá)下一分支活動(dòng)的執(zhí)行時(shí)間,直至業(yè)務(wù)過(guò)程活動(dòng)執(zhí)行結(jié)束.
3.4.3 LSTM模型的運(yùn)用
長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)應(yīng)用于SSMF模型第1層,該層主要應(yīng)用于預(yù)測(cè)當(dāng)前活動(dòng)的剩余執(zhí)行時(shí)間.根據(jù)3.4.1小節(jié)與3.4.2小節(jié)中所述,在當(dāng)前業(yè)務(wù)過(guò)程活動(dòng)狀態(tài)處可統(tǒng)計(jì)其后續(xù)所有可能選擇的分支概率與執(zhí)行時(shí)間,并將其組合結(jié)果作為訓(xùn)練LSTM模型的輸入特征,將業(yè)務(wù)過(guò)程當(dāng)前活動(dòng)真正結(jié)束時(shí)間作為訓(xùn)練LSTM模型的輸出目標(biāo).通過(guò)上述方式,訓(xùn)練不同活動(dòng)點(diǎn)的時(shí)間預(yù)測(cè)模型.
3.4.4 整體過(guò)程描述
1)獲取有效特征.根據(jù)已有的事件日志文件,通過(guò)數(shù)據(jù)預(yù)處理、特征篩選、特征提取等步驟獲取對(duì)活動(dòng)時(shí)間有影響的活動(dòng)特征.
2)訓(xùn)練模型第0層中樸素貝葉斯分類(lèi)器.根據(jù)3.4.1小節(jié)運(yùn)行過(guò)程所述對(duì)不同活動(dòng)點(diǎn)處樸素貝葉斯分類(lèi)器進(jìn)行訓(xùn)練,并將訓(xùn)練好的模型應(yīng)用于測(cè)試集中,預(yù)測(cè)當(dāng)前活動(dòng)選擇下一個(gè)可能執(zhí)行活動(dòng)的概率.
3)訓(xùn)練模型第0層中支持向量回歸器.根據(jù)3.4.2小節(jié)運(yùn)行過(guò)程所述對(duì)不同活動(dòng)點(diǎn)處支持向量回歸器進(jìn)行訓(xùn)練,并將訓(xùn)練好的模型應(yīng)用于測(cè)試集中,預(yù)測(cè)當(dāng)前活動(dòng)到達(dá)下一個(gè)可能執(zhí)行活動(dòng)的時(shí)間.
4)訓(xùn)練模型第1層中LSTM神經(jīng)網(wǎng)絡(luò)模型.當(dāng)步驟(2-3)執(zhí)行結(jié)束后,采用3.4.3小節(jié)所介紹訓(xùn)練方式,對(duì)業(yè)務(wù)過(guò)程不同活動(dòng)點(diǎn)處訓(xùn)練各自的神經(jīng)網(wǎng)絡(luò)模型.
5)預(yù)測(cè)剩余時(shí)間.對(duì)測(cè)試集的業(yè)務(wù)過(guò)程實(shí)例,利用對(duì)應(yīng)活動(dòng)點(diǎn)已經(jīng)訓(xùn)練好的NB模型與SVR模型用于預(yù)測(cè)其可能選擇下一活動(dòng)的概率與到達(dá)下一活動(dòng)的執(zhí)行時(shí)間,并將統(tǒng)計(jì)的信息作為對(duì)應(yīng)活動(dòng)點(diǎn)神經(jīng)網(wǎng)絡(luò)模型的輸入特征,其輸出結(jié)果即為預(yù)測(cè)當(dāng)前活動(dòng)剩余執(zhí)行時(shí)間值.
本文所使用的數(shù)據(jù)集來(lái)自于2017年業(yè)務(wù)過(guò)程智能(Business Process Intelligence,BPI)挑戰(zhàn)賽,該數(shù)據(jù)集包含了2016年1月-2017年2月期間荷蘭金融機(jī)構(gòu)貸款申請(qǐng)流程的真實(shí)業(yè)務(wù)流程,其特征包含活動(dòng)類(lèi)型,活動(dòng)執(zhí)行者,時(shí)間戳以及其他信息,比如申請(qǐng)的金額和貸款目的等.該數(shù)據(jù)集中包含多次創(chuàng)建報(bào)價(jià)的業(yè)務(wù)過(guò)程實(shí)例,為了簡(jiǎn)化實(shí)驗(yàn)過(guò)程,故只考慮創(chuàng)建一次報(bào)價(jià)且信息驗(yàn)證不超過(guò)兩次的業(yè)務(wù)過(guò)程實(shí)例.整理后的實(shí)驗(yàn)數(shù)據(jù)包含22900條貸款申請(qǐng)實(shí)例與169457個(gè)活動(dòng).
貸款申請(qǐng)過(guò)程由一系列活動(dòng)構(gòu)成,數(shù)據(jù)集中貸款申請(qǐng)可能的執(zhí)行路徑如圖4所示.
圖4表示當(dāng)前數(shù)據(jù)集中所有可能執(zhí)行的路徑及結(jié)果,其中相關(guān)活動(dòng)名稱(chēng)介紹見(jiàn)表1,后續(xù)相關(guān)實(shí)驗(yàn)以該過(guò)程模型為基礎(chǔ).
在實(shí)驗(yàn)部分,我們假設(shè)當(dāng)前業(yè)務(wù)過(guò)程活動(dòng)執(zhí)行到活動(dòng)A_Concept,在此基礎(chǔ)上預(yù)測(cè)過(guò)程實(shí)例在活動(dòng)A_Concept的剩余執(zhí)行時(shí)間以及后續(xù)活動(dòng)節(jié)點(diǎn)的剩余執(zhí)行時(shí)間.
圖5描述的是數(shù)據(jù)集中業(yè)務(wù)過(guò)程活動(dòng)中兩個(gè)相鄰活動(dòng)時(shí)間間隔的分布,其中Duration_1表示活動(dòng)A_Concept到活動(dòng)A_Accepted的時(shí)間間隔分布,后續(xù)活動(dòng)間隔以此類(lèi)推.由圖觀察可知,不同活動(dòng)間隔的時(shí)間分布有所差異,這種不同活動(dòng)時(shí)間間隔差異可看做活動(dòng)之間存在某種關(guān)系.神經(jīng)網(wǎng)絡(luò)在不同活動(dòng)之間學(xué)習(xí)長(zhǎng)短期依賴(lài)信息有很好效果,這也是本文使用神經(jīng)網(wǎng)絡(luò)作為模型訓(xùn)練的原因.
圖5 活動(dòng)間隔時(shí)間分布Fig.5 Activity interval distribution
為了檢驗(yàn)?zāi)P偷挠行?本文使用均方根誤差(Root Mean Squared Error,RMSE)作為評(píng)測(cè)指標(biāo).RMSE計(jì)算實(shí)際觀測(cè)值與預(yù)測(cè)值之間的標(biāo)準(zhǔn)差,其值越小表示模型預(yù)測(cè)的結(jié)果要好.計(jì)算公式如下:
(15)
為了驗(yàn)證所提方法的預(yù)測(cè)精度,將其與部分業(yè)務(wù)過(guò)程剩余時(shí)間預(yù)測(cè)方法進(jìn)行比較.在本文中使用歷史平均值(Mean Value,MV)方法、最大概率路徑(Maximum Probability Path,MPP)預(yù)測(cè)方法、真實(shí)執(zhí)行路徑(Real Execution Path,REP)預(yù)測(cè)方法、期望值(Expected Value,EV)預(yù)測(cè)方法以及支持向量回歸方法與所提出方法進(jìn)行比較.
表1 活動(dòng)名稱(chēng)說(shuō)明
Table 1 Activity name description
活動(dòng)名稱(chēng)說(shuō)明A_Submitted客戶(hù)提交新的貸款申請(qǐng)A_Concept系統(tǒng)自動(dòng)完成第一次評(píng)估A_Accepted對(duì)申請(qǐng)的客戶(hù)提供貸款金額A_Complete貸款金額發(fā)送給客戶(hù),銀行等待客戶(hù)退回已簽名文件(工資單或身份證等)A_Validating銀行對(duì)收到的文件進(jìn)行檢查A_Incomplete文件信息缺失,需要客戶(hù)重新發(fā)送文件A_Pending銀行收到所有文件并且評(píng)估結(jié)果為正,為客戶(hù)提供貸款A(yù)_Cancelled客戶(hù)從未發(fā)送過(guò)文件或電話(huà)咨詢(xún)客戶(hù)被告知不需要貸款,貸款申請(qǐng)被取消A_Denied客戶(hù)申請(qǐng)條件不符合銀行檢驗(yàn)標(biāo)準(zhǔn),貸款申請(qǐng)被拒絕
對(duì)上述部分比較方法進(jìn)行說(shuō)明:
1)MPP方法對(duì)業(yè)務(wù)過(guò)程活動(dòng)中每個(gè)活動(dòng)使用NB與SVR模型預(yù)測(cè)當(dāng)前活動(dòng)選擇下一個(gè)可能活動(dòng)的概率與達(dá)到下一個(gè)活動(dòng)的執(zhí)行時(shí)間.在每個(gè)活動(dòng)點(diǎn)上利用概率乘積的方式統(tǒng)計(jì)每個(gè)活動(dòng)點(diǎn)所有可能執(zhí)行路徑的概率,并選取概率值最大的活動(dòng)組合作為當(dāng)前活動(dòng)執(zhí)行路徑,并將該路徑中各個(gè)活動(dòng)預(yù)測(cè)執(zhí)行時(shí)間求和作為其預(yù)測(cè)值.
2)REP方法利用SVR模型預(yù)測(cè)活動(dòng)執(zhí)行時(shí)間,將當(dāng)前業(yè)務(wù)過(guò)程實(shí)例真正的執(zhí)行路徑作為預(yù)測(cè)執(zhí)行路徑,并計(jì)算各個(gè)活動(dòng)執(zhí)行時(shí)間總和作為預(yù)測(cè)總值.
3)EV方法首先統(tǒng)計(jì)當(dāng)前業(yè)務(wù)過(guò)程實(shí)例在各個(gè)活動(dòng)點(diǎn)選擇不同結(jié)果的概率與剩余執(zhí)行時(shí)間,到達(dá)不同結(jié)果的概率與剩余執(zhí)行時(shí)間計(jì)算采用加權(quán)求和方式,然后根據(jù)前者計(jì)算的結(jié)果,再次利用加權(quán)求和方法求取不同活動(dòng)點(diǎn)的剩余執(zhí)行時(shí)間.雖然兩次計(jì)算方法均采用加權(quán)求和,但是所執(zhí)行的對(duì)象不同.
4)SVR方法將業(yè)務(wù)過(guò)程執(zhí)行開(kāi)始到當(dāng)前活動(dòng)已獲取的特征作為輸入,將當(dāng)前活動(dòng)執(zhí)行至業(yè)務(wù)過(guò)程結(jié)束的真實(shí)時(shí)間作為輸出進(jìn)行模型訓(xùn)練.對(duì)訓(xùn)練結(jié)束的模型,輸入已獲得活動(dòng)特征,輸出值即為當(dāng)前活動(dòng)的預(yù)測(cè)剩余時(shí)間.
本文搭建的SSFM模型運(yùn)用到樸素貝葉斯、支持向量回歸以及LSTM神經(jīng)網(wǎng)絡(luò).其中LSTM參數(shù)部分對(duì)結(jié)果影響較大,因此對(duì)LSTM神經(jīng)網(wǎng)絡(luò)部分進(jìn)行介紹.本文搭建的LSTM神經(jīng)網(wǎng)絡(luò)模型包括輸入層、隱藏層以及輸出層,其中誤差函數(shù)使用均方誤差(mean squared error,mse),優(yōu)化算法使用適應(yīng)性動(dòng)量估計(jì)(Adaptive moment estimation,Adam)算法,它是由Kingma等人提出[19].Adam是一種基于梯度的隨機(jī)優(yōu)化算法,其優(yōu)點(diǎn)是能夠自適應(yīng)性更新學(xué)習(xí)率,且在實(shí)際應(yīng)用中效果很好[20].
為了防止模型學(xué)習(xí)不充分或過(guò)擬合,我們?cè)诓煌螖?shù)處輸出損失函數(shù)值以選擇合適的迭代次數(shù),各個(gè)活動(dòng)迭代次數(shù)損失函數(shù)輸出值如圖6所示.
圖6 不同迭代次數(shù)的損失函數(shù)值Fig.6 Loss function values for different iterations
圖6表示不同活動(dòng)點(diǎn)迭代次數(shù)與損失函數(shù)值的關(guān)系,通過(guò)圖6(a)發(fā)現(xiàn)在活動(dòng)A_Concept處當(dāng)?shù)螖?shù)達(dá)到17500左右,損失函數(shù)值趨于穩(wěn)定,故將17500設(shè)置為當(dāng)前活動(dòng)的迭代次數(shù).同理,由圖6(b)-圖6(f)觀察可知,后續(xù)活動(dòng)迭代次數(shù)分別設(shè)置為15000,15000,8000,6000,3000.
本文通過(guò)上述參數(shù)學(xué)習(xí)不同活動(dòng)點(diǎn)網(wǎng)絡(luò)模型,并對(duì)數(shù)據(jù)集按照8:2劃分為訓(xùn)練集與測(cè)試集對(duì)算法進(jìn)行試驗(yàn),本文所提方法與對(duì)比實(shí)驗(yàn)結(jié)果如表2所示.
表2 不同預(yù)測(cè)方法的RMSE值
Table 2 RMSE values for different prediction methods
活動(dòng)名稱(chēng)方法MPPREPEVMVSVRSSMFA_Concept13.2998.79114.77111.12910.8068.701A_Accepted12.8538.30710.69710.64710.2888.269A_Complete12.2898.0929.37210.54410.0028.160A_Validating5.6904.9375.4975.7586.4365.140A_Incomplete5.0634.9075.0595.0866.2274.756A_Validating2.4562.1872.4572.4172.5972.360
對(duì)比實(shí)驗(yàn)REP將業(yè)務(wù)過(guò)程的真正執(zhí)行路徑作為其預(yù)測(cè)執(zhí)行路徑,而其他對(duì)比實(shí)驗(yàn)則不知道真正的執(zhí)行路徑,故其實(shí)驗(yàn)結(jié)果可作為其他方法的參考標(biāo)準(zhǔn), 即其他方法的實(shí)驗(yàn)結(jié)果與REP結(jié)果越接近表明該方法預(yù)測(cè)效果越好.由表2可知,本文提出的SSFM算法在不同活動(dòng)點(diǎn)的預(yù)測(cè)精度都比其他對(duì)比算法較高.對(duì)所有方法而言,其預(yù)測(cè)誤差隨著活動(dòng)執(zhí)行逐漸變小,進(jìn)一步說(shuō)明考慮更多活動(dòng)上下文對(duì)預(yù)測(cè)結(jié)果有積極影響.另外實(shí)驗(yàn)結(jié)果表明SSMF預(yù)測(cè)結(jié)果與REP預(yù)測(cè)結(jié)果最為接近,且在個(gè)別活動(dòng)點(diǎn)其預(yù)測(cè)效果更好,即表明SSFM預(yù)測(cè)結(jié)果與業(yè)務(wù)過(guò)程實(shí)例的真正執(zhí)行路徑時(shí)間較為接近,更好的解釋了SSFM模型的學(xué)習(xí)活動(dòng)之間依賴(lài)信息的能力以及考慮各個(gè)活動(dòng)對(duì)整體結(jié)果具有積極作用.
本文結(jié)合樸素貝葉斯、支持向量回歸以及LSTM神經(jīng)網(wǎng)絡(luò)模型,提出基于Stacking策略模型融合的業(yè)務(wù)過(guò)程剩余執(zhí)行時(shí)間預(yù)測(cè)方法.該方法具有以下優(yōu)點(diǎn):1)該方法考慮更多的上下文特征對(duì)預(yù)測(cè)結(jié)果的影響;2)該方法考慮基本組件或單個(gè)活動(dòng)對(duì)整體結(jié)果所做的貢獻(xiàn)與影響;3)該方法考慮各個(gè)活動(dòng)之間存在依賴(lài)關(guān)系.另外,將本文所用方法與相關(guān)業(yè)務(wù)活動(dòng)剩余時(shí)間預(yù)測(cè)方法進(jìn)行比較,在以RMSE作為評(píng)價(jià)指標(biāo)的前提下,發(fā)現(xiàn)該模型具有更高的預(yù)測(cè)精度,具有更好的表現(xiàn)效果.本文使用的模型只應(yīng)用于預(yù)測(cè)當(dāng)前活動(dòng)的剩余執(zhí)行時(shí)間,業(yè)務(wù)過(guò)程執(zhí)行路徑由一系列活動(dòng)組成,其執(zhí)行路徑可看做一系列序列活動(dòng),所以未來(lái)的計(jì)劃將研究擴(kuò)展該模型,使其能夠完成業(yè)務(wù)過(guò)程執(zhí)行路徑的預(yù)測(cè).