劉 健,劉利釗,汪建均,顧曉光
(1.南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院,江蘇南京210094;2.廈門(mén)理工學(xué)院計(jì)算機(jī)與信息工程學(xué)院,福建廈門(mén)361024)
基于過(guò)程挖掘的未來(lái)感知預(yù)測(cè)模型
劉 健1,劉利釗2,汪建均1,顧曉光1
(1.南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院,江蘇南京210094;2.廈門(mén)理工學(xué)院計(jì)算機(jī)與信息工程學(xué)院,福建廈門(mén)361024)
將事件日志中蘊(yùn)含的過(guò)程模型看成兩緊鄰活動(dòng)的組合,提出兩種新的過(guò)程模型。首先,利用日志信息中的活動(dòng)緊鄰關(guān)系構(gòu)造鄰接矩陣提取過(guò)程模型,該模型中每個(gè)活動(dòng)僅發(fā)生一次;其次,為避免過(guò)程模型中出現(xiàn)回路或者環(huán)路而造成模型預(yù)測(cè)精度降低的情況發(fā)生,在構(gòu)造的鄰接矩陣中增加活動(dòng)在事件日志中所處的順序位次,構(gòu)造含有活動(dòng)位次信息的鄰接矩陣,以此為基礎(chǔ)上進(jìn)一步提取過(guò)程模型,該模型中每個(gè)活動(dòng)在同一個(gè)位次上僅發(fā)生一次;再次,通過(guò)矩陣中的信息可獲得過(guò)程模型中每個(gè)上層節(jié)點(diǎn)到各個(gè)下層節(jié)點(diǎn)的路徑與相應(yīng)概率;接下來(lái),根據(jù)事件日志中信息的類(lèi)型和特征,利用過(guò)程模型對(duì)決策者所需要的信息(如活動(dòng)名稱(chēng)、等待時(shí)間、發(fā)生概率)進(jìn)行預(yù)測(cè);最后,利用隨機(jī)數(shù)據(jù)與實(shí)際數(shù)據(jù)同基于序列提取規(guī)則的過(guò)程模型預(yù)測(cè)結(jié)果進(jìn)行比較,驗(yàn)證所提模型的實(shí)際有效性。
鄰接矩陣;過(guò)程挖掘;預(yù)測(cè);商業(yè)智能
隨著信息技術(shù)的發(fā)展和信息時(shí)代的到來(lái),越來(lái)越多的數(shù)據(jù)信息被記錄在相應(yīng)的數(shù)據(jù)信息系統(tǒng)中,這些被記錄下來(lái)的數(shù)據(jù)信息以事件日志的形式進(jìn)行保存[1],同時(shí)這些記錄下來(lái)的數(shù)據(jù)信息蘊(yùn)含著相關(guān)企業(yè)的生產(chǎn)制造或商業(yè)交易操作過(guò)程。企業(yè)如何利用這些數(shù)據(jù)信息,提取有重要價(jià)值的操作過(guò)程模型,通過(guò)模型發(fā)現(xiàn)現(xiàn)有過(guò)程的不足之處并進(jìn)行改進(jìn),具有非常重要的意義。那么如何從這些以事件日志形式記錄的信息數(shù)據(jù)中提取出對(duì)自己有價(jià)值的信息,已經(jīng)引起越來(lái)越多企業(yè)經(jīng)營(yíng)者和管理者的興趣[2]。伴隨著這種需求的出現(xiàn),過(guò)程挖掘這種新的過(guò)程模型挖掘技術(shù)應(yīng)運(yùn)而生并得到迅速發(fā)展[3-5],過(guò)程挖掘[612]的目的是利用這些記錄在信息系統(tǒng)中的事件日志信息提取蘊(yùn)含其中的過(guò)程模型。利用過(guò)程挖掘技術(shù)通過(guò)某個(gè)企業(yè)記錄在信息系統(tǒng)中的數(shù)據(jù)信息,能夠發(fā)現(xiàn)企業(yè)的日常采購(gòu)或銷(xiāo)售的詳細(xì)過(guò)程模型,從而管理者根據(jù)采購(gòu)和銷(xiāo)售模型建立一套相應(yīng)的庫(kù)存管理預(yù)測(cè)系統(tǒng),根據(jù)該預(yù)測(cè)系統(tǒng)實(shí)現(xiàn)該企業(yè)庫(kù)存管理的智能化控制。
隨著大數(shù)據(jù)時(shí)代的到來(lái),第一,越來(lái)越多的事件通過(guò)信息系統(tǒng)記錄下其詳細(xì)的歷史過(guò)程;第二,業(yè)務(wù)流程管理與商業(yè)智能軟件已經(jīng)引起專(zhuān)家學(xué)者、軟件開(kāi)發(fā)者和企業(yè)管理者的關(guān)注。這些都驅(qū)動(dòng)著過(guò)程挖掘這種新技術(shù)的進(jìn)一步發(fā)展。
過(guò)程挖掘[3-9]自20世紀(jì)90年代開(kāi)始萌芽,目前已經(jīng)成為一個(gè)重要的研究領(lǐng)域,它可以彌補(bǔ)現(xiàn)有數(shù)據(jù)挖掘中存在的一些不足之處[13]。相比數(shù)據(jù)挖掘其優(yōu)勢(shì)主要表現(xiàn)為:①能讓管理者更好地理解某產(chǎn)品的生產(chǎn)制造過(guò)程或某個(gè)商業(yè)事件的交易過(guò)程;②發(fā)現(xiàn)并確定實(shí)際生產(chǎn)制造或交易過(guò)程同理想化生產(chǎn)制造或交易過(guò)程之間的不同之處,從而對(duì)實(shí)際過(guò)程進(jìn)行檢查、調(diào)整、修改或重新設(shè)計(jì);③對(duì)生產(chǎn)過(guò)程中某個(gè)活動(dòng)的運(yùn)行時(shí)間進(jìn)行跟蹤和查詢(xún);④檢查和改善現(xiàn)有的生產(chǎn)制造或商業(yè)交易過(guò)程,發(fā)現(xiàn)機(jī)會(huì),增加產(chǎn)品的產(chǎn)量或完善交易過(guò)程[1415]。例如:在日常醫(yī)療保健方面,基于記錄在某醫(yī)院信息體統(tǒng)中的數(shù)據(jù)信息提取該事件的常規(guī)操作流程,從而對(duì)患者目前接受的治療過(guò)程進(jìn)行異常識(shí)別,避免可能發(fā)生的不當(dāng)治療[1617]。
在日常的商業(yè)操作流程和企業(yè)生產(chǎn)加工制造中,根據(jù)記錄在信息系統(tǒng)中的數(shù)據(jù)信息提取過(guò)程模型,能夠?qū)?lái)可能發(fā)生的活動(dòng)或該活動(dòng)發(fā)生的時(shí)間和概率等進(jìn)行預(yù)測(cè)。通過(guò)服務(wù)推薦模型[18],可以預(yù)測(cè)接下來(lái)最可能發(fā)生的活動(dòng),利用該模型可進(jìn)行活動(dòng)預(yù)測(cè)但不能對(duì)活動(dòng)發(fā)生的時(shí)間和概率進(jìn)行預(yù)測(cè)。通過(guò)循環(huán)時(shí)間預(yù)測(cè)方法[19],基于非參數(shù)回歸技術(shù)可以預(yù)測(cè)某個(gè)事件活動(dòng)發(fā)生后到整個(gè)過(guò)程結(jié)束的時(shí)間,根據(jù)回歸分析還可以預(yù)測(cè)某個(gè)活動(dòng)接下來(lái)的發(fā)生概率。注解轉(zhuǎn)移系統(tǒng)過(guò)程模型[1],基于集合和序列算法能夠預(yù)測(cè)從過(guò)程開(kāi)始到其中任意活動(dòng)所需時(shí)間和從任意活動(dòng)到整個(gè)過(guò)程結(jié)束所需時(shí)間以及過(guò)程模型中任意兩個(gè)相鄰活動(dòng)之間的時(shí)間間隔(interval time,IT);該算法能夠解決循環(huán)時(shí)間預(yù)測(cè)方法中存在的不足。荷蘭埃因霍芬理工大學(xué)開(kāi)發(fā)的過(guò)程挖掘(process mining,PROM)工具箱[20]中還包含多種進(jìn)行提取過(guò)程模型的方法,如:?jiǎn)l(fā)式算法[8],區(qū)域挖掘算法[9],字母系列[21],Petri網(wǎng)[22]和遺傳算法[23]等。
本文創(chuàng)新之處:將蘊(yùn)含在事件日志中的過(guò)程模型看成兩個(gè)緊鄰活動(dòng)之間的組合,通過(guò)這種緊鄰關(guān)系的組合構(gòu)造鄰接矩陣,進(jìn)一步提取過(guò)程模型。通過(guò)鄰接矩陣中包含的信息構(gòu)建過(guò)程模型并計(jì)算每個(gè)上層節(jié)點(diǎn)到下層節(jié)點(diǎn)可能存在的路徑、間隔時(shí)間和條件概率。本文基于鄰接矩陣提取過(guò)程模型(process model based on adjacency matrix abstraction,PMAM)并利用模型進(jìn)行預(yù)測(cè),該方法與現(xiàn)有方法的原理不同,基于PMAM提取的過(guò)程模型法不僅可以預(yù)測(cè)接下來(lái)最有可能發(fā)生的活動(dòng),并預(yù)測(cè)當(dāng)某個(gè)活動(dòng)發(fā)生后接下來(lái)所有可能發(fā)生的活動(dòng),還可以同時(shí)預(yù)測(cè)達(dá)到各個(gè)活動(dòng)的概率及到達(dá)時(shí)間。本文通過(guò)PMAM,針對(duì)不同案例可對(duì)鄰接矩陣中的信息進(jìn)行增加,通過(guò)提取的過(guò)程模型獲得決策者所需要的特征,此時(shí)僅需要在過(guò)程模型中添加所需要的特征信息即可。本文利用頻率信息預(yù)測(cè)接下來(lái)所有可能發(fā)生的活動(dòng)概率,采用平均值作為時(shí)間預(yù)測(cè)函數(shù)[1]預(yù)測(cè)到達(dá)該活動(dòng)的時(shí)間。
本文總體結(jié)構(gòu)如下:首先,對(duì)信息系統(tǒng)中的事件日志進(jìn)行簡(jiǎn)要概括,其次,基于隨機(jī)數(shù)據(jù)對(duì)本文提出的鄰接矩陣和位次鄰接矩陣的構(gòu)成過(guò)程進(jìn)行詳細(xì)分析并闡述其相應(yīng)過(guò)程模型的提取算法和步驟;再次,利用兩個(gè)隨機(jī)數(shù)據(jù)案例對(duì)PMAM與現(xiàn)有的過(guò)程模型預(yù)測(cè)結(jié)果進(jìn)行比較并分析預(yù)測(cè)結(jié)果的優(yōu)劣;然后,利用一個(gè)真實(shí)數(shù)據(jù)案例對(duì)PMAM與基于序列提取規(guī)則過(guò)程模型(process model base on sequence abstraction,PMS)預(yù)測(cè)結(jié)果再次進(jìn)行比較分析;最后,對(duì)本文所做工作進(jìn)行總結(jié)及展望。
目前在人力資源管理系統(tǒng)、企業(yè)生產(chǎn)與銷(xiāo)售管理系統(tǒng)、金融證券交易系統(tǒng)等信息系統(tǒng)中都存儲(chǔ)了大量的事件日志信息,這些日志信息都為學(xué)術(shù)的研究提供了有力的數(shù)據(jù)支撐。在學(xué)術(shù)領(lǐng)域,針對(duì)商業(yè)交易或工業(yè)生產(chǎn)中的過(guò)程模型都是假設(shè)每個(gè)事件是相互獨(dú)立的,也就是說(shuō)每個(gè)事件對(duì)應(yīng)一個(gè)執(zhí)行活動(dòng)且活動(dòng)之間相互獨(dú)立。從信息系統(tǒng)角度來(lái)看,過(guò)程模型包含了業(yè)務(wù)流程全部針對(duì)執(zhí)行活動(dòng)的相關(guān)記錄。在信息系統(tǒng)中記錄的事件日志包含著活動(dòng)的開(kāi)始時(shí)間、完成時(shí)間、費(fèi)用和參與人員等相關(guān)信息。
表1是一個(gè)關(guān)于航空航天與國(guó)防領(lǐng)域某航空公司對(duì)所研發(fā)關(guān)鍵零部件申請(qǐng)?zhí)枮椤癇64654871”的專(zhuān)利申請(qǐng)過(guò)程[23]的事件日志信息(部分)。該事件日志中包含4個(gè)方面的信息:活動(dòng)名稱(chēng)、完成時(shí)間、人員和費(fèi)用。根據(jù)其中的活動(dòng)信息,在該過(guò)程中共有5個(gè)活動(dòng)發(fā)生,第一個(gè)發(fā)生的活動(dòng)是“register request”,該活動(dòng)完成時(shí)間是“20- 10- 2013,10:00”;第二個(gè)發(fā)生的活動(dòng)是“examine casually”,該活動(dòng)完成時(shí)間是“21- 10- 2013,11:00”;第五個(gè)發(fā)生的活動(dòng)(最后活動(dòng))是“accept request”相應(yīng)的完成時(shí)間是“07- 11- 2013,17:30”。
表1 Excel格式事件日志(該圖反映了該航空公司對(duì)所研發(fā)關(guān)鍵零部件的專(zhuān)利申請(qǐng)過(guò)程)
數(shù)據(jù)管理系統(tǒng)中記錄的事件日志一般有XES、XML、Word和Excel等格式。表1的事件日志信息是一個(gè)用Excel格式表示的針對(duì)專(zhuān)利號(hào)為A14658432的申請(qǐng)活動(dòng)流程。通過(guò)觀(guān)察可以發(fā)現(xiàn)該案例中的過(guò)程是由一系列相互聯(lián)系活動(dòng)組合,如:“register request-examine casually”,“examine casually-check ticket”,“check ticket-Decide”和“Decide-accept request”,根據(jù)該組合過(guò)程可提取出該航空公司對(duì)所研究關(guān)鍵零部件專(zhuān)利號(hào)為A14658432的過(guò)程模型。根據(jù)過(guò)程模型,管理者可以預(yù)測(cè)接下來(lái)將要發(fā)生什么活動(dòng),從而對(duì)活動(dòng)進(jìn)行預(yù)測(cè)。例如:當(dāng)活動(dòng)“Decide”發(fā)生后,接下來(lái)活動(dòng)“accept request”可能會(huì)發(fā)生。在此基礎(chǔ)之上,利用事件日志中活動(dòng)對(duì)應(yīng)的時(shí)間,計(jì)算任意兩相鄰活動(dòng)之間的時(shí)間間隔。如:在上述日志信息中可知,當(dāng)活動(dòng)“Decide”完成后,距離活動(dòng)“accept request”完成還需要74小時(shí)10分鐘的時(shí)間。
事件日志中,不同路徑中兩相同緊鄰活動(dòng)之間的時(shí)間間隔可能會(huì)不同,本文采用文獻(xiàn)[1]中的平均值作為時(shí)間預(yù)測(cè)函數(shù)。本文利用蘊(yùn)含在事件日志的活動(dòng),通過(guò)兩緊鄰活動(dòng)之間組合構(gòu)造鄰接矩陣,基于該鄰接矩陣提取所對(duì)應(yīng)的過(guò)程模型,然后利用過(guò)程模型進(jìn)行相應(yīng)事件的預(yù)測(cè)(活動(dòng)、概率和時(shí)間)。
2.1 鄰接矩陣構(gòu)造算法
本部分采用文獻(xiàn)[1,24]中的隨機(jī)數(shù)據(jù)I為例(見(jiàn)表2),詳細(xì)描述事件日志數(shù)據(jù)信息所對(duì)應(yīng)鄰接矩陣構(gòu)造過(guò)程的算法細(xì)節(jié),在此基礎(chǔ)之上,闡述基于矩陣的過(guò)程模型提取方法。
表2 隨機(jī)數(shù)據(jù)I
顯然,表2中含有7個(gè)不同的案例,每個(gè)案例中記錄著相應(yīng)該過(guò)程發(fā)生的活動(dòng)名稱(chēng)和時(shí)間,本文假設(shè)對(duì)應(yīng)時(shí)間為活動(dòng)完成時(shí)間。
2.1.1 算法細(xì)節(jié)
假設(shè)事件日志中所含活動(dòng)信息對(duì)應(yīng)的鄰接矩陣是一個(gè)(N+2)×(N+2)的方陣,其中,N是指事件日志中所有不同類(lèi)型活動(dòng)的數(shù)量,2表示人為增加的兩個(gè)虛擬活動(dòng)開(kāi)始(START)和結(jié)束(END)。表2中含有A,B,C,D,E 5個(gè)不同類(lèi)型的活動(dòng),再加上START和END,表2中的事件日志信息對(duì)應(yīng)的是一個(gè)7×7的鄰接矩陣。
本文通過(guò)鄰接矩陣中的數(shù)據(jù)來(lái)反映這種緊鄰活動(dòng)的鄰接關(guān)系,即:當(dāng)兩個(gè)活動(dòng)i與j在事件日志中所有案例中的緊鄰頻率(frequency,F(xiàn)RE)之和為n時(shí),那么矩陣中在這兩個(gè)活動(dòng)(i,j)的對(duì)應(yīng)位置的信息是[n],若兩個(gè)活動(dòng)i與j在事件日志中所有案例中沒(méi)有作為緊鄰活動(dòng)出現(xiàn)過(guò),則鄰接矩陣的相應(yīng)位置為空(在本文中在該位置不添加任何的信息,因此在本文中用空白進(jìn)行表示,當(dāng)然也可以在該位置采用空集合來(lái)替代,達(dá)到相同的效果)。利用表2中隨機(jī)數(shù)據(jù)I構(gòu)造的鄰接矩陣如表3所示。
表3 鄰接矩陣I_______________________
根據(jù)表3(鄰接矩陣I)可知,針對(duì)表2中的7個(gè)案例,活動(dòng)A與B緊鄰的次數(shù)之和是3,活動(dòng)A與C緊鄰的次數(shù)之和是2,活動(dòng)A與E緊鄰的次數(shù)之和也是2。從而當(dāng)活動(dòng)A發(fā)生后,接下來(lái)活動(dòng)B、C和E將會(huì)發(fā)生,這3個(gè)不同活動(dòng)發(fā)生的相應(yīng)概率分別是3/7,2/7和2/7。活動(dòng)START與活動(dòng)A緊鄰的次數(shù)之和是7,活動(dòng)D與活動(dòng)END緊鄰的次數(shù)之和也是7。由于START和END都是虛擬的活動(dòng),因此在表2中,第一個(gè)活動(dòng)都是A,最后一個(gè)活動(dòng)都是D。
由于表2中的時(shí)間對(duì)應(yīng)活動(dòng)的完成時(shí)間,案例1中活動(dòng)A完成后,距離活動(dòng)B完成所需時(shí)間間隔為4;案例3中活動(dòng)A完成后,距離活動(dòng)B完成所需時(shí)間間隔為4;在案例5中當(dāng)活動(dòng)A完成后,距離活動(dòng)B完成所需時(shí)間間隔為6。通過(guò)文獻(xiàn)[1,24]中提到的平均值作為時(shí)間預(yù)測(cè)函數(shù),根據(jù)表2中時(shí)間信息,可知活動(dòng)A完成后,針對(duì)上述3個(gè)案例的平均間隔時(shí)間值,還需要4.67(14/3)的間隔時(shí)間活動(dòng)B才能完成,同樣可以得到,距離活動(dòng)B、C和E完成所需要的時(shí)間分別是4.67,4.50和9.50。
根據(jù)前面的分析,利用對(duì)應(yīng)事件日志中的活動(dòng)完成時(shí)間,計(jì)算兩個(gè)相鄰活動(dòng)(i,j)之間的時(shí)間間隔,得到新的含有時(shí)間信息的鄰接矩陣,如表4所示。由于活動(dòng)START與END是構(gòu)造鄰接矩陣時(shí),人為增加的兩個(gè)虛擬活動(dòng),所以事件日志信息中的任何真實(shí)活動(dòng)與這兩個(gè)虛擬活動(dòng)緊鄰之間的時(shí)間間隔都是0。
表4 鄰接矩陣Ⅱ
2.1.2 過(guò)程模型提取
根據(jù)鄰接矩陣的構(gòu)造過(guò)程算法細(xì)節(jié)可知,當(dāng)鄰接矩陣中所對(duì)應(yīng)(i,j)位置數(shù)據(jù)不為空時(shí),說(shuō)明在事件日志中,活動(dòng)i與j在某個(gè)或某幾個(gè)案例中作為緊鄰活動(dòng),那么在過(guò)程模型提取時(shí),這兩個(gè)活動(dòng)之間有直接的聯(lián)系,從而應(yīng)用線(xiàn)連接起來(lái),當(dāng)在兩個(gè)活動(dòng)相連的線(xiàn)上增加矩陣中的相應(yīng)信息(頻率與時(shí)間間隔數(shù)值),可得到包含時(shí)間信息與頻率信息的過(guò)程模型。針對(duì)表2中的隨機(jī)數(shù)據(jù)(7個(gè)案例,26個(gè)活動(dòng))對(duì)應(yīng)的鄰接矩陣Ⅱ,提取的過(guò)程模型如圖1所示。
圖1 預(yù)測(cè)過(guò)程模型(基于鄰接矩陣Ⅱ提?。?/p>
表2中含有的5個(gè)不同類(lèi)型的活動(dòng)在圖1的模型中僅出現(xiàn)一次,此時(shí)在圖1中活動(dòng)B與C之間存在一個(gè)回路,根據(jù)圖1中現(xiàn)有頻率信息,無(wú)法計(jì)算出活動(dòng)B與C之間回路發(fā)生的次數(shù)(無(wú)法確定活動(dòng)B與C在事件日志案例中緊鄰成對(duì)出現(xiàn)的次數(shù))。
據(jù)文獻(xiàn)[2,25]可知,過(guò)程模型的預(yù)測(cè)精度與模型中回路或者環(huán)路的數(shù)量呈負(fù)相關(guān)性,隨著回路或者環(huán)路數(shù)量的增多,該過(guò)程模型的精度相應(yīng)降低。為避免過(guò)程模型中產(chǎn)生回路或者環(huán)路,在鄰接矩陣Ⅱ中的(i,j)處,增加活動(dòng)i在事件日志案例中所發(fā)生位置對(duì)應(yīng)順序數(shù)據(jù)信息,進(jìn)一步構(gòu)造含有活動(dòng)順序位次的鄰接矩陣。
2.2 鄰接矩陣進(jìn)一步構(gòu)造
表2中,活動(dòng)A作為第1位次的活動(dòng)出現(xiàn)了7次,即A都是第一個(gè)發(fā)生的活動(dòng)。由于每個(gè)案例中發(fā)生活動(dòng)的數(shù)量與過(guò)程不同,每個(gè)活動(dòng)順序發(fā)生的位次不同,D在案例4和案例7中是第3個(gè)發(fā)生的活動(dòng),在其余5個(gè)案例中是第4個(gè)發(fā)生的活動(dòng),但所有案例中D都是最后一個(gè)發(fā)生的活動(dòng),因此無(wú)論D在哪個(gè)位次出現(xiàn),距離結(jié)束(END)的時(shí)間間隔都是0(IT=0)。
本文假設(shè)虛擬活動(dòng)START在案例中對(duì)應(yīng)的位次是0。在鄰接矩陣Ⅱ中的(i,j)處,增加活動(dòng)i在事件日志中相對(duì)應(yīng)的位次,得到含有活動(dòng)位次信息的鄰接矩陣Ⅲ,如表5所示。
表5 鄰接矩陣Ⅲ
2.2.1 過(guò)程模型提取
對(duì)比鄰接矩陣Ⅲ與鄰接矩陣Ⅱ中的信息,可以發(fā)現(xiàn),活動(dòng)D與END相對(duì)應(yīng)位置的信息由([7]<IT=0.00>)變?yōu)椋ǎ?}[5]<IT=0>;{3}[2]<IT=0>),表示在表2中,活動(dòng)D作為第3位次的活動(dòng)與END相鄰的是2次,作為第4位次的活動(dòng)與END相鄰的是5次。表2基于位次鄰接矩陣提取的過(guò)程模型如圖2所示。
針對(duì)表2中的隨機(jī)數(shù)據(jù),都是基于鄰接矩陣提取過(guò)程模型,但是由于鄰接矩陣Ⅱ與鄰接矩陣Ⅲ所含有信息的不同,得到圖1與圖2中兩個(gè)不同的過(guò)程模型。圖2中同一個(gè)活動(dòng)可能多次出現(xiàn)(如:活動(dòng)C出現(xiàn)2次,活動(dòng)D也出現(xiàn)2次),但是不同類(lèi)型活動(dòng)在同一個(gè)順序位次上僅出現(xiàn)了一次,同時(shí)圖2中的模型與圖1中的模型相比不存在回路或環(huán)路。
圖2 預(yù)測(cè)過(guò)程模型(基于鄰接矩陣Ⅲ提?。?/p>
根據(jù)圖2中的過(guò)程模型可知,當(dāng)活動(dòng)B發(fā)生在第2個(gè)位次時(shí),接下來(lái)在第3位次上將會(huì)發(fā)生活動(dòng)C,根據(jù)圖2過(guò)程模型中的頻率信息可知,第2位次發(fā)生活動(dòng)B的頻率是3,第3位次發(fā)生活動(dòng)C的頻率是3。第3位次中的活動(dòng)與第2位次活動(dòng)B相鄰的只有活動(dòng)C,利用活動(dòng)C在第3位次發(fā)生的頻率3與活動(dòng)B在第2位次發(fā)生的頻率3可以求得此時(shí)的條件概率,那么活動(dòng)C發(fā)生的概率是1(P{{3}←C/{2}←B}=3/3=1,與此同時(shí),活動(dòng)B完成后距離活動(dòng)C完成的時(shí)間是4.33。
針對(duì)表2中的隨機(jī)數(shù)據(jù)事件日志信息,利用圖2中的過(guò)程模型相比利用圖1中的過(guò)程模型能得到更好地預(yù)測(cè)結(jié)果,原因在于鄰接矩陣Ⅲ比鄰接矩陣Ⅱ含有更多的信息(案例中每個(gè)活動(dòng)的順序位次信息),因此圖2中過(guò)程模型更精確。因此,在實(shí)際應(yīng)用中,可根據(jù)決策者對(duì)模型預(yù)測(cè)精度要求,在鄰接矩陣中增加不同的信息。
利用隨機(jī)數(shù)據(jù),將本文提出的PMAM的預(yù)測(cè)結(jié)果與文獻(xiàn)[1]中提出的PMS的預(yù)測(cè)結(jié)果進(jìn)行比較,來(lái)驗(yàn)證PMAM算法的可行性。
3.1 隨機(jī)數(shù)據(jù)I
針對(duì)表2中的事件日志,利用過(guò)程挖掘工具PROM[20]提取PMS與PMAM(具體數(shù)據(jù)信息如圖2中所示),這兩種模型的預(yù)測(cè)結(jié)果比較如表6所示。
表6 PMAM與PMS預(yù)測(cè)結(jié)果
在表6中的第2個(gè)狀態(tài)表示活動(dòng)A是過(guò)程模型或事件日志的案例中第1個(gè)發(fā)生的活動(dòng),或者活動(dòng)A是第一個(gè)位次的活動(dòng),在本文中用(“A{1}”)來(lái)表示這種狀態(tài)。由表6可知,PMAM與PMS共在9個(gè)狀態(tài)下進(jìn)行預(yù)測(cè)。針對(duì)時(shí)間預(yù)測(cè):在2個(gè)狀態(tài)下得到的結(jié)果不同(“A{1}”和“D{4}”),在7個(gè)狀態(tài)下得到的結(jié)果相同。在表6中:當(dāng)“A{1}”時(shí),PMAM有3個(gè)可能的預(yù)測(cè)值,而現(xiàn)有的PMS只有1個(gè)預(yù)測(cè)值。當(dāng)“D{4}”時(shí),PMAM只有1個(gè)預(yù)測(cè)值,而PMS有2個(gè)可能的預(yù)測(cè)值。通過(guò)表6還可以發(fā)現(xiàn),現(xiàn)有PMS不能預(yù)測(cè)接下來(lái)發(fā)生某個(gè)活動(dòng)的概率。
通過(guò)表6可知,PMS算法關(guān)注已經(jīng)發(fā)生了什么活動(dòng);而PMAM算法關(guān)注當(dāng)前活動(dòng)所處的順序位次及接下來(lái)可能發(fā)生的活動(dòng)。利用PMS和PMAM進(jìn)行預(yù)測(cè),相同之處在于:當(dāng)發(fā)生在同一個(gè)順序位次的活動(dòng)不同時(shí),模型中的路徑將會(huì)在此處產(chǎn)生分支;不同之處在于:利用PMS算法,模型中的路徑只要有分支產(chǎn)生,直到最后一個(gè)活動(dòng)完成路徑都不可能再次合并;利用PMAM算法,若在接下來(lái)在同一個(gè)順序位次上有相同的活動(dòng)發(fā)生時(shí),模型中產(chǎn)生分支的路徑將會(huì)再次進(jìn)行合并。
在表6中,當(dāng)“D{4}”時(shí),利用PMAM進(jìn)行時(shí)間預(yù)測(cè)時(shí)只有1個(gè)數(shù)值。根據(jù)上面的分析可知,在案例2和案例4中:[A,B,C,D]與[A,C,B,D]因?yàn)樵诘?順序位次的活動(dòng)不同(B和C),路徑產(chǎn)生了分支,但是在第4順序位次的活動(dòng)都是D,因此兩條不同的路徑在活動(dòng)D處在第4位次時(shí)又重新進(jìn)行了合并。當(dāng)“A{1}”時(shí),接下來(lái)第2位次上有3個(gè)不同的活動(dòng)出現(xiàn),利用PMAM進(jìn)行預(yù)測(cè),得到指向這3個(gè)不同活動(dòng)相應(yīng)的時(shí)間值,而利用PMS進(jìn)行預(yù)測(cè)僅有1個(gè)時(shí)間預(yù)測(cè)值。
當(dāng)事件日志中包含活動(dòng)較多時(shí),鄰接矩陣階數(shù)增加極快,此時(shí)得到的預(yù)測(cè)過(guò)程模型將極為復(fù)雜,但是利用本文的算法提取過(guò)程模型,在同一個(gè)層次每個(gè)活動(dòng)僅出現(xiàn)一次,而基于前面分析,利用基于序列規(guī)則提取過(guò)程模型,在同一個(gè)層次上相同的活動(dòng)可能出現(xiàn)多次,因?yàn)槔眯蛄刑崛〉倪^(guò)程模型,路徑一旦出現(xiàn)分支將不會(huì)再合并。當(dāng)事件日志中存在大量活動(dòng)時(shí),利用PMAM進(jìn)行過(guò)程挖掘?qū)?huì)比利用PMS進(jìn)行過(guò)程挖掘能節(jié)省大量的運(yùn)算時(shí)間,從而可以提高運(yùn)算速度。
根據(jù)過(guò)程模型中的頻率信息,利用在2個(gè)狀態(tài)“A{1}”和“D{4}”時(shí)的預(yù)測(cè)值,可得:
顯然,在上述兩種狀態(tài)時(shí),利用PMS得到的時(shí)間預(yù)測(cè)值,是利用PMAM進(jìn)行時(shí)間預(yù)測(cè)的加權(quán)綜合值(權(quán)重與頻率有關(guān))。
本文認(rèn)為,在同一種狀態(tài)下提供多種可能性的預(yù)期比僅能提供一種預(yù)期要好。針對(duì)表2中的事件日志在兩種模型的預(yù)測(cè)結(jié)果進(jìn)行分析后得到表7。
表7 利用隨機(jī)數(shù)據(jù)I兩種模型預(yù)測(cè)結(jié)果的比較
根據(jù)表7可得如下結(jié)論:
(1)概率預(yù)測(cè):PMS不能進(jìn)行概率預(yù)測(cè),因?yàn)樵赑MS中不存在頻率信息。
(2)時(shí)間預(yù)測(cè):在77.78%的情形下PMAM與PMS得到相同的時(shí)間預(yù)測(cè)結(jié)果;在11.11%的情形下利用PMAM比PMS得到更好的時(shí)間預(yù)測(cè)結(jié)果;在11.11%的情形下,利用PMS比PMAM得到更好的時(shí)間預(yù)測(cè)結(jié)果;因此,利用PMAM進(jìn)行時(shí)間預(yù)測(cè)與PMS進(jìn)行時(shí)間預(yù)測(cè)得到相同的結(jié)果。
(3)活動(dòng)預(yù)測(cè):兩個(gè)模型對(duì)活動(dòng)的預(yù)測(cè)起到相同的效果,可以通過(guò)這兩個(gè)模型的路徑預(yù)測(cè)接下來(lái)可能發(fā)生的活動(dòng)。
3.2 隨機(jī)數(shù)據(jù)Ⅱ
本節(jié)利用表8中的隨機(jī)數(shù)據(jù)Ⅱ,再次對(duì)PMAM與PMS的預(yù)測(cè)結(jié)果進(jìn)行比較,進(jìn)一步驗(yàn)證本文提出的算法。
表8 隨機(jī)數(shù)據(jù)Ⅱ
針對(duì)表8中的隨機(jī)數(shù)據(jù)Ⅱ事件日志,構(gòu)造含有活動(dòng)順序位次的鄰接矩陣,基于鄰接矩陣提取過(guò)程模型如圖3所示。利用過(guò)程挖掘工具PROM 5[20]對(duì)表8中事件日志提取PMS,將圖3與PMS預(yù)測(cè)結(jié)果進(jìn)行比較,從圖3可知,當(dāng)在4個(gè)狀態(tài)即:“A{1}”,“B{2}”,“C{3}”和“C{6}”時(shí),過(guò)程模型中的路徑出現(xiàn)了分支;當(dāng)且僅當(dāng)“C{5}”時(shí),過(guò)程模型中的分支路徑進(jìn)行合并。通過(guò)分析發(fā)現(xiàn),在上述出現(xiàn)分支的3種狀態(tài)下(“A{1}”,“B{2}”和“C{3}”),通過(guò)時(shí)間預(yù)測(cè)結(jié)果對(duì)比可以發(fā)現(xiàn),PMS預(yù)測(cè)值是PMAM預(yù)測(cè)值的加權(quán)綜合值,此時(shí)PMAM比PMS能起到更好的時(shí)間預(yù)測(cè)效果。當(dāng)“C{6}”時(shí),PMAM的概率預(yù)測(cè)結(jié)果為:接下來(lái)發(fā)生活動(dòng)E(“adjacency E”)的概率P=1/2,當(dāng)活動(dòng)C完成后,距離活動(dòng)E完成所需時(shí)間為11.00(IT=11.00);同時(shí)可以得到接下來(lái)發(fā)生D(“adjacency D”)的概率P=1/2,當(dāng)活動(dòng)C完成后,距離活動(dòng)D完成所需時(shí)間為4.00,但此時(shí)利用PMS得到的時(shí)間預(yù)測(cè)值,并不是本文提出的PMAM加權(quán)綜合預(yù)測(cè)值,而是其中兩個(gè)預(yù)測(cè)值之一(說(shuō)明某個(gè)活動(dòng)不會(huì)發(fā)生)。根據(jù)PMS可知,當(dāng)[A,B,C,C,C,C]這6個(gè)活動(dòng)已經(jīng)發(fā)生后,接下來(lái)發(fā)生“adjacency D”的概率P=0,相應(yīng)的當(dāng)[A,B,C,B,C,C]這6個(gè)活動(dòng)已經(jīng)發(fā)生后,接下來(lái)發(fā)生E(“adjacency E”)的概率P=0。
圖3 預(yù)測(cè)過(guò)程模型(基于鄰接矩陣提取規(guī)則)
利用本文PMAM中含有的頻率進(jìn)行概率預(yù)測(cè),是基于已發(fā)生的前一個(gè)活動(dòng),預(yù)測(cè)發(fā)生下一個(gè)活動(dòng)的條件概率,PMS是基于已發(fā)生的所有活動(dòng),預(yù)測(cè)到下一個(gè)活動(dòng)的條件概率。由于在同一個(gè)狀態(tài)下能提供更多預(yù)測(cè)信息,該模型能起到更好地預(yù)測(cè)效果,因此本文提出的PMAM預(yù)測(cè)效果比文獻(xiàn)[11]中的PMS預(yù)測(cè)效果好。
針對(duì)表8中的事件日志(隨機(jī)數(shù)據(jù)Ⅱ)在兩種模型下的預(yù)測(cè)結(jié)果進(jìn)行分析,得到如表9所示的比較數(shù)據(jù)。
表9 利用隨機(jī)數(shù)據(jù)Ⅱ兩個(gè)模型預(yù)測(cè)結(jié)果的比較
根據(jù)表9中的數(shù)據(jù)可得如下結(jié)論:
(1)概率預(yù)測(cè):PMS不能進(jìn)行概率預(yù)測(cè),因?yàn)樵赑MS中不存在頻率信息,所以PMAM進(jìn)行預(yù)測(cè)比PMS得到更好的概率預(yù)測(cè)結(jié)果。
(2)時(shí)間預(yù)測(cè):在72.22%的狀態(tài)下,本文提出的PMAM與PMS得到完全相同的時(shí)間預(yù)測(cè)結(jié)果,在22.22%的狀態(tài)下,PMAM比PMS得到更好的時(shí)間預(yù)測(cè)結(jié)果,僅在5.56%的狀態(tài)下,PMS比PMAM得到更好的時(shí)間預(yù)測(cè)結(jié)果。因此,利用PMAM進(jìn)行時(shí)間預(yù)測(cè)比利用PMS進(jìn)行時(shí)間預(yù)測(cè)得到更好的時(shí)間預(yù)測(cè)結(jié)果。
(3)活動(dòng)預(yù)測(cè):通過(guò)過(guò)程模型中的路徑判定接下來(lái)可能發(fā)生的活動(dòng),兩個(gè)模型得到相同活動(dòng)預(yù)測(cè)效果。
為進(jìn)一步說(shuō)明本文所提出的PMAM在實(shí)際商業(yè)流程或企業(yè)生產(chǎn)過(guò)程進(jìn)行預(yù)測(cè)的有效性,在該部分,利用真實(shí)數(shù)據(jù)與現(xiàn)有PMS的預(yù)測(cè)結(jié)果進(jìn)行比較。
本文采用2003~2010年美國(guó)專(zhuān)利申請(qǐng)的相關(guān)數(shù)據(jù)[26](種類(lèi)編號(hào)B64:航空航天與國(guó)防領(lǐng)域,該專(zhuān)利申請(qǐng)數(shù)據(jù)總共含有24576個(gè)案例和456個(gè)不同類(lèi)型的活動(dòng))。由于對(duì)456個(gè)不同類(lèi)型活動(dòng)進(jìn)行挖掘是非常龐大的過(guò)程而且有些活動(dòng)出現(xiàn)的頻率非常低,本文對(duì)案例中出現(xiàn)頻率最高的10個(gè)活動(dòng),選擇數(shù)據(jù)中的50個(gè)案例(661個(gè)活動(dòng)),利用本文的算法構(gòu)造鄰接矩陣。首先得到僅包含頻率信息的鄰接矩陣,然后在鄰接矩陣中增加兩個(gè)活動(dòng)之間的間隔時(shí)間信息與活動(dòng)在案例中的順序位次,得到含有活動(dòng)位次信息、頻率信息、時(shí)間信息的鄰接矩陣,依據(jù)本文的算法進(jìn)行過(guò)程挖掘提取過(guò)程模型。
在利用過(guò)程模型進(jìn)行預(yù)測(cè)時(shí),在同一個(gè)狀態(tài)下能提供更多預(yù)測(cè)信息,比僅僅得到一個(gè)預(yù)測(cè)信息時(shí),能起到更好的預(yù)測(cè)效果,針對(duì)上述的專(zhuān)利數(shù)據(jù),得到如表10所示的數(shù)據(jù)。
表10 利用實(shí)際數(shù)據(jù)兩個(gè)模型預(yù)測(cè)結(jié)果的比較
根據(jù)表10的數(shù)據(jù)可得如下結(jié)論:
(1)概率預(yù)測(cè):PMS不能進(jìn)行概率預(yù)測(cè),因?yàn)樵赑MS中不存在頻率信息,所以PMAM進(jìn)行預(yù)測(cè)比PMS得到更好的概率預(yù)測(cè)結(jié)果。
(2)時(shí)間預(yù)測(cè):在49.18%的狀態(tài)下PMAM與PMS得到相同的時(shí)間預(yù)測(cè)結(jié)果,在40.16%的狀態(tài)下PMAM比PMS得到更好的時(shí)間預(yù)測(cè)結(jié)果,在10.66%的狀態(tài)下,現(xiàn)有PMS比PMAM得到更的好時(shí)間預(yù)測(cè)結(jié)果。因此,PMAM比PMS進(jìn)行時(shí)間預(yù)測(cè)得到更好的時(shí)間預(yù)測(cè)結(jié)果。
(3)活動(dòng)預(yù)測(cè):利用過(guò)程模型中的路徑判定接下來(lái)可能發(fā)生的活動(dòng),兩個(gè)模型得到相同的活動(dòng)預(yù)測(cè)效果。
本文將事件日志中蘊(yùn)含的過(guò)程模型進(jìn)行研究,以期利用過(guò)程模型進(jìn)行預(yù)測(cè),通過(guò)預(yù)測(cè)對(duì)生產(chǎn)制造和商業(yè)流程進(jìn)行優(yōu)化。通過(guò)事件日志信息中不同類(lèi)型活動(dòng)的個(gè)數(shù)N和2個(gè)的虛擬活動(dòng)(START和END)構(gòu)建一個(gè)(N+2)×(N+2)階的鄰接矩陣(方陣)。然后根據(jù)決策者與管理者的需求和模型預(yù)測(cè)精度,在所構(gòu)造的鄰接矩陣中增加相應(yīng)的信息(如:時(shí)間間隔、活動(dòng)位次、緊鄰頻率等)。依據(jù)鄰接矩陣中對(duì)應(yīng)位置處有數(shù)據(jù)信息的兩個(gè)活動(dòng)依據(jù)位次的先后順序進(jìn)行連接,提取相應(yīng)的過(guò)程模型并在相應(yīng)位置標(biāo)注對(duì)應(yīng)時(shí)間信息,利用該過(guò)程模型預(yù)測(cè)接下來(lái)會(huì)發(fā)生么活動(dòng)、概率多大、何時(shí)發(fā)生。
本文通過(guò)2個(gè)隨機(jī)數(shù)據(jù)案例與1個(gè)真實(shí)數(shù)據(jù)案例,將PMAM預(yù)測(cè)結(jié)果同PMS的預(yù)測(cè)結(jié)果進(jìn)行比較分析。發(fā)現(xiàn)當(dāng)在某個(gè)狀態(tài)出現(xiàn)分支時(shí),利用PMAM進(jìn)行時(shí)間預(yù)測(cè)比PMS提供更好的預(yù)測(cè)值,當(dāng)在某個(gè)狀態(tài)幾個(gè)分支進(jìn)行合并時(shí),利用PMS進(jìn)行時(shí)間預(yù)測(cè)比PMAM提供更好的預(yù)測(cè)值。利用PMAM比利用PMS能得到更好的概率預(yù)測(cè)。伴隨著大數(shù)據(jù)時(shí)代數(shù)據(jù)量的急劇增加,事件日志所包含活動(dòng)較多時(shí),所構(gòu)造的鄰接矩陣階數(shù)也增加極快,此時(shí)得到的預(yù)測(cè)過(guò)程模型將極為復(fù)雜,但是利用PMAM進(jìn)行預(yù)測(cè)將比利用PMS進(jìn)行預(yù)測(cè)減少運(yùn)算量,縮短運(yùn)算時(shí)間。
本文利用事件日志信息中的活動(dòng)緊鄰關(guān)系構(gòu)造鄰接矩陣,基于矩陣中所含數(shù)據(jù)信息提取過(guò)程模型進(jìn)行預(yù)測(cè),通過(guò)預(yù)測(cè)對(duì)實(shí)際操作過(guò)程進(jìn)行優(yōu)化。將來(lái)將利用事件日志中的人員信息,構(gòu)建在商業(yè)交易流程與生產(chǎn)制造過(guò)程中所涉及員工之間的社會(huì)關(guān)系網(wǎng)絡(luò),同時(shí)將從時(shí)間序列與數(shù)理統(tǒng)計(jì)的角度出發(fā)對(duì)時(shí)間預(yù)測(cè)函數(shù)及相應(yīng)算法進(jìn)行研究。
[1]Van Der A W M P,Schonenberg M H,Song M.Time prediction based on process mining[J].Information Systems,2011,36(2):450- 475.
[2]Huang Z,Kumar A.A study of quality and accuracy trade-offs in process mining[J].INFORMSJournal on Computing,2011,10(3):1- 18.
[3]Van Der A W M P,Van Dongen B F,Herbst J,et al.Workflow mining:a survey of issues and approaches[J].Data and Knowledge Engineering,2003,16(9):1128- 1142.
[4]Dustdar S,Hoffmann T,Van Der A W M P.Mining of Ad-Hoc business process with teamlog[J].Data and Knowledge Engineering,2005,55(2):129- 158.
[5]Van Der A W M P,Van D B F,Gunther C W,et al.Pro M 4.0:comprehensive support for real process analysis[C]∥Proc.of the 28th International Conference on Applications and Theory of Petri Nets,2007:484- 494.
[6]Van Der A W M P,Weijters A J M M,Maruster L.Workflow mining:discovering process models from event logs[J].IEEE Trans. on Knowledge and Data Engineering,2004,16(9):1128- 1142.
[7]Van Der A W M P.Exploring the CSCW spectrum using process mining[J].Advanced Engineering Informatics,2007,21(4):191- 199.
[8]Agrawal R,Gunopulos D,Leymann F.Mining process models from workflow logs[C]∥Proc.of the 6th International Conference on Extending Database Technology,1998:467- 483.
[9]Cook J E,Wolf A L.Discovering models of software processes from event-based data[J].ACM Trans.on Software Engineering and Methodology,1998,7(3):215- 249.
[10]Liu J,Liu P,Liu S F,et al.Handover optimization in business processes via prediction[J].Kybernetes,2013,42(7):1101- 1127.
[11]Weijters A J M M,Van Der A W M P.Rediscovering workflow models from event-based data using little thumb[J].Integrated Computer-Aided Engineering,2003,10(2):151- 162.
[12]Van Der W J M E M,Van D B F,Hurkens C A J,et al.Process discovery using integer linear programming[C]∥Proc. of the 29th International Conference on Applications and Theory of Petri Nets,2008:368- 387.
[13]Tan P N,Steinbach M,Kumar V.Introduction to data mining[M].Boston:Addison Wesley,2006.
[14]Klein M,Bernstein A.Towards high-precision service retrieval[J].IEEE Internet Computing,2004,8(1):30- 36.
[15]Song M,Van Der A W M P.Supporting process mining by showing events at a glance[C]∥Proc.of the 7th Annual Workshop Information and Technology Systems,2007:139- 145.
[16]Mans R S,Schonenberg M H,Song M,et al.Application of process mining in healthcare-a case study in a dutch hospital[J].Communications in Computer and Information Science,2009,25:425- 438.
[17]Yang W S,Hwang S Y.A process-mining framework for the detection of healthcare fraud and abuse[J].Ex pert system with Application,2006,31(1):56- 68.
[18]Schonenberg H,Weber B,Van D B F,et al.Supporting flexible processes from recommendations based on history[C]∥Proc.of the International Conference on Business Process Management,2008:51- 66.
[19]Van D B F,Crooy R A,Van Der A W M P.Cycle time prediction:when will this case finally be finished?[C]∥Proc.of the 16th International Conference on Cooperative Information Systems,2008:319- 336.
[20]Process mining research tools application[EB/OL].[2014- 02-20].http:∥www.processmining.org/prom/downloads.
[21]Wen L,Wang J,Sun J.Detecting implicit dependencies between tasks from event logs[C]∥Proc.of the Aisa-Pacific Web Conference on Frontiers of WWW Research and Development,2006:591- 603.
[22]Van Der W J M E M,Van D B F,Hurkens C A J,et al.Process discovery using integer linear programming[C]∥Proc. of the 29th International Conference on Applications and Theory of Petri Nets,2008:368- 387.
[23]Alves De M A K,Weijters A J M M,Van Der A W M P.Genetic process mining:an experimental evaluation[J].Data Mining and Knowledge Discovery,2007,14(2):245- 304.
[24]Liu J.HCS:study on algorithms and models of decision making problem based on“human-centered service”[D].Nanjing:Nanjing University of Aeronautics and Astronutics,2012.(劉?。凇叭吮痉?wù)”的決策問(wèn)題算法與模型研究[D].南京:南京航空航天大學(xué),2012.)
[25]Huang Z,Kumar A.New quality metrics for evaluating process models[C]∥Proc.of the 4th Workshops Business Process Management,2009:52- 57.
[26]The Unite States patent and trademark office an agency of the department of commerce[EB/OL].[2014- 02- 20].http:∥portal.uspto.gov/external/portal/pair.
Future aware prediction model based on process mining
LIU Jian1,LIU Li-zhao2,WANG Jian-jun1,GU Xiao-guang1
(1.School of Economics and Management,Nanjing University of Science and Technology,Nanjing 210094,China;2.School of Computer Science and Technology,Xiamen University of Technology,Xiamen 361024,China)
Viewing the process model in event logs as the combination of the two adjacent activities,two novel process models are proposed.First,the process model is extracted by constructing adjacency matrix,taking advantage of the adjacency relationships of activities in the event logs.To improve the prediction accuracy of the model,loops are avoided in the process model.So,each activity in this model will only happen once.Second,the serial number of activities in the event logs to the adjacency matrix is added,constructing a new adjacency matrix with sequence information.Based on the new adjacency matrix,the process model is extracted.Each activity in this model will only happen once at the same sequence position.Third,with the adjacency matrix,the path from each prior node to next nodes in the process model and their corresponding probabilities are gotten.Then,according to the type and characteristic information of the event logs,predictions of the information are made which are needed by decision-makers,e.g.a(chǎn)ctivity name,waiting time,and probability based on process model.Finally,the effectiveness of the proposed models by comparing the prediction results of random data and real data based on process models is verified.
adjacency matrix;process mining(PROM);prediction;business intelligence
C 931
A
10.3969/j.issn.1001-506X.2015.04.35
劉 ?。?982 ),男,講師,博士,主要研究方向?yàn)檫^(guò)程挖掘、決策分析。E-mail:jianlau@njust.edu.cn
劉利釗(1983-),男,副教授,博士,主要研究方向?yàn)樵朴?jì)算、數(shù)據(jù)挖掘。E-mail:kollzok@yahoo.com.cn
汪建均(1977-),男,副教授,博士,主要研究方向?yàn)楣?yīng)鏈質(zhì)量管理、數(shù)據(jù)挖掘。E-mail:wangjj0818@163.com
顧曉光(1986-),男,博士研究生,主要研究方向?yàn)橘|(zhì)量控制技術(shù)、質(zhì)量管理。E-mail:guxiaoguang@hotmail.com
1001-506X(2015)04-0949-09
2014- 02- 21;
2014- 10- 31;網(wǎng)絡(luò)優(yōu)先出版日期:2014- 11- 19。
網(wǎng)絡(luò)優(yōu)先出版地址:http://w ww.cnki.net/kcms/detail/11.2422.TN.20141119.2156.003.html
國(guó)家自然科學(xué)基金(71301075,71371099);中央高?;究蒲袠I(yè)務(wù)費(fèi)資助項(xiàng)目(30920130132014);中國(guó)博士后科學(xué)基金(2013M530261,2013M531366,2014T70527);江蘇省自然科學(xué)基金(青年)(BK20130770);江蘇省博士后科研資助計(jì)劃(1301108C);南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院青年教師科研項(xiàng)目(JGQN1401);南京理工大學(xué)紫金之星科研項(xiàng)目資助課題