針對多并發(fā)三角形二度循環(huán)結構的過程模型挖掘方法

2019-07-31 12:14孫慧明杜玉越

計算機應用 2019年3期

孫慧明杜玉越

摘要：為了在不完備的日志中挖掘含有多并發(fā)的三角形二度循環(huán)結構的過程模型，在擴展Alpha算法的基礎上提出AlphaMatch算法。該算法可以在不包含重復行為序列的日志中，將兩個活動匹配成三角形二度循環(huán)，并挖掘出含有多并發(fā)三角形二度循環(huán)的過程模型。首先，根據活動數量關系將構成三角形二度循環(huán)的活動分為兩類;然后，再根據活動位置關系，使用三角形二度循環(huán)活動的首尾標記位置矩陣匹配這兩類活動，并且給出足跡矩陣顯示活動之間的關系;最后，在ProM平臺上進行了大量仿真實驗，從模型正確性、挖掘效率、擬合度和精確度四個角度驗證了算法能有效挖掘含有多并發(fā)的三角形二度循環(huán)的Petri網模型。

關鍵詞：過程挖掘;并發(fā)結構;三角形二度循環(huán);過程模型;Petri網

中圖分類號： TP311

文獻標志碼：A

文章編號：1001-9081（2019）03-0851-07

Abstract： To mine the process model including multi-concurrent 2-loops of triangles in incomplete logs， an AlphaMatch algorithm based on extended Alpha algorithm was proposed. Two activities in triangle structure could be correctly matched in 2-loops of triangles by AlphaMatch in the log without repeated activity sequence， thus the process model with multi-concurrent 2-loops of triangles could be mined. Firstly， the activities in 2-loops of triangles were divided into two categories according to the number of activities. Then， a matrix of head and tail position of the activities was constructed to match the two categories and a footprint matrix was constructed to show the relationship between activities. Finally， a large number of experiments were carried out on ProM platform from model correctness， mining efficiency， fitness and precison. Experimental results show that the Petri net model including multi-concurrent 2-loops of triangles can be mined efficiently by the proposed algorithm.

Key words： process mining; parallel structure; 2-loops of triangles; process model; Petri net

0 引言

隨著計算機、互聯網的發(fā)展，越來越多的企業(yè)采用信息系統(tǒng)處理業(yè)務，這些信息系統(tǒng)會產生大量的日志文件。過程挖掘作為一門新興學科，旨在從這些日志文件中提取有價值的過程相關信息。過程挖掘主要有過程發(fā)現（Process Discovery）、合規(guī)性檢查（Process Conformance）和過程改進（Process Enhancement）三個方面的應用。過程發(fā)現是過程挖掘中最富有挑戰(zhàn)性的任務之一[1]。通常，過程發(fā)現就是使用不包括任何先驗信息的事件日志生成模型的過程。過程模型主要有以下兩個方面的價值：1）有利于管理者了解業(yè)務流程，進行業(yè)務流程優(yōu)化，從而提高業(yè)務效率;2）利用過程模型和日志信息相結合可以發(fā)現當前業(yè)務流程中出現的不合規(guī)問題，從而推動工藝流程的改進。

在得到模型后，一般采用擬合度、精確度、簡化度和泛化度這四個標準評價過程模型。擬合度表示日志中的跡在模型中重演的能力;精確度表示模型重演日志的能力;簡化度表示模型的復雜程度;泛化度表示模型允許未來行為的能力。擬合度和精確度是判斷過程模型最重要的兩個標準。

針對過程發(fā)現中出現的問題，國內外學者提出了諸多過程發(fā)現的算法。文獻[2]提出的Alpha算法根據活動的次序判斷活動之間的關系，但是無法挖掘短循環(huán)（只含有一個活動或者兩個活動組成的循環(huán)）。文獻[3]提出的Alpha++算法解決了非自由選擇結構的問題。文獻[4]提出Alpha+算法來挖掘短循環(huán)，但是要求日志是完全完備的。然而，當日志只滿足局部完備性，Alpha及其擴展算法均不能挖掘出正確的模型。文獻[5]提出的啟發(fā)式過程挖掘算法根據依賴關系重演日志，在不完備的、有噪聲的日志處理上有很大優(yōu)勢，并且可以用于處理噪聲和不完備性，但是對于短循環(huán)處理能力一般。文獻[6]將遺傳算法思想用于過程挖掘，該方法有著良好的并行能力，日志處理速度快，但是當短循環(huán)隱藏在規(guī)模很大的模型中時，效率并不是很高。文獻[7]提出的整數線性規(guī)劃（Integer Linear Programming， ILP）算法在一定程度上能解決短循環(huán)挖掘問題，但是日志處理速度慢，效率低。文獻[8-9]提出基于區(qū)域的過程挖掘方法能夠表達更加復雜的控制流結構，并且能夠較好地平衡“過擬合”和“欠擬合”，但是當過程模型包含大量活動時，會出現“狀態(tài)空間爆炸”和無法處理噪聲的問題。文獻[10]提出的模糊挖掘方法在處理噪聲和不完備性上有很大優(yōu)勢，并且得到的過程模型較為簡潔。文獻[11]將二度循環(huán)劃分為三角形二度循環(huán)和菱形二度循環(huán)，并提出緊鄰度模型來挖掘二度短循環(huán)。緊鄰度模型在一定程度上能夠解決該問題。但是緊鄰度模型是依據相關性計算的概率模型，依賴于大量日志。當日志量比較少或者三角形二度循環(huán)中的活動緊鄰行為較少時，識別三角形二度循環(huán)存在一定局限性，即對于多個三角形二度循環(huán)并發(fā)時，匹配三角形二度循環(huán)中的活動很容易出現偏差。文獻[12]提出的Inductive Miner算法挖掘的模型有著較高的擬合度，但是挖掘含有三角形二度循環(huán)結構的日志時，挖掘的結果模型往往是過擬合的。當日志中不包含“abab……aba”行為序列時，即活動a先發(fā)生，b緊跟著發(fā)生，a緊跟b再次發(fā)生，b再次緊跟a發(fā)生，反復進行上述活動，最后以活動a結束。我們本文稱這種行為序列為三角形二度循環(huán)的循環(huán)顯式行為。針對上述情況，當前方法均不能有效挖掘出日志對應的正確過程模型。此外，三角形二度循環(huán)結構是一種重要的工業(yè)生產流程，廣泛出現在模具生產、零件加工、柔性制造、精密儀器生產、醫(yī)療器械生產、傳感器生產等諸多領域，通常代表著對某一高精度零件的多次調整和加工。挖掘含有該類結構的過程模型，對企業(yè)了解并改進精密零件的生產流程有著重要意義。綜上所述，在不包含三角形二度循環(huán)顯式行為的不完備日志中，挖掘過程模型是本文的研究重點。

針對多個并發(fā)的三角形二度循環(huán)，本文擴展Alpha算法，提出基于三角形二度循環(huán)活動首次和最后一次被標記位置的挖掘算法AlphaMatch，該算法只需要日志滿足局部完備性要求，并且不需要含三角形二度循環(huán)的顯式行為。通過大量仿真實驗，從模型正確性、挖掘效率、擬合度和精確度四個角度進行了對比分析，驗證了本文方法的有效性。

定義7 日志的完備性[16]。設a、b為日志中任意兩個活動，并且b可以直接跟在a后發(fā)生，稱滿足a >L b的行為在跡中至少出現一次的日志為局部完備性日志;稱滿足包含模型可能產生的所有活動序列的日志為完備性日志。

2 過程模型挖掘算法

本章以圖1中塑料澆筑模具生產過程模型為例，引出相關概念并詳細描述算法過程。圖1中字母代表活動含義如下：e：準備生產原料;k：制胚;a：測量模具上凹槽;b：打磨拋光上凹槽;c：測量模具下凹槽;d：打磨拋光下凹槽;j：拼接上下凹槽; f：塑料模具定型。

與經典的Alpha算法相比，AlphaMatch算法先將主體活動和回調活動進行分類;再將主體活動與回調活動進行匹配;最后返回正確的匹配二元組集合MTL。以L1為例，經過AlphaMatch算法挖掘并分析得到活動間的關系如表3所示。由表3可知，活動a與b，c與d均被匹配在一起，最后得出L1對應的模型如圖2所示，該模型與圖1一致。

3 仿真實驗

本文算法已經在ProM平臺[17]實現（包含詳細代碼的ProM工程以及實驗日志獲取網址為https：//pan.baidu.com/s/1b9Js_KhDXXEqqYdEV8QrLw）。實驗步驟如下：1）安裝必要的Java環(huán)境;2）通過上述鏈接下載該ProM工程;3）將工程添加進入Eclipse中;4）進入ProM平臺，導入日志;5）輸入AlphaMatch搜索該算法，選中并單擊該算法，即可挖掘日志對應的Petri網模型。

本文以圖3所示的滾珠軸承的生產過程模型為例，模型中變遷代表的活動含義如下：o：制胚;i：套圈退火;j：車削加工;k：熱處理;l：滾珠粗磨;m：滾珠清洗;n：保持器切削加工;e：準備半成品胚子;a：套圈細磨拋光;b：套圈測量;c：滾珠細磨拋光;d：滾珠測量;g：保持器細磨拋光;h：保持器測量;f：軸承安裝。通過以下步驟獲取不含有三角形二度循環(huán)顯式行為的局部完備日志：1）輸入如圖3所示含有三個并發(fā)的三角形二度循環(huán)的滾珠軸承生產的過程模型;2）運行ProM中的Perform a simple simulation of a （stochastic） Petri net插件得到原模型的初始日志;3）將步驟2）生成的所有初始日志中包含三角形二度循環(huán)顯式行為的跡刪除，得到實驗需要的不完備日志。本文進行實驗的日志屬性如表4所示，表中的4個日志均為缺乏循環(huán)顯式行為的不完備日志，并且日志中不包含重復序列。

實驗比較了AlphaMatch算法、Alpha+算法、ILP算法和IMF（Inductive Miner-inFrequent）算法[17]挖掘的結果。3.1節(jié)主要從模型正確性和挖掘效率上對比4種算法挖掘的模型，3.2節(jié)分別分析4個模型的擬合度和精確度。

3.1 挖掘模型分析

本節(jié)對比Alpha+算法、ILP算法、Inductive Miner-infrequent（IMF）算法以及AlphaMatch算法的挖掘結果。導入日志L2、L3、L4、L5。四種算法挖掘模型效率如圖4所示，由圖4可知Alpha+算法挖掘模型用時最少，Inductive Miner-infrequent（IMF）算法次之，兩種算法用時差別很小;ILP算法在4個算法中用時最長;本文算法比上述兩種算法用時多，但本文算法用時遠比ILP算法用時要少。

導入日志L2，Alpha+算法挖掘結果如圖5所示。由于日志不是完全完備的，所以Alpha+算法只挖掘出活動a、b、c、d、g、h之間的并發(fā)關系和活動的因果關系。此時Alpha+算法并沒有挖掘出3個回調活動與其他活動之間的關系，所以圖5的模型中存在3個獨立變遷，與原模型有很大差別，因此，該模型是不合理的。

圖6為ILP算法挖掘的模型，與Alpha+相比，該算法得到的模型不存在獨立變遷，并且該方法正確地挖掘出了活動間的關系，得到的模型與原模型一致。但是該算法挖掘速度較慢，效率較低，耗時最長。

圖7為Inductive Miner - infrequent（IMF）IMF算法挖掘的模型，該算法沒有進行活動的匹配，而是將回調活動和主體活動分成兩個部分，并且加入了大量不可見變遷，這導致模型結構相對比較復雜。除此之外，若先發(fā)生主體活動a，另外兩個主體活動還沒發(fā)生的情況下，3個回調活動中的任意一個都可以緊跟活動a發(fā)生。這種情況下產生的序列可能是原模型無法產生的，例如序列“aha”。因此，圖7中的模型是不合理的。

圖8為本文算法挖掘的模型。與Alpha+算法挖掘的模型相比，圖8所示的模型正確地把活動匹配在一起，并且沒有獨立變遷的存在;與ILP算法相比，本文算法挖掘模型用時較少，效率高;與Inductive Miner - infrequent（IMF）IMF算法挖掘的模型相比，圖8的模型不會產生原模型無法得到的序列，并且該模型與原模型一致。

綜上所述，從算法挖掘模型上看，本文算法挖掘的模型與原模型一致，與其他算法相比，有著較大優(yōu)勢。本節(jié)是從模型整體的角度進行對比分析，3.2節(jié)分別從擬合度和精確度角度，進一步對挖掘的模型進行分析。

3.2 精確度和擬合度分析

本節(jié)從擬合度和精確度的角度分析四種結果模型。導入由原模型生成的不同規(guī)模，不同完備性的日志L2、L3、L4、L5。4個日志中L5含有跡的數量最多，完備性最強。通過ProM平臺的Replay a Log on Petri Net for Conformance Analysis插件，輸入模型和日志，得出四種算法所挖掘模型的擬合度，統(tǒng)計結果如圖9所示。其中AlphaMatch算法、Inductive Miner - infrequent（IMF）IMF算法和ILP算法得到的擬合度一直都是1，擬合度要高于Alpha+算法。但是由于Inductive Miner - infrequent（IMF）IMF算法將主體活動和回調活動分成兩塊挖掘，導致模型還可能產生類似于“ada”“aha”等原模型不能產生的序列。因此，該模型是一種不合理的“過擬合”模型。由于上文中4個的日志都不是Alpha+算法所要求的完全完備日志，Alpha+算法無法得到回調活動間的關系，因此Alpha+算法得到模型的擬合度相對較低。

利用ProM中的Check Precision based on Align-ETConformance插件得到四種算法的精確度，統(tǒng)計結果如圖10所示。由于Alpha+算法挖掘的模型中出現3個獨立變遷，所以得到模型的精確度最低。由于Inductive Miner - infrequent（IMF）IMF算法挖掘的模型能產生大量原模型無法產生的活動序列，所以該算法得到模型的精確度也不高。由于ILP算法挖掘出的模型與原模型也一致，所以精確度與本文算法相同。但ILP算法挖掘出正確模型耗時最長。相比之下，本文算法挖掘用時較低，精確度更高。

綜上所述，本文算法在挖掘效率上優(yōu)于ILP算法，在所得到模型的擬合度上優(yōu)于Alpha+算法，在精確度上優(yōu)于Alpha+算法和Inductive Miner - infrequent（IMF）IMF算法。

4 結語

現有算法在挖掘多并發(fā)三角形二度循環(huán)時，挖掘的結果模型很容易與原模型出現偏差。本文提出一種能挖掘多并發(fā)三角形二度循環(huán)的新方法。首先依據三角形二度循環(huán)活動的數量特征將活動分為主體活動和回調活動;其次，依據活動首次和最后一次在跡中出現的位置，采用剪枝的思想，逆向將不正確的活動匹配刪除，從而得到正確的活動匹配;最后，將算法以插件形式在ProM平臺實現，經過大量實驗分析，驗證了本文算法能夠正確有效地挖掘多并發(fā)三角形二度循環(huán)，并且該方法得到的模型有著最高的精確度和擬合度。但是本文算法也有一定的局限性，沒有考慮重名活動等復雜情況的干擾，并且在挖掘效率上表現平庸，后續(xù)將對本文算法作出改進。

參考文獻（References）

[1] van der AALST W M. Process Minging： Discovery， Conformance and Enhancement of Business Processes [M]. Berlin： Springer， 2014： 5-18.

[2] van der AALST W， WEIJTERS T， MARUSTER L. Workflow mining： discovering process models from event logs [J]. IEEE Transactions on Knowledge and Data Engineering， 2004， 16（9）： 1128-1142.

[3] WEN L， van der AALST W M， WANG J， et al. Mining process models with non-free-choice constructs [J]. Data Mining and Knowledge Discovery， 2007， 15（2）： 145-180.

[4] de MEDEIROS A K A， van DONGEN B F， van der AALST W M. Process mining： extending the α-algorithm to mine short loops [R]. Eindhoven， Holland： Eindhoven University of Technology， 2004： 151-165.

[5] WEIJTERS A， van der AALST W， de MEDEIROS A A. Process mining with the heuristics miner-algorithm [R]. Eindhoven， Holland： Eindhoven University of Technology， 2006： 1-34.

[6] MEDEIROS A K A D， WEIJTERS A J M M， AALST W M P V D. Genetic process mining： an experimental evaluation [J]. Data Mining and Knowledge Discovery， 2007， 14（2）： 245-304.

[7] van der WERF J M E M， van DONGEN B F， HURKENS C A J， et al. Process discovery using integer linear programming [C]// Proceedings of the 2008 International Conference on Applications and Theory of Petri Nets， LNCS 5062. Berlin： Springer， 2008： 368-387.

[8] van DONGE B， BUSI N， PINNA G， et al. An iterative algorithm for applying the theory of regions in process mining [R]. Eindhoven， Holland： Eindhoven University of Technology， 2007： 36-55.

[9] BERGENTHUM R， DESEL J， LORENZ R， et al. Process mining based on regions of languages [C]// Proceedings of the 2007 International Conference on Business Process Management， LNCS 4714. Berlin： Springer， 2007： 375-383.

[10] GNTHER C W， van der AALST W M P. Fuzzy mining — adaptive process simplification based on multi-perspective metrics [C]// International Conference on Business Process Management. Springer-Verlag， 2007：328-343.

GNTHER C W， van der AALST W M P. Fuzzy mining — adaptive process simplification based on multi-perspective metrics [EB/OL]. [2018-06-16]. http：//citeseerx.ist.psu.edu/viewdoc/download;jsessionid=1628DBA2308A214245DDE19D04107610？doi=10.1.1.81.1207&rep=rep1&type=pdf.

[11] 林雷蕾，周華，代飛，等.一種挖掘二度循環(huán)的擴展Alpha算法[J]. 計算機集成制造系統(tǒng)，2018，24（3）：591-601. （LIN L L， ZHOU H， DAI F，et al. Extending α-algorithm to mine simplest 2-loops [J]. Computer Integrated Manufacturing Systems， 2018， 24（3）： 591-601.）

[12] WU B， FU Y. Generating inductive invariants for Petri nets [M]// Advances in Electrical Engineering and Automation， AINSC 139. Berlin： Springer， 2012： 259-266.

[13] 祁宏達，杜玉越，劉偉.一種基于可達標識的過程模型修復方法[J]. 山東科技大學學報（自然科學版），2017，36（1）：118-124.（QI H D， DU Y Y， LIU W. Process model repairing method based on reachable markings[J]. Journal of Shandong University of Science and Technology （Natural Science）， 2017， 36（1）： 118-124.）

[14] 明利，李彤，秦江龍，等.面向軟件即服務的負載均衡策略建模與分析[J].計算機應用，2017，37（1）：24-30.（MING L， LI T， QIN J L， et al. SaaS-oriented modeling and analysis of load balancing strategy [J]. Journal of Computer Applications， 2017， 37（1）： 24-30.）

[15] HE Z， DU Y， WANG L， et al. An alpha-FL algorithm for discovering free loop structures from incomplete event logs [J]. IEEE Access， 2018，6： 27885-27901.

[16] YANG H， WEN L， WANG J. An approach to evaluate the local completeness of an event log [C]// Proceedings of the 2012 IEEE 12th International Conference on Data Mining. Washington， DC： IEEE Computer Society， 2012： 1164-1169.

[17] van DONGEN B F， de MEDEIROS A K A， VERBEEK H M W， et al. The ProM framework： a new era in process mining tool support [C]// Proceedings of the 2005 International Conference on Applications and Theory of Petri Nets， LNCS 3536. Berlin： Springer， 2005： 444-454.

計算機應用2019年3期

計算機應用的其它文章: 結合改進主動學習的SVD-CNN彈幕文本分類算法; 折扣{0-1}背包問題的簡化新模型及遺傳算法求解; 基于動態(tài)壓力控制算子的磷蝦群算法; 基于注意力機制的行人軌跡預測生成模型; 基于Adaboost-Markov模型的移動用戶位置預測方法; 基于蟻群算法及博弈論的多Agent路徑規(guī)劃算法

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

針對多并發(fā)三角形二度循環(huán)結構的過程模型挖掘方法