鄭 光 鍵(復(fù)旦大學(xué)軟件學(xué)院 上海 200433)
在市場競爭日益加劇的今天,如何建立合理的業(yè)務(wù)流程模型,如何提升業(yè)務(wù)流程的質(zhì)量與效率已經(jīng)成為企業(yè)發(fā)展的重要問題。而業(yè)務(wù)流程設(shè)計正是企業(yè)流程管理中的關(guān)鍵步驟,但設(shè)計業(yè)務(wù)流程是一件比較耗時耗力的工作。推薦合適的流程模型幫助用戶設(shè)計流程,在最近幾年中得到了學(xué)術(shù)界的充分關(guān)注,但目前的方法檢索結(jié)果精度較低,粒度較粗,對用戶的建模支持力度有限[1]。
流程挖掘技術(shù)在近幾年來不斷受到業(yè)界的關(guān)注,還為流程推薦研究提供了新的思路和方向。流程挖掘的基礎(chǔ)是流程日志,流程日志準(zhǔn)確地記錄了業(yè)務(wù)流程具體活動與資源組合調(diào)度等信息,從中可以有效地挖掘出流程模式與業(yè)務(wù)流程績效[2-4]。通過流程日志的挖掘能夠最大程度地獲得業(yè)務(wù)流程的特征信息,從而對流程模塊化推薦提供必要的信息和幫助。
模塊化分析是業(yè)務(wù)流程推薦的基礎(chǔ),復(fù)雜的業(yè)務(wù)流程由若干流程模塊組合而成。合理的業(yè)務(wù)流程模塊應(yīng)當(dāng)具有高內(nèi)聚、低耦合、功能獨特化等特點,且相互之間的依賴程度較小[5]?;诹鞒虊K的業(yè)務(wù)流程建模能夠重用經(jīng)過實踐檢驗的流程塊,經(jīng)過適當(dāng)調(diào)節(jié)后從而減少用戶建模的時間,加大對用戶建模的支持力度。Clara等[6]總結(jié)了業(yè)務(wù)流程中的數(shù)種變化模式,以及流程模型庫中的可變性,在建模時只要在流程模塊的基礎(chǔ)上進行少量調(diào)整便能提高流程建模的效率。Shi-Chen等[7]以松散耦合為目標(biāo),提出了基于設(shè)計結(jié)構(gòu)矩陣的流程分解方法。而基于Petri網(wǎng)的業(yè)務(wù)流程建模方法一般采取“任務(wù)細(xì)化”的方式來進行模塊化分析,文獻[8]則對基于Petri網(wǎng)的復(fù)雜工作流模型的簡化提出了自己的策略。但是上述的流程模塊化分析存在注重模型的邏輯結(jié)構(gòu),而對流程模型的語義重視不夠等問題。Mending等[9]指出,過程模型的價值不僅僅取決于邏輯結(jié)構(gòu),還取決于模型的標(biāo)簽語義價值,文章嘗試從認(rèn)知科學(xué)的角度來驗證說明:建模過程中的語義信息是保證建模質(zhì)量的一個重要標(biāo)準(zhǔn),通過合理的活動標(biāo)簽?zāi)軌蚋纳迫藗儗DP偷睦斫狻?/p>
目前在基于推薦的流程建模研究中涉及的流程塊是基本的邏輯組成單元或者是單個活動,文獻[10]針對不確定的業(yè)務(wù)流程,為提高流程的柔性,綜合針對單個用戶以及用戶群的推薦結(jié)果,推薦下一個需要執(zhí)行的活動。這里的活動塊粒度較小,不具備高內(nèi)聚低耦合的特點,只適合在流程建模時推薦單個或者少數(shù)活動,效率不高且同樣在活動的功能語義角度描述方面存在不足。除此之外,還有一些研究嘗試從流程建模過程中角色的角度來入手,文獻[11]提出了一種利用流程挖掘生成角色塊的方法,基于角色塊的流程模型突出角色之間的關(guān)系。除此之外,如何對推薦結(jié)果進行合理的評價還存有一定的限制,Koschmider等[12]提出了一個基于標(biāo)簽相似度匹配的流程活動推薦系統(tǒng),給出相應(yīng)的相似度評分。但是文章最后僅從認(rèn)知負(fù)荷理論入手,通過問卷調(diào)研的方式對所推薦的流程活動進行證明其有效性,缺乏如流程績效、活動質(zhì)量等定量角度的證明。
合理的流程模型推薦方法能夠幫助用戶推薦合適的流程模塊,從而幫助企業(yè)發(fā)揮資源價值,改善企業(yè)產(chǎn)品的質(zhì)量,最大程度地提升企業(yè)業(yè)務(wù)流程的績效。針對目前業(yè)務(wù)流程模塊推薦的現(xiàn)狀,本文提出了一種基于流程挖掘技術(shù)的業(yè)務(wù)流程模塊推薦方法。實驗表明,基于流程挖掘的業(yè)務(wù)流程模塊推薦方法能夠提高流程模塊推薦的準(zhǔn)確性,也更加符合流程模塊推薦中的語義性需求與功能主題的特性。
流程挖掘技術(shù)能夠從工作流管理系統(tǒng)WfMS(Workflow Management System)的事件日志中挖掘出所需的流程信息,現(xiàn)在已經(jīng)成為了企業(yè)改進流程質(zhì)量的一種重要手段[13-14]。本文運用流程挖掘技術(shù)從日志中挖掘出流程模型等信息,用于模塊化分析和績效預(yù)測。
在獲取到流程日志數(shù)據(jù)之后,在進行深入分析前還需要對數(shù)據(jù)進行數(shù)據(jù)集成、數(shù)據(jù)清洗等預(yù)處理操作。
基于預(yù)處理后的流程日志,我們可以獲得該流程的模型表示、數(shù)據(jù)流等信息。在實際業(yè)務(wù)場景中,一個完整的業(yè)務(wù)流程通常由一系列的活動組成,在流程中執(zhí)行一次活動稱為一個事件。流程活動特征是流程模塊化分析的基礎(chǔ),因此,首先要做的是對活動特征進行挖掘。
流程活動具有許多屬性和特征,除了從流程日志中可以直接獲取的執(zhí)行角色、起始時間、活動成本等,還包括了從流程日志中挖掘出來的活動業(yè)務(wù)特征及交互信息等[15]。在介紹活動建模特征之前,引入一些符號。A為流程活動集合,即A=(a1,a2,…,an),其中n代表流程中活動的總個數(shù);R為流程資源集合,即R=(r1,r2,…,rk),其中k表示流程中資源的總個數(shù);記流程日志為L;CapR(a)為能夠處理活動a的資源集合。
從流程日志中可以直接定義的活動特征如下:
定義1角色 角色指一個流程活動的執(zhí)行者,如銷售人員、采購人員等。
定義2時間 時間指完成該活動的時間間隔,取流程日志中該活動所有執(zhí)行時間的平均值。
定義3地點 指完成該流程活動的所需地點場景。
除此之外,通過流程挖掘技術(shù)還可以從流程日志中挖掘出流程的業(yè)務(wù)特征和交互屬性:
定義4資源偏好度 不同流程活動對完成活動所需資源具有不同的偏好,流程日志中的歷史記錄可以反映這一偏好,具體體現(xiàn)在不同資源對該活動的執(zhí)行次數(shù)上。對活動的資源偏好建模,令流程日志L中資源r執(zhí)行活動a的次數(shù)記為Count(r,a),定義活動a對資源r的偏好度如下:
(1)
式中:AvgCount(a)為資源集CapR(a)中所有候選資源執(zhí)行活動a的平均次數(shù),σ為相應(yīng)的標(biāo)準(zhǔn)差,起到了縮放因子的作用。那么活動a的偏好模式可以表示為:ActPrefer(a)=(Prefer(a,r1),Prefer(a,r2),…,Prefer(a,rn))。
定義5協(xié)作水平 不同活動在活動交接過程中的合作效率稱為活動間的協(xié)作水平。
記活動a1與a2之間的協(xié)作水平如下:
(2)
式中:Htime(a1,a2)為活動a1與a2的平均交接時間,AvgT(a1,a2)表示在日志L中所有參與者的平均交接時間。那么活動a的協(xié)作水平可以表示為:ActCoop(a)=(coop(a,a1),coop(a,a2),…,coop(a,an)),其中coop(a,a)記為1,不存在協(xié)作關(guān)系的活動之間的協(xié)作水平記為0。
定義6活動質(zhì)量 隨著活動被執(zhí)行次數(shù)的增加,處理該活動的經(jīng)驗和技能不斷累積,活動質(zhì)量也得到了不斷提升,從流程日志L中調(diào)取了一些相關(guān)數(shù)據(jù)進行回歸分析后發(fā)現(xiàn),Sigmoid函數(shù)能夠較好地擬合這一模式,因此定義活動質(zhì)量如下:
(3)
式中:n為日志L中活動a被執(zhí)行的次數(shù),π為縮放系數(shù)且π>0。
復(fù)雜的業(yè)務(wù)流程可以由若干流程模塊組成,流程模塊可以看作是業(yè)務(wù)流程整體的子流程或者流程部件[16]。模塊應(yīng)當(dāng)具有較明確的功能定義,模塊內(nèi)部結(jié)構(gòu)應(yīng)當(dāng)結(jié)合緊密。不同模塊之間的聯(lián)系較弱,且可以通過標(biāo)準(zhǔn)化的接口結(jié)合。
因此在模塊化業(yè)務(wù)流程時應(yīng)當(dāng)滿足如下約束:
(1) 高內(nèi)聚/低耦合。高內(nèi)聚意味著流程模塊內(nèi)聚具有明確的功能特性,模塊內(nèi)活動應(yīng)當(dāng)具有緊密的關(guān)聯(lián);低耦合意味著模塊之間的相互依賴性較小,模塊之間應(yīng)盡量保持獨立性。
(2) 標(biāo)準(zhǔn)化接口。模塊之間的輸入輸出應(yīng)當(dāng)按照既定的標(biāo)準(zhǔn)完成,這使得模塊之間的替換能夠更加容易。
(3) 時間/地點獨立性。考慮到流程模塊之間的任務(wù)轉(zhuǎn)接,不同流程模塊之間的時間和地點不應(yīng)該存在混合的關(guān)系,應(yīng)當(dāng)存有清晰的分界線。
(4) 資源獨立性。若流程模塊之間對于某資源存在搶占沖突,或者同時調(diào)用某資源會導(dǎo)致資源超出負(fù)荷,則可能導(dǎo)致流程模塊不可用。
在詳細(xì)介紹流程模塊化約束模型之前,除了上節(jié)符號外,再引入一些符號如下:
BP為從流程日志L中挖掘得到的業(yè)務(wù)流程,PMi表示其中第i個流程模塊,PMi∈BP,D=(D1,D2,…,Dn)表示活動執(zhí)行地點集合,P=(P1,P2,…,Pn)表示活動執(zhí)行角色集合。
定義7流程模塊化約束模型
BP=f(PM1,PM2,…,PMi,…,PMt)=ture
(4)
Resourceconflict(PMi,r)=turer∈R
(5)
(6)
式中:f(·)函數(shù)表示模塊之間的組合,t為流程模塊總數(shù)目;Resourceconflict(PMi,r)表示在模塊PMi執(zhí)行時候?qū)λ栀Y源r的可用性;|PMi|表示模塊PMi中活動總數(shù),sign(·)函數(shù)為符號函數(shù),當(dāng)變量相等時取1,否則為0。v(X)表示所有活動集合中資源偏好度的方差,v(Y)表示所有活動集合中協(xié)作水平的方差,d(ActPrefer(an,an+1))表示活動an與an+1之間資源偏好度的歐氏距離,d(ActCoop(an,an+1))表示活動an與an+1之間協(xié)作水平的歐氏距離。α為歸一化縮放系數(shù),且α>0。φlim為模塊化劃分閾值,取自符合APQC(American productivity and quality center)標(biāo)準(zhǔn)的業(yè)務(wù)流程模塊化數(shù)據(jù)進行隨機抽樣分析后的平均值。
流程日志中包含活動的案例描述或者執(zhí)行信息,這些信息往往是基于文本形式存在的。業(yè)務(wù)流程中的語義信息是反映模型質(zhì)量的一個重要標(biāo)準(zhǔn),語義信息還能夠體現(xiàn)出流程模塊的主題特征。從流程日志中經(jīng)過流程挖掘技術(shù)進行模塊化分析后,基于改進的隱狄克雷分布LDA主題模型提取操作,能夠提取流程模塊的多維主題表示,獲得流程模塊主題模型的同時,保證主題模型結(jié)構(gòu)的穩(wěn)定性。
隱狄克雷分布LDA是一種基于概率的主題模型,同時也是一種無監(jiān)督學(xué)習(xí)算法[17]。通過LDA主題模型提取算法能夠提取出流程模塊的功能主題,進一步揭示模塊功能主題與案例描述等語義信息之間的關(guān)系,為流程績效預(yù)測與模塊組合推薦打下基礎(chǔ)。該模型將流程日志中語義信息看作由模塊語義信息層、功能主題層和特征詞層組成的3層貝葉斯概率結(jié)構(gòu),其拓?fù)浣Y(jié)構(gòu)如圖1所示。
圖1 面向模塊功能主題的 LDA主題模型的3層拓?fù)浣Y(jié)構(gòu)
面向模塊功能主題的LDA主題模型結(jié)構(gòu)如圖2所示,其中透明圓圈代表隱藏變量,灰色圓圈代表可觀測變量,矩形代表變量的重復(fù)。假設(shè)流程模塊為D,其中包含了N個流程活動,潛在的功能主題數(shù)為K,定義字符含義如下:流程模塊主題為φ1∶k,其中φk為第k個功能主題的詞的分布;第d個活動中主題所占比例為θd,其中θd,k為第k個主題在第d個活動中的比例;第d個流程活動的主題全體為Zd,其中Zd,n是第d個流程活動中第個詞的主題;第d個流程活動中所有詞記為Wd,其中Wd,n是第d個流程活動中第n個詞。
圖2 面向模塊功能主題的LDA主題模型結(jié)構(gòu)
根據(jù)圖2所示的結(jié)構(gòu)下的聯(lián)合分布以及LDA主題模型的后驗概率分別為:
p(φ1∶k,θ1∶D,Z1∶D,W1∶D)=
(7)
(8)
在上述聯(lián)合分布中Zd,n依賴于θd,Wd,n依賴于Zd,n與φ1∶k,θd與φd均服從以α與β為超參數(shù)的Dirichlet分布,對于上式中隱藏的參數(shù)采用吉布斯抽樣算法(Gibbs Sampling)來進行估計。將獲得的估計參數(shù)代入LDA主題模型進行計算,便可以獲得每一個流程模塊的功能主題模型,還可以獲得每一個主題下的詞匯分布及相應(yīng)的占比。
面向模塊功能主題的LDA主題模型能夠通過分析模塊中的語義信息,提取出隱含的主題結(jié)構(gòu)。一個模塊可以用多維主題向量及其相應(yīng)的分布表示,對于其中的每一個主題又可以用為多維特征詞向量及特征詞的分布表示。即M={(Z1,Z2,…,ZT)},Zi={(W1,W2,…,WN)},M表示某一流程模塊的LDA主題模型。理想的模塊主題模型應(yīng)當(dāng)使得各個主題之間關(guān)聯(lián)度較低,即各主題之間獨立性較高。
定義8主題向量相似度 主題在向量空間中的余弦距離可以表示主題向量之間的關(guān)聯(lián)相似度:
(9)
式中:Zi、Zj表示模塊PM主題模型中的兩個主題向量,Wik、Wjk分別表示Zi、Zj在向量空間中第k個特征詞及分布,1≤k≤N。則sim(Zi,Zj)越小,則主題之間越獨立?;诖耍覀兘o出模塊主題模型的結(jié)構(gòu)穩(wěn)定程度的定義:
定義9模塊主題模型的結(jié)構(gòu)穩(wěn)定程度 模塊所有主題之間的平均相似度可以表示該模塊主題模型的結(jié)構(gòu)穩(wěn)定程度:
(10)
而LDA主題模型的產(chǎn)生過程,就是在給定主題數(shù)目的情況下不斷調(diào)節(jié)主題在向量空間中的詞占比,從而達到各主題之間的關(guān)聯(lián)度不斷降低的過程。因此給定的主題數(shù)目直接影響到模塊功能主題結(jié)構(gòu)的穩(wěn)定程度。引入主題密度的概念,提出基于最優(yōu)主題結(jié)構(gòu)的模塊LDA主題模型提取算法。
定義10主題密度 主題密度為以向量空間中該點為中心,以α為半徑區(qū)域內(nèi)主題的個數(shù)稱為主題密度,α為給定的半徑距離:
Density(Zi,α)=|distance(Zi,Z)|≤α
(11)
定義11模型基數(shù) 給定一個LDA主題模型M和整數(shù)n,模型中密度小于等于n的主題數(shù)目成為該LDA主題模型的基數(shù),記作Cardi(M,n)。
定義12參考樣本 對于主題分布中的一個主題Z、給定半徑α和閾值n,如果滿足Density(Zi,α)≤n,則稱主題Z為向量空間中一個參考樣本。
給出基于最優(yōu)主題結(jié)構(gòu)下的模塊LDA主題模型提取算法如下:
算法1基于最優(yōu)主題結(jié)構(gòu)的模塊LDA主題模型提取算法:
Input:D,流程模塊集合
K,初始主題數(shù)目
Output:M,各模塊功能主題模型
Method:
1 根據(jù)給定K值以隨機抽樣方式得到初始模塊主題模型M
2n=0
3 whiler、K未收斂 do
4 計算所有主題的平均相似度r=AvgSim(M)
5 計算所有主題的密度Density(Zi,r)
6 計算模型M的基數(shù)C=Cardi(M,n)
7Kn+1=Kn+gn(r)(Kn-Cn)
8 ifgn(r)=-1 then
9 將主題按密度從小到大排列,取前C個主題為參考樣本,重新進行主題模型參數(shù)估計
10 else
11 重新采用抽樣方式進行參數(shù)估計
12 利用Kn+1重新得到模塊主題模型M
13n=n+1
14 end while
其中g(shù)(r)為r的變化方向的指示函數(shù),當(dāng)r的變化方向與前一次相反時,gn+1(r)=-1×gn(r),當(dāng)r的變化方向與前一次相同時,gn+1(r)=gn(r),g0(r)=-1。
基于改進的LDA主題模型提取算法獲得每一個模塊的主題模型的同時,兼顧了主題模型結(jié)構(gòu)的穩(wěn)定性,保證各主題之間的獨立性。
通過對流程日志的記錄進行挖掘可以獲取業(yè)務(wù)流程的整體特征,基于機器學(xué)習(xí)算法可以預(yù)測業(yè)務(wù)流程績效,從而以最大化流程績效為目標(biāo),對流程模塊進行組合動態(tài)推薦。
業(yè)務(wù)流程是流程活動的邏輯組合,基于活動特征可以進一步挖掘出業(yè)務(wù)流程特征。從流程日志L中挖掘流程特征的過程如下:
定義13流程時間 在業(yè)務(wù)流程中,隨著活動長時間被多次執(zhí)行,各流程步驟的熟練度逐漸上升,處理效率不斷提高,因此時間是影響流程績效的重要因素。定義業(yè)務(wù)流程BP的時間特征為:
(12)
式中:processi(a)表示活動a第i次的執(zhí)行時間,h為活動a執(zhí)行總次數(shù),λn-i為對應(yīng)的權(quán)重,λ為衰減因子且0<λ≤1,即距離現(xiàn)在越久則相應(yīng)的權(quán)值越小。
定義14流程成本 定義業(yè)務(wù)流程成本為歷史處理總成本的平均值,如下所示:
(13)
式中:costi(a)表示活動a第i次的執(zhí)行成本。
定義15流程協(xié)作水平 業(yè)務(wù)流程整體協(xié)作水平由流程內(nèi)部各活動之間的協(xié)作水平所構(gòu)成,記流程的協(xié)作水平如下:
ProCoop(BP)= (ActCoop(a1),ActCoop(a2),
…,ActCoop(an))
(14)
式中:ActCoop(an)表示流程中活動an的協(xié)作水平。
定義16流程活動質(zhì)量 業(yè)務(wù)流程活動質(zhì)量由流程內(nèi)部各活動質(zhì)量所構(gòu)成,記流程的活動質(zhì)量如下:
ProQuality(BP)= (Quality(a1),Quality(a2),
…,Quality(an))
(15)
式中:Quality(an)其中表示流程中活動an的活動質(zhì)量。
定義17流程資源熟練度 業(yè)務(wù)流程最終績效與流程內(nèi)執(zhí)行活動的資源的熟練度密切相關(guān),資源對活動執(zhí)行次數(shù)越多,則對該活動的處理越熟練。若某業(yè)務(wù)流程內(nèi)每個資源只執(zhí)行了一次,則該流程資源熟練程度較低。記流程的資源熟練度如下:
(16)
首先定義流程績效的評價指標(biāo),流程績效評價指標(biāo)應(yīng)該體現(xiàn)流程“輸入- 過程- 產(chǎn)出”的整體框架,兼顧流程整體的性能以及產(chǎn)出質(zhì)量。定義流程活動的流轉(zhuǎn)率為其輸出的質(zhì)量得分與其消耗的時間及成本的比值,令A(yù)F(a)為活動a的流轉(zhuǎn)率,則可給出如下公式:
(17)
式中:Output(a)為活動a的輸出質(zhì)量,通常由活動的輸出經(jīng)濟效益表示。
基于活動的流轉(zhuǎn)率,給出業(yè)務(wù)流程的績效評價指標(biāo)如下:
PF(BP)=(∑a∈BPηa×AF(a))/n
(18)
式中:ηa為活動a的權(quán)重調(diào)和因子。
神經(jīng)網(wǎng)絡(luò)算法能夠自動學(xué)習(xí)多維輸入與輸出之間的復(fù)雜映射關(guān)系,并且無需事先知道輸入與輸出之間的數(shù)學(xué)方程聯(lián)系,被廣泛用于各行業(yè)的預(yù)測問題中。而BP神經(jīng)網(wǎng)絡(luò)發(fā)展至今已經(jīng)得到了多重驗證及訓(xùn)練,方法比較成熟且結(jié)果較為穩(wěn)定,是迄今運用最為廣泛的神經(jīng)網(wǎng)絡(luò)算法[18-19]。因此本文選取BP神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練流程績效預(yù)測模型。經(jīng)過本文多次實踐后發(fā)現(xiàn),三層BP神經(jīng)網(wǎng)絡(luò)對流程特征向量與流程績效的建模效果較好,且三層網(wǎng)絡(luò)的參數(shù)量與業(yè)務(wù)流程特征數(shù)目及訓(xùn)練集數(shù)據(jù)大小較為匹配,綜合考慮訓(xùn)練成本等因素后,本文選取三層BP神經(jīng)網(wǎng)絡(luò)用于模型訓(xùn)練。而經(jīng)過多次實踐后,發(fā)現(xiàn)Sigmoid激活函數(shù)對模型的訓(xùn)練效果較好,因此本文選用Sigmoid函數(shù)用作神經(jīng)元激活函數(shù):
(19)
(20)
那么該神經(jīng)網(wǎng)絡(luò)在業(yè)務(wù)流程訓(xùn)練集TD上的累積均方誤差為:
(21)
為了使得累積均方誤差最小化,對網(wǎng)絡(luò)中的參數(shù)進行更新估計,則讓累積均方誤差MSETD對各個參數(shù)求偏導(dǎo)數(shù),并基于梯度下降策略對各個參數(shù)進行調(diào)整??紤]到算法的收斂性及運算成本,采用小批量梯度下降法MBGD(Mini-batch Gradient Descent)更新流程績效預(yù)測模型中的參數(shù),經(jīng)過多次迭代后,獲得業(yè)務(wù)流程績效預(yù)測模型。
基于訓(xùn)練好的業(yè)務(wù)流程績效預(yù)測模型,我們可以得到業(yè)務(wù)流程模塊組合后的流程績效預(yù)測值,以最大化流程績效為目標(biāo),構(gòu)建流程模塊組合動態(tài)推薦架構(gòu)如圖3所示,主要分為虛線所示三大板塊。
圖3 流程模塊組合動態(tài)推薦架構(gòu)圖
(1) 主題模型提取板塊。負(fù)責(zé)從流程日志數(shù)據(jù)庫中通過流程挖掘技術(shù)挖掘活動特征,進而對流程活動進行模塊化。對流程模塊提取相應(yīng)的主題模型,以方便為模塊組合推薦做準(zhǔn)備。
(2) 模塊組合推薦板塊。用戶在進行建模工作之前,通常以需求文檔、設(shè)計說明等文本形式的內(nèi)容來描述流程任務(wù)或者建模需求。對用戶業(yè)務(wù)流程需求文檔集合進行分詞、去停頓詞、取詞干等預(yù)處理操作后,同樣對其進行用戶所需功能主題提取,獲取用戶所需功能主題以及相應(yīng)的特征詞占比。通過文本信息在向量空間模型下的余弦相似度匹配,尋找用戶所需功能主題相近的流程模塊。為了使推薦結(jié)果更加多樣化和可選擇化,采用k近鄰思想在向量空間中找到k個相似功能主題的流程模塊組成功能主題模塊集合FTMS。為用戶的需求生成若干個FTMS后,系統(tǒng)會自動從各FTMS中選擇模塊進行動態(tài)組合推薦。
(3) 流程績效預(yù)測板塊。通過流程挖掘技術(shù)從流程日志數(shù)據(jù)庫中獲取業(yè)務(wù)流程特征,并且利用日志記錄訓(xùn)練績效預(yù)測模型,對模塊組合推薦板塊生成的業(yè)務(wù)流程進行績效預(yù)測,給出Top-N的推薦列表。
對于無法組合的流程模塊(如輸入輸出無法對應(yīng)匹配),系統(tǒng)會動態(tài)給出各主題下k個相似功能主題的流程模塊清單,附上該模塊所包含的語義信息以供用戶參考。
為了評估本文所提出的方法,選取了10家采用APQC標(biāo)準(zhǔn)的流程框架的企業(yè)流程日志數(shù)據(jù)進行實驗分析。每家企業(yè)均含有業(yè)務(wù)部、生產(chǎn)計劃部、財務(wù)部等10個以上的部門,每個部門內(nèi)部含有日常業(yè)務(wù)流程線2條及以上。數(shù)據(jù)集總共包含了8 286條流程實例,每條流程實例均包含了起止時間、事件描述、執(zhí)行成本等所需信息。下面從流程模塊主題模型提取和模塊組合推薦兩個角度對數(shù)據(jù)集進行對比實驗分析。
4.1.1 主題模型評價標(biāo)準(zhǔn)
采用語言模型的困惑度(Perplexity)作為LDA主題模型的評價標(biāo)準(zhǔn),通過對主題模型的困惑度的計算可以得出該模型的性能[20]。困惑度指標(biāo)越小則說明該主題模型的性能越好。給出困惑度的計算公式如下:
(22)
式中:Nd為流程模塊d中語義信息的總詞數(shù);Wd,i為其中的第i個單詞。
同時繼續(xù)采用本文2.2節(jié)中的平均相似度來表示該模塊主題模型的結(jié)構(gòu)穩(wěn)定程度。
4.1.2 不同K值對模塊主題模型的影響分析
隨機選取實驗數(shù)據(jù)集中4條流程實例用作實驗分析,由于各流程活動總數(shù)、案例描述不同,流程日志中所包含的語義信息大小也不相同。將各流程日志進行活動特征提取、模塊化等一系列操作后,利用LDA主題模型提取算法對各模塊提取主題模型。隨機選取每一條流程線中的1個模塊的主題模型進行實驗對比分析,分別將4個模塊稱為D1、D2、D3、D4。如圖4所示。
圖4 數(shù)據(jù)在不同主題數(shù)目下困惑度對比
從圖4中可以看出,指定不同的主題K值會對主題模型的性能產(chǎn)生影響,其中D1、D2、D3、D4均在圓圈處達到了困惑度最低值,說明在此處各模塊的主題模型內(nèi)部相關(guān)性較低,各主題獨立性較高,主題模型更加穩(wěn)定。每一個模塊的最優(yōu)K值受到模塊內(nèi)部語義信息的影響,因此各不相同。為了進一步說明主題模型困惑度與穩(wěn)定性的關(guān)系,則對不同主題數(shù)目下模塊主題模型的平均相似度進行實驗分析。如圖5所示。
圖5 數(shù)據(jù)在不同主題數(shù)目下平均相似度與困惑度對比
通過比較Perplexity曲線與AvgSim曲線在不同主題數(shù)目K值下的走勢發(fā)現(xiàn),兩個變量的變化趨勢基本相同,且同樣在圓圈處達到最優(yōu)模塊主題模型結(jié)構(gòu),說明此時的主題模型各主題之間的關(guān)聯(lián)度最低,獨立性最高,則此時的主題模型最能夠表示模塊的功能主題信息。
4.2.1 推薦效果評價標(biāo)準(zhǔn)
通過自助法(bootstrapping)以自助采樣的方式將實驗數(shù)據(jù)集合中的大部分?jǐn)?shù)據(jù)作為訓(xùn)練集,將剩余數(shù)據(jù)作為測試集。對測試集中的業(yè)務(wù)流程日志進行流程挖掘、特征提取、流程模塊化等一系列操作之后,移除最后一個流程模塊,并將最后一個流程模塊作為模塊組合推薦的推薦目標(biāo)。根據(jù)測試集中業(yè)務(wù)流程的原業(yè)務(wù)說明文檔對最后一個功能模塊進行預(yù)測推薦,將推薦模塊代入原業(yè)務(wù)流程后判斷流程績效指標(biāo)是否提升或者保持不變,通過計算測試集中業(yè)務(wù)流程的推薦模塊中能夠提升或者保持績效不變的模塊數(shù)與總推薦模塊數(shù)目的比值來評估推薦的效果。即推薦效果RA可以表示為:
式中:RN為向業(yè)務(wù)流程推薦的功能模塊數(shù)目,RNk為推薦模塊中能夠提升業(yè)務(wù)流程績效或者保持不變的模塊數(shù)目(絕大部分是原先的功能模塊),testset表示測試集中的所有業(yè)務(wù)流程。
4.2.2 基于不同主題模型提取算法的流程模塊組合推薦實驗分析
圖6給出了不同主題模型提取算法下的流程模塊組合推薦效果實驗對比。其中用于對比實驗的分別是指定主題數(shù)(K=10)的LDA主題模型提取算法。以及基于開源自然語言處理工具StandfordNL[21]對模塊提取主題的算法。StandfordNL能夠?qū)α鞒棠K中包含的信息文本進行分詞、去停頓詞、取詞干等預(yù)處理操作,再根據(jù)詞頻-反向文檔頻率TF-IDF(Term Frequency-Inverse Document Frequency)模型建模,從而獲取模塊的主題模型。
圖6 基于不同主題模型提取算法的流程模塊組合推薦實驗對比
從圖6中可以得出,三種模塊主題模型提取算法的推薦效果都隨著推薦模塊數(shù)目的上升先逐步提高,但過了一定數(shù)目后開始逐步下降。其中兩種基于LDA主題模型的提取算法的推薦效果在各種數(shù)目下均優(yōu)于StandfordNL主題模型提取算法。可以看出LDA主題模型能夠更好地從流程模塊的語義信息中提取出代表該模塊功能主題的語義模型。而本文提出的改進的LDA主題模型提取算法能夠更好地提取結(jié)構(gòu)穩(wěn)定的LDA主題模型,因此在推薦效果上具有更優(yōu)的性能。
4.2.3 基于不同績效預(yù)測模型的流程模塊組合推薦實驗分析
圖7給出了基于不同績效預(yù)測模型下的流程模塊組合推薦效果實驗對比。其中用于對比實驗的分別是Apriori關(guān)聯(lián)規(guī)則推薦算法與線性神經(jīng)網(wǎng)絡(luò)。Apriori關(guān)聯(lián)規(guī)則推薦算法能夠挖掘模塊組合與流程績效之間的關(guān)聯(lián)規(guī)則,然后根據(jù)關(guān)聯(lián)規(guī)則為業(yè)務(wù)流程推薦流程模塊。線性神經(jīng)網(wǎng)絡(luò)則是由多個線性神經(jīng)元組成的另一常見神經(jīng)網(wǎng)絡(luò)算法,它能根據(jù)輸出向量與期望輸出向量之間的差距來調(diào)整網(wǎng)絡(luò)內(nèi)的神經(jīng)元閾值和權(quán)值,從而獲得預(yù)測模型。
圖7 基于不同績效預(yù)測模型的流程模塊組合推薦實驗對比
從圖7中可以得出,兩類神經(jīng)網(wǎng)絡(luò)預(yù)測模型的推薦效果基本上均優(yōu)于Apriori關(guān)聯(lián)規(guī)則推薦算法。但在剛開始推薦模塊數(shù)目較少時,Apriori關(guān)聯(lián)規(guī)則推薦算法推薦效果要優(yōu)于線性神經(jīng)網(wǎng)絡(luò)預(yù)測模型,這可能是因為推薦數(shù)目較少時,Apriori算法能夠直接獲取模塊組合與高流程績效之間的強關(guān)聯(lián)規(guī)則。隨著推薦模塊數(shù)目的增加,神經(jīng)網(wǎng)絡(luò)預(yù)測模型的優(yōu)勢開始逐漸顯現(xiàn),但均過了一定峰值后開始下降,這與上節(jié)結(jié)論相同。其中BP神經(jīng)網(wǎng)絡(luò)的推薦效果均要顯著優(yōu)于另外兩種算法的推薦效果,而線性神經(jīng)網(wǎng)絡(luò)缺乏反向傳播誤差等優(yōu)勢,因此推薦效果不如BP神經(jīng)網(wǎng)絡(luò)算法。
合理的業(yè)務(wù)流程模型能夠為企業(yè)帶來客觀的經(jīng)濟收益及質(zhì)量口碑,因此推薦合適的流程模塊幫助企業(yè)設(shè)計流程已經(jīng)在近年來得到學(xué)術(shù)界與工業(yè)界的不斷關(guān)注。流程挖掘技術(shù)在近年來飛速發(fā)展為流程推薦研究提供了新的方向和思路。本文提出一種基于流程挖掘技術(shù)的業(yè)務(wù)流程模塊推薦方法,能夠基于流程日志使用流程挖掘技術(shù)獲取特征信息,從而能對流程活動建模并模塊化;再使用改進的基于最優(yōu)主題結(jié)構(gòu)的LDA主題模型提取算法提取流程模塊的功能主題;同時構(gòu)建業(yè)務(wù)流程整體特征后,基于小批量梯度下降法的BP神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練流程績效預(yù)測模型。將用戶建模需求做所需功能主題提取后,采用K近鄰思想生成功能主題模塊集合,以最大化流程績效為目標(biāo)對流程模塊進行動態(tài)組合推薦。實驗表明,本文方法對流程模塊推薦具有較好的推薦效果,證明其在流程建模過程中的可行性。
在現(xiàn)實企業(yè)流程中,流程信息包含的數(shù)據(jù)可能會更加復(fù)雜及多樣化,未來計劃在建模過程中考慮更多流程元素,進一步加強流程管理與流程建模的結(jié)合。未來的另一個研究方向是將流程推薦與業(yè)務(wù)流程資源分配相結(jié)合,提供基于資源分配與流程績效結(jié)合的流程模塊推薦。
[1] 趙衛(wèi)東. 智能化的流程管理[M]. 上海:復(fù)旦大學(xué)出版社,2014.
[2] Liu Y, Wang J, Yang Y, et al. A semi-automatic approach for workflow staff assignment[J]. Computers in Industry, 2008, 59(5):463- 476.
[3] Nakatumba J, Aalst W M P V D. Analyzing Resource Behavior Using Process Mining[J]. Lecture Notes in Business Information Processing, 2009, 43:69- 80.
[4] Huang Z, Lu X, Duan H. Resource behavior measure and application in business process management[J]. Expert Systems with Applications, 2012, 39(7):6458- 6468.
[5] HornungT, KoschmiderA, Oberweis A. A Recommender System for Business Process Models[C]//17th Annual Workshop on Information Technologies & Systems (WITS),2009.
[6] Ayora C, Torres V, Vara J L D L, et al. Variability management in process families through change patterns[J]. Information & Software Technology, 2016, 74(C):86- 104.
[7] Chen S J, Lin L. Decomposition of interdependent task group for concurrent engineering[J]. Computers & Industrial Engineering, 2003, 44(3):435- 459.
[8] Clempner J. A hierarchical decomposition of decision process Petri nets for modeling complex systems[J]. International Journal of Applied Mathematics & Computer Science, 2010, 20(2):349- 366.
[9] Mendling J, Reijers H A, Recker J. Activity labeling in process modeling: Empirical insights and recommendations[J]. Information Systems, 2010, 35(4):467- 482.
[10] Dorn C, Burkhart T, Werth D, et al. Self-adjusting recommendations for people-driven ad-hoc processes[C]// Proceedings of the 8th International Conferenceon Business Process Management, Hoboken, NJ, USA, September 13- 16, 2010.DBLP, 2010:327- 342.
[11] 趙衛(wèi)東, 戴偉輝. 基于角色塊的工作流模型挖掘[J]. 系統(tǒng)工程與電子技術(shù), 2008, 30(5):956- 959.
[12] Koschmider A, Hornung T, Oberweis A. Recommendation-based editor for business process modeling[J]. Data & Knowledge Engineering, 2011, 70(6):483- 503.
[13] Aalst W M P V D, Reijers H A, Weijters A J M M, et al. Business process mining: An industrial application[J]. Information Systems, 2007, 32(5):713- 732.
[14] Liu X, Fang X, Wang J, et al. Mining method of business process models based on configuration[J]. Boletin Tecnico/technical Bulletin, 2017, 55(1):77- 84.
[15] Zeng Q, Sun S X, Duan H, et al. Cross-organizational collaborative workflow mining from a multi-source log[J]. Decision Support Systems, 2013, 54(3):1280- 1301.
[16] Lacheheub M N, Maamri R. A formal model for business process decomposition based on resources consumption with security requirement[C]// International Conference on Advanced Aspects of Software Engineering. IEEE, 2017:1- 8.
[17] Limsettho N, Hata H, Matsumoto K. Comparing hierarchical dirichlet process with latent dirichlet allocation in bug report multiclass classification[C]// IEEE/acis International Conference on Software Engineering, Artificial Intelligence, NETWORKING and Parallel/distributed Computing. IEEE, 2014:1- 6.
[18] Armaghani D J, Hajihassani M, Mohamad E T, et al. Blasting-induced flyrock and ground vibration prediction through an expert artificial neural network based on particle swarm optimization[J]. Arabian Journal of Geosciences, 2014, 7(12):5383- 5396.
[19] Yu F, Xu X. A short-term load forecasting model of natural gas based on optimized genetic algorithm and improved BP neural network[J]. Applied Energy, 2014, 134(134):102- 113.
[20] Biggers L R, Bocovich C, Capshaw R, et al. Configuring latent Dirichlet allocation based feature location[J]. Empirical Software Engineering, 2014, 19(3):465- 500.
[21] Manning C D, Surdeanu M, Bauer J, et al. The Stanford CoreNLP Natural Language Processing Toolkit[C]// Meeting of the Association for Computational Linguistics: System Demonstrations. 2014:55- 60.