陳 勇,王昊天,易文超,裴 植,王 成,吳光華
(浙江工業(yè)大學(xué) 工業(yè)工程研究所,浙江 杭州310023)
近年來,日趨激烈的市場競爭給大型裝備制造業(yè)帶來了新的挑戰(zhàn),復(fù)雜多變的市場環(huán)境給制造型企業(yè)帶來了大量的擾動(dòng),如緊急插單、取消訂單等,這類外部擾動(dòng)對于生產(chǎn)周期漫長、體積與重量龐大的大型裝備制造業(yè)的影響尤為巨大。除此之外,由于大型裝備制造業(yè)小批量多品種的特性,設(shè)備的負(fù)荷與維護(hù)差異極大,很容易引起設(shè)備故障等內(nèi)部擾動(dòng)[1-3]。在這樣的生產(chǎn)環(huán)境下,為提高多擾動(dòng)車間的制造柔性,如何更有效地進(jìn)行生產(chǎn)調(diào)度,成為未來研究的熱點(diǎn)。
目前,對生產(chǎn)調(diào)度的研究主要集中在魯棒調(diào)度方法、重調(diào)度方法和智能調(diào)度方法上[4-5]。陳勇等[6]考慮了訂單不確定的擾動(dòng)因素,建立了以交付滿意度最大化、裝配線平衡率最大化和完工時(shí)間最小化的多目標(biāo)生產(chǎn)車間魯棒控制模型。PAN等[7]針對產(chǎn)品不確定的加工時(shí)間以及交付時(shí)間,利用量子粒子群算法解決了作業(yè)車間柔性調(diào)度的問題。強(qiáng)化學(xué)習(xí)等新興的智能算法已經(jīng)在電梯調(diào)度、項(xiàng)目調(diào)度以及機(jī)器人控制等領(lǐng)域獲得了成功的應(yīng)用,表明了其解決調(diào)度問題的有效性,因此,近年來強(qiáng)化學(xué)習(xí)算法也越來越多地應(yīng)用于生產(chǎn)調(diào)度領(lǐng)域[8-11]。何彥等[12]研究了機(jī)械車間柔性工藝路線對調(diào)度能耗的影響特性,提出一種改進(jìn)的Q學(xué)習(xí)算法,解決了柔性工藝路線的動(dòng)態(tài)調(diào)度問題。楊宏兵等[13]針對多態(tài)單機(jī)生產(chǎn)系統(tǒng),基于模型最優(yōu)方程設(shè)計(jì)了一種無模型強(qiáng)化學(xué)習(xí)算法,解決了以加工成本與維修費(fèi)用最小化為目標(biāo)的生產(chǎn)調(diào)度問題。元胞機(jī)是目前復(fù)雜系統(tǒng)領(lǐng)域最受關(guān)注的仿真工具之一。AGRAWAL等[14]以減少完工時(shí)間為目標(biāo)提出了結(jié)合遺傳算法的元胞機(jī)模型框架。陳勇等[15]利用改進(jìn)的遺傳算法優(yōu)化了元胞機(jī)的演化規(guī)則,實(shí)現(xiàn)了大型機(jī)械零件的精確調(diào)度。
多擾動(dòng)車間生產(chǎn)調(diào)度具有復(fù)雜性、強(qiáng)擾動(dòng)性和多目標(biāo)性等特點(diǎn),要求模型能夠客觀描述復(fù)雜系統(tǒng)而不受“指數(shù)爆炸”的影響,并且能較好地表達(dá)個(gè)體之間的差異。由于多擾動(dòng)車間存在的特點(diǎn),上述方法已經(jīng)不適用于該環(huán)境下車間的生產(chǎn)調(diào)度,需要結(jié)合多種方法進(jìn)行研究。筆者以元胞機(jī)模型為框架建立多擾動(dòng)車間生產(chǎn)調(diào)度模型,容易對個(gè)體差異進(jìn)行離散化表達(dá),能夠?qū)Υ笠?guī)模復(fù)雜系統(tǒng)進(jìn)行快速建模與表征,同時(shí)運(yùn)用強(qiáng)化學(xué)習(xí)算法優(yōu)化元胞機(jī)演化規(guī)則,能夠很好地表征多擾動(dòng)復(fù)雜環(huán)境下個(gè)體的自主決策行為,從而提高車間生產(chǎn)調(diào)度的柔性與魯棒性。
元胞機(jī)是一種離散的動(dòng)力學(xué)模型,可以用來模擬復(fù)雜系統(tǒng)的演化過程。元胞空間中的各元胞都有其自身的狀態(tài),在各個(gè)離散時(shí)刻下,各元胞的狀態(tài)會根據(jù)鄰近元胞狀態(tài)和演化規(guī)則進(jìn)行改變,從而模擬系統(tǒng)的演變過程[16]。一個(gè)標(biāo)準(zhǔn)元胞機(jī)的數(shù)學(xué)表達(dá)式為:
A=(Ld,S,N,f)。
(1)
式中:A表示元胞機(jī)系統(tǒng);L表示元胞空間;d表示整數(shù)型元胞空間的維數(shù);S表示有限且離散的元胞狀態(tài)集合;N表示包括中心元胞的所有元胞組合;f表示局部演化規(guī)則,即狀態(tài)轉(zhuǎn)移函數(shù)。
1.1.1 雙層元胞空間
本文根據(jù)擾動(dòng)車間的特點(diǎn),提出建立雙層二維元胞機(jī)調(diào)度模型,模型分為實(shí)體層(作業(yè)環(huán)境)和擾動(dòng)層(生產(chǎn)環(huán)境的擾動(dòng)因素)。
(1)實(shí)體層 模型的實(shí)體層以一個(gè)生產(chǎn)車間為研究對象,如圖1所示,將該區(qū)域劃分為一個(gè)二維網(wǎng)格,正方形網(wǎng)格代表各工位元胞,矩形網(wǎng)格代表各緩存元胞。偶數(shù)行表示加工性質(zhì)相同的工位元胞,且同組間不同工位加工效率不同,一個(gè)工位組對應(yīng)一個(gè)緩存元胞。
(2)擾動(dòng)層 模型的擾動(dòng)層以實(shí)體層元胞為基礎(chǔ),是對實(shí)體層元胞加工屬性、緩存屬性在擾動(dòng)層面的擴(kuò)展。由擾動(dòng)元胞決定實(shí)體層相應(yīng)位置上的元胞是否可用或在每一仿真時(shí)步監(jiān)測是否有緊急插單或新訂單情況,如圖2所示。
1.1.2 狀態(tài)屬性定義
元胞狀態(tài)屬性的定義是元胞機(jī)調(diào)度模型演化的基礎(chǔ),它能夠反映生產(chǎn)環(huán)境的主要特點(diǎn),元胞在某一時(shí)刻的狀態(tài)可用狀態(tài)屬性集合表示。
1.2.1 目標(biāo)函數(shù)設(shè)計(jì)
針對車間頻繁發(fā)生的擾動(dòng),本文主要考慮設(shè)備故障、緊急插單和新訂單干擾3種。設(shè)備故障主要體現(xiàn)在影響工位的加工能力和利用率;緊急插單與新訂單主要表現(xiàn)為不合格品返工、已有訂單的交貨期提前導(dǎo)致工件工序優(yōu)先級提高等。為了提升車間調(diào)度在擾動(dòng)環(huán)境下的自適應(yīng)性和柔性,設(shè)計(jì)如下調(diào)度目標(biāo)函數(shù):
(1)所有工序的加權(quán)平均流程時(shí)間最短,即最小化F1,目標(biāo)函數(shù)
(2)
(2) 同一工位組所有工位的平均利用率F2最大,目標(biāo)函數(shù)F2為:
(3)
(3)總目標(biāo)函數(shù)需將雙目標(biāo)進(jìn)行糅合,且進(jìn)行歸一化,為使總目標(biāo)F最小化,將兩項(xiàng)做如下處理,總目標(biāo)函數(shù)F為:
(4)
生產(chǎn)約束條件如下:
(1)資源約束。
1)同一時(shí)刻,一臺設(shè)備只能加工一個(gè)工件:
(5)
2)同一時(shí)刻,工件的同一道工序只能在一臺設(shè)備上加工:
(6)
式中aiy表示工件i是否在工位組的第y個(gè)工位上加工,若是,則aiy=1,否則aiy=0。
(2)工藝約束。同一工件工序之間存在先后約束關(guān)系。
1.2.2 演化規(guī)則定義
演化規(guī)則是元胞機(jī)模型的關(guān)鍵部分,依據(jù)以上調(diào)度目標(biāo)可歸納出本模型的工序選擇、工件排序以及任務(wù)觸發(fā)3種演化規(guī)則,以模擬在元胞機(jī)空間的調(diào)度行為,如表1所示。
表1 生產(chǎn)調(diào)度模型演化規(guī)則
通過算例與文獻(xiàn)[17]研究的啟發(fā)式兩維勢能調(diào)度算法進(jìn)行比較,以證明本文元胞機(jī)模型的科學(xué)性與有效性。二維勢能調(diào)度算法兼顧時(shí)間維度與工作站之間兩方面的均衡化,以實(shí)現(xiàn)整體工作量的均衡。其工作站之間的負(fù)荷平衡化整體流程如圖3所示,整體流程還需調(diào)用核心函數(shù),如圖4所示?;谠麢C(jī)模型的調(diào)度流程依據(jù)元胞機(jī)的演化規(guī)則,整體流程如圖5所示。
本算例研究的是文獻(xiàn)[17]中的某企業(yè)大型產(chǎn)品裝配生產(chǎn)調(diào)度問題,問題目標(biāo)需提高各工作站之間的負(fù)荷平衡率。該算例的數(shù)據(jù)較大:2 000個(gè)訂單,25 000個(gè)操作,20個(gè)工作區(qū)域,33個(gè)操作類型,18個(gè)月的工作時(shí)間跨度。生產(chǎn)調(diào)度存在如下約束:各訂單的加工路徑固定,即工藝流程固定;各訂單之間存在優(yōu)先級約束;個(gè)別訂單加工時(shí)間固定。
以上述案例作為算例對比驗(yàn)證的對象,統(tǒng)計(jì)工作區(qū)域的36個(gè)工作站數(shù)據(jù),基于元胞機(jī)模型的調(diào)度算法與兩維勢能算法的調(diào)度方案結(jié)果對比如表2所示??梢钥闯?,相對于兩維勢能算法,基于元胞機(jī)模型的調(diào)度方法的優(yōu)化效果明顯,能有效平衡各工位負(fù)荷,縮減調(diào)度時(shí)間,降低生產(chǎn)成本,從而驗(yàn)證了本文模型的科學(xué)性與有效性。
表2 不同算法調(diào)度結(jié)果對比表
強(qiáng)化學(xué)習(xí)是一種能夠達(dá)到全局最優(yōu)的智能算法,適用于動(dòng)態(tài)不確定環(huán)境中的決策問題。學(xué)習(xí)主體稱為智能體,而與智能體交互的外部稱為環(huán)境,智能體通過選擇合適的行為使得環(huán)境反饋的期望回報(bào)值最大化[18]。
如圖6所示為智能體與環(huán)境交互的過程,每一個(gè)時(shí)刻t,智能體根據(jù)環(huán)境狀態(tài)St,選擇要執(zhí)行的動(dòng)作At,然后環(huán)境對動(dòng)作At進(jìn)行評價(jià),發(fā)送獎(jiǎng)勵(lì)Rt+1,并更新到狀態(tài)St+1,此外,智能體會根據(jù)反饋信息,更新自己的策略,策略表示從狀態(tài)到每種可能行為的選擇概率之間的映射,記為πt(s,a),表示狀態(tài)St=s時(shí)At=a的概率。
2.1.1 強(qiáng)化學(xué)習(xí)與元胞機(jī)調(diào)度模型
自組織演化規(guī)則是建立元胞機(jī)模型過程中最關(guān)鍵也是最難的步驟,不同元胞因功能不同具有不同的屬性值,對應(yīng)的演化規(guī)則也不同,本文選擇強(qiáng)化學(xué)習(xí)算法來探索元胞機(jī)模型中最優(yōu)的自組織演化規(guī)則。強(qiáng)化學(xué)習(xí)算法與元胞機(jī)調(diào)度模型相關(guān)結(jié)合點(diǎn)如表3所示。
表3 強(qiáng)化學(xué)習(xí)算法與元胞機(jī)調(diào)度模型結(jié)合點(diǎn)
2.1.2 狀態(tài)表示與狀態(tài)轉(zhuǎn)移
強(qiáng)化學(xué)習(xí)算法是基于元胞機(jī)調(diào)度模型的,因此系統(tǒng)的狀態(tài)也是在元胞狀態(tài)的基礎(chǔ)上進(jìn)行定義的,公式為:
(7)
系統(tǒng)狀態(tài)分為決策狀態(tài)和臨時(shí)狀態(tài)兩種。決策狀態(tài)指要選擇動(dòng)作的狀態(tài),即指定工件選擇機(jī)器和工件排序的任務(wù)狀態(tài);臨時(shí)狀態(tài)是指選擇動(dòng)作并執(zhí)行后立即轉(zhuǎn)移到的過度狀態(tài)。
如圖7所示為系統(tǒng)狀態(tài)轉(zhuǎn)移過程。觸發(fā)系統(tǒng)從臨時(shí)狀態(tài)轉(zhuǎn)移到?jīng)Q策狀態(tài)的觸發(fā)事件如下:任何一個(gè)作業(yè)工序加工完畢;有緊急訂單或新訂單(工序)進(jìn)入調(diào)度系統(tǒng);任何一個(gè)工位發(fā)生故障;任何一個(gè)工位故障結(jié)束。
2.1.3 決策行為
系統(tǒng)從決策狀態(tài)轉(zhuǎn)移至臨時(shí)狀態(tài)是通過執(zhí)行一個(gè)行為,從而改變系統(tǒng)的狀態(tài)。本文根據(jù)生產(chǎn)環(huán)境和擾動(dòng)情況的變化,逐步選擇工位和工序,直至加工完所有工序,生成調(diào)度方案。
利用已有的調(diào)度規(guī)則定義如下行為:
(1)行為a1,根據(jù)加權(quán)最短加工時(shí)間選擇作業(yè)(i*,j*)在機(jī)器k*上加工,即
(8)
(2)行為a2,根據(jù)最小加權(quán)利用率機(jī)器選擇作業(yè)(i*,j*)在機(jī)器k*上加工,即
(9)
(3)行為a3,根據(jù)最小化加權(quán)修正交貨期選擇作業(yè)(i*,j*)在機(jī)器k*上加工,即
(10)
(4)行為a4,根據(jù)改進(jìn)的排名算法選擇機(jī)器和作業(yè)。
引入信息熵表征機(jī)器的不確定度,表達(dá)式為
(11)
(12)
(5)行為a5,不選擇任何作業(yè)加工。
強(qiáng)化學(xué)習(xí)的決策過程具有馬爾科夫性質(zhì),因此采用馬爾科夫決策過程來描述強(qiáng)化學(xué)習(xí)的決策和訓(xùn)練過程。值函數(shù)是強(qiáng)化學(xué)習(xí)算法中一個(gè)重要的概念,可通過值函數(shù)計(jì)算每一步策略的回報(bào)值,它將馬爾科夫決策中的最優(yōu)目標(biāo)與策略聯(lián)系在一起。
強(qiáng)化學(xué)習(xí)回報(bào)計(jì)算與行為選擇密切相關(guān),智能體根據(jù)每一步行為的選擇與報(bào)酬函數(shù),計(jì)算相應(yīng)的報(bào)酬值,每一步中的報(bào)酬值都可能關(guān)系到下一決策狀態(tài)中行為的選擇。
2.2.1Q學(xué)習(xí)算法
強(qiáng)化學(xué)習(xí)問題的解決思路是尋找一個(gè)最優(yōu)策略,使該策略作用于環(huán)境后能夠最大化期望回報(bào)值。目前,尋找最優(yōu)策略的方法主要有值函數(shù)估計(jì)法和策略空間搜索法兩種。本文主要使用其中一種主要的值函數(shù)估計(jì)法——Q學(xué)習(xí)算法。Q學(xué)習(xí)算法能夠利用經(jīng)歷過的狀態(tài)—?jiǎng)幼餍蛄衼頉Q策最優(yōu)的行為,是一種用于控制的基于行為值函數(shù)的強(qiáng)化學(xué)習(xí)算法。其更新行為的值函數(shù)增量式如式(13)所示。
(13)
式中:α表示學(xué)習(xí)步長;rt+1表示回報(bào)值。對Q學(xué)習(xí)而言,并不需要提前知道環(huán)境模型和狀態(tài)轉(zhuǎn)移函數(shù),它在探索環(huán)境并用學(xué)習(xí)的經(jīng)驗(yàn)進(jìn)行訓(xùn)練時(shí),總是采用后續(xù)狀態(tài)的貪婪行為的Q值更新當(dāng)前狀態(tài)-行為對的Q值。Q(s,a)值是逐步迭代學(xué)習(xí)得來的,通過與環(huán)境的持續(xù)交互來更新表值,直至Q表囊括了絕大多數(shù)環(huán)境狀態(tài)下的Q值,隨著交互過程的進(jìn)行,最終收斂于最優(yōu)狀態(tài)動(dòng)作值函數(shù)Q*(s,a)。Q學(xué)習(xí)算法偽代碼如下。
算法1Q學(xué)習(xí)。
1:設(shè)置參數(shù)α和γ,初始化Q(s,a),?s∈S,a∈A(s)
2:重復(fù)(對于每個(gè)片段)
3: 初始化狀態(tài)s(當(dāng)前時(shí)刻狀態(tài))
4: 重復(fù)(對于片段中的每一步)
5:根據(jù)Q(s,a)和控制策略π,選擇行為a
6: 執(zhí)行動(dòng)作a,確定下一個(gè)決策狀態(tài)st+1,計(jì)算報(bào)酬rt+1
8: st←st+1
9: Until st是終止?fàn)顟B(tài)
10: Until收斂
2.2.2 報(bào)酬函數(shù)構(gòu)造
報(bào)酬函數(shù)的構(gòu)造需要考慮生產(chǎn)調(diào)度的目標(biāo)。每一仿真時(shí)步獲得的即時(shí)報(bào)酬反映的是執(zhí)行動(dòng)作的短期效果,所有時(shí)步的累積報(bào)酬反映的是執(zhí)行動(dòng)作的長期影響。本文涉及兩個(gè)優(yōu)化目標(biāo):①最大化設(shè)備的平均利用率;②最小化加權(quán)平均流程時(shí)間。下面分別給出這兩個(gè)目標(biāo)的報(bào)酬函數(shù)。
(1) 由最大化設(shè)備平均利用率定義的報(bào)酬函數(shù)。
首先定義設(shè)備繁忙、空閑或者故障狀態(tài)的示性函數(shù)ηk(t),即
(14)
定義報(bào)酬函數(shù)如下:
(15)
式中:m表示設(shè)備的數(shù)量;tk與tk-1表示第k與k-1個(gè)決策時(shí)刻;rk表示系統(tǒng)在時(shí)刻tk獲得的關(guān)于設(shè)備平均利用率的即時(shí)報(bào)酬??梢钥闯觯跊Q策時(shí)刻,工位組處于繁忙狀態(tài)的設(shè)備越多,即時(shí)報(bào)酬越高。該報(bào)酬函數(shù)的意義在于:最大化設(shè)備平均利用率等價(jià)于最大化運(yùn)行一次試驗(yàn)獲得的總報(bào)酬R。為此,證明如下。
假設(shè)K為一次試驗(yàn)中決策的總次數(shù),則
(16)
(17)
由式(17)可知,最大化報(bào)酬值R等價(jià)于最小化最大完工時(shí)間Tmax,由于所有工件在各設(shè)備上的總加工時(shí)間是固定的,最小化最大完工時(shí)間Tmax等價(jià)于最大化設(shè)備的平均利用率,證明定義的報(bào)酬函數(shù)有效。
(2)由最小化加權(quán)平均流程時(shí)間定義的報(bào)酬函數(shù)。
首先定義t時(shí)刻第i個(gè)工件狀態(tài)的示性函數(shù)μi(t),即
(18)
定義報(bào)酬函數(shù)如式(19)所示:
(19)
式中:n表示工件的數(shù)量;wi表示工件i的權(quán)重;tk與tk-1表示第k與k-1個(gè)決策時(shí)刻;rk表示系統(tǒng)在時(shí)刻tk獲得的關(guān)于加權(quán)平均流程時(shí)間的即時(shí)報(bào)酬。可以看出,在決策時(shí)刻,已經(jīng)完工的工件越多,即時(shí)報(bào)酬越高。該報(bào)酬函數(shù)的意義在于:最小化加權(quán)平均流程時(shí)間等價(jià)于最大化運(yùn)行一次試驗(yàn)獲得的總報(bào)酬R。為此,證明如下(假設(shè)工件i的到達(dá)時(shí)間和完工時(shí)間分別為ai和ci):
(20)
由式(20)可知,最大化累積報(bào)酬等價(jià)于最小化ci和ai的差,即最小化工件在系統(tǒng)中的流程時(shí)間,從而證明定義的報(bào)酬函數(shù)有效。
(3)考慮以上雙目標(biāo)優(yōu)化,將雙目標(biāo)定義的報(bào)酬函數(shù)糅合為加權(quán)的總報(bào)酬函數(shù),即
(21)
式中:W1,W2分別表示兩個(gè)目標(biāo)的加權(quán)系數(shù),W1+W2=1;其他符號意義同上。將雙目標(biāo)轉(zhuǎn)換為單目標(biāo)的報(bào)酬函數(shù),通過控制加權(quán)系數(shù)W1,W2的大小,決策者可以決定優(yōu)化目標(biāo)的偏好。
2.2.3 行為選擇
智能體行為的選擇與Q值的估計(jì)密切相關(guān)。強(qiáng)化學(xué)習(xí)優(yōu)化生產(chǎn)調(diào)度問題時(shí),由于工位、工件、擾動(dòng)情況等組合后的狀態(tài)規(guī)模異常龐大,各狀態(tài)行為對的Q值無法用列表一一表述,本文將使用函數(shù)泛化器的形式表示狀態(tài)行為值函數(shù)。
神經(jīng)網(wǎng)絡(luò)是常用的函數(shù)泛化器,本文采用BP神經(jīng)網(wǎng)絡(luò)作為泛化器訓(xùn)練模型。神經(jīng)網(wǎng)絡(luò)的輸入為調(diào)度系統(tǒng)的狀態(tài),輸出層為狀態(tài)行為對的Q值。采用函數(shù)泛化器的實(shí)質(zhì)就是將具有多擾動(dòng)的復(fù)雜生產(chǎn)調(diào)度系統(tǒng)進(jìn)行降維表示,通過不斷優(yōu)化各神經(jīng)元之間的權(quán)重值,達(dá)到優(yōu)化模型的目的,圖8表示了從狀態(tài)到行為值的轉(zhuǎn)化過程。
強(qiáng)化學(xué)習(xí)行為的選擇還與探索策略相關(guān)。本文選擇ε-greedy的動(dòng)作探索策略。ε-greedy策略是指在每一步學(xué)習(xí)與訓(xùn)練中,智能體以概率ε(0≤ε≤1)選擇當(dāng)前的最優(yōu)行為決策,即貪婪行為,以期盡快達(dá)到最優(yōu)結(jié)果;以概率1-ε選擇探索動(dòng)作,即從行為集合中依概率隨機(jī)選擇動(dòng)作,以試探可能存在的更優(yōu)動(dòng)作。
完成了對元胞機(jī)調(diào)度系統(tǒng)的強(qiáng)化學(xué)習(xí)表達(dá)之后,即可建立完整調(diào)度流程。本文采用Q學(xué)習(xí)算法優(yōu)化決策過程,通過對每一步狀態(tài)動(dòng)作值函數(shù)的計(jì)算和選擇,達(dá)到優(yōu)化調(diào)度行為的目的,針對多擾動(dòng)車間設(shè)備故障、緊急插單與新訂單干擾3種典型的擾動(dòng)問題,本文提出了以下調(diào)度策略,調(diào)度流程如圖9和圖10所示。
HY公司是一家大型零件制造企業(yè),生產(chǎn)具有產(chǎn)品體積大、種類多、生產(chǎn)周期長、小批量、通用設(shè)備多等特點(diǎn),其生產(chǎn)車間是典型的多擾動(dòng)車間,適合作為本文的研究對象,用以驗(yàn)證本文算法與模型的有效性。
本文針對HY公司最近某年第三季度到達(dá)的20種產(chǎn)品共計(jì)43個(gè)工件的加工排產(chǎn)進(jìn)行研究。該車間主要工序有7道:劃線、鉗工、檢查、鏜銑、車、鉆、包裝,生產(chǎn)布局根據(jù)元胞機(jī)模型特點(diǎn)抽象后如圖11所示。
利用強(qiáng)化學(xué)習(xí)算法與元胞機(jī)調(diào)度模型進(jìn)行學(xué)習(xí)和訓(xùn)練之前,需對現(xiàn)場采集的數(shù)據(jù)加以分析,為模型訓(xùn)練提供必要的輸入數(shù)據(jù)。
由于案例涉及信息過多,就不同工位組而言,整個(gè)動(dòng)態(tài)柔性調(diào)度過程原理相同,沒有重復(fù)的必要,本文選擇生產(chǎn)車間的瓶頸——鏜銑工位組進(jìn)行具體模型的訓(xùn)練與學(xué)習(xí),仿真參與加工的工件粒子按照第三季度實(shí)際到達(dá)為43個(gè)。元胞與粒子狀態(tài)屬性定義已在前文進(jìn)行說明,這里不再贅述,具體數(shù)據(jù)依照車間真實(shí)信息進(jìn)行初始化設(shè)置。
仿真觸發(fā)事件的確定是調(diào)度演化過程中的關(guān)鍵環(huán)節(jié),本實(shí)例中的設(shè)備故障、新工件到達(dá)以及不良品返工擾動(dòng)是HY公司在實(shí)際生產(chǎn)過程中最為典型且不可忽略的因素,因此在模型訓(xùn)練過程中設(shè)置設(shè)備故障開始、維修結(jié)束、新工件到達(dá)、不良品返工和工序完工作為仿真觸發(fā)事件,用來確定調(diào)度過程中的實(shí)時(shí)優(yōu)化時(shí)間,以應(yīng)對各種突發(fā)擾動(dòng)。
3.2.1 多擾動(dòng)下的調(diào)度分析
結(jié)合BP神經(jīng)網(wǎng)絡(luò)函數(shù)泛化器的Q學(xué)習(xí)算法的參數(shù),包括學(xué)習(xí)步長α,折扣率γ,行為策略因子ξ以及神經(jīng)元數(shù)量K,本文通過實(shí)驗(yàn)對比分析,確定本次仿真學(xué)習(xí)過程中各參數(shù)的值。由于α和γ都是Q值更新的重要參數(shù),關(guān)聯(lián)性較強(qiáng),可以先確定α和γ的參數(shù)值,再依次確定ε和K的值。
由于參數(shù)設(shè)置過程相似,這里僅介紹α的設(shè)置過程,省略K,ε,γ參數(shù)的設(shè)置介紹。當(dāng)α較大時(shí),函數(shù)泛化器的權(quán)重在更新過程中的波動(dòng)會比較大,從而影響泛化的精度。根據(jù)經(jīng)驗(yàn)可知,當(dāng)α≤0.01時(shí)算法效果較好,因此取α的參考區(qū)間為(0,0.01]。實(shí)驗(yàn)采用調(diào)度目標(biāo)的函數(shù)值作為參考依據(jù),令K=20,ξ=0.9,γ=0.1,α分別取0.000 5,0.001,0.001 5,…,0.01,試運(yùn)行模型50次。調(diào)度目標(biāo)的函數(shù)值隨α的變化情況如圖12所示,當(dāng)α取0.001 5時(shí)調(diào)度目標(biāo)的函數(shù)值最小,因此取α=0.001 5。
最終可得到Q學(xué)習(xí)算法的參數(shù),參數(shù)設(shè)置α=0.001 5,γ=0.2,ε=0.1,K=30。系統(tǒng)初始化與參數(shù)設(shè)置完成后,即可進(jìn)行模型訓(xùn)練。仿真時(shí)間從0開始,以調(diào)度周期T或所有工件完工為結(jié)束時(shí)間,訓(xùn)練次數(shù)N=2 500,每一仿真步時(shí)依據(jù)動(dòng)作策略選擇動(dòng)作,設(shè)備故障、不良品返工插單、新工件到達(dá)等擾動(dòng)依據(jù)分布函數(shù)出現(xiàn),驅(qū)動(dòng)仿真實(shí)時(shí)動(dòng)態(tài)調(diào)度行為,調(diào)度結(jié)果甘特圖如圖13所示。
本文針對的車間因規(guī)模龐大,擾動(dòng)情況多,因此優(yōu)化過程無法一一闡述。下面對車間三季度中首次出現(xiàn)的擾動(dòng)和動(dòng)態(tài)優(yōu)化過程進(jìn)行說明,即圖13中虛線時(shí)刻處,分別是首次出現(xiàn)設(shè)備故障、不良品返工和新訂單擾動(dòng)。
(1)第一次設(shè)備故障擾動(dòng)出現(xiàn)在HBM-7工位上,此時(shí)在該觸發(fā)事件的驅(qū)動(dòng)下,更新該工位元胞的狀態(tài),工位HBM-7狀態(tài)為不可用,進(jìn)入維修狀態(tài),無正在該設(shè)備上加工的工件。待維修結(jié)束后,再一次作為觸發(fā)事件驅(qū)動(dòng)調(diào)度任務(wù)。根據(jù)強(qiáng)化學(xué)習(xí)的訓(xùn)練結(jié)果,計(jì)算得到5個(gè)狀態(tài)—行為對(St,a)的Q值:Qt(St,a(1))=-13,Qt(St,a(2))=-15.3,Qt(St,a(3))=-18,Qt(St,a(4))=-19.6,Qt(St,a(5))=-16.1,可見,行為a(1)是該狀態(tài)下的貪婪行為,即最優(yōu)的行為決策,因此根據(jù)行為a(1)選擇工件P2在該工位上加工。
(2)第二次擾動(dòng)出現(xiàn)在t=Jul.31時(shí)刻,車間有不良品返工工件的到來,返工工件進(jìn)入緩存元胞與原待加工工件一起等待加工,更新所有待加工工件粒子本身的屬性和緩存區(qū)域的任務(wù)集合,此時(shí)工位HBM-1空閑,根據(jù)Q學(xué)習(xí)訓(xùn)練結(jié)果,計(jì)算得到5個(gè)狀態(tài)—行為對(St,a)的Q值:Qt(St,a(1))=-24.6,Qt(St,a(2))=-20.3,Qt(St,a(3))=-25,Qt(St,a(4))=-25.6,Qt(St,a(5))=-20,可見,行為a(5)是該狀態(tài)下的貪婪行為,根據(jù)行為a(5)選擇返工工件P16在該工位上加工,圖中的斜線填充的矩形表示不良品返工工件。
(3)第三次新訂單擾動(dòng)出現(xiàn)在t=Aug.30時(shí)刻,將新訂單中的工件放入緩存元胞中,更新工件屬性和待加工任務(wù)集合,然后觀察系統(tǒng)是否有空閑設(shè)備,若有,則依據(jù)Q學(xué)習(xí)算法訓(xùn)練結(jié)果,選擇該狀態(tài)下的最優(yōu)行為,如上文所述;若無,則更新完系統(tǒng)狀態(tài)后不做任何行為選擇,進(jìn)入臨時(shí)狀態(tài)等待完工工件的觸發(fā)。
3.2.2 調(diào)度結(jié)果對比與評價(jià)
將本文模型調(diào)度的仿真結(jié)果與實(shí)際調(diào)度方案進(jìn)行對比。實(shí)際調(diào)度的甘特圖如圖14所示,優(yōu)化前后調(diào)度目標(biāo)函數(shù)值對比如表4所示。
表4 實(shí)際方案和優(yōu)化方案目標(biāo)函數(shù)值對比表
實(shí)際調(diào)度方案和仿真調(diào)度方案中各工位平均利用率和月平衡率對比直方圖分別如圖15和圖16所示。
通過甘特圖、目標(biāo)函數(shù)值表以及直方圖的對比,可以得到如下結(jié)論:
(1)通過調(diào)度甘特圖對比可知,仿真調(diào)度方案切實(shí)可行,加工時(shí)間緊湊,生產(chǎn)流程能夠在擾動(dòng)事件的驅(qū)動(dòng)下實(shí)時(shí)優(yōu)化,具有較強(qiáng)的魯棒性和柔性,相比于實(shí)際調(diào)度方案,優(yōu)化后的生產(chǎn)節(jié)奏更為一致,在受到干擾之后依然能保持較高的生產(chǎn)效率。
(2)由目標(biāo)函數(shù)值對比可知,仿真調(diào)度方案在總加工時(shí)間最小、工位組所有工位的平均利用率最大兩個(gè)子目標(biāo)上都要優(yōu)于實(shí)際調(diào)度方案。
(3)由工位平均利用率和月平衡率對比直方圖可以看出,仿真調(diào)度方案的工位平均利用率以及月平衡率都明顯優(yōu)于實(shí)際調(diào)度方案,體現(xiàn)出仿真調(diào)度方案在設(shè)備利用、維護(hù)和壽命控制方面的優(yōu)越性。
隨著市場競爭加劇,大型裝備制造企業(yè)受到內(nèi)外部擾動(dòng)的影響愈發(fā)顯著,企業(yè)需要在多擾動(dòng)環(huán)境下快速做出合理的生產(chǎn)調(diào)度,以提高制造的柔性與魯棒性。本文利用元胞機(jī)模擬復(fù)雜系統(tǒng)的優(yōu)勢,將車間生產(chǎn)系統(tǒng)抽象為雙層二維元胞機(jī)模型,根據(jù)設(shè)計(jì)的目標(biāo)函數(shù)定義了模型演化規(guī)則,并引入算例驗(yàn)證了元胞機(jī)模型的科學(xué)性。為了解決多擾動(dòng)車間調(diào)度的“指數(shù)爆炸”難題,以便能在全局上尋找到最優(yōu)解,引入了強(qiáng)化學(xué)習(xí)算法來改進(jìn)元胞機(jī)的演化規(guī)則,針對3種典型擾動(dòng)提出了基于Q學(xué)習(xí)算法的調(diào)度策略。最后,通過對HY公司生產(chǎn)車間實(shí)例采用算法模型求解得到優(yōu)化調(diào)度方案明顯優(yōu)于實(shí)際調(diào)度方案,從而有效地提高了生產(chǎn)的柔性與魯棒性。
未來將基于本文所提出的車間調(diào)度算法,在以下方面進(jìn)行進(jìn)一步研究:①大型裝備體積大,在調(diào)度中需進(jìn)一步考慮物流擁堵造成的延誤。②在事件驅(qū)動(dòng)的基礎(chǔ)上,考慮周期性驅(qū)動(dòng)或混合驅(qū)動(dòng),進(jìn)一步提高生產(chǎn)調(diào)度的穩(wěn)定性。③在Q學(xué)習(xí)算法的基礎(chǔ)上,考慮更優(yōu)的深度強(qiáng)化學(xué)習(xí)算法與參數(shù)組合,進(jìn)一步提高算法模型的求解效率。