趙晨 王瀟 張思宇
摘 要:本文研究生產(chǎn)企業(yè)中單臺(tái)衰變設(shè)備基于狀態(tài)的維護(hù)策略,建立馬爾科夫決策過程模型,通過強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)算法,使總成本最小化,獲得基于每個(gè)狀態(tài)的維護(hù)策略,并通過實(shí)例進(jìn)行了驗(yàn)證。
關(guān)鍵詞:維護(hù)策略;Q學(xué)習(xí)算法;馬爾科夫決策過程;質(zhì)量狀態(tài)
DOI:10.16640/j.cnki.37-1222/t.2016.23.182
0 引言
本文提出一種考慮設(shè)備狀態(tài)和距離上次預(yù)防性維護(hù)時(shí)間的維護(hù)模式,同時(shí)設(shè)備狀態(tài)由設(shè)備加工的產(chǎn)品質(zhì)量信息為參考依據(jù),以最小化設(shè)備運(yùn)行成本為目標(biāo)函數(shù),建立多個(gè)設(shè)備狀態(tài)、多種行動(dòng)的馬爾可夫模型[1,2],并采用Q學(xué)習(xí)對單臺(tái)設(shè)備生產(chǎn)模型進(jìn)行求解,得到近似最優(yōu)的維護(hù)策略。
1 單臺(tái)衰變設(shè)備建模
本文利用一個(gè)連續(xù)時(shí)間、離散狀態(tài)的馬爾科夫決策過程模型呈現(xiàn)單一設(shè)備的衰變過程。如圖1所示。
2 基于值迭代的Q學(xué)習(xí)維護(hù)策略
采用強(qiáng)化學(xué)習(xí)中基于值迭代的Q學(xué)習(xí)方法進(jìn)行求解[3,4,5],其步驟如下:
(1)初始化Q(s,a)為(0,0)
(2)反復(fù)執(zhí)行以下步驟:初始化s值。每一次仿真進(jìn)行:根據(jù)Q中的狀態(tài)s選擇一個(gè)行動(dòng)a,執(zhí)行行動(dòng)a,觀察得到的即時(shí)回報(bào)r和新的狀態(tài)s,其迭代公式為:
(1)
3 仿真實(shí)例分析
應(yīng)用基于值迭代的Q學(xué)習(xí)求解模型的步驟如下: 1)初始化所有全局參數(shù);2)設(shè)置循環(huán)次數(shù);3)開始仿真。仿真流程圖如圖2所示。
單一衰變設(shè)備系統(tǒng)的基本參數(shù)如表1所示。
M: 生產(chǎn)設(shè)備 Co: 設(shè)備M生產(chǎn)單個(gè)產(chǎn)品的成本 Cp: 單位時(shí)間內(nèi)設(shè)備M的預(yù)防維護(hù)成本 Cc: 單位時(shí)間內(nèi)設(shè)備M的修理成本
R: 設(shè)備M生產(chǎn)一個(gè)好產(chǎn)品的收益 ave_reward: 生產(chǎn)系統(tǒng)的平均收益 MTTF: 設(shè)備M的平均故障時(shí)間 y(t): 設(shè)備M加工的好產(chǎn)品比例 a: 設(shè)備M預(yù)防維護(hù)的成功率,也即預(yù)防維護(hù)速率 b: 不合格產(chǎn)品數(shù) t: 自上次維護(hù)以來的時(shí)間
在仿真過程中,設(shè)備以線性模式衰變,y(t)=1-t/(MTTF),t為距離上次維護(hù)以來的時(shí)間,隨著tt的增加,設(shè)備生產(chǎn)好產(chǎn)品的概率不斷降低。通過基于值迭代的Q學(xué)習(xí)對單設(shè)備系統(tǒng)進(jìn)行學(xué)習(xí)后,得到表2中的結(jié)果。
其中,“0”表示繼續(xù)生產(chǎn),“1”表示進(jìn)行預(yù)防維護(hù)。b=0時(shí),設(shè)備總是在生產(chǎn)的,t服從馬爾科夫模型下的均勻分布,表示的是單位時(shí)間。當(dāng)t為1和2,b=1時(shí),系統(tǒng)采取了預(yù)防維護(hù);而t=4,5,6,b<3時(shí),設(shè)備都是繼續(xù)生產(chǎn)??梢钥闯觯ㄟ^多次仿真,呈現(xiàn)出倒三角模型,這是必然的。a∈A={0,1,2},這里沒有出現(xiàn)“2”修理行動(dòng),是因?yàn)楫?dāng)t=MTTF時(shí),才進(jìn)行修理。而我們考慮的是最優(yōu)的決策使系統(tǒng)的總成本最小,所以只有繼續(xù)生產(chǎn)和預(yù)防維護(hù)兩種行動(dòng)。
參考文獻(xiàn) :
[1]王文義,張洪芳.維修策略的概念、方法和模型(I)[J].北京: 機(jī)械工業(yè)出版社,1997,6(02):95-98.
[2]陳洪根.設(shè)備維護(hù)改進(jìn)實(shí)施決策模型[J].系統(tǒng)工程理論與實(shí)踐,20n,31(05):954-960.
[3]Wang H.A survey of maintenance policies of deteriorating systems. European Journal of Operational Research,2002,139:469-489.
[4]Aissani N,Beldjilali B,Trentesaux D. Dynamic Scheduling of maintenance tasks in the petroleum industry:A reinforcement approach[J].Engineering Applications of Artificial Intelligence,22.7(2009):1089-1103.
[5]Arapostathis A,Borkar V S,F(xiàn)ernández-Gaucherand E, et al.Discrete-time controlled Markov processes with average cost criterion: a survey[J].SIAM Journal on Control and Optimization,31.2(1993):282-344.
基金項(xiàng)目:2014沈陽航空航天大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目 項(xiàng)目編號(hào):DCX140410