李 鋒,陳 勇,王家序,湯寶平
(1.四川大學(xué) 機(jī)械工程學(xué)院,四川 成都 610065;2.四川大學(xué) 空天科學(xué)與工程學(xué)院,四川 成都 610065;3.重慶大學(xué) 機(jī)械傳動(dòng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,重慶 400044)
滾動(dòng)軸承是機(jī)械設(shè)備中應(yīng)用最廣泛的組件之一,其健康狀態(tài)直接影響整個(gè)機(jī)械設(shè)備的安全運(yùn)行,對(duì)滾動(dòng)軸承進(jìn)行有效地狀態(tài)趨勢(shì)預(yù)測(cè),能夠?yàn)轭A(yù)防和排除機(jī)械設(shè)備的安全隱患、提高機(jī)械設(shè)備的可靠性提供技術(shù)保障[1]。從主流的技術(shù)和應(yīng)用研究現(xiàn)狀來看,狀態(tài)趨勢(shì)預(yù)測(cè)方法主要分為基于物理模型的預(yù)測(cè)方法和基于數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)方法兩大類?;谖锢砟P偷姆椒ㄒ?qū)ρ芯繉?duì)象的先驗(yàn)知識(shí)要求非常高而適用性較低,并且由于對(duì)安裝在結(jié)構(gòu)復(fù)雜、運(yùn)行環(huán)境惡劣及部件之間相互影響較大的設(shè)備中的軸承建立完備的物理失效預(yù)測(cè)模型非常困難,該方法在滾動(dòng)軸承上的使用和推廣受到很大限制[2];基于數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)方法通過分析設(shè)備的傳感器監(jiān)測(cè)數(shù)據(jù)得到設(shè)備潛在的退化規(guī)律,從而預(yù)測(cè)設(shè)備的狀態(tài)趨勢(shì),該方法僅需收集足夠的性能退化數(shù)據(jù),并將其轉(zhuǎn)換為相關(guān)信息和性能退化模型,即可對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè),而且該方法對(duì)設(shè)備相關(guān)先驗(yàn)知識(shí)的要求比較低,使用簡(jiǎn)單、效率高且模型通用性好[3],因此獲得越來越多的關(guān)注和研究[4-7]?;跀?shù)據(jù)驅(qū)動(dòng)的狀態(tài)趨勢(shì)預(yù)測(cè)方法分為3類:①現(xiàn)代模型預(yù)測(cè)方法,如灰色模型(Grey Model, GM)和粒子濾波(Particle Filter, PF)等;②數(shù)值分析預(yù)測(cè)方法,如支持向量回歸(Support Vector Regression, SVR)等;③人工智能的預(yù)測(cè)方法,如神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)等。Zhang等[8]利用實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù)建立了動(dòng)態(tài)加權(quán)Markov模型,并利用PF對(duì)滾子軸承狀態(tài)趨勢(shì)進(jìn)行預(yù)測(cè);Loutas等[9]采用經(jīng)過貝葉斯處理的支持向量回歸(Epsilon-Support Vector Regression, E-SVR)模型預(yù)測(cè)滾子軸承退化趨勢(shì);Rai等[10]設(shè)計(jì)了一個(gè)時(shí)滯神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network, TDNN)預(yù)測(cè)滾子軸承的健康指標(biāo)。然而上述預(yù)測(cè)方法仍有不足:對(duì)于PF,重采樣階段會(huì)對(duì)樣本有效性和多樣性造成損失,導(dǎo)致樣本出現(xiàn)貧化現(xiàn)象;因?yàn)镋-SVR的核函數(shù)類型和核參數(shù)依然很難準(zhǔn)確設(shè)定,所以預(yù)測(cè)結(jié)果不確定;人工神經(jīng)網(wǎng)絡(luò)如TDNN的隱層層數(shù)和節(jié)點(diǎn)數(shù)的選擇沒有成熟的理論指導(dǎo),一般根據(jù)經(jīng)驗(yàn)選取,導(dǎo)致模型的預(yù)測(cè)精度和計(jì)算效率不理想。
作為解決序貫決策的機(jī)器學(xué)習(xí)方法,強(qiáng)化學(xué)習(xí)采用持續(xù)的“交互—試錯(cuò)”機(jī)制[11-12]進(jìn)行Agent與環(huán)境的不斷交互,從而學(xué)得完成任務(wù)的最優(yōu)策略,契合了人類提升智能的行為決策方式[13-14]。針對(duì)神經(jīng)網(wǎng)絡(luò)隱層層數(shù)和節(jié)點(diǎn)數(shù)根據(jù)經(jīng)驗(yàn)選取造成非線性逼近能力和泛化性能不可控的問題,結(jié)合強(qiáng)化學(xué)習(xí)在智能決策方面的優(yōu)勢(shì),在循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)的基礎(chǔ)上,本文提出一種新型神經(jīng)網(wǎng)絡(luò)理論——強(qiáng)化學(xué)習(xí)單元匹配循環(huán)神經(jīng)網(wǎng)絡(luò)(Reinforcement Learning Unit MacthingRecurrent Neural Network, RLUMRNN)。在RLUMRNN中構(gòu)造單調(diào)趨勢(shì)識(shí)別器,該識(shí)別器利用最小二乘線性回歸法對(duì)輸入序列進(jìn)行線性擬合,并通過擬合函數(shù)的斜率來判斷輸入序列的趨勢(shì)(上升、下降、平穩(wěn)),用這3種趨勢(shì)和不同隱層層數(shù)及隱層節(jié)點(diǎn)數(shù)分別表示Q值表的狀態(tài)和動(dòng)作,Agent根據(jù)更新后的Q值表采取最佳的動(dòng)作(即選擇隱層層數(shù)和節(jié)點(diǎn)數(shù)與每種序列趨勢(shì)單元最匹配的RNN),增強(qiáng)了RLUMRNN的非線性逼近能力和泛化性能,使所提出的狀態(tài)退化趨勢(shì)預(yù)測(cè)方法對(duì)具有復(fù)雜變化規(guī)律的滾動(dòng)軸承狀態(tài)退化趨勢(shì)有較好的適應(yīng)性;另外,在Q值表更新過程中,構(gòu)造關(guān)于輸出誤差的新型獎(jiǎng)勵(lì)函數(shù),避免Agent盲目搜索,提高了網(wǎng)絡(luò)的收斂速度。
利用上述RLUMRNN的優(yōu)勢(shì),本文提出基于RLUMRNN的狀態(tài)趨勢(shì)預(yù)測(cè)方法,將該方法用于滾動(dòng)軸承狀態(tài)趨勢(shì)預(yù)測(cè),可以達(dá)到較高的預(yù)測(cè)精度和計(jì)算效率。
強(qiáng)化學(xué)習(xí)是基于Markov決策過程(Markov Decision Process, MDP)的理論框架[15]。如圖1所示,一個(gè)標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)框架中主要有動(dòng)作、獎(jiǎng)勵(lì)、狀態(tài)、環(huán)境4個(gè)要素,其目標(biāo)是學(xué)習(xí)一個(gè)行為策略,使Agent選擇的動(dòng)作最終能夠獲得環(huán)境最大的獎(jiǎng)勵(lì)。
記t時(shí)刻的狀態(tài)為st,下一個(gè)時(shí)刻的狀態(tài)為st+1,t時(shí)刻狀態(tài)和下一時(shí)刻狀態(tài)下采取的動(dòng)作分別為at和at+1。定義折扣累積獎(jiǎng)勵(lì)期望值
(1)
式中:π為策略空間;γ為折扣因子,0<γ<1;rt+k為t+k時(shí)刻狀態(tài)下采取動(dòng)作at+k獲得的獎(jiǎng)勵(lì)。
在每次采取動(dòng)作后,就通過貝爾曼方程對(duì)Q值進(jìn)行迭代更新,表達(dá)式為
Q(st+1,at+1)=(1-α)Q(st,at)+
α(r(st,at,st+1)+γV(s))。
(2)
式中:α為調(diào)節(jié)系數(shù);r(st,at,st+1)表示從狀態(tài)st選擇動(dòng)作at達(dá)到狀態(tài)st+1獲得的獎(jiǎng)勵(lì),狀態(tài)st下的價(jià)值函數(shù)
(3)
st狀態(tài)下的最優(yōu)策略,即獲得最大獎(jiǎng)勵(lì)的決策函數(shù)(即Agent)
(4)
循環(huán)神經(jīng)網(wǎng)絡(luò)通過使用帶有自反饋的神經(jīng)元,能夠處理任意長(zhǎng)度(存在時(shí)間關(guān)聯(lián)性)的序列;與傳統(tǒng)的深度前饋神經(jīng)網(wǎng)絡(luò)相比,其更符合生物神經(jīng)元的連接方式。一個(gè)單隱層的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
設(shè)t時(shí)刻網(wǎng)絡(luò)的輸入為xt,則其隱層狀態(tài)
ht=σ(Uxt+Wht-1+b)。
(5)
式中:U為隱層輸入權(quán)值矩陣;W為自反饋權(quán)值矩陣;b為隱層偏置向量。根據(jù)隱層輸出ht計(jì)算網(wǎng)絡(luò)的最終輸出
yt=σ(Vht+c)。
(6)
式中:V為輸出層權(quán)值矩陣;c為輸出層偏置向量。
RLUMRNN模型通過構(gòu)造單調(diào)趨勢(shì)識(shí)別器將時(shí)間序列分為3個(gè)基本趨勢(shì)單元(上升、下降、平穩(wěn)),并利用強(qiáng)化學(xué)習(xí)分別為每一個(gè)趨勢(shì)單元選擇一個(gè)隱層層數(shù)和節(jié)點(diǎn)數(shù)與其變化規(guī)律相適應(yīng)的循環(huán)神經(jīng)網(wǎng)絡(luò),其模型如圖3所示。
RLUMRNN模型的詳細(xì)思路如下:
(1)強(qiáng)化學(xué)習(xí)選擇RNN的過程
記時(shí)間序列為xt=[x1,x2,…,xt]T;在時(shí)域坐標(biāo)里與xt相對(duì)應(yīng)的點(diǎn)的坐標(biāo)為(1,x1),(2,x2),…,(t,xt)。首先構(gòu)造最小二乘線性回歸單調(diào)趨勢(shì)識(shí)別器,并利用該識(shí)別器對(duì)點(diǎn)(1,x1),(2,x2),…,(t,xt)進(jìn)行線性擬合,設(shè)擬合的直線方程為
x=βt+ω,
(7)
則平方擬合誤差為
(8)
為了求出最優(yōu)的擬合方程,根據(jù)微積分求極值思想,需滿足如下條件:
(9)
將這3種趨勢(shì)狀態(tài)作為強(qiáng)化學(xué)習(xí)的環(huán)境狀態(tài),Agent根據(jù)當(dāng)前的趨勢(shì)狀態(tài)從動(dòng)作集a中選擇執(zhí)行一個(gè)動(dòng)作,動(dòng)作集a如表1所示。
表1 動(dòng)作集a
在選擇動(dòng)作的過程中,采用由狀態(tài)集s和動(dòng)作集a構(gòu)成的Q值表代替折扣累積獎(jiǎng)勵(lì)期望值,如表2所示。
表2 Q值表
根據(jù)Q值表,采用決策函數(shù)(即Agent)為每一個(gè)狀態(tài)選擇一個(gè)對(duì)應(yīng)的動(dòng)作,決策函數(shù)
(10)
式中:i∈1,2,3;a*(si)∈a1,a2,…,ad表示在狀態(tài)si下決策函數(shù)選擇的動(dòng)作。
得到狀態(tài)si下的動(dòng)作a*(si)后,再通過a*(si)表示的網(wǎng)絡(luò)隱層數(shù)和節(jié)點(diǎn)數(shù)設(shè)置一個(gè)多隱層的RNN,得到一個(gè)與時(shí)間序列xt(即趨勢(shì)狀態(tài)si)對(duì)應(yīng)的RNN,記為i-RNN。
(2)計(jì)算網(wǎng)絡(luò)輸出過程
將時(shí)間序列xt=[x1,x2,…,xt]T作為i-RNN的輸入,若i-RNN隱層為一層,隱層節(jié)點(diǎn)為m個(gè),則隱層狀態(tài)和最終輸出分別為:
(11)
(12)
若i-RNN隱層為兩層,隱層節(jié)點(diǎn)為m個(gè),則第一隱層狀態(tài)、第二隱層狀態(tài)和最終輸出分別為:
(13)
(14)
(15)
RLUMRNN的學(xué)習(xí)過程分為兩個(gè)步驟:①更新強(qiáng)化學(xué)習(xí)Q值表;②更新每個(gè)趨勢(shì)狀態(tài)對(duì)應(yīng)的最終i-RNN權(quán)值。
(1)強(qiáng)化學(xué)習(xí)Q值表的更新
(16)
結(jié)合輸出誤差,在狀態(tài)si下,選擇執(zhí)行動(dòng)作a得到的獎(jiǎng)勵(lì)
(17)
式中e為自然指數(shù)。顯然,該新構(gòu)造的獎(jiǎng)勵(lì)函數(shù)滿足r∈(0,1)且與輸出誤差E負(fù)相關(guān),即誤差越大,得到的獎(jiǎng)勵(lì)值越小。
再根據(jù)得到的獎(jiǎng)勵(lì)和貝爾曼方程更新計(jì)算Q值表中在狀態(tài)si下選擇執(zhí)行動(dòng)作a的Q值:
q(si,a)′=(1-α)q(si,a)+
(18)
(2)最終i-RNN權(quán)值的更新
本文采用隨機(jī)梯度下降法對(duì)權(quán)值進(jìn)行更新,若最終i-RNN隱層為一層,則根據(jù)式(11)和式(12)及鏈?zhǔn)角髮?dǎo)法則,可計(jì)算各權(quán)值的梯度分別為:
(19)
(20)
(21)
同理,若最終i-RNN隱層為兩層,則根據(jù)式(13)~式(15)可計(jì)算各權(quán)值的梯度分別為:
(22)
(23)
(24)
(25)
求得梯度后,分別采用如下公式進(jìn)行更新:
(26)
式中:W′,U′,V′,H′為更新后的權(quán)值矩陣;ψ為學(xué)習(xí)率。以此類推,若最終i-RNN隱層為n層,則可對(duì)n層中的各權(quán)值進(jìn)行更新。
綜上,在RLUMRNN中,構(gòu)造單調(diào)趨勢(shì)識(shí)別器來判斷輸入序列的趨勢(shì)(上升、下降、平穩(wěn)),用這3種趨勢(shì)和不同隱層層數(shù)及隱層節(jié)點(diǎn)數(shù)分別表示Q值表的狀態(tài)與動(dòng)作,Agent根據(jù)更新后的Q值表選擇執(zhí)行最優(yōu)的動(dòng)作(即選擇隱層層數(shù)和隱層節(jié)點(diǎn)數(shù)與每種序列趨勢(shì)單元最匹配的RNN),增強(qiáng)了RLUMRNN的泛化能力,使所提預(yù)測(cè)方法具有較高的預(yù)測(cè)精度;另外,為了明確強(qiáng)化學(xué)習(xí)的學(xué)習(xí)目標(biāo)(即使i-RNN的輸出誤差E較小),避免Agent在Q值表更新過程中的盲目搜索動(dòng)作,通過輸出誤差計(jì)算獎(jiǎng)勵(lì),避免了Agent的盲目搜索,提高了RLUMRNN的收斂速度,使所提預(yù)測(cè)方法具有較高的計(jì)算效率。
本文提出的基于RLUMRNN的滾動(dòng)軸承狀態(tài)趨勢(shì)預(yù)測(cè)方法的實(shí)現(xiàn)流程(如圖4)如下:
(1)采用奇異譜熵[16]對(duì)滾動(dòng)軸承全壽命振動(dòng)數(shù)據(jù)進(jìn)行特征提取。
(2)對(duì)特征(即奇異譜熵)進(jìn)行滑動(dòng)平均降噪處理,并將處理后的奇異譜熵作為滾動(dòng)軸承狀態(tài)退化特征。
(3)將該特征輸入到RLUMRNN進(jìn)行訓(xùn)練。由1.4節(jié)的學(xué)習(xí)過程可知,RLUMRNN的訓(xùn)練分為用單調(diào)趨勢(shì)識(shí)別器判斷輸入序列的趨勢(shì)、強(qiáng)化學(xué)習(xí)的訓(xùn)練和最終與趨勢(shì)狀態(tài)對(duì)應(yīng)的i-RNN的訓(xùn)練3個(gè)過程。
(4)將訓(xùn)練好的與趨勢(shì)狀態(tài)對(duì)應(yīng)的i-RNN用于滾動(dòng)軸承狀態(tài)趨勢(shì)預(yù)測(cè)。
RLUMRNN的訓(xùn)練過程如下:
取樣一段奇異譜熵序列[xg,xg+1,…,xg+(l+1)t-1]作為訓(xùn)練樣本,將該序列分解為:
T1=[xg,xg+1,…,xg+t-1]→
T2=[xg+t,xg+t+1,…,xg+2t-1]→
?
Tl=[xg+(l-1)t,xg+(l-1)t+1,…,xg+lt-1]→
將樣本依次輸入RLUMRNN,根據(jù)強(qiáng)化學(xué)習(xí)Q值表的更新過程完成強(qiáng)化學(xué)習(xí)的訓(xùn)練,即先利用單調(diào)趨勢(shì)識(shí)別器為l組訓(xùn)練樣本判別趨勢(shì)狀態(tài),再由強(qiáng)化學(xué)習(xí)根據(jù)最終訓(xùn)練更新好的Q值表選擇執(zhí)行最佳動(dòng)作,為所判別的趨勢(shì)狀態(tài)選擇對(duì)應(yīng)的i-RNN(1-RNN,2-RNN,3-RNN)。然后,采用隨機(jī)梯度下降法分別對(duì)強(qiáng)化學(xué)習(xí)選擇的i-RNN進(jìn)行M次訓(xùn)練,每次訓(xùn)練前從狀態(tài)si的訓(xùn)練樣本中隨機(jī)抽取一組樣本(包括作為期望輸出的樣本)輸入對(duì)應(yīng)的i-RNN,再根據(jù)i-RNN的更新法則完成i-RNN的一次訓(xùn)練,循環(huán)重復(fù)以上訓(xùn)練過程M次,就完成了i-RNN的M次訓(xùn)練,即完成了RLUMRNN的完整訓(xùn)練過程。
通過將信息熵與奇異值分解相結(jié)合而構(gòu)造的奇異譜熵可定量度量由奇異值分解所反映的信號(hào)的復(fù)雜程度。奇異譜熵的構(gòu)造過程如下:
(1)對(duì)時(shí)間時(shí)間序列x進(jìn)行m維相空間重構(gòu),得到n×m維矩陣Y,根據(jù)奇異值分解原理必存在n×s的矩陣U、s×s的對(duì)角陣Λ和s×m的矩陣Γ,使如下關(guān)系成立:
Y=U·Λ·ΓT。
(27)
式中對(duì)角陣Λ的主對(duì)角線元素λ1≥λ2≥…λs≥0,當(dāng)信號(hào)具有較高的信噪比時(shí),對(duì)其進(jìn)行奇異值分解后得到
Λ=diag(λ1,λ2,…,λk,0,…,0)。
(28)
式中k
(2)通過奇異值計(jì)算奇異譜熵。奇異譜熵定義如下:
(29)
因?yàn)槠娈愔郸薸的大小反映了不同模式在總模式中的比重,所以奇異譜熵SE反映了時(shí)域信號(hào)在奇異譜劃分下各模式的分布,體現(xiàn)了信號(hào)能量分布的時(shí)域復(fù)雜程度。在正常狀態(tài)下,滾動(dòng)軸承的振動(dòng)時(shí)域信號(hào)近似為高斯分布,此時(shí)信號(hào)主要源于保持架的轉(zhuǎn)頻和軸頻,以及保持架對(duì)軸旋轉(zhuǎn)所產(chǎn)生的微弱調(diào)制,信號(hào)頻率成分比較簡(jiǎn)單,能量集中于少數(shù)幾個(gè)頻率分量,從奇異譜熵的機(jī)理可知,其奇異值分解結(jié)果集中于少數(shù)幾個(gè)模式,故此時(shí)信號(hào)的奇異譜熵取值較低;隨著滾動(dòng)軸承最細(xì)微性能退化的出現(xiàn),信號(hào)中出現(xiàn)了微弱的故障頻率(包括引起的微弱共振),信號(hào)能量分布開始分散,奇異值分解結(jié)果也隨之分散,從而使奇異譜熵有所增加;當(dāng)出現(xiàn)明顯的性能退化時(shí),噪聲信號(hào)頻率成分所占比例急劇增加,能量分散加劇,導(dǎo)致奇異譜熵增大。因此,可采用奇異譜熵獲取反映滾動(dòng)軸承內(nèi)在復(fù)雜性的特征,來描述滾動(dòng)軸承狀態(tài)的退化特征。
采用Cincinnati大學(xué)實(shí)測(cè)的滾動(dòng)軸承退化數(shù)據(jù)[17]驗(yàn)證所提狀態(tài)趨勢(shì)預(yù)測(cè)方法。實(shí)驗(yàn)裝置如圖5所示,軸承實(shí)驗(yàn)臺(tái)的轉(zhuǎn)軸上安裝有4個(gè)Rexnord公司制造的ZA-2115雙列滾子軸承,交流電機(jī)通過帶傳動(dòng)以2 000 r/min的恒定轉(zhuǎn)速帶動(dòng)轉(zhuǎn)軸旋轉(zhuǎn),實(shí)驗(yàn)過程中軸承被施加6 000 lbs的徑向載荷。采樣頻率為20 kHz,采樣長(zhǎng)度為20 480個(gè)點(diǎn),每隔10 min采集一次軸承的振動(dòng)數(shù)據(jù),軸承持續(xù)運(yùn)行直到不能正常工作。在第一組實(shí)驗(yàn)中,實(shí)驗(yàn)臺(tái)持續(xù)運(yùn)行21 560 min后,軸承3出現(xiàn)內(nèi)圈故障而失效。本文采用該組實(shí)驗(yàn)采集到的軸承3的完整退化數(shù)據(jù)驗(yàn)證本文所提方法。
軸承3的全壽命振動(dòng)數(shù)據(jù)共計(jì)2 156組,每組數(shù)據(jù)的長(zhǎng)度為20 480個(gè)點(diǎn),分別從每一組數(shù)據(jù)中提取前10 000個(gè)數(shù)據(jù)點(diǎn)進(jìn)行矩陣重組得到維數(shù)1 000×10的矩陣并計(jì)算奇異譜熵,如圖6a所示。對(duì)奇異譜熵序列進(jìn)行滑動(dòng)平均降噪處理得到降噪后的奇異譜熵序列,如圖6b所示。由圖6b可知,從起始點(diǎn)至第200點(diǎn)奇異譜熵快速攀升,軸承處于跑合階段;從第200點(diǎn)~1 700點(diǎn)奇異譜熵變化速率緩慢,奇異譜熵曲線比較平直,軸承處于運(yùn)行較為平穩(wěn)的階段;第1 700點(diǎn)之后奇異譜熵變化速率開始持續(xù)加快,奇異譜熵曲線急劇上升,軸承處于狀態(tài)退化加劇即故障加劇階段,直至失效。因?yàn)樵撦S承失效為其內(nèi)圈故障逐漸惡化造成,所以在平穩(wěn)運(yùn)行階段后期(即第1 300點(diǎn)~第1 700點(diǎn)區(qū)間),軸承實(shí)際處于初始退化即故障早期階段。取處于初始退化階段的第1 301點(diǎn)~第1 500點(diǎn)(共200個(gè)點(diǎn))作為訓(xùn)練樣本(即g=1 301,作為訓(xùn)練樣本的奇異譜熵序列為[x1 301,x1 302,…,x1 500]);根據(jù)第2章闡述的RLUMRNN預(yù)測(cè)過程預(yù)測(cè)最后656個(gè)點(diǎn)(即第1 501點(diǎn)~第2 156點(diǎn))的奇異譜熵。
RLUMRNN各參數(shù)設(shè)置如下:?jiǎn)握{(diào)趨勢(shì)識(shí)別器臨界值λ=-7×10-6,μ=7×10-6;強(qiáng)化學(xué)習(xí)過程訓(xùn)練輪數(shù)P=5,動(dòng)作選擇參考值ε=[0.9,0.7,0.5,0.3,0.1],每輪訓(xùn)練次數(shù)Kρ=100ερ;動(dòng)作集為可選隱層數(shù)[1,2,3]和可選隱層節(jié)點(diǎn)數(shù)3~10兩兩組合一共24種動(dòng)作的集合;Q值表中各Q值初始數(shù)據(jù)為[0,1]的隨機(jī)值;Q值更新折扣因子γ=0.1,Q值更新調(diào)節(jié)系數(shù)α=0.1;i-RNN學(xué)習(xí)率ψ=0.001,訓(xùn)練次數(shù)M=2 000;訓(xùn)練樣本組數(shù)l=49;預(yù)測(cè)回合數(shù)N=164,每回合預(yù)測(cè)次數(shù)(即樣本維數(shù),也即輸入節(jié)點(diǎn)數(shù))t=4;輸出節(jié)點(diǎn)數(shù)為1。設(shè)置好RLUMRNN的參數(shù)后,再對(duì)RLUMRNN進(jìn)行訓(xùn)練,訓(xùn)練分兩步:
(1)訓(xùn)練強(qiáng)化學(xué)習(xí),并選擇與3種趨勢(shì)狀態(tài)對(duì)應(yīng)的i-RNN。首先對(duì)作為訓(xùn)練樣本的奇異譜熵序列進(jìn)行分解,可得:
T1=[x1 301,x1 302,x1 303,x1 304]→
T2=[x1 305,x1 306,x1 307,x1 308]→
?
T49=[x1 493,x1 494,x1 495,x1 496]→
其次利用單調(diào)趨勢(shì)識(shí)別器判別以上49組訓(xùn)練輸入樣本的趨勢(shì)狀態(tài)。然后將訓(xùn)練輸入樣本及其期望輸出依次輸入RLUMRNN,根據(jù)1.4節(jié)采用ε-貪婪策略并結(jié)合由輸出誤差構(gòu)造的獎(jiǎng)勵(lì)函數(shù)對(duì)Q值表進(jìn)行P=5輪迭代更新(各輪更新次數(shù)分別為90,70,50,30,10),以完成強(qiáng)化學(xué)習(xí)的訓(xùn)練。最后強(qiáng)化學(xué)習(xí)依據(jù)最終更新的好的Q值表選擇執(zhí)行最佳動(dòng)作,為所判別的3種趨勢(shì)狀態(tài)選擇對(duì)應(yīng)的i-RNN(1-RNN,2-RNN,3-RNN)。
(2)采用隨機(jī)梯度下降法分別對(duì)強(qiáng)化學(xué)習(xí)選擇的i-RNN進(jìn)行M=2 000次訓(xùn)練。每次訓(xùn)練前從狀態(tài)si的訓(xùn)練樣本中隨機(jī)抽取一組樣本(包括作為期望輸出的樣本)輸入對(duì)應(yīng)的i-RNN,根據(jù)i-RNN的更新法則完成i-RNN的一次訓(xùn)練。循環(huán)重復(fù)以上訓(xùn)練過程2 000次,就完成了i-RNN的2 000次訓(xùn)練,即完成了RLUMRNN的完整訓(xùn)練過程。
為更好地評(píng)估模型預(yù)測(cè)效果,采用Nash系數(shù)(NSE)、平均絕對(duì)百分比誤差(MAPE)和均方根誤差(RMSE)作為預(yù)測(cè)精度評(píng)價(jià)指標(biāo),即:
(30)
(31)
(32)
表3 5種狀態(tài)退化趨勢(shì)預(yù)測(cè)方法的預(yù)測(cè)效果對(duì)比
將RNN,MK-LSSVM,GA-BPNN,ELM進(jìn)行狀態(tài)退化趨勢(shì)預(yù)測(cè)所耗用的計(jì)算時(shí)間(即訓(xùn)練時(shí)間與預(yù)測(cè)時(shí)間之和)與RLUMRNN所耗用的計(jì)算時(shí)間進(jìn)行對(duì)比,記錄各預(yù)測(cè)方法重復(fù)執(zhí)行100次的平均計(jì)算時(shí)間,結(jié)果如圖9所示??梢姡琑LUMRNN,RNN,MK-LSSVM,GA-BPNN,ELM消耗的時(shí)間分別為10.739 s,8.616 s,28.855 s,33.514 s,15.971 s,顯然RLUMRNN的計(jì)算時(shí)間比MK-LSSVM,GA-BPNN,ELM都要短得多,僅比RNN稍長(zhǎng)。以上比較結(jié)果表明,將RLUMRNN應(yīng)用于雙列滾子軸承的狀態(tài)退化趨勢(shì)預(yù)測(cè),比MK-LSSVM,GA-BPNN,ELM具有更高的收斂速度和計(jì)算效率。
本文在所提出的RLUMRNN中,通過構(gòu)造單調(diào)趨勢(shì)識(shí)別器判斷輸入序列的趨勢(shì),用3種趨勢(shì)狀態(tài)與不同隱層層數(shù)和隱層節(jié)點(diǎn)數(shù)分別表示Q值表的狀態(tài)和動(dòng)作,根據(jù)更新后最終的Q值表選擇執(zhí)行最優(yōu)動(dòng)作(即選擇隱層層數(shù)和隱層節(jié)點(diǎn)數(shù)與每種序列趨勢(shì)單元最匹配的循環(huán)神經(jīng)網(wǎng)絡(luò)),使RLUMRNN獲得了較理想的非線性逼近能力和泛化性能。另外,在強(qiáng)化學(xué)習(xí)過程中,為了明確強(qiáng)化學(xué)習(xí)的學(xué)習(xí)目標(biāo)(即使RNN的輸出誤差較小),采用輸出誤差構(gòu)造新型獎(jiǎng)勵(lì)函數(shù),以避免Agent在Q值表更新過程中的盲目搜索動(dòng)作,提高了RLUMRNN的收斂速度?;谝陨蟁LUMRNN在非線性逼近能力、泛化性能、收斂速度上的優(yōu)勢(shì),本文進(jìn)一步提出基于RLUMRNN的滾動(dòng)軸承狀態(tài)趨勢(shì)預(yù)測(cè)方法:首先構(gòu)造滑動(dòng)平均奇異譜熵作為滾動(dòng)軸承狀態(tài)的退化特征,然后將該特征輸入RLUMRNN預(yù)測(cè)滾動(dòng)軸承狀態(tài)的趨勢(shì),最后通過雙列滾子軸承狀態(tài)趨勢(shì)預(yù)測(cè)實(shí)例驗(yàn)證了該方法的有效性。