国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于批量式強(qiáng)化學(xué)習(xí)的群組放煤智能決策研究

2022-11-02 12:55:28李慶元李化敏李東印楊延麟費(fèi)樹岷
煤炭科學(xué)技術(shù) 2022年10期
關(guān)鍵詞:煤口放頂批量

楊 藝,李慶元, 李化敏,李東印,楊延麟,費(fèi)樹岷

(1.河南理工大學(xué) 電氣工程與自動(dòng)化學(xué)院,河南 焦作 454000;2.河南省煤礦裝備智能檢測(cè)與控制重點(diǎn)實(shí)驗(yàn)室,河南 焦作 454003;3.河南理工大學(xué) 能源科學(xué)與工程學(xué)院,河南 焦作 454000;4.河南理工大學(xué) 學(xué)術(shù)出版中心,河南 焦作 454000;5.東南大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210096)

0 引 言

綜放開采技術(shù)于20世紀(jì)80年代自歐洲引入我國(guó),經(jīng)過(guò)30余年時(shí)間的不斷發(fā)展,我國(guó)綜放開采技術(shù)已達(dá)到世界領(lǐng)先水平。目前,綜放開采已成為我國(guó)厚煤層以及特厚煤層的主要開采方式[1-2]。

經(jīng)過(guò)長(zhǎng)期積累和基礎(chǔ)性研究,針對(duì)不同的地質(zhì)條件,研究人員提出了:順序放煤、間隔放煤、多輪放煤、一采一放、多采一放等一系列放煤工藝[3-5]。文獻(xiàn)[6]定性研究了不同采放比條件下,單口和雙口間隔放煤方式的頂煤放出率和出煤含矸率。隨后,一系列基于離散元分析方法的放煤工藝被深入研究。文獻(xiàn)[7]結(jié)合二維顆粒流程序(PFC2D),分析頂煤放出過(guò)程中的成拱現(xiàn)象及原理,通過(guò)振動(dòng)方式破壞成拱,提高頂煤采出率。文獻(xiàn)[8-9]結(jié)合基于離散元的三維顆粒流程序(PFC3D),建立BBR研究體系,研究煤巖分界面、頂煤放出體、頂煤采出率和含矸率的相互影響與制約關(guān)系。文獻(xiàn)[10]以理論分析、數(shù)值模擬為主要手段,圍繞多放煤口協(xié)同放煤方法,研究煤巖運(yùn)動(dòng)特征對(duì)頂煤采出率和放煤效率的影響。隨著人工智能技術(shù)不斷取得突破,基于機(jī)器學(xué)習(xí)的放煤智能決策方法越來(lái)越受到研究人員的關(guān)注,并對(duì)其展開了深入研究。2014年,文獻(xiàn)[11]針對(duì)厚煤層采煤方法的不確定性因素,運(yùn)用多級(jí)模糊綜合評(píng)判方法對(duì)采煤工藝進(jìn)行綜合評(píng)判,建立了基于BP神經(jīng)網(wǎng)絡(luò)的厚煤層開采方法評(píng)價(jià)模型。2015年,文獻(xiàn)[12]采用記憶放煤時(shí)序控制模式,實(shí)現(xiàn)連續(xù)放煤。2018年,文獻(xiàn)[13]通過(guò)果蠅優(yōu)化算法與RBF(Radial Basis Function)混合預(yù)測(cè)放頂煤的時(shí)間,使得放煤時(shí)間隨煤層賦存條件自動(dòng)調(diào)整。2019年,文獻(xiàn)[14]通過(guò)對(duì)多傳感器采集信號(hào)進(jìn)行特征提取,對(duì)比放煤特征范例庫(kù)做出放煤預(yù)警或控制。文獻(xiàn)[15]基于智能化放煤裝備,融合煤流量信息、頂煤量信息、煤矸辨識(shí)信息,給出智能放煤控制框架。2020年,文獻(xiàn)[16]提出構(gòu)建“放煤全過(guò)程監(jiān)測(cè)系統(tǒng)”,將透地測(cè)量雷達(dá)、三維空間雷達(dá)用于后部放煤空間感知,掃描未放頂煤空間測(cè)量計(jì)算剩余煤厚與煤矸比例,對(duì)放頂煤全過(guò)程進(jìn)行實(shí)時(shí)監(jiān)測(cè),為實(shí)現(xiàn)自動(dòng)化、智能化放煤提供了必要手段。

由于綜放工作面環(huán)境惡劣,影響煤巖運(yùn)動(dòng)特征的因素龐雜,難以建立開采環(huán)境和開采過(guò)程的準(zhǔn)確數(shù)學(xué)模型。這使得液壓支架放煤口的動(dòng)作控制喪失精確的指揮棒,從而導(dǎo)致難以形成精準(zhǔn)的放煤工藝。因此,國(guó)家“十三五”重點(diǎn)研發(fā)計(jì)劃項(xiàng)目“千萬(wàn)噸級(jí)特厚煤層智能化綜放開采關(guān)鍵技術(shù)及示范”中將智能放煤工藝模型和方法列為子課題,開展研究工作。2019年,課題組提出了一種基于傳統(tǒng)Q-learning的免模型放煤決策算法,將放煤口智能決策單元定義為放煤智能體。智能體結(jié)合頂煤放出體實(shí)時(shí)狀態(tài)特征與頂煤動(dòng)態(tài)賦存特征,生成群組放煤過(guò)程中多放煤口開、閉實(shí)時(shí)控制策略,對(duì)放煤口控制動(dòng)作做在線調(diào)整[17]。2020年1月,課題組將深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)Deep Q-Network用于放煤最優(yōu)決策,實(shí)現(xiàn)智能體隨煤層賦存狀態(tài)自適應(yīng)、智能化調(diào)節(jié)放煤口動(dòng)作,并通過(guò)搭建的三維仿真試驗(yàn)平臺(tái)驗(yàn)證了該方法的有效性[18]。2020年3月,課題組將綜放工作面液壓支架群抽象為圖模型(Graphic Model)結(jié)構(gòu),并提出了放頂煤多智能體優(yōu)化決策的隱馬爾可夫隨機(jī)場(chǎng)模型,用以優(yōu)化智能體的動(dòng)作決策[19]。

依托前期研究成果,從智能決策角度出發(fā),提出了一種基于批量式Q值更新的放煤動(dòng)態(tài)決策算法,對(duì)放煤智能體的在線學(xué)習(xí)過(guò)程進(jìn)行加速。作者將該算法作為綜放工作面智能群組放煤方法的智能決策部分,并通過(guò)理論分析、三維數(shù)值仿真等主要手段對(duì)不同放煤方式展開對(duì)比研究。

1 基于強(qiáng)化學(xué)習(xí)的群組放煤智能決策建模

1.1 群組放煤決策的智能屬性

頂煤放出效果直接由放煤口的開閉動(dòng)作決定,而放煤口開閉動(dòng)作由電液控系統(tǒng)驅(qū)動(dòng)。從控制理論角度出發(fā),電液控系統(tǒng)的運(yùn)行必須基于給定的控制模型和對(duì)應(yīng)的控制算法。然而,放頂煤過(guò)程是一個(gè)十分復(fù)雜的動(dòng)態(tài)過(guò)程,涉及到頂板地質(zhì)信息、頂煤破碎及運(yùn)移過(guò)程、圍巖動(dòng)態(tài)信息等龐大的非線性、強(qiáng)耦合狀態(tài)變量和作用關(guān)系,難以采用動(dòng)力學(xué)方程建立控制模型,從而無(wú)法設(shè)計(jì)控制算法。這也是目前放煤不得不采用人工操作,或者依據(jù)開閉時(shí)間來(lái)控制放煤口動(dòng)作的根本原因。但是,這2種方式顯然無(wú)法全局統(tǒng)籌頂板地質(zhì)條件、頂煤賦存狀態(tài)、液壓支架群動(dòng)作等各類信息之間的關(guān)聯(lián)關(guān)系,從而導(dǎo)致無(wú)法定量生成最優(yōu)控制策略來(lái)驅(qū)動(dòng)電液控系統(tǒng),難以達(dá)到最優(yōu)的放煤效益。

將放煤口上方及掩護(hù)梁后方作為頂煤賦存狀態(tài)的檢測(cè)區(qū)域。隨著頂煤不斷放落,頂煤賦存狀態(tài)發(fā)生變化,對(duì)應(yīng)的放出體狀態(tài)也會(huì)隨之產(chǎn)生相應(yīng)變化。該變化可由頂煤賦存狀態(tài)與放出體狀態(tài)的映射關(guān)系來(lái)表征。傳統(tǒng)的人工放煤控制,通過(guò)觀測(cè)煤流信息,實(shí)現(xiàn)對(duì)放煤口的控制。但對(duì)于已放落頂煤,由于受人工操作時(shí)間、放煤口動(dòng)作時(shí)間等影響,其放出過(guò)程不可改變,導(dǎo)致放出體中存在部分矸石,未能提前實(shí)現(xiàn)對(duì)放出體狀態(tài)的精確控制。因此,結(jié)合頂煤賦存狀態(tài)對(duì)放煤口進(jìn)行決策控制,研究“頂煤賦存狀態(tài)-放煤口控制”二者關(guān)聯(lián)關(guān)系,對(duì)于提高放頂煤開采效益,具有重要意義。

在放煤口動(dòng)作過(guò)程中,其決策結(jié)果取決于前一時(shí)刻的頂煤賦存狀態(tài)、瞬時(shí)放出體狀態(tài)等外部環(huán)境,這是典型的馬爾可夫決策過(guò)程,這表明人工智能的“環(huán)境感知-決策控制”的關(guān)聯(lián)機(jī)制與放煤口控制高度契合[15, 20-21]。結(jié)合人工智能技術(shù),實(shí)現(xiàn)放煤口智能化控制,是現(xiàn)階段提高頂煤放出率、降低出煤含矸率的有效方法之一。

一個(gè)綜放工作面通常有上百臺(tái)液壓支架排列,構(gòu)成液壓支架群。在放頂煤過(guò)程中,每個(gè)液壓支架可以看作是一個(gè)智能體,液壓支架群則可以看作是一個(gè)需要協(xié)同控制的多智能體。因此,在多智能體框架下,將放出體實(shí)時(shí)狀態(tài)、頂煤動(dòng)態(tài)賦存等主要環(huán)境信息作為決策依據(jù),賦予各放煤智能體自主決策和自主控制能力的同時(shí),使得各智能體之間高度協(xié)調(diào)、相互協(xié)同能夠有效提高頂煤的采出率、降低出煤的含矸率。

強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是一種基于動(dòng)態(tài)規(guī)劃(Dynamic Programming)的機(jī)器學(xué)習(xí)算法。該算法以外部環(huán)境作為輸入,以決策結(jié)果作為輸出,適用于馬爾可夫過(guò)程的最優(yōu)決策[22-23]。其主要思想是與環(huán)境在線式的交互與試錯(cuò),通過(guò)學(xué)習(xí)“環(huán)境狀態(tài)-執(zhí)行動(dòng)作”之間的映射關(guān)系,使所執(zhí)行動(dòng)作從環(huán)境中收獲最大期望累積獎(jiǎng)賞值,從而逼近最優(yōu)策略。

在綜放工作面放煤決策過(guò)程中,其核心研究?jī)?nèi)容是根據(jù)煤層賦存狀態(tài),動(dòng)態(tài)調(diào)整放頂煤策略,實(shí)現(xiàn)放頂煤收益最大化。即以強(qiáng)化學(xué)習(xí)“環(huán)境狀態(tài)-執(zhí)行動(dòng)作”二者間映射關(guān)系為基礎(chǔ),解決馬爾可夫過(guò)程的最優(yōu)決策問(wèn)題?;诖?,在多智能體框架下,建立面向放頂煤過(guò)程的馬爾可夫決策模型,運(yùn)用強(qiáng)化學(xué)習(xí)基本原理解決傳統(tǒng)綜放工作面存在的頂煤采出率低、出煤含矸率高等問(wèn)題。

1.2 放煤過(guò)程的Q-learning決策過(guò)程建模

1.2.1 面向馬爾可夫決策過(guò)程的Q-learning算法

馬爾可夫決策過(guò)程(Markov Decision Process,MDP)可用四元組Μ?{s;a;R;γ}表示。其中,s∈為系統(tǒng)狀態(tài),={s1,s2,…,sD}為系統(tǒng)狀態(tài)空間,D∈表示狀態(tài)空間維度,為正整數(shù)集;a∈為智能體的動(dòng)作,={a1,a2,…,aJ}為智能體動(dòng)作空間,J∈表示動(dòng)作空間維度;R∈為瞬時(shí)獎(jiǎng)賞值,為實(shí)數(shù)集,取決于放出體狀態(tài);γ∈(0,1)為折扣因子,表明決策步驟對(duì)當(dāng)前狀態(tài)執(zhí)行動(dòng)作的重要程度。

強(qiáng)化學(xué)習(xí)是學(xué)習(xí)環(huán)境狀態(tài)與執(zhí)行動(dòng)作之間的映射關(guān)系,通常使用Q值表來(lái)對(duì)狀態(tài)-動(dòng)作對(duì)進(jìn)行評(píng)價(jià)。智能體基于在線學(xué)習(xí)機(jī)制,通過(guò)與環(huán)境不斷進(jìn)行交互,以此來(lái)更新Q值表,并通過(guò)Q值表來(lái)進(jìn)行目標(biāo)和行為決策。

(1)

在第k次學(xué)習(xí)過(guò)程中,將學(xué)習(xí)到的Qk(s,a)稱為估計(jì)值:

Qestimate=Qk(s,a)

(2)

Q-learning算法通過(guò)Qactual與Qestimate之間的差值來(lái)更新Q值表,以此來(lái)逼近目標(biāo)函數(shù)。第k+1次Qk+1(s,a)值學(xué)習(xí)結(jié)果表示為如下形式:

(3)

式中:k為采樣次數(shù);α∈(0,1)為學(xué)習(xí)率;R(s,a)為狀態(tài)s下,執(zhí)行a動(dòng)作的單步獎(jiǎng)賞值。

在保證算法收斂的情況下,為合理增加采樣次數(shù),在Q(s,a)的學(xué)習(xí)過(guò)程中引入了“探索”與“利用”均衡ε-greedy算法,實(shí)現(xiàn)動(dòng)作a的選擇。如式(4):

(4)

式中:π(a|s)為“狀態(tài)-動(dòng)作”選擇策略,由概率值表示;ε∈(0,1),表示探索率;|A(s)是狀態(tài)s條件下可選的動(dòng)作數(shù)量;a*為候選動(dòng)作的最優(yōu)值,即

(5)

其中,在狀態(tài)s條件下,候選動(dòng)作是最優(yōu)動(dòng)作時(shí)a=a*,用于“利用”;而候選動(dòng)作不是已知最優(yōu)動(dòng)作時(shí)a≠a*,用于“探索”;最后依據(jù)π(a|s)的概率最大值選擇動(dòng)作。

1.2.2 放煤過(guò)程的Q-learning決策模型

(6)

式中:m和n分別為待檢測(cè)狀態(tài)區(qū)域煤炭總量和矸石總量。

在放頂煤決策過(guò)程中,智能體決策結(jié)果僅僅是依據(jù)當(dāng)前狀態(tài)和控制策略給定放煤口應(yīng)該打開還是關(guān)閉。本文指定放煤口動(dòng)作空間為

={a1,a2}

(7)

式中,動(dòng)作選取a1表示放煤口執(zhí)行打開,選取a2表示放煤口執(zhí)行關(guān)閉。

瞬時(shí)煤流中煤、矸量受頂煤賦存狀態(tài)s和放煤口開閉動(dòng)作a共同影響。結(jié)合瞬時(shí)煤流信息中煤、矸量(M,N),將放出體中煤、矸含量占比作為獎(jiǎng)賞值輸入,獎(jiǎng)賞函數(shù)設(shè)定為

(8)

式中,λm、λn為權(quán)重系數(shù)。

2 群組放煤過(guò)程批量式Q-learning智能決策

2.1 群組放煤過(guò)程批量式Q-learning決策模型

2.1.1 群組放煤批量式更新方法

結(jié)合實(shí)際開采過(guò)程可知,在放頂煤過(guò)程中,理想情況下頂煤中煤含量占比隨放煤時(shí)長(zhǎng)增加而逐漸減少,即:頂煤賦存狀態(tài)隨放煤時(shí)長(zhǎng)由全煤下放逐漸轉(zhuǎn)移至全矸下放,且整個(gè)過(guò)程中煤含量單調(diào)變化。然而,受數(shù)據(jù)處理及計(jì)算機(jī)運(yùn)算效率的影響,放煤過(guò)程的狀態(tài)變量常需要定時(shí)采樣,從而使得煤矸含量在數(shù)值上出現(xiàn)較大幅度的跳躍。如:前一采樣過(guò)程中獲取頂煤賦存狀態(tài)為si,當(dāng)前采樣過(guò)程中獲取頂煤賦存狀態(tài)為sj,其中i,j∈{1,2,…,D}。頂煤賦存狀態(tài)更為精細(xì)的單調(diào)變化狀態(tài)為si→…→sl→…→sj,l∈[i,j)且l∈。然而,由于采樣時(shí)間間隔的影響導(dǎo)致若干個(gè)中間轉(zhuǎn)移狀態(tài)sl未能通過(guò)采樣獲取。

上述采樣過(guò)程在強(qiáng)化學(xué)習(xí)框架下的直接后果是狀態(tài)-動(dòng)作值函數(shù)Q(s,a)中s的更新過(guò)程無(wú)法短時(shí)間內(nèi)覆蓋到所有的狀態(tài)變量,大幅降低智能體的在線學(xué)習(xí)效率,甚至?xí)?dǎo)致學(xué)習(xí)結(jié)果失敗。為此,提出一種批量式Q值更新的放頂煤動(dòng)態(tài)決策算法,實(shí)現(xiàn)對(duì)頂煤賦存狀態(tài)更為精細(xì)變化的學(xué)習(xí),提升智能體狀態(tài)-動(dòng)作值函數(shù)Q(s,a)的學(xué)習(xí)能力,確保智能體的決策模型快速收斂到最優(yōu)值。

若存在前一時(shí)刻采樣狀態(tài)si及當(dāng)前采樣狀態(tài)sj,且前后狀態(tài)下所執(zhí)行動(dòng)作一致,即π(sj)=π(si),則設(shè)精細(xì)化變化的離散狀態(tài)空間{si,…,sl,…,sj},對(duì)應(yīng)的瞬時(shí)獎(jiǎng)賞值{R(si,π(si)),…,R(sl,π(sl)),…,R(sj,π(sj))}。采用等差值劃分的方式對(duì)未采樣狀態(tài)sl所對(duì)應(yīng)瞬時(shí)獎(jiǎng)賞值R(sl,π(sl))進(jìn)行估計(jì),如式(9)所示:

(9)

式中:|sj-|si為采樣間隔過(guò)程中的離散狀態(tài)變化量。

已知,前后采樣狀態(tài)si、sj,對(duì)于任意l∈[i,j),以sj作為后續(xù)轉(zhuǎn)移狀態(tài)s′,且π(sl)=π(sj)=π(si),對(duì)精細(xì)化變化的離散狀態(tài)空間sl∈{si,…,sj-1}狀態(tài)-動(dòng)作值函數(shù)Q(sl,π(sl))進(jìn)行批量式更新,如式(10)所示:

(10)

2.1.2 批量式Q-Learning算法收斂性分析

在批量式Q-learning算法中,狀態(tài)空間為SD={s1,s2,…,sD},對(duì)任意i∈{1,2,…,D},狀態(tài)變量取值si=i;R(si,π(si))∈為獎(jiǎng)賞值。對(duì)于狀態(tài)變量si∈SD,sl∈SD,sj∈SD,j>i,l∈[i,j),則sj>sl>si,且有R(sj,π(sj))>R(sl,π(sl))>R(si,π(si)),給出如下定義:

定義1:狀態(tài)變量的單調(diào)性:

1)單調(diào)增:狀態(tài)轉(zhuǎn)移過(guò)程si→…→sl→…→sj;

2)單調(diào)減:狀態(tài)轉(zhuǎn)移過(guò)程sj→…→sl→…→si。

定義2:獎(jiǎng)賞值的單調(diào)性:

1)單調(diào)增:狀態(tài)變量滿足單調(diào)增,獎(jiǎng)賞值變化過(guò)程R(si,π(si))→…→R(sl,π(sl))→…→R(sj,π(sj));

2)單調(diào)減:狀態(tài)變量滿足單調(diào)減,獎(jiǎng)賞值變化過(guò)程R(sj,π(sj))→…→R(sl,π(sl))→…→R(si,π(si))。

定義3:?jiǎn)握{(diào)馬爾可夫過(guò)程:

1)單調(diào)增:狀態(tài)轉(zhuǎn)移過(guò)程為si至sj,則狀態(tài)變量滿足單調(diào)增;

2)單調(diào)減:狀態(tài)轉(zhuǎn)移過(guò)程為sj至si,則狀態(tài)變量滿足單調(diào)減。

定義4:狀態(tài)跳變:

1)單調(diào)增:已觀測(cè)前后狀態(tài)si、sj,滿足單調(diào)增馬爾可夫過(guò)程,且j-i>1,則存在若干未觀測(cè)中間轉(zhuǎn)移狀態(tài)sl,存在狀態(tài)轉(zhuǎn)移過(guò)程si→…→sl→…→sj;

2)單調(diào)減:已觀測(cè)前后狀態(tài)sj、si,滿足單調(diào)減馬爾可夫過(guò)程,且j-i>1,則存在若干未觀測(cè)中間轉(zhuǎn)移狀態(tài)sl,存在狀態(tài)轉(zhuǎn)移過(guò)程sj→…→sl→…→si。

批量式Q-learning算法通過(guò)式(10)的迭代方式,經(jīng)過(guò)若干次迭代,動(dòng)作值函數(shù)可收斂到系統(tǒng)的最優(yōu)解。首先給出Q-learning按照式(3)所示的迭代過(guò)程的收斂性引理。

根據(jù)引理1,批量式Q-learning算法的收斂性質(zhì)可由以下定理確定。

定理1:設(shè)在馬爾可夫決策過(guò)程中,定義智能體的狀態(tài)變量si∈SD;動(dòng)作a∈;R∈為瞬時(shí)獎(jiǎng)賞值;智能體執(zhí)行策略為π,對(duì)應(yīng)的狀態(tài)-動(dòng)作值函數(shù)為Qπ(s,a)。決策過(guò)程的狀態(tài)變量和獎(jiǎng)賞值滿足如下條件:①狀態(tài)變量滿足單調(diào)性;②獎(jiǎng)賞值滿足單調(diào)性;③馬爾可夫過(guò)程的狀態(tài)轉(zhuǎn)移滿足單調(diào)性;④已觀測(cè)到的相鄰狀態(tài)變量間存在狀態(tài)跳變;⑤若執(zhí)行策略滿足π(sj)=π(sl),狀態(tài)變量si和sj對(duì)應(yīng)的獎(jiǎng)賞值存在正比關(guān)系:R(sj,π(sj))-R(si,π(si))=k(sj-si),k為常數(shù),且k>0。

下文針對(duì)上述單調(diào)性定義中的單調(diào)增現(xiàn)象,對(duì)批量式Q-Learning算法的收斂性進(jìn)行證明。

2)R(s,a)近似性證明。由條件(5)可知,精細(xì)化變化離散狀態(tài)空間{si,…,sl,…,sj}中,瞬時(shí)獎(jiǎng)賞值變化量正比于狀態(tài)變化量,滿足一次函數(shù)關(guān)系,且比例系數(shù)k可表示為:

(11)

對(duì)于任意l∈[i,j),批量式Q-learning算法中狀態(tài)sl的估計(jì)獎(jiǎng)賞值R(sl,π(sl))batch如下:

R(sl,π(sl))batch=k×sl+R(si,π(si))-k×si

(12)

式中,R(si,π(si))-k×si表示一次函數(shù)中常數(shù)項(xiàng)。

將式(11)代入式(12),可得如下形式,

(13)

在不改變連續(xù)動(dòng)作,即滿足π(sj)=π(si)=π(sl)的條件下,狀態(tài)sl的估計(jì)獎(jiǎng)賞值R(sl,π(sl))batch與未獲取的真實(shí)獎(jiǎng)賞值R(sl,π(sl))true滿足以下關(guān)系,

R(sl,π(sl))batch≈R(sl,π(sl))true

(14)

結(jié)合批量式Q-learning算法目標(biāo)函數(shù)式(10),Q-learning算法目標(biāo)函數(shù)式(3),可得

(15)

因此,批量式Q-learning所得到的動(dòng)作值函數(shù)與式(3)的結(jié)論近似。

2.2 基于批量式Q-learning的群組放頂煤智能決策算法

結(jié)合目標(biāo)函數(shù)式,給出放頂煤開采環(huán)境下,基于批量式Q值更新的放頂煤智能決策算法偽代碼:

3 智能群組放煤三維仿真試驗(yàn)及結(jié)果分析

智能群組放煤需要放煤智能體把握工作面動(dòng)態(tài)數(shù)據(jù),來(lái)實(shí)現(xiàn)群組放煤過(guò)程的動(dòng)態(tài)決策。由于煤矸識(shí)別這一關(guān)鍵技術(shù)尚未取得突破性進(jìn)展,依現(xiàn)有技術(shù)和裝備,難以對(duì)現(xiàn)場(chǎng)動(dòng)態(tài)數(shù)據(jù)精準(zhǔn)獲取,因此無(wú)法通過(guò)工業(yè)性試驗(yàn)對(duì)智能群組放煤方法進(jìn)行驗(yàn)證。以同煤塔山煤礦8222綜放工作面煤層條件為基礎(chǔ),結(jié)合液壓支架主要技術(shù)參數(shù),建立單輪群組放煤過(guò)程數(shù)值模擬模型,對(duì)智能群組放煤方法展開仿真試驗(yàn)。塔山煤礦8222綜放工作面煤層平均煤厚15.76 m,采高3.8 m,放煤高度11.96 m,采放比1∶3.14。

3.1 綜放工作面智能放煤三維仿真試驗(yàn)平臺(tái)

結(jié)合Yade開源代碼,在ubuntu系統(tǒng)上開發(fā)了一種基于離散元方法的放頂煤過(guò)程仿真平臺(tái),對(duì)智能群組放煤控制方法展開研究,建立放頂煤模型如圖1所示。

圖1 三維放頂煤模型Fig.1 Three-dimensional top-coal caving model

放頂煤模型中包括5個(gè)頂煤放出口,液壓支架主要技術(shù)參數(shù)如下:wsp為工作面寬度,6.8 m;why為液壓支架寬度,1.5 m;hhy為液壓支架高度,3.8 m;lsh為掩護(hù)梁長(zhǎng)度,3 m;lta為尾梁長(zhǎng)度,2 m;θs為頂梁與掩護(hù)梁之間銳角夾角,15°;θu為尾梁上擺與掩護(hù)梁銳角夾角,15°;θl為尾梁下擺與掩護(hù)梁銳角夾角,45°。

由煤炭、矸石2種材料作為頂板上方散體頂煤的構(gòu)成成分,設(shè)定在仿真環(huán)境中煤炭、矸石顆粒在自身重力作用下達(dá)到密實(shí)狀態(tài),離散元顆粒主要力學(xué)參數(shù)見(jiàn)表1。

表1 離散元顆粒主要力學(xué)參數(shù)

3.2 智能群組放煤仿真試驗(yàn)

對(duì)于單個(gè)離散元粒子,煤炭粒子取獎(jiǎng)賞值為3,矸石粒子取獎(jiǎng)賞值為-7;對(duì)于放出體中煤、矸含量占比權(quán)重λm=0.7、λn=0.3,即煤、矸流中瞬時(shí)煤含量等于70%存在臨界放煤收益0。設(shè)定學(xué)習(xí)率α=0.1,折扣因子γ=0.9,探索率ε=0.8。結(jié)合上述參數(shù),在給定放頂煤模型下,對(duì)群組智能放煤算法展開訓(xùn)練。

3.2.1 試驗(yàn)過(guò)程

在Linux操作系統(tǒng)上,結(jié)合YADE離散元開源環(huán)境進(jìn)行試驗(yàn),并采用多核CPU并行加速,具體試驗(yàn)環(huán)境如下:

操作系統(tǒng)Ubuntu18.04YADE版本2020.01a語(yǔ)言PythonCPUIntel Core i7-7700k內(nèi)核數(shù)8RAM32 G

在訓(xùn)練過(guò)程中,由于放頂煤動(dòng)作受行為策略影響,存在一定隨機(jī)性,進(jìn)而會(huì)在連續(xù)的放頂煤過(guò)程中形成不同的連續(xù)變化的頂煤賦存狀態(tài),因此,在訓(xùn)練過(guò)程中將會(huì)形成不同的馬爾可夫決策鏈。智能體對(duì)決策鏈中各頂煤賦存狀態(tài)與決策動(dòng)作對(duì)進(jìn)行逐一學(xué)習(xí),直至Q(s,a)完全收斂,結(jié)束訓(xùn)練。取煤含量每5%變化作為一種煤層狀態(tài),學(xué)習(xí)速率如圖2所示。

圖2 智能體學(xué)習(xí)速率對(duì)比Fig.2 Agent learning rate comparison

受煤層條件影響,在放煤初期,放出體以純煤為主,放煤狀態(tài)較單一,因此智能體獲得的經(jīng)驗(yàn)與知識(shí)較少;隨著放煤過(guò)程進(jìn)行,直接頂逐漸破碎,放出體中開始出現(xiàn)矸石,放煤口上方逐漸出現(xiàn)混矸、夾矸等頂煤賦存狀態(tài),智能體對(duì)不同賦存狀態(tài)下的放煤決策動(dòng)作進(jìn)行學(xué)習(xí),放煤知識(shí)與經(jīng)驗(yàn)逐步積累增多,狀態(tài)空間覆蓋率出現(xiàn)跳躍式增長(zhǎng)。經(jīng)對(duì)實(shí)驗(yàn)過(guò)程觀察記錄分析,整塊煤體放落時(shí)長(zhǎng)受限于自身力學(xué)參數(shù)模型,仿真環(huán)境中散體頂煤完全垮落時(shí)長(zhǎng)多接近但不超1 000 s,因此,在該訓(xùn)練模型中預(yù)設(shè)訓(xùn)練時(shí)長(zhǎng)為1 000 s/round。

圖2a共進(jìn)行5輪學(xué)習(xí),每輪Q值更新次數(shù)為100次。提出的批量式Q值更新算法在第2輪學(xué)習(xí)結(jié)束完成首次對(duì)全狀態(tài)空間的學(xué)習(xí),而Q-learning算法首次完成全狀態(tài)空間學(xué)習(xí)在第4輪,采用批量式Q-learning算法使智能體對(duì)全狀態(tài)空間的探索時(shí)間縮短了50%。

圖2b以兩種算法最終收斂Q值為比對(duì)目標(biāo),分別對(duì)每輪訓(xùn)練結(jié)束后Q值進(jìn)行收斂度對(duì)比。本文提出的批量式Q值更新算法在第14輪后完全收斂,Q-learning算法在16輪后完全收斂,批量式Q值更新算法提前兩輪完成收斂,訓(xùn)練效率提高12.5%;批量式Q值更新算法收斂率普遍高于Q-learning算法,至Q值完全收斂,單輪訓(xùn)練平均收斂率為93.21%,Q-learning算法單輪訓(xùn)練平均收斂率為92.91%,批量式Q值更新算法單輪訓(xùn)練平均收斂率較Q-learning算法提高0.3%。

由上述分析可知,通過(guò)對(duì)目標(biāo)函數(shù)改進(jìn)提出的批量式Q值更新算法,大幅提高了智能體學(xué)習(xí)效率,加速了智能體在線學(xué)習(xí)過(guò)程,從而減少了智能體因?qū)W習(xí)不充分而造成無(wú)法決策或決策失誤所導(dǎo)致的資源損失與浪費(fèi)。智能體依訓(xùn)練結(jié)果對(duì)放煤過(guò)程進(jìn)行測(cè)試,測(cè)試結(jié)果如圖3所示。

圖3 放頂煤過(guò)程仿真Fig.3 Simulation of top-coal caving process

引入采出率Wc、含矸率ρ、全局獎(jiǎng)賞值RA對(duì)放煤總體效益進(jìn)行評(píng)估,計(jì)算方式如下:

(16)

式中:QC為頂煤放出體中煤顆粒個(gè)數(shù);QD為放煤區(qū)間內(nèi)純煤顆粒個(gè)數(shù)。

式中:QG為頂煤放出體中矸石顆粒個(gè)數(shù);QA為放出體中全部顆粒個(gè)數(shù)。

RA=QCRm-QGRn

式中:Rm為回收一個(gè)煤顆粒,智能體得到的獎(jiǎng)賞值;Rn為回收一個(gè)矸石顆粒,智能體得到的懲罰值;QG為頂煤放出體中矸石顆粒個(gè)數(shù)。

3.2.2 試驗(yàn)結(jié)果分析

將提出的智能群組放煤方法與傳統(tǒng)以“見(jiàn)矸關(guān)窗”為準(zhǔn)則的單放煤口連續(xù)放煤、“大中小”間隔放煤等放煤方式進(jìn)行放煤結(jié)果對(duì)比,見(jiàn)表2。

表2 放頂煤仿真結(jié)果對(duì)比

其中,“大中小”間隔放煤方式對(duì)于兩端1號(hào)及5號(hào)放煤口采用優(yōu)先“大”放,然后對(duì)中部3號(hào)放煤口采用“中”放,最后對(duì)2號(hào)及4號(hào)放煤口采用“小”放?!按笾行 遍g隔放煤旨在模擬研究分段大間隔放煤方式對(duì)放頂煤開采效益的影響。

由表3可知,智能群組放煤頂煤采出率為96.65%,相對(duì)于單放煤口連續(xù)放煤提高6.57%,放煤總體收益提高17.17%;相對(duì)于“大中小”間隔放煤提高4.36%,放煤總體收益提高3.51%?!按笾行 遍g隔放煤頂煤采出率為92.29%,相對(duì)于單放煤口連續(xù)放煤提高2.21%,放煤總體收益提高13.20%。

在單放煤口放煤過(guò)程中,當(dāng)前放煤口狀態(tài)易受臨架放煤結(jié)果影響,如圖4所示。因此,若嚴(yán)格按照“見(jiàn)矸關(guān)窗”準(zhǔn)則對(duì)放煤口進(jìn)行控制,會(huì)導(dǎo)致放煤收益偏低。以待檢測(cè)賦存狀態(tài)空間達(dá)到臨界放煤收益,即矸石含量超過(guò)30%作為常規(guī)放煤方式的臨界控制條件,對(duì)放煤口進(jìn)行控制,致使放煤結(jié)果中出煤含矸率不為0。

圖4 放頂煤過(guò)程中的竄矸現(xiàn)象Fig.4 Gangue channeling phenomenon in top-coal caving process

根據(jù)放頂煤原理,通過(guò)合理放煤工藝,控制煤巖分界面形態(tài)與放煤口保持相對(duì)平行,盡可能地?cái)U(kuò)大二者相切范圍能夠最大限度地將頂煤放出。對(duì)于單放煤口連續(xù)放煤方式,隨著放煤過(guò)程進(jìn)行,如圖5a所示,受混矸、竄矸等現(xiàn)象嚴(yán)重影響,煤巖分界面曲線直線度遭到嚴(yán)重破壞,甚至出現(xiàn)分界面曲線垂直或超過(guò)垂直于放煤口的現(xiàn)象,放煤口控制難度加大,導(dǎo)致放煤收益低。對(duì)于智能群組放煤方式,如圖5c所示,煤巖分界面曲線直線度良好,煤層賦存狀態(tài)空間平穩(wěn)變化,混矸、竄矸等現(xiàn)象較少,分界面曲線與放煤口幾近平行,放煤口控制難度低,放煤總體收益高。

單放煤口“大中小”間隔放煤方式,如圖5b所示,隨間隔距離增長(zhǎng),兩放煤口之間相互影響減少,分界面曲線坡度降低,可放出區(qū)域逐步擴(kuò)大,進(jìn)而頂煤采出率得以提高。但大間隔放煤方式最終使煤巖分界面呈現(xiàn)出“峰谷式”變化,在兩端及中部放煤口仍會(huì)形成放出漏斗,相鄰放出漏斗間形成三角煤區(qū)域,該區(qū)域頂煤無(wú)法有效采出,因此頂煤采出率相對(duì)較低?,F(xiàn)階段,塔山礦8222工作面采用“大中小微”分段間隔四級(jí)一次放煤工藝,旨在降低分段間隔中部放煤口上方煤矸分界面曲線弧度,保持放煤口正上方分界面曲線與放煤口相對(duì)平行,擴(kuò)大可放出區(qū)域,提高頂煤采出率。

圖5 煤巖分界面曲線變化過(guò)程Fig.5 Change process of coal-rock interface curve

智能群組放煤通過(guò)對(duì)放煤口的智能決策控制,收獲最大放煤收益,且頂煤采出率最高?!按笾行 遍g隔放煤方式以“見(jiàn)矸關(guān)窗”為控制準(zhǔn)則,其放煤方式較為保守,故頂板上方殘存煤炭粒子偏多。2種放煤方式下頂板上方粒子分布如圖6所示。

圖6 頂板上方粒子分布Fig.6 Particle distribution above hydraulic support

智能群組放煤在直接頂破碎的情況下,將含有部分矸石的頂煤適量放出,在提高頂煤采出率的同時(shí)導(dǎo)致含矸率小幅升高,通過(guò)對(duì)采出率和含矸率的合理平衡,使放頂煤總體收益得到提高。

4 結(jié) 論

1)建立了基于離散元方法的放頂煤過(guò)程三維仿真模型,實(shí)現(xiàn)了對(duì)塔山礦8222工作面放頂煤過(guò)程的數(shù)值模擬仿真,為后續(xù)放頂煤開采理論的研究與發(fā)展提供仿真實(shí)驗(yàn)平臺(tái)。

2)將液壓支架群看作是一個(gè)需要協(xié)同控制的多智能體,在多智能體框架下,提出基于批量式強(qiáng)化學(xué)習(xí)的綜放工作面群組放煤智能決策。依據(jù)該決策算法,放煤智能體能夠根據(jù)頂煤動(dòng)態(tài)賦存對(duì)放煤口動(dòng)作做出在線調(diào)整,實(shí)現(xiàn)放頂煤收益最大化;并對(duì)智能體在線學(xué)習(xí)過(guò)程中“狀態(tài)跳變”現(xiàn)象所帶來(lái)的負(fù)面影響進(jìn)行削減,使智能體的在線學(xué)習(xí)效率得到進(jìn)一步提高。

3)仿真試驗(yàn)結(jié)果表明,塔山礦8222工作面采用大間隔分段放煤方式,顯著優(yōu)于單放煤口連續(xù)放煤方式。分段大間隔放煤方式通過(guò)維持煤巖分界面曲線平穩(wěn)變化,始終保持當(dāng)前放煤口與正上方煤巖分界面曲線相切,顯著擴(kuò)大了可放出區(qū)域,提高了頂煤采出率。

4)結(jié)合人工智能技術(shù)及方法,研究建立放出體狀態(tài)、煤層賦存狀態(tài)、煤巖分界面特征等主要環(huán)境信息與放煤口控制之間的匹配關(guān)系,實(shí)現(xiàn)對(duì)放煤口動(dòng)作的合理預(yù)測(cè)控制,對(duì)于提高頂煤采出率、降低出煤含矸率具有重要意義。

5)在長(zhǎng)期的實(shí)踐積累中,放煤操作人員積累了豐富的放煤經(jīng)驗(yàn),但現(xiàn)階段的科學(xué)研究過(guò)程中并未將這些經(jīng)驗(yàn)很好地提煉、吸納。在后續(xù)研究中,課題組將會(huì)對(duì)相關(guān)放煤經(jīng)驗(yàn)進(jìn)行總結(jié)、規(guī)范,構(gòu)建放煤知識(shí)經(jīng)驗(yàn)庫(kù),并將經(jīng)驗(yàn)庫(kù)作為先驗(yàn)知識(shí),指導(dǎo)放煤智能體的學(xué)習(xí)過(guò)程。

猜你喜歡
煤口放頂批量
特厚煤層綜放開采傾向大比例試驗(yàn)平臺(tái)研制與應(yīng)用
批量提交在配置分發(fā)中的應(yīng)用
300 MW CFB 鍋爐燃用高水分洗混煤堵煤對(duì)策
近距離煤層合并綜放開采放煤工藝優(yōu)化研究
綜放工作面多放煤口協(xié)同放煤方法
急傾斜特厚煤層水平分層綜采放頂煤工作面旋轉(zhuǎn)開采理論分析與實(shí)踐
放頂煤液壓支架尾梁裝置設(shè)計(jì)改進(jìn)
淺議高校網(wǎng)銀批量代發(fā)
基于AUTOIT3和VBA的POWERPOINT操作題自動(dòng)批量批改
考慮價(jià)差和再制造率的制造/再制造混合系統(tǒng)生產(chǎn)批量研究
鱼台县| 耿马| 郓城县| 茶陵县| 抚远县| 敖汉旗| 惠州市| 万全县| 伊川县| 长阳| 清流县| 海丰县| 江孜县| 桓仁| 广平县| 南昌市| 华阴市| 连南| 旬阳县| 江北区| 内黄县| 含山县| 榆社县| 达州市| 潍坊市| 汾阳市| 嵩明县| 南靖县| 乌拉特后旗| 乐东| 绥宁县| 苏尼特左旗| 宝鸡市| 明水县| 泰宁县| 固镇县| 广水市| 鹤峰县| 芜湖县| 海林市| 特克斯县|