李慶元 ,楊藝 ,李化敏 ,費(fèi)樹(shù)岷
(1.河南理工大學(xué) 電氣工程與自動(dòng)化學(xué)院, 河南 焦作 454000;2.河南理工大學(xué) 能源科學(xué)與工程學(xué)院, 河南 焦作 454000;3.東南大學(xué) 自動(dòng)化學(xué)院, 江蘇 南京 210096)
我國(guó)厚煤層及特厚煤層儲(chǔ)量豐富,所占比例超過(guò)40%。綜合機(jī)械化放頂煤開(kāi)采(簡(jiǎn)稱(chēng)綜放開(kāi)采)具有開(kāi)采效率高、適應(yīng)性強(qiáng)等顯著優(yōu)勢(shì),目前已成為厚煤層及特厚煤層的主要開(kāi)采方式[1]。在綜放開(kāi)采過(guò)程中,頂煤采出率低、出煤含矸率高是普遍存在的難題[2]。目前,綜放開(kāi)采大多采用人工單架放煤。放煤操作人員主要依據(jù)“見(jiàn)矸關(guān)窗”原則,通過(guò)觀(guān)察頂煤放落過(guò)程中放出體的狀態(tài)判斷是否應(yīng)當(dāng)關(guān)閉放煤口。這種單架放煤方式無(wú)法把握工作面全局信息,且放煤操作人員的經(jīng)驗(yàn)參差不齊,不可避免地導(dǎo)致放煤過(guò)程中出現(xiàn)欠放、過(guò)放等狀況[3]。而在單架次放煤過(guò)程中,僅放煤口上方一定范圍內(nèi)的頂煤發(fā)生移動(dòng),易形成放出漏斗。若2個(gè)放出漏斗區(qū)相鄰,則會(huì)形成三角煤區(qū)域,導(dǎo)致該區(qū)域頂煤無(wú)法放出,造成極大的資源浪費(fèi)[4-5]。
從工作面全局信息考慮,將單一放煤口提升為多放煤口群組放煤,并依靠先進(jìn)的信息技術(shù)實(shí)現(xiàn)智能放煤,可以有效避免人為因素對(duì)放煤效益的影響,減少頂煤漏斗區(qū),提高頂煤采出率。同時(shí),多放煤口群組智能(自動(dòng)化)放煤有利于提高煤巖分界線(xiàn)的直線(xiàn)度,降低放煤口控制難度和出煤含矸率。因此,在放煤過(guò)程中,如何通過(guò)現(xiàn)代信息技術(shù),沿著煤巖分界面最大程度地將頂煤放出,提升頂煤采出率,降低含矸率,是目前綜放開(kāi)采的研究熱點(diǎn)[6-8]。
目前,國(guó)內(nèi)已經(jīng)就自動(dòng)化、智能化的放煤方式展開(kāi)了初步的試驗(yàn)探索。2006年,兗礦集團(tuán)有限公司將綜放開(kāi)采技術(shù)應(yīng)用到澳大利亞澳思達(dá)礦并探索了基于時(shí)間控制與人工干預(yù)相協(xié)調(diào)的自動(dòng)化放煤方式[9-11]。2014年,黃陵礦業(yè)集團(tuán)有限公司一號(hào)煤礦1001工作面實(shí)現(xiàn)了智能化無(wú)人開(kāi)采[12-13]。文獻(xiàn)[14-15]研究了一種基于記憶放煤時(shí)序控制的智能放煤模式,將人工放煤參數(shù)作為記憶樣本,通過(guò)基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)算法,針對(duì)不同情況下的放煤參數(shù)自動(dòng)調(diào)整最佳放煤時(shí)間,以達(dá)到時(shí)序放煤控制的目的。文獻(xiàn)[16]結(jié)合果蠅優(yōu)化算法與徑向基函數(shù)(Radial Basis Function,RBF)來(lái)預(yù)測(cè)放煤時(shí)間,使得放煤時(shí)間隨煤層賦存條件自動(dòng)調(diào)整。文獻(xiàn)[17]通過(guò)對(duì)多傳感器采集信號(hào)進(jìn)行特征提取,以放煤特征范例庫(kù)作為經(jīng)驗(yàn)指導(dǎo),對(duì)比二者相似度作出預(yù)警或控制,提出了以傳感器感知控制為主的自動(dòng)化記憶放煤控制方法。上述方法對(duì)綜放工作面放頂煤智能控制理論的發(fā)展起到了積極的促進(jìn)作用,但煤矸智能識(shí)別技術(shù)尚未取得突破進(jìn)展,因此,放頂煤智能控制理論的發(fā)展在一定程度上受到了限制。
在放煤過(guò)程中,通過(guò)結(jié)合頂煤放出體實(shí)時(shí)狀態(tài)特征與頂煤動(dòng)態(tài)賦存特征,對(duì)放頂煤控制動(dòng)作進(jìn)行在線(xiàn)調(diào)整,設(shè)計(jì)基于智能決策機(jī)制的智能化放煤控制系統(tǒng),使煤矸在頂煤放出過(guò)程中最大程度地分離,能有效提高頂煤采出率,降低出煤含矸率[18]。同時(shí),通過(guò)對(duì)放煤口群組放煤的協(xié)同控制,將區(qū)域范圍內(nèi)的頂煤同時(shí)放出,減少頂煤相鄰放出漏斗間的殘留三角煤損失,可以提高頂煤采出率。
在上述參考文獻(xiàn)的基礎(chǔ)上,本文從智能決策控制角度出發(fā),以提高頂煤采出率、降低出煤含矸率為目的,以合理調(diào)節(jié)群組放煤口控制動(dòng)作為手段,提出了一種基于Q-learning模型的智能化放頂煤控制策略。針對(duì)多變量多約束條件下的復(fù)雜放煤工藝,生成群組放煤過(guò)程中各放煤口開(kāi)閉實(shí)時(shí)控制策略,可優(yōu)化多放煤口群組放煤過(guò)程,有效減少放煤過(guò)程中形成的放出漏斗,進(jìn)一步提高放煤質(zhì)量。
放頂煤過(guò)程中,每個(gè)放頂煤支架可以看作是一個(gè)智能體,而放煤口的決策過(guò)程則是一個(gè)非線(xiàn)性動(dòng)態(tài)系統(tǒng)的多級(jí)決策過(guò)程,決策結(jié)果受當(dāng)前頂煤放出體狀態(tài)與頂煤賦存狀態(tài)的共同影響。傳統(tǒng)人工控制或自動(dòng)化控制的放煤方式,其決策機(jī)制往往取決于頂煤放出體瞬時(shí)狀態(tài),不能很好地把握頂煤賦存狀態(tài),因此,無(wú)法應(yīng)對(duì)放頂煤過(guò)程中遇到的混矸、夾矸等現(xiàn)象。
將基于動(dòng)態(tài)規(guī)劃思想的強(qiáng)化學(xué)習(xí)與放頂煤過(guò)程相結(jié)合,把一個(gè)完整的放煤過(guò)程離散成若干個(gè)相互關(guān)聯(lián)的步,每一步關(guān)聯(lián)前后2個(gè)狀態(tài)。每個(gè)狀態(tài)下的決策結(jié)果都將對(duì)整個(gè)放頂煤過(guò)程的總體收益產(chǎn)生影響,系統(tǒng)決策的依據(jù)不再僅僅來(lái)源于系統(tǒng)當(dāng)前時(shí)刻的狀態(tài)。強(qiáng)化學(xué)習(xí)通過(guò)把握工作面全局狀態(tài)信息,學(xué)習(xí)環(huán)境狀態(tài)與執(zhí)行動(dòng)作之間的映射關(guān)系,使執(zhí)行動(dòng)作從環(huán)境中收獲最大的累積獎(jiǎng)賞值。基于強(qiáng)化學(xué)習(xí)的智能放頂煤動(dòng)態(tài)調(diào)節(jié)機(jī)制如圖1所示。
圖1 基于強(qiáng)化學(xué)習(xí)的智能放頂煤動(dòng)態(tài)調(diào)節(jié)機(jī)制
在放頂煤過(guò)程中,放出體及頂煤賦存狀態(tài)用s表示,且s∈S,S為狀態(tài)空間。放煤口控制動(dòng)作用a表示,且a∈An,A為動(dòng)作空間,n為放煤口數(shù)量。根據(jù)系統(tǒng)當(dāng)前狀態(tài)s與放煤口動(dòng)作空間A,結(jié)合獎(jiǎng)賞函數(shù)可得智能體單步獎(jiǎng)賞值r(s),且r∈R,R為動(dòng)作回報(bào)值空間。放頂煤智能體選擇執(zhí)行最優(yōu)動(dòng)作a,系統(tǒng)收獲最大單步獎(jiǎng)賞值r(s,a),環(huán)境接收該動(dòng)作后系統(tǒng)狀態(tài)從s轉(zhuǎn)移至s′。單步執(zhí)行的放頂煤控制動(dòng)作不僅會(huì)影響到單步獎(jiǎng)賞值,而且會(huì)影響系統(tǒng)下一時(shí)刻的狀態(tài)及最終累積獎(jiǎng)賞。因此,智能放頂煤控制系統(tǒng)在每個(gè)狀態(tài)下都會(huì)選擇能夠?qū)崿F(xiàn)全局最優(yōu)的放頂煤控制動(dòng)作。
Q-learning是一種用于求解馬爾科夫過(guò)程最優(yōu)決策的免模型強(qiáng)化學(xué)習(xí)算法[19-20]。Q-learning算法任務(wù)中,通過(guò)迭代學(xué)習(xí)狀態(tài)-動(dòng)作值函數(shù)Qπ(s,a)的最優(yōu)形式來(lái)求解狀態(tài)s條件下執(zhí)行動(dòng)作a的最優(yōu)策略π。Qπ(s,a)的迭代學(xué)習(xí)機(jī)制為
(1)
式中:k為采樣次數(shù);α為學(xué)習(xí)率,α∈(0,1);γ為折扣因子,γ∈(0,1);a′為狀態(tài)s′下的期望最優(yōu)動(dòng)作。
在保證算法收斂的情況下,為合理增加采樣次數(shù),本文在Qπ(s,a)的學(xué)習(xí)過(guò)程中引入了“探索”與“利用”均衡策略ε-greedy算法,實(shí)現(xiàn)動(dòng)作選擇。算法表達(dá)式為
(2)
式中:ε∈(0,1);|A(s)|為狀態(tài)s條件下可選的動(dòng)作數(shù)量;A*為候選動(dòng)作的最優(yōu)值。
(3)
由式(2)可知,在狀態(tài)s條件下,策略π(a|s)由概率值表示,其中候選動(dòng)作是最優(yōu)動(dòng)作時(shí)a=A*,用于“利用”;而候選動(dòng)作不是已知最優(yōu)動(dòng)作時(shí)a≠A*,用于“探索”;最后依據(jù)π(a|s)的概率最大值選擇動(dòng)作。
根據(jù)式(1)所述的迭代機(jī)制和式(2)所示的策略選擇算法,經(jīng)過(guò)若干次學(xué)習(xí)后,Qπ(s,a)和π(a|s)將同步收斂至最優(yōu)值Qπ*(s,a)和π*(a|s),此時(shí)有
(4)
采用基于Q-learning算法的智能放煤決策,結(jié)合放出體及頂煤賦存狀態(tài)s、獎(jiǎng)賞函數(shù)r(s,a),以最大化期望累積獎(jiǎng)賞Qπ(s,a)為主要目標(biāo),在線(xiàn)調(diào)整最優(yōu)放頂煤控制動(dòng)作A*,可優(yōu)化多放煤口群組協(xié)同放煤過(guò)程,合理平衡頂煤采出率、出煤含矸率的關(guān)系。
在綜放開(kāi)采過(guò)程中,當(dāng)前狀態(tài)下放頂煤的決策過(guò)程只與前一個(gè)狀態(tài)相關(guān),這是典型的馬爾科夫決策過(guò)程(Markov Decision Process,MDP)。根據(jù)Q-learning算法對(duì)放頂煤過(guò)程建立MDP模型,MDP模型可用公式Μ{S;A;R}表示,需要確定3個(gè)核心要素:放煤口的狀態(tài)空間S、動(dòng)作空間A、動(dòng)作回報(bào)值空間R。
(1) 狀態(tài)空間S的物理含義及表示方法。在綜放開(kāi)采放頂煤過(guò)程中,指示放頂煤質(zhì)量的主要參數(shù)為頂煤放出體中的煤矸含量。假設(shè)頂煤放出體單位體積中煤炭和矸石的數(shù)量分別為m和n,則通過(guò)放煤口的瞬時(shí)煤含量ω可表示為
(5)
放煤口的狀態(tài)s可用ω表示。通過(guò)煤矸含量表示系統(tǒng)狀態(tài),系統(tǒng)整體狀態(tài)空間可表示為S={si}={ωi},i∈{1,2,…,N},N為離散狀態(tài)數(shù)量。
(2) 放煤口動(dòng)作空間A的確立。根據(jù)智能體所處的環(huán)境和狀態(tài),從可選動(dòng)作集合A中選擇具有最大Q值的動(dòng)作去執(zhí)行。在綜放現(xiàn)場(chǎng)放頂煤決策過(guò)程中,依據(jù)當(dāng)前狀態(tài)和控制策略決定放煤口應(yīng)該打開(kāi)還是關(guān)閉。為此,本文指定放煤口動(dòng)作空間為
A={a1,a2}
(6)
式中:a1表示放煤口需要執(zhí)行打開(kāi)動(dòng)作;a2表示放煤口需要執(zhí)行關(guān)閉動(dòng)作。
(3) 動(dòng)作回報(bào)值空間R的量化方法。頂煤無(wú)法有效采出會(huì)造成巨大的資源浪費(fèi),出煤含矸率高會(huì)大幅提高運(yùn)輸成本和后期處理費(fèi)用,因此,在智能放煤系給統(tǒng)中必須合理設(shè)計(jì)獎(jiǎng)賞函數(shù)。結(jié)合某一時(shí)刻頂煤瞬時(shí)放出體單位體積中煤、矸數(shù)量mi,ni,獎(jiǎng)賞函數(shù)設(shè)定為
(7)
式中Rm,Rn分別為頂煤放落過(guò)程中同等單位體積下的煤、矸獎(jiǎng)賞值,為標(biāo)量正值。
從式(7)可看出,在某一狀態(tài)si下,煤含量ωi越大,執(zhí)行放煤口打開(kāi)動(dòng)作獲得的獎(jiǎng)賞越多。隨著頂煤放出體中矸石含量不斷增加,若打開(kāi)放煤口獲得負(fù)獎(jiǎng)賞,會(huì)導(dǎo)致期望累積獎(jiǎng)賞不斷減少,執(zhí)行放煤口關(guān)閉動(dòng)作更優(yōu)。
結(jié)合上述參數(shù),通過(guò)頂煤放出體中煤矸含量獲取當(dāng)前狀態(tài)si,由決策算法給出決策動(dòng)作Ai,動(dòng)作執(zhí)行后系統(tǒng)收獲瞬時(shí)獎(jiǎng)賞值ri,同時(shí)系統(tǒng)狀態(tài)轉(zhuǎn)移至si+1。上述過(guò)程不斷循環(huán),直至放頂煤過(guò)程結(jié)束。MDP模型下放頂煤過(guò)程的狀態(tài)轉(zhuǎn)移過(guò)程如圖2所示。
圖2 MDP模型下?tīng)顟B(tài)轉(zhuǎn)移過(guò)程
算法步驟如下:
(1) 初始化Q(s,a),?s∈S,?a∈An,給定參數(shù)α、γ。
(2) 生成初始隨機(jī)策略π(s,a)。
(3) 對(duì)全部放頂煤訓(xùn)練過(guò)程重復(fù)執(zhí)行下列操作:
當(dāng)所有的Q(s,a)收斂時(shí),跳出全部放頂煤訓(xùn)練過(guò)程。
實(shí)際的綜放開(kāi)采工作面環(huán)境復(fù)雜,獲取現(xiàn)場(chǎng)數(shù)據(jù)十分困難。智能放頂煤動(dòng)態(tài)決策算法需要針對(duì)大量煤層數(shù)據(jù)進(jìn)行訓(xùn)練以提高泛化能力。為滿(mǎn)足需求,在DICE開(kāi)源代碼[21]基礎(chǔ)上,對(duì)基于離散元方法的放頂煤過(guò)程進(jìn)行Matlab仿真。仿真平臺(tái)包括5個(gè)頂煤放出口,由煤炭、矸石、巖石3種材料作為頂板的構(gòu)成成分,放煤動(dòng)作包含開(kāi)閉2種離散動(dòng)作。在強(qiáng)化學(xué)習(xí)框架下,基于離散元的放煤過(guò)程的Matlab仿真結(jié)果如圖3所示,x軸指示5個(gè)放煤口的寬度,每個(gè)放煤口寬度為1 m,y軸指示頂煤厚度。
(a) 初始時(shí)刻
(b) 放煤過(guò)程
(c) 放煤結(jié)束
設(shè)定在仿真環(huán)境中煤炭、矸石、巖石顆粒在自身重力作用下達(dá)到密實(shí)狀態(tài),模擬初始條件:顆粒初始速度為0,只受重力加速度g的作用,墻體速度與加速度為0。此外,顆粒四周及墻體作為仿真平臺(tái)的外邊界,其速度和加速度固定為0。模型材料顆粒力學(xué)參數(shù)見(jiàn)表1。
表1 模型材料顆粒力學(xué)參數(shù)
設(shè)置頂煤下部為煤炭,中部為基本頂,上部為直接頂,各分層粒子數(shù)總體占比見(jiàn)表2。
表2 各分層粒子數(shù)總體占比
訓(xùn)練過(guò)程中,系統(tǒng)狀態(tài)轉(zhuǎn)移應(yīng)盡可能多覆蓋整個(gè)狀態(tài)空間,從而提高算法的普適性。各層粒子分布設(shè)定如圖4(a)所示:煤層中煤炭粒子、矸石粒子比例為1∶1,位置服從隨機(jī)分布;直接頂中煤炭粒子占比為6%,各層分布密度與其到煤巖分界線(xiàn)的距離成反比;基本頂只含有巖石粒子。測(cè)試過(guò)程中,各層的粒子遵循綜放工作面的實(shí)際情況。各層粒子分布設(shè)定如圖4(b)所示:煤層中矸石粒子占比為8%,位置服從隨機(jī)分布;直接頂中煤炭粒子占比為6%,各層分布密度與其到煤巖分界線(xiàn)的距離成反比;基本頂只含有巖石粒子。
對(duì)于單個(gè)離散元粒子,煤炭粒子獎(jiǎng)賞值Rm取為1,矸石粒子獎(jiǎng)賞值Rn取為-3。根據(jù)放煤口煤矸流中煤炭含量,對(duì)放煤口狀態(tài)空間進(jìn)行離散化定義,見(jiàn)表3。
(a) 訓(xùn)練用模擬環(huán)境
(b) 測(cè)試用模擬環(huán)境
表3 放煤口狀態(tài)空間
結(jié)合MDP參數(shù),對(duì)放頂煤動(dòng)態(tài)決策算法展開(kāi)訓(xùn)練。在給定的訓(xùn)練環(huán)境下,至各狀態(tài)所對(duì)應(yīng)的狀態(tài)-動(dòng)作值函數(shù)Q(s,a)收斂時(shí),結(jié)束訓(xùn)練。訓(xùn)練結(jié)束后,隨機(jī)生成4組測(cè)試用模擬環(huán)境,針對(duì)一組5個(gè)放煤口放煤過(guò)程進(jìn)行煤矸分離測(cè)試,測(cè)試結(jié)果如圖5所示。
(a) 第1組
(b) 第2組
(c) 第3組
(d) 第4組
頂煤采出率Wc和含矸率ρ的計(jì)算公式分別為
(8)
(9)
式中:QC為頂煤放出體中煤顆粒個(gè)數(shù);QD為放煤區(qū)間內(nèi)純煤顆粒個(gè)數(shù);QG為頂煤放出體中矸石顆粒個(gè)數(shù);QA為放出體中全部顆粒個(gè)數(shù)。
根據(jù)式(8)和式(9)計(jì)算測(cè)試樣本采出率與含矸率,結(jié)果見(jiàn)表4。
表4 測(cè)試樣本采出率與含矸率
在放煤初期,可以放出純頂煤,放出體完全由煤炭組成。隨著放煤過(guò)程進(jìn)行,直接頂逐漸破碎,頂煤放出體中出現(xiàn)混矸,但此時(shí)仍有一部分頂煤沒(méi)有放出。為減少或避免直接頂矸石混入,目前的主要方法是提前關(guān)閉放煤口,但造成了大量的資源浪費(fèi)。在放出適量的直接頂矸石后再關(guān)閉放煤口,則可以獲得更大的煤炭采出率。
結(jié)合頂板環(huán)境生成過(guò)程,煤炭層中煤炭粒子占比為92%,而表4中采出率普遍高于92%,可知,在上述測(cè)試結(jié)果中,頂板煤炭層粒子已經(jīng)全部采出。通過(guò)本文決策算法平衡采出率與含矸率,根據(jù)頂煤動(dòng)態(tài)賦存特征,在直接頂破碎的情況下將含有部分矸石的頂煤適量放出,會(huì)導(dǎo)致出煤含矸率ρ偏高,但提高了頂煤采出率。
結(jié)合圖5所示放煤測(cè)試結(jié)果可知,放頂煤過(guò)程結(jié)束后,頂板上方的煤炭已無(wú)法進(jìn)行有效開(kāi)采,若繼續(xù)放煤勢(shì)必會(huì)導(dǎo)致矸石含量快速上升。以全局收益最大化為約束的智能放煤決策通過(guò)生成合理的放煤口控制策略,實(shí)現(xiàn)了放頂煤過(guò)程中煤炭與矸石的有效分離。
將智能化放頂煤控制策略與傳統(tǒng)以“見(jiàn)矸關(guān)窗”為準(zhǔn)則的放煤方式進(jìn)行對(duì)比,對(duì)比要素為含矸率、采出率、全局獎(jiǎng)賞值。其中,全局獎(jiǎng)賞值RA用來(lái)衡量放煤總體效益,計(jì)算方式為
RA=QCRm-QGRn
(10)
采用傳統(tǒng)放煤方式時(shí),在現(xiàn)場(chǎng)很難通過(guò)觀(guān)察做到非常精準(zhǔn)的“見(jiàn)矸關(guān)窗”。為了更真實(shí)地模擬現(xiàn)場(chǎng)放煤過(guò)程,結(jié)合Rm和Rn值,在放煤過(guò)程中將放煤口煤矸流中矸石的比例為25%作為終止放煤的依據(jù)。
隨機(jī)生成10組測(cè)試用煤層環(huán)境,在每組環(huán)境下進(jìn)行仿真,2種方式的出煤含矸率與頂煤采出率如圖6所示。
(a) 頂煤采出率
(b) 出煤含矸率
對(duì)比2種放煤方式下頂煤采出率和含矸率,分析得出如下結(jié)論:
(1) 采用智能化控制策略放煤,頂煤平均采出率為91.24%,下部純煤層完全放出。此外,在直接頂破碎的情況下,可以將含有少量直接頂矸石的頂煤適量放出,頂煤采出率得到進(jìn)一步提高。而以“見(jiàn)矸關(guān)窗”方式放煤時(shí),為了避免夾矸、混矸情況,放煤口在頂煤層完全放出前關(guān)閉,放煤方式較為保守,頂煤平均采出率僅為78.81%,造成了部分資源的浪費(fèi)。
(2) 采用智能化控制策略放煤,出煤平均含矸率為6.92%;以“見(jiàn)矸關(guān)窗”方式放煤時(shí),出煤平均含矸率為5.81%。含矸率ρ受QG和QA共同影響。由于直接頂破碎,使得矸石顆粒上升速率ΔQG大于放出體顆粒上升速率ΔQA,含矸率ρ逐漸升高。因此,采用智能化控制策略放煤時(shí)出煤含矸率略高于“見(jiàn)矸關(guān)窗”放煤方式。
根據(jù)放頂煤原理,在提高頂煤采出率的同時(shí)會(huì)造成出煤含矸量增加,單獨(dú)分析采出率或含矸率都存在一定的片面性。為協(xié)調(diào)二者關(guān)系,引入全局獎(jiǎng)賞值RA對(duì)放頂煤質(zhì)量進(jìn)行評(píng)估,全局獎(jiǎng)賞值對(duì)比結(jié)果如圖7所示。
圖7 全局獎(jiǎng)賞值對(duì)比
由圖7可知,智能化控制策略的平均全局獎(jiǎng)賞值為685,“見(jiàn)矸關(guān)窗”方式的平均全局獎(jiǎng)賞值為616??梢?jiàn),應(yīng)用智能化控制策略放煤所帶來(lái)的全局收益更高,頂煤采出率提高約15.8%,放煤效益提高約11.2%。
(1) 針對(duì)傳統(tǒng)綜放工作面放頂煤控制存在的頂煤采出率低、出煤含矸率高等問(wèn)題,提出了基于Q-learning模型的智能化放頂煤控制策略。該控制策略兼顧工作面全局狀態(tài)信息,以最大化放煤效益為主要目標(biāo),通過(guò)學(xué)習(xí)頂煤動(dòng)態(tài)賦存與液壓支架群組放煤控制的映射關(guān)系,合理平衡頂煤采出率與含矸率關(guān)系,顯著減少了混矸、夾矸等現(xiàn)象對(duì)放頂煤開(kāi)采的影響,在提高煤炭資源采出率的同時(shí),提高了放頂煤開(kāi)采效益,減少了煤炭資源的浪費(fèi)。
(2) 仿真和對(duì)比分析結(jié)果表明,智能化控制策略的頂煤平均采出率為91.24%,比傳統(tǒng)“見(jiàn)矸關(guān)窗”的放煤方式提高約15.8%;智能化控制策略的平均全局獎(jiǎng)賞值為685,比傳統(tǒng)放煤方式提高約11.2%。
(3) 本文算法仍然存在出煤含矸率不理想的問(wèn)題。在后續(xù)研究中,將引入多智能體優(yōu)化決策模型和方法,尋求頂煤采出率和出煤含矸率最佳匹配條件下的液壓支架動(dòng)作過(guò)程的全局最優(yōu)。