航天結(jié)構(gòu)件的加工過(guò)程具有多品種、小批量、工藝復(fù)雜多變的特征,每種工件由多道具有先后順序約束的工序完成,是典型的作業(yè)車間調(diào)度問(wèn)題.由于航天結(jié)構(gòu)件緊急插單任務(wù)的擾動(dòng)影響批量生產(chǎn)任務(wù)的生產(chǎn)進(jìn)程,降低生產(chǎn)效率,所以車間調(diào)度方案需要?jiǎng)討B(tài)變更.在傳統(tǒng)作業(yè)車間調(diào)度的基礎(chǔ)上,柔性作業(yè)車間調(diào)度可以面向更加動(dòng)態(tài)、復(fù)雜的車間環(huán)境.根據(jù)柔性作業(yè)車間的特點(diǎn),可以將該類調(diào)度問(wèn)題拆分為資源配置和工序排序兩個(gè)子問(wèn)題,分別利用調(diào)度系統(tǒng)中存在的多類型知識(shí),賦予系統(tǒng)自適應(yīng)響應(yīng)能力.
柔性作業(yè)車間調(diào)度需要利用實(shí)時(shí)性狀態(tài)數(shù)據(jù)來(lái)驅(qū)動(dòng),但目前系統(tǒng)對(duì)于車間資源中離散程度高、關(guān)聯(lián)性差的數(shù)據(jù)無(wú)法很好地利用.在處理大規(guī)模復(fù)雜數(shù)據(jù)方面,知識(shí)圖譜技術(shù)能夠表達(dá)更豐富的語(yǔ)義,對(duì)數(shù)據(jù)進(jìn)行語(yǔ)義信息集成與表示.認(rèn)知制造作為下一代智能制造,利用感知-認(rèn)知系統(tǒng)實(shí)現(xiàn)信息-物理系統(tǒng)的交互.知識(shí)圖譜技術(shù)與認(rèn)知制造的結(jié)合應(yīng)用增強(qiáng)了車間動(dòng)態(tài)調(diào)度策略優(yōu)化與知識(shí)之間的聯(lián)通性,一定程度上提高了決策方案的科學(xué)性.如何利用知識(shí)圖譜提供的調(diào)度知識(shí)實(shí)現(xiàn)動(dòng)態(tài)調(diào)度決策優(yōu)化是值得研究的課題.
近年來(lái),已有眾多學(xué)者針對(duì)動(dòng)態(tài)柔性作業(yè)車間調(diào)度問(wèn)題進(jìn)行研究,主要在魯棒式方法、重調(diào)度法、智能算法等方面展開(kāi).魯棒式方法對(duì)生產(chǎn)擾動(dòng)事件的響應(yīng)速度慢,歷史信息無(wú)法得到重用;重調(diào)度方法可以對(duì)擾動(dòng)事件快速響應(yīng),但無(wú)法很好利用工藝信息之間的關(guān)系;相比之下智能算法更適用于處理作業(yè)車間的動(dòng)態(tài)調(diào)度問(wèn)題.通過(guò)智能算法完成自適應(yīng)車間調(diào)度問(wèn)題的方法有優(yōu)先級(jí)規(guī)則方法、啟發(fā)式算法、遺傳算法(Genetic Algorithm, GA)、進(jìn)化算法、模擬退火、禁忌搜索方法等.在考慮插單任務(wù)的動(dòng)態(tài)調(diào)度研究中,Kundakci等針對(duì)動(dòng)態(tài)作業(yè)車間調(diào)度問(wèn)題中的插單任務(wù)、機(jī)器故障等,引入有效的混合遺傳算法求解此類問(wèn)題的最大完工時(shí)間;Shen等針對(duì)柔性作業(yè)車間調(diào)度的新工件插入和機(jī)床故障等問(wèn)題,提出了基于多目標(biāo)進(jìn)化算法的主動(dòng)-被動(dòng)調(diào)度方法;Wang等提出了一種改進(jìn)的粒子群算法用于工件隨機(jī)到達(dá)的動(dòng)態(tài)柔性作業(yè)車間調(diào)度問(wèn)題的求解.為了實(shí)現(xiàn)多約束下調(diào)度問(wèn)題的多目標(biāo)優(yōu)化,一些研究學(xué)者將調(diào)度過(guò)程進(jìn)行分步驟處理.張潔等提出針對(duì)調(diào)度過(guò)程的任務(wù)分派和任務(wù)排序兩階段,構(gòu)建具有繼承關(guān)系的兩階段蟻群并行搜索算法;周亞勤等提出一種嵌套式蟻群-遺傳混合算法解決關(guān)鍵設(shè)備和人員雙資源約束下的航天結(jié)構(gòu)件柔性作業(yè)車間調(diào)度問(wèn)題;汪浩祥等利用強(qiáng)化學(xué)習(xí)的實(shí)時(shí)性和知識(shí)化制造系統(tǒng)的自適應(yīng)性,將航空發(fā)動(dòng)機(jī)裝配調(diào)度分為分派機(jī)器和工序調(diào)度兩個(gè)階段.現(xiàn)有的調(diào)度規(guī)則大多無(wú)法進(jìn)行自適應(yīng)調(diào)整以應(yīng)對(duì)動(dòng)態(tài)場(chǎng)景,但隨著機(jī)器學(xué)習(xí)的快速發(fā)展,可通過(guò)學(xué)習(xí)生成復(fù)雜調(diào)度策略的強(qiáng)化學(xué)習(xí)方法已經(jīng)產(chǎn)生,能賦予調(diào)度規(guī)則較強(qiáng)的自適應(yīng)和學(xué)習(xí)能力.進(jìn)一步,深度Q網(wǎng)絡(luò)(Deep Q Network, DQN)結(jié)合了具有感知能力的深度學(xué)習(xí)和決策能力的強(qiáng)化學(xué)習(xí),融合了深度神經(jīng)網(wǎng)絡(luò)能夠利用歷史數(shù)據(jù)在線學(xué)習(xí)和強(qiáng)化學(xué)習(xí)從而依據(jù)狀態(tài)靈活選取決策行為的優(yōu)點(diǎn),更適用于柔性作業(yè)車間調(diào)度的決策過(guò)程.Wang等在多智能體強(qiáng)化學(xué)習(xí)環(huán)境中運(yùn)用DQN指導(dǎo)基礎(chǔ)設(shè)施云上多工作流的調(diào)度,分別將最大完工時(shí)間和成本兩個(gè)優(yōu)化目標(biāo)抽象成兩個(gè)智能體.Luo研究了用DQN解決以總延期最小為目標(biāo)的新任務(wù)插入下的動(dòng)態(tài)柔性作業(yè)車間調(diào)度問(wèn)題.He等針對(duì)紡織過(guò)程優(yōu)化問(wèn)題轉(zhuǎn)化為隨機(jī)博弈的新框架,在DQN網(wǎng)絡(luò)算法中將多優(yōu)化目標(biāo)抽象成多智能體.林時(shí)敬等針對(duì)煉鋼車間天車動(dòng)態(tài)調(diào)度事件,也運(yùn)用DQN算法將多天車抽象成多智能體協(xié)同天車操作動(dòng)作序列.但現(xiàn)在基于DQN的車間調(diào)度方法中,所需調(diào)度策略的優(yōu)化過(guò)程與調(diào)度相關(guān)數(shù)據(jù)的關(guān)聯(lián)度不夠,因此考慮在調(diào)度算法中利用系統(tǒng)提供的語(yǔ)義知識(shí)優(yōu)化車間動(dòng)態(tài)調(diào)度能力.
為此,本文針對(duì)柔性作業(yè)車間調(diào)度問(wèn)題,以最小化設(shè)備平均負(fù)載和最小化總完工時(shí)間為目標(biāo),在調(diào)度過(guò)程的資源配置和工序排序階段,分別設(shè)置強(qiáng)化學(xué)習(xí)智能體,提出雙系統(tǒng)強(qiáng)化學(xué)習(xí)框架.其中,基于感知系統(tǒng)獲取知識(shí)圖譜的知識(shí),分別將資源配置和工序排序所需要的參數(shù)集成表示為多維信息矩陣的形式,為認(rèn)知調(diào)度系統(tǒng)提供車間狀態(tài)參數(shù);認(rèn)知調(diào)度過(guò)程中對(duì)兩個(gè)智能體共同構(gòu)建具有繼承關(guān)系的雙環(huán)深度Q網(wǎng)絡(luò)(Dual-Loop Deep Q Network, DL-DQN)方法.
中證協(xié)12月26日發(fā)布的《證券基金經(jīng)營(yíng)機(jī)構(gòu)債券投資交易業(yè)務(wù)內(nèi)控指引》。《內(nèi)控指引》力求從內(nèi)控體系、風(fēng)險(xiǎn)控制、業(yè)務(wù)管理、人員管理等方面強(qiáng)化證券基金經(jīng)營(yíng)機(jī)構(gòu)風(fēng)控合規(guī)意識(shí),確保債券投資交易規(guī)范展業(yè)。近年來(lái),部分機(jī)構(gòu)債券投資交易內(nèi)控薄弱,以各種形式直接或變相放大杠桿博取高收益,甚至規(guī)避內(nèi)控機(jī)制和資本占用等監(jiān)管要求。市場(chǎng)人士稱,出臺(tái)這一指引,是為了更有效規(guī)范債券投資交易行為,防范債券市場(chǎng)風(fēng)險(xiǎn)。
柔性作業(yè)生產(chǎn)車間調(diào)度問(wèn)題可以描述為:總共有個(gè)任務(wù)訂單,其中包括批產(chǎn)任務(wù)和插單任務(wù),每個(gè)任務(wù)包含個(gè)待加工工件,即={,, …,}(=1, 2, …,),所有任務(wù)動(dòng)態(tài)到達(dá)需要在種設(shè)備組={,, …,} (=1, 2, …,)上加工,每個(gè)設(shè)備組包含一定數(shù)量的設(shè)備={,, …,} (=1, 2, …,)執(zhí)行對(duì)應(yīng)的工序,不同的任務(wù)包含不同的加工工件數(shù)目、對(duì)應(yīng)不同的加工工序,需要在設(shè)備組上進(jìn)行工序排序并加工.對(duì)插單任務(wù)進(jìn)行資源配置,并根據(jù)資源配置結(jié)果對(duì)機(jī)加工工序進(jìn)行優(yōu)化排序,使得設(shè)備總負(fù)載和任務(wù)總完工時(shí)間最小.在問(wèn)題描述中涉及到的參數(shù)如表1所示.
工序排序智能體獎(jiǎng)勵(lì)函數(shù).
建立如下數(shù)學(xué)模型:
(1)
?∈[1, 2, …,],∈[1, 2, …,]
(2)
?∈[1, 2, …,],∈[1, 2, …,]
式中:
尿β2微球蛋白(U-β2-MG)廣泛存在于血漿、尿液、腦脊液及初乳中。正常情況下,β2-MG合成和釋放非常恒定,不受年齡、性別等因素的影響。β2-MG相對(duì)分子量小、不與血漿蛋白結(jié)合,可由經(jīng)腎小球?yàn)V過(guò),被近曲小管重吸收并降解。自身免疫性疾病、慢性肝炎、惡性腫瘤等疾病能夠促進(jìn)機(jī)體合成大量β2-MG,排除這些疾病后,血清β2-MG水平升高可反映腎小球?yàn)V過(guò)率下降、腎小管重吸收功能受損,可作為評(píng)價(jià)腎臟濾過(guò)功能。
克魯勃潤(rùn)滑劑(上海)有限公司市場(chǎng)及應(yīng)用部門經(jīng)理戴偉(Nicolas David)表示:“我們正在與客戶及合作伙伴密切合作,共同開(kāi)發(fā)新的數(shù)字產(chǎn)品,在提供性能純正、品質(zhì)一流的潤(rùn)滑劑之外帶來(lái)附加價(jià)值??唆敳诰€解決方案表明我們能幫助客戶收獲更大成功,并且進(jìn)一步貼近客戶?!?/p>
通過(guò)表3可知,依據(jù)國(guó)家發(fā)展改革委、國(guó)家能源局等八部分共同發(fā)文《關(guān)于推進(jìn)電能替代的指導(dǎo)意見(jiàn)》以及南方電網(wǎng)相關(guān)電能替代指導(dǎo)意見(jiàn),共梳理該地區(qū)電能替代相關(guān)技術(shù)19項(xiàng),通過(guò)本文建立的區(qū)域電能替代技術(shù)選擇體系篩選出11項(xiàng)該地區(qū)需要大力發(fā)展及廣泛推廣的項(xiàng)目。根據(jù)上文中選擇出的電能替代技術(shù)與國(guó)家政策及指導(dǎo)意見(jiàn)比較相似,因此,也能說(shuō)明本文中建立的體系的正確性與合理性。通過(guò)對(duì)本地區(qū)電能替代領(lǐng)域的分析與選擇,對(duì)于促進(jìn)節(jié)能減排與建設(shè)美麗中國(guó)、治理環(huán)境污染與經(jīng)濟(jì)發(fā)展、優(yōu)化能源結(jié)構(gòu)和能源的可持續(xù)發(fā)展具有重要意義。
(3)
?∈[1, 2, …,]
(4)
≠
, , =, ,
(5)
(6)
(7)
(8)
為了實(shí)現(xiàn)柔性作業(yè)車間的動(dòng)態(tài)調(diào)度,解決調(diào)度過(guò)程中的多階段方案生成優(yōu)化,本文提出了知識(shí)圖譜驅(qū)動(dòng)的車間動(dòng)態(tài)調(diào)度過(guò)程中感知-認(rèn)知雙系統(tǒng)框架.如圖1所示,系統(tǒng)I的感知是將各類型數(shù)據(jù)進(jìn)行表示與集成,將調(diào)度信息轉(zhuǎn)變成多維矩陣的形式分別表示資源配置和工序排序,輸入到系統(tǒng)II.在緊急任務(wù)的觸發(fā)下,系統(tǒng)II的認(rèn)知利用DL-DQN強(qiáng)化學(xué)習(xí)方法進(jìn)行車間排產(chǎn)優(yōu)化——資源配置智能體以最小化設(shè)備平均負(fù)載為目標(biāo),首先進(jìn)行該工件所需人員、設(shè)備、物料等資源匹配形成資源社群;工序排序智能體以最小化完工時(shí)間為目標(biāo),將資源社群以工序?yàn)閱挝粚?shí)現(xiàn)工件順序排產(chǎn)計(jì)劃,分步進(jìn)行調(diào)度策略生成,提高加工流的生產(chǎn)連續(xù)性和效率.
利用知識(shí)圖譜提供的調(diào)度參數(shù),根據(jù)車間動(dòng)態(tài)調(diào)度的兩個(gè)子問(wèn)題,分別將所需數(shù)據(jù)轉(zhuǎn)化成多維信息矩陣輸入到系統(tǒng)的強(qiáng)化學(xué)習(xí)模型中.
資源配置所需的數(shù)據(jù)為離散型數(shù)據(jù),為資源信息矩陣,每種任務(wù)需要由多位工人在多臺(tái)設(shè)備上采用不同的資源進(jìn)行加工,每種資源包含多種類型:
專業(yè)核心課是財(cái)務(wù)管理專業(yè)的重要內(nèi)容,教師通過(guò)核心課能夠?qū)⒇?cái)務(wù)管理知識(shí)系統(tǒng)的傳授給學(xué)生,這樣學(xué)生就會(huì)具備實(shí)際操作的能力。核心課設(shè)置如下課程:財(cái)務(wù)管理案例、財(cái)務(wù)控制、稅法與籌劃等,我們可以將預(yù)算管理、高級(jí)財(cái)務(wù)管理、資本運(yùn)營(yíng)、非營(yíng)利組織財(cái)務(wù)等課程作為選修課供學(xué)生選擇學(xué)習(xí)。這樣也就體現(xiàn)了財(cái)務(wù)管理專業(yè)具備的獨(dú)特性。其中,中級(jí)財(cái)務(wù)會(huì)計(jì)、財(cái)務(wù)管理、財(cái)務(wù)管理案例、財(cái)務(wù)風(fēng)險(xiǎn)管理、稅法與籌劃、財(cái)務(wù)控制、財(cái)務(wù)分析、成本管理會(huì)計(jì)、資產(chǎn)評(píng)估是專業(yè)核心課的重要內(nèi)容。
, , ={, , ,, , ,, , }
(9)
橈骨遠(yuǎn)端骨折的病因以外傷為主,發(fā)病機(jī)制則較為復(fù)雜,發(fā)生后可給患者的肢體功能造成影響,其生活質(zhì)量也隨之下降[3],因此需要給予積極的治療。其治療方法包括保守治療、手術(shù)治療等兩大類,其中后者是主要的治療方式,但在何時(shí)給予患者以手術(shù)治療,目前仍存在一定的爭(zhēng)議。本研究結(jié)果表明,在骨折后6 h內(nèi)即開(kāi)展急診手術(shù)干預(yù),與傳統(tǒng)的等待消腫后再行手術(shù)治療比較,不僅可以有效減輕患者的疼痛感,同時(shí)又可促進(jìn)患者患肢功能的恢復(fù),同時(shí)其外觀無(wú)畸形率更高,綜合效果理想,故值得推廣。
(=1, 2, …,;=1, 2, …,;=1, 2, …,;, , ∈;, , ∈;, , ∈;, , ∈)
={,}
(10)
={, |, =,, …,}
第二,林業(yè)生態(tài)建設(shè)質(zhì)量有待提高。現(xiàn)階段,我國(guó)林業(yè)資源生態(tài)環(huán)境建設(shè)取得一定成效,主要表現(xiàn)在荒漠化防治、水土保持兩方面。但是,林業(yè)生態(tài)環(huán)境建設(shè)所取得的成果僅限于重點(diǎn)治理區(qū)域,其他絕大部分普遍存在質(zhì)量不高、樹(shù)種單一、樹(shù)種結(jié)構(gòu)不合理的問(wèn)題。
(11)
(=1, 2, …,;=1, 2, …,;
=1, 2, …,)
(12)
(=1, 2, …,;=1, 2, …,;
=1, 2, …,)
對(duì)感知數(shù)據(jù)利用DL-DQN算法實(shí)現(xiàn)認(rèn)知應(yīng)用.圖2為本文提出的柔性作業(yè)車間動(dòng)態(tài)調(diào)度流程.依據(jù)批產(chǎn)任務(wù)生產(chǎn)方案流程,對(duì)插單任務(wù)進(jìn)行緊急程度的判別后分別應(yīng)用不同的調(diào)度原則,當(dāng)插單任務(wù)進(jìn)入認(rèn)知調(diào)度實(shí)現(xiàn)策略優(yōu)化時(shí),資源配置智能體形成以工件為核心的資源社群配置,工序排序智能體實(shí)現(xiàn)單個(gè)工序上的工件排序優(yōu)化.
(1) 調(diào)度狀態(tài)空間.
(2) 調(diào)度動(dòng)作空間.
資源配置和工序排序智能體根據(jù)機(jī)器的加工狀況以及工件的生產(chǎn)屬性,分別為每一個(gè)工件設(shè)置調(diào)度優(yōu)先值,本文分別針對(duì)兩個(gè)智能體設(shè)置不同的決策動(dòng)作空間.
資源配置決策空間:資源配置任務(wù)是對(duì)插單任務(wù)進(jìn)行人員、設(shè)備、物料等資源的配置,合理選擇能夠最小化設(shè)備平均負(fù)載的最優(yōu)資源,決策空間定義如表3所示.
工序排序決策空間:工序排序是將配置好的資源社群,以最小化完工時(shí)間為目標(biāo)分別在每個(gè)工位上進(jìn)行排序,決策空間定義如表4所示.
(3) 調(diào)度獎(jiǎng)勵(lì)函數(shù).
6.規(guī)劃實(shí)施一批科技創(chuàng)新重點(diǎn)工程。借鑒先進(jìn)地區(qū)科技園區(qū)建設(shè)發(fā)展的成功經(jīng)驗(yàn)和建設(shè)生態(tài)文明典范城市的目標(biāo)要求,按照“布局集中、用地集約、產(chǎn)業(yè)集聚、建設(shè)有序”的原則,規(guī)劃建設(shè)中央創(chuàng)新區(qū),重點(diǎn)吸引知名高校、國(guó)家級(jí)科研機(jī)構(gòu)、重點(diǎn)企業(yè)研發(fā)機(jī)構(gòu)、知名科技中介機(jī)構(gòu)等集中進(jìn)駐,通過(guò)多方整合科教資源,打造集科技教育、創(chuàng)新創(chuàng)業(yè)、商務(wù)服務(wù)、生態(tài)居住等于一體的現(xiàn)代科技服務(wù)業(yè)集聚區(qū),建設(shè)成為生態(tài)文明典范城市副中心,為創(chuàng)建國(guó)家高新區(qū)奠定基礎(chǔ)。實(shí)施黃河三角洲可持續(xù)發(fā)展研究院提升工程。進(jìn)一步配套完善研究院基礎(chǔ)設(shè)施,支持研究院設(shè)立市場(chǎng)化管理運(yùn)營(yíng)平臺(tái),努力打造在黃河三角洲地區(qū)乃至國(guó)內(nèi)重要的科技創(chuàng)新基礎(chǔ)條件平臺(tái)。
通過(guò)設(shè)置合理的獎(jiǎng)勵(lì)機(jī)制,保證算法在多智能體設(shè)置下的收斂性,函數(shù)設(shè)計(jì)如下.
資源配置智能體獎(jiǎng)勵(lì)函數(shù).
首先定義設(shè)備繁忙、空閑的示性函數(shù), (),表示為
, ()=
(13)
針對(duì)醫(yī)?;颊咦≡嘿M(fèi)用的影響因素(政策因素、參保方因素、醫(yī)療供方因素),應(yīng)當(dāng)從問(wèn)題出發(fā),提出相應(yīng)的措施及辦法減少上述各種因素對(duì)住院費(fèi)用的影響。醫(yī)保部門應(yīng)當(dāng)根據(jù)相關(guān)要求和實(shí)際情況制定醫(yī)保政策,醫(yī)療機(jī)構(gòu)應(yīng)當(dāng)嚴(yán)格實(shí)行院內(nèi)控制,而參?;颊邞?yīng)當(dāng)加強(qiáng)學(xué)習(xí),提升對(duì)醫(yī)保政策的認(rèn)識(shí)。通過(guò)各種措施的采取,合理地控制住院費(fèi)用。本文研究結(jié)果顯示,在采取有效的控制措施之后,住院費(fèi)用明顯降低,與措施采取前存在明顯的差異(P<0.05),充分說(shuō)明有效地措施對(duì)住院費(fèi)用控制的重要性。
(14)
(15)
(16)
由式(15)和(16)可知,資源配置階段的最大化獎(jiǎng)勵(lì)等價(jià)于最小化設(shè)備平均負(fù)載,證明定義的獎(jiǎng)勵(lì)函數(shù)有效.
柔性作業(yè)車間調(diào)度模型需要滿足如下基本假設(shè):①批產(chǎn)任務(wù)中工件一定的情況下,插單任務(wù)的工件動(dòng)態(tài)到達(dá);②同一工件工序之間有優(yōu)先級(jí),需在前道工序加工完成后進(jìn)行后道工序的加工;③工件某一道工序在加工過(guò)程中不能被中斷;④ 工件在加工過(guò)程中的準(zhǔn)備時(shí)間、工件轉(zhuǎn)換時(shí)間等一同計(jì)入加工時(shí)間; ⑤同一設(shè)備在某一時(shí)刻只能加工一道工序;⑥ 同一設(shè)備前一工件未完成,后續(xù)安排工件需等待;⑦不存在撤單、設(shè)備故障等特殊情況.
首先定義時(shí)刻第個(gè)任務(wù)的第個(gè)工件中第道工序狀態(tài)的示性函數(shù), , (),即:
傳統(tǒng)固態(tài)發(fā)酵釀醋制醋醅采用固態(tài)分層發(fā)酵,現(xiàn)在基本都是以防水水泥制成的長(zhǎng)條形醅池代替大缸,也從人工翻醅替換成翻醅機(jī)操作。涉及的設(shè)備有行車、翻醅機(jī)、醅池及吊車抓斗等。史榮炳[36]發(fā)明了一種通過(guò)機(jī)械結(jié)構(gòu)實(shí)現(xiàn)自動(dòng)翻醅的裝置。
, , ()=
(17)
(18)
(19)
(20)
由式(19)和(20)可知,工序排序階段的最大化獎(jiǎng)勵(lì)等價(jià)于最小化總完工時(shí)間,證明定義的獎(jiǎng)勵(lì)函數(shù)有效.
為雙目標(biāo)獎(jiǎng)勵(lì)函數(shù)賦予權(quán)值轉(zhuǎn)變?yōu)榭偑?jiǎng)勵(lì)函數(shù),如下式:
=+
(21)
式中:、分別為兩個(gè)目標(biāo)的權(quán)值,+=1將雙目標(biāo)優(yōu)化轉(zhuǎn)換為單目標(biāo)優(yōu)化的獎(jiǎng)勵(lì)函數(shù),通過(guò)控制權(quán)值的大小,決策者可依據(jù)目標(biāo)的側(cè)重情況人為設(shè)定例如,當(dāng)調(diào)度環(huán)境要求考慮盡快完工,可將工序排序智能體獎(jiǎng)勵(lì)函數(shù)的權(quán)值設(shè)置為07,資源配置智能體獎(jiǎng)勵(lì)函數(shù)的權(quán)值設(shè)置為0.3.
(4) 模型更新.
本文模型在DQN基礎(chǔ)上改進(jìn),兩個(gè)智能體在訓(xùn)練時(shí),在單位時(shí)間內(nèi),資源配置智能體根據(jù)知識(shí)圖譜提供的資源相關(guān)離散型知識(shí)生成資源配置決策動(dòng)作,隨著狀態(tài)變化以社群的形式傳遞給工序排序智能體,下一個(gè)排序動(dòng)作以每一設(shè)備組為單位,對(duì)資源社群進(jìn)行任務(wù)加工序列的安排.調(diào)度的兩階段過(guò)程不斷更新迭代,直至任務(wù)完成,采用梯度下降法更新參數(shù),實(shí)現(xiàn)策略函數(shù)的優(yōu)化,算法的偽代碼如算法1所示.
“差不多了,我大致了解你的心理狀態(tài)。”社長(zhǎng)說(shuō),“你千萬(wàn)不要因?yàn)楸晃铱创┬睦矶磻?yīng)激烈,要學(xué)會(huì)冷靜。知道嗎?”
:DL-DQN多智能體強(qiáng)化學(xué)習(xí)算法
1初始化記憶池、;容量
2用隨機(jī)權(quán)重參數(shù)、初始化函數(shù)、
4For 迭代次數(shù)= 1,do
慢性病已經(jīng)成為我國(guó)居民健康和經(jīng)濟(jì)社會(huì)發(fā)展所面臨的嚴(yán)重挑戰(zhàn)[1]。兒童時(shí)期是生理和心理成長(zhǎng)發(fā)育的關(guān)鍵時(shí)期,也是學(xué)習(xí)健康知識(shí)、形成健康行為的重要階段。本文就我國(guó)8省4~6年級(jí)小學(xué)生慢性病相關(guān)知識(shí)、態(tài)度及知識(shí)來(lái)源進(jìn)行了分析,以期對(duì)培養(yǎng)小學(xué)生的健康生活行為有所幫助和指導(dǎo)。
并滿足如下約束:
6For=0,do
工序排序所需的數(shù)據(jù)由工藝序列和加工時(shí)間兩組數(shù)據(jù)組成,為工序排序信息矩陣,各類型數(shù)據(jù)構(gòu)建出排序涉及相關(guān)調(diào)度參數(shù),以某時(shí)間段工位數(shù)據(jù)建模表示如下:
10For=1,do
12For=0,do
與綜合性大學(xué)相比,行業(yè)特色型大學(xué)在國(guó)家“雙一流”建設(shè)中除了要立足于國(guó)家重大現(xiàn)實(shí)需求外,還要立足于行業(yè)重大需求,優(yōu)化學(xué)科布局和頂層制度設(shè)計(jì),堅(jiān)持“有所為有所不為”的原則,著力提升解決制約行業(yè)發(fā)展的關(guān)鍵瓶頸問(wèn)題和重大現(xiàn)實(shí)需求問(wèn)題的能力。除了堅(jiān)持基礎(chǔ)理論研究之外,更重要的是要探索基礎(chǔ)理論研究成果在特定行業(yè)的應(yīng)用問(wèn)題,要將行業(yè)應(yīng)用研究能力作為行業(yè)特色型大學(xué)發(fā)展的重要突破口。對(duì)于行業(yè)特色型大學(xué)教師而言,其最大優(yōu)勢(shì)和特色在于針對(duì)行業(yè)重大前沿問(wèn)題開(kāi)展基礎(chǔ)理論和應(yīng)用研究。因此,在“雙一流”建設(shè)中教師要將基礎(chǔ)理論研究與行業(yè)應(yīng)用研究有機(jī)結(jié)合,突出行業(yè)科研應(yīng)用能力。
為工藝參數(shù)矩陣,即任務(wù)加工工藝流程方法.加工車間每種設(shè)備組只能對(duì)應(yīng)加工某一類型工藝:
20End for
21End for
26End for
27End for
28輸出:、
對(duì)提出的雙系統(tǒng)強(qiáng)化學(xué)習(xí)方法進(jìn)行模型訓(xùn)練和實(shí)驗(yàn).首先,對(duì)仿真參數(shù)進(jìn)行說(shuō)明并進(jìn)行方法對(duì)比;然后利用某航天所薄壁殼體加工過(guò)程中緊急插單問(wèn)題進(jìn)行實(shí)例測(cè)試,并進(jìn)行分析.
..測(cè)試數(shù)據(jù) 本研究根據(jù)Brandimarte提出的方法生成一系列柔性作業(yè)車間動(dòng)態(tài)調(diào)度問(wèn)題標(biāo)準(zhǔn)算例,將本文問(wèn)題進(jìn)行簡(jiǎn)化,每種加工任務(wù)的工序數(shù)相同,根據(jù)不同的工序隨機(jī)選擇加工設(shè)備,然后在工序加工時(shí)間區(qū)間內(nèi)隨機(jī)生成對(duì)應(yīng)時(shí)間(見(jiàn)表5).
為驗(yàn)證本文提出的DL-DQN算法效果,將隨機(jī)算法(Random Algorithm, RA)、GA、DQN作為對(duì)比算法進(jìn)行分析比較.
..時(shí)間復(fù)雜度分析 首先,將本文方法和對(duì)比算法的時(shí)間復(fù)雜度分析如下.
(1) RA.以先到先加工原則為約束,隨機(jī)選擇設(shè)備需加工工件并進(jìn)行資源分配,設(shè)找到可行解需要的迭代次數(shù)為,因此RA的時(shí)間復(fù)雜度可近似描述為().
(2) GA.遺傳算法一般很難收斂到全局最優(yōu)解,因此算法的停止根據(jù)設(shè)置的迭代次數(shù),設(shè)GA的最大迭代次數(shù)為,種群數(shù)量為,則GA的時(shí)間復(fù)雜度可近似描述為().
(3) DQN.在DQN網(wǎng)絡(luò)的運(yùn)行階段,運(yùn)行回合數(shù)為,每回合中的步長(zhǎng)為,因此在運(yùn)行階段的時(shí)間復(fù)雜度為().本文提出的DL-DQN算法的時(shí)間復(fù)雜度與DQN相同.表6為時(shí)間復(fù)雜度對(duì)比.
由表可見(jiàn),本文算法和所提算法的時(shí)間復(fù)雜度和任務(wù)數(shù)成線性關(guān)系,不同的算法涉及參數(shù)不同會(huì)影響時(shí)間復(fù)雜度.
..模擬結(jié)果 本研究以MK04算例進(jìn)行實(shí)驗(yàn)評(píng)估,構(gòu)建作業(yè)車間環(huán)境,并使用DL-DQN算法進(jìn)行柔性作業(yè)車間調(diào)度,在迭代過(guò)程中記錄參數(shù)變化,與DQN算法進(jìn)行對(duì)比.訓(xùn)練過(guò)程參數(shù)變化如圖4所示.
根據(jù)測(cè)試算例MK01~MK10,分別用本文方法和對(duì)比方法求解總優(yōu)化目標(biāo),結(jié)果如圖5所示.
由圖4可見(jiàn)DL-DQN算法訓(xùn)練過(guò)程的全局累積獎(jiǎng)勵(lì)表現(xiàn)出良好的上升趨勢(shì),收斂速度較DQN模型快,優(yōu)化過(guò)程優(yōu)于DQN模型,且得到的解決方案更好,更能適應(yīng)柔性作業(yè)車間調(diào)度的動(dòng)態(tài)性.進(jìn)一步,通過(guò)本文算法和對(duì)比算法的求解應(yīng)用(見(jiàn)圖5),所提方法的設(shè)備平均負(fù)載與總完工時(shí)間的加權(quán)值均小于對(duì)比算法.整體看來(lái),DL-DQN方法效果較優(yōu),驗(yàn)證了本文所提方法的有效性.
..加工車間任務(wù)信息表 利用某動(dòng)力所固體火箭發(fā)動(dòng)機(jī)薄壁殼體生產(chǎn)模擬數(shù)據(jù)進(jìn)行實(shí)例測(cè)試以驗(yàn)證所提方法的有效性.薄壁殼體的加工具有產(chǎn)研并存的特性,整理航天所生產(chǎn)原始數(shù)據(jù)后得到設(shè)備類型與相關(guān)信息如表7所示,不同的設(shè)備組對(duì)應(yīng)不同的工序.
案例以薄壁殼體批產(chǎn)任務(wù)加工過(guò)程中緊急訂單觸發(fā)任務(wù)為分析對(duì)象,在設(shè)備信息基礎(chǔ)上,設(shè)置6個(gè)任務(wù)的工藝約束、加工時(shí)間、加工數(shù)量和交貨期,其中包含4個(gè)批產(chǎn)任務(wù)(J~J)與2個(gè)插單任務(wù)(J~J).生產(chǎn)任務(wù)工序信息表和時(shí)間表如表8和表9所示,其中“空白”表示無(wú)此項(xiàng).
..感知系統(tǒng)知識(shí)表示與集成 根據(jù)本文提出的DL-DQN算法,分別為資源配置智能體和工序排序智能體提供多維信息矩陣,兩階段調(diào)度過(guò)程中所需的參數(shù)矩陣如圖6所示.
..認(rèn)知系統(tǒng)車間調(diào)度策略生成 假設(shè)插單任務(wù)的觸發(fā)時(shí)間節(jié)點(diǎn)位于批產(chǎn)任務(wù)初始化后的20 h和80 h處,針對(duì)插單任務(wù)導(dǎo)致的柔性作業(yè)車間動(dòng)態(tài)調(diào)度事件,首先對(duì)其進(jìn)行資源配置,然后以資源社群為單位進(jìn)行工序排序,將插單任務(wù)排產(chǎn)到合適的工序位置.
在資源配置過(guò)程中,針對(duì)機(jī)加工車間的車床工作狀況進(jìn)行全方位的任務(wù)配置.以該車間某一時(shí)間段的車床加工任務(wù)作為分析基礎(chǔ),將車床按照類型劃分,每種型號(hào)的車床設(shè)備各1臺(tái),其加工功能不同,針對(duì)插單過(guò)程中導(dǎo)致的設(shè)備平均負(fù)載變化,車間車床設(shè)備相關(guān)信息如表10所示.
為表明資源配置智能體生成配置策略的合理性,以設(shè)備利用率為參考得出調(diào)度前后車床設(shè)備利用率曲線圖(見(jiàn)圖7),可以直觀地發(fā)現(xiàn),車間車床利用率呈現(xiàn)整體上升趨勢(shì)且變化平緩,較少出現(xiàn)某一設(shè)備負(fù)載突變的情況.
將插單任務(wù)觸發(fā)前后的車間調(diào)度模式以甘特圖的形式表示出來(lái),圖8為插單前任務(wù)調(diào)度方案結(jié)果,圖9為插單后任務(wù)調(diào)度方案結(jié)果.不同的顏色代表不同任務(wù),同一任務(wù)按照時(shí)序關(guān)系對(duì)工序進(jìn)行區(qū)分.
根據(jù)插單前后的甘特圖得出不同任務(wù)交付時(shí)間與加工時(shí)長(zhǎng)的對(duì)比.如表11所示(“空白”表示無(wú)此項(xiàng)),運(yùn)用本文方法能夠在滿足插單任務(wù)交付期的前提下,在一定程度上縮短批產(chǎn)任務(wù)的總加工時(shí)長(zhǎng),特別是調(diào)度策略前后J的總加工時(shí)間減少35.08%,交付時(shí)間減少13.67%.薄壁殼體制造過(guò)程中不同的加工工藝所需時(shí)間差異大,因此車間中工序排序引起的時(shí)間微小變化會(huì)更有利于調(diào)度.從設(shè)備利用率和加工時(shí)間變化來(lái)看,本文提出的雙系統(tǒng)深度強(qiáng)化學(xué)習(xí)方法具有一定的可行性.
本文對(duì)產(chǎn)研并存的柔性作業(yè)車間動(dòng)態(tài)調(diào)度問(wèn)題進(jìn)行了研究,以最小化設(shè)備平均負(fù)載和最小化總完工時(shí)間為優(yōu)化目標(biāo),提出感知-認(rèn)知雙系統(tǒng)與DL-DQN算法融合嵌入的方法,得出以下結(jié)論:
(1) 感知系統(tǒng)將知識(shí)圖譜提供的數(shù)據(jù)轉(zhuǎn)化成多維信息矩陣輸入到認(rèn)知系統(tǒng),認(rèn)知系統(tǒng)將調(diào)度過(guò)程分成資源配置和工序排序兩部分,分別將兩個(gè)優(yōu)化目標(biāo)抽象成具有繼承關(guān)系的智能體.
(2) 采用DL-DQN算法,外環(huán)利用資源配置智能體生成以工件為單位的資源社群,內(nèi)環(huán)利用工序排序智能體以資源社群為單位進(jìn)行工序級(jí)別的工件排序優(yōu)化.
(3) 對(duì)比不同的算法和進(jìn)行某航天所的固體火箭發(fā)動(dòng)機(jī)薄壁殼體加工車間的實(shí)例測(cè)試,證實(shí)提出的雙環(huán)強(qiáng)化學(xué)習(xí)方法能更好地利用調(diào)度知識(shí)圖譜提供的參數(shù)信息,實(shí)現(xiàn)柔性作業(yè)車間調(diào)度的多目標(biāo)優(yōu)化.
目前的研究將設(shè)備故障、突發(fā)撤單等不確定因素忽略,未來(lái)將探究多資源約束情況下的柔性作業(yè)車間自適應(yīng)調(diào)度問(wèn)題.