国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)化集裝箱碼頭集成調(diào)度方法*

2022-03-23 05:24:30鄭倩倩唐可心
交通信息與安全 2022年6期
關(guān)鍵詞:集裝箱碼頭調(diào)度

尹 星 張 煜,2 鄭倩倩 唐可心▲

(1. 武漢理工大學(xué)交通與物流工程學(xué)院 武漢 430063;2. 廣東省內(nèi)河港航產(chǎn)業(yè)研究有限公司 廣東 韶關(guān) 512000)

0 引 言

集裝箱碼頭是連接海路運(yùn)輸?shù)闹匾獦屑~,其作業(yè)效率關(guān)乎港口的運(yùn)營(yíng)效益和碼頭競(jìng)爭(zhēng)力。岸橋、水平運(yùn)輸工具,以及場(chǎng)橋是進(jìn)行集裝箱碼頭裝卸船作業(yè)的重要自動(dòng)化設(shè)備,對(duì)于全自動(dòng)化集裝箱碼頭而言,碼頭的運(yùn)作效率和運(yùn)作成本很大程度上由這3 種設(shè)備之間的協(xié)調(diào)性決定,因此3 種設(shè)備的資源分配與協(xié)同調(diào)度一直是集裝箱碼頭的研究熱點(diǎn)。

集裝箱調(diào)度過程涉及多個(gè)環(huán)節(jié),岸橋?qū)?cè)集裝箱進(jìn)行裝卸,集卡對(duì)集裝箱進(jìn)行運(yùn)輸,場(chǎng)橋負(fù)責(zé)集裝箱在堆場(chǎng)的取放作業(yè)。部分學(xué)者對(duì)單一作業(yè)環(huán)節(jié)進(jìn)行研究,如高雪峰[1]對(duì)2臺(tái)場(chǎng)橋存取混合作業(yè)模式進(jìn)行了建模和求解;丁一等[2]研究自動(dòng)化集裝箱碼頭自動(dòng)導(dǎo)引運(yùn)輸車(automated guided vehicle,AGV)調(diào)度問題,分析AGV路徑選擇和調(diào)度策略對(duì)港口裝卸效率的影響;夏孟玨等[3]重點(diǎn)研究了岸橋故障突發(fā)情況下裝卸船作業(yè)重調(diào)度策略。但集裝箱碼頭調(diào)度是1 個(gè)聯(lián)合作業(yè)過程,僅考慮單一作業(yè)環(huán)節(jié)無法實(shí)現(xiàn)碼頭整體生產(chǎn)的優(yōu)化,一些專家側(cè)重于從2階段設(shè)備協(xié)同作業(yè)角度進(jìn)行集裝箱調(diào)度優(yōu)化,比如,梁承姬等[4]對(duì)多船作業(yè)模式下岸橋和集卡協(xié)同調(diào)度問題進(jìn)行研究;陳超等[5]對(duì)港口泊位分配與集卡路徑規(guī)劃進(jìn)行研究。也有學(xué)者對(duì)岸橋、運(yùn)輸小車,以及場(chǎng)橋3階段作業(yè)聯(lián)合調(diào)度過程展開研究,如常祎妹等[6]將岸橋間、場(chǎng)橋間干涉和集卡速度變化等不確定性因素考慮在內(nèi),研究裝卸作業(yè)模式下集裝箱碼頭集成調(diào)度問題。

傳統(tǒng)的求解集裝箱調(diào)度的方法主要有精確算法、元啟發(fā)式和啟發(fā)式算法、仿真方法,Kim等[7]提出了1 種分枝界定方法來獲得岸橋調(diào)度問題最優(yōu)解;秦天保等[8]從約束規(guī)劃角度對(duì)岸橋、集卡和場(chǎng)橋的集成調(diào)度進(jìn)行建模,并使用CPLEX 求解器進(jìn)行求解。但由于2階段及以上的集裝箱聯(lián)合調(diào)度問題屬于典型的NP 難組合優(yōu)化問題[9],精確算法難以在有效時(shí)間內(nèi)進(jìn)行求解。啟發(fā)式與元啟發(fā)式算法在NP 難問題求解方面有著廣泛的應(yīng)用,也取得了良好的效果,如鐘祾充等[10]使用改進(jìn)布谷鳥算法求解碼頭3 階段集成調(diào)度問題;陳超等[11]提出1種雙層遺傳算法對(duì)岸橋、集卡和場(chǎng)橋3種設(shè)備數(shù)量配置。楊彩云等[12]使用Anylogic 仿真平臺(tái),對(duì)自動(dòng)化碼頭內(nèi)部智能運(yùn)輸機(jī)器 人(artificial intelligence robot of transportation,ART)動(dòng)態(tài)調(diào)速問題進(jìn)行研究,但仿真方法優(yōu)化能力有限且無法直接給出調(diào)度方案。

隨著人工智能的發(fā)展,一些學(xué)者開始探索使用強(qiáng)化學(xué)習(xí)方法來解決港口調(diào)度問題。強(qiáng)化學(xué)習(xí)是1種具有自主決策能力的機(jī)器學(xué)習(xí)方法[13],與環(huán)境交互為目標(biāo),從智能體自身經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí),更加適用于復(fù)雜的動(dòng)態(tài)環(huán)境。目前在港口調(diào)度領(lǐng)域使用較為廣泛的強(qiáng)化學(xué)習(xí)算法主要有Q-Learning、deep Q-network(DQN)和Actor-Critic 算法。張華勝[14]將Actor-Critic 深度強(qiáng)化學(xué)習(xí)與啟發(fā)式算法進(jìn)行結(jié)合,設(shè)計(jì)算法框架,對(duì)自動(dòng)化跨運(yùn)車和場(chǎng)橋集成作業(yè)過程進(jìn)行優(yōu)化;尚晶等[15]提出了基于Q-Learning 算法的集卡調(diào)度強(qiáng)化學(xué)習(xí)模型,仿真結(jié)果顯示該算法能夠?qū)ㄕ{(diào)度策略進(jìn)行明顯優(yōu)化。Q-Learning 是1 種基于表格型的方法,面對(duì)大規(guī)模調(diào)度環(huán)境時(shí),龐大的動(dòng)作空間會(huì)導(dǎo)致“維數(shù)災(zāi)難”問題,為了解決這個(gè)問題,DQN 引入神經(jīng)網(wǎng)絡(luò)來擬合Q 值[16],文獻(xiàn)[1]使用改進(jìn)搜索策略和采樣方法的DQN 算法來解決自動(dòng)化堆場(chǎng)雙場(chǎng)橋協(xié)同調(diào)度問題。

綜上,集裝箱裝卸作業(yè)是1 個(gè)多環(huán)節(jié)的聯(lián)合調(diào)度問題,使用簡(jiǎn)單啟發(fā)式和靜態(tài)優(yōu)化方法對(duì)碼頭3階段調(diào)度問題求解易陷入局部最優(yōu),且算法搜索時(shí)間較長(zhǎng)。強(qiáng)化學(xué)習(xí)能夠?qū)崿F(xiàn)與動(dòng)態(tài)調(diào)度環(huán)境的自主交互,且目前已有一些學(xué)者將強(qiáng)化學(xué)習(xí)成功應(yīng)用于碼頭實(shí)際調(diào)度過程,但研究側(cè)重于單一作業(yè)環(huán)節(jié),缺乏對(duì)自動(dòng)化集裝箱碼頭多環(huán)節(jié)聯(lián)合調(diào)度問題的研究。

因此建立岸橋、ART,以及場(chǎng)橋的3 階段集成調(diào)度模型,更有利于從整體優(yōu)化集裝箱調(diào)度過程,降低港口運(yùn)作成本。針對(duì)集裝箱卸船作業(yè)的特點(diǎn),以車間調(diào)度領(lǐng)域的混合流水車間理論[17]為基礎(chǔ),以最小化總完工時(shí)間為目標(biāo),建立自動(dòng)化碼頭集裝箱3 階段混合流水車間集成調(diào)度模型??紤]到集成調(diào)度問題的離散性和調(diào)度環(huán)境實(shí)時(shí)性、動(dòng)態(tài)性的特點(diǎn),設(shè)計(jì)貼合碼頭實(shí)際調(diào)度環(huán)境的深度強(qiáng)化學(xué)習(xí)算法(double deep Q-network,DDQN)進(jìn)行求解。

1 問題描述與模型構(gòu)建

1.1 集成調(diào)度問題

天津港C 段自動(dòng)化集裝箱碼頭前沿布局見圖1。卸船作業(yè)流程為:船舶靠岸后,單小車岸橋移動(dòng)到指定貝位,將集裝箱從船上抓起后卸載到ART上,然后由ART運(yùn)送該集裝箱至堆場(chǎng)指定場(chǎng)區(qū),由雙懸臂場(chǎng)橋?qū)⒓b箱從ART卸下放置于堆場(chǎng)指定位置。集裝箱裝船作業(yè)可以看作是上述操作的反向過程。

圖1 碼頭前沿布局示意圖Fig.1 Layout diagram of wharf front

集裝箱卸船作業(yè)可以被模擬為工件在流水線上加工的過程。見圖2,將n個(gè)集裝箱視為不同的工件,依次通過岸橋、ART,以及場(chǎng)橋這3 個(gè)階段的設(shè)備處理,完成卸船作業(yè),且每個(gè)集裝箱對(duì)每個(gè)階段的設(shè)備均只經(jīng)歷1 次,同一階段的設(shè)備屬于并行機(jī)。因此,本文將運(yùn)用混合流水車間原理及其方法來建立自動(dòng)化集裝箱碼頭卸貨過程中岸橋、ART,以及場(chǎng)橋3個(gè)階段的集成調(diào)度模型。

圖2 集裝箱卸貨過程3階段流水車間調(diào)度示意圖Fig.2 Schematic diagram of three-stage flow shop scheduling about container unloading process

1.2 集成調(diào)度模型

考慮集裝箱港口調(diào)度過程中存在許多實(shí)際約束條件,因此需要在傳統(tǒng)混合流水車間調(diào)度問題中加入額外設(shè)備作業(yè)約束。描述如下:①船上處于同一位置(行號(hào)和列號(hào)相同)的集裝箱之間存在作業(yè)順序制約,上層集裝箱優(yōu)先作業(yè);②ART運(yùn)送集裝箱到達(dá)堆場(chǎng)時(shí)需在相應(yīng)位置等待,直至有完成上1 個(gè)裝卸任務(wù)的岸橋出現(xiàn),ART才能釋放集裝箱。

考慮到多設(shè)備集成調(diào)度的復(fù)雜性,將實(shí)際場(chǎng)景簡(jiǎn)化,對(duì)模型做如下假設(shè)。

1)集裝箱都是同一類型標(biāo)準(zhǔn)箱。

2)將處于同一貝位中、作業(yè)類型相同(在堆場(chǎng)擺放于同一箱區(qū))的集裝箱劃分為1個(gè)作業(yè)集,岸橋在對(duì)某1個(gè)作業(yè)集操作完成之前,不會(huì)移動(dòng)到下1個(gè)作業(yè)集。

3)由于各階段設(shè)備的準(zhǔn)備時(shí)間較長(zhǎng),比如岸橋和場(chǎng)橋的移動(dòng)時(shí)間等,所以計(jì)算總完工時(shí)間時(shí)考慮設(shè)備準(zhǔn)備時(shí)間。

4)不考慮設(shè)備故障等突發(fā)情況。

5)不考慮翻、倒箱時(shí)間。

6)集裝箱轉(zhuǎn)移到堆場(chǎng)的目的位置是已知的,且同一作業(yè)集的集裝箱運(yùn)送到堆場(chǎng)同1個(gè)箱區(qū)。

模型參數(shù)定義及說明見表1。

表1 3 階段混合流水車間調(diào)度模型參數(shù)及說明Tab.1 Parameters and description of three-stage hybrid flow shop scheduling model

目標(biāo)函數(shù)為

約束條件為

以下為決策變量取值區(qū)間。

式(1)為目標(biāo)函數(shù),表示最小化最大完工時(shí)間;式(2)為各階段設(shè)備選取虛擬作業(yè)集O作為起始作業(yè)集;式(3)為各階段設(shè)備選取虛擬作業(yè)集V作為終止作業(yè)集;式(4)為每個(gè)階段、每個(gè)作業(yè)集有且僅有1臺(tái)設(shè)備操作它;式(5)為作業(yè)集先后作業(yè)順序,也就是各階段設(shè)備的作業(yè)序列;式(6)為每1個(gè)正在被服務(wù)的作業(yè)集有且僅有1 個(gè)作業(yè)集在其之前和之后;式(7)為階段1 中的作業(yè)集由優(yōu)先級(jí)Φ約束;式(8)為前后2 階段中,作業(yè)集i開始被服務(wù)的時(shí)間關(guān)系;式(9)為各階段中每臺(tái)設(shè)備最早可開始工作時(shí)間;式(10)為各階段中每個(gè)任務(wù)的結(jié)束時(shí)間;式(11)為同1個(gè)作業(yè)集在前后2 個(gè)階段中的作業(yè)時(shí)間約束;式(12)為在同一階段中,作業(yè)集i開始被操作的時(shí)間小于/等于其結(jié)束被操作的時(shí)間;式(13)和式(14)為若同一階段k中,先后2個(gè)作業(yè)集i和j分配給同一設(shè)備m操作,則操作時(shí)間要錯(cuò)開相應(yīng)的準(zhǔn)備時(shí)間;式(15)和式(16)為決策變量的取值。

2 基于深度強(qiáng)化學(xué)習(xí)的調(diào)度算法設(shè)計(jì)

2.1 深度強(qiáng)化學(xué)習(xí)算法簡(jiǎn)介

在自動(dòng)化集裝箱碼頭裝卸系統(tǒng)中,將岸橋作業(yè)系統(tǒng)、ART 水平作業(yè)系統(tǒng)和場(chǎng)橋作業(yè)系統(tǒng)看作3 階段智能體決策系統(tǒng),將集裝箱調(diào)度過程使用強(qiáng)化學(xué)習(xí)進(jìn)行描述,見圖3。智能體采取動(dòng)作作用于碼頭集成調(diào)度環(huán)境,然后轉(zhuǎn)移到下1個(gè)狀態(tài),環(huán)境給出即時(shí)獎(jiǎng)勵(lì),如此循環(huán)往復(fù),最終由各階段設(shè)備確定的集裝箱任務(wù)操作序列便是最佳調(diào)度方案。

圖3 基于深度強(qiáng)化學(xué)習(xí)的集裝箱集成調(diào)度機(jī)制Fig.3 Container integrated scheduling mechanism based on deep reinforcement learning

2.2 馬爾科夫決策模型構(gòu)建

馬爾科夫決策過程(Markov decision processes,MDP)是強(qiáng)化學(xué)習(xí)問題理想化的數(shù)學(xué)表達(dá)形式[18],前文所述的自動(dòng)化集裝箱碼頭3階段調(diào)度問題可轉(zhuǎn)化為1 個(gè)馬爾科夫決策過程,對(duì)馬爾科夫決策過程的狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)做出如下定義。

2.2.1 狀態(tài)空間設(shè)計(jì)

狀態(tài)特征和動(dòng)作空間的設(shè)計(jì)與調(diào)度問題密切相關(guān),一般需要遵循以下原則:①狀態(tài)特征要有代表性,能夠描述碼頭調(diào)度環(huán)境的主要特點(diǎn)和變化;②狀態(tài)特征是對(duì)設(shè)備狀態(tài)變化的數(shù)值表示,可以用相對(duì)統(tǒng)一的尺度描述,并且易于計(jì)算。

結(jié)合碼頭實(shí)際作業(yè)情況,將階段k中的設(shè)備Mk的第h個(gè)特征記為fk,h,為各階段設(shè)備定義不同的特征值,包括反映碼頭整體調(diào)度環(huán)境變化的全局特征和反映設(shè)備特點(diǎn)的局部特征:為階段1 的設(shè)備定義8個(gè)特征(1 ≤h≤8),對(duì)于階段2的設(shè)備定義10個(gè)特征(1 ≤h≤10),對(duì)于階段3 的設(shè)備定義10 個(gè)特征(1 ≤h≤8,h=11,12)。

狀態(tài)特征具體定義如下。

式中:Ωk={1,2,···,}為當(dāng)前在設(shè)備Mk排隊(duì)的集裝箱作業(yè)集集合,絕對(duì)值表示數(shù)量。該狀態(tài)特征描述各階段設(shè)備上集裝箱的數(shù)量分布。

該狀態(tài)特征表示當(dāng)前分配在各階段設(shè)備上的平均工作負(fù)載。

式(19)和(20)為在各設(shè)備上等待的集裝箱作業(yè)集最長(zhǎng)/最短操作時(shí)間。

式(21)和(22)為隊(duì)列Ωk中等待的作業(yè)集中剩余最長(zhǎng)/最短操作時(shí)間的歸一化表示。

式中:為正在設(shè)備上加工的集裝箱作業(yè)集的剩余操作時(shí)間,為作業(yè)集在該設(shè)備上的已加工時(shí)間。若fk,7=0,則表示該階段設(shè)備空閑。

式(24)為即使在有作業(yè)集等待加工的情況下,是否讓當(dāng)前設(shè)備保持空閑(比如岸橋作業(yè)區(qū)域劃分)。

式(25)為ART 是否可以采取Johnson 啟發(fā)式規(guī)則1定義的動(dòng)作。

式(26)為ART 是否可以采取Johnson 啟發(fā)式規(guī)則2定義的動(dòng)作。

式(25)和式(26)中:Q1和Q2為將船上的集裝箱作業(yè)集按照作業(yè)時(shí)間進(jìn)行劃分,Q1為在堆場(chǎng)作業(yè)時(shí)間大于岸橋作業(yè)時(shí)間的作業(yè)集,其余作業(yè)集劃分為Q2。

式中:trat,2為ART 到達(dá)堆場(chǎng)的剩余時(shí)間;twait,3為場(chǎng)橋發(fā)生干涉時(shí)ART 的等待時(shí)間。按照ART 預(yù)計(jì)達(dá)到堆場(chǎng)指定位置的剩余時(shí)間和ARMG 發(fā)生干涉時(shí)ART 的等待時(shí)間,將當(dāng)前隊(duì)列分為A1和A2,A1表示等待時(shí)間大于剩余達(dá)到時(shí)間的作業(yè)集集合,其余劃分到A2。該狀態(tài)特征決定ARMG是否可以采取Johnson啟發(fā)式規(guī)則3定義的動(dòng)作。

式(28)為ARMG 是否可以采取Johnson 啟發(fā)式規(guī)則4定義的動(dòng)作。

2.2.2 動(dòng)作空間設(shè)計(jì)

動(dòng)作空間就是智能體在當(dāng)前狀態(tài)下可以采取的動(dòng)作候選集合,在碼頭集成調(diào)度問題中,智能體執(zhí)行的動(dòng)作是依據(jù)調(diào)度規(guī)則優(yōu)先選擇要操作的集裝箱作業(yè)集。啟發(fā)式調(diào)度規(guī)則時(shí)間復(fù)雜度較低,但混合調(diào)度規(guī)則比單一調(diào)度規(guī)則的求解效果好[19],且目前已有一些將混合啟發(fā)式調(diào)度規(guī)則應(yīng)用于強(qiáng)化學(xué)習(xí)算法中,并在車間調(diào)度問題與資源投入調(diào)度領(lǐng)域取得了良好的效果[20-24]。因此本文選擇了5 條被廣泛使用的單一調(diào)度規(guī)則,并在此基礎(chǔ)上結(jié)合碼頭實(shí)際作業(yè)情況,為ART 階段和場(chǎng)橋階段增添了復(fù)合調(diào)度規(guī)則,見表2。因此,單小車岸橋能夠采用的行為集合是,ART 能 夠 采 用 的 行 為 集 合 是,場(chǎng)橋能夠采用的行為集合是

表2 調(diào)度規(guī)則Tab.2 Scheduling rules

2.2.3 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

獎(jiǎng)勵(lì)函數(shù)定義適當(dāng)與否與調(diào)度效果密切相關(guān),本文的調(diào)度目標(biāo)為式(1),即最小化最大卸船作業(yè)完工時(shí)間,這一目標(biāo)可通過最大化加工設(shè)備利用率來進(jìn)行轉(zhuǎn)換。對(duì)于集裝箱碼頭來說,提高各階段設(shè)備的利用率是提升碼頭整體裝卸效率的關(guān)鍵,因此使用平均設(shè)備利用率來表示調(diào)度目標(biāo)。借鑒文獻(xiàn)[20]中的表達(dá)方式,將平均設(shè)備利用率表示為集裝箱作業(yè)集在各階段設(shè)備上的總操作時(shí)間與整體最大完工時(shí)間之比,數(shù)值表示具體如下。

式中:Si,m,k為集裝箱作業(yè)集i在階段k中對(duì)應(yīng)設(shè)備m上的開始操作時(shí)間;Ei,m,k為集裝箱作業(yè)集i在階段k中對(duì)應(yīng)設(shè)備m上的終止操作時(shí)間;Mk為階段k中設(shè)備數(shù)量。

由式(30)可見:設(shè)備利用率與最大完工時(shí)間為反比關(guān)系,設(shè)備利用率越高,最大完工時(shí)間越小。

2.3 算法流程

Q-Learning 采用Q 表來存儲(chǔ)狀態(tài)集合,進(jìn)而通過更新動(dòng)作-值函數(shù)Qπ( )s,a來進(jìn)行動(dòng)作選擇。但調(diào)度環(huán)境的狀態(tài)集合規(guī)模大,大量的狀態(tài)-行為信息超過了Q 表的存儲(chǔ)容量,從而導(dǎo)致“維數(shù)災(zāi)難”問題。為了解決這個(gè)問題,DDQN(double DQN)算法采用帶參數(shù)的神經(jīng)網(wǎng)絡(luò)來近似擬合動(dòng)作-值函數(shù)Qπ(s,a|θ)[21]。同時(shí)為了避免過估計(jì)(over estimation),算法使用雙網(wǎng)絡(luò)模式,將動(dòng)作選擇(當(dāng)前Q網(wǎng)絡(luò))與動(dòng)作評(píng)估(目標(biāo)Q 網(wǎng)絡(luò))分離開,并引入經(jīng)驗(yàn)回放機(jī)制打破數(shù)據(jù)之間的相關(guān)性,使神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程更加穩(wěn)健。神經(jīng)網(wǎng)絡(luò)的輸入層為每臺(tái)設(shè)備對(duì)應(yīng)的狀態(tài)特征;之后連接4 個(gè)全連接層,激活函數(shù)使用relu 函數(shù);輸出層為對(duì)應(yīng)輸入狀態(tài)的動(dòng)作預(yù)測(cè)value值。

DDQN 算法中的目標(biāo)Q 網(wǎng)絡(luò)的參數(shù)(θQ)是隔一段時(shí)間從當(dāng)前Q 網(wǎng)絡(luò)(θQ′)中復(fù)制而來,2 個(gè)Q 網(wǎng)絡(luò)的結(jié)構(gòu)相同。設(shè)定n步之后,采用軟更新(soft-update)的方式來更新。

式中:τ為更新系數(shù),一般取值較小,比如取值0.1或0.01。

多智能體DDQN算法流程見圖4。

圖4 調(diào)度算法流程圖Fig.4 Flow chart of scheduling algorithm

3 算例分析

3.1 各階段設(shè)備參數(shù)

為了驗(yàn)證所提出模型和算法的有效性和可行性,根據(jù)天津港實(shí)際調(diào)研情況設(shè)計(jì)實(shí)驗(yàn)算例。天津港C段碼頭采用單小車岸橋-ART-雙懸臂場(chǎng)橋的裝卸工藝,每臺(tái)岸橋1 次可吊起1 個(gè)FEU 或2 個(gè)TEU,每輛ART 1次可運(yùn)載1個(gè)FEU或2個(gè)TEU,堆場(chǎng)一共有8 個(gè)箱區(qū),每臺(tái)場(chǎng)橋1 次可裝卸1 個(gè)FEU 或2 個(gè)TEU。各設(shè)備作業(yè)時(shí)間見表3。

表3 集裝箱碼頭各階段設(shè)備運(yùn)作效率Tab.3 Operation time of equipment at each stage of container terminal

表4為碼頭前沿與堆場(chǎng)各箱區(qū)之間的距離。

表4 碼頭前沿距各箱區(qū)的距離Tab.4 Distance from wharf apron to each container area

3.2 DDQN算法訓(xùn)練與求解

依據(jù)3.1節(jié)自動(dòng)化碼頭相關(guān)參數(shù),以1個(gè)規(guī)模為300 個(gè)集裝箱的算例進(jìn)行驗(yàn)證。假設(shè)300 個(gè)集裝箱分布在同1 艘船舶的15 個(gè)貝位中,每個(gè)貝位包含20個(gè)集裝箱,分為2 個(gè)作業(yè)集,則一共有30 個(gè)作業(yè)集,配套使用4臺(tái)岸橋、15輛ART和8臺(tái)場(chǎng)橋(每個(gè)箱區(qū)1臺(tái))進(jìn)行卸船作業(yè),設(shè)定ART在岸橋和場(chǎng)橋下的停留時(shí)間均為20 s。

調(diào)度算法采用Python3.7 語言實(shí)現(xiàn),在Tensor-Flow2.0 框架中實(shí)現(xiàn),運(yùn)行于Windows11 64 位操作系統(tǒng),處理器為Intel Corei5-9400 CPU2.90GHz,RAM 為8GB 的PC 機(jī)。調(diào)度環(huán)境使用OpenAI 的Gym搭建。參數(shù)的設(shè)置對(duì)算法的訓(xùn)練時(shí)間和求解質(zhì)量有著重要影響,按照一般設(shè)置原則[24],深度強(qiáng)化學(xué)習(xí)調(diào)度算法參數(shù)設(shè)置見表5。

表5 算法參數(shù)設(shè)置Tab.5 Algorithm parameter setting

算法收斂曲線見圖5。由圖5可見:隨著迭代次數(shù)的增加,算法能夠使調(diào)度目標(biāo)以較快的速度減少,約1 200代時(shí)達(dá)到較優(yōu)結(jié)果并收斂。

圖5 算法收斂圖Fig.5 Algorithm convergence graph

深度強(qiáng)化學(xué)習(xí)算法調(diào)度結(jié)果見圖6。

圖6 調(diào)度結(jié)果甘特圖Fig.6 Gantt chart of dispatching results

單小車岸橋調(diào)度方案見表6,ART 指派結(jié)果見表7,雙懸臂場(chǎng)橋調(diào)度方案見表8。

表6 單小車岸橋調(diào)度方案Tab.6 Single trolley quay crane dispatching scheme

表7 ART 指派結(jié)果Tab.7 Art assignment results

表8 雙懸臂場(chǎng)橋調(diào)度方案Tab.8 Double cantilever yard crane dispatching scheme

由調(diào)度結(jié)果可知,3 階段設(shè)備總作業(yè)時(shí)間為13 550 s,其中第1階段4臺(tái)岸橋利用率很高,負(fù)荷較為均勻,第2階段ART平均利用率為98%,負(fù)荷較為均衡,第3階段場(chǎng)橋平均利用率為71%,最低負(fù)荷率為54%,最高為84%,說明ART的配置數(shù)量能夠滿足岸橋作業(yè)速度,減少了岸橋等待時(shí)間。實(shí)際作業(yè)中,天津港C段自動(dòng)化碼頭目標(biāo)效率(90% TEU) 為每小時(shí)489 箱(平均每臺(tái)岸橋不低于27 TEU/h),DDQN算法每臺(tái)岸橋作業(yè)效率為34 TEU/h,說明調(diào)度結(jié)果能夠滿足實(shí)際應(yīng)用要求。

4 模型驗(yàn)證

4.1 與精確算法求解比較

為了驗(yàn)證所提算法的有效性和模型的正確性,設(shè)計(jì)10 個(gè)小規(guī)模算例,并將Gurobi 求解結(jié)果和深度強(qiáng)化學(xué)習(xí)算法求解結(jié)果進(jìn)行對(duì)比,對(duì)比結(jié)果見表9。表9 中n×Q×A×M為所設(shè)計(jì)案例的規(guī)模,即集裝箱作業(yè)數(shù)×單小車岸橋數(shù)量×ART 數(shù)量×雙懸臂場(chǎng)橋數(shù)量;e1,e2分別為Gurobi 和深度強(qiáng)化學(xué)習(xí)算法的求解結(jié)果;t1,t2分別為Gurobi 和深度強(qiáng)化學(xué)習(xí)算法對(duì)算例的求解時(shí)間為深度強(qiáng)化學(xué)習(xí)算法求解結(jié)果對(duì)Gurobi求解結(jié)果的相對(duì)誤差。

由表9 的小規(guī)模案例求解對(duì)比結(jié)果可見:所提出的深度強(qiáng)化學(xué)習(xí)算法在多數(shù)情況下能夠得到與Gurobi 非常接近的最優(yōu)解,平均求解誤差為1.99%。但隨著案例規(guī)模逐漸增加,Gurobi 求解器的計(jì)算時(shí)間顯著偏高,說明所提出DDQN 算法在求解較大規(guī)模算例時(shí)具有一定時(shí)間優(yōu)勢(shì)。

表9 小規(guī)模算例下Gurobi 和深度強(qiáng)化學(xué)習(xí)算法求解結(jié)果對(duì)比Tab.9 Comparison of solution results between gurobi and deep reinforcement learning algorithms for small-scale examples

4.2 與單一調(diào)度規(guī)則求解比較

為進(jìn)一步驗(yàn)證算法的優(yōu)越性,對(duì)天津港C段3艘船舶的集裝箱進(jìn)行驗(yàn)證,由于Gurobi在表10設(shè)置的3種大規(guī)模的實(shí)例環(huán)境(集裝箱作業(yè)數(shù)×單小車岸橋數(shù)量×ART數(shù)量×雙懸臂場(chǎng)橋數(shù)量)下無法實(shí)現(xiàn)精確求解,因此對(duì)DDQN 算法和使用5 種單一調(diào)度規(guī)則的策略、粒子群算法(particle swarm optimization,PSO)進(jìn)行性能測(cè)試,每個(gè)實(shí)例進(jìn)行10次仿真實(shí)驗(yàn)并取平均值記錄,測(cè)試結(jié)果見表10。表10中所用的粒子群算法采用文獻(xiàn)[25]推薦的參數(shù),慣性權(quán)重ω=0.729,加速因子c1=c2=1.494 45。

表10 較大規(guī)模算例求解對(duì)比Tab.10 Comparison of large-scale numerical examples

由表10可見:隨著集裝箱任務(wù)數(shù)量和設(shè)備數(shù)量的增多,DDQN算法的求解效果均好于單一調(diào)度規(guī)則與粒子群算法,顯現(xiàn)出一定的優(yōu)越性,3 個(gè)算例中DDQN 與下界值的差距分別為6.0%,5.6%,4.6%。特別說明的是,強(qiáng)化學(xué)習(xí)算法訓(xùn)練需要耗費(fèi)時(shí)間較長(zhǎng),但訓(xùn)練好的算法能夠在20 s 內(nèi)得到最優(yōu)結(jié)果。

為進(jìn)一步驗(yàn)證算法穩(wěn)定性,對(duì)算例60×12×26×14 分別進(jìn)行100次求解,得到求解結(jié)果與理論下界差距箱型圖,見圖7。從圖7 可見:相對(duì)于使用單一啟發(fā)式調(diào)度規(guī)則,DDQN 算法與理論下界值差距的下限和中位數(shù)小,且數(shù)據(jù)分布較為集中,無明顯異常值。表明DDQN 算法具有較好的穩(wěn)定性,且具有明顯的求解優(yōu)勢(shì)。

圖7 6種策略與理論下界值差距箱型圖Fig.7 Box plot of the gap between six strategies and the theoretical lower bound

為分析所使用的啟發(fā)式調(diào)度規(guī)則在深度強(qiáng)化學(xué)習(xí)算法中的作用,統(tǒng)計(jì)求解所有實(shí)驗(yàn)算例過程中9種啟發(fā)式動(dòng)作的使用頻率,見圖8。由圖8 可見:使用頻次較 多的為Johnson1 和Johnson2,Johnson3 和Johnson4,SPT,LPT,MWKR,說明這些規(guī)則對(duì)產(chǎn)生最優(yōu)調(diào)度結(jié)果貢獻(xiàn)較大,而FIFO和LWKR使用頻次較少,效果不太突出,后續(xù)可以考慮增添其他啟發(fā)式行為進(jìn)行替換。

圖8 啟發(fā)式行為使用頻率統(tǒng)計(jì)Fig.8 Heuristic behavior usage frequency statistics

5 結(jié)束語

針對(duì)集裝箱碼頭卸船過程中岸橋、ART 和場(chǎng)橋設(shè)備的集成調(diào)度問題,建立了以混合流水車間為基礎(chǔ)的3 階段混合整數(shù)規(guī)劃模型,以天津港C段自動(dòng)化碼頭實(shí)際調(diào)研數(shù)據(jù)為基礎(chǔ),設(shè)計(jì)不同規(guī)模算例進(jìn)行求解,通過與Gurobi 求解結(jié)果對(duì)比,驗(yàn)證了模型和算法的有效性;為進(jìn)一步驗(yàn)證復(fù)合調(diào)度規(guī)則的優(yōu)越性,對(duì)比7 種算法的求解方案,結(jié)果表明所提DDQN 算法更具優(yōu)勢(shì),求解的完工時(shí)間更接近理論下界值。此外,由于每個(gè)港口的操作工藝不同,因此針對(duì)不同港口需要對(duì)模型和算法的細(xì)節(jié)進(jìn)行調(diào)整,后續(xù)會(huì)進(jìn)一步考慮算法在其他港口集成調(diào)度問題適用性。

猜你喜歡
集裝箱碼頭調(diào)度
美軍一架C-130J正在投放集裝箱
軍事文摘(2023年5期)2023-03-27 09:13:10
全自動(dòng)化碼頭來了
《調(diào)度集中系統(tǒng)(CTC)/列車調(diào)度指揮系統(tǒng)(TDCS)維護(hù)手冊(cè)》正式出版
一種基于負(fù)載均衡的Kubernetes調(diào)度改進(jìn)算法
虛實(shí)之間——集裝箱衍生出的空間折疊
虛擬機(jī)實(shí)時(shí)遷移調(diào)度算法
我家住在集裝箱
前往碼頭
在碼頭上釣魚
一種新型自卸式污泥集裝箱罐
專用汽車(2015年2期)2015-03-01 04:06:52
云南省| 库车县| 宣城市| 马关县| 仙游县| 左云县| 子洲县| 达拉特旗| 玉溪市| 怀化市| 秀山| 神农架林区| 万安县| 丹寨县| 富川| 锡林浩特市| 咸宁市| 琼海市| 云龙县| 甘孜县| 定西市| 手游| 瓮安县| 吉安县| 游戏| 绥宁县| 丹东市| 广安市| 和林格尔县| 礼泉县| 全椒县| 连山| 红安县| 都兰县| 包头市| 大竹县| 景宁| 佛教| 东乡族自治县| 辉南县| 泰来县|