顏偉,孫佳旭,崔若梁
(山東科技大學(xué)能源與礦業(yè)工程學(xué)院,青島 266590)
隨著經(jīng)濟(jì)的發(fā)展、人民生活水平的提高,人們的需求逐漸朝個(gè)性化、獨(dú)特化的方向發(fā)展,為了適應(yīng)市場需求,制造業(yè)的生產(chǎn)模式也逐漸轉(zhuǎn)變?yōu)槎嗥贩N、小批量的生產(chǎn)方式,逐漸增多的貨品種類給倉庫的存儲(chǔ)及運(yùn)輸帶來了巨大的挑戰(zhàn)。據(jù)統(tǒng)計(jì),倉儲(chǔ)活動(dòng)占據(jù)企業(yè)經(jīng)營總成本的20%以上[1],根據(jù)中國物流與采購聯(lián)合會(huì)公布的《2020年全國物流運(yùn)行情況通報(bào)》顯示,2020年中國保管費(fèi)用(即倉儲(chǔ)費(fèi)用)5.1萬億元,同比增長7.4%,且近年來呈持續(xù)增長狀態(tài)[2]。中國制造業(yè)中原材料及半成品的揀選作業(yè)時(shí)間占整個(gè)運(yùn)輸時(shí)間的30%~40%,揀選作業(yè)成本約占倉庫運(yùn)作總成本的55%。貨物揀選是整個(gè)倉儲(chǔ)作業(yè)系統(tǒng)中工作量最多、復(fù)雜度最高的環(huán)節(jié)。因此,提高揀選環(huán)節(jié)的作業(yè)效率是降低倉儲(chǔ)成本的有效途徑。
揀選作業(yè)是指根據(jù)訂單明細(xì)對(duì)訂單處理,確定揀選策略,準(zhǔn)確、高效的揀選貨物,并運(yùn)送到相應(yīng)位置的過程[3]。許多學(xué)者從貨位分配、訂單分批、車輛調(diào)度、路徑選擇等多個(gè)方面進(jìn)行了研究。由于合理的規(guī)劃貨物揀選路徑能夠直接、有效地提高貨物揀選效率,所以諸多學(xué)者針對(duì)貨物揀選路徑問題進(jìn)行了研究。
為此,查閱近年來中外文獻(xiàn),從兩個(gè)角度對(duì)倉庫揀選路徑問題進(jìn)行闡述。一方面,從作業(yè)類型的角度出發(fā),對(duì)倉庫揀選路徑問題綜述,重點(diǎn)對(duì)單一作業(yè)進(jìn)行分析;另一方面,從研究應(yīng)用的方法技術(shù)的角度出發(fā),對(duì)求解算法進(jìn)行綜述,重點(diǎn)對(duì)算法的分類及改善進(jìn)行討論。
首先從作業(yè)類型的角度出發(fā),將作業(yè)模式分為單一作業(yè)和復(fù)合作業(yè)兩種,對(duì)近年來的文獻(xiàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),得出圖1所示的統(tǒng)計(jì)圖??梢钥闯?,對(duì)單一作業(yè)的研究始終多于對(duì)復(fù)合作業(yè)的研究,并且對(duì)單一作業(yè)的研究近年來有了大幅度增長。總體來看,有關(guān)倉庫揀選路徑問題的研究文獻(xiàn)呈增長趨勢(shì),這說明隨著倉儲(chǔ)問題的突出,如何有效提升倉庫揀選效率的問題日益受到關(guān)注。
圖1 倉庫揀選路徑問題文獻(xiàn)統(tǒng)計(jì)圖
單一作業(yè)表示僅進(jìn)行出庫作業(yè)或進(jìn)庫作業(yè),主要流程如圖2所示。單一作業(yè)主要研究內(nèi)容是通過路徑選擇[4-7]、揀選排序[8-11]及車輛分配[12-13]等舉措,提高貨物的揀選效率。按照研究的復(fù)雜程度由簡到繁,可以把單一作業(yè)分為3種類型:單車輛揀選單貨物作業(yè)、單車輛揀選多貨物作業(yè)及多車輛揀選多貨物作業(yè)。
圖2 單一作業(yè)流程圖
單車輛揀選單貨物作業(yè)是最簡單的作業(yè)方式,在近年的研究中,段建民等[4]將人工勢(shì)場的思想引入強(qiáng)化學(xué)習(xí)算法中,對(duì)揀選單貨物作業(yè)的路徑進(jìn)行了研究,以達(dá)到快速找到一條較優(yōu)的揀選路徑的目的;Lee等[5]提出了利用改進(jìn)的Q-Learning算法和Dyna-Q算法,對(duì)單車輛揀選單貨物的路徑問題進(jìn)行研究。單車輛揀選單貨物作業(yè)的作業(yè)效率相對(duì)較低,隨著經(jīng)濟(jì)的快速發(fā)展,逐漸不符合時(shí)代的發(fā)展要求,因此,針對(duì)該作業(yè)方式的研究也逐漸減少。
一些學(xué)者考慮更加符合實(shí)際的單車輛揀選多貨物的作業(yè)方式,對(duì)貨物揀選順序及路徑選擇進(jìn)行了研究。張新艷等[8]對(duì)魚骨型倉庫建立數(shù)學(xué)模型,以最小化總作業(yè)距離為目標(biāo),利用啟發(fā)式算法對(duì)貨物揀選順序進(jìn)行了優(yōu)化。傳統(tǒng)的啟發(fā)式算法常面臨收斂較慢、計(jì)算時(shí)間較長的問題,因此,王華東等[9]在對(duì)出貨量較大的電商倉庫研究時(shí),采用了動(dòng)態(tài)時(shí)間窗分揀策略,建立揀貨模型,同時(shí)設(shè)計(jì)了揀貨距離優(yōu)化算法,極大地提高了多貨物的分揀效率;陳磊等[11]針對(duì)生產(chǎn)車間線邊庫存區(qū)進(jìn)行了研究,利用貪婪算法優(yōu)化堆垛機(jī)的揀選順序及行走路徑。
針對(duì)多車輛揀選多貨物的情況,學(xué)者們?cè)谟唵闻幚?、車輛調(diào)度、車輛避碰及路徑選擇等方面進(jìn)行了研究。王秀紅等[14]將車輛調(diào)度與路徑優(yōu)化相結(jié)合,通過對(duì)比各車輛的最優(yōu)路徑實(shí)現(xiàn)車輛的調(diào)度;Aaya等[15]提出了一種新的訂單批處理啟發(fā)式算法,將訂單進(jìn)行批處理,實(shí)現(xiàn)訂單揀選總距離最小化。但是上述文獻(xiàn)缺乏對(duì)多貨物揀選順序以及車輛避碰的研究。Bao等[16]利用Dijkstra算法對(duì)車輛調(diào)度進(jìn)行研究,同時(shí)設(shè)置了停留節(jié)點(diǎn)避免車輛碰撞的發(fā)生;孫兆臣等[17]提出了將Logistic函數(shù)融入A*算法對(duì)無人搬運(yùn)車(automated guided vehicle,AVG)小車路徑優(yōu)化,引入頻次負(fù)載因子降低車輛碰撞的可能,并提出了優(yōu)先級(jí)避讓的方法。
復(fù)合作業(yè)是指即進(jìn)行入庫作業(yè)又進(jìn)行出庫作業(yè),并且先執(zhí)行入庫作業(yè),然后再進(jìn)行出庫作業(yè),且每次僅運(yùn)輸一個(gè)單位的貨物,主要流程如圖3所示。復(fù)合作業(yè)的研究重點(diǎn)是如何將入庫作業(yè)與出庫作業(yè)合理搭配,提高貨物運(yùn)輸效率。
圖3 復(fù)合作業(yè)流程圖
一些學(xué)者對(duì)倉庫的復(fù)合作業(yè)進(jìn)行了研究。王姍姍等[18]以穿梭車倉儲(chǔ)系統(tǒng)為研究對(duì)象,提出將復(fù)合作業(yè)問題視為任務(wù)指派問題,對(duì)出入庫作業(yè)合理搭配,從而達(dá)到總作業(yè)時(shí)間最??;楊瑋等[19]針對(duì)雙載式多層穿梭車倉儲(chǔ)系統(tǒng)中的多個(gè)穿梭車,考慮實(shí)際調(diào)度路徑及啟停速度,對(duì)復(fù)合作業(yè)問題建立數(shù)學(xué)模型進(jìn)行了研究;蔡安江等[20]對(duì)立體倉庫的堆垛機(jī)建立基于復(fù)合作業(yè)的多車輛調(diào)度模型,同時(shí)提出了統(tǒng)籌分配的分配原則,避免車輛碰撞。
綜上所述,有關(guān)倉庫揀選路徑問題的研究文獻(xiàn)中,以單一作業(yè)問題的研究居多,研究內(nèi)容由原來的對(duì)單車輛揀選單貨物的研究,到對(duì)單車輛揀選多貨物的研究,再到對(duì)多車輛揀選多貨物進(jìn)行研究,研究中考慮的因素逐漸增多,問題的復(fù)雜性越來越高,同時(shí)也更加符合實(shí)際情況。復(fù)合作業(yè)研究的主要是利用堆垛機(jī)或穿梭車進(jìn)行出入庫作業(yè),比單一作業(yè)問題的研究更加復(fù)雜,雖然近年來對(duì)于復(fù)合作業(yè)的研究較少,但其作業(yè)效率比單一作業(yè)高是不可否認(rèn)的,因此,對(duì)復(fù)合作業(yè)問題的研究也是十分有必要的。無論是對(duì)單一作業(yè)的研究還是有關(guān)復(fù)合作業(yè)的研究,多數(shù)文獻(xiàn)是以最小化作業(yè)距離或者最小化作業(yè)時(shí)間為研究目標(biāo),提高作業(yè)效率固然重要,但把它作為唯一的研究目標(biāo)是不可取的,所以今后的研究應(yīng)朝著多元化研究目標(biāo)的方向發(fā)展。
路徑規(guī)劃問題的求解方法在近幾十年里得到了飛速的發(fā)展。在研究初期,學(xué)者多利用圖形學(xué)的方法求解,如可視圖法[21]、自由空間法[22]等。隨著技術(shù)的發(fā)展,虛擬力場法(virtual force field,VFF)[23]、模糊綜合評(píng)價(jià)法(Fuzzy)[24]等傳統(tǒng)算法逐漸被應(yīng)用。隨后,路徑規(guī)劃問題應(yīng)用了更加先進(jìn)的遺傳算法(genetic algorithm,GA)[25-27]、蟻群算法(ant colony optimization,ACO)[28-29]等啟發(fā)式算法求解。近年來,新興的Q-Learning算法[30-32]、DQN(deepQnetwork)算法[33-34]等機(jī)器學(xué)習(xí)的方法也逐漸被應(yīng)用。路徑規(guī)劃問題求解方法的發(fā)展歷程如圖4所示。
粒子群優(yōu)化算法(particle swarm optimization,PSO);深度Q網(wǎng)絡(luò)算法(deep Q network,DQN);向量場直方圖算法(vector field histogram,VFH)
在近年來的研究中,倉庫揀選路徑問題通常被看作NP-hard問題,此類問題求解過程復(fù)雜,難以遍歷所有解,多數(shù)中外學(xué)者將此類問題抽象為TSP(travelling salesman problem)問題,利用啟發(fā)式算法進(jìn)行求解。此外,隨著人工智能領(lǐng)域的不斷發(fā)展,機(jī)器學(xué)習(xí)的方法也逐漸被應(yīng)用到揀選路徑問題上來。對(duì)近年來倉庫揀選路徑問題的求解方法進(jìn)行統(tǒng)計(jì),如圖5所示??梢钥闯?,在解決倉庫揀選路徑問題的方法中,啟發(fā)式算法的應(yīng)用最為普遍,并且在近幾年的研究中猛烈增長,機(jī)器學(xué)習(xí)作為新興的方法,從2016年開始也逐漸被應(yīng)用,并且在穩(wěn)步發(fā)展之中。因此,將從應(yīng)用最為普遍的啟發(fā)式算法和機(jī)器學(xué)習(xí)方法對(duì)揀選路徑問題的求解方法進(jìn)行闡述。
圖5 研究方法統(tǒng)計(jì)圖
近年來,倉庫揀選路徑問題中啟發(fā)式算法的應(yīng)用情況如圖6所示,可以明顯看出,常用的啟發(fā)式算法有:遺傳算法、蟻群算法等。常用的啟發(fā)式算法的優(yōu)缺點(diǎn)如表1所示。利用啟發(fā)式算法求解有時(shí)會(huì)得到很壞的解或搜索效率極差,因此,將從改進(jìn)算法和混合算法兩個(gè)方面對(duì)啟發(fā)式算法的優(yōu)化進(jìn)行論述。
圖6 啟發(fā)式算法應(yīng)用情況
表1 常用算法優(yōu)缺點(diǎn)
針對(duì)啟發(fā)式算法存在的缺點(diǎn),一些學(xué)者對(duì)算法進(jìn)行了改進(jìn)。
(1)改進(jìn)遺傳算法。田欣等[35]針對(duì)遺傳算法收斂過慢問題,引入先驗(yàn)知識(shí)并提出參數(shù)自適應(yīng)調(diào)整方式,加快算法的收斂速度,并針對(duì)易陷入局部最優(yōu)的問題,將模擬退火算法的Metropolis準(zhǔn)則引入,減少搬運(yùn)機(jī)器人的行走時(shí)間。利用實(shí)例進(jìn)行驗(yàn)證,結(jié)果證明改進(jìn)后的算法在收斂速度、尋有能力上都有明顯的提升。Han等[36]為解決遺傳算法易陷入局部最優(yōu)的缺點(diǎn),提出采用三交換交叉啟發(fā)式算子產(chǎn)生最優(yōu)子代的方法改進(jìn)遺傳算法,通過對(duì)AGV行駛總路徑和單AGV行駛路徑兩方面最小化的約束,求得最優(yōu)路徑;易琦等[37]將某個(gè)魚骨型倉庫作為研究對(duì)象,考慮車輛的載重和體積限制,將揀選路徑問題看作多目標(biāo)問題進(jìn)行研究,在多種約束條件下建立多目標(biāo)數(shù)學(xué)模型,采用多層編碼遺傳算法進(jìn)行求解,同時(shí)利用MATLAB軟件進(jìn)行仿真模擬,從而證明了該算法的有效性;此外,還有學(xué)者通過多層嵌套[38-39]、適應(yīng)性函數(shù)[40]等方法提高遺傳算法的性能。
(2)改進(jìn)蟻群算法。蟻群算法存在的最大的缺點(diǎn)是收斂速度過慢,對(duì)于此,李龍澍等[41]針對(duì)蟻群算法,提出利用方向指導(dǎo)信息優(yōu)化初始信息素的分布情況,改善了算法前期收過慢的缺點(diǎn),同時(shí)利用區(qū)域安全因素對(duì)轉(zhuǎn)移概率進(jìn)行改進(jìn),避免陷入局部最優(yōu),最后通過在多個(gè)不同復(fù)雜程度的模擬倉庫中實(shí)驗(yàn),從而驗(yàn)證了改進(jìn)效果;賀智明等[42]提出了一種自適應(yīng)動(dòng)態(tài)搜索蟻群算法,將偽隨機(jī)分布和自適應(yīng)轉(zhuǎn)移概率相結(jié)合,加快收斂過程,同時(shí)將信息素強(qiáng)度分段化,避免陷入局部最優(yōu);Santis等[43]提出將運(yùn)籌學(xué)的方法Floyd-Warshall(FW)算法融入傳統(tǒng)的蟻群算法中,增強(qiáng)識(shí)別最短路徑的能力。
(3)改進(jìn)其他算法。除了常用的算法之外,還有學(xué)者利用其他啟發(fā)式算法進(jìn)行相關(guān)研究。羅如學(xué)等[44]利用人工魚群算法對(duì)路徑規(guī)劃進(jìn)行了研究,為防止算法陷入局部最優(yōu),對(duì)算法中的視野范圍進(jìn)行了改進(jìn),同時(shí)修改擁擠度函數(shù)加快算法收斂速度;徐翔斌等[45]為解決多AGV擁堵問題,設(shè)計(jì)了系統(tǒng)優(yōu)化策略,建立考慮避碰的數(shù)學(xué)模型,同時(shí)設(shè)計(jì)了時(shí)空模擬退火算法求解,通過實(shí)驗(yàn)驗(yàn)證了算法的有效性;Wu等[46]將圖像處理與路徑規(guī)劃避碰技術(shù)相結(jié)合,將障礙物的頂點(diǎn)轉(zhuǎn)化為網(wǎng)絡(luò)節(jié)點(diǎn),改進(jìn)Dijkstra算法,利用代價(jià)函數(shù)尋找最優(yōu)路徑。
此外,一些學(xué)者將兩個(gè)甚至多個(gè)算法結(jié)合,形成混合算法。針對(duì)遺傳算法收斂速度較慢的問題,Maryam等[47]提出了將遺傳算法與粒子群算法混合,充分發(fā)揮粒子群算法收斂速度快的優(yōu)點(diǎn),解決AGV車輛調(diào)度及路徑選擇的問題;閆軍等[6]為了解決遺傳算法易陷入局部最優(yōu)的缺點(diǎn),將模擬退火算法與遺傳算法相結(jié)合,充分發(fā)揮模擬退火算法局部尋優(yōu)的特性,改善遺傳算法易于“早熟”的缺點(diǎn),為了驗(yàn)證效果,采用實(shí)例分別利用遺傳算法和遺傳模擬算法求解計(jì)算,結(jié)果表明:遺傳模擬算法的揀選路徑更優(yōu),用時(shí)更短。針對(duì)粒子群算法易陷入局部最優(yōu)的問題,楊瑋等[48]提出了粒子群算法和模擬退火算法相結(jié)合,從而防止因過早收斂陷入局部最優(yōu);朱永強(qiáng)等[49]將A*算法與蟻群算法相結(jié)合,首先利用A*算法預(yù)先搜索出來一條最短路徑作為較優(yōu)解,然后利用蟻群算法繼續(xù)尋找更優(yōu)解;唐磊等[50]考慮旅行商問題(travelling salesman problem,TSP)貨位僅能訪問一次的缺陷,將貪心算法與遺傳算法相結(jié)合,提高混合算法的尋優(yōu)能力。
啟發(fā)式算法作為解決路徑問題最常用的求解方法,在解決倉庫揀選路徑問題上發(fā)揮著重大作用。但不可否認(rèn),啟發(fā)式算法也存在諸多問題,雖然通過各式各樣的改進(jìn),最大可能的減少了收斂過慢、局部最優(yōu)等不足之處,但同樣也增加了運(yùn)算的復(fù)雜度,因此在解決復(fù)雜的路徑問題時(shí),容易出現(xiàn)運(yùn)算時(shí)間過長、解的質(zhì)量較差等問題。因此,啟發(fā)式算法更適用于求解較為簡單的路徑問題。
機(jī)器學(xué)習(xí)是研究機(jī)器如何模仿人類的動(dòng)作、語言等活動(dòng)的一門學(xué)科。近年來,強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)的重要分支逐漸發(fā)展起來,它被認(rèn)為是未來人工智能的核心技術(shù)之一[51]。
正是具有較強(qiáng)的學(xué)習(xí)能力和可以與環(huán)境交互的特點(diǎn),強(qiáng)化學(xué)習(xí)逐漸被應(yīng)用到路徑選擇問題的研究中。與啟發(fā)式算法相比,強(qiáng)化學(xué)習(xí)具有不同的優(yōu)缺點(diǎn),如表2所示。可以看出,強(qiáng)化學(xué)習(xí)在倉庫揀選路徑問題上的應(yīng)用更加靈活,適應(yīng)性更強(qiáng)。Q-Learning算法[52]作為強(qiáng)化學(xué)習(xí)中最為經(jīng)典、成熟的算法之一,成為中外學(xué)者在研究路徑選擇問題上應(yīng)用最多的算法。同樣,Q-Learning算法也存在前期收斂過慢及易出現(xiàn)維數(shù)災(zāi)難的缺點(diǎn),因此,諸多學(xué)者針對(duì)這兩點(diǎn)不足進(jìn)行大量的研究和優(yōu)化。
表2 啟發(fā)式算法和強(qiáng)化學(xué)習(xí)優(yōu)缺點(diǎn)對(duì)比
強(qiáng)化學(xué)習(xí)是一種試錯(cuò)學(xué)習(xí),在前期需要不斷地嘗試學(xué)習(xí),積累經(jīng)驗(yàn),從而找到最優(yōu)路徑。所以,計(jì)算前期漫無目的的搜索導(dǎo)致前期收斂過慢。針對(duì)此問題,中外學(xué)者采取各種措施加快收斂速度。
(1)優(yōu)化Q-Learning算法。近年來,學(xué)者們針對(duì)Q-Learning算法提出諸多優(yōu)化方法。徐曉蘇等[53]將引力勢(shì)場應(yīng)用到算法之中,在初始環(huán)境下,目標(biāo)點(diǎn)附近設(shè)置引力場,并構(gòu)造勢(shì)場函數(shù),同時(shí)增加了動(dòng)作數(shù)量和動(dòng)作步長,提高了路徑的平滑度,加快了算法的收斂速度,以達(dá)到縮短了收斂時(shí)間的目的;毛國君等[54]提出對(duì)Q-Learning算法中的貪婪因子進(jìn)行改進(jìn),將傳統(tǒng)的算法中固定的貪婪因子動(dòng)態(tài)化,當(dāng)探索以失敗告終時(shí)增大貪婪因子的值,當(dāng)探索成功時(shí)減小貪婪因子的值,在加快收斂速度的同時(shí)保證算法的探索性;Zhao等[55]提出將神經(jīng)網(wǎng)絡(luò)與Q-Learning算法相結(jié)合,用于無人機(jī)路徑規(guī)劃與避碰,使得無人機(jī)能夠獲得先驗(yàn)知識(shí),提高算法的學(xué)習(xí)效率。
(2)構(gòu)造新算法。唐恒亮等[56]在Q-Learning算法的基礎(chǔ)上結(jié)合時(shí)序差分[temporal-difference,TD(λ)]的回報(bào)思想,考慮采樣后λ個(gè)狀態(tài),同時(shí)引入了啟發(fā)因子和調(diào)和函數(shù),并對(duì)ε-greedy(ε為貪婪因子)探索策略加入調(diào)和函數(shù),設(shè)計(jì)出改進(jìn)的多步Q學(xué)習(xí)算法[Q(λ)算法],加快了尋找最優(yōu)路徑的速度。利用MATLAB設(shè)計(jì)仿真實(shí)驗(yàn),驗(yàn)證新算法在搜尋速度、探尋次數(shù)、路徑質(zhì)量等方面更優(yōu)。成怡等[57]為解決強(qiáng)化學(xué)習(xí)方法在未知環(huán)境下收斂速度慢的問題,提出了一種基于深度圖像信息的深度強(qiáng)化學(xué)習(xí)算法,提高機(jī)器人的探索能力,加快了收斂速度。
在復(fù)雜環(huán)境中利用Q-Learning算法容易出現(xiàn)維數(shù)災(zāi)難的問題,這是因?yàn)樵趥鹘y(tǒng)的Q-Learning算法中,會(huì)內(nèi)置一個(gè)Q表用于儲(chǔ)存產(chǎn)生的Q值信息,智能體每進(jìn)行一個(gè)動(dòng)作,環(huán)境就會(huì)變化一次,Q表也會(huì)更新一次。因此,當(dāng)環(huán)境十分復(fù)雜,智能體的動(dòng)作數(shù)量將十分龐大,導(dǎo)致Q無法儲(chǔ)存全部的Q值,造成維數(shù)災(zāi)難。為了解決這一問題,一些學(xué)者也進(jìn)行了相關(guān)研究。針對(duì)維數(shù)災(zāi)難的問題,現(xiàn)行最佳解決辦法是與深度學(xué)習(xí)相結(jié)合。李輝等[58]將神經(jīng)網(wǎng)絡(luò)與Q-Learning算法相結(jié)合,提出改進(jìn)的深度強(qiáng)化學(xué)習(xí)算法,利用值函數(shù)近似法代替了Q-learning算法中的動(dòng)作值函數(shù),利用神經(jīng)網(wǎng)絡(luò)代替Q表,從而避免了Q-learning算法在復(fù)雜環(huán)境中容易出現(xiàn)的維數(shù)災(zāi)難問題;董永峰等[33]提出了動(dòng)態(tài)融合深度雙Q算法,利用神經(jīng)網(wǎng)絡(luò)代替Q表,對(duì)DQN算法進(jìn)行改進(jìn);Kim等[59]提出了不預(yù)先生成Q表,根據(jù)所需的學(xué)習(xí)速度調(diào)整探索策略,從而降低了維數(shù)災(zāi)難發(fā)生的可能性,同時(shí)加快了收斂。
與啟發(fā)式算法相比,利用強(qiáng)化學(xué)習(xí)解決路徑問題不需要建立復(fù)雜的數(shù)學(xué)模型,同時(shí)強(qiáng)化學(xué)習(xí)在未知環(huán)境下具有較強(qiáng)的探索能力。但傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法同樣也面臨著收斂過慢的問題,因此也僅適用于較為簡單的路徑問題。隨著深度學(xué)習(xí)的發(fā)展,學(xué)者們創(chuàng)建了像DQN等深度強(qiáng)化學(xué)習(xí)的算法,更加適用于較為復(fù)雜的環(huán)境中。
除傳統(tǒng)的啟發(fā)式算法和新興的機(jī)器學(xué)習(xí)外,還有一些學(xué)者利用射頻識(shí)別技術(shù)(radio frequency identification,RFID)、偏移度、整數(shù)規(guī)劃等知識(shí)對(duì)倉庫揀選路徑問題進(jìn)行研究。李軍等[60]利用RFID技術(shù)對(duì)出入庫及揀選過程自動(dòng)識(shí)別,從而對(duì)倉庫狀態(tài)實(shí)時(shí)更新,并提出了基于偏離度的路徑優(yōu)化方法,提高揀選效率;Miao等[61]針對(duì)存在較多障礙物的復(fù)雜環(huán)境,提出基于矩形映射分解的路徑規(guī)劃方法,促進(jìn)全覆蓋的路徑規(guī)劃;Zhen等[62]利用拓?fù)浞▌?chuàng)建倉庫地圖模型,提出Floyd算法搜索倉庫中任意兩個(gè)儲(chǔ)位的最優(yōu)路徑。
綜上所述,在針對(duì)倉庫揀選路徑問題的求解方法中,以啟發(fā)式算法為主。此外,近年來倉庫揀選路徑問題的求解方法呈多元化方向發(fā)展,其中,強(qiáng)化學(xué)習(xí)的相關(guān)算法應(yīng)用最為突出,在未來具有較大的發(fā)展空間。
根據(jù)中外學(xué)者對(duì)倉庫揀選路徑問題的研究,主要從作業(yè)類型和研究方法進(jìn)行了論述。從倉庫揀選路徑問題的研究現(xiàn)狀以及發(fā)展前景來看,未來的研究主要集中在以下三個(gè)方面。
(1)多樣化的研究目標(biāo)。目前對(duì)倉庫揀選路徑問題的研究中,多數(shù)文獻(xiàn)以最小化作業(yè)時(shí)間或作業(yè)距離為目標(biāo)。但一味地追求高效并非最佳策略,例如,危險(xiǎn)品儲(chǔ)存?zhèn)}庫要在最大化安全性的前提下高效運(yùn)輸,易碎品儲(chǔ)存?zhèn)}庫要以最大化穩(wěn)定性為目標(biāo),同時(shí),一些倉庫還會(huì)以最大化綠色度等為目標(biāo)。因此,如何平衡多種目標(biāo)之間的比重,以符合倉庫的實(shí)際情況,成為在今后研究中需要解決的問題。
(2)多元化的研究方法。自對(duì)路徑規(guī)劃問題研究以來,圖形學(xué)方法、啟發(fā)式算法、強(qiáng)化學(xué)習(xí)等知識(shí)逐漸被應(yīng)用。目前,啟發(fā)式算法作為倉庫揀選路徑問題中應(yīng)用最多的算法,但大部分啟發(fā)式算法在收斂性、求解速度、求解質(zhì)量等方面存在不足。另外,強(qiáng)化學(xué)習(xí)在路徑規(guī)劃領(lǐng)域的應(yīng)用依然處于初始階段,具有較強(qiáng)的自我學(xué)習(xí)能力和試錯(cuò)能力,因此在倉庫揀選路徑領(lǐng)域有很大的發(fā)展?jié)摿?,但也存在前期收斂過慢、易出現(xiàn)維數(shù)災(zāi)難等缺點(diǎn)。因此,為了求解更加復(fù)雜多樣的研究目標(biāo),探尋更加優(yōu)秀求解方法或混合算法是今后研究中的難點(diǎn)之一。
(3)更加符合實(shí)際的作業(yè)模式。在目前的研究中,多數(shù)文獻(xiàn)僅研究了單車輛揀選貨物或揀選單個(gè)貨物的情況。而在實(shí)際倉庫中,多個(gè)車輛同時(shí)揀選多個(gè)貨物為常態(tài)。隨著研究的深入,揀選任務(wù)及倉庫環(huán)境將逐漸變得復(fù)雜多變,也更加符合實(shí)際情況。例如,考慮多車輛協(xié)同、訂單的緊急程度等因素。因此,未來的研究將朝著復(fù)雜化、動(dòng)態(tài)化發(fā)展。