基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配

2017-07-14 22:19陳淮莉吳夢姣

上海海事大學(xué)學(xué)報(bào) 2017年2期

關(guān)鍵詞：Logit模型

陳淮莉+吳夢姣

摘要：為解決在線訂單配送效率低、時(shí)隙運(yùn)能分配不均衡和顧客滿意度不高的問題，考慮價(jià)格和交付期對消費(fèi)者選擇行為的影響建立Logit模型，采用強(qiáng)化學(xué)習(xí)結(jié)合時(shí)隙運(yùn)能分配特點(diǎn)對到達(dá)的訂單群進(jìn)行運(yùn)能分配.算例模擬結(jié)果證明：采用強(qiáng)化學(xué)習(xí)能使每個(gè)時(shí)隙每輛車的運(yùn)能分配均衡，且分配方法符合消費(fèi)者的行為偏好；消費(fèi)者對時(shí)隙價(jià)格偏好程度越高商家收益就越低.結(jié)論驗(yàn)證了采用強(qiáng)化學(xué)習(xí)解決時(shí)隙運(yùn)能分配問題的可行性和有效性.

關(guān)鍵詞：時(shí)隙；運(yùn)能配置； Logit模型；強(qiáng)化學(xué)習(xí)

中圖分類號(hào)： F274； F502

文獻(xiàn)標(biāo)志碼： A

Abstract： In order to solve the lower efficiency of online order delivery， the unbalanced capacity allocation of time slots and the lower customer satisfaction， the Logit model is established considering the influence of the price and lead time on the selection behavior of consumers. Considering the character of capacity allocation of time slot， the orders are assigned to the vehicles by the reinforcement learning. The example simulation results show that： the capacity of every time slot and every vehicle can be balanced by the reinforcement learning and the allocation method accords with the behavioral preference of consumers； the more attention consumers take to the price of time slot， the lower profit retails can get. The conclusion

verifies feasibility and effectiveness of adopting the reinforcement learning to solve the capacity allocation of time slot.

Key words： time slot； capacity allocation； Logit model； reinforcement learning

0 引言

電子商務(wù)的興起給傳統(tǒng)零售業(yè)帶來了新的發(fā)展方向，也給訂單配送提出了更高的要求.除訂單價(jià)格影響消費(fèi)者的選擇行為外，訂單的交付期也成為消費(fèi)者考慮的重要因素.時(shí)隙（time slot）在電子商務(wù)中指網(wǎng)絡(luò)零售商提供給消費(fèi)者選擇的訂單送達(dá)的交貨時(shí)間窗[1]，如亞馬遜、京東商城、當(dāng)當(dāng)網(wǎng)都向消費(fèi)者提供了配送時(shí)隙選項(xiàng)，其中京東的“極速達(dá)”保證在服務(wù)時(shí)間（3 h）內(nèi)將貨物送至客戶手上，但收費(fèi)往往是常規(guī)配送的幾倍.通過給消費(fèi)者提供訂單配送時(shí)隙表安排配送作業(yè)，一方面有利于消費(fèi)者根據(jù)自身情況安排接收，提高客戶滿意度，另一方面有利于協(xié)調(diào)物流服務(wù)商的作業(yè)安排，合理規(guī)劃車輛運(yùn)能和配送時(shí)間線路，提升競爭能力.雖然電商的差異化交付期承諾可以滿足消費(fèi)者需求，但在承諾交付期時(shí)需根據(jù)自身車輛運(yùn)能情況進(jìn)行權(quán)衡.

CAMPBELL等[2]研究發(fā)現(xiàn)時(shí)隙價(jià)格會(huì)影響消費(fèi)者的選擇行為和商家的最終收益，采用價(jià)格激勵(lì)方法可調(diào)控消費(fèi)者的選擇行為.在現(xiàn)實(shí)配送中，存在預(yù)先知道配送地點(diǎn)但對配送時(shí)間不明的問題，對此SROUR等[3]提出了混合整數(shù)規(guī)劃模型，與傳統(tǒng)的配送方式對比，該模型很大程度上提高了配送效率.陳淮莉等[4]從消費(fèi)者選擇模型出發(fā)建立了收益模型，通過求解模型得出區(qū)域和時(shí)隙寬度對消費(fèi)者時(shí)隙選擇行為的影響.李科峰等[5]研究了基于時(shí)隙配送的訂單履約方法，并從時(shí)隙配送的角度建立了優(yōu)化模型.元鵬鵬等[6]考慮時(shí)隙替代的客戶選擇行為，并結(jié)合交付期敏感度和時(shí)隙運(yùn)能等因素建立了規(guī)劃模型，對比分析了各種因素對收益的影響.

在實(shí)際的訂單時(shí)隙管理中，訂單接收和配送不僅需要考慮時(shí)隙定價(jià)，還需要結(jié)合時(shí)隙運(yùn)能要求進(jìn)行綜合分析.強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）是基于馬爾科夫過程理論的隨機(jī)動(dòng)態(tài)系統(tǒng)的最優(yōu)決策過程，是解決訂單配置問題的一種較好的求解方法.郝鵑等[7]基于收益管理的思想研究了不確定環(huán)境下按訂單生產(chǎn)（Made To Order， MTO）的企業(yè)的訂單接收問題，把訂單類型、訂單價(jià)格和訂單交付期作為系統(tǒng)狀態(tài)劃分標(biāo)準(zhǔn)，提出了解決訂單接收問題的RL算法，并證明了算法的可行性.趙紹航[8]采用RL中的SMART（SemiMarkov Average Reward Technique）確定供應(yīng)鏈庫存中貨物訂購的必要性及訂購的數(shù)量.SMART能夠求解狀態(tài)集和動(dòng)作集都較大的RL問題.

電商訂單配置具有動(dòng)態(tài)性.劉成麗[9]在進(jìn)行突發(fā)事件的動(dòng)態(tài)管理時(shí)，結(jié)合博弈論和RL的思想，從突發(fā)事件的緊急程度、事件隊(duì)列等方面對動(dòng)態(tài)任務(wù)分配進(jìn)行建模，決定處理突發(fā)事件的先后順序使平均任務(wù)效益最大.王金田[10]提出基于模擬退火的Q學(xué)習(xí)比普通的Q學(xué)習(xí)更適合解決電商的動(dòng)態(tài)定價(jià)問題，從單銷售商定價(jià)到雙銷售商定價(jià)進(jìn)行訂單動(dòng)態(tài)管理.黃云霞[11]在解決信號(hào)接入問題時(shí)，運(yùn)用改進(jìn)的Q學(xué)習(xí)分析了用戶接入共享空閑信道和獨(dú)占空閑信道的方式，研究了雙信道內(nèi)無線網(wǎng)絡(luò)動(dòng)態(tài)頻譜分配，提出了兩種接入方式下的協(xié)作ε貪心算法，顯著提高了信號(hào)接入效率.MICHAEL[12]運(yùn)用RL的方法解決網(wǎng)絡(luò)信息配置過程中的定價(jià)和能力配置問題，并與遺傳算法進(jìn)行對比.

綜上，已有的訂單時(shí)隙研究主要集中在時(shí)隙定價(jià)上，是通過靜態(tài)定價(jià)模型引導(dǎo)消費(fèi)者的時(shí)隙選擇行為，忽略了時(shí)隙的運(yùn)能限制和訂單處理過程的動(dòng)態(tài)性.RL的求解方式能夠較好地體現(xiàn)訂單動(dòng)態(tài)性的特征，因此本文基于電商訂單時(shí)隙配送的特點(diǎn)，并考慮消費(fèi)者選擇時(shí)隙的行為和時(shí)隙運(yùn)能的限制，通過RL解決時(shí)隙運(yùn)能的動(dòng)態(tài)分配問題，期望得到最佳的分配策略，為電商運(yùn)能分配決策提供參考.

1 基于RL的訂單處理過程

在線訂單處理流程主要分為訂單提交、訂單分配和訂單配送等3個(gè)過程.以京東商城為例：消費(fèi)者挑選完商品后填寫配送地址，選擇配送時(shí)隙，提交訂單并付款；京東配送中心根據(jù)配送地址和時(shí)隙將訂單分配給特定的運(yùn)輸車輛，然后進(jìn)行商品分揀、出庫，并裝入特定車輛進(jìn)行配送.在線訂單處理流程是一個(gè)動(dòng)態(tài)決策過程，當(dāng)時(shí)隙運(yùn)能固定時(shí)，當(dāng)前訂單分配結(jié)果直接影響到下一訂單的分配，符合Markov決策過程.RL作為Markov決策過程的解決方案，能夠與外界環(huán)境發(fā)生互動(dòng)，并能根據(jù)訂單特性不斷選擇較好的策略，強(qiáng)化此策略的動(dòng)作選擇.

1.1 參數(shù)定義

消費(fèi)者選擇概率是電商預(yù)測消費(fèi)者行為的方法，通過下單時(shí)間和客戶對價(jià)格、交付期的偏好，預(yù)測消費(fèi)者選擇特定時(shí)隙的概率.本文把消費(fèi)者選擇概率默認(rèn)為系統(tǒng)預(yù)測消費(fèi)者選擇訂單配送時(shí)隙的概率.

1.3 RL

從RL算法的角度看，每個(gè)隨機(jī)到達(dá)的訂單都使系統(tǒng)進(jìn)入一個(gè)新狀態(tài).在每個(gè)狀態(tài)下，系統(tǒng)對當(dāng)前訂單有兩種動(dòng)作選擇，即接收訂單或放棄訂單.然而，由于時(shí)隙的特殊性，系統(tǒng)還需要分配訂單配送時(shí)隙和配送車輛，然后進(jìn)入下一狀態(tài)，對下一訂單再選擇動(dòng)作，即分配時(shí)隙和車輛.由此，定義RL中的狀態(tài)集、動(dòng)作集、即時(shí)收益函數(shù)和值函數(shù)的更新規(guī)則.

當(dāng)前訂單的狀態(tài)值Q（sq，atm）=訂單配送計(jì)劃表×收益，狀態(tài)集系統(tǒng)根據(jù)當(dāng)前訂單的動(dòng)作選擇再次更新配送計(jì)劃表和已經(jīng)獲得的收益.

1.4 訂單處理過程

綜上，基于RL的訂單時(shí)隙運(yùn)能配置算法主要過程如下：輸入運(yùn)能限制表和即時(shí)收益矩陣；初始化動(dòng)作值函數(shù)和計(jì)劃表；以RL訓(xùn)練次數(shù)的設(shè)定值為循環(huán)迭代數(shù)處理訂單.每個(gè)訂單的處理過程（即動(dòng)作選擇過程）分為3步：第1步，根據(jù)交付期和訂單價(jià)格，基于Logit模型在動(dòng)作集中選擇動(dòng)作，得到收益rqt.如果該訂單被配置時(shí)隙t和車輛m后未超過車輛m運(yùn)能配置的最大值，則選擇動(dòng)作atm；否則，系統(tǒng)自動(dòng)選擇同時(shí)隙的其他車輛作為該訂單的配置車輛；若選擇此動(dòng)作后，超過時(shí)隙運(yùn)能最大限制，則系統(tǒng)放棄訂單.第2步，由于訂單配置過程中的狀態(tài)轉(zhuǎn)移概率為1，所以下一狀態(tài)即為訂單列表的下一訂單，根據(jù)式（1）計(jì)算Q（sq，atm）.第3步，令sq←sq+1，計(jì)算下一訂單.直到所有訂單處理完畢.

按照上述算法流程，系統(tǒng)根據(jù)訂單q的價(jià)格、配送時(shí)隙、已有計(jì)劃表、運(yùn)能限制等選擇訂單q的動(dòng)作.動(dòng)作結(jié)束后，系統(tǒng)更新計(jì)劃表.計(jì)劃表更新后處理下一訂單，根據(jù)訂單q+1的價(jià)格、配送時(shí)隙、更新后的計(jì)劃表、運(yùn)能限制等選擇訂單q+1的動(dòng)作，再次更新計(jì)劃表.以此循環(huán)不斷更新計(jì)劃表，直到處理完所有訂單得到最終計(jì)劃表.

1.5 探索空間

在RL中，

通常用ε貪心策略解決探索未知空間和現(xiàn)有知識(shí)利用問題，即以概率ε隨機(jī)選擇行動(dòng)，以概率1-ε選擇最優(yōu)的行動(dòng).一方面鑒于電商消費(fèi)者選擇的特性，選擇Logit模型作為選擇最優(yōu)動(dòng)作的方法，這是因?yàn)榕c貪心策略相比，Logit模型能更好地描述消費(fèi)者的時(shí)隙選擇行為，不以回報(bào)值最大作為探索未知空間和利用現(xiàn)有知識(shí)的依據(jù)，同時(shí)，既考慮選擇概率大的配送時(shí)隙也考慮選擇概率小的配送時(shí)隙，甚至考慮放棄時(shí)隙選擇的可能性；另一方面結(jié)合Logit模型，設(shè)置探索空間閾值，在數(shù)據(jù)量大時(shí)能夠更快地得出結(jié)果，保證結(jié)果收斂且收益值較高.

2 算例

假設(shè)配送時(shí)間為8：00—20：00，時(shí)隙長度為2 h，共有4輛配送車輛.車輛和時(shí)隙的初始運(yùn)能分配見表1.每輛車每個(gè)時(shí)隙的運(yùn)能限制都為50個(gè)單位，如初始運(yùn)能分配計(jì)劃中車輛1在8：00—10：00內(nèi)需要完成40個(gè)訂單的配送，且車輛1在此時(shí)隙最多能承擔(dān)50個(gè)單位貨物的配送.假設(shè)在4：00—8：00內(nèi)按照泊松分布到達(dá)300個(gè)訂單，對這部分訂單進(jìn)行運(yùn)能配置.采用MATLAB 2013a進(jìn)行算例模擬.設(shè)置RL訓(xùn)練次數(shù)為500，α=0.99，γ=0.98，Uq0=10，β1=0.1，β2=0.1，服從泊松分布的λ=3.

2.1 運(yùn)能分配分析

在訂單分配過程中，電商需要權(quán)衡利潤與成本的關(guān)系.對臨時(shí)到達(dá)的訂單商家會(huì)選擇把該訂單加入已有的配送任務(wù)計(jì)劃中，或當(dāng)訂單規(guī)模達(dá)到一定程度后，考慮增加新的配送任務(wù)，充分利用已有的計(jì)劃運(yùn)能或增加新的運(yùn)能，使配送成本不至于過高，也使每輛車每時(shí)隙的任務(wù)分配均衡.經(jīng)過模擬運(yùn)行，得到各時(shí)隙的訂單接收情況，表2是運(yùn)行結(jié)果，300個(gè)訂單中放棄24個(gè)訂單，剩余的276個(gè)訂單得到運(yùn)能分配.

每時(shí)隙每輛車并不都是有初始任務(wù)分配的，如對于時(shí)隙14：00—16：00，車輛1是沒有配送任務(wù)的，車輛運(yùn)能浪費(fèi).通過RL，對臨時(shí)到達(dá)的訂單進(jìn)行分配后車輛和時(shí)隙的運(yùn)能達(dá)到了均衡，說明RL用于解決運(yùn)能分配問題具有可行性.從結(jié)果可知，大多數(shù)訂單選擇時(shí)隙8：00—10：00，此時(shí)隙的運(yùn)能到達(dá)限制，得到了充分利用，時(shí)隙10：00—12：00的訂單量次于時(shí)隙8：00—10：00的訂單量，這符合消費(fèi)者的實(shí)際需求.

2.2 價(jià)格偏好對總收益的影響

客戶對價(jià)格的偏好程度會(huì)影響商家的總收益.圖1是基于RL進(jìn)行運(yùn)能分配時(shí)β2對訂單總收益的影響.從圖1可明顯看出，β2值越大，總收益越小.這說明，β2值越大消費(fèi)者對價(jià)格的偏好程度越高.此類消費(fèi)者為價(jià)格敏感型消費(fèi)者，表現(xiàn)為某時(shí)隙價(jià)格越高，消費(fèi)者對此時(shí)隙的選擇可能性就越小.

高價(jià)格訂單的消費(fèi)者對交付期敏感，對時(shí)隙價(jià)格不敏感，而低價(jià)格訂單的消費(fèi)者則相反.對此，考察訂單等級與消費(fèi)者放棄訂單次數(shù)的關(guān)系.按照訂單價(jià)格細(xì)分訂單等級：A等級訂單的價(jià)格服從均勻分布[50，150]，B等級訂單的價(jià)格服從均勻分布（150，250]，C等級訂單的價(jià)格服從均勻分布（250，350].對消費(fèi)者放棄訂單次數(shù)進(jìn)行模擬，訂單等級越高β2值越小.圖2是消費(fèi)者放棄訂單次數(shù)頻數(shù)直方圖，放棄訂單次數(shù)在20到100之間，對頻數(shù)不超過10的數(shù)據(jù)未在圖中標(biāo)示.

從圖2的結(jié)果可知，受運(yùn)能的限制，消費(fèi)者放棄這3個(gè)等級訂單的次數(shù)較為穩(wěn)定，大部分在[50，80）中.A等級訂單屬于低價(jià)格等級訂單，消費(fèi)者放棄該類訂單的次數(shù)比其余兩類訂單的少；C等級訂單價(jià)格較高，消費(fèi)者放棄該類訂單的次數(shù)較多.C等級訂單的消費(fèi)者對時(shí)隙價(jià)格不敏感，其選擇行為主要是由時(shí)隙的交付期和運(yùn)能決定的，A等級訂單消費(fèi)者則相反.

綜上，提出如下建議：對網(wǎng)絡(luò)零售商配送運(yùn)能不足的問題，通過預(yù)測訂單量和時(shí)隙選擇行為進(jìn)行運(yùn)能規(guī)劃，提前租賃車輛填補(bǔ)運(yùn)能，做到及時(shí)發(fā)貨、準(zhǔn)時(shí)配送；通過時(shí)隙定價(jià)均衡時(shí)隙運(yùn)能分配，降低物流人員的工作壓力；采用低價(jià)促銷、組合促銷等吸引消費(fèi)者購物，增加邊際效益；提高信息技術(shù)水平，建設(shè)智能化倉庫，加快訂單處理速度.

3 結(jié)束語

根據(jù)消費(fèi)者對網(wǎng)絡(luò)零售配送時(shí)隙的偏好，分析影響偏好的因素，建立Logit模型并作為強(qiáng)化學(xué)習(xí)（RL）動(dòng)作挑選的策略，同時(shí)設(shè)置運(yùn)能配置規(guī)則.通過算例分析發(fā)現(xiàn)：在B2C環(huán)境的訂單運(yùn)能分配中采用RL方法能夠使每輛車每時(shí)隙的運(yùn)能分配得到均衡，并且符合消費(fèi)者對交付期的偏好；消費(fèi)者對商品價(jià)格和時(shí)隙價(jià)格的偏好程度越高商家收益就越低，對整體價(jià)格偏低的訂單，建議商家通過接收更多此類訂單來增加邊際效益.算例分析得出的結(jié)果與市場經(jīng)濟(jì)現(xiàn)象相符合，說明基于RL解決在線訂單配送時(shí)隙運(yùn)能配置問題是科學(xué)和有效的.在今后的研究中，希望加入運(yùn)輸成本因素，考慮運(yùn)能外包或租用運(yùn)輸車輛的情況；同時(shí)可根據(jù)消費(fèi)者的訂單配送需求的緊急情況，對訂單進(jìn)行分類處理，把運(yùn)能優(yōu)先分配給愿意額外多支付配送費(fèi)用的加急訂單.

參考文獻(xiàn)：

[1]AGATZ N， CAMPBELL A， FLEISCHMANN M， et al. Time slot management in attended home delivery[J]. Transportation Science， 2011， 45（3）： 435449. DOI： 10.1287/trsc.1100.0346.

[2]CAMPBELL A M， SAVELSBERGH M W P. Decision support for consumer direct grocery initiatives[J]. Transportation Science， 2005， 39（3）： 313327. DOI： 10.1287/trsc.1040.0105.

[3]SROUR F J， AGATZ N， OPPEN J. Strategies for handling temporal uncertainty in pickup and delivery problems with time windows[J/OL]. Transportation Sciences， Articles in Advance： 117[20160514]. http：//dx.doi.org/10.1287/trsc.2015.0658.

[4]陳淮莉，馬娟娟. 區(qū)域和時(shí)隙寬度影響下網(wǎng)絡(luò)零售商配送時(shí)隙激勵(lì)定價(jià)[J]. 上海海事大學(xué)學(xué)報(bào)， 2015， 36（1）： 3337. DOI： 10.13340 /j.jsmu.2015.01.006.

[5]李科峰，陳淮莉，孔德寬，等. 網(wǎng)購環(huán)境下基于時(shí)隙配送的時(shí)效產(chǎn)品訂單履約方法[J]. 華中師范大學(xué)學(xué)報(bào)（自然科學(xué)版）， 2015， 49（4）： 557561.

[6]元鵬鵬，郝楊楊，李恒. 客戶選擇網(wǎng)絡(luò)零售配送時(shí)隙動(dòng)態(tài)規(guī)劃模型[J]. 遼寧工程技術(shù)大學(xué)學(xué)報(bào)（自然科學(xué)版）， 2015， 34（11）： 13161323. DOI： 10.11956/j.issn.10080562.2015.11.020.

[7]郝鵑，余建軍，周文慧. 基于平均強(qiáng)化學(xué)習(xí)的訂單生產(chǎn)方式企業(yè)訂單接受策略[J]. 計(jì)算機(jī)應(yīng)用， 2013， 33（4）： 976979. DOI： 10.3724 /SP.J.1087.2013.00976.

[8]趙紹航. 供應(yīng)鏈聯(lián)合補(bǔ)充問題的強(qiáng)化學(xué)習(xí)算法[D]. 哈爾濱：哈爾濱理工大學(xué)， 2015.

[9]劉成麗. 應(yīng)急任務(wù)動(dòng)態(tài)分配和協(xié)作研究[D]. 武漢：華中科技大學(xué)， 2012.

[10]王金田. 基于強(qiáng)化學(xué)習(xí)的電子銷售市場動(dòng)態(tài)定價(jià)研究[D]. 合肥：合肥工業(yè)大學(xué)， 2009.

[11]黃云霞. 基于改進(jìn)Q學(xué)習(xí)的認(rèn)知無線網(wǎng)絡(luò)動(dòng)態(tài)頻譜接入算法研究[D]. 成都：電子科技大學(xué)， 2009.

[12]MICHAEL S. Dynamic pricing and automated resource allocation for complex information services： reinforcement learning and combinatorial auctions[M]. Germany： Johann Wolfgang Goethe University， 2007： 89132.

[13]聶沖，賈生華. 離散選擇模型的基本原理及其發(fā)展演進(jìn)評介[J]. 數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究， 2005（11）： 151159.

[14]YANG X， STRAUSS A K， CURRIE C S M， et al. Choicebased demand management and vehicle routing in efulfillment[J]. Transportation Science， 2016， 50（2）： 473488.

（編輯趙勉）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配