唐 微,陳淮莉
(上海海事大學(xué) 物流研究中心,上海 201306)
隨著電子商務(wù)在零售業(yè)的深入滲透以及互聯(lián)網(wǎng)應(yīng)用的普及,電商發(fā)展迅速,其競爭焦點(diǎn)逐步從價(jià)格轉(zhuǎn)向顧客服務(wù)體驗(yàn),而配送服務(wù)水平直接影響顧客的滿意度。時(shí)隙(time slot或 delivery slot)是指電商在網(wǎng)站平臺(tái)上提供給顧客選擇的訂單配送的時(shí)間區(qū)間[1],但目前我國只有少部分電商能為顧客提供準(zhǔn)確的商品送達(dá)時(shí)間,尤其是在“雙十一”、“6.18”年中大促等促銷活動(dòng)中,顧客瘋狂下單使得訂單量在短時(shí)間猛增,而呈現(xiàn)井噴狀態(tài)的銷售量缺少相應(yīng)配送能力支持,造成交付期延長、快遞爆倉、顧客滿意度低等現(xiàn)象[2]。因此面對(duì)促銷期間激增的訂單,為了盡可能的降低交付成本和均衡時(shí)隙的需求波動(dòng),更高效的完成所有訂單的配送,網(wǎng)絡(luò)零售商必須根據(jù)自身的交付能力來合理規(guī)劃其時(shí)隙運(yùn)能。
目前,國內(nèi)外學(xué)者關(guān)于時(shí)隙的研究主要集中在時(shí)隙動(dòng)態(tài)定價(jià)、訂單分配和物流配送路徑規(guī)劃等方面。K.Asdemir[3]等人的研究對(duì)網(wǎng)絡(luò)零售商提供的不同的交付時(shí)隙進(jìn)行動(dòng)態(tài)定價(jià),考慮需求的不確定性并將顧客分級(jí),通過控制每個(gè)顧客等級(jí)的動(dòng)態(tài)價(jià)格建立完整的分配模型。Corolli[4]等以航空公司航班時(shí)隙分配為例,建立了兩個(gè)隨機(jī)規(guī)劃模型,并對(duì)比顧客要求的時(shí)隙和實(shí)際可能延遲配送的時(shí)隙之間的時(shí)間差,針對(duì)減少航班延誤問題提出時(shí)隙運(yùn)能分配的方法。Lin[5]研究了不同配送策略對(duì)互聯(lián)網(wǎng)零售電商運(yùn)作的影響,分別從車輛數(shù)量、時(shí)隙數(shù)量、時(shí)隙寬度、配送時(shí)間等時(shí)隙配置方面因素進(jìn)行分析,并提出因?yàn)轭櫩吞峁└咚降姆?wù)而導(dǎo)致更高的交付成本的時(shí)隙分配方法。
一些學(xué)者從整數(shù)規(guī)劃和動(dòng)態(tài)規(guī)劃角度研究了動(dòng)態(tài)的時(shí)隙訂單分配策略和能力分配問題。但是,在時(shí)隙運(yùn)能分配問題中,不確定的因素很多(如客戶選擇行為不確定性、交付期、時(shí)隙價(jià)格等),強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)對(duì)于解決馬爾可夫決策過程的訂單分配問題有更好的仿真效果[6]。劉夢婷[7]等運(yùn)用強(qiáng)化學(xué)習(xí)思想來解決供應(yīng)鏈管理中的訂單制定問題,來減少牛鞭效應(yīng)所帶來的影響,通過算例證明基于強(qiáng)化學(xué)習(xí)的訂單制定策略比傳統(tǒng)的固定庫存策略能獲得更高的收益。國外學(xué)者Snoek[8]使用強(qiáng)化學(xué)習(xí)算法研究了生產(chǎn)型企業(yè)的訂單分配問題,通過仿真得到采用強(qiáng)化學(xué)習(xí)的方法對(duì)于解決此類問題有更好的效果。國內(nèi)學(xué)者王曉歡[9]等人針對(duì)訂單生產(chǎn)型企業(yè)在訂單接收過程中的不確定性,基于強(qiáng)化學(xué)習(xí)的思想,引入顧客等級(jí)這一要素,從收益管理的角度建立了基于半馬爾科夫決策過程,結(jié)果驗(yàn)證了引入顧客等級(jí)的必要性和重要性。陳淮莉[10]等人從價(jià)格和交付期對(duì)顧客選擇時(shí)隙的影響進(jìn)行分析,采用強(qiáng)化學(xué)習(xí)的方法并結(jié)合時(shí)隙運(yùn)能分配特點(diǎn)對(duì)于到達(dá)的訂單群做出運(yùn)能分配,驗(yàn)證了強(qiáng)化學(xué)習(xí)解決時(shí)隙運(yùn)能配置問題的可行性和有效性。
并且,以上研究通常不是針對(duì)某一特定時(shí)期進(jìn)行的,時(shí)隙運(yùn)能分配的方式也過于單一,對(duì)于訂單只能接受或拒絕。而本文基于我國電商配送的特點(diǎn),針對(duì)促銷期間這一時(shí)期,從顧客選擇行為分析出發(fā),為顧客提供準(zhǔn)時(shí)配送和延遲配送兩種配送模式以均衡時(shí)隙需求,并建立馬爾可夫決策過程的時(shí)隙運(yùn)能柔性分配模型,采用強(qiáng)化學(xué)習(xí)方法研究時(shí)隙運(yùn)能柔性分配策略問題,為網(wǎng)絡(luò)零售商合理安排促銷期間車輛運(yùn)能及顧客滿意度提供有效建議。
在電商促銷期間的大環(huán)境下,訂單量激增,車輛負(fù)荷過大。由于車輛運(yùn)能的限制,并不是所有訂單都能夠按時(shí)發(fā)貨與配送,則存在取舍問題。因此考慮到時(shí)隙的運(yùn)能限制和訂單處理過程的動(dòng)態(tài)性,根據(jù)顧客對(duì)交付期和價(jià)格的偏好,為顧客提供兩種時(shí)隙選擇:準(zhǔn)時(shí)配送(F模式)和延遲配送模式(S模式)[11],從而緩解電商促銷期間的配送壓力,將促銷期間的訂單分?jǐn)偟酱黉N期后的時(shí)間配送。通過對(duì)車輛的運(yùn)能柔性分配,即替代配送和外包配送最大限度的完成所有訂單的配送。使商家的利潤得到保證,同時(shí)盡可能的提高顧客滿意度。
在線訂單處理過程是一個(gè)動(dòng)態(tài)決策過程,訂單的到達(dá)使系統(tǒng)狀態(tài)不斷改變,而且當(dāng)前的訂單轉(zhuǎn)移與之前的發(fā)展?fàn)顩r無關(guān),具有無后效性,符合馬爾可夫決策過程[12]。因此本文將在線訂單處理過程抽象成半馬爾科夫決策過程模型,并采用強(qiáng)化學(xué)習(xí)策略中的Q-learning算法進(jìn)行求解,根據(jù)訂單的特性不斷選擇較好的分配策略,強(qiáng)化此策略的動(dòng)作選擇,從而整個(gè)過程達(dá)到最優(yōu)。本文將強(qiáng)化學(xué)習(xí)與時(shí)隙運(yùn)能分配問題的融合思路如圖1所示。
圖1 強(qiáng)化學(xué)習(xí)與時(shí)隙運(yùn)能分配問題融合思路
集合:D表示選擇配送時(shí)隙當(dāng)天的日期集合,d=1,2,3,…,n',d∈D。d=1表示顧客選擇時(shí)隙t配送的當(dāng)天為第一天,d'表示延遲天數(shù)。當(dāng)d≤d'時(shí),即顧客選擇延遲期限內(nèi)的時(shí)隙t進(jìn)行配送,為準(zhǔn)時(shí)配送模式;當(dāng)d>d'時(shí),即顧客選擇延遲期限后的時(shí)隙t進(jìn)行配送,為延遲配送模式;I表示配送時(shí)隙選項(xiàng)集合,t=1,2,3,…,n,t∈I;V表示配送車輛集合,v=1,2,3,…,m,v∈V;V'表示外包配送車輛集合,v'=1,2,3,…,m',v'∈V';O表示訂單集合,q=1,2,3,…,k,q∈O。
參數(shù):β表示顧客對(duì)時(shí)隙價(jià)格的偏好系數(shù),η表示顧客對(duì)價(jià)格的偏好系數(shù),表示效用函數(shù)的隨機(jī)變量,服從Gumbel分布;表示訂單q的初始預(yù)計(jì)效用(受歡迎度);fq表示訂單q的價(jià)格;ft表示選擇延遲配送比選擇準(zhǔn)時(shí)配送模式下時(shí)隙價(jià)格的折扣金額;fv'表示訂單使用外包車輛配送產(chǎn)生的額外成本;W表示每個(gè)時(shí)隙t固定的配送能力;α表示狀態(tài)函數(shù)更新迭代的學(xué)習(xí)速率;γ表示狀態(tài)函數(shù)更新迭代的折扣因子;λ表示訂單到達(dá)率。
變量:表示所選時(shí)隙的中間時(shí)刻;表示顧客的下訂單的時(shí)刻;表示訂單q選擇時(shí)隙t的即時(shí)收益;表示訂單q選擇時(shí)隙t的實(shí)際效用;表示顧客在下達(dá)訂單q時(shí),選擇時(shí)隙t的概率;表示訂單q選擇配送時(shí)隙t的時(shí)隙價(jià)格;Nt表示顧客對(duì)時(shí)隙t的需求;表示訂單q選擇動(dòng)作時(shí)的值函數(shù)。
本文假設(shè)只考慮時(shí)隙價(jià)格和交付期偏好對(duì)顧客的影響,針對(duì)促銷期間時(shí)隙需求大的特點(diǎn),為顧客提供準(zhǔn)時(shí)配送模式(F模式)和延遲配送模式(S模式)這兩類時(shí)隙選項(xiàng),以此引導(dǎo)顧客的選擇,均衡時(shí)隙需求。F模式提前期短,價(jià)格高;S模式提前期長,但價(jià)格給予一定的折扣,較低。顧客可根據(jù)自身的情況進(jìn)行選擇。采用線性效用函數(shù)來表示顧客對(duì)于不同價(jià)格和提前期時(shí)隙的選擇行為,并根據(jù)效用最大化原則預(yù)測每個(gè)時(shí)隙選項(xiàng)對(duì)顧客實(shí)際效用[13]。則時(shí)隙t對(duì)顧客的實(shí)際效用可表示為:
對(duì)于配送時(shí)隙時(shí)間要求較高或急需收到購買物品的顧客,通常愿意支付高價(jià)選擇較短交付期的時(shí)隙,即F配送模式,時(shí)隙t的交付期越長,該時(shí)隙的實(shí)際效用也會(huì)越小;對(duì)因促銷進(jìn)行囤貨而對(duì)配送時(shí)間要求不高的顧客,愿意選擇帶有折扣價(jià)格的時(shí)隙而等待較長的配送時(shí)間,即S配送模式,當(dāng)時(shí)隙t的價(jià)格減小的時(shí)候,其實(shí)際效用會(huì)相應(yīng)增加,對(duì)顧客的吸引更強(qiáng)。顧客在促銷期間選擇時(shí)隙時(shí),根據(jù)自己的需求綜合考慮價(jià)格和交付期的影響,進(jìn)行時(shí)隙選擇。
以下是根據(jù)效應(yīng)函數(shù)建立Binary Logit選擇概率模型[14],將通過此模型預(yù)測出顧客選擇未來某時(shí)隙的概率,作為系統(tǒng)預(yù)測顧客選擇訂單配送時(shí)隙的概率。則顧客訂單q選擇時(shí)隙t的概率為:
基于馬爾可夫決策過程來研究,促銷期間時(shí)隙運(yùn)能柔性分配的過程可以表述為:新訂單的到達(dá)使系統(tǒng)進(jìn)入一個(gè)新狀態(tài),系統(tǒng)根據(jù)客戶選擇模型預(yù)測的時(shí)隙選擇概率,為每一個(gè)訂單分配動(dòng)作,即分配時(shí)隙和車輛。直到所有訂單處理完畢,得到最優(yōu)的時(shí)隙運(yùn)能分配表和收益。強(qiáng)化學(xué)習(xí)各要素的定義如下:
1)狀態(tài)集S:
假設(shè)時(shí)隙運(yùn)能柔性分配模型的環(huán)境狀態(tài)由隨機(jī)到達(dá)的新訂單q所決定,每到達(dá)一個(gè)訂單,時(shí)隙運(yùn)能柔性配送計(jì)劃表P和收益Q均發(fā)生改變,從而系統(tǒng)的環(huán)境狀態(tài)S發(fā)生變化,因此環(huán)境狀態(tài)可以用S=(P,Q)表示。狀態(tài)集S對(duì)新到達(dá)的訂單q會(huì)不斷更新計(jì)劃表P和收益Q。
2)動(dòng)作集A:
當(dāng)系統(tǒng)面對(duì)訂單到達(dá)時(shí),需根據(jù)顧客的時(shí)隙選擇概率和車輛運(yùn)能限制對(duì)負(fù)責(zé)訂單配送的時(shí)隙和車輛進(jìn)行分配??梢圆扇?種動(dòng)作選擇:(1)當(dāng)所分配車輛運(yùn)能未滿時(shí),由該車輛v配送;(2)當(dāng)所分配車輛運(yùn)能已滿時(shí),由同時(shí)隙內(nèi)其他車輛進(jìn)行替代配送;(3)當(dāng)時(shí)隙內(nèi)所有車輛運(yùn)能全滿時(shí),由外包車輛v'進(jìn)行外包配送。當(dāng)新訂單到達(dá)時(shí),對(duì)新訂單重新選擇動(dòng)作,即分配時(shí)隙和車輛。A表示強(qiáng)化學(xué)習(xí)的動(dòng)作集合,
3)立即回報(bào)函數(shù):在強(qiáng)化學(xué)習(xí)的應(yīng)用中,立即回報(bào)函數(shù)是指從一個(gè)動(dòng)作的反饋中計(jì)算回報(bào)的函數(shù),即完成每筆訂單所獲得的收益。立即回報(bào)主要包括訂單價(jià)格fq、所選擇時(shí)隙價(jià)格Cdqt和外包車輛的費(fèi)用fv',因此狀態(tài)S,即訂單q的即時(shí)收益rdqt表示為:
其中,xt和yt均是0~1變量。xt表示當(dāng)顧客選擇F配送模式時(shí),xt=0,時(shí)隙價(jià)格無折扣;否則顧客選擇S配送模式,時(shí)隙價(jià)格有折扣。yt用來判斷是否產(chǎn)生外包車輛的額外費(fèi)用。當(dāng)時(shí)隙需求大于車輛總運(yùn)能時(shí)等于1,否則為0。其中顧客訂單的到達(dá)率用λ表示,則表示顧客對(duì)每個(gè)時(shí)隙t的需求。
Q-learning算法是強(qiáng)化學(xué)習(xí)中非常重要的算法之一,其主要用于求解馬爾可夫決策模型的最優(yōu)值函數(shù)和最優(yōu)值策略問題。通過建立Q值表,比較狀態(tài)S下每個(gè)動(dòng)作A的Q(s,a)值,系統(tǒng)將選擇具有最大Q值的動(dòng)作到達(dá)下一狀態(tài),并不斷更新Q值,進(jìn)而得到最優(yōu)的累積Q值[15]。而且通過對(duì)每個(gè)“狀態(tài)-動(dòng)作”對(duì)不斷選擇和重復(fù),保證了學(xué)習(xí)過程的收斂性。此算法不需要考察所有的后續(xù)狀態(tài),因此簡化了決策過程。因此選用Q-learning算法來解決時(shí)隙運(yùn)能分配問題。
其更新規(guī)則如下:
其中Q(sq,atv)表示當(dāng)前訂單q選擇動(dòng)作atv所獲得的累計(jì)收益;α為學(xué)習(xí)率,隨著α趨向于0,值函數(shù)Q(sq,atv)將會(huì)收斂到最優(yōu)策略;γ為折扣因子(0≤1<1)。上式采用了無限范圍衰減模型,即考慮系統(tǒng)長遠(yuǎn)的獎(jiǎng)勵(lì)情況,同時(shí)基于一定的衰減因子γ對(duì)其進(jìn)行幾何衰減。
基于Q-learning算法的車輛時(shí)隙運(yùn)能柔性分配過程如圖2所示。
具體解釋如下:
初始化Q值表、配送計(jì)劃表P、車輛運(yùn)能限制表和即使收益矩陣R;設(shè)置學(xué)習(xí)步數(shù);設(shè)置狀態(tài)轉(zhuǎn)移概率為1;初始化模型中的參數(shù)值。開始系統(tǒng)仿真,一直循環(huán)到處理過所有訂單結(jié)束。
對(duì)于每一個(gè)訂單q均重復(fù)以下過程:
Step1:根據(jù)logit選擇概率模型選擇動(dòng)作atv,獲得相應(yīng)即時(shí)收益rdqt:1)在時(shí)隙t車輛v上添加該訂單,若未超過車輛v運(yùn)能配置的最大值,則選擇動(dòng)作atv;否則,系統(tǒng)將自動(dòng)選擇同時(shí)隙的其他運(yùn)能未滿車輛為該訂單進(jìn)行替代配送;2)如仍超過該時(shí)隙所有車輛運(yùn)能最大限制,則采用外包車輛進(jìn)行配送。
Step2:處理下一訂單q,得到下一狀態(tài)S',依據(jù)下式更新規(guī)則更新狀態(tài)-動(dòng)作值Q(sq,atv):
圖2 基于Q-learning算法的時(shí)隙運(yùn)能分配策略的流程
Step3:更新q←q+1,處理下一個(gè)訂單;否則找出每個(gè)狀態(tài)下的最優(yōu)動(dòng)作,獲得最優(yōu)策略。
強(qiáng)化學(xué)習(xí)通常存在著探索與利用之間的平衡問題。探索是不斷嘗試新動(dòng)作,尋求獲得更多獎(jiǎng)勵(lì)的動(dòng)作;而利用使系統(tǒng)更傾向于采取先前收到最大回報(bào)的動(dòng)作。-greedy策略是比常用方法之一,但本文結(jié)合顧客時(shí)隙選擇行為的特點(diǎn),以Logit客戶選擇概率來探索和利用,不以獲得的獎(jiǎng)勵(lì)最大為探索利用依據(jù),而是在考慮顧客自身情況以及時(shí)隙運(yùn)能限制前提下,綜合考慮各種時(shí)隙運(yùn)能分配的策略,尋求最優(yōu)策略達(dá)到較高的收益。
假設(shè)前三天為促銷期,后四天為正常銷售日期,討論七天的車輛時(shí)隙運(yùn)能分配情況。因此在前三天為顧客提供F配送模式和S配送模式兩類時(shí)隙選項(xiàng),并假設(shè)延遲天數(shù)為3天。每天可供顧客選擇配送時(shí)間的范圍為每天的8點(diǎn)到20點(diǎn),時(shí)隙寬度是3個(gè)小時(shí),每天的時(shí)隙均為8點(diǎn)~11點(diǎn)、11點(diǎn)~14點(diǎn)、14點(diǎn)~17點(diǎn)、17點(diǎn)~20點(diǎn),共有4輛商家自營車輛可用來計(jì)劃分配,每輛車每個(gè)時(shí)隙的運(yùn)能限制均為25個(gè)單位。
正常配送模式是指不為顧客提供延遲配送的選項(xiàng)且對(duì)運(yùn)能不足的訂單不采用外包配送,即不采用以上柔性配送的方式。此模式下當(dāng)訂單分配到的運(yùn)輸車輛和所選時(shí)隙內(nèi)的替代運(yùn)輸車輛均無法承擔(dān)配送任務(wù)時(shí),訂單會(huì)因沒有車輛運(yùn)能而被拒絕,而柔性配送模式則由外包車輛進(jìn)行配送。假設(shè)訂單價(jià)值服從均勻分布[100,400],每天固定時(shí)間段內(nèi)顧客訂單按泊松分布到達(dá),如表1所示。
表1 各時(shí)段訂單到達(dá)的數(shù)量
采用matlab2016a對(duì)柔性配送模式和正常配送模式這兩種模式進(jìn)行算例模擬仿真,設(shè)置強(qiáng)化學(xué)習(xí)訓(xùn)練次數(shù)為1000,兩種模式下的參數(shù)設(shè)置如表2所示。
經(jīng)過模擬運(yùn)行,從表3結(jié)果來看,采用柔性配送模式時(shí),所有訂單均可準(zhǔn)時(shí)配送,只有第二天8:00~11:00以及第四天的11:00~14:00需要使用外包車輛進(jìn)行配送,具有較高的訂單配送率。
此外,如圖3所示,將每天訂單到達(dá)量與兩種配送模式下實(shí)際配送量作對(duì)比,可以看出,運(yùn)用柔性配送策略將促銷期間的高訂單量合理分配到促銷期之后進(jìn)行配送,并且加入外包車輛的參與,使得每天配送約200個(gè)訂單,7天內(nèi)完成全部1700個(gè)訂單的配送,車輛運(yùn)能分配達(dá)到均衡。而采用正常配送模式,則因促銷期間訂單量大車輛運(yùn)能不足,而放棄223個(gè)訂單,降低訂單配送率。
表2 相關(guān)參數(shù)設(shè)置
表3 促銷期前后每時(shí)隙每輛車時(shí)隙運(yùn)能分配
圖3 柔性配送策略下訂單實(shí)際到達(dá)量對(duì)比
采用柔性配送模式下,網(wǎng)絡(luò)零售電商7天的總收益為151293元,正常配送模式114878元,雖然采用柔性配送模式采用外包車輛進(jìn)行配送,會(huì)產(chǎn)生一定的額外費(fèi)用,但通過均時(shí)隙需求,只有兩個(gè)時(shí)隙的訂單需用外包車輛配送,總體來說比采用正常配送模式收益要高。因此建議網(wǎng)絡(luò)零售商在促銷期間可為顧客提供準(zhǔn)時(shí)配送和延遲配送兩種選項(xiàng),使得顧客根據(jù)其自身情況選擇,緩解促銷期井噴的需求,同時(shí)配合使用外包車輛,不僅可以提高訂單配送率,而且利于均衡每天各時(shí)隙的配送運(yùn)能,提高車輛利用率,降低配送成本。
1)交付期偏好系數(shù)對(duì)收益的影響
交付期是指顧客從預(yù)定訂單到訂單送達(dá)這一時(shí)間段,顧客在促銷期間對(duì)交付期的偏好程度直接影響其對(duì)時(shí)隙的選擇,進(jìn)而影響商家的總收益。下圖是以柔性配送模式下第一天訂單時(shí)隙運(yùn)能分配為研究對(duì)象,分別采用不同的交付期偏好系數(shù),得到其變化對(duì)訂單總收益的影響。從圖中可以看出,交付期偏好系數(shù)與總收益成反比。顧客對(duì)交付期偏好越大,給總利潤帶來的波動(dòng)就越大。當(dāng)η=0.5時(shí),即交付期偏好較小時(shí),總收益隨著學(xué)習(xí)步數(shù)的增加也逐漸增加并趨于平穩(wěn),達(dá)到最大值,這說明當(dāng)顧客對(duì)促銷期間交付期無太高要求時(shí),更偏向選擇具有折扣價(jià)格的時(shí)隙,即會(huì)選擇S模式下的時(shí)隙,利于均衡時(shí)隙運(yùn)能。這類顧客雖然也傾向于選擇交付期較短的時(shí)隙,但其并不愿意支付較高價(jià)格。因此交付期長短即促銷期間提供給顧客的時(shí)隙延遲天數(shù),影響其對(duì)時(shí)隙的選擇,從而影響總收益。
圖4 不同交付期偏好系數(shù)下的總收益
2)延遲天數(shù)對(duì)顧客選擇概率的影響
以柔性配送模式第一天的顧客選擇概率為研究對(duì)象,當(dāng)延遲天數(shù)d'=1,3,6時(shí),分析提供不同延遲天數(shù)下顧客選擇概率的變化。從圖中可以看出,當(dāng)延遲天數(shù)較小,即d'=1時(shí),第二天的選擇概率非常高,這是由于選擇延遲配送的時(shí)隙具有折扣價(jià)格,且相較于選擇第一天的時(shí)隙,交付期相差不大,因此易導(dǎo)致7天內(nèi)運(yùn)能分配不均;當(dāng)延遲天數(shù)中等,即d'=3時(shí),顧客的選擇概率較為平穩(wěn),因第一天提前期較短及第四天的折扣時(shí)隙價(jià)格獲得偏高的選擇概率;當(dāng)延遲天數(shù)較長,即d'=6時(shí),因?yàn)榻桓镀谶^長,即使時(shí)隙具有價(jià)格優(yōu)勢,顧客仍不愿意選擇。
圖4 不同延遲天數(shù)下客戶的選擇概率
3)最優(yōu)延遲天數(shù)
如圖,當(dāng)d'=0即不提供延遲配送的選擇的正常配送模式下,總收益約為114878。當(dāng)延遲天數(shù)較短時(shí),上一部分已經(jīng)分析過,顧客更傾向選擇具有價(jià)格優(yōu)勢的延遲配送模式下的時(shí)隙,導(dǎo)致時(shí)隙運(yùn)能分配不均,需要使用外包車輛進(jìn)行配送,從而增加配送成本,降低收益;而當(dāng)延遲天數(shù)過長時(shí),顧客傾向選擇交付期較短的日期進(jìn)行配送,放棄交付期較長時(shí)隙的選擇,浪費(fèi)車輛運(yùn)能,而導(dǎo)致收益出現(xiàn)負(fù)增長。確定合理的延遲天數(shù)才能引導(dǎo)顧客對(duì)時(shí)隙的選擇,得到理想的效益增長。如圖可見當(dāng)延遲天數(shù)為3天時(shí),總收益能夠達(dá)到最佳,且利潤增長率也是最高點(diǎn)。
圖5 不同延遲天數(shù)的利潤增長率和總收益變化
針對(duì)促銷期間電商時(shí)隙運(yùn)能分配的問題,本文分析客戶選擇行為的影響因素,采用強(qiáng)化學(xué)習(xí)的思想,建立了基于馬爾可夫決策過程的時(shí)隙運(yùn)能分配模型。通過對(duì)比發(fā)現(xiàn),為顧客提供F配送模式和S配送模式的選擇以及采用替代配送、外包配送等柔性方式,使得促銷期前后的時(shí)隙需求均衡,提高訂單的配送率,減少車輛運(yùn)能浪費(fèi),獲得更高收益。對(duì)于顧客交付期偏好的研究發(fā)現(xiàn),交付期偏好越小,收益越大,并且延遲配送策略中延遲天數(shù)的大小,也影響著顧客對(duì)于時(shí)隙的選擇,最終算例結(jié)果表明,延遲3天為最優(yōu)延遲天數(shù),既均衡每天各個(gè)時(shí)隙車輛運(yùn)能,又能夠獲得較大收益。同時(shí)驗(yàn)證了強(qiáng)化學(xué)習(xí)的方法適用于解決促銷期間不確定、動(dòng)態(tài)訂單的時(shí)隙運(yùn)能分配的問題。
在未來的研究中,可以加入客戶滿意度因素,通過根據(jù)客戶服務(wù)水平來衡量時(shí)隙運(yùn)能分配策略的效果,以獲得更高的客戶滿意度;本文采用的多項(xiàng)Logit模型還存在著“IIA”局限,即與其他選擇無關(guān)的特性,以后的研究可以采用嵌套Logit模型和混合Logit模型等其他離散選擇模型來更準(zhǔn)確地預(yù)測消費(fèi)者的選擇行為。
[1]Agatz N, Campbell A, Fleischmann M, et al. Time slot management in attended home delivery | NOVA. The University of Newcastle’s Digital Repository[J].Institute for Operations Research & the Management Sciences,2011.
[2]劉錦峰.大數(shù)據(jù)背景下電子商務(wù)物流配送發(fā)展對(duì)策研究[J].商業(yè)時(shí)代,2017,(2):98-99.
[3]Asdemirabc K.Dynamic pricing of multiple home delivery options[J].European Journal of Operational Research,2009,196(1):246-257.
[4]Luca Corolli.The time slot allocation problem under uncertain capacity[J].Transportation Research Part C,2014,46(46):16-29.
[5]Lin I I, Mahmassani H S.Can Online Grocers Deliver?: Some Logistics Considerations[J].Transportation Research Record Journal of the Transportation Research Board,2002,1817:17-24.
[6]Doya K. Reinforcement learning in continuous time and space[J].Neural computation,2000,12(1):219-245.
[7]劉夢婷,牟永敏,趙剛,歐陽騰飛.基于強(qiáng)化學(xué)習(xí)算法的供應(yīng)鏈管理訂單策略研究[J].數(shù)據(jù)通信,2013,(1):22-25.
[8]SNOEKM.Neuron—genetic order acceptance in a job shop setting[A].Proceedings of the 7th International Confirence on Neural Information Processing.Seoul[C].2000:815-819.
[9]王曉歡,王寧寧,樊治平.基于強(qiáng)化學(xué)習(xí)的訂單生產(chǎn)型企業(yè)的訂單接受策略[J].系統(tǒng)工程理論與實(shí)踐,2014,34(12):3121-3129.
[10]陳淮莉,吳夢姣.基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配[J].上海海事大學(xué)學(xué)報(bào),2017,38(2):51-55.
[11]李怡娜.基于顧客選擇行為的提前期和價(jià)格響應(yīng)模式[J].系統(tǒng)工程學(xué)報(bào),2016,31(4):460-470.
[12]Yifan Zhou,Lin Ma,Yong Sun.Maintenance strategy optimization using a continuous- state partially observable semi- Markov decision process[J].Microelectronics Reliability,2011,51(2):300-309.
[13]Campbell A M, Savelsbergh M. Incentive Schemes for Attended Home Delivery Services[M].INFORMS,2006.
[14]王爽,趙鵬.基于Logit模型的客運(yùn)專線旅客選擇行為分析[J].鐵道學(xué)報(bào),2009,31(3):6-10.
[15]Cheng Y. Real Time Demand Learning-Based Q-learning Approach for Dynamic Pricing in E-retailing Setting[A].International Symposium on Information Engineering and Electronic Commerce. IEEE[C].2009:594-598.