俞 虹,唐誠旋,蔣群群,陳玨伊,張 秀
(1.中國南方電網(wǎng)有限責(zé)任公司貴陽供電局,貴州貴陽 550002;2.中國南方電網(wǎng)有限責(zé)任公司貴陽金陽供電局,貴州貴陽 550081;3.中國南方電網(wǎng)有限責(zé)任公司貴陽開陽供電局,貴州開陽 550300)
電力系統(tǒng)斷電后快速恢復(fù)至關(guān)重要,合理的電力應(yīng)急電源調(diào)度是災(zāi)后電力系統(tǒng)快速恢復(fù)的重要環(huán)節(jié)[1-2]。目前常應(yīng)用的電力系統(tǒng)應(yīng)急物資調(diào)度算法主要有基于節(jié)點綜合權(quán)值的電力應(yīng)急物資調(diào)度算法[3]和基于改進飛蛾撲火算法求解多需求點的應(yīng)急物資調(diào)度算法[4]。然而傳統(tǒng)調(diào)度算法常因動態(tài)電力信息的影響而存在調(diào)度時間不精準(zhǔn)的問題。針對這一問題,該研究提出并設(shè)計了基于強化學(xué)習(xí)的電力系統(tǒng)應(yīng)急物資調(diào)度算法。在特定策略下,通過與外部環(huán)境的交互作用,完成電力系統(tǒng)應(yīng)急物資調(diào)度。
在電力系統(tǒng)應(yīng)急物資調(diào)度應(yīng)用中,采用強化學(xué)習(xí)算法,需要解決行為選擇和行為價值函數(shù)存儲與推廣問題。為了保證強化學(xué)習(xí)在實際調(diào)度中更加具有針對性,需確定基本調(diào)度要素:電力系統(tǒng)狀態(tài)集合、行為集合、報酬函數(shù)、平均性能指標(biāo)和行為值函數(shù)。
電力系統(tǒng)狀態(tài)集合s:主要是指電力系統(tǒng)中緊急情況下的運行信息,如緊急工況的位置、調(diào)度時間、系統(tǒng)狀態(tài)選擇等,系統(tǒng)以每離散時刻的狀態(tài)信息為決策依據(jù)[5]。
行為集合a:包括電網(wǎng)應(yīng)急物資調(diào)度行為序列,用于實現(xiàn)電力系統(tǒng)緊急調(diào)集物資調(diào)度[6]。
報酬函數(shù)r()s,a:對于電力系統(tǒng)中緊急供電問題,需通過該函數(shù)配合強化學(xué)習(xí)框架,保證計算所得報酬為負值,能夠有效保證電力系統(tǒng)應(yīng)急物資調(diào)度費用最小[7-9]。每觀測到一個系統(tǒng)狀態(tài),就根據(jù)這個狀態(tài)計算一個報酬函數(shù)。
平均性能指標(biāo)ρπ:平均性能指標(biāo)中的質(zhì)量指數(shù)是指策略計劃下各階段無限時間內(nèi)平均回復(fù)數(shù):
對于系統(tǒng)緊急補給問題,其意義在于系統(tǒng)在無限時間內(nèi),最大化了系統(tǒng)報酬函數(shù)r()s,a,該函數(shù)用負值表示,即電力系統(tǒng)應(yīng)急電源的運行費用最低[10]。
行為值函數(shù)R(s,a):該函數(shù)在學(xué)習(xí)中所用的行為值函數(shù)為Rπ()s,a,其在狀態(tài)s選擇a學(xué)習(xí)行為,并保持為π 的平均調(diào)整值,其計算公式為:
在強化學(xué)習(xí)算法中,不需要具體模型,而是通過迭代方法求得R(s,a)[11-12]。根據(jù)迭代規(guī)則,行為值函數(shù)在每一時刻都要迭代,迭代過程如式(3)所示:
依據(jù)該公式,可確定行為值函數(shù)所能滿足的具體條件:
依據(jù)式(4)迭代處理平均性能指標(biāo),得到迭代公式如式(5)所示:
式(5)中,α、β為學(xué)習(xí)率。
在強化學(xué)習(xí)調(diào)度算法模型支持下,電網(wǎng)大面積停電后,對應(yīng)急物資進行調(diào)度是電網(wǎng)恢復(fù)的重要任務(wù)之一??茖W(xué)合理的調(diào)度方案能保證電力系統(tǒng)迅速恢復(fù)負荷,減少因故障造成的損失。
應(yīng)急物資在應(yīng)急恢復(fù)初期往往供應(yīng)不足,為此,從物料和時間角度出發(fā),建立以物料滿足度和時間滿足度為目標(biāo)函數(shù)的多目標(biāo)優(yōu)化調(diào)度模型。材料滿足度是指緊急情況下獲得材料數(shù)量與需要量之比[13-15],以此為基礎(chǔ),構(gòu)建電力系統(tǒng)應(yīng)急物資調(diào)度模型,如圖1所示。同時,算法假定如下:
圖1 電力系統(tǒng)應(yīng)急物資調(diào)度模型
1)這些信息是可靠的,即已知各節(jié)點的材料供應(yīng)和材料需求。
2)將調(diào)度節(jié)點劃分為3 個層次:供給點、調(diào)度點和應(yīng)急點。其中,調(diào)度點起到轉(zhuǎn)運的作用,可實現(xiàn)對供給點與應(yīng)急點之間物資供應(yīng)情況的查詢。
3)假定供應(yīng)地點的物資供應(yīng)不能完全滿足緊急情況的需要[16]。
電力系統(tǒng)應(yīng)急物資調(diào)度模型目標(biāo)函數(shù)需從物資滿意度和時間滿意度兩個角度展開分析。
物資滿意度Z1為:
式(6)中,I表示電力系統(tǒng)應(yīng)急供應(yīng)點數(shù)量;L表示應(yīng)急供應(yīng)中轉(zhuǎn)點數(shù)量;J表示應(yīng)急點數(shù)量。時間滿意度Z2為:
式中,fj(?)的函數(shù)表達式為:
式(7)、(8)中,ωj表示應(yīng)急點j處的重要性權(quán)值;Nj表示應(yīng)急點j處所需物資量;fj(?)表示應(yīng)急點j處時間滿意度函數(shù);tij表示從應(yīng)急點i到應(yīng)急點j所耗費時間;xij表示從應(yīng)急點i到應(yīng)急點j全部供應(yīng)物資量;ai表示供應(yīng)點i儲存物資量;θj表示應(yīng)急點j對運輸時間緊急程度,θj越小,表示應(yīng)急點j對物資需求越緊急;Lj、Uj分別表示應(yīng)急點j對物資運輸時間滿意度的下限及上限值,為已知量。
為了提高物料輸送速度,必須從以下兩個方面進行決策:第一,選擇合適物料存放地點;第二,在每一個物料存放地點對物料數(shù)量進行分配,在處理多個物料的分配時,必須考慮到物料數(shù)量的多樣性。每個倉庫在獲得物料滿足度和時間滿足度后,都必須按照最優(yōu)路徑進行物料分配。物聯(lián)網(wǎng)技術(shù)將在這一過程中發(fā)揮其作用,極大地提高物料調(diào)配效率。設(shè)定材料分配計劃,通過分配中心將通信系統(tǒng)中的分配指令發(fā)給各設(shè)備管理中心。該中心涉及到的管理內(nèi)容包含要部署的物料類型、數(shù)量和目的地。管理中心要保證每一個物料倉庫都能接收到指令,智能倉儲系統(tǒng)能自動找到相應(yīng)物料在倉庫中的位置,迅速地取出需要的物料,安排好運輸車輛。
將跟蹤設(shè)備安裝到所有運輸車上,部署中心可以實時獲取運輸車位置信息。如此,既保證了材料安全性,又能采取一定措施加速材料運輸,如聯(lián)系運輸部門聯(lián)動、安排材料運輸綠色通道等;或者根據(jù)交通管理部門提供的交通信息,選擇一條更順暢的路線。運輸車到達指定地點后,將任務(wù)完成信息發(fā)送到調(diào)度中心。任務(wù)完成后,由調(diào)度中心確認部署結(jié)束,物資調(diào)度流程如圖2 所示。
圖2 物資調(diào)度流程
在調(diào)度過程中,物聯(lián)網(wǎng)技術(shù)應(yīng)用主要體現(xiàn)在兩個環(huán)節(jié)上。該系統(tǒng)首先利用RFID 技術(shù),在物料倉庫出庫過程中,快速查找物料位置信息;與此同時,各種自動化機器人在智能倉儲系統(tǒng)中能精確到達物料位置并裝載車輛,與傳統(tǒng)人工查找、人工運送物料方式相比,物聯(lián)網(wǎng)在節(jié)省人力的同時大大提高了效率。而且在物資運輸過程中,調(diào)度中心通過對運輸車安裝無線傳輸網(wǎng)和跟蹤設(shè)備,實時獲取運輸車準(zhǔn)確位置,從而向社會傳遞信息。通過部門間聯(lián)動,可以加速材料運輸,確保運輸過程中材料安全。除上述兩點外,物聯(lián)網(wǎng)通信系統(tǒng)還能為整個部署過程提供通信服務(wù),保證信息實時、準(zhǔn)確,并能為整個應(yīng)急過程提供通信保障。
為驗證基于強化學(xué)習(xí)的電力系統(tǒng)應(yīng)急物資調(diào)度算法的實際應(yīng)用性能,設(shè)計如下仿真實驗。
由于地理位置特殊,廣東省經(jīng)常發(fā)生臺風(fēng)災(zāi)害。臺風(fēng)"彩虹"橫掃湛江并向珠江三角洲傳播,對廣東省電力系統(tǒng)造成嚴(yán)重影響。假定電網(wǎng)節(jié)點與地理上的應(yīng)急點重合。以粵西地區(qū)某地方電網(wǎng)為例,對SF6 型系統(tǒng)電力應(yīng)急的補給調(diào)度任務(wù)展開研究。圖3 為電力應(yīng)急電源的拓撲結(jié)構(gòu)和部分參數(shù)。
圖3 電力應(yīng)急物資調(diào)度拓撲及部分參數(shù)
假設(shè)在0~10 之間的整數(shù)表示節(jié)點之間的傳輸時間,其值越大,表明節(jié)點之間的距離越遠,所需的時間越多。節(jié)點間物資調(diào)度的子網(wǎng)時間值如表1 所示。
表1 電力應(yīng)急物資調(diào)度期望時間(min)
在此基礎(chǔ)上,分別使用傳統(tǒng)的基于節(jié)點綜合權(quán)值的電力系統(tǒng)應(yīng)急物資調(diào)度算法、基于改進飛蛾撲火算法的電力應(yīng)急物資調(diào)度算法和基于強化學(xué)習(xí)的電力系統(tǒng)應(yīng)急物資調(diào)度算法對物資展開調(diào)度,以調(diào)度時間為測試指標(biāo),對比不同算法的應(yīng)用性能,結(jié)果分別如表2~4 所示。
表2 節(jié)點綜合權(quán)值算法調(diào)度時間(min)
表3 改進飛蛾撲火算法調(diào)度時間(min)
通過上述結(jié)果可知,兩種傳統(tǒng)的調(diào)度算法的調(diào)度時間與期望時間均有所出入,而基于強化學(xué)習(xí)調(diào)度算法的調(diào)度時間與期望時間一致,說明了該方法的有效性。
該研究建立了電力應(yīng)急物資調(diào)度模型,通過該模型將物資調(diào)度問題轉(zhuǎn)化為目標(biāo)優(yōu)化問題,確定滿足物資需求與時間需求的關(guān)系函數(shù),從而設(shè)計出滿足應(yīng)急物資需求的調(diào)度算法。然而因?qū)嶒灜h(huán)境有限,還存在許多不能深入研究的問題。在接下來的研究中,將考慮進一步優(yōu)化材料分配制度,如分配路徑的阻塞和解除阻塞等意外情況的處理等問題,進一步提高物資分配效率。
表4 強化學(xué)習(xí)算法調(diào)度時間(min)