基于強化學(xué)習(xí)的電力系統(tǒng)應(yīng)急物資調(diào)度算法

2021-12-07 07:45:48唐誠旋蔣群群陳玨伊

電子設(shè)計工程 2021年23期

俞虹，唐誠旋，蔣群群，陳玨伊，張秀

（1.中國南方電網(wǎng)有限責(zé)任公司貴陽供電局，貴州貴陽 550002；2.中國南方電網(wǎng)有限責(zé)任公司貴陽金陽供電局，貴州貴陽 550081；3.中國南方電網(wǎng)有限責(zé)任公司貴陽開陽供電局，貴州開陽 550300）

電力系統(tǒng)斷電后快速恢復(fù)至關(guān)重要，合理的電力應(yīng)急電源調(diào)度是災(zāi)后電力系統(tǒng)快速恢復(fù)的重要環(huán)節(jié)[1-2]。目前常應(yīng)用的電力系統(tǒng)應(yīng)急物資調(diào)度算法主要有基于節(jié)點綜合權(quán)值的電力應(yīng)急物資調(diào)度算法[3]和基于改進飛蛾撲火算法求解多需求點的應(yīng)急物資調(diào)度算法[4]。然而傳統(tǒng)調(diào)度算法常因動態(tài)電力信息的影響而存在調(diào)度時間不精準(zhǔn)的問題。針對這一問題，該研究提出并設(shè)計了基于強化學(xué)習(xí)的電力系統(tǒng)應(yīng)急物資調(diào)度算法。在特定策略下，通過與外部環(huán)境的交互作用，完成電力系統(tǒng)應(yīng)急物資調(diào)度。

1 強化學(xué)習(xí)調(diào)度模型

在電力系統(tǒng)應(yīng)急物資調(diào)度應(yīng)用中，采用強化學(xué)習(xí)算法，需要解決行為選擇和行為價值函數(shù)存儲與推廣問題。為了保證強化學(xué)習(xí)在實際調(diào)度中更加具有針對性，需確定基本調(diào)度要素：電力系統(tǒng)狀態(tài)集合、行為集合、報酬函數(shù)、平均性能指標(biāo)和行為值函數(shù)。

電力系統(tǒng)狀態(tài)集合s：主要是指電力系統(tǒng)中緊急情況下的運行信息，如緊急工況的位置、調(diào)度時間、系統(tǒng)狀態(tài)選擇等，系統(tǒng)以每離散時刻的狀態(tài)信息為決策依據(jù)[5]。

行為集合a：包括電網(wǎng)應(yīng)急物資調(diào)度行為序列，用于實現(xiàn)電力系統(tǒng)緊急調(diào)集物資調(diào)度[6]。

報酬函數(shù)r()s,a：對于電力系統(tǒng)中緊急供電問題，需通過該函數(shù)配合強化學(xué)習(xí)框架，保證計算所得報酬為負值，能夠有效保證電力系統(tǒng)應(yīng)急物資調(diào)度費用最小[7-9]。每觀測到一個系統(tǒng)狀態(tài)，就根據(jù)這個狀態(tài)計算一個報酬函數(shù)。

平均性能指標(biāo)ρπ：平均性能指標(biāo)中的質(zhì)量指數(shù)是指策略計劃下各階段無限時間內(nèi)平均回復(fù)數(shù)：

對于系統(tǒng)緊急補給問題，其意義在于系統(tǒng)在無限時間內(nèi)，最大化了系統(tǒng)報酬函數(shù)r()s,a，該函數(shù)用負值表示，即電力系統(tǒng)應(yīng)急電源的運行費用最低[10]。

行為值函數(shù)R(s,a)：該函數(shù)在學(xué)習(xí)中所用的行為值函數(shù)為Rπ()s,a，其在狀態(tài)s選擇a學(xué)習(xí)行為，并保持為π 的平均調(diào)整值，其計算公式為：

在強化學(xué)習(xí)算法中，不需要具體模型，而是通過迭代方法求得R(s,a)[11-12]。根據(jù)迭代規(guī)則，行為值函數(shù)在每一時刻都要迭代，迭代過程如式（3）所示：

依據(jù)該公式，可確定行為值函數(shù)所能滿足的具體條件：

依據(jù)式（4）迭代處理平均性能指標(biāo)，得到迭代公式如式（5）所示：

式（5）中，α、β為學(xué)習(xí)率。

2 電力系統(tǒng)應(yīng)急物資調(diào)度算法

在強化學(xué)習(xí)調(diào)度算法模型支持下，電網(wǎng)大面積停電后，對應(yīng)急物資進行調(diào)度是電網(wǎng)恢復(fù)的重要任務(wù)之一?？茖W(xué)合理的調(diào)度方案能保證電力系統(tǒng)迅速恢復(fù)負荷，減少因故障造成的損失。

應(yīng)急物資在應(yīng)急恢復(fù)初期往往供應(yīng)不足，為此，從物料和時間角度出發(fā)，建立以物料滿足度和時間滿足度為目標(biāo)函數(shù)的多目標(biāo)優(yōu)化調(diào)度模型。材料滿足度是指緊急情況下獲得材料數(shù)量與需要量之比[13-15]，以此為基礎(chǔ)，構(gòu)建電力系統(tǒng)應(yīng)急物資調(diào)度模型，如圖1所示。同時，算法假定如下：

圖1 電力系統(tǒng)應(yīng)急物資調(diào)度模型

1）這些信息是可靠的，即已知各節(jié)點的材料供應(yīng)和材料需求。

2）將調(diào)度節(jié)點劃分為3 個層次：供給點、調(diào)度點和應(yīng)急點。其中，調(diào)度點起到轉(zhuǎn)運的作用，可實現(xiàn)對供給點與應(yīng)急點之間物資供應(yīng)情況的查詢。

3）假定供應(yīng)地點的物資供應(yīng)不能完全滿足緊急情況的需要[16]。

電力系統(tǒng)應(yīng)急物資調(diào)度模型目標(biāo)函數(shù)需從物資滿意度和時間滿意度兩個角度展開分析。

物資滿意度Z1為：

式（6）中，I表示電力系統(tǒng)應(yīng)急供應(yīng)點數(shù)量；L表示應(yīng)急供應(yīng)中轉(zhuǎn)點數(shù)量；J表示應(yīng)急點數(shù)量。時間滿意度Z2為：

式中，fj(?)的函數(shù)表達式為：

式（7）、（8）中，ωj表示應(yīng)急點j處的重要性權(quán)值；Nj表示應(yīng)急點j處所需物資量；fj(?)表示應(yīng)急點j處時間滿意度函數(shù)；tij表示從應(yīng)急點i到應(yīng)急點j所耗費時間；xij表示從應(yīng)急點i到應(yīng)急點j全部供應(yīng)物資量；ai表示供應(yīng)點i儲存物資量；θj表示應(yīng)急點j對運輸時間緊急程度，θj越小，表示應(yīng)急點j對物資需求越緊急；Lj、Uj分別表示應(yīng)急點j對物資運輸時間滿意度的下限及上限值，為已知量。

為了提高物料輸送速度，必須從以下兩個方面進行決策：第一，選擇合適物料存放地點；第二，在每一個物料存放地點對物料數(shù)量進行分配，在處理多個物料的分配時，必須考慮到物料數(shù)量的多樣性。每個倉庫在獲得物料滿足度和時間滿足度后，都必須按照最優(yōu)路徑進行物料分配。物聯(lián)網(wǎng)技術(shù)將在這一過程中發(fā)揮其作用，極大地提高物料調(diào)配效率。設(shè)定材料分配計劃，通過分配中心將通信系統(tǒng)中的分配指令發(fā)給各設(shè)備管理中心。該中心涉及到的管理內(nèi)容包含要部署的物料類型、數(shù)量和目的地。管理中心要保證每一個物料倉庫都能接收到指令，智能倉儲系統(tǒng)能自動找到相應(yīng)物料在倉庫中的位置，迅速地取出需要的物料，安排好運輸車輛。

將跟蹤設(shè)備安裝到所有運輸車上，部署中心可以實時獲取運輸車位置信息。如此，既保證了材料安全性，又能采取一定措施加速材料運輸，如聯(lián)系運輸部門聯(lián)動、安排材料運輸綠色通道等；或者根據(jù)交通管理部門提供的交通信息，選擇一條更順暢的路線。運輸車到達指定地點后，將任務(wù)完成信息發(fā)送到調(diào)度中心。任務(wù)完成后，由調(diào)度中心確認部署結(jié)束，物資調(diào)度流程如圖2 所示。

圖2 物資調(diào)度流程

在調(diào)度過程中，物聯(lián)網(wǎng)技術(shù)應(yīng)用主要體現(xiàn)在兩個環(huán)節(jié)上。該系統(tǒng)首先利用RFID 技術(shù)，在物料倉庫出庫過程中，快速查找物料位置信息；與此同時，各種自動化機器人在智能倉儲系統(tǒng)中能精確到達物料位置并裝載車輛，與傳統(tǒng)人工查找、人工運送物料方式相比，物聯(lián)網(wǎng)在節(jié)省人力的同時大大提高了效率。而且在物資運輸過程中，調(diào)度中心通過對運輸車安裝無線傳輸網(wǎng)和跟蹤設(shè)備，實時獲取運輸車準(zhǔn)確位置，從而向社會傳遞信息。通過部門間聯(lián)動，可以加速材料運輸，確保運輸過程中材料安全。除上述兩點外，物聯(lián)網(wǎng)通信系統(tǒng)還能為整個部署過程提供通信服務(wù)，保證信息實時、準(zhǔn)確，并能為整個應(yīng)急過程提供通信保障。

3 仿真分析

為驗證基于強化學(xué)習(xí)的電力系統(tǒng)應(yīng)急物資調(diào)度算法的實際應(yīng)用性能，設(shè)計如下仿真實驗。

由于地理位置特殊，廣東省經(jīng)常發(fā)生臺風(fēng)災(zāi)害。臺風(fēng)"彩虹"橫掃湛江并向珠江三角洲傳播，對廣東省電力系統(tǒng)造成嚴(yán)重影響。假定電網(wǎng)節(jié)點與地理上的應(yīng)急點重合。以粵西地區(qū)某地方電網(wǎng)為例，對SF6 型系統(tǒng)電力應(yīng)急的補給調(diào)度任務(wù)展開研究。圖3 為電力應(yīng)急電源的拓撲結(jié)構(gòu)和部分參數(shù)。

圖3 電力應(yīng)急物資調(diào)度拓撲及部分參數(shù)

假設(shè)在0～10 之間的整數(shù)表示節(jié)點之間的傳輸時間，其值越大，表明節(jié)點之間的距離越遠，所需的時間越多。節(jié)點間物資調(diào)度的子網(wǎng)時間值如表1 所示。

表1 電力應(yīng)急物資調(diào)度期望時間（min）

在此基礎(chǔ)上，分別使用傳統(tǒng)的基于節(jié)點綜合權(quán)值的電力系統(tǒng)應(yīng)急物資調(diào)度算法、基于改進飛蛾撲火算法的電力應(yīng)急物資調(diào)度算法和基于強化學(xué)習(xí)的電力系統(tǒng)應(yīng)急物資調(diào)度算法對物資展開調(diào)度，以調(diào)度時間為測試指標(biāo)，對比不同算法的應(yīng)用性能，結(jié)果分別如表2～4 所示。

表2 節(jié)點綜合權(quán)值算法調(diào)度時間（min）

表3 改進飛蛾撲火算法調(diào)度時間（min）

通過上述結(jié)果可知，兩種傳統(tǒng)的調(diào)度算法的調(diào)度時間與期望時間均有所出入，而基于強化學(xué)習(xí)調(diào)度算法的調(diào)度時間與期望時間一致，說明了該方法的有效性。

4 結(jié)束語

該研究建立了電力應(yīng)急物資調(diào)度模型，通過該模型將物資調(diào)度問題轉(zhuǎn)化為目標(biāo)優(yōu)化問題，確定滿足物資需求與時間需求的關(guān)系函數(shù)，從而設(shè)計出滿足應(yīng)急物資需求的調(diào)度算法。然而因?qū)嶒灜h(huán)境有限，還存在許多不能深入研究的問題。在接下來的研究中，將考慮進一步優(yōu)化材料分配制度，如分配路徑的阻塞和解除阻塞等意外情況的處理等問題，進一步提高物資分配效率。

表4 強化學(xué)習(xí)算法調(diào)度時間（min）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于強化學(xué)習(xí)的電力系統(tǒng)應(yīng)急物資調(diào)度算法

1 強化學(xué)習(xí)調(diào)度模型

2 電力系統(tǒng)應(yīng)急物資調(diào)度算法

3 仿真分析

4 結(jié)束語