基于深度強(qiáng)化學(xué)習(xí)的電動(dòng)汽車協(xié)調(diào)充電算法

2022-05-06 01:08:30張子霖

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2022年4期

張子霖

(中國(guó)科學(xué)技術(shù)大學(xué) 自動(dòng)化系，安徽合肥 230026)

0 引言

電動(dòng)汽車作為一種新型的分布式移動(dòng)資源，已成為智能電網(wǎng)發(fā)展的重要組成部分[1]，越來越多的研究人員開始關(guān)注電動(dòng)汽車在電網(wǎng)中的社會(huì)價(jià)值。但電動(dòng)汽車的日益普及也不可避免地給用戶和電網(wǎng)帶來了一系列的問題和挑戰(zhàn)。例如，大量電動(dòng)汽車的不協(xié)調(diào)充電，將導(dǎo)致電網(wǎng)承受不可預(yù)測(cè)的負(fù)荷。因此，如何設(shè)計(jì)多輛電動(dòng)汽車在整個(gè)工作過程中的協(xié)調(diào)充電策略，以降低能源成本，保證用戶對(duì)電動(dòng)汽車荷電狀態(tài)的滿意度，并將對(duì)配電網(wǎng)的影響降到最低，是亟需解決的問題。

近年來，為了解決電動(dòng)汽車的協(xié)調(diào)充電問題，出現(xiàn)了許多分布式調(diào)度方法。例如，為了最大限度地提高電動(dòng)汽車用戶的便利性，開發(fā)了一種分散的基于交替方向乘法器的優(yōu)化算法[2]。為使電動(dòng)汽車充電成本最小化，使用電動(dòng)汽車充電概率模型建立了一個(gè)嚴(yán)格凸分散系統(tǒng)形式的多人博弈[3]。但上述研究只關(guān)注了單一的目標(biāo)，這在實(shí)際應(yīng)用中往往是受限制的。針對(duì)多目標(biāo)的協(xié)調(diào)充電問題，通過多智能體自私協(xié)同優(yōu)化的方案，除了實(shí)現(xiàn)用戶利益以外，也保證避免變壓器過載[4]，但它沒有充分考慮狀態(tài)空間泛化和值函數(shù)逼近的影響，導(dǎo)致擬合性能較差，計(jì)算開銷也不理想。針對(duì)該問題，文獻(xiàn)[5]考慮采用基于機(jī)器學(xué)習(xí)的方法，其以收斂速度快、計(jì)算效率高而被廣泛應(yīng)用于大規(guī)模數(shù)據(jù)的高維問題中。

事實(shí)上，基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)方法作為機(jī)器學(xué)習(xí)的一個(gè)重要分支，已經(jīng)廣泛應(yīng)用于能源領(lǐng)域，特別是電動(dòng)汽車充電問題[6-8]。這是因?yàn)榛趶?qiáng)化學(xué)習(xí)的方法可以在缺乏明確的數(shù)學(xué)模型的情況下模擬順序決策問題，并進(jìn)一步獲得對(duì)環(huán)境的精確響應(yīng)[9]。具體來說，通過建立具有可擴(kuò)展?fàn)顟B(tài)表示的馬爾可夫決策過程，以直接決策聯(lián)合控制整個(gè)電動(dòng)汽車集合[6]。此外，文獻(xiàn)[7]考慮到電價(jià)的隨機(jī)性和電動(dòng)汽車的通勤行為，提出了一種結(jié)合電價(jià)預(yù)測(cè)的深度強(qiáng)化學(xué)習(xí)解決方案來優(yōu)化實(shí)時(shí)調(diào)度。但以上兩種基于強(qiáng)化學(xué)習(xí)的方法是集中實(shí)現(xiàn)的，顯然不可能處理大規(guī)模動(dòng)態(tài)數(shù)據(jù)的在線計(jì)算。針對(duì)電動(dòng)汽車協(xié)調(diào)充電的分布式強(qiáng)化學(xué)習(xí)方法，文獻(xiàn)[8]引入了一種分散的基于市場(chǎng)的方法，使多輛電動(dòng)汽車能夠積極參與電力市場(chǎng)。但其中采用的Q-learning 是基于表格的方法，隨著問題規(guī)模的擴(kuò)大，會(huì)受到維數(shù)災(zāi)難的影響。因此，有必要尋求一種分布式強(qiáng)化學(xué)習(xí)算法，在保證問題規(guī)?？蓴U(kuò)展和計(jì)算開銷可接受的前提下，解決多目標(biāo)的電動(dòng)汽車協(xié)調(diào)充電問題。

基于上述研究，本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的電動(dòng)汽車協(xié)調(diào)充電分布式算法，重點(diǎn)關(guān)注降低用戶的充電成本，確保日常行駛中足夠的電池荷電狀態(tài)，并且避免變壓器過載。

1 問題描述

考慮一個(gè)居民區(qū)，當(dāng)?shù)氐呐潆娋W(wǎng)連接到一定數(shù)目的家庭，每家都有一輛私人使用的電動(dòng)汽車。在本文研究的協(xié)調(diào)充電問題中，所有參與信息交互的電動(dòng)汽車之間存在通信鏈路，從而形成一個(gè)全連通的集合 B={1，2，…，N}。整個(gè)時(shí)間周期為 G={1，2，…，T}，即時(shí)間間隔為 1 h。在時(shí)間步 t∈G，電動(dòng)汽車 n ∈B 獲取本地狀態(tài)信息(即電動(dòng)汽車的位置和電池荷電狀態(tài))和電價(jià)信息，同時(shí)接收變壓器的負(fù)載信息和相鄰電動(dòng)汽車的狀態(tài)信息。然后每輛電動(dòng)汽車根據(jù)上述信息進(jìn)行局部決策，執(zhí)行充電或不充電的具體行為。

為了電動(dòng)汽車用戶和電網(wǎng)方的利益，本文研究的電動(dòng)汽車協(xié)調(diào)充電問題的目標(biāo)是找尋最優(yōu)的充電策略，減少電動(dòng)汽車的充電總成本，確保足夠的電池荷電狀態(tài)，并避免變壓器過載。需要注意的是，用戶的通勤行為是不確定的，無法精確建模，因此可將電動(dòng)汽車的充電行為看成一個(gè)隨機(jī)過程。由于當(dāng)前的信息足以預(yù)測(cè)未來的狀態(tài)，故上述隨機(jī)過程獨(dú)立于歷史，符合馬爾可夫特性。基于以上討論，將本文研究的多目標(biāo)協(xié)調(diào)充電問題表示成一個(gè)包含五元素(S，A，P，R，γ)的馬爾可夫決策過程，以描述不確定性。其中 S 是狀態(tài)空間，A 是所有可行的行為，P 是狀態(tài)轉(zhuǎn)移概率，R 是獎(jiǎng)勵(lì)函數(shù)，γ 是折扣因子。各元素的詳細(xì)介紹如下：

在本文研究的多智能體系統(tǒng)中，參數(shù)化的策略函數(shù)為：

其中 P 為通過參數(shù) θ 將狀態(tài) S 映射到行為 A 上的概率分布函數(shù)。最后，根據(jù)在Sk狀態(tài)下執(zhí)行 Ak后的期望回報(bào)來評(píng)估充電調(diào)度的質(zhì)量：

其中 Qπθ(St，At)表示真實(shí)的行為值函數(shù)。接下來需要在狀態(tài)轉(zhuǎn)移概率 P(S′|S，A)未知的情況下，求解上述馬爾可夫決策過程。考慮到不能通過直接求解貝爾曼方程的方式來獲得最優(yōu)解，而無模型的深度強(qiáng)化學(xué)習(xí)算法可以保證智能體在與環(huán)境進(jìn)行多次交互后獲得最優(yōu)策略，故本文開發(fā)了一個(gè)深度強(qiáng)化學(xué)習(xí)算法來求解所制定的馬爾可夫決策過程問題。

2 策略方法

本節(jié)提出了一種基于神經(jīng)網(wǎng)絡(luò)模型的深度強(qiáng)化學(xué)習(xí)算法，來解決馬爾可夫決策過程形式下的多目標(biāo)電動(dòng)汽車協(xié)調(diào)充電問題，其中利用通信神經(jīng)網(wǎng)絡(luò)(Communication Neural Network，CommNet)模型實(shí)現(xiàn)多輛電動(dòng)汽車上的分布式計(jì)算。在后續(xù)討論和分析中，智能體指的是電動(dòng)汽車，環(huán)境指的是與電動(dòng)汽車交互的住宅充電場(chǎng)景，并設(shè)定T=24。

CommNet 是一種神經(jīng)網(wǎng)絡(luò)模型，常與多智能體強(qiáng)化學(xué)習(xí)結(jié)合使用。它可以促成多個(gè)智能體之間的合作，使它們根據(jù)各自的可觀察狀態(tài)采取行動(dòng)之前進(jìn)行信息交互。本文利用CommNet 來幫助連接到局部電網(wǎng)的電動(dòng)汽車學(xué)習(xí)協(xié)調(diào)充電策略，以實(shí)現(xiàn)設(shè)定的多個(gè)目標(biāo)。在調(diào)度過程中，每層網(wǎng)絡(luò)的所有電動(dòng)汽車向公共的通信信道發(fā)送本地狀態(tài)信息，同時(shí)接收來自其他電動(dòng)汽車的平均狀態(tài)信息，即所有電動(dòng)汽車通過訪問此廣播通信結(jié)構(gòu)共享狀態(tài)信息，然后將處理后的信息作為下一層網(wǎng)絡(luò)的輸入。

CommNet 的具體結(jié)構(gòu)如圖 1 所示。首先，輸入所有電動(dòng)汽車的狀態(tài)，通過 T1和T2兩個(gè)通信步驟映射到各自的行為。在每個(gè)通信步驟中，模塊m=0，1，2 傳播隱藏狀態(tài)向量并在公共信道上廣播由取平均值得到的通信向量然后輸出向量這兩個(gè)向量的具體計(jì)算如下：

圖1 CommNet 結(jié)構(gòu)

其中 Hm和 Cm為對(duì)應(yīng)的系數(shù)矩陣。將上述公式合并，可以得到：

3 深度強(qiáng)化學(xué)習(xí)框架

在機(jī)器學(xué)習(xí)和模式識(shí)別中，有許多經(jīng)典的方法可用于函數(shù)逼近[10]。這里采用 Q 網(wǎng)絡(luò)，它本質(zhì)上是一個(gè)由三個(gè)稠密層組成的神經(jīng)網(wǎng)絡(luò)。 Q 網(wǎng)絡(luò)的輸入層完全連接到隱藏層，這層的輸出值為：

其中 g 為修正后的線性激活函數(shù)，W1、B1分別為權(quán)重矩陣和偏置向量。類似地，隱藏層完全連接到輸出層，輸出值為最終近似到的行為值函數(shù)：

其中 W2、B2分別為權(quán)重矩陣和偏置向量。

本文利用critic 網(wǎng)絡(luò)估計(jì)行為值函數(shù)：

同時(shí)，actor 網(wǎng)絡(luò)根據(jù)critic 部分獲得的值指導(dǎo)策略函數(shù)的參數(shù)更新。整個(gè)算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。

圖2 完整的算法網(wǎng)絡(luò)圖

值得注意的是，本算法在迭代過程中運(yùn)用了兩個(gè)關(guān)鍵技術(shù)，一個(gè)是用于提高算法穩(wěn)定性的目標(biāo)網(wǎng)絡(luò)，即引入目標(biāo) actor 網(wǎng)絡(luò)和目標(biāo) critic 網(wǎng)絡(luò)來固定參數(shù)，并生成與標(biāo)簽數(shù)據(jù)等價(jià)的目標(biāo)值。另一個(gè)關(guān)鍵技術(shù)是經(jīng)驗(yàn)回放，以存儲(chǔ)采樣的方式打破數(shù)據(jù)之間的相關(guān)性，避免連續(xù)一段時(shí)間內(nèi)同一方向的梯度下降，從而保證算法的收斂性[11-12]。

完整的基于CommNet 的深度強(qiáng)化學(xué)習(xí)算法的偽代碼如下：

4 試驗(yàn)驗(yàn)證

本節(jié)給出了仿真結(jié)果，以驗(yàn)證所提出的基于CommNet 的深度強(qiáng)化學(xué)習(xí)算法的性能。代碼基于Python 和 TensorFlow。

4.1 仿真環(huán)境設(shè)置

通過調(diào)查上海市的私家電動(dòng)汽車用戶在不同時(shí)刻的出行情況，模擬狀態(tài)向量中的電動(dòng)汽車位置變量。每輛電動(dòng)汽車每天平均行駛40 km。

假設(shè)研究的每個(gè)家庭都有一輛電動(dòng)汽車。電動(dòng)汽車的電池容量為30 kW·h，平均能源消耗量為0.15 kW·h/km，電動(dòng)汽車平均充電率為10 kW·h/h[13-14]。

在實(shí)現(xiàn)所提出的基于CommNet 的深度強(qiáng)化學(xué)習(xí)算法時(shí)，為了穩(wěn)定學(xué)習(xí)階段，使用Xavier 初始化器初始化由全連接層組成的 CommNet 的權(quán)值。另外，隱藏層節(jié)點(diǎn)數(shù)和通信信道節(jié)點(diǎn)數(shù)均設(shè)置為128。在 critic 網(wǎng)絡(luò)中，輸入單元數(shù)等于狀態(tài)向量、特征向量與行為向量的維數(shù)之和，輸出單元數(shù)等于電動(dòng)汽車的總數(shù)量。在訓(xùn)練過程中，折扣因子設(shè)置為0.99，critic 網(wǎng)絡(luò)和 actor 網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為 0.1，批量采樣對(duì)的數(shù)目設(shè)為 8，迭代次數(shù)設(shè)為 2 000。在 CPU 為i3-8100 的計(jì)算機(jī)上，訓(xùn)練過程大約在 1 250 次迭代后收斂，訓(xùn)練時(shí)間為10 s 左右。

4.2 性能評(píng)估

4.2.1 多目標(biāo)協(xié)調(diào)充電

首先評(píng)估包含3 輛電動(dòng)汽車的小規(guī)模多智能體系統(tǒng)的性能。在某住宅的局部電網(wǎng)覆蓋下，變壓器為附近的 3 戶家庭提供 30 kW·h 的電力。假設(shè)仿真的每個(gè)階段都在一天內(nèi)進(jìn)行，時(shí)間間隔為1 h。

圖3 顯示了總獎(jiǎng)勵(lì)值隨迭代次數(shù)的收斂情況。從中可看出獎(jiǎng)勵(lì)值在1 500 次迭代左右開始收斂。下面驗(yàn)證本文提出的方法分別針對(duì)用戶和電網(wǎng)的相關(guān)目標(biāo)的實(shí)現(xiàn)效果。

圖3 所有電動(dòng)汽車的總獎(jiǎng)勵(lì)值

一方面，對(duì)于用戶，圖 4(a)～圖 4(c)依次顯示了在算法達(dá)到收斂后的某一天內(nèi)，每輛電動(dòng)汽車觀察到的實(shí)時(shí)電價(jià)和電動(dòng)汽車位置，以及各自的行為決策曲線。從圖中可以看出，如果電動(dòng)汽車到達(dá)目的地時(shí)正處于谷時(shí)電價(jià)時(shí)段，且有足夠的停車時(shí)長(zhǎng)使荷電狀態(tài)充至較飽和狀態(tài)，則用戶的充電意愿較強(qiáng)烈，如圖 4(b)中 1～4 時(shí)、圖 4(c)中 3～5 時(shí)顯示的情況；反之，若電動(dòng)汽車在區(qū)域的停駐時(shí)間較短，且正處于峰時(shí)電價(jià)時(shí)段，考慮到用戶充電成本和停車時(shí)長(zhǎng)的敏感程度，此時(shí)用戶的充電概率相對(duì)較低，如圖4(a)中 14～16 時(shí)、圖 4(b)中 16～18 時(shí)的情況。

圖4 各電動(dòng)汽車的位置、電價(jià)與充電行為

另一方面，對(duì)于電網(wǎng)，圖 5(a)～5(c)依次顯示了在算法達(dá)到收斂后的某一天內(nèi)，每輛電動(dòng)汽車接收到的變壓器負(fù)載以及各自的行為決策曲線。如果變壓器離滿載還有足夠的空間，則用戶的充電意愿較強(qiáng) 烈，如圖 5(a)中 11 ～14 時(shí) 、圖 5(c)中 13 ～18 時(shí) 的情況；反之，若變壓器負(fù)載較高，那么此時(shí)用戶的充電概率相對(duì) 較低，如圖 5(b)中 4 ～7 時(shí)、圖 5(c)中19～21 時(shí)顯示的情況。

圖5 各電動(dòng)汽車的變壓器負(fù)載與充電行為

為了表明所提方法的優(yōu)勢(shì)，將其與Q-learning進(jìn)行對(duì)比，結(jié)果如圖6 所示?？梢钥闯?，后者的總獎(jiǎng)勵(lì)值收斂速度比CommNet 方法慢很多，而且整體值也偏低。

圖6 CommNet 和 Q-learning 的獎(jiǎng)勵(lì)值收斂對(duì)比

通過以上討論，可以充分說明本文提出的基于DRL 的分布式算法是解決帶有多個(gè)目標(biāo)的協(xié)調(diào)電動(dòng)汽車充電問題的有效方法。

4.2.2 系統(tǒng)可擴(kuò)展性

為了驗(yàn)證所提方法的可擴(kuò)展性，將電動(dòng)汽車的數(shù)量從 3 輛線性擴(kuò)展到 30 輛。圖 7 顯示了隨著電動(dòng)汽車數(shù)量的增加，算法收斂所需的迭代次數(shù)。可以明顯看出迭代次數(shù)呈現(xiàn)線性增長(zhǎng)而非指數(shù)增長(zhǎng)趨勢(shì)，說明了該算法在處理大規(guī)模多智能體系統(tǒng)時(shí)的有效性。

圖7 電動(dòng)汽車數(shù)量與算法收斂所需的迭代次數(shù)

接下來將基于CommNet 的分布式方法與以下兩種集中式基準(zhǔn)方法做比較，進(jìn)一步說明將CommNet網(wǎng)絡(luò)作為策略方案的性能優(yōu)勢(shì)。

隨機(jī)策略：在該模型中，每輛電動(dòng)汽車有50%的概率不考慮系統(tǒng)狀態(tài)，即其他電動(dòng)汽車的狀態(tài)，進(jìn)行充電動(dòng)作。

貪婪策略：它是最具代表性的一種傳統(tǒng)策略，每個(gè)狀態(tài)有ε 的概率進(jìn)行探索(即隨機(jī)選取充或不充)，而剩下的 1-ε 的概率則進(jìn)行開發(fā)(選取當(dāng)前狀態(tài)下效用值較大的那個(gè)動(dòng)作)[15]。

對(duì)于上述三種算法，在相同的駕駛模式下，設(shè)置相同的目標(biāo)，模擬了2 000 次的電動(dòng)汽車協(xié)調(diào)充電訓(xùn)練來定義平均性能。為此，評(píng)估了在 3 輛、10 輛和30 輛電動(dòng)汽車的情況下，不同方法對(duì)獎(jiǎng)勵(lì)值收斂情況的影響，結(jié)果分別如圖 8(a)～8(c)所示。可以看出，在三條曲線中，貪婪策略對(duì)應(yīng)的曲線在訓(xùn)練初期波動(dòng)較大，最終發(fā)散，未能收斂。而隨機(jī)策略的訓(xùn)練曲線緩慢衰減，且對(duì)應(yīng)的獎(jiǎng)勵(lì)值遠(yuǎn)小于CommNet方法下的獎(jiǎng)勵(lì)值。以上結(jié)果表明，基于 CommNet 的算法在收斂穩(wěn)定性方面比其他兩種集中式基準(zhǔn)方法更加突出。此外，隨著電動(dòng)汽車數(shù)目的不斷增多，所提算法的獎(jiǎng)勵(lì)值能在線性迭代次數(shù)內(nèi)達(dá)到收斂。

圖8 不同數(shù)量電動(dòng)汽車下三種策略的獎(jiǎng)勵(lì)值收斂情況

綜上所述，本文提出的基于CommNet 的深度強(qiáng)化學(xué)習(xí)方法最終學(xué)習(xí)到了能達(dá)到預(yù)定多目標(biāo)的充電策略，并取得了更好的性能。因此，它能有效地應(yīng)用于多電動(dòng)汽車協(xié)調(diào)充電系統(tǒng)，對(duì)電動(dòng)汽車的動(dòng)態(tài)充電數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。

5 結(jié)論

本文針對(duì)包含多目標(biāo)的多電動(dòng)汽車協(xié)調(diào)充電問題，提出了一種分布式的多智能體深度強(qiáng)化學(xué)習(xí)方法。該方法的主要?jiǎng)?chuàng)新之處在于：首先，分別從用戶和電網(wǎng)角度考慮，同時(shí)實(shí)現(xiàn)多個(gè)目標(biāo)；其次，調(diào)度策略采用分布式方法，利用多輛電動(dòng)汽車的局部信息，借助策略網(wǎng)絡(luò)進(jìn)行分布式計(jì)算以達(dá)成全局目標(biāo)。通過數(shù)據(jù)密集仿真的性能評(píng)估，驗(yàn)證了所提算法的有效性和可擴(kuò)展性。在未來，這項(xiàng)工作可以沿著不同的路線進(jìn)一步擴(kuò)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡