国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強(qiáng)化學(xué)習(xí)的電動(dòng)汽車協(xié)調(diào)充電算法

2022-05-06 01:08:30張子霖
關(guān)鍵詞:電動(dòng)汽車深度狀態(tài)

張子霖

(中國(guó)科學(xué)技術(shù)大學(xué) 自動(dòng)化系,安徽 合肥 230026)

0 引言

電動(dòng)汽車作為一種新型的分布式移動(dòng)資源,已成為智能電網(wǎng)發(fā)展的重要組成部分[1],越來越多的研究人員開始關(guān)注電動(dòng)汽車在電網(wǎng)中的社會(huì)價(jià)值。但電動(dòng)汽車的日益普及也不可避免地給用戶和電網(wǎng)帶來了一系列的問題和挑戰(zhàn)。 例如,大量電動(dòng)汽車的不協(xié)調(diào)充電,將導(dǎo)致電網(wǎng)承受不可預(yù)測(cè)的負(fù)荷。 因此,如何設(shè)計(jì)多輛電動(dòng)汽車在整個(gè)工作過程中的協(xié)調(diào)充電策略,以降低能源成本,保證用戶對(duì)電動(dòng)汽車荷電狀態(tài)的滿意度,并將對(duì)配電網(wǎng)的影響降到最低,是亟需解決的問題。

近年來,為了解決電動(dòng)汽車的協(xié)調(diào)充電問題,出現(xiàn)了許多分布式調(diào)度方法。 例如,為了最大限度地提高電動(dòng)汽車用戶的便利性,開發(fā)了一種分散的基于交替方向乘法器的優(yōu)化算法[2]。 為使電動(dòng)汽車充電成本最小化,使用電動(dòng)汽車充電概率模型建立了一個(gè)嚴(yán)格凸分散系統(tǒng)形式的多人博弈[3]。 但上述研究只關(guān)注了單一的目標(biāo),這在實(shí)際應(yīng)用中往往是受限制的。 針對(duì)多目標(biāo)的協(xié)調(diào)充電問題,通過多智能體自私協(xié)同優(yōu)化的方案,除了實(shí)現(xiàn)用戶利益以外,也保證避免變壓器過載[4],但它沒有充分考慮狀態(tài)空間泛化和值函數(shù)逼近的影響, 導(dǎo)致擬合性能較差,計(jì)算開銷也不理想。 針對(duì)該問題,文獻(xiàn)[5]考慮采用基于機(jī)器學(xué)習(xí)的方法,其以收斂速度快、計(jì)算效率高而被廣泛應(yīng)用于大規(guī)模數(shù)據(jù)的高維問題中。

事實(shí)上,基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)方法作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,已經(jīng)廣泛應(yīng)用于能源領(lǐng)域,特別是電動(dòng)汽車充電問題[6-8]。這是因?yàn)榛趶?qiáng)化學(xué)習(xí)的方法可以在缺乏明確的數(shù)學(xué)模型的情況下模擬順序決策問題,并進(jìn)一步獲得對(duì)環(huán)境的精確響應(yīng)[9]。 具體來說,通過建立具有可擴(kuò)展?fàn)顟B(tài)表示的馬爾可夫決策過程,以直接決策聯(lián)合控制整個(gè)電動(dòng)汽車集合[6]。 此外,文獻(xiàn)[7]考慮到電價(jià)的隨機(jī)性和電動(dòng)汽車的通勤行為,提出了一種結(jié)合電價(jià)預(yù)測(cè)的深度強(qiáng)化學(xué)習(xí)解決方案來優(yōu)化實(shí)時(shí)調(diào)度。 但以上兩種基于強(qiáng)化學(xué)習(xí)的方法是集中實(shí)現(xiàn)的,顯然不可能處理大規(guī)模動(dòng)態(tài)數(shù)據(jù)的在線計(jì)算。 針對(duì)電動(dòng)汽車協(xié)調(diào)充電的分布式強(qiáng)化學(xué)習(xí)方法,文獻(xiàn)[8]引入了一種分散的基于市場(chǎng)的方法,使多輛電動(dòng)汽車能夠積極參與電力市場(chǎng)。 但其中采用的Q-learning 是基于表格的方法,隨著問題規(guī)模的擴(kuò)大,會(huì)受到維數(shù)災(zāi)難的影響。 因此,有必要尋求一種分布式強(qiáng)化學(xué)習(xí)算法,在保證問題規(guī)??蓴U(kuò)展和計(jì)算開銷可接受的前提下,解決多目標(biāo)的電動(dòng)汽車協(xié)調(diào)充電問題。

基于上述研究,本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的電動(dòng)汽車協(xié)調(diào)充電分布式算法,重點(diǎn)關(guān)注降低用戶的充電成本,確保日常行駛中足夠的電池荷電狀態(tài),并且避免變壓器過載。

1 問題描述

考慮一個(gè)居民區(qū),當(dāng)?shù)氐呐潆娋W(wǎng)連接到一定數(shù)目的家庭,每家都有一輛私人使用的電動(dòng)汽車。 在本文研究的協(xié)調(diào)充電問題中,所有參與信息交互的電動(dòng)汽車之間存在通信鏈路,從而形成一個(gè)全連通的集合 B={1,2,…,N}。 整個(gè)時(shí)間周期為 G={1,2,…,T},即時(shí)間間隔為 1 h。 在時(shí)間步 t∈G,電動(dòng)汽車 n ∈B 獲取本地狀態(tài)信息(即電動(dòng)汽車的位置和電池荷電狀態(tài))和電價(jià)信息,同時(shí)接收變壓器的負(fù)載信息和相鄰電動(dòng)汽車的狀態(tài)信息。 然后每輛電動(dòng)汽車根據(jù)上述信息進(jìn)行局部決策,執(zhí)行充電或不充電的具體行為。

為了電動(dòng)汽車用戶和電網(wǎng)方的利益,本文研究的電動(dòng)汽車協(xié)調(diào)充電問題的目標(biāo)是找尋最優(yōu)的充電策略,減少電動(dòng)汽車的充電總成本,確保足夠的電池荷電狀態(tài),并避免變壓器過載。需要注意的是,用戶的通勤行為是不確定的,無法精確建模,因此可將電動(dòng)汽車的充電行為看成一個(gè)隨機(jī)過程。 由于當(dāng)前的信息足以預(yù)測(cè)未來的狀態(tài),故上述隨機(jī)過程獨(dú)立于歷史,符合馬爾可夫特性。基于以上討論,將本文研究的多目標(biāo)協(xié)調(diào)充電問題表示成一個(gè)包含五元素(S,A,P,R,γ)的馬爾可夫決策過程,以描述不確定性。 其中 S 是狀態(tài)空間,A 是所有可行的行為,P 是狀態(tài)轉(zhuǎn)移概率,R 是獎(jiǎng)勵(lì)函數(shù),γ 是折扣因子。 各元素的詳細(xì)介紹如下:

在本文研究的多智能體系統(tǒng)中,參數(shù)化的策略函數(shù)為:

其中 P 為通過參數(shù) θ 將狀態(tài) S 映射到行為 A 上的概率分布函數(shù)。 最后,根據(jù)在Sk狀態(tài)下執(zhí)行 Ak后的期望回報(bào)來評(píng)估充電調(diào)度的質(zhì)量:

其中 Qπθ(St,At)表示真實(shí)的行為值函數(shù)。 接下來需要在狀態(tài)轉(zhuǎn)移概率 P(S′|S,A)未知的情況下,求解上述馬爾可夫決策過程。 考慮到不能通過直接求解貝爾曼方程的方式來獲得最優(yōu)解,而無模型的深度強(qiáng)化學(xué)習(xí)算法可以保證智能體在與環(huán)境進(jìn)行多次交互后獲得最優(yōu)策略,故本文開發(fā)了一個(gè)深度強(qiáng)化學(xué)習(xí)算法來求解所制定的馬爾可夫決策過程問題。

2 策略方法

本節(jié)提出了一種基于神經(jīng)網(wǎng)絡(luò)模型的深度強(qiáng)化學(xué)習(xí)算法,來解決馬爾可夫決策過程形式下的多目標(biāo)電動(dòng)汽車協(xié)調(diào)充電問題,其中利用通信神經(jīng)網(wǎng)絡(luò)(Communication Neural Network,CommNet)模型實(shí)現(xiàn)多輛電動(dòng)汽車上的分布式計(jì)算。 在后續(xù)討論和分析中,智能體指的是電動(dòng)汽車,環(huán)境指的是與電動(dòng)汽車交互的住宅充電場(chǎng)景,并設(shè)定T=24。

CommNet 是一種神經(jīng)網(wǎng)絡(luò)模型,常與多智能體強(qiáng)化學(xué)習(xí)結(jié)合使用。 它可以促成多個(gè)智能體之間的合作,使它們根據(jù)各自的可觀察狀態(tài)采取行動(dòng)之前進(jìn)行信息交互。 本文利用CommNet 來幫助連接到局部電網(wǎng)的電動(dòng)汽車學(xué)習(xí)協(xié)調(diào)充電策略,以實(shí)現(xiàn)設(shè)定的多個(gè)目標(biāo)。 在調(diào)度過程中,每層網(wǎng)絡(luò)的所有電動(dòng)汽車向公共的通信信道發(fā)送本地狀態(tài)信息,同時(shí)接收來自其他電動(dòng)汽車的平均狀態(tài)信息,即所有電動(dòng)汽車通過訪問此廣播通信結(jié)構(gòu)共享狀態(tài)信息,然后將處理后的信息作為下一層網(wǎng)絡(luò)的輸入。

CommNet 的具體結(jié)構(gòu)如圖 1 所示。 首先,輸入所有電動(dòng)汽車的狀態(tài),通過 T1和T2兩個(gè)通信步驟映射到各自的行為。 在每個(gè)通信步驟中,模塊m=0,1,2 傳播隱藏狀態(tài)向量并在公共信道上廣播由取平均值得到的通信向量然 后 輸 出向量這兩個(gè)向量的具體計(jì)算如下:

圖1 CommNet 結(jié)構(gòu)

其中 Hm和 Cm為對(duì)應(yīng)的系數(shù)矩陣。 將上述公式合并,可以得到:

3 深度強(qiáng)化學(xué)習(xí)框架

在機(jī)器學(xué)習(xí)和模式識(shí)別中,有許多經(jīng)典的方法可用于函數(shù)逼近[10]。 這里采用 Q 網(wǎng)絡(luò),它本質(zhì)上是一個(gè)由三個(gè)稠密層組成的神經(jīng)網(wǎng)絡(luò)。 Q 網(wǎng)絡(luò)的輸入層完全連接到隱藏層,這層的輸出值為:

其中 g 為修正后的線性激活函數(shù),W1、B1分別為權(quán)重矩陣和偏置向量。 類似地,隱藏層完全連接到輸出層,輸出值為最終近似到的行為值函數(shù):

其中 W2、B2分別為權(quán)重矩陣和偏置向量。

本文利用critic 網(wǎng)絡(luò)估計(jì)行為值函數(shù):

同時(shí),actor 網(wǎng)絡(luò)根據(jù)critic 部分獲得的值指導(dǎo)策略函數(shù)的參數(shù)更新。 整個(gè)算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。

圖2 完整的算法網(wǎng)絡(luò)圖

值得注意的是,本算法在迭代過程中運(yùn)用了兩個(gè)關(guān)鍵技術(shù),一個(gè)是用于提高算法穩(wěn)定性的目標(biāo)網(wǎng)絡(luò),即引入目標(biāo) actor 網(wǎng)絡(luò)和目標(biāo) critic 網(wǎng)絡(luò)來固定參數(shù),并生成與標(biāo)簽數(shù)據(jù)等價(jià)的目標(biāo)值。 另一個(gè)關(guān)鍵技術(shù)是經(jīng)驗(yàn)回放,以存儲(chǔ)采樣的方式打破數(shù)據(jù)之間的相關(guān)性,避免連續(xù)一段時(shí)間內(nèi)同一方向的梯度下降,從而保證算法的收斂性[11-12]。

完整的基于CommNet 的深度強(qiáng)化學(xué)習(xí)算法的偽代碼如下:

4 試驗(yàn)驗(yàn)證

本節(jié)給出了仿真結(jié)果,以驗(yàn)證所提出的基于CommNet 的深度強(qiáng)化學(xué)習(xí)算法的性能。 代碼基于Python 和 TensorFlow。

4.1 仿真環(huán)境設(shè)置

通過調(diào)查上海市的私家電動(dòng)汽車用戶在不同時(shí)刻的出行情況,模擬狀態(tài)向量中的電動(dòng)汽車位置變量。 每輛電動(dòng)汽車每天平均行駛40 km。

假設(shè)研究的每個(gè)家庭都有一輛電動(dòng)汽車。 電動(dòng)汽車的電池容量為30 kW·h,平均能源消耗量為0.15 kW·h/km,電動(dòng)汽車平均充電率為10 kW·h/h[13-14]。

在實(shí)現(xiàn)所提出的基于CommNet 的深度強(qiáng)化學(xué)習(xí)算法時(shí),為了穩(wěn)定學(xué)習(xí)階段,使用Xavier 初始化器初始化由全連接層組成的 CommNet 的權(quán)值。 另外,隱藏層節(jié)點(diǎn)數(shù)和通信信道節(jié)點(diǎn)數(shù)均設(shè)置為128。在 critic 網(wǎng)絡(luò)中,輸入單元數(shù)等于狀態(tài)向量、特征向量與行為向量的維數(shù)之和,輸出單元數(shù)等于電動(dòng)汽車的總數(shù)量。 在訓(xùn)練過程中,折扣因子設(shè)置為0.99,critic 網(wǎng)絡(luò)和 actor 網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為 0.1,批量采樣對(duì)的數(shù)目設(shè)為 8,迭代次數(shù)設(shè)為 2 000。 在 CPU 為i3-8100 的計(jì)算機(jī)上,訓(xùn)練過程大約在 1 250 次迭代后收斂,訓(xùn)練時(shí)間為10 s 左右。

4.2 性能評(píng)估

4.2.1 多目標(biāo)協(xié)調(diào)充電

首先評(píng)估包含3 輛電動(dòng)汽車的小規(guī)模多智能體系統(tǒng)的性能。 在某住宅的局部電網(wǎng)覆蓋下,變壓器為附近的 3 戶家庭提供 30 kW·h 的電力。 假設(shè)仿真的每個(gè)階段都在一天內(nèi)進(jìn)行,時(shí)間間隔為1 h。

圖3 顯示了總獎(jiǎng)勵(lì)值隨迭代次數(shù)的收斂情況。從中可看出獎(jiǎng)勵(lì)值在1 500 次迭代左右開始收斂。下面驗(yàn)證本文提出的方法分別針對(duì)用戶和電網(wǎng)的相關(guān)目標(biāo)的實(shí)現(xiàn)效果。

圖3 所有電動(dòng)汽車的總獎(jiǎng)勵(lì)值

一方面,對(duì)于用戶,圖 4(a)~圖 4(c)依次顯示了在算法達(dá)到收斂后的某一天內(nèi),每輛電動(dòng)汽車觀察到的實(shí)時(shí)電價(jià)和電動(dòng)汽車位置,以及各自的行為決策曲線。 從圖中可以看出,如果電動(dòng)汽車到達(dá)目的地時(shí)正處于谷時(shí)電價(jià)時(shí)段,且有足夠的停車時(shí)長(zhǎng)使荷電狀態(tài)充至較飽和狀態(tài),則用戶的充電意愿較強(qiáng)烈,如圖 4(b)中 1~4 時(shí)、圖 4(c)中 3~5 時(shí)顯示的情況;反之,若電動(dòng)汽車在區(qū)域的停駐時(shí)間較短,且正處于峰時(shí)電價(jià)時(shí)段,考慮到用戶充電成本和停車時(shí)長(zhǎng)的敏感程度,此時(shí)用戶的充電概率相對(duì)較低,如圖4(a)中 14~16 時(shí)、圖 4(b)中 16~18 時(shí)的情況。

圖4 各電動(dòng)汽車的位置、電價(jià)與充電行為

另一方面,對(duì)于電網(wǎng),圖 5(a)~5(c)依次顯示了在算法達(dá)到收斂后的某一天內(nèi),每輛電動(dòng)汽車接收到的變壓器負(fù)載以及各自的行為決策曲線。 如果變壓器離滿載還有足夠的空間,則用戶的充電意愿較強(qiáng) 烈 , 如 圖 5(a)中 11 ~14 時(shí) 、 圖 5(c)中 13 ~18 時(shí) 的情況;反之,若變壓器負(fù)載較高,那么此時(shí)用戶的充電概率 相對(duì) 較低 ,如 圖 5(b)中 4 ~7 時(shí)、圖 5(c)中19~21 時(shí)顯示的情況。

圖5 各電動(dòng)汽車的變壓器負(fù)載與充電行為

為了表明所提方法的優(yōu)勢(shì),將其與Q-learning進(jìn)行對(duì)比,結(jié)果如圖6 所示??梢钥闯?,后者的總獎(jiǎng)勵(lì)值收斂速度比CommNet 方法慢很多,而且整體值也偏低。

圖6 CommNet 和 Q-learning 的獎(jiǎng)勵(lì)值收斂對(duì)比

通過以上討論,可以充分說明本文提出的基于DRL 的分布式算法是解決帶有多個(gè)目標(biāo)的協(xié)調(diào)電動(dòng)汽車充電問題的有效方法。

4.2.2 系統(tǒng)可擴(kuò)展性

為了驗(yàn)證所提方法的可擴(kuò)展性,將電動(dòng)汽車的數(shù)量從 3 輛線性擴(kuò)展到 30 輛。 圖 7 顯示了隨著電動(dòng)汽車數(shù)量的增加,算法收斂所需的迭代次數(shù)。 可以明顯看出迭代次數(shù)呈現(xiàn)線性增長(zhǎng)而非指數(shù)增長(zhǎng)趨勢(shì),說明了該算法在處理大規(guī)模多智能體系統(tǒng)時(shí)的有效性。

圖7 電動(dòng)汽車數(shù)量與算法收斂所需的迭代次數(shù)

接下來將基于CommNet 的分布式方法與以下兩種集中式基準(zhǔn)方法做比較,進(jìn)一步說明將CommNet網(wǎng)絡(luò)作為策略方案的性能優(yōu)勢(shì)。

隨機(jī)策略:在該模型中,每輛電動(dòng)汽車有50%的概率不考慮系統(tǒng)狀態(tài),即其他電動(dòng)汽車的狀態(tài),進(jìn)行充電動(dòng)作。

貪婪策略:它是最具代表性的一種傳統(tǒng)策略,每個(gè)狀態(tài)有ε 的概率進(jìn)行探索(即隨機(jī)選取充或不充),而剩下的 1-ε 的概率則進(jìn)行開發(fā)(選取當(dāng)前狀態(tài)下效用值較大的那個(gè)動(dòng)作)[15]。

對(duì)于上述三種算法,在相同的駕駛模式下,設(shè)置相同的目標(biāo),模擬了2 000 次的電動(dòng)汽車協(xié)調(diào)充電訓(xùn)練來定義平均性能。 為此,評(píng)估了在 3 輛、10 輛和30 輛電動(dòng)汽車的情況下,不同方法對(duì)獎(jiǎng)勵(lì)值收斂情況的影響,結(jié)果分別如圖 8(a)~8(c)所示。 可以看出,在三條曲線中,貪婪策略對(duì)應(yīng)的曲線在訓(xùn)練初期波動(dòng)較大,最終發(fā)散,未能收斂。而隨機(jī)策略的訓(xùn)練曲線緩慢衰減,且對(duì)應(yīng)的獎(jiǎng)勵(lì)值遠(yuǎn)小于CommNet方法下的獎(jiǎng)勵(lì)值。 以上結(jié)果表明,基于 CommNet 的算法在收斂穩(wěn)定性方面比其他兩種集中式基準(zhǔn)方法更加突出。此外,隨著電動(dòng)汽車數(shù)目的不斷增多,所提算法的獎(jiǎng)勵(lì)值能在線性迭代次數(shù)內(nèi)達(dá)到收斂。

圖8 不同數(shù)量電動(dòng)汽車下三種策略的獎(jiǎng)勵(lì)值收斂情況

綜上所述,本文提出的基于CommNet 的深度強(qiáng)化學(xué)習(xí)方法最終學(xué)習(xí)到了能達(dá)到預(yù)定多目標(biāo)的充電策略,并取得了更好的性能。因此,它能有效地應(yīng)用于多電動(dòng)汽車協(xié)調(diào)充電系統(tǒng),對(duì)電動(dòng)汽車的動(dòng)態(tài)充電數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。

5 結(jié)論

本文針對(duì)包含多目標(biāo)的多電動(dòng)汽車協(xié)調(diào)充電問題,提出了一種分布式的多智能體深度強(qiáng)化學(xué)習(xí)方法。該方法的主要?jiǎng)?chuàng)新之處在于:首先,分別從用戶和電網(wǎng)角度考慮,同時(shí)實(shí)現(xiàn)多個(gè)目標(biāo);其次,調(diào)度策略采用分布式方法,利用多輛電動(dòng)汽車的局部信息,借助策略網(wǎng)絡(luò)進(jìn)行分布式計(jì)算以達(dá)成全局目標(biāo)。 通過數(shù)據(jù)密集仿真的性能評(píng)估,驗(yàn)證了所提算法的有效性和可擴(kuò)展性。 在未來,這項(xiàng)工作可以沿著不同的路線進(jìn)一步擴(kuò)展。

猜你喜歡
電動(dòng)汽車深度狀態(tài)
純電動(dòng)汽車學(xué)習(xí)入門(二)——純電動(dòng)汽車概述(下)
深度理解一元一次方程
狀態(tài)聯(lián)想
電動(dòng)汽車
深度觀察
深度觀察
深度觀察
生命的另一種狀態(tài)
現(xiàn)在可以入手的電動(dòng)汽車
海外星云(2016年17期)2016-12-01 04:18:42
熱圖
家庭百事通(2016年3期)2016-03-14 08:07:17
沛县| 上栗县| 敖汉旗| 佛山市| 民勤县| 贵南县| 梅州市| 双鸭山市| 塔城市| 永兴县| 碌曲县| 云浮市| 长宁县| 通榆县| 万载县| 靖州| 杭锦旗| 桃园市| 和硕县| 库尔勒市| 玛多县| 永兴县| 泰来县| 化隆| 平舆县| 九台市| 永川市| 永春县| 雷波县| 屏边| 海城市| 琼海市| 彩票| 深圳市| 中西区| 阿鲁科尔沁旗| 怀仁县| 上林县| 古蔺县| 邛崃市| 彭州市|