朱 強(qiáng),王可心,邵之江
(浙江大學(xué)控制科學(xué)與工程學(xué)院,浙江杭州 310027)
當(dāng)前,多智能體系統(tǒng)的動(dòng)態(tài)優(yōu)化是控制理論研究的前沿問題,此類系統(tǒng)是由一群具備一定感知、通信、計(jì)算和執(zhí)行能力的智能體通過通訊等方式關(guān)聯(lián)成的一個(gè)網(wǎng)絡(luò)系統(tǒng).對于此類大規(guī)模網(wǎng)絡(luò)系統(tǒng)的動(dòng)態(tài)優(yōu)化問題,滾動(dòng)時(shí)域優(yōu)化是當(dāng)前被廣泛使用的一種動(dòng)態(tài)優(yōu)化策略,該策略在實(shí)際應(yīng)用過程中依賴于實(shí)時(shí)在線求解動(dòng)態(tài)優(yōu)化問題[1].對于一些具有非線性動(dòng)態(tài)特性的大規(guī)模集中式動(dòng)態(tài)優(yōu)化問題,雖然優(yōu)化結(jié)果的最優(yōu)性可以保證,但由于每個(gè)優(yōu)化周期內(nèi)求解的優(yōu)化問題復(fù)雜度較高,常常難以保證實(shí)時(shí)在線成功求解,所以在利用滾動(dòng)時(shí)域優(yōu)化策略實(shí)時(shí)在線求解此類動(dòng)態(tài)優(yōu)化問題時(shí)常常面臨巨大挑戰(zhàn)[2].為了保證大規(guī)模復(fù)雜動(dòng)態(tài)優(yōu)化問題的實(shí)時(shí)在線求解和靈活操作,研究者們提出了分布式動(dòng)態(tài)優(yōu)化[3].分布式優(yōu)化方法比傳統(tǒng)的集中式優(yōu)化方法更為靈活,操作起來更為方便,這也使得利用分布式優(yōu)化策略來合作完成目標(biāo)的研究得到了迅速發(fā)展[4].在分布式動(dòng)態(tài)優(yōu)化中,為了減小優(yōu)化求解的復(fù)雜度從而保證實(shí)時(shí)在線求解,原本非線性大規(guī)模多約束的集中式動(dòng)態(tài)優(yōu)化問題首先被分解為若干個(gè)小規(guī)模分布式動(dòng)態(tài)優(yōu)化子問題.之后求解各子問題,并通過各問題之間的通信來綜合各問題的最優(yōu)解以便最終獲得原問題的整體最優(yōu)[5-6].在分布式動(dòng)態(tài)優(yōu)化求解過程中,最重要的一步是求解各動(dòng)態(tài)優(yōu)化子問題.求解算法涉及諸多可行的策略,其中,一些研究者從動(dòng)態(tài)博弈的角度來考慮求解上述問題[7-8].博弈論與控制優(yōu)化理論之間有很多共同之處,最大的共同點(diǎn)在于它們都是通過優(yōu)化自身的操作來實(shí)現(xiàn)自身目標(biāo)的最優(yōu)化[9].所以從動(dòng)態(tài)博弈的角度看,分布式動(dòng)態(tài)優(yōu)化本質(zhì)上是一個(gè)動(dòng)態(tài)博弈,其中各子問題對應(yīng)動(dòng)態(tài)博弈中的玩家,最優(yōu)控制對應(yīng)博弈中的策略,各子問題的目標(biāo)函數(shù)對應(yīng)博弈中的支付函數(shù)[10].基于動(dòng)態(tài)博弈求解分布式動(dòng)態(tài)優(yōu)化中的子問題時(shí),常用的方法包括基于梯度信息的數(shù)值優(yōu)化算法以及無梯度信息的隨機(jī)數(shù)值優(yōu)化算法.無梯度信息優(yōu)化算法相比于基于梯度信息的優(yōu)化算法優(yōu)勢在于可以處理一些具有不連續(xù)不光滑函數(shù)的動(dòng)態(tài)優(yōu)化問題,而且優(yōu)化計(jì)算的邏輯相對容易理解,易于實(shí)現(xiàn)[11].但缺點(diǎn)是此類方法得到的結(jié)果往往具有隨機(jī)性,每次求解的結(jié)果可能會(huì)不同,優(yōu)化計(jì)算的最優(yōu)性難以保證,而且優(yōu)化求解的計(jì)算代價(jià)和時(shí)間代價(jià)較大.基于梯度信息的數(shù)值優(yōu)化算法是確定性算法,其提供的梯度信息可以保證優(yōu)化計(jì)算的最優(yōu)性,計(jì)算代價(jià)和時(shí)間代價(jià)較無梯度優(yōu)化算法有較大提升,可以有效的克服上述無梯度信息優(yōu)化算法的缺點(diǎn),所以基于梯度信息的數(shù)值優(yōu)化算法優(yōu)勢更為突出,應(yīng)用場景更廣.此類算法中常用的方法是間接法[12].對于一些簡單優(yōu)化問題,上述方法可提供高精度的最優(yōu)解.但對于復(fù)雜優(yōu)化問題,如果無法為協(xié)態(tài)變量以及約束和非約束操作之間的切換結(jié)構(gòu)提供足夠好的初值,利用上述方法求解動(dòng)態(tài)優(yōu)化問題將很難成功收斂[13].為了解決上述問題,研究者們提出了直接法.該方法無需求解解析的一階必要性條件,同時(shí)對協(xié)態(tài)變量和切換結(jié)構(gòu)的初值也不敏感.所以與解析法和間接法相比,直接法更容易進(jìn)行初始化操作,從而克服了傳統(tǒng)方法的缺點(diǎn).但傳統(tǒng)直接法只能求解單邊最優(yōu)控制問題,而基于動(dòng)態(tài)博弈求解分布式動(dòng)態(tài)優(yōu)化中的子問題時(shí)往往涉及雙邊或多邊最優(yōu)控制問題.如果想使用直接法求解基于動(dòng)態(tài)博弈的分布式動(dòng)態(tài)優(yōu)化,關(guān)鍵需要對原始多邊最優(yōu)控制問題進(jìn)行數(shù)學(xué)變換,將其轉(zhuǎn)換為直接法可以求解的單邊最優(yōu)控制問題.但文獻(xiàn)中關(guān)于如何變換多邊問題并用直接法求解多邊最優(yōu)控制問題的相關(guān)研究較少[14-16].
在分布式動(dòng)態(tài)優(yōu)化方案的實(shí)際應(yīng)用中,除了需要研究分布式動(dòng)態(tài)優(yōu)化的求解策略之外,在分布式動(dòng)態(tài)優(yōu)化方案下系統(tǒng)穩(wěn)定性分析也十分重要.追求分布式動(dòng)態(tài)優(yōu)化目標(biāo)函數(shù)的極大化或極小化必須在保證系統(tǒng)穩(wěn)定性的前提下討論才有意義.例如,當(dāng)分布式動(dòng)態(tài)優(yōu)化的目標(biāo)函數(shù)涉及到經(jīng)濟(jì)效益時(shí),本文需要在保證系統(tǒng)穩(wěn)定性的前提下極大化系統(tǒng)的經(jīng)濟(jì)效益.所以無論使用哪一種分布式動(dòng)態(tài)優(yōu)化方案求解動(dòng)態(tài)優(yōu)化問題,本文首先需要分析該方案下系統(tǒng)穩(wěn)定性是否滿足以及如何滿足.由于分布式動(dòng)態(tài)優(yōu)化方案只能獲得系統(tǒng)開環(huán)最優(yōu)控制,所以當(dāng)本文分析系統(tǒng)穩(wěn)定性同時(shí)也為了保證系統(tǒng)的穩(wěn)定性時(shí),首先需要構(gòu)建一個(gè)閉環(huán)控制系統(tǒng).本文以極大化系統(tǒng)經(jīng)濟(jì)效益作為目標(biāo)函數(shù),求解極值狀態(tài)下系統(tǒng)各狀態(tài)變量和控制變量的穩(wěn)態(tài)值作為閉環(huán)控制系統(tǒng)的設(shè)定值.因?yàn)榉植际絼?dòng)態(tài)優(yōu)化方案是基于滾動(dòng)時(shí)域優(yōu)化來求解開環(huán)最優(yōu)控制,并且本文假設(shè)分布式動(dòng)態(tài)優(yōu)化的目標(biāo)函數(shù)是極大化系統(tǒng)經(jīng)濟(jì)效益,所以分布式動(dòng)態(tài)優(yōu)化方案可看作是經(jīng)濟(jì)模型預(yù)測控制器.在經(jīng)濟(jì)模型預(yù)測控制(economic model predictive control,eMPC)下,漸進(jìn)穩(wěn)定是研究控制系統(tǒng)穩(wěn)定性的一個(gè)有效理論工具.對于滿足耗散結(jié)構(gòu)的系統(tǒng)來說,eMPC下系統(tǒng)的漸進(jìn)穩(wěn)定性可以滿足,但對于一般的系統(tǒng)來說,系統(tǒng)的漸進(jìn)穩(wěn)定性很難被保證.為了解決這一問題,當(dāng)涉及到eMPC下系統(tǒng)穩(wěn)定性時(shí),傳統(tǒng)的分析系統(tǒng)穩(wěn)定性的工具需要更新.輸入狀態(tài)實(shí)際穩(wěn)定性(input-to-state practical stability,ISpS)是目前分析eMPC下系統(tǒng)穩(wěn)定性的常用分析工具之一[17].
在本文研究中,目標(biāo)是:1)提出滾動(dòng)合作博弈優(yōu)化(receding cooperative game optimization,RCGO)方案,從動(dòng)態(tài)博弈角度分析分布式動(dòng)態(tài)優(yōu)化;2)提出數(shù)值優(yōu)化直接法,分解迭代法(decomposition iterative method,DIM),基于動(dòng)態(tài)博弈求解分布式動(dòng)態(tài)優(yōu)化;3)在RCGO分布式動(dòng)態(tài)優(yōu)化方案下,使用ISpS分析系統(tǒng)穩(wěn)定性.為檢驗(yàn)RCGO方案和DIM算法,本文使用一個(gè)由兩個(gè)連續(xù)攪拌反應(yīng)釜和一個(gè)絕熱閃蒸器組成的化工過程網(wǎng)絡(luò)作為仿真平臺(tái).
本文章節(jié)安排如下:第2部分提出RCGO分布式動(dòng)態(tài)優(yōu)化方案.第3部分展示DIM算法細(xì)節(jié).第4部分分析RCGO方案下系統(tǒng)穩(wěn)定性.第5部分展示數(shù)值仿真結(jié)果及相關(guān)討論.第6部分總結(jié)全文,得出結(jié)論.
本章節(jié)提出滾動(dòng)集中優(yōu)化(receding centralized optimization,RCO)和滾動(dòng)合作博弈優(yōu)化兩種動(dòng)態(tài)優(yōu)化方案.他們都基于滾動(dòng)時(shí)域優(yōu)化求解動(dòng)態(tài)優(yōu)化問題.
每一個(gè)優(yōu)化周期內(nèi),RCO方案只求解一個(gè)動(dòng)態(tài)優(yōu)化問題就可同步獲得大規(guī)模非線性系統(tǒng)的所有最優(yōu)控制和狀態(tài)變量.在t∈[kΔT,(k+P)ΔT]中,動(dòng)態(tài)優(yōu)化問題可表示為如下形式:
其中:t∈[kΔT,(k+P)ΔT],k∈{0,…,M},xxx(t)和uuu(t)分別表示系統(tǒng)的狀態(tài)變量和控制變量,fff表示系統(tǒng)模型,gggE和gggI分別表示等式和不等式路徑約束,hhhE和hhhI分別表示等式和不等式終態(tài)約束,xxxk表示狀態(tài)變量的初值,J表示目標(biāo)函數(shù),ΔT表示采樣周期,k表示第k個(gè)采樣周期,M表示采樣周期的個(gè)數(shù),P表示優(yōu)化時(shí)域.在優(yōu)化周期t∈[kΔT,(k+P)ΔT]中,在線求解最優(yōu)控制序列uuu(t),并且從時(shí)刻tk=kΔT開始,在時(shí)間段t∈[kΔT,(k+L)ΔT](L <P)內(nèi)執(zhí)行最優(yōu)控制序列直到系統(tǒng)得到新的狀態(tài)變量,其中L表示控制時(shí)域,缺省值為1.然后在下一個(gè)優(yōu)化周期內(nèi)重新求解動(dòng)態(tài)優(yōu)化問題并重復(fù)上述過程,直到獲得全部優(yōu)化時(shí)間段內(nèi)的最優(yōu)控制序列.
當(dāng)使用RCO動(dòng)態(tài)優(yōu)化方案求解大規(guī)模非線性動(dòng)態(tài)優(yōu)化問題時(shí),隨著問題規(guī)模和復(fù)雜度的增加,計(jì)算成本和時(shí)間代價(jià)也將隨之迅速增加.為了能夠高效求解大規(guī)模非線性動(dòng)態(tài)優(yōu)化問題,一個(gè)可行的替代方案是將原本大規(guī)模非線性集中式的動(dòng)態(tài)優(yōu)化問題分解為若干個(gè)小規(guī)模分布式局部動(dòng)態(tài)優(yōu)化子問題,也就是分布式動(dòng)態(tài)優(yōu)化.如引言部分所說,分布式動(dòng)態(tài)優(yōu)化本質(zhì)上是一個(gè)動(dòng)態(tài)博弈.在動(dòng)態(tài)博弈研究中,合作式博弈又是其中主要的研究方向.合作式動(dòng)態(tài)博弈是指某個(gè)大系統(tǒng)中的多個(gè)決策主體通過達(dá)成某種共識(shí)從而優(yōu)化各自決策變量實(shí)現(xiàn)整個(gè)大系統(tǒng)性能最優(yōu)[18].這里作者借鑒合作式動(dòng)態(tài)博弈的概念,基于動(dòng)態(tài)博弈提出了一種分布式動(dòng)態(tài)優(yōu)化方案RCGO.在RCGO中,所有的局部動(dòng)態(tài)優(yōu)化子問題共享同一個(gè)目標(biāo)函數(shù).每一個(gè)局部動(dòng)態(tài)優(yōu)化子問題通過極小化全局目標(biāo)函數(shù)來計(jì)算自身的最優(yōu)控制,并考慮自身的最優(yōu)控制如何影響所有局部動(dòng)態(tài)優(yōu)化子問題的輸出.圖1展示了RCGO方案如何獲得所有局部動(dòng)態(tài)優(yōu)化子問題的最優(yōu)控制從而求解分布式動(dòng)態(tài)優(yōu)化問題.其中,N是子系統(tǒng)個(gè)數(shù),xxx=[xxx1xxx2… xxxN]和uuu=[uuu1uuu2… uuuN]分別是系統(tǒng)的狀態(tài)變量和控制變量,xxxi和uuui(i∈{1,2,…,N})分別是第i個(gè)子系統(tǒng)的狀態(tài)變量和控制變量.在優(yōu)化周期t∈[kΔT,(k+P)ΔT]中,第i個(gè)子系統(tǒng)對應(yīng)的局部子問題可表示為如下形式:
其中:t∈[kΔT,(k+P)ΔT],k∈{0,1,…,M},i∈{1,2,…,N}.
圖1 滾動(dòng)合作博弈優(yōu)化方案Fig.1 Receding cooperative game optimization scheme
當(dāng)求解第i個(gè)子系統(tǒng)對應(yīng)的局部動(dòng)態(tài)優(yōu)化子問題時(shí),往往是基于其他子系統(tǒng)對應(yīng)的局部動(dòng)態(tài)優(yōu)化子問題的最優(yōu)控制.為了獲取其他子系統(tǒng)對應(yīng)的局部動(dòng)態(tài)優(yōu)化子問題的最優(yōu)控制,過去常用的方法是第i個(gè)子系統(tǒng)根據(jù)過去的歷史信息估計(jì)其他子系統(tǒng)當(dāng)前的最優(yōu)控制和最優(yōu)狀態(tài).但這么做存在一個(gè)缺點(diǎn)是:如果子系統(tǒng)i在迭代計(jì)算自身最優(yōu)控制時(shí)只是估計(jì)其他子系統(tǒng)的狀態(tài)和輸入,那意味著需要提前假設(shè)過程網(wǎng)絡(luò)中不存在任何不確定性,所有的子系統(tǒng)(博弈玩家)均是足夠智能且一定會(huì)選用自身的最優(yōu)控制作為輸入.但在實(shí)際過程中,由于過程網(wǎng)絡(luò)中存在各種過程噪聲、測量噪聲、外部干擾等不確定性,使得其他子系統(tǒng)實(shí)際使用的控制輸入與子系統(tǒng)i估計(jì)得到的其他子系統(tǒng)的狀態(tài)與輸入存在失配現(xiàn)象.這樣會(huì)導(dǎo)致子系統(tǒng)i優(yōu)化計(jì)算的最優(yōu)性無法保證,從而導(dǎo)致整個(gè)系統(tǒng)的優(yōu)化性能下降.在本文中,由于本文是基于滾動(dòng)時(shí)域優(yōu)化框架,也就是說在每一個(gè)優(yōu)化周期內(nèi)都要進(jìn)行一次動(dòng)態(tài)博弈優(yōu)化計(jì)算.在某個(gè)優(yōu)化周期求解第i個(gè)子系統(tǒng)對應(yīng)的局部動(dòng)態(tài)優(yōu)化子問題之前,要求各子系統(tǒng)之間通訊他們當(dāng)前的最優(yōu)控制,也就是說需要其他子系統(tǒng)不斷迭代更新并提供他們最新的最優(yōu)控制值給第i個(gè)子系統(tǒng).在其他子系統(tǒng)均處于最優(yōu)操作的前提下,以其他子系統(tǒng)的當(dāng)前最優(yōu)控制作為控制輸入的初值,通過動(dòng)態(tài)博弈優(yōu)化計(jì)算當(dāng)前優(yōu)化周期內(nèi)第i個(gè)子系統(tǒng)的最優(yōu)控制.這樣做的目的既是為了保證每個(gè)優(yōu)化周期內(nèi)優(yōu)化求解的精度和最優(yōu)性,同時(shí)也是為了消除不確定性的影響而進(jìn)行的各子系統(tǒng)最優(yōu)控制的在線矯正.之后更新第i個(gè)子系統(tǒng)的最優(yōu)控制并依此類推重復(fù)上述過程,迭代求解獲得所有子系統(tǒng)的最優(yōu)控制.例如,在第1次迭代開始之前,每一個(gè)子系統(tǒng)都有各自的控制變量初值.首先本文求解第1個(gè)子系統(tǒng)對應(yīng)的局部動(dòng)態(tài)優(yōu)化子問題,前提是其他子系統(tǒng)應(yīng)當(dāng)為第1個(gè)子系統(tǒng)提供他們當(dāng)前的最優(yōu)控制.然后作者更新第1個(gè)子系統(tǒng)的最優(yōu)控制并依此類推求解下一個(gè)子系統(tǒng)對應(yīng)的局部動(dòng)態(tài)優(yōu)化子問題.重復(fù)上述過程直到求解完成所有的子系統(tǒng)對應(yīng)的局部動(dòng)態(tài)優(yōu)化子問題,這算做第1次迭代.之后作者檢查迭代過程終止條件是否滿足,例如,當(dāng)連續(xù)兩次迭代計(jì)算的最優(yōu)控制歐幾里得范數(shù)之差小于容限或者迭代次數(shù)達(dá)到最大迭代次數(shù)上限時(shí),迭代過程終止.否則的話,繼續(xù)重復(fù)上述迭代過程直到求解得到所有子系統(tǒng)的最優(yōu)控制.此時(shí),在優(yōu)化周期t∈[kΔT,(k+P)ΔT]內(nèi)的分布式動(dòng)態(tài)優(yōu)化問題已求解.下一個(gè)優(yōu)化周期重復(fù)上述過程直到獲得全部優(yōu)化時(shí)間段內(nèi)的最優(yōu)控制序列.
在RCGO分布式動(dòng)態(tài)優(yōu)化方案中,求解分布式動(dòng)態(tài)優(yōu)化最重要的一步是求解每個(gè)子系統(tǒng)對應(yīng)的局部動(dòng)態(tài)優(yōu)化子問題.考慮到大規(guī)模復(fù)雜非線性動(dòng)態(tài)優(yōu)化問題求解的復(fù)雜度,本文采用直接法求解各子系統(tǒng)對應(yīng)的局部動(dòng)態(tài)優(yōu)化子問題.當(dāng)每個(gè)子系統(tǒng)計(jì)算各自的最優(yōu)控制時(shí),需要其他子系統(tǒng)不斷迭代更新并提供他們最新的最優(yōu)控制值.一個(gè)很自然的想法是,在優(yōu)化周期t∈[kΔT,(k+P)ΔT]內(nèi)當(dāng)某個(gè)子系統(tǒng)計(jì)算自身的最優(yōu)控制時(shí),假設(shè)其他子系統(tǒng)將采樣時(shí)刻tk=kΔT提供的最優(yōu)控制值在整個(gè)優(yōu)化周期內(nèi)保持恒定不變.雖然這樣假設(shè)可以給計(jì)算帶來方便,但也會(huì)給計(jì)算過程引入較大誤差,因?yàn)樵趯?shí)際情況中其他子系統(tǒng)的最優(yōu)控制隨時(shí)間處于連續(xù)變化中.為了減小上述假設(shè)造成的誤差,需要將采樣時(shí)刻tk=kΔT提供的其他子系統(tǒng)最優(yōu)控制值作為初值,重新求解其他子系統(tǒng)實(shí)際的最優(yōu)控制值.總結(jié)起來,為了求解每個(gè)子系統(tǒng)對應(yīng)的局部動(dòng)態(tài)優(yōu)化子問題,需處理帶有形式目標(biāo)函數(shù)的動(dòng)態(tài)優(yōu)化問題.但傳統(tǒng)的直接法只能用來求解單邊最優(yōu)控制問題,無法求解上述雙邊或多邊最優(yōu)控制問題[14].在本文中,提出了分解迭代法這種全新的直接法策略,在RCGO動(dòng)態(tài)優(yōu)化方案框架下基于動(dòng)態(tài)博弈數(shù)值求解每個(gè)子系統(tǒng)對應(yīng)的局部動(dòng)態(tài)優(yōu)化子問題從而求解分布式動(dòng)態(tài)優(yōu)化問題.為了清晰說明該方法的算法細(xì)節(jié),作者考慮一個(gè)只有兩個(gè)子系統(tǒng)的分布式動(dòng)態(tài)優(yōu)化問題.這里以子系統(tǒng)1對應(yīng)的局部動(dòng)態(tài)優(yōu)化子問題的求解過程作為例子,子系統(tǒng)1和子系統(tǒng)2都試圖最小化自身目標(biāo)函數(shù),該動(dòng)態(tài)優(yōu)化問題可表示為如下形式:
本文通過以下迭代過程來求解上述動(dòng)態(tài)優(yōu)化問題.每一次迭代中,先固定子系統(tǒng)1當(dāng)前的最優(yōu)控制和狀態(tài),同時(shí)求解子系統(tǒng)2的極小化問題.之后再求解一個(gè)線性極小化問題來更新子系統(tǒng)1的最優(yōu)控制.首先,作者先給出子系統(tǒng)2的極小化問題,可表示為如下形式:
之后,本文求解子系統(tǒng)1的極小化問題如下:
其中α0和β0分別是等式和不等式終態(tài)約束的拉格朗日乘子.所以用來近似子系統(tǒng)1原極小化問題的線性極小化問題可以改寫為以下形式:
為了能清晰說明分解迭代法的算法細(xì)節(jié),本文選用了一個(gè)只有兩個(gè)子系統(tǒng)的分布式動(dòng)態(tài)優(yōu)化問題作為研究對象.但對于一些本身復(fù)雜的系統(tǒng),其可能會(huì)分解成若干個(gè)子系統(tǒng)(多于兩個(gè)).對于求解此類具有多個(gè)子系統(tǒng)的動(dòng)態(tài)優(yōu)化問題時(shí),本文關(guān)心的問題是隨著系統(tǒng)規(guī)模變大,上述分解迭代法的時(shí)間復(fù)雜度與空間復(fù)雜度如何變化.首先本文分析了該算法的時(shí)間復(fù)雜度.假設(shè)某個(gè)動(dòng)態(tài)優(yōu)化問題被分解為n個(gè)子系統(tǒng).每一次迭代計(jì)算中,每一個(gè)子系統(tǒng)均需要按照分解迭代法的流程求解n個(gè)最優(yōu)控制問題,所有n個(gè)子系統(tǒng)共需要求解n×n個(gè)最優(yōu)控制問題.在迭代計(jì)算滿足判斷條件前,每一次迭代n個(gè)子系統(tǒng)共需要執(zhí)行優(yōu)化計(jì)算的次數(shù)為n×n,所以該算法的時(shí)間復(fù)雜度為O(n2).對于該算法的空間復(fù)雜度而言,每一次迭代計(jì)算每一個(gè)子系統(tǒng)均需要按照分解迭代法的流程求解n個(gè)最優(yōu)控制問題.而每一次求解均需創(chuàng)建新的變量存儲(chǔ)空間,所有n個(gè)子系統(tǒng)在一次迭代計(jì)算中共需創(chuàng)建n×n個(gè)變量存儲(chǔ)空間,所以該算法的空間復(fù)雜度也為O(n2).
在分析完分解迭代法的算法時(shí)間復(fù)雜度和空間復(fù)雜度之后,本文的目標(biāo)是對于求解大規(guī)模動(dòng)態(tài)優(yōu)化問題時(shí),如何進(jìn)一步提升該算法的計(jì)算效能,從而減少優(yōu)化計(jì)算耗時(shí).這其中多個(gè)子系統(tǒng)的求解順序?qū)φ麄€(gè)求解過程的計(jì)算代價(jià)和時(shí)間代價(jià)產(chǎn)生很大影響.目前最簡單的求解模式是:所有的子系統(tǒng)均按照某種特定的順序依次求解.當(dāng)所有的子系統(tǒng)均求解結(jié)束后(一次迭代結(jié)束),得到的各子系統(tǒng)最優(yōu)控制變量需要與上一次迭代的結(jié)果進(jìn)行對比,如果某個(gè)子系統(tǒng)當(dāng)前迭代得到的最優(yōu)控制與上一次迭代得到的結(jié)果之差大于容限,那么所有的子系統(tǒng)進(jìn)入下一次迭代,重新求解各自的最優(yōu)控制.但上述求解模式可能會(huì)出現(xiàn)以下情況:某一次迭代中,大部分子系統(tǒng)的最優(yōu)控制已經(jīng)收斂,只有少數(shù)幾個(gè)子系統(tǒng)最優(yōu)控制沒有收斂.這種情況下,真正需要繼續(xù)迭代求解的只是少數(shù)幾個(gè)還沒有收斂的子系統(tǒng),已經(jīng)收斂的子系統(tǒng)只需要采用當(dāng)前收斂的最優(yōu)控制即可.但所有的子系統(tǒng)如果還按照事先確定的某種求解順序來依次進(jìn)行優(yōu)化求解,勢必會(huì)重復(fù)計(jì)算已經(jīng)收斂的子系統(tǒng),導(dǎo)致整個(gè)計(jì)算耗時(shí)增加.所以,當(dāng)優(yōu)化求解涉及的子系統(tǒng)較多時(shí)可以采用以下求解順序:
1) 迭代初期,先按照事先確定的求解順序依次獲得各子系統(tǒng)當(dāng)前的最優(yōu)控制;
2) 一次迭代后,檢查哪些子系統(tǒng)的最優(yōu)控制已經(jīng)收斂.在下一次迭代中,已經(jīng)收斂的子系統(tǒng)不再參與迭代求解,這時(shí)更新當(dāng)前求解順序;
3) 重復(fù)上述過程直到所有的子系統(tǒng)最優(yōu)控制均已收斂,算法結(jié)束.
本章節(jié)使用系統(tǒng)穩(wěn)定性分析工具ISpS給出了RCGO優(yōu)化方案下系統(tǒng)的穩(wěn)定性分析.考慮系統(tǒng):
其中:xxx∈X是系統(tǒng)狀態(tài)變量,uuu∈U是控制變量,同時(shí)也是xxx的函數(shù),www∈W是干擾變量.定義|·|為2范數(shù),k=[www0… wwwk-10 …]為k時(shí)刻的干擾變量序列,以及=[www0www1www2…]為全部優(yōu)化時(shí)間內(nèi)的干擾變量序列.首先,給出以下幾個(gè)假設(shè)和定義.
假設(shè)11)對于所有的xxx∈X,www∈W,都會(huì)有fff(xxx,uuu,www)∈X成立;2)集合W有上界,并定義‖‖:=sup|wwwk|;3)fff(·,·,·)相對于www一致連續(xù).
定義1函數(shù)α屬于K類函數(shù)當(dāng)且僅當(dāng)該函數(shù)是連續(xù)的嚴(yán)格增函數(shù),并且滿足α(0)=0;函數(shù)α屬于K∞類函數(shù)當(dāng)且僅當(dāng)該函數(shù)是K類函數(shù),并且滿足函數(shù)β屬于KL類函數(shù)當(dāng)且僅當(dāng)對于每一個(gè)t≥0,β(·,t)屬于K類函數(shù),且對于每一個(gè)s≥0,β(s,·)是非增函數(shù)并且滿足
定義2在假設(shè)1成立的前提下,系統(tǒng)(42)是輸入狀態(tài)實(shí)際穩(wěn)定(ISpS)當(dāng)且僅當(dāng)對于所有的xxx0∈X,k≥0,都有|xxxk|≤β(xxx0,k)+γ(‖‖)+c成立,其中β∈KL,γ∈K,c∈R,R是實(shí)數(shù)集.
定理1在假設(shè)1成立的前提下,對于系統(tǒng)(42),如果存在一個(gè)函數(shù)V(k,,xxx0)滿足
其中:?xxx0∈X,www∈W,k∈Z,α1,α2,α3∈K∞,σ∈K,c1,c2∈R,Z是整數(shù)集,那么系統(tǒng)(42)是輸入狀態(tài)實(shí)際穩(wěn)定.
證見文獻(xiàn)[17].
如引言部分所述,RCGO動(dòng)態(tài)優(yōu)化方案可以看作是一個(gè)eMPC控制器,即經(jīng)濟(jì)模型預(yù)測控制器.所以研究RCGO優(yōu)化方案下系統(tǒng)的穩(wěn)定性可以轉(zhuǎn)換為研究在基于RCGO優(yōu)化方案的eMPC控制器下系統(tǒng)的穩(wěn)定性.現(xiàn)在考慮了基于RCGO優(yōu)化方案的eMPC(eMPC-RCGO)命題構(gòu)造形式.這里仍然考慮一個(gè)只有兩個(gè)子系統(tǒng)的分布式動(dòng)態(tài)優(yōu)化問題.對于每一個(gè)子系統(tǒng),標(biāo)準(zhǔn)目標(biāo)函數(shù)可表示為
其中ρ1和ρ2是兩個(gè)子系統(tǒng)的目標(biāo)函數(shù)權(quán)重系數(shù).所以eMPC-RCGO控制器求解的非線性規(guī)劃可表示為如下形式:
其中:vvvi,j∈U,i∈{1,2},j∈P=[0,…,P -1],是第i個(gè)子系統(tǒng)在動(dòng)態(tài)過程中產(chǎn)生的跟蹤階段成本,用來衡量各狀態(tài)變量和控制變量偏離穩(wěn)態(tài)值的程度,是采樣時(shí)刻k非線性規(guī)劃(47)-(52)的解,
如定義2和定理1所述,文獻(xiàn)[17]給出了輸入狀態(tài)實(shí)際穩(wěn)定的定義以及在輸入狀態(tài)實(shí)際穩(wěn)定意義下的李雅普諾夫穩(wěn)定性判定定理及證明.接下來將在文獻(xiàn)[17]的基礎(chǔ)上說明在由式(47)-(52)組成的eMPCRCGO控制器下系統(tǒng)是輸入狀態(tài)實(shí)際穩(wěn)定.
定理2如果假設(shè)1成立,那么存在α1,α2,α3∈K∞,σ∈K,c1,c2∈R,使得存在V(k,,xxx0)滿足定理1,并且對于所有的xxx0∈X,www∈W,k∈Z都有eMPC-RCGO控制器下系統(tǒng)是輸入狀態(tài)實(shí)際穩(wěn)定.
證假設(shè)是K∞類函數(shù),且存在下界
基于上述推導(dǎo),可以得到V 的一個(gè)上界.至此,定理1中式(43)可以滿足
依據(jù)上述推導(dǎo)過程,定理1中式(44)可以滿足.綜上,存在V(k,,xxx0)滿足定理1,并且對于所有的xxx0∈X,www∈W,k∈Z都有eMPC-RCGO控制器下系統(tǒng)是輸入狀態(tài)實(shí)際穩(wěn)定.
為了檢驗(yàn)本文提出的RCGO動(dòng)態(tài)優(yōu)化方案以及DIM數(shù)值求解算法的可行性,選擇一個(gè)由兩個(gè)連續(xù)攪拌反應(yīng)釜(continuous stirred tank reactor,CSTR)和一個(gè)絕熱閃蒸器組成的化工過程網(wǎng)絡(luò)作為仿真驗(yàn)證平臺(tái).如圖2所示,在每一個(gè)CSTR中,期望產(chǎn)品B是通過一階主反應(yīng)獲得,同時(shí)存在的副反應(yīng)會(huì)消耗一部分期望產(chǎn)品B并生成不需要的副產(chǎn)品C.CSTR 2的出料流股被送到閃蒸器中,并將原料A從B和C中分離出來.其中主要包含原料A的一部分氣相流股被排出,以防止副產(chǎn)品C的積累,剩余的氣相流股回流到CSTR 1中.而主要包含B和C的液相流股則從閃蒸器中排出備用.本章節(jié)使用RCO和RCGO兩種動(dòng)態(tài)優(yōu)化方案來求解上述化工過程網(wǎng)絡(luò)中涉及的大規(guī)模動(dòng)態(tài)優(yōu)化問題.在RCO動(dòng)態(tài)優(yōu)化方案中,目標(biāo)函數(shù)可以表示為如下的形式:
其中:J是系統(tǒng)的現(xiàn)金流,αFbxBb是售賣期望產(chǎn)品B獲得的收入,[β(F0xA0+F1xA1)+γ(Qr+Qm+Qb)]是由原料流股成本和熱負(fù)荷成本組成的操作成本,η(Qr+Qm+Qb)是CO2排放產(chǎn)生的成本,(ω1×(F0+F1)+ω2×(Qr+Qm+Qb))是外部市場因素造成的風(fēng)險(xiǎn)成本.α,β,γ,η,ω1,ω2是每一項(xiàng)成本和收入對應(yīng)的系數(shù).在RCGO動(dòng)態(tài)優(yōu)化方案中,CSTR 1,CSTR 2以及閃蒸器被看作是3個(gè)子系統(tǒng),他們各自的目標(biāo)函數(shù)可以分別表示為
圖2 連帶絕熱閃蒸器的雙反應(yīng)器鏈Fig.2 Two-reactor chain followed by nonadiabatic flash
因?yàn)楸疚奶岢龅姆植际絼?dòng)態(tài)優(yōu)化方案是合作式的,也就是說單獨(dú)來看每個(gè)獨(dú)立子系統(tǒng)都有自己的目標(biāo)函數(shù),但是在合作式動(dòng)態(tài)博弈優(yōu)化計(jì)算中,所有的子系統(tǒng)目標(biāo)是使得整個(gè)系統(tǒng)的整體優(yōu)化性能最大.所以每個(gè)子系統(tǒng)使用的目標(biāo)函數(shù)是關(guān)于提升整個(gè)系統(tǒng)的優(yōu)化性能并且應(yīng)該是一致的.對于目標(biāo)函數(shù)的選擇,一般的做法是將每個(gè)獨(dú)立子系統(tǒng)的目標(biāo)函數(shù)線性加和,系數(shù)則根據(jù)實(shí)際生產(chǎn)工況、態(tài)勢決定.因此本文將上述3個(gè)目標(biāo)函數(shù)整合為1個(gè)大系統(tǒng)的整體目標(biāo)函數(shù),可表示為以下形式:
其中λr,λm,λb是各子系統(tǒng)目標(biāo)函數(shù)對應(yīng)的權(quán)值系數(shù),具體數(shù)值由生產(chǎn)者根據(jù)實(shí)際需求決定.
在本文中,從3個(gè)角度來衡量RCO和RCGO動(dòng)態(tài)優(yōu)化方案的優(yōu)化性能優(yōu)劣.第1個(gè)方面是對象系統(tǒng)的經(jīng)濟(jì)效益指標(biāo).由于RCO和RCGO方案選擇使用的目標(biāo)函數(shù)不同,所以為了能夠衡量兩種方案的經(jīng)濟(jì)效益優(yōu)劣,首先統(tǒng)一經(jīng)濟(jì)效益指標(biāo)為
第2個(gè)方面是對象系統(tǒng)的閉環(huán)控制性能指標(biāo).該項(xiàng)性能指標(biāo)主要包括狀態(tài)變量與其穩(wěn)態(tài)值的積分平方誤差(integral square error of state variable,ISE)以及控制變量與其穩(wěn)態(tài)值的積分平方誤差(integral square error of control variable,ISC).第3個(gè)方面是對象系統(tǒng)的實(shí)時(shí)計(jì)算性能指標(biāo),衡量標(biāo)準(zhǔn)是每個(gè)采樣周期內(nèi)的平均優(yōu)化計(jì)算時(shí)間.
在本文的數(shù)值仿真中,可以選用求解器IPOPT(interior point optimizer)來求解非線性規(guī)劃問題.采樣周期ΔT取1 s,優(yōu)化時(shí)域P和控制時(shí)域L分別取5和1,迭代終止容限?取0.001,最大迭代次數(shù)Imax取10.基于上述參數(shù)設(shè)置,在RCO和RCGO動(dòng)態(tài)優(yōu)化方案下得到的過程網(wǎng)絡(luò)控制變量和狀態(tài)變量序列分別如圖3-4所示.
圖4 RCGO方案下各變量序列Fig.4 Variable profiles in the RCGO scheme
圖3-4觀察到兩種動(dòng)態(tài)優(yōu)化方案下系統(tǒng)各狀態(tài)變量的整定誤差經(jīng)過平滑過渡后均收斂到0,這樣的結(jié)果保證了系統(tǒng)各狀態(tài)變量均可以穩(wěn)定在其對應(yīng)的穩(wěn)態(tài)值上.同時(shí)也注意到兩種動(dòng)態(tài)優(yōu)化方案下系統(tǒng)各控制變量也均可以穩(wěn)定在其對應(yīng)的穩(wěn)態(tài)值上.上述結(jié)果表明,在RCO和RCGO動(dòng)態(tài)優(yōu)化方案下的系統(tǒng)是穩(wěn)定的,同時(shí)也驗(yàn)證了第4部分中對RCGO優(yōu)化方案下系統(tǒng)的穩(wěn)定性分析.
在RCGO動(dòng)態(tài)優(yōu)化方案下,每個(gè)優(yōu)化周期內(nèi)優(yōu)化求解的迭代收斂情況和迭代次數(shù)如圖5所示.每個(gè)優(yōu)化周期內(nèi)最后兩次連續(xù)迭代得到的最優(yōu)控制之差的歐幾里得范數(shù)(the Euclidean norm of the difference between the vectors of the computed optimal control of the final two consecutive iterations,ENDC)均小于設(shè)定的迭代終止容限?=0.001.這意味著在每一個(gè)優(yōu)化周期內(nèi),使用RCGO動(dòng)態(tài)優(yōu)化方案求解過程網(wǎng)絡(luò)大規(guī)模動(dòng)態(tài)優(yōu)化問題時(shí)均可以成功收斂.同時(shí),每個(gè)優(yōu)化周期內(nèi)優(yōu)化求解的迭代次數(shù)均小于設(shè)定的最大迭代次數(shù).這些數(shù)值仿真的結(jié)果均表明RCGO動(dòng)態(tài)優(yōu)化方案可以有效求解大規(guī)模動(dòng)態(tài)優(yōu)化問題.
圖5 RCGO方案下優(yōu)化求解迭代收斂情況和迭代次數(shù)Fig.5 Convergence and iteration number of the RCGO
從上述數(shù)值仿真的結(jié)果可以看到,當(dāng)使用RCO方案求解過程網(wǎng)絡(luò)大規(guī)模動(dòng)態(tài)優(yōu)化問題時(shí),得到的過程網(wǎng)絡(luò)經(jīng)濟(jì)效益指標(biāo)和閉環(huán)控制性能指標(biāo)均是最優(yōu)的.這是因?yàn)樵趦?yōu)化求解時(shí)RCO方案同時(shí)考慮過程網(wǎng)絡(luò)中所有的控制變量,所以該方案下優(yōu)化求解的結(jié)果往往考慮了動(dòng)態(tài)優(yōu)化問題的全局最優(yōu)性.當(dāng)使用RCGO方案時(shí),由于該方案不僅考慮過程網(wǎng)絡(luò)整體的最優(yōu),還考慮了每一個(gè)子系統(tǒng)的最優(yōu)性.這樣做會(huì)導(dǎo)致過程網(wǎng)絡(luò)動(dòng)態(tài)優(yōu)化問題的全局最優(yōu)性往往不能保證.也就是說,過程網(wǎng)絡(luò)的經(jīng)濟(jì)效益指標(biāo)和閉環(huán)控制性能指標(biāo)的好壞是權(quán)衡子系統(tǒng)最優(yōu)性和過程網(wǎng)絡(luò)整體最優(yōu)性后得到的結(jié)果.當(dāng)使用RCO和RCGO動(dòng)態(tài)優(yōu)化方案分別求解過程網(wǎng)絡(luò)大規(guī)模動(dòng)態(tài)優(yōu)化問題時(shí),每個(gè)采樣周期內(nèi)的平均優(yōu)化計(jì)算時(shí)間如圖6(b)所示.當(dāng)使用RCO方案時(shí),每個(gè)采樣周
圖6 RCO和RCGO方案下過程網(wǎng)絡(luò)閉環(huán)控制性能指標(biāo)和實(shí)時(shí)計(jì)算性能指標(biāo)Fig.6 Close-loop and real-time performance indices of the RCO and RCGO
接下來本文從過程網(wǎng)絡(luò)的經(jīng)濟(jì)效益指標(biāo)、閉環(huán)控制性能指標(biāo)以及實(shí)時(shí)計(jì)算性能指標(biāo)這3方面對RCO和RCGO動(dòng)態(tài)優(yōu)化方案優(yōu)化性能的優(yōu)劣進(jìn)行對比.當(dāng)使用RCO和RCGO動(dòng)態(tài)優(yōu)化方案分別求解過程網(wǎng)絡(luò)大規(guī)模動(dòng)態(tài)優(yōu)化問題時(shí),得到的過程網(wǎng)絡(luò)經(jīng)濟(jì)效益指標(biāo)分別為1.3541和0.9160,且在持續(xù)100 s的在線優(yōu)化操作當(dāng)中,過程網(wǎng)絡(luò)的閉環(huán)控制性能指標(biāo)如圖6(a)所示.期內(nèi)的平均優(yōu)化計(jì)算時(shí)間相比于使用RCGO方案會(huì)更長.這是因?yàn)樵诿恳粋€(gè)優(yōu)化周期內(nèi)RCO方案需要求解一個(gè)大規(guī)模動(dòng)態(tài)優(yōu)化問題,由于規(guī)模和復(fù)雜度大往往需要耗費(fèi)較多時(shí)間成本.同時(shí),該方案下每個(gè)采樣周期內(nèi)的平均優(yōu)化計(jì)算時(shí)間會(huì)超過采樣周期長度,這意味著RCO方案將難以應(yīng)用到過程網(wǎng)絡(luò)動(dòng)態(tài)優(yōu)化問題的實(shí)時(shí)求解當(dāng)中.當(dāng)使用RCGO方案時(shí),由于優(yōu)化求解的系統(tǒng)模型規(guī)模較小,求解復(fù)雜度相比RCO方案較低,所以該方案下可以保證過程網(wǎng)絡(luò)動(dòng)態(tài)優(yōu)化問題的實(shí)時(shí)求解.綜上,在求解復(fù)雜大規(guī)模動(dòng)態(tài)優(yōu)化問題時(shí),RCGO方案較傳統(tǒng)的集中式優(yōu)化方案在由系統(tǒng)經(jīng)濟(jì)效益、閉環(huán)控制性能及優(yōu)化求解實(shí)時(shí)性等組成的綜合指標(biāo)上有較大優(yōu)勢.
本文基于動(dòng)態(tài)博弈理論提出了一種分布式動(dòng)態(tài)優(yōu)化方案,滾動(dòng)合作博弈優(yōu)化,來實(shí)時(shí)在線求解復(fù)雜的大規(guī)模動(dòng)態(tài)優(yōu)化問題.通過將原本復(fù)雜的大規(guī)模動(dòng)態(tài)優(yōu)化問題分解為若干簡單的小規(guī)模局部優(yōu)化子問題,使得計(jì)算復(fù)雜度降低從而保證優(yōu)化求解的實(shí)時(shí)性.本文還基于動(dòng)態(tài)博弈理論提出了分解迭代法來求解各局部優(yōu)化子問題,并對RCGO優(yōu)化方案下系統(tǒng)穩(wěn)定性進(jìn)行分析.最后本文選擇一個(gè)化工過程網(wǎng)絡(luò)作為仿真案例,基于RCGO方案得到了極大化經(jīng)濟(jì)效益下該網(wǎng)絡(luò)的最優(yōu)操作.優(yōu)化結(jié)果表明在求解復(fù)雜大規(guī)模動(dòng)態(tài)優(yōu)化問題時(shí),RCGO方案較傳統(tǒng)的集中式優(yōu)化方案在由系統(tǒng)經(jīng)濟(jì)效益、閉環(huán)控制性能及優(yōu)化求解實(shí)時(shí)性等組成的綜合指標(biāo)上有較大優(yōu)勢.在本文提出的RCGO附動(dòng)態(tài)優(yōu)化方案中,各子系統(tǒng)均使用相同的目標(biāo)函數(shù).但在實(shí)際應(yīng)用中,各子系統(tǒng)不僅會(huì)考慮整個(gè)大系統(tǒng)的目標(biāo)函數(shù),還可能考慮自身系統(tǒng)的經(jīng)濟(jì)效益.所以在后續(xù)的工作中,作者打算引入另外一種分布式動(dòng)態(tài)優(yōu)化方案,各子系統(tǒng)可根據(jù)自身經(jīng)濟(jì)效益的需求選擇使用不同的目標(biāo)函數(shù).通過提出上述兩種分布式動(dòng)態(tài)優(yōu)化方案,使得復(fù)雜大規(guī)模動(dòng)態(tài)優(yōu)化問題實(shí)時(shí)在線求解的理論框架得到進(jìn)一步完善.同時(shí),本文使用分解迭代法求解分布式動(dòng)態(tài)優(yōu)化時(shí),得到的解只能保證其為局部最優(yōu)解.在后續(xù)工作中,作者打算采用自適應(yīng)調(diào)整有限元大小位置以及有限元之間的拉格朗日插值多項(xiàng)式階次等措施來進(jìn)一步提升優(yōu)化求解的質(zhì)量和最優(yōu)性.