劉 宣 宇, 許 勝, 張 凱 舉, 曹 雨 濛
(1.遼寧石油化工大學 信息與控制工程學院,遼寧 撫順 113001;2.吉林大學 數(shù)學學院,吉林 長春 130012)
隨著城市化進程不斷加快,土壓平衡盾構已被廣泛應用于軟土地層的地下工程建設.各地地質條件不同,對盾構施工過程中盾構密封艙土壓控制要求也就不同.施工過程中,盾構密封艙土壓無法得到有效控制,易導致地表變形和嚴重的安全事故.因此,實現(xiàn)土壓平衡盾構的密封艙土壓平衡控制,是避免地表變形和保障施工安全的關鍵所在.
土壓平衡盾構主要通過調整螺旋輸送機轉速,改變密封艙渣土體積,維持密封艙土壓與開挖面壓力平衡,有效控制地表變形[1].王林濤等[2]提出基于前饋-密封艙壓力反饋的土壓控制方法,通過調節(jié)推進速度實現(xiàn)土壓平衡.張曉峰[3]以螺旋輸送機轉速為控制量,利用神經(jīng)網(wǎng)絡算法優(yōu)化控制量,實現(xiàn)土壓平衡控制.曹麗娟等[4]提出基于PID神經(jīng)元的密封艙土壓控制方法.Yang等[5]利用傳統(tǒng)PID控制器控制密封艙土壓,取得了較好控制效果.但以上控制方法均是以單變量優(yōu)化控制密封艙土壓,沒有考慮其他控制參數(shù)的影響作用,密封艙土壓控制精度有待進一步提高.
啟發(fā)式動態(tài)規(guī)劃 (heuristic dynamic programming,HDP)是自適應動態(tài)規(guī)劃的一種,是解決傳統(tǒng)動態(tài)規(guī)劃“維數(shù)災”問題的一種近似最優(yōu)控制方法[6].其利用函數(shù)近似結構逼近代價函數(shù),通過離線迭代或在線更新方式獲得系統(tǒng)的最優(yōu)代價函數(shù)及最優(yōu)控制律,能有效解決非線性系統(tǒng)的多變量優(yōu)化控制問題.其已被應用于倒立擺平衡控制[7]、水泥立磨生料細度控制[8]、儲能系統(tǒng)優(yōu)化控制[9]等實際系統(tǒng)中,成為現(xiàn)代科學理論與工程領域中對復雜系統(tǒng)研究的一種重要方法.
因此,本文提出基于HDP的密封艙土壓優(yōu)化控制方法.通過對盾構掘進經(jīng)驗數(shù)據(jù)分析,發(fā)現(xiàn)刀盤扭矩是影響密封艙土壓平衡的重要因素,兩者之間存在非線性依賴關系[10-11].為提高密封艙土壓預測精度,本文將刀盤扭矩作為模型輸入之一,建立密封艙土壓預測模型,進而構建密封艙土壓優(yōu)化控制代價函數(shù)和HDP控制器.最后,通過實驗仿真驗證所提出方法的有效性.
密封艙土壓HDP控制器結構如圖1所示.
圖1 密封艙土壓HDP控制器結構Fig.1 Structure of HDP controller for soil pressure in sealed cabin
圖1 中,p(k)為k時刻密封艙土壓;p(k+1)為k+1時刻密封艙土壓;γ∈(0,1],為折扣因子;u(k)=(n(k) v(k) F(k) T(k))T,為k時刻控制向量,其中F(k)、n(k)、v(k)、T(k)分別為總推力、螺旋輸送機轉速、推進速度、刀盤扭矩;U(k)=f(p(k),u(k),k),為密封艙效用函數(shù),對密封艙土壓和控制向量做出評價;J(·)為密封艙土壓優(yōu)化控制代價函數(shù).
各信號流向如實線所示,評價網(wǎng)絡與執(zhí)行網(wǎng)絡的誤差反饋路徑如虛線所示.密封艙土壓作為執(zhí)行網(wǎng)絡的輸入,輸出為控制向量;模型網(wǎng)絡的輸入為密封艙土壓和控制向量,輸出為下一時刻密封艙土壓,其作為評價網(wǎng)絡的輸入,輸出密封艙土壓優(yōu)化控制代價函數(shù)近似值.評價網(wǎng)絡實現(xiàn)密封艙土壓優(yōu)化控制代價函數(shù)的近似,執(zhí)行網(wǎng)絡以最小化密封艙土壓優(yōu)化控制代價函數(shù)為目標,優(yōu)化控制向量.各網(wǎng)絡詳細訓練流程和參數(shù)優(yōu)化過程,見下文HDP控制器設計部分.
HDP的基本原理是采用迭代形式訓練評價網(wǎng)絡以近似Bellman動態(tài)規(guī)劃方程中的代價函數(shù):
其中J(k)表示效用函數(shù)從k時刻開始的迭代值.通過折扣因子進行折算,顯示效用函數(shù)迭代的時間效應.HDP的目標是選擇最優(yōu)控制向量,使得式(1)取極小值.
盾構機為高度復雜的非線性系統(tǒng),本文假設盾構系統(tǒng)為下式所示的離散系統(tǒng):
對于盾構系統(tǒng)式(2),式(1)可表示為
式(3)經(jīng)過推導可表示為
根據(jù)Bellman優(yōu)化原理,若以式(4)作為網(wǎng)絡權值調整的目標,則可以通過網(wǎng)絡訓練使得代價函數(shù)逐步趨向當前控制策略下的最優(yōu)值.本文以式(4)作為密封艙土壓優(yōu)化控制的代價函數(shù),設計基于HDP的土壓平衡控制器.為了使評價網(wǎng)絡近似J(k),定義如下評價網(wǎng)絡誤差:
其中J*(k)為k時刻代價函數(shù)估計值,J*(k+1)為k+1時刻代價函數(shù)估計值.
執(zhí)行網(wǎng)絡的訓練以最小化式(4)為目標,獲得最優(yōu)控制向量.因此,定義如下執(zhí)行網(wǎng)絡誤差:
王洪新等[12-13]通過對盾構掘進過程機理分析,推導出盾構總推力、密封艙土壓、螺旋輸送機轉速、推進速度等掘進參數(shù)間的關系表達式.根據(jù)該研究結果,設定本文的密封艙土壓預測模型的輸入變量為當前密封艙土壓p(k)、當前螺旋輸送機轉速n(k)、當前推進速度v(k)、當前總推力F(k)、當前刀盤扭矩T(k);輸出為下一時刻密封艙土壓p(k+1).即有
BP神經(jīng)網(wǎng)絡因其強大的非線性映射能力,被廣泛用于復雜工業(yè)控制系統(tǒng)的建模.本文將雙極性函數(shù)和線性函數(shù)作為隱藏層和輸出層的傳遞函數(shù);隱藏層節(jié)點個數(shù)選擇對模型的訓練效果至關重要,因此本文首先統(tǒng)計了隱藏層節(jié)點個數(shù)為5~16的土壓預測模型的土壓預測誤差;通過Matlab仿真驗證,當網(wǎng)絡隱藏層節(jié)點個數(shù)為9時,密封艙土壓預測誤差為10.5%,而其他的均超過12.2%.因而,構建基于3層BP神經(jīng)網(wǎng)絡的密封艙土壓預測模型,結構如圖2所示.
圖2 密封艙土壓預測模型Fig.2 Forecasting model of soil pressure in sealed cabin
密封艙土壓效用函數(shù)是整個HDP控制器設計過程中與密封艙土壓直接相關的重要指標.實際上,在自適應動態(tài)規(guī)劃中,設計效用函數(shù)的過程本質上就是優(yōu)化設計HDP控制器的過程.在某種程度上,效用函數(shù)的選擇決定了控制器動態(tài)控制的優(yōu)劣.在對工業(yè)系統(tǒng)的控制過程中,效用函數(shù)必須能夠反映實際系統(tǒng)的控制特效和系統(tǒng)自身屬性,所設計的控制器才可滿足控制要求.本文控制對象是密封艙土壓,目的是使其穩(wěn)定于0.18~0.22MPa,因此選擇的效用函數(shù)為
隱藏層節(jié)點個數(shù)的選擇方法同2.1節(jié),通過仿真驗證,當隱藏層節(jié)點個數(shù)為8時,代價函數(shù)收斂值為0.068,其他節(jié)點個數(shù)的代價函數(shù)收斂值大于0.1.因此,本文評價網(wǎng)絡采用1-8-1結構的3層BP神經(jīng)網(wǎng)絡.評價網(wǎng)絡的訓練流程如圖3所示,各信號流向如實線所示,反向傳播路徑如虛線所示.
根據(jù)Bellman優(yōu)化原理,k時刻密封艙土壓控制器的最優(yōu)代價函數(shù)可表示為
由式(5)、(6)定義的誤差,根據(jù)梯度下降算法和鏈式法則,評價網(wǎng)絡隱藏層到輸出層的權值更新規(guī)則如下:
輸入層到隱藏層的權值更新規(guī)則如下:
式中:lc∈(0,1],為評價網(wǎng)絡學習率;ΔWc(k)為k時刻評價網(wǎng)絡權值增量;Wc1(k)為k時刻評價網(wǎng)絡輸入層到隱藏層的權值;Wc2(k)為k時刻評價網(wǎng)絡隱藏層到輸出層的權值;Wc(k+1)為k+1時刻評價網(wǎng)絡權值.
本文模型網(wǎng)絡采用如圖2所示的3層BP神經(jīng)網(wǎng)絡結構.將該模型網(wǎng)絡輸出與上文基于BP神經(jīng)網(wǎng)絡的密封艙土壓預測模型式(9)輸出之間產(chǎn)生的誤差em(k+1),用于模型網(wǎng)絡權值更新.
根據(jù)梯度下降算法和鏈式法則,通過最小化下式定義的模型網(wǎng)絡誤差實現(xiàn)權值更新:
其中p(k+1)為密封艙土壓預測模型輸出,p*(k+1)為模型網(wǎng)絡輸出.
同理,模型網(wǎng)絡隱藏層到輸出層的權值更新規(guī)則如下:
輸入層到隱藏層的權值更新規(guī)則如下:
式中:lm∈(0,1],為模型網(wǎng)絡學習率;ΔWm(k)為k時刻模型網(wǎng)絡權值增量;Wm1(k)為k時刻模型網(wǎng)絡輸入層到隱藏層的權值;Wm2(k)為k時刻模型網(wǎng)絡隱藏層到輸出層的權值;Wm(k+1)為k+1時刻模型網(wǎng)絡權值.
隱藏層節(jié)點個數(shù)的選擇方法同2.1節(jié),通過仿真驗證,相較于其他節(jié)點個數(shù),當隱藏層節(jié)點個數(shù)為8時,由執(zhí)行網(wǎng)絡優(yōu)化獲得的控制向量更加近似實際參數(shù)值.因此,本文執(zhí)行網(wǎng)絡采用1-8-4結構的3層BP神經(jīng)網(wǎng)絡.執(zhí)行網(wǎng)絡目標是最小化評價網(wǎng)絡輸出的密封艙土壓優(yōu)化控制代價函數(shù),獲得最優(yōu)控制向量.執(zhí)行網(wǎng)絡利用反向傳播的評價網(wǎng)絡誤差,實現(xiàn)其權值更新.執(zhí)行網(wǎng)絡的訓練流程如圖4所示,各信號流向如實線所示,反向傳播路徑如虛線所示.
圖4 執(zhí)行網(wǎng)絡的訓練流程Fig.4 Training process of action network
根據(jù)Bellman優(yōu)化原理,k時刻的最優(yōu)土壓控制向量可表示為
根據(jù)式(7)、(8)定義的誤差,同理,執(zhí)行網(wǎng)絡隱藏層到輸出層的權值更新規(guī)則如下:
輸入層到隱藏層的權值更新規(guī)則如下:
式中:la∈(0,1],為執(zhí)行網(wǎng)絡學習率;ΔWa(k)為k時刻執(zhí)行網(wǎng)絡權值增量;Wa1(k)為k時刻執(zhí)行網(wǎng)絡輸入層到隱藏層的權值;Wa2(k)為k時刻執(zhí)行網(wǎng)絡隱藏層到輸出層的權值;Wa(k+1)為k+1時刻執(zhí)行網(wǎng)絡權值.
(1)初始各網(wǎng)絡的權值,賦值各網(wǎng)絡學習率和折扣因子,并設置最大迭代步數(shù)qmax.
(2)設定初始密封艙土壓p(k).將其作為執(zhí)行網(wǎng)絡輸入,輸出控制向量u(k)=(n(k) v(k)F(k) T(k))T.
(3)將p(k)輸入評價網(wǎng)絡,輸出密封艙土壓優(yōu)化控制代價函數(shù)J*(k);同時,將當前密封艙土壓p(k)與控制向量u(k)輸入模型網(wǎng)絡,獲得k+1時刻密封艙土壓p*(k+1).
(4)求解效用函數(shù)U(k).
(5)將p*(k+1)作為評價網(wǎng)絡輸入,輸出下一時刻密封艙土壓優(yōu)化控制代價函數(shù)J*(k+1).
(6)依據(jù)評價網(wǎng)絡誤差ec(k),更新網(wǎng)絡權值,逼近密封艙土壓優(yōu)化控制代價函數(shù).
(7)執(zhí)行網(wǎng)絡根據(jù)評價反饋的誤差ea(k),實現(xiàn)權值更新,優(yōu)化控制向量.
(8)判斷迭代誤差.在誤差允許范圍內,執(zhí)行下一步;反之,返回(5),循環(huán)更新網(wǎng)絡權值.
(9)判斷迭代步數(shù),若q≤qmax,更新狀態(tài)和控制向量,返回(3);否則,訓練結束.
為建立密封艙土壓預測模型,需要足夠多的樣本數(shù)據(jù)才能反映實際掘進過程.本文實驗所用數(shù)據(jù)來源于北京某地鐵施工現(xiàn)場的實測數(shù)據(jù).密封艙土壓數(shù)據(jù)通過4個安置于密封艙隔板的壓力傳感器獲取,傳感器分布如圖5所示.本文以傳感器1的壓力數(shù)據(jù)為例進行仿真實驗.
圖5 密封艙隔板壓力傳感器分布Fig.5 Pressure sensor distribution of the seal bulkhead
本次實驗仿真采集了800組實測數(shù)據(jù),經(jīng)過數(shù)據(jù)處理,剔除一部分異常數(shù)據(jù)后得到650組有效數(shù)據(jù),用其中的550組作為訓練樣本,另外100組作為測試樣本.通過Matlab對密封艙土壓預測模型進行仿真.有無刀盤扭矩的密封艙土壓預測模型仿真如圖6所示;密封艙土壓預測誤差如圖7所示;兩種預測模型均方誤差如表1所示.
圖6 有無刀盤扭矩的密封艙土壓預測模型仿真Fig.6 Simulation of soil pressure prediction model for sealed cabin with or without cutterhead torque
圖7 密封艙土壓預測誤差Fig.7 Prediction error of soil pressure in sealed cabin
表1 預測模型均方誤差Tab.1 Mean square error of prediction models
由表1可知,當?shù)侗P扭矩作為模型控制量之一時,其均方誤差更小,說明考慮刀盤扭矩的土壓預測模型具有更好的預測精度.如圖6、7所示,考慮刀盤扭矩的模型,其預測值與實測值整體擬合效果較好.由于地質條件或工況的不確定性,個別點擬合效果較差,但誤差基本在±0.02MPa(10%)以內,滿足工程要求.
根據(jù)本文HDP控制器設計部分,通過Matlab對提出的控制方法進行實驗仿真.系統(tǒng)初始密封艙土壓p(k)=0.18MPa;la、lc初始值為0.7;折扣因子γ=1.
密封艙土壓優(yōu)化控制代價函數(shù)軌跡如圖8所示;密封艙土壓優(yōu)化軌跡如圖9所示;相應的,刀盤扭矩、總推力、推進速度、螺旋輸送機轉速的優(yōu)化軌跡如圖10所示.
圖8 密封艙土壓優(yōu)化控制代價函數(shù)軌跡Fig.8 Cost function trajectory of optimization control of soil pressure in sealed cabin
圖9 密封艙土壓優(yōu)化軌跡Fig.9 Optimization trajectory of soil pressure in sealed cabin
圖10 控制量優(yōu)化軌跡Fig.10 Optimization trajectory of control variables
為了驗證HDP控制器對密封艙土壓優(yōu)化效果,本文采用文獻[3]中盾構土壓平衡控制器進行仿真對比,其密封艙土壓控制軌跡如圖11所示.
圖11 盾構土壓平衡控制器土壓控制軌跡Fig.11 Soil pressure control trajectory of controller of soil pressure balance of shield
通過對土壓優(yōu)化和控制軌跡圖9、11對比,可以看出,相較于文獻[3]中設計的控制器,HDP控制器對密封艙土壓優(yōu)化調節(jié)時間更短,超調更小,優(yōu)化控制過程更加穩(wěn)定.文獻[3]盾構土壓平衡控制器僅可對螺旋輸送機轉速單變量控制,而HDP控制器可實現(xiàn)對刀盤扭矩、總推力、推進速度、螺旋輸送機轉速多變量同步協(xié)調控制.對4個控制量的調整過程及相應密封艙土壓變化趨勢,符合實際盾構施工時控制參數(shù)變化情況.
為了驗證HDP控制器抗干擾能力,在迭代70步時加入干擾.如圖8所示,密封艙土壓優(yōu)化控制代價函數(shù)仍能快速收斂,說明HDP控制器對密封艙土壓優(yōu)化控制是有效的,具有較好的動態(tài)性能.如圖9、10所示,加入干擾后密封艙土壓很快達到穩(wěn)定狀態(tài),4個控制量同樣達到最優(yōu),說明HDP控制器具有較強的抗干擾能力.
本文基于BP神經(jīng)網(wǎng)絡將刀盤扭矩作為預測模型控制量之一,建立密封艙土壓預測模型.與不考慮刀盤扭矩模型相比,考慮刀盤扭矩能夠有效提高預測模型的預測精度.針對密封艙土壓難以穩(wěn)定控制的問題,在上述密封艙土壓預測模型的基礎上,本文提出基于HDP的密封艙土壓優(yōu)化控制方法.相較于單變量控制,該方法可實現(xiàn)對刀盤扭矩、總推力、推進速度、螺旋輸送機轉速的多變量控制;并且該方法收斂速度更快,穩(wěn)定性較好,具有強抗干擾能力.基于HDP的密封艙土壓控制器,能夠滿足密封艙土壓的控制要求,達到穩(wěn)定土壓目的,為實現(xiàn)盾構掘進過程的優(yōu)化控制提供了一種新途徑.如何提高密封艙土壓模型的預測精度并增強HDP控制器的魯棒性及其跟蹤效果是今后的研究重點.