諶楨文,常軍
(蘇州科技大學(xué)土木工程學(xué)院,蘇州 215011)
在不同位置安裝不同類型的傳感器以獲得橋梁的整體信息。長(zhǎng)期處于自然環(huán)境中橋梁的穩(wěn)定性及安裝于其上的傳感器受到了極大的威脅[1-2]。收集到的數(shù)據(jù)往往存在大量的異常值或?qū)е麓罅繕颖救笔?這將導(dǎo)致樣本的數(shù)量和信息密度低,因此,在后續(xù)橋狀態(tài)預(yù)測(cè)時(shí),有必要對(duì)缺失值進(jìn)行填補(bǔ)。這是監(jiān)控橋梁未來(lái)是否安全和健康運(yùn)行的關(guān)鍵。
隨著橋梁服役時(shí)間的增加,健康檢測(cè)系統(tǒng)積累了大量的數(shù)據(jù),包括運(yùn)營(yíng)環(huán)境、運(yùn)行狀態(tài)、結(jié)構(gòu)響應(yīng)等。如何結(jié)合大數(shù)據(jù)分析方法對(duì)海量監(jiān)測(cè)數(shù)據(jù)進(jìn)行有效處理,從而對(duì)橋梁的健康狀況進(jìn)行評(píng)估和預(yù)警已成為該領(lǐng)域的熱點(diǎn)研究。為了確保橋梁健康運(yùn)行,從現(xiàn)在大數(shù)據(jù)中精確地預(yù)測(cè)橋梁未來(lái)的健康狀態(tài),并設(shè)置合適的預(yù)警值非常關(guān)鍵。時(shí)間序列分析為該問(wèn)題的解決提供了思路,時(shí)間序列分析方法常用于異常檢測(cè)[3]和數(shù)據(jù)預(yù)測(cè)[4]。自回歸滑動(dòng)平均模型(autoregressive moving average,ARMA)是該方法中應(yīng)用最多的一種。由于橋梁監(jiān)測(cè)數(shù)據(jù)有一定的季節(jié)性,在ARMA模型中引入季節(jié)性因子的季節(jié)性差分自回歸滑動(dòng)平均模型(seasonal autoregressive integrated moving average,SARIMA)模型自然而然地成了分析橋梁監(jiān)測(cè)數(shù)據(jù)的優(yōu)勢(shì)方法。由于同一橋梁上不同傳感器數(shù)據(jù)之間存在不同程度的關(guān)聯(lián)性[5],監(jiān)測(cè)數(shù)據(jù)之間的關(guān)聯(lián)性分析在數(shù)據(jù)融合[6-7]、溫度效應(yīng)分析[8]以及結(jié)構(gòu)狀態(tài)監(jiān)測(cè)與評(píng)估[9-10]等有著良好的應(yīng)用。多元線性回歸是分析變量間相關(guān)性的常用方法[11-12],但變量之間的共線性會(huì)導(dǎo)致過(guò)度擬合,影響分析結(jié)果。一般認(rèn)為剔除變量[13]和機(jī)器學(xué)習(xí)法[14-15]是解決該問(wèn)題的有效方法。嶺回歸(ridge regression,RR)是機(jī)器學(xué)習(xí)方法的一種,由于它不具備外推預(yù)測(cè)能力,而SARIMA模型能夠很好地彌補(bǔ)這一缺點(diǎn)。因此,提出二者綜合以解決橋梁監(jiān)測(cè)數(shù)據(jù)缺失和未來(lái)健康狀況預(yù)測(cè)的問(wèn)題。利用嶺回歸模型解決不同位置處傳感器數(shù)據(jù)之間的共線性,并建立各傳感器之間的關(guān)系,對(duì)已知的樣本內(nèi)數(shù)據(jù)進(jìn)行回歸預(yù)測(cè),再結(jié)合SARIMA模型對(duì)樣本進(jìn)行外推預(yù)測(cè),并設(shè)置合理的預(yù)警區(qū)間。將該模型應(yīng)用于實(shí)橋,研究成果對(duì)傳感器缺失數(shù)據(jù)填補(bǔ)和橋梁狀態(tài)預(yù)警具有重要意義。
嶺回歸是一種強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù),它是線性回歸的優(yōu)化模型,主要是規(guī)避預(yù)測(cè)變量共線性的問(wèn)題,由Hoerl等[16]于1962年提出,是一種基于最小二乘估計(jì)改進(jìn)的有偏估計(jì)方法。
多元線性回歸模型一般的表達(dá)式為
yi=β0+β1xi1+β2xi2+…+βkxik+εi
(1)
式(1)中:yi為目標(biāo)變量,即因變量;xi1,xi2,…,xik為特征變量,即自變量;εi為隨機(jī)誤差項(xiàng);β0為截距;β1,β2,…,βk為回歸系數(shù)。
模型的矩陣可表示為
(2)
式(2)記為
y=Xβ+ε
(3)
在多元線性回歸中,通過(guò)最小化損失函數(shù)求解回歸系數(shù),定義損失函數(shù)Q為
(4)
β=(XTX)-1XTy
(5)
如果使得系數(shù)存在解,必須使XTX可逆,當(dāng)模型自變量存在復(fù)合共線時(shí),使得|XTX|≈0,導(dǎo)致系數(shù)估計(jì)不適用。嶺回歸通過(guò)構(gòu)造矩陣kI來(lái)保證系數(shù)估計(jì)有效,回歸系數(shù)估計(jì)變?yōu)?/p>
(6)
嶺回歸是一個(gè)有偏估計(jì),k值的確定需要在偏差和方差之間進(jìn)行平衡,并不是越大越好,常用嶺跡分析[17]或者交叉驗(yàn)證法[18]來(lái)確定。
SARIMA模型是ARIMA的發(fā)展,其出現(xiàn)是為了提高ARIMA模型在含有季節(jié)性數(shù)據(jù)建模中的性能。式(7)為SARIMA模型方法的一般形式。
φp(B)φP(Bs)(1-B)d(1-Bs)DXt=
γq(B)ωQ(Bs)et
(7)
式(7)中:φp(B)、γq(B)分別為自回歸(AR)和移動(dòng)平均(MA)的階數(shù);φP(Bs)、ωQ(Bs)分別為季節(jié)性自回歸(SAR)和季節(jié)性移動(dòng)平均(SMA)的多項(xiàng)式;(1-B)和(1-Bs)分別為非季節(jié)性和季節(jié)性的差分成分;d和D分別為非季節(jié)差分階數(shù)和季節(jié)差分階數(shù);Xt為t時(shí)刻的觀察值;et為預(yù)測(cè)誤差項(xiàng);s為季節(jié)的長(zhǎng)度;B為滯后算子。
SARIMA模型各成分可表示為
(8)
利用嶺回歸方法建立待求傳感器和已知傳感器之間的關(guān)系,并進(jìn)行樣本內(nèi)預(yù)測(cè),再利用SARIMA模型對(duì)已知傳感器數(shù)據(jù)進(jìn)行外推預(yù)測(cè),最后將嶺回歸和SARIMA模型相結(jié)合,可得到待求傳感器數(shù)據(jù)樣本外預(yù)測(cè)值,具體步驟如下。
步驟1 對(duì)傳感器數(shù)據(jù)進(jìn)行預(yù)處理,并檢驗(yàn)數(shù)據(jù)之間的共線性。
步驟2 利用嶺回歸建立起待求傳感器數(shù)據(jù)和已知傳感器數(shù)據(jù)之間的關(guān)系,得到嶺回歸系數(shù)βi和嶺回歸方程,并檢驗(yàn)?zāi)P汀?/p>
步驟3 對(duì)傳感器缺失數(shù)據(jù)進(jìn)行填補(bǔ)。
建立多部門聯(lián)合執(zhí)法機(jī)制,采取公開(kāi)檢查、暗訪相結(jié)合的方式,加大對(duì)I站、M站等場(chǎng)所的執(zhí)法檢查力度;對(duì)偽造檢驗(yàn)結(jié)果、出具虛假報(bào)告的檢驗(yàn)機(jī)構(gòu),暫停網(wǎng)絡(luò)聯(lián)接和檢驗(yàn)報(bào)告打印功能,并依照《大氣污染防治法》有關(guān)條款予以處罰;違反資質(zhì)認(rèn)定相關(guān)規(guī)定的,依據(jù)資質(zhì)認(rèn)定有關(guān)規(guī)定對(duì)排放檢驗(yàn)機(jī)構(gòu)進(jìn)行處罰,情節(jié)嚴(yán)重的撤銷其資質(zhì)認(rèn)定證書;對(duì)不符合規(guī)定、標(biāo)準(zhǔn)規(guī)范的維護(hù)站進(jìn)行懲處,情節(jié)嚴(yán)重的撤銷其M站認(rèn)定證書;將檢測(cè)站、維護(hù)站守法情況納入企業(yè)征信系統(tǒng),并將有關(guān)情況向社會(huì)公開(kāi)。
步驟4 通過(guò)對(duì)已知樣本內(nèi)傳感器數(shù)據(jù)建立SARIMA模型,檢驗(yàn)?zāi)P筒⑦M(jìn)行外推預(yù)測(cè)。
步驟5 將外推預(yù)測(cè)數(shù)據(jù)結(jié)果結(jié)合已建好的嶺回歸模型進(jìn)行訓(xùn)練,得到待求傳感器樣本外的預(yù)測(cè)數(shù)據(jù)。
步驟6 將結(jié)果與單SARIMA模型進(jìn)行對(duì)比,通過(guò)檢驗(yàn)指標(biāo)評(píng)價(jià)組合模型預(yù)測(cè)效果。
步驟7 設(shè)置合理的預(yù)警區(qū)間。
為了驗(yàn)證上述方法的有效性,將該方法用于上海紫金大橋的健康監(jiān)測(cè)數(shù)據(jù)中。紫金大橋?yàn)殇摿?鋼拱下承式系桿拱橋,如圖1所示,主跨188 m,全橋長(zhǎng)715 m,主拱為提籃式鋼箱拱,矢跨比為1/5,內(nèi)傾角度12°,拱軸線為二次拋物線。主梁為采用新型鋼-混凝土組合橋面板的鋼梁,全寬40 m。吊桿采用高強(qiáng)平行鋼絲束,縱向間距9 m。加速度傳感器位置布置如圖2所示,南北側(cè)各7個(gè)傳感器,主要考慮北側(cè)7個(gè)傳感器。
圖1 上海紫金大橋Fig.1 Shanghai Zijin Bridge
圖2 加速度傳感器布置圖Fig.2 Acceleration sensors layout
為了驗(yàn)證模型在傳感器數(shù)據(jù)填補(bǔ)和橋梁狀態(tài)預(yù)測(cè)的能力,提取2021年7月28日—8月28日橋梁北測(cè)7個(gè)加速度傳感器數(shù)據(jù)用作分析,將北1號(hào)傳感器數(shù)據(jù)作為待求數(shù)據(jù)y,其余6個(gè)傳感器數(shù)據(jù)x2、x3、x4、x5、x6、x7作為已知傳感器數(shù)據(jù),用于建立與待求傳感器數(shù)據(jù)y的關(guān)系。由于加速度傳感器數(shù)據(jù)量共有32 123個(gè),為了簡(jiǎn)化計(jì)算對(duì)傳感器數(shù)據(jù)進(jìn)行縮樣預(yù)處理,縮減后的傳感器數(shù)據(jù)量為5 355個(gè),處理過(guò)后每個(gè)傳感器數(shù)據(jù)如圖3所示。
圖3 北側(cè)加速度傳感器數(shù)據(jù)Fig.3 North side acceleration sensors data
表1 傳感器數(shù)據(jù)相關(guān)性Table 1 Sensor data correlations
由表1可知,橋梁北側(cè)7個(gè)加速度數(shù)據(jù)的相關(guān)性均在95%以上,表現(xiàn)出很強(qiáng)的相關(guān)性,所以考慮共線性的影響。利用方差膨脹系數(shù)(VIF)用于判定系數(shù)之間是否存在多重共線性,VIF定義為
(9)
式(9)中:R2為判定系數(shù),在線性回歸中用于判斷回歸方程的擬合程度[19]。
若VIF>10說(shuō)明變量之間存在共線性??紤]其他6個(gè)傳感器數(shù)據(jù)之間的方差膨脹系數(shù)VIF如表2所示。
表2 方差膨脹系數(shù)Table 2 Variance inflation factor table
由表2中的VIF值可知,其余6個(gè)傳感器數(shù)據(jù)VIF值均大于10,說(shuō)明之間存在共線性。因此考慮用嶺回歸解決數(shù)據(jù)之間的共線性。
將加速度數(shù)據(jù)集按照8∶2的比例劃分為樣本內(nèi)數(shù)據(jù)和樣本外數(shù)據(jù)。將樣本內(nèi)數(shù)據(jù)按留出法進(jìn)行劃分,按8∶2的比例劃分訓(xùn)練集和測(cè)試集,以建立待求傳感器數(shù)據(jù)與其他6個(gè)傳感器數(shù)據(jù)之間的嶺回歸模型,用于傳感器數(shù)據(jù)填補(bǔ)。嶺跡圖如圖4所示。
圖4 嶺跡圖Fig.4 Ridge trace
由圖4可知,嶺參數(shù)大概在0.001之后趨近平緩,使用交叉驗(yàn)證法得到嶺參數(shù)具體值為k=0.002 09,嶺回歸模型的嶺回歸系數(shù)以及模型檢驗(yàn)結(jié)果如表3所示。由于自變量個(gè)數(shù)q的影響,需要對(duì)判定系數(shù)R2進(jìn)行糾正,可表示為
表3 嶺回歸系數(shù)及模型檢驗(yàn)Table 3 Ridge regression coefficient and model test
(10)
若F>Fα(q,n-q-1),則說(shuō)明,模型的線性關(guān)系顯著性成立[20]。其中,α為顯著性水平,一般取0.05,Fα是指在給定的顯著性水平α下F檢驗(yàn)的臨界值,Fα需通過(guò)查表可知,也可以通過(guò)殘存函數(shù)計(jì)算F檢驗(yàn)的假設(shè)檢驗(yàn)參數(shù)P值。F檢驗(yàn)經(jīng)查表發(fā)現(xiàn),F0.05(6,451)=2.119 t檢驗(yàn)用于檢驗(yàn)嶺回歸系數(shù)的顯著性[19],定義t檢驗(yàn)為 (11) 式(11)中:cii=(XTX+kI)-1;SSE為殘差平方和。 t檢驗(yàn)的拒絕域?yàn)閨ti|>tα/2(n-q-1),tα/2是指在給定顯著性水平α下,雙側(cè)t檢驗(yàn)的臨界值,tα/2可通過(guò)查表可知。 t檢驗(yàn)也可通過(guò)計(jì)算假設(shè)檢驗(yàn)參數(shù)P進(jìn)行判定,由表3可知,2~6號(hào)監(jiān)測(cè)數(shù)據(jù)的嶺回歸系數(shù)的t檢驗(yàn)|ti|i∈(2,6)均大于t0.025(451)=1.645,t檢驗(yàn)P≈0.000,但7號(hào)監(jiān)測(cè)數(shù)據(jù)的t值檢驗(yàn)|t7|=1.594 由待求傳感器數(shù)據(jù)為y,與已知其余6個(gè)傳感器數(shù)據(jù)建立的嶺回歸表達(dá)式為 y=-0.197+0.139x2+0.367x3-0.232x4+ 0.361x5+0.325x6+0.053x7 (12) 將嶺回歸擬合結(jié)果和SARIMA模型直接預(yù)測(cè)結(jié)果與真實(shí)值通過(guò)檢驗(yàn)指標(biāo)進(jìn)行對(duì)比,檢驗(yàn)指標(biāo)說(shuō)明如下。 (1)均方誤差(MSE)。 (13) 式(13)表示每個(gè)預(yù)測(cè)值與實(shí)際值之間距離的平方和。 (2)均方根誤差(RMSE)。 (14) (3)平均絕對(duì)誤差(MAE)。 (15) (4)平均絕對(duì)百分比誤差(MAPE)。 (16) 在上述4個(gè)檢驗(yàn)指標(biāo)反映模型的預(yù)測(cè)值與實(shí)際值的差異,MSE和RMSE可以代表結(jié)果的總體誤差,該值越小,預(yù)測(cè)結(jié)果整體誤差越小;MAE和MAPE值可以表示為擬合精度,該值越小,說(shuō)明預(yù)測(cè)結(jié)果精度越高,信號(hào)損失越小。對(duì)比結(jié)果如表4所示。 表4 嶺回歸預(yù)測(cè)結(jié)果Table 4 Ridge regression prediction results 由表4可知,嶺回歸的回歸誤差和精度均比SARIMA模型的預(yù)測(cè)結(jié)果好,并且預(yù)測(cè)誤差能降低約50%,傳感器數(shù)據(jù)填補(bǔ)結(jié)果對(duì)比如圖5所示。 圖5 傳感器數(shù)據(jù)填補(bǔ)結(jié)果Fig.5 Sensor data imputation results 圖6 xi的SARIMA模型預(yù)測(cè)結(jié)果Fig.6 SARIMA model prediction results of xi xi的SARIMA模型的預(yù)測(cè)結(jié)果如表5所示,可以看出,xi的SARIMA模型的誤差和精度都很好,預(yù)測(cè)誤差均在約0.025 mm/s2。 表5 SARIMA預(yù)測(cè)結(jié)果Table 5 SARIMA forecast results 將xi的SARIMA模型的預(yù)測(cè)結(jié)果帶入嶺回歸模型中可得到y(tǒng)的樣本外預(yù)測(cè)值,RR-SARIMA模型的預(yù)測(cè)結(jié)果可知橋梁未來(lái)一個(gè)星期的監(jiān)測(cè)數(shù)據(jù)的變化趨勢(shì),從而推斷橋梁的狀態(tài)變化,橋梁狀態(tài)預(yù)測(cè)結(jié)果如表6和圖7所示。 表6 橋梁狀態(tài)預(yù)測(cè)分析結(jié)果Table 6 Bridge condition prediction analysis results 圖7 橋梁狀態(tài)預(yù)測(cè)結(jié)果Fig.7 Bridge condition prediction results 由分析結(jié)果可知,結(jié)合了嶺回歸和SARIMA的組合模型在樣本外預(yù)測(cè)的精度方面比單一的SARIMA模型的預(yù)測(cè)能力要高,并且預(yù)測(cè)的誤差和精度較好,預(yù)測(cè)誤差在0.026 mm/s2。因此,組合模型為橋梁狀態(tài)預(yù)測(cè)提供了一個(gè)更為精確的方法。組合模型在傳感器數(shù)據(jù)填補(bǔ)和橋梁狀態(tài)預(yù)測(cè)的結(jié)果如圖8所示。 圖8 傳感器數(shù)據(jù)填補(bǔ)和橋梁狀態(tài)預(yù)測(cè)結(jié)果Fig.8 Sensor data imputation and bridge condition prediction results 提出了一種綜合嶺回歸和SARIMA的方法,以實(shí)現(xiàn)傳感器數(shù)據(jù)回歸以及橋梁狀態(tài)預(yù)測(cè)。首先利用嶺回歸建立了傳感器之間的聯(lián)系,并對(duì)傳感器缺失值進(jìn)行補(bǔ)充,再基于所有傳感器數(shù)據(jù)采用SARIMA預(yù)測(cè)橋梁將來(lái)數(shù)據(jù),最后通過(guò)設(shè)置預(yù)警值,以達(dá)到保證橋梁健康運(yùn)行的目的。結(jié)果表明,本文方法能夠精確填補(bǔ)傳感器缺失數(shù)據(jù),較精確地預(yù)測(cè)橋梁將來(lái)的運(yùn)行數(shù)據(jù);基于現(xiàn)在和預(yù)測(cè)將來(lái)數(shù)據(jù)設(shè)置的預(yù)警值可以保證橋梁的健康運(yùn)行;組合模型充分利用了傳感器之間的聯(lián)系,相比于單一模型提高了預(yù)測(cè)精度。3.3 SARIMA模型
3.4 RR-SARIMA模型預(yù)測(cè)結(jié)果
4 結(jié)論