支君豪,龔循強(qiáng),楊 忠,魯鐵定,汪宏宇,羅 升
(1.東華理工大學(xué) 測(cè)繪與空間信息工程學(xué)院,南昌 330013;2.東華理工大學(xué) 自然資源部環(huán)鄱陽(yáng)湖區(qū)域礦山環(huán)境監(jiān)測(cè)與治理重點(diǎn)實(shí)驗(yàn)室,南昌 330013;3.南昌鐵路勘測(cè)設(shè)計(jì)院有限責(zé)任公司,南昌 330002)
至2020年底,我國(guó)高速鐵路已經(jīng)達(dá)到了3.8萬(wàn)km的總里程數(shù),位居世界第一[1]。在高鐵橋墩的施工過程中,受線路周邊地質(zhì)等環(huán)境影響,可能會(huì)引起高鐵橋墩發(fā)生異常沉降,從而對(duì)高鐵運(yùn)營(yíng)和維護(hù)造成較大的影響,甚至威脅到人民生命和財(cái)產(chǎn)安全[2]。為了確保高鐵的施工和運(yùn)營(yíng)安全,防止安全事故發(fā)生,保障人民生命和財(cái)產(chǎn)安全,有必要針對(duì)高鐵橋墩沉降觀測(cè)數(shù)據(jù)中的異常值進(jìn)行探測(cè)和處理[3]。異常值,也稱為離群點(diǎn),指的是樣本中的一些數(shù)值明顯偏離其余數(shù)值的樣本點(diǎn),也可以理解為與大多數(shù)數(shù)據(jù)的分布不一致的數(shù)據(jù)點(diǎn)[4]。對(duì)于高鐵橋墩沉降異常值,主要包括人為因素等干擾產(chǎn)生的觀測(cè)粗差和高鐵橋墩受外界因素影響突發(fā)形變引起的真實(shí)異常值[5]。對(duì)于觀測(cè)粗差將進(jìn)行剔除,而對(duì)于真實(shí)異常值則需要根據(jù)施工情況進(jìn)行實(shí)地復(fù)查等處理。
目前,常規(guī)的基于統(tǒng)計(jì)學(xué)異常值探測(cè)方法包括拉依達(dá)準(zhǔn)則(3σ)法、四分位距(inter-quartile range,IQR)法和中值絕對(duì)偏差(median absolute deviation,MAD)法。其中,拉依達(dá)準(zhǔn)則法在觀測(cè)次數(shù)足夠大的前提下,當(dāng)觀測(cè)數(shù)據(jù)服從正態(tài)分布時(shí),分別計(jì)算觀測(cè)時(shí)間序列數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差,進(jìn)而通過判定準(zhǔn)則確定異常值,然而異常值的存在會(huì)造成觀測(cè)時(shí)間序列數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差發(fā)生偏離,從而導(dǎo)致異常值探測(cè)效果不理想[6]。吳浩等提出了一種改進(jìn)型3σ粗差探測(cè)方法,利用小波分解出的高頻系數(shù)計(jì)算得到觀測(cè)數(shù)據(jù)的中誤差估值σ,結(jié)合3σ來(lái)評(píng)判該點(diǎn)異常的可能性[7]。IQR法是一種簡(jiǎn)便的統(tǒng)計(jì)分析方法,其中位數(shù)和四分位距不易受異常值影響,通過穩(wěn)健Z得分探測(cè)觀測(cè)時(shí)間序列數(shù)據(jù)中的異常值,但當(dāng)觀測(cè)時(shí)間序列數(shù)據(jù)離散程度較大時(shí),其四分位間距也會(huì)隨之增大,導(dǎo)致對(duì)偏離程度較小的異常值探測(cè)效果減弱[8]。MAD法是一種具有魯棒性的穩(wěn)健統(tǒng)計(jì)方法,假定觀測(cè)時(shí)間序列數(shù)據(jù)服從正態(tài)分布,通過利用數(shù)據(jù)中的中位數(shù)進(jìn)行計(jì)算,中位數(shù)比標(biāo)準(zhǔn)差和平均值更能適應(yīng)數(shù)據(jù)中異常值的影響,然而MAD法的參數(shù)是通過經(jīng)驗(yàn)值設(shè)置,參數(shù)選取較大或較小都會(huì)導(dǎo)致探測(cè)效果不理想[9-12]。
然而,傳統(tǒng)異常值探測(cè)方法均存在沒有充分挖掘原始時(shí)間序列數(shù)據(jù)的內(nèi)在發(fā)展規(guī)律等不足。王威等提出了一種基于小波分析的衛(wèi)星鐘差數(shù)據(jù)預(yù)處理方法,通過對(duì)小波分解得到的高頻分量和低頻分量進(jìn)行預(yù)處理,從而提高異常值探測(cè)效果[10]。因此,為有效探測(cè)出高鐵橋墩沉降監(jiān)測(cè)數(shù)據(jù)中的異常值,文中提出一種基于優(yōu)化小波分量的高鐵橋墩沉降異常探測(cè)方法,通過模擬實(shí)驗(yàn)以及工程實(shí)例實(shí)驗(yàn),對(duì)比分析傳統(tǒng)方法和其他組合方法,驗(yàn)證文中方法的有效性和準(zhǔn)確性。
在拉依達(dá)準(zhǔn)則法的基礎(chǔ)上,文中通過對(duì)傳統(tǒng)異常值探測(cè)方法及其它組合方法進(jìn)行對(duì)比研究。下面簡(jiǎn)要介紹拉依達(dá)準(zhǔn)則、四分位距法和中值絕對(duì)偏差法異常值探測(cè)方法原理。
(1)
根據(jù)貝塞爾公式求得其標(biāo)準(zhǔn)差s為:
(2)
式中:n為觀測(cè)樣本數(shù)量。
假設(shè)存在一組離散的觀測(cè)時(shí)間序列樣本Xn={x1,x2,x3,…,xi,…,xn},將其從小到大依次排序后,根據(jù)觀測(cè)數(shù)據(jù)中值M和IQR對(duì)觀測(cè)時(shí)間序列數(shù)據(jù)分布進(jìn)行分析[12]。IQR代表高四分位數(shù)和低四分位數(shù)之差,計(jì)算方法為:
IQR=Q3-Q1.
(3)
式中:Q3、Q1分別為高四分位數(shù)和低四分位數(shù)。
穩(wěn)健Zi得分統(tǒng)計(jì)量表示為:
(4)
式中:M為觀測(cè)時(shí)間序列數(shù)據(jù)中位數(shù),SIQR表示為標(biāo)準(zhǔn)化IQR,SIQR=0.741 3×IQR。
當(dāng)Zi>3時(shí),則認(rèn)為xi為異常值,反之則認(rèn)為xi正常。
假設(shè)存在一組觀測(cè)時(shí)間序列樣本,Xn={x1,x2,x3,…,xi,…,xn},并服從正態(tài)分布,MAD表示為:
MAD=b|xi-median(x)|median.
(5)
式中:b為一個(gè)常數(shù),通常取1.482 6[13-14],median(x)為觀測(cè)時(shí)間序列樣本x中位數(shù)。
觀測(cè)序列每一個(gè)數(shù)據(jù)對(duì)應(yīng)的Z得分為:
(6)
當(dāng)Zi>5時(shí),則認(rèn)為xi為異常值,反之則認(rèn)為xi正常[10]。
小波分析獨(dú)特的多分辨率分析性質(zhì),使其在信號(hào)處理、圖像處理與傳輸?shù)确矫鎽?yīng)用廣泛。小波分析能夠?qū)υ夹盘?hào)進(jìn)行分解從而得到低頻近似分量和高頻細(xì)節(jié)分量,從而分離出有效信息和干擾信息,進(jìn)而進(jìn)行信號(hào)分析[15-16]。其中低頻近似分量中主要包含了原始數(shù)據(jù)的內(nèi)在發(fā)展趨勢(shì)等特性,而高頻細(xì)節(jié)分量包含原始信號(hào)中的瞬態(tài)等特性[17-19]。
小波函數(shù)是小波分析中的重點(diǎn)環(huán)節(jié),小波函數(shù)是一種能夠迅速衰減到零的一類函數(shù)。存在信號(hào)f(t)∈L2(R),其連續(xù)小波變換(continue wavelet transform,CWT)表示為:
(7)
然而對(duì)原始數(shù)據(jù)進(jìn)行小波分解會(huì)出現(xiàn)低頻信號(hào)存在噪聲和高頻信號(hào)有效信息提取不充分的問題。因此,為解決此類問題,文中基于小波分析的優(yōu)勢(shì),提出一種利用優(yōu)化小波分量結(jié)合改進(jìn)拉依達(dá)準(zhǔn)則法進(jìn)行異常值探測(cè)。圖1為沉降異常值探測(cè)技術(shù)路線,具體步驟如下:
圖1 本文所提方法技術(shù)路線
1)選擇合適的小波基函數(shù)和分解層數(shù)對(duì)原始數(shù)據(jù)Xn進(jìn)行小波分解。db5小波基具有較好的正則性和緊支撐性,且能夠有效分離有用信息和噪聲信息,因此本文選擇db5小波基進(jìn)行實(shí)驗(yàn)。選擇過高或過低的分解層數(shù)都不利于小波進(jìn)行信號(hào)重構(gòu),因此需要確定有效的分解尺度[20]。在確定分解尺度的過程中,采用均方根誤差(RMSE)作為判斷標(biāo)準(zhǔn),RMSE表示為:
(8)
2)利用小波分解獲取第1、2層高頻分量系數(shù),計(jì)算中誤差估計(jì)σ為:
(9)
3)優(yōu)化小波分量。在對(duì)沉降數(shù)據(jù)進(jìn)行小波分解得到低頻近似分量系數(shù)ai和高頻細(xì)節(jié)分量系數(shù)dj后,以低頻近似分量系數(shù)的中位數(shù)m作為判別系數(shù),表示為m=median|ai|,當(dāng)|ai|>m/3時(shí),則認(rèn)為該點(diǎn)為異常值,取低頻系數(shù)中位數(shù)對(duì)其進(jìn)行填補(bǔ);在高頻細(xì)節(jié)分量系數(shù)中,計(jì)算每一層方差σj=median{|di|/0.674 5},當(dāng)|dj|>3σj時(shí),則認(rèn)為該點(diǎn)為異常值,并取該層高頻系數(shù)中位數(shù)對(duì)其進(jìn)行填補(bǔ)。
(10)
為了驗(yàn)證文中所提出方法的有效性,通過模擬實(shí)驗(yàn)構(gòu)造高鐵橋墩沉降觀測(cè)數(shù)據(jù)。在模擬實(shí)驗(yàn)中,首先隨機(jī)生成100組服從正態(tài)分布N(0,σ2I)的數(shù)據(jù)作為原始觀測(cè)數(shù)據(jù),其中σ=0.3,I為單位矩陣。其中模擬實(shí)驗(yàn)數(shù)據(jù)由MATLAB軟件生成,如圖2所示。
圖2 模擬的原始觀測(cè)數(shù)據(jù)
根據(jù)異常值在觀測(cè)數(shù)據(jù)中的數(shù)量通常不超過10%的原則[21],文中采用兩種方式進(jìn)行模擬實(shí)驗(yàn):①固定異常值數(shù)量為5(即異常值數(shù)量占總觀測(cè)值的5%),系統(tǒng)地改變異常值大小;②固定異常值大小為7σ,系統(tǒng)地改變每次觀測(cè)量中異常值的數(shù)量。為保證模擬實(shí)驗(yàn)的可靠性,文中將1 000次重復(fù)實(shí)驗(yàn)的結(jié)果取平均作為最終結(jié)果。
文中選取常益長(zhǎng)高鐵項(xiàng)目沅江特大橋某橋梁墩沉降觀測(cè)數(shù)據(jù)作為研究對(duì)象。由于沅江特大橋橋梁主跨施工區(qū)域水文和地質(zhì)條件十分復(fù)雜,導(dǎo)致獲得的觀測(cè)數(shù)據(jù)序列不可避免地包含異常值。選取該點(diǎn)位觀測(cè)日期為2020年11月至2021年2月共87期沉降數(shù)據(jù),觀測(cè)時(shí)間間隔為1 d。如圖3所示。
圖3 原始觀測(cè)數(shù)據(jù)
采用模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),通過對(duì)比IQR法、MAD法、拉依達(dá)準(zhǔn)則法(3σ)、小波分析-IQR法(WT-IQR)、小波分析-MAD法(WT-MAD)、小波分析-拉依達(dá)準(zhǔn)則法(WT-3σ)、小波分析-中誤差估計(jì)-拉依達(dá)準(zhǔn)則法(WT-3σ-ME)和優(yōu)化小波分量-中誤差估計(jì)-3σ法(Proposed)對(duì)異常值探測(cè)效果進(jìn)行對(duì)比和分析。
首先通過模擬實(shí)驗(yàn)討論文中所提方法的有效性。采用文中提出的方法對(duì)模擬數(shù)據(jù)進(jìn)行異常值探測(cè),并將其與傳統(tǒng)異常值探測(cè)方法和其它組合方法進(jìn)行比較。
3.1.1 模擬實(shí)驗(yàn)1的結(jié)果與分析:異常值大小不同的影響
圖4表示在異常值大小不同時(shí)不同方法探測(cè)得到的異常值數(shù)量。從圖4中可以看出,隨著異常值逐漸增大,所有方法探測(cè)出的異常值數(shù)量都呈現(xiàn)上升趨勢(shì)。在探測(cè)異常值數(shù)量的效果方面,文中方法能夠在異常值大小為6σ以上的異常值探測(cè)效率接近100%,而其他方法在異常值大小為8σ以上或更大范圍的探測(cè)效率接近100%,這表明文中所提出的方法在異常值探測(cè)效果方面均優(yōu)于其他方法。在異常值大小從3σ增加到7σ時(shí),由于受到異常值的影響,使得原始數(shù)據(jù)的中誤差偏大,從而造成拉依達(dá)準(zhǔn)則對(duì)偏離相對(duì)較小的異常值探測(cè)效果不理想;IQR法主要是從時(shí)間序列整體發(fā)散程度來(lái)探查其極端異常值,但忽視了原始數(shù)據(jù)的潛在發(fā)展規(guī)律,從而導(dǎo)致對(duì)偏離相對(duì)較小的異常值不夠敏感。文中所提方法是在小波分析的基礎(chǔ)上對(duì)小波分量進(jìn)行優(yōu)化處理,從而能夠更加準(zhǔn)確地提取原始數(shù)據(jù)變形趨勢(shì),且由小波分解的高頻細(xì)節(jié)分量所計(jì)算的中誤差估計(jì)值不易受異常值影響,相比于傳統(tǒng)小波分析組合方法更能體現(xiàn)實(shí)際觀測(cè)精度,從而提高異常值探測(cè)的精確度和準(zhǔn)確度。
圖4 模擬實(shí)驗(yàn)中異常值大小不同時(shí)探測(cè)到的異常值數(shù)量
3.1.2 模擬實(shí)驗(yàn)2的結(jié)果與分析:異常值數(shù)量不同的影響
圖5表示在每一模擬實(shí)驗(yàn)觀測(cè)量中的異常值數(shù)量從1增加至10時(shí),文中所提方法和對(duì)比方法所探測(cè)到的異常值數(shù)量。從圖5能夠看出文中所提出的方法和IQR法以及MAD法都能夠有效探測(cè)出大部分異常值,但文中所提出的方法在探測(cè)數(shù)量方面優(yōu)于IQR法和MAD法。小波分析-IQR法(WT-IQR)、小波分析-MAD法(WT-MAD)和小波分析-拉依達(dá)準(zhǔn)則法(WT-3σ)在異常值數(shù)量從1增加至5時(shí),3種方法探測(cè)的異常值數(shù)量逐漸增加,但探測(cè)效果并不理想,而當(dāng)異常值數(shù)量從5增加至10時(shí),3種方法的異常值探測(cè)數(shù)量卻逐漸減少;而小波分析-中誤差估計(jì)-拉依達(dá)準(zhǔn)則法(WT-3σ-ME)在異常值數(shù)量從1增加至9時(shí),探測(cè)出的異常值數(shù)量逐漸增加,而當(dāng)異常值的數(shù)量從9增加至10時(shí),探測(cè)出的異常值數(shù)量逐漸減少,這是因?yàn)檫@4種方法在對(duì)原始數(shù)據(jù)進(jìn)行小波分析后得到的低頻分量存在噪聲和高頻分量未被利用的有效信息。而拉依達(dá)準(zhǔn)則法在異常值數(shù)量從1增加至7時(shí),探測(cè)出的異常值數(shù)量逐漸增加,但對(duì)異常值也不夠敏感且在異常值數(shù)量從7增加至10時(shí),探測(cè)出的異常值數(shù)量逐漸減少,這是因?yàn)殡S著異常值數(shù)量的增加,異常值會(huì)對(duì)原始數(shù)據(jù)的中誤差產(chǎn)生較大偏離從而導(dǎo)致探測(cè)效果不理想。
圖5 模擬實(shí)驗(yàn)中異常值數(shù)量不同時(shí)探測(cè)到的異常值數(shù)量
從圖2可以看出,原始觀測(cè)數(shù)據(jù)中的異常值的范圍較大,分布相對(duì)較為離散。文中分別采用IQR法、MAD法、拉依達(dá)準(zhǔn)則法、小波分析-IQR法(WT-IQR)、小波分析-MAD法(WT-MAD)、小波分析-拉依達(dá)準(zhǔn)則法(WT-3σ)、小波分析-中誤差估計(jì)-拉依達(dá)準(zhǔn)則法(WT-3σ-ME)和優(yōu)化小波分量-中誤差估計(jì)-拉依達(dá)準(zhǔn)則法(Proposed)對(duì)圖2所示的觀測(cè)時(shí)間序列數(shù)據(jù)進(jìn)行異常值探測(cè),與模擬實(shí)驗(yàn)相同,采用db5小波基進(jìn)行實(shí)驗(yàn),根據(jù)式(7)求得最佳小波分解層數(shù)均為2,探測(cè)結(jié)果如表1所示。圖6為文中方法在沉降觀測(cè)數(shù)據(jù)中的異常值探測(cè)結(jié)果。
表1 工程實(shí)例的異常值探測(cè)數(shù)量及中誤差估計(jì)值
圖6 文中方法沉降觀測(cè)數(shù)據(jù)異常值探測(cè)結(jié)果
從表1可以看出,IQR法、MAD法、WT-IQR法和WT-MAD法并不能夠探測(cè)出原始數(shù)據(jù)中存在的異常值,3σ法、WT-3σ法以及WT-3σ-ME法僅探測(cè)出一個(gè)異常值,而文中所提出的方法能夠有效探測(cè)出更多的異常值。從圖6可以看出,文中方法對(duì)偏離程度較小的異常值也能夠進(jìn)行有效探測(cè)。為了進(jìn)一步驗(yàn)證文中探測(cè)方法的有效性,分別計(jì)算了3σ法、WT-3σ法、WT-3σ-ME以及文中方法的中誤差估計(jì)值。在探測(cè)出的異常值數(shù)量方面,文中方法探測(cè)出的異常值數(shù)量?jī)?yōu)于其它方法;在計(jì)算的中誤差估計(jì)值方面,文中方法計(jì)算得到的中誤差估計(jì)值優(yōu)于傳統(tǒng)方法及其它小波組合方法,相比于其它方法的中誤差值降低了12.09%,降低了殘差受異常值干擾而不能正確得到中誤差估計(jì)值的影響,說明文中方法更加穩(wěn)健,進(jìn)一步表明采用文中方法進(jìn)行異常值探測(cè)更加有效。
由于高鐵橋墩沉降觀測(cè)條件的不穩(wěn)定性和復(fù)雜性,可能會(huì)遇到沉降觀測(cè)數(shù)據(jù)中存在部分異常數(shù)據(jù)的情況,然而常規(guī)的基于統(tǒng)計(jì)學(xué)的異常值探測(cè)方法探測(cè)結(jié)果并不理想。為了解決這一問題,提出了一種基于優(yōu)化小波分量的高鐵橋墩沉降異常探測(cè)方法。通過模擬實(shí)驗(yàn)和工程實(shí)例進(jìn)行對(duì)比和分析,結(jié)果表明文中所提出的方法在保證能夠有效探測(cè)出異常值的同時(shí),對(duì)偏離程度較小的異常值探測(cè)效果明顯,相比于單一方法具有較大的優(yōu)勢(shì),能夠更好適應(yīng)高鐵橋墩沉降觀測(cè)項(xiàng)目需求,具有一定的實(shí)際應(yīng)用價(jià)值。