戴領(lǐng) 李少林 劉光彪 紀(jì)傳波 段國學(xué)
摘要:大壩安全監(jiān)測數(shù)據(jù)原始序列中常存在異常測值,極大影響了大壩安全監(jiān)測資料分析的可靠性和準(zhǔn)確性。為此,在分析異常值特性及傳統(tǒng)異常檢測方法優(yōu)缺點(diǎn)的基礎(chǔ)上,分別從局部與整體角度研究監(jiān)測數(shù)據(jù)異常檢測方法。首先針對多重局部異常系數(shù)法要求數(shù)據(jù)序列較長且數(shù)據(jù)等時間間距等缺陷,提出了局部變化異常系數(shù)法(LV)及局部方法與整體方法協(xié)同判別策略;進(jìn)一步引入密度聚類算法(DBSCAN),提出了兼顧數(shù)據(jù)整體與局部特性的LV-DBSCAN異常檢測方法。以某混凝土重力壩兩垂線測點(diǎn)順流向位移監(jiān)測數(shù)據(jù)為實(shí)例,對比分析了不同方法在不同類型數(shù)據(jù)集上的檢測精度。研究結(jié)果表明,所提LV-DBSCAN方法適用性更廣,準(zhǔn)確率更高,誤判率更低。
摘要:大壩安全監(jiān)測; 異常值; 局部變化異常系數(shù)法(LV); 密度聚類算法(DBSCAN); 置信度
中圖法分類號: TV698
文獻(xiàn)標(biāo)志碼: A
DOI:10.16232/j.cnki.1001-4179.2024.01.033
0 引 言
近年來,由于國家對大壩安全監(jiān)測的重視程度逐漸提升,大壩安全監(jiān)測自動化改造進(jìn)程逐步加快,監(jiān)測儀器數(shù)量日益龐大,監(jiān)測數(shù)據(jù)量爆炸式增長,在如此龐雜的數(shù)據(jù)中,不可避免會夾雜著大量的異常測值,這些異常測值對于監(jiān)測資料分析具有較強(qiáng)的干擾性,嚴(yán)重影響大壩安全分析評價結(jié)論[1]。
異常測值的判斷、分析和處理,是監(jiān)測資料分析的基礎(chǔ)性工作,也是監(jiān)測資料分析的主要難題之一[2]。常用的大壩安全監(jiān)測數(shù)據(jù)異常檢測方法主要有統(tǒng)計概率法、小波分析法、時空判別法和數(shù)學(xué)模型法等[3]。統(tǒng)計概率法以數(shù)理統(tǒng)計和概率論為基礎(chǔ),其基本流程是通過統(tǒng)計概率分析和判別準(zhǔn)則來檢測一組數(shù)據(jù)中是否存在異常值,常用的判別準(zhǔn)則主要有拉依達(dá)(Parita)準(zhǔn)則[4](又稱3σ準(zhǔn)則)、格拉布斯(Grubbs)準(zhǔn)則[5]、狄克松(Dikon)準(zhǔn)則[6]等。小波分析可以對原始監(jiān)測數(shù)據(jù)序列進(jìn)行多尺度分析,對于具有異常值的數(shù)據(jù)序列,其分解后的系數(shù)具有模極大值特征,可以此為依據(jù)檢測大壩監(jiān)測數(shù)據(jù)序列的異常值[7-9]。時空判別法主要是將觀測物理量與歷史的或相鄰的觀測數(shù)據(jù)相比較,找出其中具有突變特性或跳動性變化的測值,包括Hampel濾波法、平滑估計法、多重局部異常系數(shù)法等[3,10]。數(shù)學(xué)模型法是根據(jù)原型觀測資料數(shù)據(jù),通過各種不同方法建立監(jiān)測效應(yīng)量與各影響因子之間的回歸模型,從而得到各實(shí)測值對應(yīng)的預(yù)測值,利用兩者之間的差值來判斷測值是否為異常值[11-12],常用的模型除傳統(tǒng)的非線性回歸之外,還包括支持向量機(jī)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等智能模型[13-14]。此外,還有局部異常因子算法[15-16]、K近鄰算法[17-18]、聚類算法[19-20]等人工智能方法也在大壩安全監(jiān)測數(shù)據(jù)異常檢測領(lǐng)域內(nèi)廣泛應(yīng)用。不同類型方法的側(cè)重點(diǎn)和適用范圍不一。一般而言,對于平穩(wěn)數(shù)據(jù)序列,采用統(tǒng)計概率法基本能夠有效識別整體上遠(yuǎn)離數(shù)據(jù)序列的異常值,而若監(jiān)測效應(yīng)量變化呈現(xiàn)遞增趨勢(見圖1),則不滿足數(shù)據(jù)序列獨(dú)立同分布條件,無法使用統(tǒng)計概率法。對于類似圖1中G點(diǎn)異常測值,數(shù)據(jù)階躍后并未下降,而是維持原有趨勢,這類測值可能是由于地震等突發(fā)情況導(dǎo)致,也可能由于儀器損壞,中間數(shù)據(jù)漏測導(dǎo)致,此類情況在大壩環(huán)境量和效應(yīng)量上難有先兆信息,通常難以實(shí)時判斷。采用時空判別法,窗口在滑動至階躍點(diǎn)時,由于前后相差較大,容易對階躍后前幾個值造成誤判,而采用統(tǒng)計概率法,階躍后測值穩(wěn)定,數(shù)據(jù)識別為正常。由此可見,僅靠單一方法難以保證異常值完全被識別出來,需根據(jù)數(shù)據(jù)整體和局部特性統(tǒng)籌考慮。
為此,本文分別從局部與整體角度研究大壩安全監(jiān)測數(shù)據(jù)異常檢測方法,局部以多重局部異常系數(shù)法為基礎(chǔ),提出局部變化異常系數(shù)法(Outlier Coefficient of Local Variation,LV);整體以聚類算法為基礎(chǔ),選擇適用性更廣、速度更快且噪聲數(shù)據(jù)處理更佳的密度聚類算法(DBSCAN);進(jìn)一步,提出局部方法與整體方法協(xié)同判別策略(將兩種方法進(jìn)行結(jié)合),建立融合局部變化異常系數(shù)法和密度聚類算法的大壩安全監(jiān)測數(shù)據(jù)異常檢測模型,以提高數(shù)據(jù)異常檢測準(zhǔn)確率,降低不同方法誤判率。
1 基于LV-DBSCAN的數(shù)據(jù)異常檢測方法
1.1 局部變化異常系數(shù)法
針對多重局部異常系數(shù)法[3]存在的數(shù)據(jù)序列長度要求高、數(shù)據(jù)序列等間距的問題,結(jié)合頻率分析與小概率原理,提出局部變化異常系數(shù)法,具體原理如下:
假設(shè)有一組原始監(jiān)測數(shù)據(jù)序列{x1,x2,…,xt-k,…,xt-1},待檢測數(shù)據(jù)為xt。根據(jù)歷史數(shù)據(jù)的變化規(guī)律,選取的閾值為{bU,bL}。
Step 1:選取待檢測值xt最近的前m天監(jiān)測數(shù)據(jù),組成窗口數(shù)據(jù)序列Xt:{xt-m,…,xt-2,xt-1}。
Step 2:計算待檢測值xt處變化率x′t:
x′t=(xt-xt-i)/Δt(1)
式中:Δt為間隔時間,一般以日作為最小間隔尺度。若數(shù)據(jù)序列中的xt-i-1判定為異常值,則取xt-i-1計算變化率x′t,直至i+1>m;若窗口內(nèi)無數(shù)據(jù)或均為異常數(shù)據(jù),直接判定待檢測值xt為正常,該操作主要是為了消除窗口數(shù)據(jù)中異常值對檢測結(jié)果的影響。
Step 3:計算變化率與相應(yīng)上下閾值b的歸一化系數(shù)P:
P=x′t-bLbU-bL(2)
若P在0~1之間,則判斷待測值為正常值,將該正常值的異常系數(shù)設(shè)定為0,若P大于1或小于0,則判定待測值為異常值,將P作為xt的異常系數(shù)。
Step 4:將t+1時刻數(shù)據(jù)作為待檢測數(shù)據(jù),重復(fù)Step 1~3,即每當(dāng)獲取到實(shí)時數(shù)據(jù)(待檢測值)時,即可重復(fù)Step 1~3,以實(shí)現(xiàn)對實(shí)時數(shù)據(jù)的異常檢測。
窗口長度m建議取30 d;施工期觀測頻次高,可適當(dāng)縮短,運(yùn)行期測值相對穩(wěn)定可適當(dāng)延長。閾值b計算步驟如下:
Step 1:假設(shè)有一組原始監(jiān)測數(shù)據(jù)序列x1,x2,…,xt,根據(jù)式(1)計算獲取變化率序列x′2,x′3,…,x′t。
Step 2:對變化率序列進(jìn)行頻率分析,獲取序列概率密度函數(shù)f(x′)及累積概率分布函數(shù)F(x′),其中概率分布擬合使用核密度估計法。
Step 3:根據(jù)小概率原理,設(shè)定置信度為α,以Fα/2(x′)與F1-α/2(x′)分布作為閾值b上下限bU,bL。
局部變化異常系數(shù)法來源于多重局部異常系數(shù)法,同屬于時空判別法,主要優(yōu)勢體現(xiàn)在以下兩點(diǎn):
(1) 多重局部異常系數(shù)法直接采用xj-xj-i計算差分序列,默認(rèn)前后間隔一致;而在實(shí)際工程應(yīng)用中,由于存在加密觀測、儀器損壞補(bǔ)測等特殊情況、數(shù)據(jù)序列通常不是等間距的。因此,研究將原有差分形式替換為變化率,即式(1)。
(2) 多重局部異常系數(shù)法對比分析了3σ準(zhǔn)則和箱型圖法計算結(jié)果,最終選用歷史數(shù)據(jù)的極值來確定閾值bU,bL大小。該方法簡便但對數(shù)據(jù)序列依賴性太強(qiáng),若原始序列較短或未出現(xiàn)任何極端工況,極易造成數(shù)據(jù)誤判。因此,研究通過對變化率序列進(jìn)行頻率分析,獲取其概率分布,然后依據(jù)小概率原理,確定閾值b上下限,在一定程度上挖掘出變化率的潛在信息,可降低對原始數(shù)據(jù)序列的要求。
1.2 DBSCAN算法
DBSCAN是一種基于密度的聚類算法,根據(jù)密度可達(dá)關(guān)系導(dǎo)出的最大密度相連的樣本集合即為一個簇。該算法將具有足夠密度的區(qū)域劃分為簇,并在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的簇,它將簇定義為密度相連的點(diǎn)的最大集合[21]。
DBSCAN算法核心在于任意選擇一個沒有類別的核心對象作為種子,然后找到所有這個核心對象能夠密度可達(dá)的樣本集合,即為一個聚類簇。接著繼續(xù)選擇另一個沒有類別的核心對象去尋找密度可達(dá)的樣本集合,這樣就得到另一個聚類簇,一直運(yùn)行到所有核心對象都有類別為止。具體步驟如下。
Step 1:從一個未被訪問的任意數(shù)據(jù)點(diǎn)開始,這個點(diǎn)的鄰域是用距離epsilon來定義(即該點(diǎn)ε距離范圍內(nèi)的所有點(diǎn)都是鄰域點(diǎn)),如果在該鄰域內(nèi)有足夠數(shù)量的點(diǎn)(即minPoints),則聚類過程開始,并且當(dāng)前數(shù)據(jù)點(diǎn)成為新簇中的第一個點(diǎn)。否則,該點(diǎn)將被標(biāo)記為噪聲。在這兩種情況下,該點(diǎn)都會被標(biāo)記為“已訪問”。
Step 2:對于新簇中的第一個點(diǎn),它的ε距離鄰域內(nèi)的點(diǎn)也會成為同簇的一部分。這個過程使ε鄰域內(nèi)的所有點(diǎn)都屬于同一個簇,然后對添加到簇中的所有新點(diǎn)重復(fù)上述過程。
Step 3:重復(fù)Step 1~2,直到所有點(diǎn)被標(biāo)記為“已訪問”停止。
DBSCAN算法的主要優(yōu)點(diǎn)在于無需確定簇的數(shù)量且能夠很好地找到任意大小和形狀的簇。但當(dāng)數(shù)據(jù)簇密度不均勻時,它的效果不如其他算法好。這是因為當(dāng)密度變化時,用于識別鄰近點(diǎn)的距離閾值ε和minPoints的設(shè)置將隨著簇而變化;在處理高維數(shù)據(jù)時也會出現(xiàn)這種缺點(diǎn),因為難以估計距離閾值ε。
采用DBSCAN算法進(jìn)行異常監(jiān)測時,將聚類結(jié)果中存在數(shù)據(jù)較少的簇和噪聲點(diǎn)判定為異常數(shù)據(jù),其余為正常數(shù)據(jù)。本文采用K-distance方法確定算法超參數(shù)距離閾值ε和鄰域最小樣本數(shù)minPoints[22]。
1.3 局部方法與整體方法協(xié)同判別策略
前兩節(jié)所提局部方法與整體方法是從不同角度對數(shù)據(jù)異常值進(jìn)行監(jiān)測,因此最終檢測出的異常數(shù)據(jù)極大程度上不完全一致。若兩類方法均檢測為異常數(shù)據(jù),則基本可以判定該點(diǎn)為異常值,但還存在局部方法判斷為異常數(shù)據(jù)而整體方法下為正常數(shù)據(jù),或者整體方法判斷為異常數(shù)據(jù)而局部方法下為正常數(shù)據(jù)的現(xiàn)象,此類點(diǎn)無法確定是否為異常點(diǎn)。1.1節(jié)所提局部變化異常系數(shù)法可以通過設(shè)置置信度改變異常值判斷閾值,置信度越大,閾值越大,說明異常數(shù)據(jù)偏離程度越嚴(yán)重,其為異常值的可能性更高;置信度越小,閾值越小,說明異常數(shù)據(jù)偏離程度越輕微,其為異常值的可能性越低。因此,可以根據(jù)該方法特性,提出一種局部方法與整體方法協(xié)同判別的策略,具體如下:
針對局部方法判斷為異常而整體方法判斷為正常的數(shù)據(jù),若此時提高局部方法置信度仍為異常,則表明此異常點(diǎn)偏離鄰域嚴(yán)重,可以判斷其為異常點(diǎn)。針對整體方法判斷為異常而局部方法判斷為正常的數(shù)據(jù),若此時降低局部方法置信度仍為正常,則表明此異常點(diǎn)偏離鄰域較輕,可以判斷其為正常點(diǎn)。
1.4 LV-DBSCAN異常檢測方法
局部變化異常系數(shù)法聚焦于數(shù)據(jù)鄰域,缺乏對數(shù)據(jù)特性整體的考慮,且未能考慮環(huán)境量等因素,而DBSCAN方法能從整體上分析數(shù)據(jù)分布特性,且能夠延伸至多維數(shù)據(jù),即可以同時將環(huán)境量等因素考慮進(jìn)來。因此,本文在局部變化異常系數(shù)法和DBSCAN算法基礎(chǔ)上,結(jié)合局部方法與整體方法協(xié)同判別策略,提出一種融合局部變化異常系數(shù)法和密度聚類算法的大壩安全監(jiān)測異常值協(xié)同判別方法(LV-DBSCAN),具體步驟如圖2所示。
Step 1:輸入監(jiān)測數(shù)據(jù),使用局部變化系數(shù)法提取異常點(diǎn)。
Step 2:輸入監(jiān)測數(shù)據(jù),使用密度聚類算法提取異常點(diǎn)。
Step 3:將Step 1和Step 2中判別的異常點(diǎn)交集定義為準(zhǔn)確異常點(diǎn),異常點(diǎn)差集定義為局部可疑點(diǎn),將Step 2與Step 1中判別的異常點(diǎn)差集定義為全局可疑點(diǎn)。
Step 4:針對局部可疑點(diǎn),將Step 1中局部變化異常系數(shù)法的置信區(qū)間擴(kuò)大為α+β,判斷可疑點(diǎn)是否還是異常點(diǎn),若是則將其列為異常數(shù)據(jù),否則為正常點(diǎn)。
Step 5:針對全局可疑點(diǎn),將Step 1中局部變化異常系數(shù)法的置信區(qū)間縮小為α-β,判斷可疑點(diǎn)是否為異常點(diǎn),若是則將其列為異常數(shù)據(jù),否則為正常點(diǎn)。
Step 6:綜合Step 3~6中所有異常點(diǎn),至此實(shí)現(xiàn)異常檢測。
2 實(shí)例研究
2.1 研究對象及數(shù)據(jù)
某混凝土重力壩在1號、5號、9號、14號壩段分別布設(shè)了正、倒垂線。選擇其中1號壩段高程93.4 m和7號壩段高程109.2 m的兩個垂線測點(diǎn)順流向位移監(jiān)測數(shù)據(jù)為研究對象,分別代表2種不同類型數(shù)據(jù)集,數(shù)據(jù)集1中數(shù)據(jù)無明顯上升與下降趨勢,數(shù)據(jù)集2中數(shù)據(jù)前期呈現(xiàn)波動上升趨勢,后期趨于穩(wěn)定。為驗證所提方法的有效性及適用性,首先通過人工方式剔除數(shù)據(jù)集中異常值,然后在數(shù)據(jù)集后20%的范圍內(nèi)添加20個異常值(見圖3~4),最后,分別采用多重局部異常系數(shù)法、局部變化異常系數(shù)法、DBSCAN算法及LV-DBSCAN方法進(jìn)行異常值判別。
2.2 數(shù)據(jù)集1
根據(jù)數(shù)據(jù)序列自相關(guān)性,多重局部異常系數(shù)法窗口大小為5,局部變化異常系數(shù)法置信度α為0.9,DBSCAN算法鄰域距離為0.1,鄰域最小樣本數(shù)為6,LV-DBSCAN方法額外參數(shù)β為0.05。圖5與表1分別為各種方法異常值檢測結(jié)果,由圖表可知,局部變化異常系數(shù)法檢測效果遠(yuǎn)高于多重局部異常系數(shù)法,證明所提方法改進(jìn)之處有利于數(shù)據(jù)異常檢測。LV方法識別出了所有異常值,但誤判了較多正常值,DBSCAN方法識別了較少的異常值,但其誤判數(shù)量較低,而本文所提LV-DBSCAN方法雖召回率較LV方法低,但大幅度改善了誤判數(shù)量,同時提高了DBSCAN方法的異常數(shù)據(jù)識別數(shù)量,但誤判數(shù)量較DBSCAN方法多。
2.3 數(shù)據(jù)集2
根據(jù)數(shù)據(jù)序列自相關(guān)性,多重局部異常系數(shù)法窗口大小為7,局部變化異常系數(shù)法置信度α為0.9,DBSCAN算法鄰域距離為0.16,鄰域最小樣本數(shù)為8,LV-DBSCAN方法參數(shù)β為0.05。圖6與表2分別為各種方法異常值檢測結(jié)果,由圖表可知,局部變化異常系數(shù)法檢測效果依舊強(qiáng)于多重局部異常系數(shù)法,而LV-DBSCAN的檢測效果雖強(qiáng)于LV方法,但卻劣于DBSCAN,所提策略在提高LV方法檢測效果的同時降低了DBSCAN方法的效果。其主要原因在于:所提局部方法和整體方法協(xié)同判別策略較為依賴于局部方法的異常檢測效果,而數(shù)據(jù)集2中雖然LV方法召回率較高,但其準(zhǔn)確率較低,誤判了相當(dāng)多數(shù)量的數(shù)據(jù),且無論從精確度還是召回率來看,LV方法均劣DBSCAN算法,從而使得所提策略雖然改善了LV方法,但其檢測效果不如DBSCAN算法。
綜合上述數(shù)據(jù)集實(shí)例分析可知,多重局部異常系數(shù)法無論是針對平穩(wěn)數(shù)據(jù)還是非平穩(wěn)數(shù)據(jù),整體上效果較好,但其適用范圍有限,需長序列的正常測值用于確定閾值范圍;所提局部變化異常系數(shù)法將多重局部異常系數(shù)法中的差分序列改進(jìn)為微分序列,并將概率分布和置信度引入其中,一定程度上提高了方法的適用性和準(zhǔn)確性;聚類算法在各數(shù)據(jù)集上表現(xiàn)最優(yōu),無論是在準(zhǔn)確率還是適用范圍上,都優(yōu)于其他方法,且可以在異常檢測過程中考慮環(huán)境量因素,但其存在算法參數(shù)難以確定的問題。LV-DBSCAN方法綜合了LV方法和DBSCAN方法的優(yōu)勢,具有較好的異常檢測效果,優(yōu)于原有的LV方法,但不一定優(yōu)于DBSCAN方法,主要原因在于DBSCAN方法的檢測效果與數(shù)據(jù)質(zhì)量關(guān)系密切,這也是數(shù)據(jù)挖掘方法的癥結(jié)之一。
3 結(jié) 論
本文在分析異常值特性及傳統(tǒng)異常檢測方法優(yōu)缺點(diǎn)的基礎(chǔ)上,分別從局部與整體角度研究了大壩安全監(jiān)測數(shù)據(jù)異常檢測方法:著眼于局部,分析了多重局部異常系數(shù)法的優(yōu)缺點(diǎn),進(jìn)一步提出了一種適用范圍更廣的局部變化異常系數(shù)法;著眼于整體,引入DBSCAN聚類算法,分離出了數(shù)據(jù)中的離群點(diǎn)。在此基礎(chǔ)上,依據(jù)置信度理論,提出了局部方法與整體方法協(xié)同判別策略和基于局部變化異常系數(shù)法和聚類方法(LV-DBSCAN)的大壩安全監(jiān)測異常值檢測方法,最后,挑選某混凝土重力壩變形監(jiān)測2種不同類型數(shù)據(jù)集,分析了所提方法的適用性,得到如下研究結(jié)論。
(1) 多重局部異常系數(shù)法和局部變化異常系數(shù)法無論是針對平穩(wěn)數(shù)據(jù)還是非平穩(wěn)數(shù)據(jù)系列,整體上效果較好,但其適用范圍有限,需長序列的正常測值用于確定閾值范圍;
(2) 所提局部變化異常系數(shù)法提高了多重局部異常系數(shù)法的適用性和準(zhǔn)確性;
(3) LV-DBSCAN方法綜合了LV方法和DBSCAN方法的優(yōu)勢,具有較好的異常檢測效果,優(yōu)于原有的LV方法,但不一定優(yōu)于DBSCAN方法。
本文所提局部方法與整體方法協(xié)同判別策略主要通過局部變化異常系數(shù)法修改置信度實(shí)現(xiàn)了對數(shù)據(jù)異常判別嚴(yán)格程度的調(diào)控,并以此為橋梁,連接其他類型方法從而相互印證,提升數(shù)據(jù)異常檢測精度并降低誤判率。因此,所提策略在整體方法的選擇上還可以使用統(tǒng)計概率法或是其他類型聚類算法等,后續(xù)可在此基礎(chǔ)上進(jìn)一步研究。此外,受筆者工程經(jīng)驗、理論水平和研究時間的限制,尚存在一些研究難點(diǎn)需要在今后的研究工作中進(jìn)一步突破,特別是在監(jiān)測異常效應(yīng)值與環(huán)境量間的關(guān)系方面,后續(xù)也將研究使用數(shù)學(xué)模型法等分析異常效應(yīng)值的產(chǎn)生與環(huán)境量的關(guān)系,并論證其產(chǎn)生原因。
參考文獻(xiàn):
[1] 李珍照.大壩安全監(jiān)測[M].北京:中國電力出版社,1997.
[2] 何金平.大壩安全監(jiān)測理論與應(yīng)用[M].北京:中國水利水電出版社,2010.
[3] 李斌.重力壩變形監(jiān)控的智能分析方法研究[D].西安:西安理工大學(xué),2021.
[4] 趙海霞,周少娜,肖化.四種判別粗大誤差準(zhǔn)則的比較與討論[J].大學(xué)物理實(shí)驗,2017,30(5):105-108.
[5] 楊承志,魏博文,徐鎮(zhèn)凱.基于SVM-MCD的大壩變形監(jiān)測數(shù)據(jù)異常值判定[J].人民長江,2022,53(3):207-213.
[6] 王林,孫芳.利用狄克松判別法剔除觀測數(shù)據(jù)粗差[J].江西測繪,2016(4):18-20.
[7] 朱斯楊,李艷玲,盧祥,等.基于隸屬云的安全監(jiān)測異常數(shù)據(jù)識別方法研究[J].人民長江,2021,52(2):197-200.
[8] 劉千駒,陳代明,陳少勇,等.小波理論在大壩安全監(jiān)測數(shù)據(jù)粗差探測中的應(yīng)用[J].西北水電,2020(增1):129-132.
[9] 徐洪鐘,吳中如,李雪紅,等.基于小波分析的大壩觀測數(shù)據(jù)異常值檢測[J].水電能源科學(xué),2002,20(4):20-22.
[10] 周元春,甘孝清,李端有.大壩安全監(jiān)測數(shù)據(jù)粗差識別技術(shù)研究[J].長江科學(xué)院院報,2011,28(2):16-20.
[11] 崔樂,吳迪,成麗波.基于逐步回歸的穩(wěn)健估計和異常值檢測[J].沈陽師范大學(xué)學(xué)報(自然科學(xué)版),2018,36(6):527-532.
[12] 潘瑩麗,劉展,宋廣雨.基于SCAD懲罰回歸的異常值檢測方法[J].統(tǒng)計與決策,2022,38(4):38-42.
[13] 王麗蓉,鄭東健.基于卷積神經(jīng)網(wǎng)絡(luò)的大壩安全監(jiān)測數(shù)據(jù)異常識別[J].長江科學(xué)院院報,2021,38(1):72-77.
[14] 葉斌.基于LSTM模型的大壩安全監(jiān)測數(shù)據(jù)異常值檢測[D].武漢:長江科學(xué)院,2020.
[15] 鄭付剛.基于局部異常系數(shù)的混凝土壩變形異常分析方法[J].水電能源科學(xué),2016,34(6):103-105,31.
[16] HU J,MA F H,WU S H.Anomaly identification of foundation uplift pressures of gravity dams based on DTW and LOF[J].Structural Control and Health Monitoring,2018,25(5):1-17.
[17] 高鵬飛.數(shù)據(jù)清洗技術(shù)在尾礦庫監(jiān)測系統(tǒng)中的應(yīng)用研究[D].西安:西安工業(yè)大學(xué),2019.
[18] 謝方方,徐連誠,牛冰茹.一種基于反向 K 近鄰的孤立點(diǎn)檢測改進(jìn)算法[J].計算機(jī)應(yīng)用與軟件,2014,31(6):267-270.
[19] 蔣華,武堯,王鑫,等.改進(jìn)K均值聚類的海洋數(shù)據(jù)異常檢測算法研究[J].計算機(jī)科學(xué),2019,46(7):211-216.
[20] 蔣齊嘉,蔣中明,唐棟,等.基于SSA-DBSCAN的邊坡安全監(jiān)測數(shù)據(jù)粗差探測方法[J].長江科學(xué)院院報,2022,39(4):85-90,98.
[21] 申秋萍,張清華,高滿,等.基于局部半徑的三支DBSCAN算法[J].計算機(jī)科學(xué),2023,50(6):100-108.
[22] 郭莉,吳晨,薛貴元.基于DBSCAN聚類的熱能發(fā)電大數(shù)據(jù)異常檢測模型[J].工業(yè)加熱,2023,52(1):35-38,48.
(編輯:胡旭東)
Detection of abnormal values in dam safety monitoring data based on LV-DBSCAN algorithm
DAI Ling1,LI Shaolin2,LIU Guangbiao2,JI Chuanbo2,DUAN Guoxue2
(1.CISPDR Corporation,Wuhan 430010,China; 2.Changjiang Survey,Planning,Design and Research Co.,Ltd.,Wuhan 430010,China)
Abstract:
There are often abnormal measurements in the original observation sequence of dam safety monitoring,which greatly affects the reliability and accuracy of dam safety monitoring data analysis.Therefore,based on the analysis of the abnormal values characteristics and the advantages and disadvantages of traditional anomaly detection methods,this paper studied the detection methods of abnormal values in monitoring data from the local and overall perspectives.Firstly,aiming at the defects of multiple local anomaly coefficient methods requiring data with long sequence and equal time interval,a local change anomaly coefficient method(LV)and a collaborative discrimination strategy of local method and overall method were proposed.Furthermore,the density clustering algorithm(DBSCAN)was introduced,and a LV-DBSCAN anomaly detection method considering the overall and local characteristics of the data was proposed.Taking the downstream displacement monitoring data of two vertical measuring points of a concrete gravity dam as an example,the detection accuracy of different methods on different types of data sets was compared and analyzed.The results showed that the LV-DBSCAN method proposed in this paper has wider applicability,higher accuracy and lower misjudgment rate.
Key words:
dam safety monitoring;abnormal value;local change anomaly coefficient method;density clustering algorithm;confidence degree