国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

考慮時間序列關聯(lián)的大壩監(jiān)測異常數(shù)據(jù)清洗

2020-07-16 08:18:50鄭霞忠陳國梁
水力發(fā)電 2020年4期
關鍵詞:置信度關聯(lián)性監(jiān)測數(shù)據(jù)

鄭霞忠,陳國梁,鄒 韜

(三峽大學水利與環(huán)境學院,湖北 宜昌 443002 )

0 引 言

通過分析大壩安全監(jiān)測數(shù)據(jù),評估大壩安全性態(tài),是減少大壩運行風險的重要手段。在監(jiān)測數(shù)據(jù)采集過程中,受人為因素、作用環(huán)境以及儀器故障等影響,監(jiān)測數(shù)據(jù)中不可避免地存在數(shù)據(jù)異常問題,其中異常數(shù)據(jù)中粗差的識別與剔除關系到后期大壩安全評估的可靠性。

目前,消減大壩監(jiān)測數(shù)據(jù)異常值的方法主要從兩條途徑展開:一是基于假設檢驗辨識異常數(shù)值。該類方法假設監(jiān)測數(shù)據(jù)中存在異常值,通過均值漂移模型重構(gòu)監(jiān)測數(shù)據(jù),并計算其與歷史數(shù)據(jù)間的粗差估計,但受異常值位置的不確定性和最小二乘法的均攤效應影響,數(shù)據(jù)的整體質(zhì)量無法保證[1-2]。二是抗差估計,通過構(gòu)造估值方法控制監(jiān)測數(shù)據(jù)與估計值的偏離程度。但該方法普遍存在時效性較差和算法復雜等缺點,不適用于識別由時效性引起的大壩安全監(jiān)測異常數(shù)據(jù)[3- 4];并且傳統(tǒng)異常數(shù)據(jù)清洗方法均是針對單一數(shù)據(jù)類型,分析數(shù)據(jù)中的異常值,且過度依賴單一數(shù)據(jù)變化過程中的突變平滑關系[5],難以甄別異常值是由環(huán)境突變還是粗差引起,而由環(huán)境突變引起的異常數(shù)據(jù)是大壩工作狀態(tài)的真實反映,不需要進行剔除[6-7]。

考慮到在大壩安全監(jiān)測過程中,大壩監(jiān)測的效應量(變形、應力、滲流等)與致因因子(水位、壩體溫度等)間常存在明顯關聯(lián)性[8],可利用這些關聯(lián)性約束,提高大壩安全監(jiān)測數(shù)據(jù)中異常值清洗的準確性。為此,本文提出了一種考慮監(jiān)測序列間關聯(lián)性的數(shù)據(jù)清洗方法,即通過Apriori算法分析監(jiān)測序列間的關聯(lián)性,篩選強關聯(lián)性監(jiān)測序列,結(jié)合DBSCAN算法識別異常數(shù)據(jù),根據(jù)清洗規(guī)則分析辨識異常數(shù)據(jù)中的粗差,利用粒子群算法(PSO)優(yōu)化最小二乘支持向量機(LSSVM)數(shù)據(jù)擬合過程,重構(gòu)異常數(shù)據(jù),從而實現(xiàn)對異常數(shù)據(jù)的準確清洗。

1 基于關聯(lián)規(guī)則的監(jiān)測序列關聯(lián)性分析

1.1 關聯(lián)規(guī)則原理

關聯(lián)規(guī)則(Association Rules)是數(shù)據(jù)挖掘技術(shù)中常用的算法,主要用于分析數(shù)據(jù)間的關聯(lián)性。根據(jù)關聯(lián)規(guī)則的相關定義[9-10],羅列其中重要概念如下:

(1)事務數(shù)據(jù)庫。即子集事務的集合,記作C,事務數(shù)據(jù)庫中子集事務總數(shù)記作|C|。

(2)關聯(lián)規(guī)則。若項集存在A?C,B?C,且A∩B≠?的關系,則表明A→B存在關聯(lián)信息,A、B項集為關聯(lián)規(guī)則中的先導和后繼。

(3)支持度。關聯(lián)規(guī)則A→B中A∪B項集組合在事務數(shù)據(jù)庫C中同時出現(xiàn)的概率,記作Psupport(A→B)。ncount(A∪B)為A∪B在事務數(shù)據(jù)庫C中出現(xiàn)的個數(shù),其數(shù)學表達式為

(1)

(4)頻繁項集。若關聯(lián)規(guī)則的支持度滿足最小支持度要求,則該關聯(lián)規(guī)則中的項集為頻繁項集。

(5)置信度。在包含項集的子集事務中,同時出現(xiàn)項集B的概率,即項集A發(fā)生條件下,項集B的條件概率,其數(shù)學表達式為

(2)

(6)序列關聯(lián)度和置信度。為分析監(jiān)測序列間的關聯(lián)性,基于關聯(lián)規(guī)則的分析原理,本文定義監(jiān)測序列關聯(lián)度和置信度數(shù)學表達式。對于監(jiān)測序列A和B,若它們之間蘊含有關聯(lián)規(guī)則,且其中存在n條關聯(lián)規(guī)則Xi→Yi滿足最小支持度要求,則關聯(lián)度和置信度表達式分別為

(3)

(4)

監(jiān)測序列關聯(lián)性分析過程中,關聯(lián)度越高,則表明序列間關聯(lián)性越強;為分析序列關聯(lián)性的可信度,引入置信度概念衡量關聯(lián)規(guī)則可信程度,監(jiān)測序列的置信度趨近1,表明關聯(lián)規(guī)則具有較高的可信度。若監(jiān)測序列的關聯(lián)規(guī)則中的支持度和置信度均滿足最小閾值0.5的參數(shù)要求,則稱該組序列為強關聯(lián)性序列;否則認為序列間關聯(lián)性較弱或不存在關聯(lián)。

1.2 監(jiān)測序列符號化及關聯(lián)分析流程

為滿足關聯(lián)分析中Apriori算法運算要求,需要對監(jiān)測序列進行符號化處理。首先,使用滑動窗口L對原始監(jiān)測序列截取子序列;然后,對子序列進行線性擬合,并對線性方程的斜率值進行標準化處理,使其均處于[-1,1]區(qū)間內(nèi);最后,依據(jù)符號轉(zhuǎn)換規(guī)則,對子序列進行符號化處理,符號轉(zhuǎn)換規(guī)則如表1所示。

表1 序列符號化表示

符號化處理后的監(jiān)測序列運用Apriori算法計算其支持度和置信度,根據(jù)參數(shù)閾值要求,篩選頻繁項集并計算序列關聯(lián)度與置信度,最終輸出強關聯(lián)性的監(jiān)測序列。監(jiān)測序列關聯(lián)性分析流程如下:①根據(jù)滑動窗口長度截取子序列,并進行符號化處理。②利用Apriori算法選取關聯(lián)規(guī)則中的頻繁項集。③利用式(3)、(4)計算序列間的關聯(lián)度及置信度,輸出強關聯(lián)性的監(jiān)測序列。

1.3 監(jiān)測序列關聯(lián)性分析實例

選取某拱壩15號壩段垂線監(jiān)測徑向位移和上游水位過程線的歷史數(shù)據(jù),數(shù)據(jù)采集從2013年5月4日開始至2018年6月10日截止,圖1為原始監(jiān)測數(shù)據(jù)圖像;數(shù)據(jù)樣本長度為Ldata=890,設置滑動窗口L=10,得到89個子序列;根據(jù)符號轉(zhuǎn)換規(guī)則對序列進行符號化處理,利用Apriori算法進行關聯(lián)性計算,結(jié)果見表2。

由表2可知,15號壩段垂線測點的徑向位移監(jiān)測序列和上游水位序列間關聯(lián)度和置信度均滿足最小閾值0.5的要求,徑向位移監(jiān)測序列和上游水位序列間存在強關聯(lián)性,與圖1中序列監(jiān)測直觀結(jié)果一致,在后續(xù)監(jiān)測異常數(shù)據(jù)處理中可結(jié)合序列間的關聯(lián)性進一步分析。

圖1 上游水位和15號壩段徑向位移過程線

表2 上游水位和15號壩段徑向位移關聯(lián)性結(jié)果

壩段測點關聯(lián)度置信度IP15-10.6140.614IP15-20.7500.830IP15-30.7610.835IP15-40.8860.853IP15-50.8070.730

2 大壩監(jiān)測數(shù)據(jù)異常檢測和數(shù)據(jù)清洗

2.1 數(shù)據(jù)異常值檢測

監(jiān)測過程中的異常數(shù)據(jù)與正常數(shù)據(jù)間存在一定的相異程度,在空間中表現(xiàn)為不同形狀的簇群。為剔除大壩安全監(jiān)測數(shù)據(jù)中的異常數(shù)據(jù),使用基于密度聚類的DBSCAN算法識別序列中異常數(shù)據(jù)。該算法在數(shù)據(jù)聚類過程中具有良好的抗噪性能,能夠在多維空間數(shù)據(jù)中克服噪聲影響,并識別出任意形狀的相似簇群[11]。DBSCAN算法檢測時間序列的異常值流程如下:①在數(shù)據(jù)庫中隨機選取一數(shù)據(jù)點;②檢查數(shù)據(jù)點是否為核心對象,若是以該點為核心,形成簇群;③否則標記該點為噪聲點,重新尋找(跳轉(zhuǎn)步驟1)。

2.2 大壩監(jiān)測序列數(shù)據(jù)清洗流程及規(guī)則

數(shù)據(jù)清洗是對序列中的異常值點進行剔除和重構(gòu),根據(jù)產(chǎn)生異常點的原因,異常點可以歸納為傳感數(shù)據(jù)異常和大壩狀態(tài)異常兩類。傳感數(shù)據(jù)異常指在數(shù)據(jù)在采集、傳輸過程出現(xiàn)誤差,導致數(shù)據(jù)異常,該類異常數(shù)據(jù)屬于數(shù)據(jù)監(jiān)測過程的粗差,必須對其進行剔除和重構(gòu),以實現(xiàn)數(shù)據(jù)清洗目的;大壩狀態(tài)異常指的是環(huán)境突變等原因使得大壩工作狀態(tài)出現(xiàn)異常,在監(jiān)測數(shù)據(jù)中表現(xiàn)為監(jiān)測效應量出現(xiàn)突變或極值,該類異常點數(shù)據(jù)反映了大壩的異常工作性態(tài),數(shù)據(jù)清洗過程中需將其識別出來,并對大壩安全性態(tài)進行分析。

大壩監(jiān)測數(shù)據(jù)清洗流程及規(guī)則如下:

(1)使用Apriori算法分析大壩監(jiān)測效應量間的關聯(lián)規(guī)則及關聯(lián)程度。

(2)對弱關聯(lián)性的效應量利用DBSCAN算法識別異常點,跳轉(zhuǎn)步驟4對異常數(shù)據(jù)進行重構(gòu)。

(3)對蘊含強關聯(lián)規(guī)則的監(jiān)測序列,利用DBSCAN算法進行異常數(shù)據(jù)識別,并對比分析兩組關聯(lián)序列中異常數(shù)據(jù)出現(xiàn)時刻。若檢測結(jié)果中異常數(shù)據(jù)位于兩組序列的相同時刻,則認為該點異常為環(huán)境變量引起與其相關聯(lián)的大壩監(jiān)測效應量的變化,屬于大壩狀態(tài)異常數(shù)據(jù)類型;當異常點單獨出現(xiàn)在個別序列的某一時刻,該類異常數(shù)據(jù)屬于傳感異常??紤]到當數(shù)據(jù)異常波動較小時,序列異常數(shù)據(jù)檢測過程中DBSCAN算法中可能會出現(xiàn)遺漏,利用PSO-LSSVM模型預測強關聯(lián)序列中的另一組序列數(shù)據(jù),分析關聯(lián)序列中是否出現(xiàn)異常數(shù)據(jù)檢測的遺漏項。若預測結(jié)果與采樣原數(shù)據(jù)間存在較大偏差,表明原始監(jiān)測數(shù)據(jù)在采集過程出現(xiàn)誤差,該數(shù)據(jù)點為異常數(shù)據(jù)識別的遺漏項,根據(jù)關聯(lián)序列中同時出現(xiàn)異常數(shù)據(jù)的判別規(guī)則,認為該異常點屬于大壩狀態(tài)異常數(shù)據(jù);若預測偏差較小,表明相關聯(lián)的一組序列并未出現(xiàn)異常數(shù)據(jù)檢測的遺漏項,異常數(shù)據(jù)單獨出現(xiàn)在序列中,最終甄別該異常點為傳感數(shù)據(jù)異常,需要對該數(shù)據(jù)進行清洗。

(4)利用PSO-LSSVM模型對序列進行預測,重構(gòu)異常數(shù)據(jù)。

2.3 基于PSO-LSSVM的數(shù)據(jù)異常值清洗

考慮到最小二乘支持向量機(LSSVM)在擬合非線性、大體量數(shù)據(jù)的優(yōu)勢[12-13],本文采用LSSVM模型對大壩監(jiān)測序列進行擬合,重構(gòu)異常數(shù)據(jù),實現(xiàn)數(shù)據(jù)的清洗。同時,為保證LSSVM模型和核函數(shù)中參數(shù)設置的客觀性,利用粒子群算法優(yōu)化參數(shù)計算。LSSVM模型中參數(shù)計算的目標函數(shù)為

(5)

式中,ω為權(quán)向量;θ為誤差向量;γ為懲罰因子,且γ>0。

考慮徑向基核函數(shù)常被用于處理非線性映射關系,將其作為LSSVM的核函數(shù)。

(6)

式中,ωi為Lagrango乘子;xi、xj為任意兩個樣本。

3 案例分析

3.1 無關聯(lián)監(jiān)測序列清洗案例分析

對15號壩段垂線測點PL15-3的切向位移監(jiān)測數(shù)據(jù)與上游水位數(shù)據(jù)進行關聯(lián)性分析,發(fā)現(xiàn)兩者間關聯(lián)程度較低,不存在強關聯(lián)規(guī)則。以15號壩段垂線測點PL15-3的切向位移監(jiān)測數(shù)據(jù)為例,進行無關聯(lián)性序列異常數(shù)據(jù)清洗。該測點切向位移監(jiān)測序列區(qū)間為2013年5月4日~2018年1月4日,樣本長度為813。為驗證本文模型的有效性,對原始數(shù)據(jù)人為加入異常,分別在第70~80數(shù)據(jù)點間添加高斯白噪聲,第340個數(shù)據(jù)點加入異常,第400個數(shù)據(jù)點剔除數(shù)據(jù),異?;幚砗笮蛄幸妶D2。

表3 異常點清洗結(jié)果

為驗證本文數(shù)據(jù)預測模型的準確性,針對第77個數(shù)據(jù)點,選取傳統(tǒng)BP神經(jīng)網(wǎng)絡模型、小波神經(jīng)網(wǎng)絡模型及支持向量機模型進行預測比較,其預測結(jié)果偏差分別為2.85%、3.58%、2.98%,均大于本文模型預測偏差,驗證了本文所提出模型的準確度。

3.2 強關聯(lián)性監(jiān)測序列清洗案例分析

1.3節(jié)中序列關聯(lián)性分析實例中已論證了15號壩段PL15- 4測點垂向位移監(jiān)測數(shù)據(jù)與上游水位序列間存在強關聯(lián)性,在本節(jié)中以這兩組監(jiān)測序列為案例,進行強關聯(lián)序列間的數(shù)據(jù)清洗。利用DBSCAN算法識別兩組監(jiān)測序列間的數(shù)據(jù)異常點和缺失點,若待清洗數(shù)據(jù)點為傳感數(shù)據(jù)異常,則利用基于PSO-LSSVM模型進行數(shù)據(jù)重構(gòu)。

(1)兩組關聯(lián)序列數(shù)據(jù)采集時間段均為2013年5月4日~2018年6月10日,采集間隔時均為2 d采集一次。利用算法同時對兩組序列進行異常數(shù)據(jù)檢測,發(fā)現(xiàn)在第76、107、411、512、536、619、744、887個數(shù)據(jù)點處兩組監(jiān)測序列同一時刻均出現(xiàn)異常數(shù)據(jù)。已知測點PL15- 4垂向位移監(jiān)測數(shù)據(jù)與上游水位序列間存在強關聯(lián)性,若在同一時刻出現(xiàn)異常數(shù)據(jù),根據(jù)清洗規(guī)則,認為該類數(shù)據(jù)是由環(huán)境發(fā)生較大變化時所引起大壩狀態(tài)變化,為大壩狀態(tài)異常數(shù)據(jù)。該類異常數(shù)據(jù)為大壩工作性態(tài)的真實反映,不需要進行清洗,必要時可發(fā)出監(jiān)測預警。

(2)第二類異常點為單獨出現(xiàn)在測點PL15- 4垂向位移監(jiān)測序列中的異常數(shù)據(jù)點。對第二類異常數(shù)據(jù)點進一步區(qū)分,判斷相關聯(lián)的序列在同一時刻的數(shù)據(jù)是否為異常數(shù)據(jù)遺漏項。根據(jù)關聯(lián)數(shù)據(jù)清洗流程,對關聯(lián)序列中的另一組數(shù)據(jù)上游水位進行預測,計算預測偏差。上游水位在第66、368、482數(shù)據(jù)點預測偏差分別為10.87%、3.94%、1.37%。第368、482數(shù)據(jù)點的預測偏差較小,表明上游原始監(jiān)測數(shù)據(jù)正常,非異常數(shù)據(jù)檢測的遺漏項,從而判斷測點PL15- 4垂向位移監(jiān)測序列在第368、482數(shù)據(jù)點的異常數(shù)據(jù)為傳感器異常,需要對其進行數(shù)據(jù)清洗;上游水位在第66個數(shù)據(jù)點預測偏差為10.87%,大于10%的誤差閾值,說明DBSCAN算法異常數(shù)據(jù)檢測過程中將其遺漏,該點數(shù)據(jù)應為上游水位傳感器異常數(shù)據(jù)。根據(jù)關聯(lián)序列異常數(shù)據(jù)判斷條件可知,認為測點PL15- 4垂向位移監(jiān)測序列在第66個數(shù)據(jù)點為大壩異常數(shù)據(jù),不需要進行數(shù)據(jù)清洗,應對該點大壩工作狀態(tài)進行進一步分析。

4 結(jié) 論

本文提出考慮監(jiān)測效應量間關聯(lián)性的異常數(shù)據(jù)清洗方法,并結(jié)合大壩典型位移監(jiān)測數(shù)據(jù)進行了實例分析,得到如下結(jié)論:

(1)考慮監(jiān)測異常數(shù)據(jù)中可能包含外界環(huán)境引起監(jiān)測效性量突變,結(jié)合異常數(shù)據(jù)成因,細分異常數(shù)據(jù)類型,過濾不需清洗大壩狀態(tài)異常數(shù)據(jù)。

(2)引入PSO計算LSSVM模型及核函數(shù)中相關參數(shù),克服參數(shù)設置的主觀性,與常用序列預測方法比較,PSO-LSSVM模型能進一步提高數(shù)據(jù)擬合精度。

(3)利用大壩安全監(jiān)測數(shù)據(jù)間的關聯(lián)性特點,將關聯(lián)規(guī)則結(jié)果運用到異常數(shù)據(jù)分析過程中,并結(jié)合PSO-LSSVM模型,提高了數(shù)據(jù)清洗的準確性。

猜你喜歡
置信度關聯(lián)性監(jiān)測數(shù)據(jù)
硼鋁復合材料硼含量置信度臨界安全分析研究
GSM-R接口監(jiān)測數(shù)據(jù)精確地理化方法及應用
正負關聯(lián)規(guī)則兩級置信度閾值設置方法
計算機應用(2018年5期)2018-07-25 07:41:26
四物湯有效成分的關聯(lián)性分析
中成藥(2017年3期)2017-05-17 06:09:05
如何準確認定排污行為和環(huán)境損害之間的關聯(lián)性
CRP檢測與新生兒感染的關聯(lián)性
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
GPS異常監(jiān)測數(shù)據(jù)的關聯(lián)負選擇分步識別算法
基于小波函數(shù)對GNSS監(jiān)測數(shù)據(jù)降噪的應用研究
變電站監(jiān)測數(shù)據(jù)采集系統(tǒng)
電測與儀表(2014年3期)2014-04-04 09:08:32
胶南市| 赤壁市| 平湖市| 都昌县| 敖汉旗| 北流市| 海门市| 吴堡县| 谷城县| 沁源县| 平乐县| 平山县| 新泰市| 鄂州市| 乐山市| 千阳县| 会东县| 堆龙德庆县| 西丰县| 延津县| 莆田市| 邵武市| 镇赉县| 渭源县| 元氏县| 永平县| 铜山县| 台北市| 昌江| 永泰县| 庄浪县| 德庆县| 隆尧县| 淄博市| 仪陇县| 陕西省| 观塘区| 济阳县| 四子王旗| 海城市| 临猗县|