朱秀莉,顧洪博,楊冬黎
(東北石油大學計算機與信息技術學院,黑龍江大慶163318)
孤立點檢測是數據挖掘領域中一個重要的研究方向。其任務是發(fā)現數據集中明顯不同于其他數據的對象。孤立點的應用主要有信用卡與保險欺詐、入侵檢測、氣象預報、病例分析與診斷等[1]。孤立點檢測一般包括:孤立點的定義、尋找孤立點?,F有的孤立點算法根據孤立點定義的角度不同,分為基于統(tǒng)計的、基于距離的、基于密度的、基于深度的和基于偏離的算法[2]。煤礦安全預警系統(tǒng)需要從不完整的、模糊的、隨機的大量數據中,挖掘有用的信息和知識,直觀表征采煤區(qū)域的總體狀況,為煤礦安全生產提供可靠依據[3]。本文采用孤立點檢測的方法對瓦斯?jié)舛鹊漠惓祿M行處理,保證預警的準確性。
基于統(tǒng)計的孤立點檢測算法主要思想是假定數據集服從某種分布或概率模型,通過不一致檢驗把那些嚴重偏離分布曲線的數據視為孤立點[4]。從已知值的分布找出統(tǒng)計參數,如均值和方差,再根據統(tǒng)計參數和孤立點期望數目建立閾值。閾值之外的可能是孤立點,如:閾值=均值± 2×標準差。
若已知數據集的概率分布(如正態(tài)分布,均值)時,用基于統(tǒng)計的方法。此方法主要局限在科研計算領域,它適用于數值型數據,而不適用于高維、分類數據的挖掘。
1998年,Konr提出基于距離的孤立點檢測算法[5],2000年Ng進行了更新[6],因此孤立點的定義是:數據集D中,至少有p部分對象與對象O的距離大于d,那么對象O就是一個帶參數p和d的基于距離的孤立點,記為DB(p,d)。
此方法使用全局閾值故不能處理具有不同密度的數據集。此外,算法需要事先確定參數pct和dmin,這是比較困難的。對于給定的不同參數dmin,檢測結果通常具有很大的波動性。后來又提出基于距離和[7]、基于屬性距離和[8]的孤立點檢測算法。
密度常用鄰近度是指任意一點和p點距離小于給定半徑r的鄰域空間內的數據點的個數。一般定義是點到其 k近鄰的平均距離,平均距離小則密度小?;诿芏鹊墓铝Ⅻc檢測,就是探測局部密度,認為孤立點是在低密度區(qū)域中的對象。經典的基于密度的孤立點檢測算法是LOF算法[9]
基于密度的方法,給出了對象是孤立點程度的定量度量,并且即使數據具有不同密度的區(qū)域也能很好地處理。但這些方法必然具有O(n2)的時間復雜度,其參數選擇也是困難的。最近又提出基于平均密度[10]的和基于K-距離[11]的孤立點檢測算法。
總之,現有的孤立點檢測算法能夠檢測出孤立點,但也存在局限性。主要是:高維數據孤立點檢測的算法效率的下降、最近鄰概念的失效、對背景知識的依賴較多。
針對孤立點檢測算法的一些弊端,采用一個基于距離和(Distance Sum,DS)的孤立點檢測算法。首先計算數據集中對象兩兩間的距離,然后計算每個對象與其它對象的距離之和,計算所有對象的距離和均值H,則距離之和大于H的對象即為部分孤立點。
從定義1可以看出,所有對象的距離和組成一個主對角線為0的對稱矩陣。
定義3孤立點數據集D中,若對象xi(維數為d)的偏離度D(i)>0,則稱對象 xi就是一個帶參數si和d的基于距離的孤立點,記為DB(si,d)。
1)對原始數據集進行標準化后,計算n個對象兩兩之間的距離,并計算出每個對象的偏離度。
2)若對象xi滿足定義3,則稱對象xi是孤立點。
3)對檢測出的孤立點進行分析。
瓦斯檢測對精度要求不高,但對其可靠性要求非常高。能夠連續(xù)檢測,并在設定的百分比濃度點準確報警。由于井下環(huán)境復雜,存在著各種干擾源,傳感器輸出的信號極易受到污染。因此,經常會出現瓦斯異常數,但實際值并不高。系統(tǒng)計算機根本無辦法識別這些干擾信號,系統(tǒng)頻頻發(fā)生誤報警。一旦報警,井下電源就自動切斷,生產停止。據統(tǒng)計,誤報警高達70%,正常生產因為頻繁的誤報警而受到很大影響,給企業(yè)造成很大的損失[12]。
難以克服的“大數污染”問題普遍存在于目前使用的各種系統(tǒng)中。采用孤立點檢測的方法對瓦斯?jié)舛鹊臄祿M行處理,防止誤報警,保證報警的準確性。
本實驗所用數據為8個礦井某天瓦斯?jié)舛葦祿?其中包含瓦斯涌出以及異常數據。每個傳感器采集到400多個數據,共搜集了3 000多個數據。瓦斯正常濃度在0~l%之間。為了便于實驗,將獲得的數據進行了標準化處理(各乘100)得到一個樣本集。其中部分數據如表1。
依照定義1,可以計算出每個礦井的各個距離和數據,如表2。
表1 標準化后的部分數據Tab.1 Partial database after standardization
表2 各個礦井的距離和Tab.2 The distance sum of each mines
依據定義2,得到每個對象的偏離度,如表3。
表3 各個礦井的偏離度Tab.3 The distance deviation of each mines
依據定義3,從表3中可以看出,井號A、D、H為孤立點。
根據瓦斯檢測數據,采用基于聚類的孤立點分析,大致得到3類孤立點。
瓦斯?jié)舛冗h遠大于其它時段的濃度。這其實是一種噪聲數據。一般由于井下機電設備啟停時發(fā)出的電磁干擾造成的,或者井下監(jiān)控設備所接的電網的強烈電磁干擾。強干擾脈沖能在瞬間完全淹沒傳感器信號,結果就造成了“大數”異?,F象。頻繁的電磁啟動脈沖與信號疊加后更會造成嚴重的“大數”干擾。對這類數據可以不予考慮。
表4 噪聲數據Tab.4 The data of noisy
瓦斯?jié)舛扔休^少次高于其它時段的濃度。且這類數據變化幅度不大。這種數據的來源是因為監(jiān)控系統(tǒng)傳感器信號抗干擾能力很差,遇有線路接觸不良或電磁干擾就會造成假象信號。如傳感器插頭氧化、電纜接線盒松動、信號接觸不良等造成隨機出現的異?,F象。
表5 設備異常孤立點數據Tab.5 The outliers based in the abnormal equipment
瓦斯?jié)舛扔休^多次高于其它時段的濃度。其高的次數越來越多,可以考慮這是瓦斯突出,應報警斷電。
表6 瓦斯突出孤立點數據Tab.6 The abnormity data of gas concentration
瓦斯突出是指隨著煤礦開采深度的增加、瓦斯含量的增加,在煤層中形成了在地應力作用下,瓦斯釋放的引力作用下,使軟弱煤層突破抵抗線,瞬間釋放大量瓦斯和煤而造成的一種地質災害。
本文中采用的孤立點檢測方法對煤礦井瓦斯監(jiān)測數據處理,濾除大數干擾,保證正確的報警。將孤立點技術用在煤礦安全監(jiān)測中,提高了數據分析的效率,以有效地挖掘出事故的隱患,這在保證煤礦的安全生產上有一定的價值。
[1]牛琨.聚類分析中若干關鍵技術及其在電信領域的應用研究[D].北京:北京郵電大學,2007.
[2]楊蘭倉.數據挖掘中聚類和孤立點檢測算法的研究[D].濟南:山東大學,2008.
[3]蔡曉明.基于地理信息系統(tǒng)的煤礦瓦斯突出預測研究[D].昆明:昆明理工大學,2006.
[4]楊永銘,王吉吉.孤立點挖掘算法研究[J].計算機與數字工程,2008(1):11-15.
[5]KNORR E,NG R.Algorithms for mining distance-based outliers in large datasets[C].Proc of the VLDB Conf,1998:392-403.
[6]KNORR E M,NG R T,TUCAKOV V.Distance-based outliers:algorithms and applications[J].VLDB Journal:Very Large Databases,2000,8(3-4):237-253.
[7]陸聲鏈,林士敏.基于距離的孤立點檢測研究[J].計算機工程與應用,2004,40(33):73-75.
[8]張忠平,宋少英,宋曉輝.ISAD:一種新的基于屬性距離和的孤立點檢測算法[J].計算機工程與科學, 2009,31(3):83-85.
[9]BREUNIG M M,KRIEGEL H P,NG R T,et al.LOF:identifying density-based local outliers[C].Proceedings of SIGMOD'00,Dallas,Texas,2000:427-438
[10]施化吉,周書勇,李星毅.基于平均密度的孤立點檢測研究[J].電子科技大學學報,2007,36(6):1286-1288.
[11]賈晨科.基于K-距離的孤立點和聚類算法研究[D].鄭州:鄭州大學,2006.
[12]肖仁鑫.煤礦安全預測的研究與集成[D].昆明:昆明理工大學,2006.