周梁琦 章權(quán) 魏莉
摘要:隨著物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)等信息產(chǎn)業(yè)的不斷進步,數(shù)據(jù)規(guī)模越來越大、處理難度也逐漸加大。而海量的數(shù)據(jù)中,異常數(shù)據(jù)會干擾后續(xù)的挖掘、預(yù)測與分析。因此,有必要對異常數(shù)據(jù)進行檢測,提高數(shù)據(jù)的準確性。但由于數(shù)據(jù)量過大,大數(shù)據(jù)常常不具備明顯的分布特征,然而對非典型特征的數(shù)據(jù)進行建模是一個挑戰(zhàn),因為推理會變得更加困難。以空氣質(zhì)量大數(shù)據(jù)為例,研究了如何將不具備明顯分布特征的大數(shù)據(jù),利用獨立的高斯分布混合分布描述此類數(shù)據(jù)。在前期研究的高斯混合模型+神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上優(yōu)化了均值和協(xié)方差的選取,使得結(jié)果更加準確。這對于異常數(shù)據(jù)檢測具有重要意義,更大程度地提高檢測的準確性。
關(guān)鍵詞:異常值檢測;貝葉斯聚類算法;高斯混合模型;神經(jīng)網(wǎng)絡(luò);模型融合
中圖分類號:TP3-05 文獻標識碼:A
文章編號:1009-3044(2020)01-0207-03
1概述
隨著物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)等信息產(chǎn)業(yè)的不斷進步,數(shù)據(jù)發(fā)生了“大爆炸”。人們將這種海量數(shù)據(jù)稱之為“大數(shù)據(jù)”,數(shù)據(jù)規(guī)模越大、處理難度越大,但如果能夠有效地組織和使用大數(shù)據(jù),對其進行科學(xué)的挖掘,產(chǎn)生的價值將會更大。而海量的數(shù)據(jù)中,異常數(shù)據(jù)會干擾后續(xù)的挖掘、預(yù)測與分析。因此,有必要對異常數(shù)據(jù)進行檢測,提高數(shù)據(jù)的準確性。
空氣質(zhì)量數(shù)據(jù)在實際監(jiān)測過程中,由于樣品的采集、分析和采樣地點的偶發(fā)事件、各種環(huán)境要素本身的時空變化以及本身的數(shù)據(jù)特點等一系列因素的影響,導(dǎo)致數(shù)據(jù)常常不具備明顯的分布特征。所以本文以空氣質(zhì)量大數(shù)據(jù)為例,提出一種基于貝葉斯優(yōu)化的聚類模型。
2研究現(xiàn)狀
在大數(shù)據(jù)下,人們產(chǎn)生的數(shù)據(jù)量激增,為人們分析利用數(shù)據(jù)提供了大而廣的數(shù)據(jù)來源,然而這些數(shù)據(jù)往往呈現(xiàn)結(jié)構(gòu)復(fù)雜、噪聲多等特性,傳統(tǒng)的數(shù)據(jù)異常值檢測方法已經(jīng)難以進行有效的數(shù)據(jù)分析,這已成為人們深度挖掘大數(shù)據(jù)潛在價值的阻礙。
現(xiàn)有方法對具有非典型特征的大數(shù)據(jù)異常值檢測,在實際應(yīng)用中往往出現(xiàn)效率低或準確性差等問題。如何提高大數(shù)據(jù)異常值檢測的效率和準確性,對數(shù)據(jù)挖掘、數(shù)據(jù)分析以及預(yù)測具有重要意義。異常值檢測最先是在統(tǒng)計學(xué)方向出現(xiàn)的,接著,Knorr等將其應(yīng)用到了數(shù)據(jù)挖掘領(lǐng)域中。
對于已有的異常值檢測方法基本能夠按下面的標準分成三大類別:
以數(shù)據(jù)的分布為基礎(chǔ)來檢測離群值,這個方法一開始就以所已知的數(shù)據(jù)滿足一個已有的概率模型或者概率分布,接著按照數(shù)據(jù)點與假定的分布中的點是否一致來檢測異常值。但是由于實際中的數(shù)據(jù)很難準確得到其概率分布,因此這種方法在應(yīng)用上有比較大的局限。
以數(shù)據(jù)間的距離為基礎(chǔ)來檢測離群值,這個方法一開始是由Knott與Ng一起提出,他們認為,若是一個數(shù)據(jù)與集合里的絕大部分數(shù)據(jù)間的距離都比之前設(shè)定的閾值大,那么它便是一個異常數(shù)據(jù)。該方法的不足的地方就是比較難確定基準值和距離。
以數(shù)據(jù)密度為依據(jù)來檢測離群值,這個方法最早被Breunig提出來,通過衡量一個對象與它周圍對象的無關(guān)程度來判斷是否為離群點。該方法能夠探測到包括基于距離方法探測不到的所有異常值,但它仍有一些問題,比如方法中涉及的參數(shù)確定問題。
為了彌補異常值檢測算法的不足,后來的很多學(xué)者發(fā)展了很多不一樣的算法來改善異常值算法。姜立明[4]等人利用聚類算法來對模糊集的進行降維和對單元格邊長選擇了加權(quán)處理,運用了一種基于單元格的離群值挖掘方法,該算法對高維數(shù)據(jù)具有良好的延展性,可是還是要人為設(shè)定參數(shù)。曾穎等人通過對數(shù)據(jù)流進行聚類算法來減少數(shù)據(jù)量,對聚類之后的數(shù)據(jù)采用凝聚聚類算法檢測異常值。胡云等人利用了粗糙理論來分析異常數(shù)據(jù),進行異常數(shù)據(jù)的檢測,并使用了一種新的方法,該方法充分采用屬性歸約技術(shù)來去除多余屬性,并通過對以近鄰為基礎(chǔ)的異常加權(quán)因子的計算,來最終判斷異常數(shù)據(jù)的集合。徐衡分別研究了寶雞市空氣質(zhì)量于氣象因素之間的關(guān)系,并分別建立了回歸方程,并提出了相應(yīng)的空氣治理辦法及措施。沈勁等人對廣東省順德區(qū)進行空氣質(zhì)量分析,并建立了基于氣象因子聚類和多遠回歸的方程來預(yù)測空氣污染物濃度。
雖然已有一些學(xué)者從不同方面對大數(shù)據(jù)的異常值檢測方法進行了研究,但是由于大數(shù)據(jù)的復(fù)雜性,使得模型需要設(shè)置大量參數(shù)并且參數(shù)難以確定。
針對大數(shù)據(jù)異常值檢測,以空氣質(zhì)量大數(shù)據(jù)為例,研究空氣質(zhì)量數(shù)據(jù)下異常值檢測的特點,綜合分析各種方法的優(yōu)劣,擬使用貝葉斯及神經(jīng)網(wǎng)絡(luò)的方法進行聚類及優(yōu)化,提高異常值檢測的準確性和效率。
3模型及方法
3.1數(shù)據(jù)分析
本文使用我國某一城市2014-2018年度空氣PM2.5一天24小時監(jiān)測的污染數(shù)據(jù)。在本次研究中,相關(guān)PM2.5數(shù)據(jù)來源于大數(shù)據(jù)網(wǎng)站。數(shù)據(jù)分布如圖1所示,可以看出數(shù)據(jù)大致集中在7到8個區(qū)域。
通過對數(shù)據(jù)的大致分析,本文選取混合高斯模型作為基礎(chǔ)模型對數(shù)據(jù)進行異常值的處理。
3.2貝葉斯混合高斯模型
本文所采用混合高斯模型,其目的是利用數(shù)據(jù)的密度進行初步聚類,使得數(shù)據(jù)體現(xiàn)出明顯的分布特征,以便于后續(xù)對數(shù)據(jù)進行合理聚類,剔除其中的可疑或不合理的數(shù)據(jù),使被監(jiān)測的空氣質(zhì)量狀況能夠得到真實反映。
此模型中由于對均值和協(xié)方差的計算會花費大量的時間、費用,因此,在優(yōu)化時通常希望在少量代價下得到滿意解,貝葉斯優(yōu)化側(cè)重于減少評估代價,保證其能夠僅經(jīng)過少數(shù)次目標函數(shù)評估即可得到近優(yōu)解。在最優(yōu)化采集函數(shù)的前提下,貝葉斯優(yōu)化能夠在理論上保證最終收斂。這是因為迭代過程中每次迭代都采樣最有“潛力”的點進行評估,只要保證足量的迭代次數(shù),算法最終一定會收斂到全局最優(yōu)解。
3.3基于cNN的空氣質(zhì)量數(shù)據(jù)異常檢測模型
由于氣候數(shù)據(jù)之間存在明顯的關(guān)聯(lián)性,因此不能從單一方面說明某個數(shù)據(jù)是異常值,必須建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。BP神經(jīng)網(wǎng)絡(luò)算法具有強大的非線性映射,但是在樣本數(shù)量大、復(fù)雜性高等情況下存在訓(xùn)練速度慢、誤差大和時間復(fù)雜度高等缺點。貝葉斯聚類能夠?qū)?shù)據(jù)進行模塊化分類,將高相似度數(shù)據(jù)聚集在數(shù)據(jù)集中,并且不同數(shù)據(jù)集之間差異較大,為了彌補BP神經(jīng)網(wǎng)絡(luò)算法的缺點,將聚類后的數(shù)據(jù)集作為訓(xùn)練樣本。結(jié)合上述兩種算法,能夠取長補短,避免單獨應(yīng)用一種算法的局限性,更好地改善訓(xùn)練質(zhì)量。
BP神經(jīng)網(wǎng)絡(luò)由輸入層、若干個隱層和輸出層組成,層與層之間是全連接的,每一個連接弧連接兩個神經(jīng)元,并賦有權(quán)值作為前一層神經(jīng)元對后一層神經(jīng)元的影響程度,每一層內(nèi)部的任意兩個節(jié)點都是互不相連。它的學(xué)習(xí)規(guī)則是使用最速下降法,通過方向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值。
3.4融合模型整體結(jié)構(gòu)
針對空氣質(zhì)量數(shù)據(jù),將混合高斯模型和神經(jīng)網(wǎng)絡(luò)融合。首先,對空氣質(zhì)量數(shù)據(jù)進行聚類處理,然后將聚類后數(shù)據(jù)集作為BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本。通過比較網(wǎng)絡(luò)的輸出值和真實值實現(xiàn)數(shù)據(jù)的異常檢測,達到目的,總體設(shè)計模型如圖3所示。
4實驗仿真
將空氣質(zhì)量大數(shù)據(jù)放入模型中訓(xùn)練,得到訓(xùn)練后的數(shù)據(jù)特征。如圖4均值分布情況所示,這里均值分布等同于之后神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練時簇的個數(shù)。
單一的神經(jīng)網(wǎng)絡(luò)與貝葉斯高斯混合模型的效果進行比較,結(jié)果如圖5所示。圖中藍色的線是神經(jīng)網(wǎng)絡(luò)的正確率,黃的線是貝葉斯高斯混合模型+神經(jīng)網(wǎng)絡(luò)的正確率。
5結(jié)論
為了解決大數(shù)據(jù)中異常數(shù)據(jù)的影響,提出了一種貝葉斯優(yōu)化的異常值檢測模型。通過貝葉斯推理,對混合高斯模型中均值及協(xié)方差的選取進行了優(yōu)化,降低了模型的使用難度及成本;同時本方法相對于單個模型提升了準確率,加快了收斂速度,得到了更好的檢測效果。但cNN模型的構(gòu)建是一個耗時的工程,如果能更快地確定參數(shù),將大大降低成本,提高效率,這將是未來的優(yōu)化方向。