国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于融合時空數(shù)據(jù)的車輛加油行為多視圖深度異常檢測框架

2019-12-23 07:19丁景全馬博李曉
計算機應(yīng)用 2019年11期
關(guān)鍵詞:數(shù)據(jù)融合深度學(xué)習(xí)

丁景全 馬博 李曉

摘 要:車輛加油時空數(shù)據(jù)多源異構(gòu)、關(guān)系復(fù)雜,現(xiàn)有成熟的異常檢測方法難以對時空離散的加油活動數(shù)據(jù)進行分析,因此提出基于融合時空數(shù)據(jù)的車輛加油行為多視圖深度異常檢測框架。首先基于統(tǒng)一概念模型(UCM)對靜態(tài)信息和動態(tài)活動數(shù)據(jù)進行關(guān)聯(lián)融合管理,然后從空間視圖、時間視圖和語義視圖角度對時空數(shù)據(jù)進行編碼和轉(zhuǎn)換,最后基于三種視圖構(gòu)建深度時空異常分析檢測框架。車輛加油時空數(shù)據(jù)集上的實驗結(jié)果表明,多種異常檢測方法在融合時空數(shù)據(jù)上均可取得更低均方根誤差(RMSE),平均降低10.73%,所提方法比現(xiàn)有主流方法中結(jié)果最好的長短時記憶網(wǎng)絡(luò)(LSTM)的RMSE降低19.36%。在信用卡欺詐公開數(shù)據(jù)集上的實驗結(jié)果表明,所提方法較之邏輯回歸模型,馬修斯系數(shù)(MCC)提高了32.78%。以上實驗驗證了所提方法的有效性。

關(guān)鍵詞:時空數(shù)據(jù);車輛加油;數(shù)據(jù)融合;異常檢測;深度學(xué)習(xí)

中圖分類號:TP391.4

文獻標志碼:A

Multiview deep anomaly detection framework for

vehicle refueling behaviors based on spatiotemporal data fusion

DING Jingquan1,2, MA Bo1,2,3*, LI Xiao1,2,3

1.The Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Sciences, Urumqi Xinjiang 830011, China;

2.University of Chinese Academy of Sciences, Beijing 100049, China;

3.Xinjiang Laboratory of Minority Speech and Language Information Processing, Urumqi Xinjiang 830011, China

Abstract:

The multisource heterogeneity and complicated relationships of spatiotemporal data of vehicle refueling bring great challenges to existing anomaly detection approaches. Aiming at the problem, a multiview deep anomaly detection framework for vehicle refueling based on spatiotemporal data fusion was proposed. Firstly, the static information and dynamic activity data were correlated, fused and managed based on Unified Conceptual Model (UCM). Secondly, the spatiotemporal data were encoded and converted according to spatial view, temporal view and semantic view. Finally, a deep anomaly detection framework was constructed based on the above multiviews. The experimental results on vehicle refueling spatiotemporal dataset show that all anomaly detection approaches tested can achieve an average decrease in the Root Mean Square Error (RMSE) by 10.73%, and the proposed multiview spatiotemporal anomaly detection framework can obtain a decrease in the RMSE by 19.36% compared to LSTM (Long ShortTerm Memory), which gets the best results in thestateoftheart methods. And the Matthews Correlation Coefficient (MCC) of the proposed method on the credit card fraud dataset is increased by 32.78% compared with that of Logistic Regression model. All experimental results demonstrate the effectiveness of the proposed anomaly detection framework.

Key words:

spatiotemporal data; vehicle refueling; data fusion; anomaly detection; deep learning

0?引言

異常檢測是指從數(shù)據(jù)中找出不符合期望預(yù)期模式的問題,這些不相容的模式在不同的應(yīng)用領(lǐng)域中有著差異性的稱呼,如:異常(Anomalies)、離群點(Outliers)、不一致觀察(Discordant observations)、例外(Exceptions)、偏差(Aberrations)等,其中,異常和離群點使用最為廣泛,有時也可交替使用[1]。異常檢測在真實場景下有著廣泛的應(yīng)用,如金融領(lǐng)域的欺詐檢測、網(wǎng)絡(luò)安全中的入侵檢測、工業(yè)生產(chǎn)領(lǐng)域的缺陷檢測、動態(tài)網(wǎng)絡(luò)中的事件檢測以及視頻中的活動監(jiān)控等[2-8]。

時空異常檢測屬于異常檢測的子領(lǐng)域,目的是從一個連續(xù)時空范圍內(nèi)的活動中,挖掘出不符合期望預(yù)期的各種模式。與單純的時間序列異常檢測不同,除了考慮時間的周期性和趨勢線之外,還需將空間的距離和空間的層次放在同一個框架內(nèi)進行度量和計算。

具體到加油領(lǐng)域,時空異常是指在一定地域范圍內(nèi)不間斷的加油活動中,偶發(fā)的、可疑的、不同于常規(guī)規(guī)律的可能對安全穩(wěn)定造成潛在威脅的加油行為。如同一輛車在短時間內(nèi)多次加油或同一個人在短時間內(nèi)多次購買散裝油,均可能蘊含著潛在威脅。因此,亟須開展車輛加油領(lǐng)域的時空異常檢測分析研究。該問題主要面臨如下幾個方面的難點:

1)加油異常難定義、難標注、正負例數(shù)據(jù)嚴重不均衡;

2)加油數(shù)據(jù)地域分布離散、廣泛,具有數(shù)據(jù)多源異構(gòu)性和物理空間離散性,難以直接用于異常檢測分析;

3)由于數(shù)據(jù)本身的時空粒度多變性特征,難以通過單一技術(shù)框架進行分析處理。

針對上述問題,本文提出了基于融合時空數(shù)據(jù)的車輛加油行為多視圖深度異常檢測框架,工作主要包括3個部分:1)基于自主構(gòu)建的統(tǒng)一概念模型,對加油時空多源異構(gòu)數(shù)據(jù)進行關(guān)聯(lián)和融合;2)從空間視圖、時間視圖和語義視圖三個視角,對時空加油數(shù)據(jù)進行特征抽取;3)通過統(tǒng)一的深度學(xué)習(xí)框架,將上述多種視圖通過統(tǒng)一的深度學(xué)習(xí)框架進行訓(xùn)練,實現(xiàn)加油時空數(shù)據(jù)的異常檢測。圖1為本文方法的總體流程, 其中CNN表示卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)、LSTM表示長短時記憶(Long ShortTerm Memory)、GCN表示圖卷積網(wǎng)絡(luò)(Graph Convolutional Network)。

1?相關(guān)工作

由于加油領(lǐng)域數(shù)據(jù)的特殊性和敏感性,文獻中鮮見相關(guān)研究。Fujimaki等[9]針對航天飛船故障難以建模的問題,提出只針對正常數(shù)據(jù)進行建模,再去檢測測試集中異常的方案;文獻[10-11]通過半監(jiān)督方法,利用大量的未標注數(shù)據(jù)和少量的標注數(shù)據(jù)構(gòu)建分類器,從而更好地解決特定的異常檢測問題。上述方法處理真實場景下異常檢測問題的思路可以給我們帶來一定的借鑒意義,但也存在一定的局限性。首先,上述方法雖能在一定程度上解決異常定義和發(fā)現(xiàn)的問題,但同樣也會帶來假異常率居高不下的副作用;其次,上述方法主要針對時序數(shù)據(jù)進行處理,未提出對時空數(shù)據(jù)進行有效分析的方案。因此如何有效地定義和發(fā)現(xiàn)時空異常成為了異常檢測領(lǐng)域的一個研究難點。

再者,加油信息在物理空間以人、車、加油站相關(guān)的多元形態(tài)(時序數(shù)據(jù)、空間數(shù)據(jù)、圖像數(shù)據(jù)、天氣數(shù)據(jù)等)呈現(xiàn),具有數(shù)據(jù)多源異構(gòu)性、物理空間離散性和時空粒度多變性的特征,需要對離散、多模態(tài)的異構(gòu)時空數(shù)據(jù)進行融合分析。目前數(shù)據(jù)融合的方法在解決某一具體問題時,往往需要考慮多種來源、多種模態(tài)的數(shù)據(jù),且臨時對數(shù)據(jù)集合進行組裝的處理方式難以復(fù)用。數(shù)據(jù)庫領(lǐng)域的研究多采用模式映射的數(shù)據(jù)集成方法[12-13],對多源數(shù)據(jù)進行融合;在機器學(xué)習(xí)和人工智能領(lǐng)域,研究者則采用了知識圖譜和概念模型的方式對知識進行關(guān)聯(lián)和融合[14]。無論是傳統(tǒng)的數(shù)據(jù)集成方法還是較新的知識圖譜方法,均是對靜態(tài)的數(shù)據(jù)和知識進行組織,如何對動態(tài)數(shù)據(jù)和知識進行管理以及如何對融合數(shù)據(jù)的多維特征進行表示尚無成熟的解決方案。

在時空異常分析與檢測方面,目前不同的技術(shù)或算法大多仍聚焦于較為單一的數(shù)據(jù)類型和業(yè)務(wù)特點,并不具備較好的遷移性,當將這些方法用于處理加油領(lǐng)域數(shù)據(jù)時都具有技術(shù)上的偏向性或缺陷:Zhang等[15]針對時空數(shù)據(jù)的獨特屬性設(shè)計了一種端到端的深度學(xué)習(xí)框架,并用于交通流量預(yù)測;Cheng等[16]的研究表明,通過綜合使用空氣質(zhì)量監(jiān)測站、興趣點(Point Of Interest, POI)、路網(wǎng)等多模態(tài)數(shù)據(jù)并配合注意力(Attention)機制,可以提升城市空氣質(zhì)量預(yù)測效果。雖然上述研究針對不同時空數(shù)據(jù)分析應(yīng)用場景提出了具體的解決方法,但在如何應(yīng)對復(fù)雜應(yīng)用場景下的多源異構(gòu)時空數(shù)據(jù)異常分析與檢測方面,尚待開展進一步的研究。

由上述分析可看出,對于面向?qū)嶋H應(yīng)用的異常檢測問題,往往需要具體問題具體分析,且由于數(shù)據(jù)模態(tài)的差異性和數(shù)據(jù)來源的多樣性,難以通過一種模型或框架進行分析處理?;诖?,本文提出了一種基于融合時空數(shù)據(jù)的車輛加油行為多視圖深度異常檢測框架。首先,對涉及多種模態(tài)的加油行為數(shù)據(jù)進行關(guān)聯(lián)和融合,從而將同一對象(加油車或加油人)來自不同加油站的所有加油行為在時間和空間維度上進行合并;然后,分別通過空間視圖、時間視圖和語義視圖對不同模態(tài)的特征進行處理,并通過注意力池化層對各個視圖的特征進行融合;最終,實現(xiàn)提升加油異常行為檢測準確率的目標。

2?基于統(tǒng)一概念模型的時空數(shù)據(jù)融合建模

為了有效解決跨領(lǐng)域、跨系統(tǒng)的數(shù)據(jù)重用和共享問題,本文采用了一種形式化和可重用的數(shù)據(jù)表示方式,對數(shù)據(jù)模型和數(shù)據(jù)間的關(guān)聯(lián)關(guān)系進行管理,從而形成數(shù)據(jù)網(wǎng)絡(luò)以實現(xiàn)融合與共享。數(shù)據(jù)融合建模過程主要包括統(tǒng)一概念模型(Unified Conceptual Model, UCM)的構(gòu)建與生成、以及圖實例數(shù)據(jù)的自動轉(zhuǎn)換。

2.1?統(tǒng)一概念模型構(gòu)建

在車輛加油業(yè)務(wù)領(lǐng)域中,人、車輛、加油站之間存在大量的關(guān)系和活動?;趫D數(shù)據(jù)(Graph Data)的表達能力和現(xiàn)實世界的事物規(guī)律,首先構(gòu)建由概念(Concepts)、屬性(Properties)、關(guān)系(Relations)、活動(Activities)、實例(Instances)五要素構(gòu)成的五元組元數(shù)據(jù)模型,再建立多源異構(gòu)數(shù)據(jù)與該元數(shù)據(jù)模型的映射模型,從而完成多源異構(gòu)數(shù)據(jù)到圖數(shù)據(jù)的統(tǒng)一映射過程。概念對應(yīng)現(xiàn)實世界中的事物抽象,并包含時空屬性;實例是概念的具體對象;關(guān)系用于建?,F(xiàn)實世界對象間的顯式關(guān)聯(lián)與隱式關(guān)聯(lián);實例在時空維度上的變化則通過活動進行表示。概念、實例、關(guān)系、活動均可包含多個屬性。

由底層數(shù)據(jù)到五元組元數(shù)據(jù)模型的映射如圖2所示。

基于統(tǒng)一的概念知識表示,開放動態(tài)環(huán)境下的概念模型構(gòu)建將采用主動學(xué)習(xí)(Active Learning)的方式,結(jié)合領(lǐng)域?qū)<抑R和人機交互反饋,通過自頂向下和自底向上的混合模式融合跨領(lǐng)域多源數(shù)據(jù),實現(xiàn)統(tǒng)一概念模型的構(gòu)建和動態(tài)擴充。主要流程如圖3所示。

2.2?圖實例數(shù)據(jù)自動轉(zhuǎn)換

以統(tǒng)一概念模型作為數(shù)據(jù)抽取與轉(zhuǎn)換依據(jù),每條待融合的新數(shù)據(jù)首先轉(zhuǎn)換為一項圖數(shù)據(jù)實例,通過將數(shù)據(jù)的原始來源和唯一標識符信息作為元數(shù)據(jù)屬性進行存儲,從而保證數(shù)據(jù)的可追溯性。對于每項實例數(shù)據(jù),都需要融合到已存在的實例圖中,借鑒實體鏈接的思想,將每項待融合的數(shù)據(jù)看作一個識別到的新實體,將已存在的圖實例數(shù)據(jù)作為知識庫,通過改進的候選實體(Candidate Entities)排序算法進行實體鏈接操作,進而完成數(shù)據(jù)關(guān)聯(lián)與融合過程,如圖4所示。

候選實體排序方面,采用多特征融合的方法進行。具體選取的特征包括本地特征(local Similarity, lSim),上下文特征(contextual Similarity, cSim)和全局特征(Global Similarity, coh)。

本地特征采用分布式詞向量word2vec進行表示,通過抽取待融合數(shù)據(jù)節(jié)點及其屬性的文本內(nèi)容,訓(xùn)練詞嵌入模型,作為實體排序的第一個打分項。

對于上下文特征,采用嵌入主題模型lda2vec來進行表示。主題模型可以對文檔的潛在語義和主題進行有效建模,而詞向量技術(shù)可以對上下文信息進行有效建模,因此將二者結(jié)合,既考慮到了上下文信息,又兼顧到本地信息。為了對上下文特征進行建模,首先定義一個目標函數(shù):

L=∑ ijLnegij(1)

其中,Lnegij表示word2vec中的負采樣方法,負采樣如式(2)所示:

Lnegij=lbσ(cj·wi)+∑nl=0lbσ(-cj·wl)(2)

其中:cj表示上下文向量,wi表示目標詞匯的詞向量,wl表示負采樣詞匯的詞向量。

對于全局特征,采用一種基于圖的方法進行刻畫,其中s和e表示需要計算相似度的一對節(jié)點,CONTRe(m,c)表示所有對相似度計算起到貢獻作用的節(jié)點集合。

cohs(e)=cSim(s→e)·lSim(s) (3)

CONTRe(m,c)=

{(m′,arg maxc coh(m′,c)(e))∈V,m′≠m}(4)

coh(e)=∑s∈CONTRe(m,c)cohs(e)(5)

這樣最終的打分以及實體選取和消歧過程通過式(6)、(7)計算得到:

score(e)=coh(e)+cSimavg·lSim(e)(6)

disambiguation(m)=argmaxc∈Cm score(m,c)(7)

3?多視圖深度時空異常檢測框架

完整的加油活動涉及多種類型的數(shù)據(jù),包括人、車輛、加油站的基本信息、前端設(shè)備采集的圖像、加油活動自身產(chǎn)生的時序數(shù)據(jù)和空間軌跡數(shù)據(jù),以及外部因素數(shù)據(jù)如天氣、節(jié)假日等?,F(xiàn)有的異常檢測方法大多只適用于上述數(shù)據(jù)中的某一種類型,很難對加油活動所涉及的全部數(shù)據(jù)進行分析處理。

進一步的業(yè)務(wù)分析可以發(fā)現(xiàn),上述數(shù)據(jù)可分為靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)兩類。在本文的研究中,將人、車輛、加油站的基本信息、前端設(shè)備采集的圖像等數(shù)據(jù)歸類為靜態(tài)知識型數(shù)據(jù);將加油活動產(chǎn)生的時序數(shù)據(jù)和空間軌跡數(shù)據(jù),以及外部因素數(shù)據(jù)如天氣、節(jié)假日等數(shù)據(jù)歸類為動態(tài)活動數(shù)據(jù)。對于靜態(tài)知識型數(shù)據(jù),通過前述的數(shù)據(jù)融合治理和聯(lián)合嵌入表示學(xué)習(xí)兩種技術(shù)手段,可預(yù)期達到歸一化和低維數(shù)值化的效果并可用于后續(xù)計算。對于動態(tài)活動數(shù)據(jù),構(gòu)建一種基于多視圖的深度時空異常檢測模型框架,將時序數(shù)據(jù)、空間軌跡數(shù)據(jù)連同靜態(tài)數(shù)據(jù)一起作為模型的輸入,來判斷模型的輸出是否為異常。具體地,將上述數(shù)據(jù)劃分到3個視圖,分別是空間視圖(Spatial View)、時間視圖(Temporal View)和語義視圖(Semantic View),整個框架的算法流程如下所示。

算法1?基于數(shù)據(jù)融合的時空異常檢測框架訓(xùn)練過程。

輸入?來自不同加油站的原始數(shù)據(jù); 領(lǐng)域?qū)<逸o助知識輸入;天氣、興趣點、路網(wǎng)等外部數(shù)據(jù);

輸出?訓(xùn)練好的時空異常檢測框架。

程序前

// 構(gòu)建統(tǒng)一概念模型

1)

結(jié)合領(lǐng)域?qū)<抑R, 構(gòu)建UCM//基于UCM進行數(shù)據(jù)融合

2)

forS(1≤S≤N) stations

3)

for refueling recordsrin station Sn

4)

run Graphbased Entity Linking

5)

end

6)

end//融合完成的基于圖結(jié)構(gòu)的加油數(shù)據(jù)集

7)

D ←

8)

forobjecti(a vehicle or a person) do

9)

apply CNN to learn spatial features//抽取空間視圖特征

10)

apply GCN to learn semantic features//抽取語義視圖特征

11)

for 1≤t≤T do

12)

apply LSTM to learn temporal features

//抽取時間視圖特征將三種視圖進行組合

13)

combine the latent features by attention pooling layer for time t

14)

put an training instance into D

15)

end

16)

end

17)

initialize all learnable parameters θ in the framework

18)

repeat

19)

randomly select a batch of instances Db from D

20)

find θ by minimizing the objective with Db

21)

until stopping criteria is met

程序后

空間視圖?處理加油活動中產(chǎn)生的空間軌跡數(shù)據(jù)。首先對軌跡圖像進行CNN卷積操作,降低處理維度,抽取關(guān)鍵特征,然后再對卷積后的輸出進行全連接作為空間視圖的輸出。

具體地,對于一個圖像Yit∈RS×S×1,CNN卷積模塊會將其作為輸入Yi,0t送入K個卷積層處理:

Yi,kt=f(Yi,k-1t*Wkt+bkt)(8)

其中,Wkt和bkt是CNN模塊中待訓(xùn)練的兩組權(quán)重和偏置參數(shù),經(jīng)過K層卷積后,通過flatten層將輸出Yi,kt∈RS×S×λ轉(zhuǎn)換為向量sit∈RS2λ,最后通過全連接層壓縮sit的維度,輸出Spait。

時間視圖?處理加油活動中產(chǎn)生的時序數(shù)據(jù)和天氣等外部數(shù)據(jù)。首先將空間視圖輸出、時序數(shù)據(jù)和外部數(shù)據(jù)拼接組成一組時序輸入送入LSTM卷積神經(jīng)網(wǎng)絡(luò),時間視圖的輸出是模型判斷的下一時刻的狀態(tài)。

語義視圖?處理加油活動涉及的人、車輛、加油站信息和圖像等靜態(tài)數(shù)據(jù)。首先從融合數(shù)據(jù)中提取人、車輛、加油站的基礎(chǔ)信息及對應(yīng)的關(guān)聯(lián)關(guān)系,然后將靜態(tài)數(shù)據(jù)轉(zhuǎn)換為一組低維向量表示的形式,用于后續(xù)處理,如圖5所示。

其中,靜態(tài)數(shù)據(jù)的表現(xiàn)形式是以圖(Graph)結(jié)構(gòu)存儲的融合數(shù)據(jù),具體地,圖嵌入表示主要通過圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)實現(xiàn),將圖G=(V,E)作為輸入,目的是通過圖卷積網(wǎng)絡(luò)學(xué)習(xí)得到圖中節(jié)點的特征表示。對于每個節(jié)點i,特征表示為xi,則所有節(jié)點可以組成一個N×D的特征矩陣X(N是節(jié)點的數(shù)量,D是特征的數(shù)量)。對于圖的結(jié)構(gòu),則可以通過鄰接矩陣A表示。模型的輸出表示為Z,是N×F的特征矩陣,F(xiàn)表示輸出層每個節(jié)點特征的數(shù)量。

每層神經(jīng)網(wǎng)絡(luò)進而可以通過下述非線性變換得到:

H(l+1)=f(H(l),A) (9)

其中:H(0)=X,H(L)=Z,L是GCN中層的數(shù)量。一個簡單的f(·)形式如下:

f(H(l),A)=σ(AH(l)W(l))(10)

其中:W(l)表示神經(jīng)網(wǎng)絡(luò)中l(wèi)層的權(quán)重矩陣,σ(·)表示非線性激活函數(shù),如ReLU(Rectified Linear Unit)。

模型會將時間視圖和語義視圖的輸出進行拼接,并再次通過注意力池化層進行權(quán)重計算,生成一組輸出后送入損失函數(shù),從而完成深度時空異常檢測框架的訓(xùn)練過程,損失函數(shù)的定義采用如下形式:

L(θ)=∑mi=1(yit+1-it+1)2+γyit+1+it+1it+12(11)

其中,it+1表示模型輸出預(yù)測標簽,yit+1表示實際的數(shù)據(jù)標簽。θ表示模型需要訓(xùn)練的所有參數(shù),γ是模型的超參數(shù)。

4?實驗與分析

4.1?實驗配置

為了驗證所提方法對加油時空數(shù)據(jù)異常檢測的有效性以及所提方法的通用性,本文選擇在中國某省份汽車加油數(shù)據(jù)集和信用卡欺詐公開數(shù)據(jù)集[17]上進行實驗,前者為本文所需解決應(yīng)用場景的真實數(shù)據(jù)集,后者為帶有異常標簽標注的公開數(shù)據(jù)集。實驗機器系統(tǒng)為ubuntu14.04 64位,CPU 72核,型號為Intel Xeon Gold 6140 CPU 2.3GHz,內(nèi)存256GB,顯存96GB,Python版本為3.6,Keras版本為2.0.8,數(shù)據(jù)庫為MongDB 3.0。

4.2?實驗數(shù)據(jù)集

4.2.1?車輛加油數(shù)據(jù)集

實驗數(shù)據(jù)選取某省份1個月內(nèi)的所有加油記錄,為了保證實驗的準確性,去除了數(shù)據(jù)中部分無效數(shù)據(jù),并選取在1個月時間周期內(nèi),加油次數(shù)大于3次的所有相關(guān)數(shù)據(jù),其中每條記錄主要包括唯一性標識、加油人員身份證號碼、加油站編號、車牌號等信息。相關(guān)數(shù)據(jù)項全部進行脫敏加密處理,數(shù)據(jù)規(guī)模為505-643條。特征提取方面,對數(shù)值型特征進行歸一化處理,非數(shù)值型特征進行數(shù)字編碼后再歸一化處理。同時收集該時間范圍內(nèi)路況、天氣等數(shù)據(jù)作為外部因素導(dǎo)入,并最終得到可靠的實驗數(shù)據(jù)集合。

原始數(shù)據(jù)無標簽標注,通過專家經(jīng)驗、預(yù)置規(guī)則并結(jié)合人工判斷的方式,對約10%的數(shù)據(jù)進行了標注。實驗結(jié)果驗證方面,通過抽取20%結(jié)果配合采集的圖像人工復(fù)檢的方式進行驗證。

為了驗證本文所提異常檢測框架在預(yù)處理后的數(shù)據(jù)集上的有效性,通過與一組現(xiàn)有異常檢測方法進行比較評估,采用均方根誤差作為評價函數(shù),對預(yù)測結(jié)果進行評價:

RMSE=1m∑mi=1(yit+1-it+1)2(12)

其中:it+1和yit+1分別表示預(yù)測值和實際值,m代表樣本總數(shù)。

4.2.2?信用卡欺詐數(shù)據(jù)集

信用卡欺詐數(shù)據(jù)集包括了某兩天內(nèi)各個時間點的284-807 筆交易記錄,其中492筆交易已標注為欺詐行為。數(shù)據(jù)集定義欺詐因素共28項,另外兩項數(shù)據(jù)是交易金額和欺詐標簽。數(shù)據(jù)集劃分方面,從數(shù)據(jù)集中的正常值取80%作為訓(xùn)練集,將剩余20%的正常值以及全部異常值(欺詐行為)作為測試集。

由于異常檢測數(shù)據(jù)集一般均屬于正負例非均衡數(shù)據(jù)集,馬修斯系數(shù)(Matthews Correlation Coefficient, MCC)能夠有效衡量不平衡數(shù)據(jù)集,為了驗證所提方法的有效性,本文將MCC作為信用卡欺詐數(shù)據(jù)集上的性能衡量指標。其具體公式如下:

MCC=

TP*TN-FP*FN(TP+FP)*(TP+FN)*(TN+FP)*(TN+FN)(13)

其中:TP(True Positive)表示挖掘出的樣本為真實異常實例的數(shù)量,TN(True Negative)表示挖掘出的樣本為真實正常實例的數(shù)量,F(xiàn)P(False Positive)表示挖掘出的樣本為假異常實例的數(shù)量,F(xiàn)N(False Negative)表示挖掘出的樣本為假正常實例的數(shù)量。

4.3?實驗結(jié)果與分析

4.3.1?車輛加油數(shù)據(jù)集實驗結(jié)果分析

在車輛加油數(shù)據(jù)集上,選擇雅虎開源異常檢測框架(Extendible Generic Anomaly Detection System, EGADS)[18]中的移動平均模型(Moving Average Model)、統(tǒng)計模型(Naive Forecasting Model)、回歸模型(Regression Model)、季節(jié)模型(Olympic Model)、指數(shù)平滑模型(Double Exponential Smoothing Model)以及循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM作為基線對比系統(tǒng)。通過在未融合原始加油數(shù)據(jù)和已融合數(shù)據(jù)上運行基線方法和所提方法,對比均方根誤差(Root Mean Square Error, RMSE),進而衡量數(shù)據(jù)融合和所提異常檢測框架的有效性,實驗結(jié)果如表1所示。

從實驗結(jié)果中可以觀察到所有方法在融合后數(shù)據(jù)上均取得了更低的均方根誤差,均方根誤差平均降低10.73%,說明數(shù)據(jù)融合作為數(shù)據(jù)治理的一項步驟和方法,可以有效提升數(shù)據(jù)質(zhì)量,為后續(xù)分析帶來性能提升。另外從表1中還可看出,本文所提異常檢測框架取得了最好的性能,較之基線方法的最好結(jié)果降低了19.36%的均方根誤差。原因主要在于基線方法均是對時序數(shù)據(jù)進行異常分析處理,未能融合其他類型數(shù)據(jù)如圖像、空間數(shù)據(jù)、天氣數(shù)據(jù)等,也從一定程度說說明,能夠處理多種數(shù)據(jù)類型的方法可以在實際異常檢測分析中取得更好的效果。

4.3.2?信用卡欺詐數(shù)據(jù)集實驗結(jié)果分析

在信用卡欺詐數(shù)據(jù)集上,選擇在此數(shù)據(jù)集上表現(xiàn)效果較好的邏輯回歸(Logistic Regression)模型與本文所提方法進行對比分析,MCC實質(zhì)上表示真實結(jié)果與預(yù)測結(jié)果二元分類之間的相關(guān)系數(shù),并返回介于-1到+1之間的數(shù)值。結(jié)果越接近+1,表示預(yù)測越精確,-1則表示預(yù)測結(jié)果和真實結(jié)果完全不一致,0表示模型效果接近于隨機預(yù)測。實驗結(jié)果方面,邏輯回歸模型取得的MCC值為0.230-0,所提方法MCC值為0.305-4,所提方法較之邏輯回歸模型,在MCC上取得了32.78% 的性能提升,驗證了所提方法在信用卡欺詐公開數(shù)據(jù)集上,同樣能夠有效地檢測到欺詐行為,并較之現(xiàn)有方法提升了一定的預(yù)測精度。

5?結(jié)語

本文鑒于傳統(tǒng)異常檢測方法難以處理多源異構(gòu)時空加油數(shù)據(jù)的缺陷,首先,針對業(yè)務(wù)領(lǐng)域進行統(tǒng)一概念模型構(gòu)建,并根據(jù)融合模型自動地對多源異構(gòu)數(shù)據(jù)進行轉(zhuǎn)換和關(guān)聯(lián),將離散的時空數(shù)據(jù)轉(zhuǎn)換為以圖的方式進行存儲和管理的融合數(shù)據(jù);然后,針對實際業(yè)務(wù)中存在的多種數(shù)據(jù)類型,提出了基于多視圖的深度異常檢測框架,進而克服了傳統(tǒng)方法只能處理時序數(shù)據(jù),難以處理其他類型數(shù)據(jù)的缺陷; 最后,在真實車輛加油數(shù)據(jù)集和信用卡欺詐公開數(shù)據(jù)集上,對所提方法與基線系統(tǒng)進行了性能比較。在車輛加油數(shù)據(jù)集上,所提方法較之基線方法的最好結(jié)果降低了約19.36%的均方根誤差;在信用卡欺詐公開數(shù)據(jù)集上,較之邏輯回歸模型,所提方法取得了更高的MCC值。證明了本文所提方法無論是在處理具體車輛加油領(lǐng)域的時空數(shù)據(jù)異常檢測問題上,還是在更通用的異常檢測處理上,均具備較穩(wěn)定的性能優(yōu)勢。

所提方法雖然取得了較好的實驗結(jié)果,但在處理實際異常檢測問題時,異常數(shù)據(jù)的稀缺和難以標注仍是一項阻礙異常檢測研究開展的難題,后續(xù)的研究中將重點關(guān)注無監(jiān)督的異常檢測方法,探索如何在無標注數(shù)據(jù)集上開展異常檢測研究。

參考文獻 (References)

[1]?AGRAWAL S, AGRAWAL J. Survey on anomaly detection using data mining techniques[J]. Procedia Computer Science, 2015, 60: 708-713.

[2]?ABDALLAH A, MAAROF M A, ZAINAL A. Fraud detection system: a survey[J]. Journal of Network and Computer Applications, 2016, 68: 90-113.

[3]?BUCZAK A L, GUVEN E. A survey of data mining and machine learning methods for cyber security intrusion detection[J]. IEEE Communications Surveys and Tutorials, 2016, 18(2): 1153-1176.

[4]?NAIK N, DIAO R, SHEN Q. Dynamic fuzzy rule interpolation and its application to intrusion detection[J]. IEEE Transactions on Fuzzy Systems, 2018, 26(4): 1878-1892.

[5]?DOSHI D A, KHEDKAR K B, RAUT N T, et al. Real time fault failure detection in power distribution line using power line communication[J]. International Journal of Engineering Science, 2016, 6(5): 4834-4837.

[6]?陶濤,周喜,馬博,等. 基于雙向LSTM的Seq2Seq模型在加油站時序數(shù)據(jù)異常檢測中的應(yīng)用[J]. 計算機應(yīng)用, 2019, 39(3): 924-929. (TAO T, ZHOU X, MA B, et al. Abnormal time series data detection of gas station by Seq2Seq model based on bidirectional long shortterm memory[J]. Journal of Computer Applications, 2019, 39(3): 924-929.)

[7]?YU W, CHENG W, AGGARWAL C C, et al. NetWalk: a flexible deep embedding approach for anomaly detection in dynamic networks[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2018: 2672-2681.

[8]?陳萬志,李東哲. 結(jié)合白名單過濾和神經(jīng)網(wǎng)絡(luò)的工業(yè)控制網(wǎng)絡(luò)入侵檢測方法[J]. 計算機應(yīng)用, 2018, 38(2): 363-369. (CHEN W Z, LI D Z. Intrusion detection method in industrial control network combining white list filtering and neural network[J]. Journal of Computer Applications, 2018, 38(2): 363-369.)

[9]?FUJIMAKI R, YAIRI T, MACHIDA K. An approach to spacecraft anomaly detection problem using kernel feature space[C]// Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2005: 401-410.

[10]?ASHFAQ R A R, WANG X, HUANG J Z, et al. Fuzziness based semisupervised learning approach for intrusion detection system[J]. Information Sciences, 2017, 378: 484-497.

[11]?NOTO K, BRODLEY C, SLONIM D. FRaC: a featuremodeling approach for semisupervised and unsupervised anomaly detection[J]. Data Mining and Knowledge Discovery, 2012, 25(1): 109-133.

[12]?LENZERINI M. Data integration: a theoretical perspective[C]// Proceedings of the 21st ACM SIGMODSIGACTSIGART Symposium on Principles of Database Systems. New York: ACM, 2002: 233-246.

[13]?DONG X L, SRIVASTAVA D. Big data integration[J]. Proceedings of the VLDB Endowment, 2013, 6(11): 1188-1189.

[14]?MA B, JIANG T, ZHOU X, et al. A novel data integration framework based on unified concept model[J]. IEEE Access, 2017, 5: 5713-5722.

[15]?ZHANG J, ZHENG Y, QI D. Deep spatiotemporal residual networks for citywide crowd flows prediction[C]// Proceedings of the 31st AAAI Conference on Artificial Intelligence. Pola Alto: AAAI Press, 2016: 1655-1661.

[16]?CHENG W, SHEN Y, ZHU Y, et al. A neural attention model for urban air quality inference: learning the weights of monitoring stations[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Pola Alto: AAAI Press, 2018: 2151-2158.

[17]?AGNIHOTRI M. Credit card fraud detection[DB/OL]. [2017-04-17]. https://www.kaggle.com/mlgulb/creditcardfraud.

[18]?LAPTEV N, AMIZADEH S, FLINT I. Generic and scalable framework for automated timeseries anomaly detection[C]// Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2015: 1939-1947.

This work is partially supported by the Natural Science Foundation of Xinjiang (2019D01A92).

DING Jingquan, born in 1973, Ph. D. candidate, associate research fellow. His research interests include big data government and analytics.

MA Bo, born in 1984, Ph. D., associate research fellow. His research interests include big data analysis, knowledge graph.

LI Xiao, born in 1957, M. S., professor. His research interests include multilingual information processing, information management system.

猜你喜歡
數(shù)據(jù)融合深度學(xué)習(xí)
多傳感器數(shù)據(jù)融合技術(shù)在機房監(jiān)控系統(tǒng)中的應(yīng)用
《可靠性工程》課程教學(xué)的幾點思考
基于數(shù)據(jù)融合的家庭遠程監(jiān)護系統(tǒng)研究
有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
船舶動力定位中的數(shù)據(jù)融合技術(shù)文獻綜述
邳州市| 喜德县| 仁布县| 金沙县| 南靖县| 买车| 若尔盖县| 嘉定区| 丹棱县| 武威市| 汝阳县| 沙田区| 黑龙江省| 大田县| 青田县| 临武县| 扎囊县| 阿克苏市| 通榆县| 巴彦淖尔市| 郸城县| 海盐县| 温州市| 台北市| 若尔盖县| 新蔡县| 晋宁县| 阿鲁科尔沁旗| 金秀| 寻乌县| 精河县| 都匀市| 弋阳县| 新竹市| 当涂县| 临沭县| 武山县| 鄂尔多斯市| 驻马店市| 峡江县| 长岭县|