国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合多解碼器與兩階段通道選擇的異常檢測(cè)方法

2023-03-16 10:20:46王禹博陳利鋒許衛(wèi)霞
計(jì)算機(jī)工程 2023年3期
關(guān)鍵詞:選擇器合群離群

王禹博,陳利鋒,許衛(wèi)霞

(復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 200433)

0 概述

異常檢測(cè)作為機(jī)器學(xué)習(xí)的一個(gè)重要研究課題,在各領(lǐng)域有著廣泛的應(yīng)用。例如,在工業(yè)領(lǐng)域中,異常檢測(cè)常被用于檢測(cè)傳感器的異常數(shù)據(jù),并起到實(shí)時(shí)監(jiān)控報(bào)警的作用。在學(xué)術(shù)領(lǐng)域中,異常檢測(cè)被用來檢測(cè)大規(guī)模深度學(xué)習(xí)數(shù)據(jù)集中標(biāo)注錯(cuò)誤的異常樣本。在異常檢測(cè)問題中,正常的數(shù)據(jù)樣本被稱為合群點(diǎn)(Inliers),異常的數(shù)據(jù)樣本則被稱為離群點(diǎn)(Outliers),數(shù)據(jù)樣本類別被劃分為正常類(正類)和異常類(負(fù)類)。由于訓(xùn)練數(shù)據(jù)中缺乏有標(biāo)記的異常類樣本,傳統(tǒng)的多分類模型往往效果較差。因此,在異常檢測(cè)中,常對(duì)正常類的數(shù)據(jù)分布進(jìn)行單分類建模[1],從而把異常類數(shù)據(jù)區(qū)分出來。

目前,研究人員已提出大量關(guān)于異常檢測(cè)的方法,這些方法使用的典型策略有如下3 種:建立一個(gè)參數(shù)化的合群點(diǎn)模型,并從正樣本訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到適當(dāng)?shù)膮?shù),如Robust Covariance[2]、One-Class SVM[3]等;為合群點(diǎn)設(shè)置判別規(guī)則,并根據(jù)該規(guī)則識(shí)別和剔除離群點(diǎn),如Isolation Forest[4]等;利用離群點(diǎn)的幾何分布特性對(duì)其進(jìn)行分離,如Local Outlier Factor[5]等。隨著各應(yīng)用領(lǐng)域中深度學(xué)習(xí)方法的快速發(fā)展,出現(xiàn)了許多基于神經(jīng)網(wǎng)絡(luò)的異常檢測(cè)方法。這些方法大多屬于上述3 類策略中的第1 類,但存在3 個(gè)主要問題。問題1:沒有利用到實(shí)際場(chǎng)景中的無標(biāo)注數(shù)據(jù)。實(shí)際工業(yè)領(lǐng)域中的數(shù)據(jù)往往有大量無標(biāo)注數(shù)據(jù),目前許多方法僅使用正樣本訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,導(dǎo)致模型對(duì)訓(xùn)練數(shù)據(jù)過擬合。同時(shí),無標(biāo)記數(shù)據(jù)中含有豐富的負(fù)類信息,這些信息也被完全忽略了。問題2:需要人為設(shè)定異常閾值。絕大多數(shù)方法只設(shè)計(jì)一種正常性度量方式對(duì)樣本進(jìn)行打分和排序,進(jìn)而確定哪些樣本被歸為異常樣本。然而,這種方法必須依賴人為的經(jīng)驗(yàn)和技巧確定分?jǐn)?shù)閾值來分離合群點(diǎn)和離群點(diǎn)。一方面,這種行為可能引發(fā)相當(dāng)程度的人為誤差;另一方面,閾值作為超參數(shù),對(duì)數(shù)據(jù)集較為敏感,需要針對(duì)不同的數(shù)據(jù)集和應(yīng)用場(chǎng)景來進(jìn)行調(diào)節(jié),導(dǎo)致工作量和計(jì)算開銷增加。問題3:對(duì)等地處理合群點(diǎn)和離群點(diǎn)。有些方法對(duì)等地處理合群點(diǎn)和離群點(diǎn),暗含了“合群點(diǎn)和離群點(diǎn)擁有相似的模式”這一假設(shè),與異常檢測(cè)場(chǎng)景下的數(shù)據(jù)性質(zhì)不相符。這是因?yàn)樵诋惓z測(cè)中,合群點(diǎn)和離群點(diǎn)由不同的生成機(jī)制產(chǎn)生,從而使數(shù)據(jù)分布間存在較大差異。

本文提出一種基于多解碼器與兩階段通道選擇的異常檢測(cè)方法,使用一個(gè)包含編碼器、多通道解碼器、兩階段通道選擇器的重構(gòu)-選擇模型代替?zhèn)鹘y(tǒng)方法中的重構(gòu)-排序-拒絕模型,通過使用多個(gè)通道對(duì)輸入樣本進(jìn)行重構(gòu),采用通道選擇器選出更適合的通道,并根據(jù)通道的屬性確定樣本的異常性,從而完成異常檢測(cè)任務(wù)。設(shè)計(jì)一種新的免閾值多維度度量方法,直接評(píng)估樣本相對(duì)于各潛在類的歸屬度,并據(jù)此建立免閾值的選擇器,以判斷輸入樣本是否異常,從而減少確定閾值過程中產(chǎn)生的人為誤差和計(jì)算開銷。此外,使用無標(biāo)記數(shù)據(jù)對(duì)離群點(diǎn)進(jìn)行建模及增強(qiáng)正樣本訓(xùn)練數(shù)據(jù),以更好地訓(xùn)練合群點(diǎn)通道。最后,充分注意合群點(diǎn)與離群點(diǎn)之間的生成機(jī)制和數(shù)據(jù)分布的差異性,采用不對(duì)等的方式進(jìn)行建模,為離群點(diǎn)分配更多通道以有效表示其相對(duì)復(fù)雜的分布。

1 相關(guān)研究

深度異常檢測(cè)方法一般可歸納為3 種范式:在第1 種范式下,深度學(xué)習(xí)和異常檢測(cè)作為2 個(gè)獨(dú)立模塊,其中深度學(xué)習(xí)模塊僅作為用于特征工程的獨(dú)立特征提取器;在第2 種范式下,深度學(xué)習(xí)和異常檢測(cè)有一定程度的耦合,致力于學(xué)習(xí)對(duì)正常性有效特征的表示;在第3 種范式下,深度學(xué)習(xí)和異常檢測(cè)被高度整合,直接以端到端的方式通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)異常分?jǐn)?shù)。下面分別介紹基于這3 種范式的方法。

基于第1 種范式的方法使用深度學(xué)習(xí)技術(shù)從高維度數(shù)據(jù)或線性不可分?jǐn)?shù)據(jù)中抽取適用于下游異常檢測(cè)任務(wù)的低維度特征。在這類方法中,特征提取模塊和異常性評(píng)估模塊完全分離且互相獨(dú)立。其中,基于深度學(xué)習(xí)的特征提取模塊的唯一目的是對(duì)原始輸入數(shù)據(jù)進(jìn)行降維。相較于傳統(tǒng)機(jī)器學(xué)習(xí)方法中常用的降維措施如主成分分析[6]、隨機(jī)映射[7]等,深度學(xué)習(xí)方法往往在捕捉復(fù)雜語義和非線性關(guān)系上表現(xiàn)更好[8]。這類方法通常假定通過深度學(xué)習(xí)方法獲取特征中存在可以區(qū)分正常樣本和異常樣本的有效信息。一些研究者直接使用大規(guī)模預(yù)訓(xùn)練模型如AlexNet、VGG、ResNet 等提取低維特征,從而在復(fù)雜、高維的結(jié)構(gòu)化數(shù)據(jù)如圖像數(shù)據(jù)和視頻數(shù)據(jù)上進(jìn)行異常檢測(cè)。去掩蔽在線異常檢測(cè)框架[9]采用在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的VGG 模型為下游視頻異常檢測(cè)任務(wù)提取特征。ANDREWS 等[10]使用類似的VGG 模型對(duì)單類支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行預(yù)訓(xùn)練,并在MNIST 數(shù)據(jù)集上微調(diào)以進(jìn)行異常檢測(cè)。

基于第2種范式的方法將基于深度學(xué)習(xí)的特征工程和異常性評(píng)估相結(jié)合,獲得樣本的正常性相關(guān)特征表示。不同于上一類方法,此類方法在進(jìn)行特征提取時(shí)往往考慮到一些符合異常檢測(cè)問題背景的數(shù)據(jù)約束,從而使生成特征可從異常檢測(cè)的角度加以解釋。這其中較有代表性的是使用自動(dòng)編碼器的方法,這類方法通過自動(dòng)編碼器及其變形學(xué)習(xí)數(shù)據(jù)的低維特征,通過該特征可以對(duì)訓(xùn)練數(shù)據(jù)(即正常點(diǎn)數(shù)據(jù))進(jìn)行良好重構(gòu)。復(fù)制神經(jīng)網(wǎng)絡(luò)[11]是第1 個(gè)使用基于自動(dòng)編碼器的數(shù)據(jù)重構(gòu)進(jìn)行異常檢測(cè)的網(wǎng)絡(luò),通過在中間層施加離散性約束,將數(shù)據(jù)分入數(shù)個(gè)不同的組,從而能夠檢測(cè)異常簇(Clustered Anomalies)。鑒于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)在多個(gè)應(yīng)用領(lǐng)域展現(xiàn)出良好性能,一些研究人員試圖以生成-對(duì)抗的范式構(gòu)建異常檢測(cè)方法。基于生成對(duì)抗網(wǎng)絡(luò)的方法一般假定生成網(wǎng)絡(luò)G的特征空間生成正常樣本的能力強(qiáng)于生成異常樣本的能力,因而特征空間可以較好地捕捉到訓(xùn)練數(shù)據(jù)中的正常性樣本。AnoGAN 方法[12]對(duì)于任意給定的數(shù)據(jù)樣本x,都能夠在其特征空間中映射出特征z,并使根據(jù)z生成的樣本G(z)與原始樣本x盡可能相似。通過在正常樣本訓(xùn)練數(shù)據(jù)上訓(xùn)練AnoGAN,異常樣本被生成高度相似樣本的概率將低于正常樣本。SABOKROU 等[13]以一自動(dòng)編碼器和一辨別器構(gòu)建模型,并用標(biāo)準(zhǔn)的生成對(duì)抗機(jī)制訓(xùn)練自動(dòng)編碼器,使其盡可能好地重構(gòu)合群點(diǎn)。

基于第3 種范式的方法直接以端到端的模式為異常檢測(cè)任務(wù)學(xué)習(xí)異常分?jǐn)?shù)。這類方法并不依賴已有的度量手段進(jìn)行異常性評(píng)估,而是直接構(gòu)建神經(jīng)網(wǎng)絡(luò)模塊以生成異常分?jǐn)?shù)。通過學(xué)習(xí)給定的異常性得分序列,排序模型可以對(duì)樣本點(diǎn)按異常性進(jìn)行排序。PANG 等[14]提出一深度序數(shù)回歸模型(Deep Ordinal Regression Model)以直接優(yōu)化無監(jiān)督視頻異常檢測(cè)的異常分?jǐn)?shù)。Softmax 似然模型(Softmax Likelihood Model)通過定義一個(gè)基于異常分?jǐn)?shù)的數(shù)據(jù)分布,最大化訓(xùn)練數(shù)據(jù)在該分布下的似然來學(xué)習(xí)異常分?jǐn)?shù)。由于異常樣本和正常樣本分別代表稀有樣本和頻繁樣本,因此,從概率角度看,正常樣本應(yīng)以較高概率出現(xiàn),異常樣本則反之。CHEN 等[15]設(shè)計(jì)了一種帶有參數(shù)的異常打分函數(shù),并通過該函數(shù)對(duì)數(shù)據(jù)分布進(jìn)行建模,利用訓(xùn)練數(shù)據(jù)對(duì)該分布的參數(shù)進(jìn)行噪聲對(duì)比估計(jì)(Noise Contrastive Estimation,NCE)[16]后,即獲得優(yōu)化好的異常打分函數(shù)。ZHAI等[17]提出一種基于能量的神經(jīng)網(wǎng)絡(luò)進(jìn)行異常檢測(cè),該方法的要點(diǎn)在于使用能量而非重構(gòu)誤差(Reconstruction Error,RE)作為異常分?jǐn)?shù),從而提供了一種新的度量異常性方法。

為更直觀地說明本文工作對(duì)現(xiàn)有相關(guān)研究的改進(jìn),在圖1 中可視化地展示了流行深度異常檢測(cè)方法中的問題和本文方法的對(duì)應(yīng)解決方案。圖1(a)中的圓弧線是異常檢測(cè)方法對(duì)正常/異常樣本的分界,圖1(b)中的圓弧線是本文方法對(duì)各數(shù)據(jù)類的分界。圖1(a)中①所示方法只利用正樣本數(shù)據(jù)訓(xùn)練,導(dǎo)致遺漏部分無標(biāo)簽合群點(diǎn)。圖1(a)中②所示方法很難確定最優(yōu)異常分?jǐn)?shù)閾值。圖1(a)中③所示方法對(duì)等地處理合群點(diǎn)和離群點(diǎn),對(duì)離群點(diǎn)的描述能力較差。作為對(duì)比,本文方法充分利用無標(biāo)簽合群點(diǎn)提高泛化性能,綜合比較樣本對(duì)各類的歸屬度而非使用閾值,為離群點(diǎn)構(gòu)造容量更高的模型。

圖1 流行方法存在的問題和本文的解決方案Fig.1 Problems of popular methods and solutions in this paper

2 本文模型與方法

本節(jié)詳細(xì)描述了本文所提方法的工作原理,包括模型結(jié)構(gòu)、優(yōu)化目標(biāo)、訓(xùn)練策略和推斷流程。

2.1 問題描述

為便于討論,定義目標(biāo)任務(wù)如下:給定數(shù)據(jù)集X=Xpos∪Xun,其中:子集Xpos中的數(shù)據(jù)均為標(biāo)注數(shù)據(jù),且均為具有標(biāo)簽l的數(shù)據(jù)(即合群點(diǎn));子集Xun中的數(shù)據(jù)為未標(biāo)注數(shù)據(jù),尚待確認(rèn)其標(biāo)簽。本文所討論的異常檢測(cè)任務(wù)是指確定Xun中數(shù)據(jù)的標(biāo)簽是l(即合群點(diǎn))還是非l(即離群點(diǎn))。

2.2 模型結(jié)構(gòu)

如圖2 所示,本文模型包含編碼器E、多通道解碼器D和兩階段通道選擇器S共3 個(gè)模塊。使用編碼器E抽取輸入樣本的低維特征,多通道解碼器D的各通道互相競(jìng)爭(zhēng),試圖對(duì)編碼器E抽取的特征h進(jìn)行重構(gòu)。根據(jù)合群點(diǎn)和離群點(diǎn)的生成機(jī)制和數(shù)據(jù)分布不同,將通道類型分為2 種,其中,合群點(diǎn)通道指的是指定其中一個(gè)通道重構(gòu)合群點(diǎn),離群點(diǎn)通道指的是指定其他通道重構(gòu)離群點(diǎn)。兩階段通道選擇器S以兩階段的方式將每一個(gè)樣本點(diǎn)與其最適合的通道匹配。在第1 階段,利用注意力選擇器在所有離群點(diǎn)通道中選擇一個(gè)最佳離群點(diǎn)通道來匹配樣本點(diǎn);在第2 階段,構(gòu)造競(jìng)爭(zhēng)性選擇器從合群點(diǎn)通道和最佳離群點(diǎn)通道中選擇一個(gè)通道作為目標(biāo)通道以完成樣本點(diǎn)的最終匹配。

圖2 本文模型結(jié)構(gòu)Fig.2 Structure of model in this paper

在訓(xùn)練階段,由于正樣本訓(xùn)練數(shù)據(jù)都擁有已知的標(biāo)簽,因此直接將其送入合群點(diǎn)通道,無標(biāo)記數(shù)據(jù)則被送入選擇器S為其選擇的通道中。選擇器S持續(xù)更新其匹配結(jié)果,致力于得到樣本-通道的最優(yōu)匹配方案。模型得到充分訓(xùn)練后,在推斷階段,無標(biāo)簽樣本的標(biāo)記由樣本被選擇器S匹配的目標(biāo)通道的異常屬性決定,也就是說,如果目標(biāo)通道為合群點(diǎn)通道,就判定該樣本點(diǎn)的標(biāo)簽為l(即合群點(diǎn)),反之,則判定標(biāo)簽為非l(即離群點(diǎn))。

2.3 編碼-重構(gòu)模塊

在異常檢測(cè)領(lǐng)域,自動(dòng)編碼器[18]的有效性已被廣泛驗(yàn)證。具體來說,自動(dòng)編碼器可以從正樣本數(shù)據(jù)中學(xué)習(xí)到和合群點(diǎn)高度相關(guān)的低維特征,從而更好地對(duì)合群點(diǎn)進(jìn)行建模,相對(duì)地,對(duì)未見的離群點(diǎn)則給出較大的重構(gòu)誤差。由于數(shù)據(jù)集X包含多種類型的樣本點(diǎn),如已知目標(biāo)類中產(chǎn)生的合群點(diǎn)、未見新類中產(chǎn)生的新穎點(diǎn)、無意義噪聲等,因此較為合理的想法是構(gòu)造多個(gè)自動(dòng)編碼器對(duì)不同類型的樣本分別建模,然而多個(gè)自動(dòng)編碼器會(huì)大幅增加網(wǎng)絡(luò)參數(shù)量,并增加過擬合的風(fēng)險(xiǎn)。因此,本文提出一種較為平衡的方式,即使用一個(gè)單通道編碼器和一個(gè)多通道解碼器來構(gòu)建編碼-重構(gòu)模塊。其中,編碼器的形式如下:

多解碼器的初步解碼過程如式(2)所示:

然后,將k個(gè)解碼器的結(jié)果輸入到通道選擇器中,并輸出最后的結(jié)果,如式(3)所示:

其中:E和D分別表示編碼器和多通道解碼器;x∈X;h是樣本x經(jīng)編碼器壓縮編碼提取的低維特征;r是特征h經(jīng)多通道解碼器重構(gòu)的結(jié)果,其分量與x具有相同的尺寸。假設(shè)解碼器的通道數(shù)為k,ri,i=1,2,…,k表示第i個(gè)通道的重構(gòu)結(jié)果。注意,h的尺寸必須小于x以保證編碼器E和多通道解碼器D可以學(xué)習(xí)到與數(shù)據(jù)集X相關(guān)的信息,而非簡單地執(zhí)行無意義的恒等映射。在實(shí)現(xiàn)時(shí),編碼器和解碼器的具體形式取決于數(shù)據(jù)的模態(tài)和形式。例如:對(duì)于固定維度的多維數(shù)據(jù),可以采用多層感知機(jī)作為編碼器和解碼器;對(duì)于圖像數(shù)據(jù),則可以使用卷積神經(jīng)網(wǎng)絡(luò)。

通過構(gòu)建重構(gòu)模塊,本文模型具備了對(duì)數(shù)據(jù)集中多個(gè)不同類型的數(shù)據(jù)分布同時(shí)進(jìn)行建模的能力,并且每個(gè)數(shù)據(jù)類都通過多通道解碼器的一個(gè)通道進(jìn)行重構(gòu),在增加分布建模能力的同時(shí),有效降低參數(shù)量,緩解過擬合的風(fēng)險(xiǎn)。

為此,本文需要將每個(gè)數(shù)據(jù)樣本都準(zhǔn)確高效地分配至其最適合的通道。本文模型使用兩階段通道選擇器完成這一目標(biāo)。選擇器的兩階段結(jié)構(gòu)設(shè)計(jì)使該模型消除了使用單階段選擇器所造成的諸多問題。

2.4 兩階段通道選擇器

在異常檢測(cè)場(chǎng)景中,合群點(diǎn)和離群點(diǎn)通常在數(shù)據(jù)分布上有所區(qū)別。一般而言,合群點(diǎn)傾向于以高度集中的方式分布,離群點(diǎn)則更多地表現(xiàn)為由多個(gè)單分布(或者說類)組成的混合分布。為適應(yīng)這種數(shù)據(jù)環(huán)境,指定多通道解碼器中的合群點(diǎn)通道來重構(gòu)合群點(diǎn),使用其他離群點(diǎn)通道來重構(gòu)不同類的離群點(diǎn)。通過將各樣本送入合適的通道,增強(qiáng)重構(gòu)能力,并達(dá)到比單通道解碼器更小的重構(gòu)誤差。

通道選擇器以一種兩階段的方式將樣本與通道進(jìn)行匹配。對(duì)于每個(gè)樣本,首先,選出與其最佳匹配的離群點(diǎn)通道,再將該離群點(diǎn)通道與合群點(diǎn)通道進(jìn)行比較,選擇出目標(biāo)通道。在第1 階段,使用注意力機(jī)制進(jìn)行匹配操作。在第2 階段,使用競(jìng)爭(zhēng)性機(jī)制比較最佳離群點(diǎn)通道與合群點(diǎn)通道的重構(gòu)結(jié)果。這種結(jié)構(gòu)設(shè)計(jì)可以避免誤導(dǎo)性的局部極值點(diǎn),并直接利用引入的監(jiān)督信息對(duì)選擇結(jié)果進(jìn)行修正。

2.4.1 第1 階段的注意力選擇器

在第1 階段,模型的目標(biāo)是為樣本點(diǎn)選擇最佳匹配的離群點(diǎn)通道。為此,引入注意力機(jī)制[19]實(shí)現(xiàn)該目標(biāo)。注意力機(jī)制在自然語言處理領(lǐng)域被廣泛使用,其能迫使模型關(guān)注更有價(jià)值的信息。因此,本模型使用注意力機(jī)制使模型在所有離群點(diǎn)通道中更關(guān)注與給定樣本匹配的最佳離群點(diǎn)通道,使其更好地重構(gòu)樣本。將注意力選擇器的輸出rout作為第1 階段的選擇結(jié)果,其表達(dá)式如式(4)所示:

其中:ri(i=1,2,…,k-1)是第i個(gè)離群點(diǎn)通道的重構(gòu)結(jié)果;α是注意力權(quán)重的向量。特別地,多通道解碼器的第k個(gè)通道被指定為合群點(diǎn)通道。通過正則化技巧,每個(gè)樣本的注意力權(quán)重都被盡量約束在向量的某一元素上,也就是說,向量α只有一個(gè)元素近似為1,其他元素值都趨于0。這就保證了式(2)的加權(quán)求和操作近似地等價(jià)于選擇。注意力權(quán)重向量α的值通過對(duì)各解碼器通道的重構(gòu)結(jié)果(r1,r2,…,rk-1)進(jìn)行評(píng)分并將分?jǐn)?shù)標(biāo)準(zhǔn)化得到,其表達(dá)式如下:

其中:v、W、V和b是模型的訓(xùn)練參數(shù)。值得注意的是,可以選擇其他形式的注意力機(jī)制來處理r以得到選擇結(jié)果rout。通過第1 階段的注意力選擇器選擇出了樣本的最佳離群點(diǎn)通道,但仍須在合群點(diǎn)通道和最佳離群點(diǎn)通道中選擇其中之一作為最終的目標(biāo)通道。

2.4.2 第2 階段的競(jìng)爭(zhēng)性選擇器

在該階段,選擇器使第1 階段的選擇結(jié)果rout與合群點(diǎn)通道產(chǎn)生的重構(gòu)rin互相競(jìng)爭(zhēng)。注意到第k個(gè)通道被指定為合群點(diǎn)通道,等式rin=rk成立。考慮到重構(gòu)的目標(biāo)是使重構(gòu)結(jié)果盡可能地接近輸入數(shù)據(jù),提出使用一種直接的競(jìng)爭(zhēng)策略,即比較兩個(gè)通道的重構(gòu)誤差,并選擇較小的作為競(jìng)爭(zhēng)勝利一方進(jìn)行輸出,從而得到最終結(jié)果rres,其表達(dá)式如式(7)所示:

其中:函數(shù)RE(x,rc)度量了通道的重構(gòu)結(jié)果rc與樣本x之間的重構(gòu)誤差。對(duì)于相似性度量,選擇閔可夫斯基距離(Minkowski Distance),即p-范數(shù),作為重構(gòu)誤差,函數(shù)RE(x,rc)的表達(dá)式如下:

其中:p是范數(shù)的秩。

通過第2 階段的競(jìng)爭(zhēng)性選擇器,模型最終為每個(gè)樣本分配了一個(gè)目標(biāo)通道。下面介紹模型的訓(xùn)練方式以及如何通過模型來確定Xun中各元素是否為合群點(diǎn)。

2.5 模型訓(xùn)練和推斷

注意到正樣本數(shù)據(jù)Xpos和無標(biāo)記數(shù)據(jù)Xun具有不同的標(biāo)記可用性,本文模型設(shè)計(jì)了一個(gè)新的策略以在訓(xùn)練階段處理它們。對(duì)于正樣本數(shù)據(jù)Xpos,由于其標(biāo)記已知,因此直接將其送入合群點(diǎn)通道;對(duì)于無標(biāo)記數(shù)據(jù)Xun,使其流入由兩階段通道選擇器S選擇的目標(biāo)通道中。因此,訓(xùn)練的目標(biāo)損失函數(shù)定義為X中所有數(shù)據(jù)的平均重構(gòu)誤差,其形式如式(9)所示:

在訓(xùn)練階段,兩階段通道選擇器S持續(xù)更新其匹配結(jié)果,從而將樣本分配至更適當(dāng)?shù)耐ǖ?。本模型使用正則化技巧以確保注意力權(quán)重盡可能集中于某一特定元素上,從而使加權(quán)求和近似地等價(jià)于選擇某一特定通道。為實(shí)現(xiàn)該目標(biāo),采用L1 范數(shù)約束注意力權(quán)重α,其過程如式(10)所示:

綜上所述,總損失函數(shù)可記為:

其中:λ是正則項(xiàng)的權(quán)重。通過最小化上述損失函數(shù)來充分訓(xùn)練模型,就可以對(duì)無標(biāo)記數(shù)據(jù)集Xun中數(shù)據(jù)是否為正常樣本進(jìn)行評(píng)估。定義指示函數(shù)IXcorr:Xun→{0,1},并判定Xcorr?Xun中包含的樣本信息具有標(biāo)簽l:

算法1 詳細(xì)描述了本文方法及模型的整體工作流程(源碼:https://gitee.com/fujisato_FDU/an-anomalydetection-method-based-on-multi-decoder-and-two-stagechannel-selection)。

算法1本文方法及模型的工作流程

3 實(shí)驗(yàn)結(jié)果與分析

本節(jié)全面評(píng)估本文方法在進(jìn)行異常檢測(cè)任務(wù)時(shí)的性能,通過在4 個(gè)流行數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),證明本文方法相比于其他機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法的優(yōu)越性。此外,還設(shè)計(jì)了消融實(shí)驗(yàn)來證實(shí)本文方法所采用的模塊和策略的有效性。

3.1 數(shù)據(jù)集

本文實(shí)驗(yàn)采用MNIST[20]、USPS[21]、Fashion-MNIST[22]、CIFAR-10[23]等4 個(gè)圖像數(shù)據(jù)集,具體如下。

1)MNIST 是經(jīng)典的手寫數(shù)字?jǐn)?shù)據(jù)集,包含從0~9共10 個(gè)類,共70 000 張圖像,其中每張圖像為28×28 大小的單個(gè)手寫數(shù)字灰度圖。對(duì)于每個(gè)數(shù)字類,其包含的圖像為7 000 張。其訓(xùn)練集包含60 000 張圖像,測(cè)試集包含10 000 張圖像。

2)USPS 是美國郵政署提供的手寫數(shù)字?jǐn)?shù)據(jù)集,其規(guī)模比MNIST 小,包含0~9 共10 個(gè)類,約10 000 張圖像,其中每張圖像為16×16 大小的單個(gè)手寫數(shù)字灰度圖。其訓(xùn)練圖像為7 291 張,測(cè)試圖像為2 007 張。

3)Fashion-MNIST 數(shù)據(jù)集采用與MNIST 完全相同的配置,但其中包含的圖像為服裝類物品而非手寫數(shù)字。數(shù)據(jù)集包含的類別數(shù)、圖像總數(shù)、各類別圖像數(shù)、圖像屬性訓(xùn)練與測(cè)試圖像數(shù)等均與MNIST 數(shù)據(jù)集保持一致。

4)CIFAR-10 為自然場(chǎng)景物體數(shù)據(jù)集,包含10 個(gè)類,共60 000 張圖像,其中每張圖像的尺寸為32×32×3 的三通道RGB 彩色圖。每個(gè)類包含6 000 張圖像。其訓(xùn)練集包含50 000 張圖像,測(cè)試集包含10 000 張圖像,在各類之間均勻分布。

圖3 為各數(shù)據(jù)集的樣例。

圖3 實(shí)驗(yàn)中所使用的4 個(gè)數(shù)據(jù)集樣例Fig.3 Samples from four datasets used in the experiments

3.2 傳統(tǒng)方法介紹

使用基于傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的異常檢測(cè)方法與本文方法進(jìn)行對(duì)比,其中具有代表性的方法如下。

1)Robust Covariance 方法假定合群點(diǎn)的數(shù)據(jù)符合高斯分布,并試圖在數(shù)據(jù)空間中學(xué)習(xí)超曲面以包含他們。因而,當(dāng)合群點(diǎn)數(shù)據(jù)的實(shí)際分布并非單峰高斯分布時(shí),其方法性能會(huì)發(fā)生退化,但該方法對(duì)訓(xùn)練數(shù)據(jù)中混入的異常點(diǎn)具有一定的健壯性。

2)One-Class SVM 方法是支持向量機(jī)方法在異常檢測(cè)場(chǎng)景下的推廣。該方法試圖在高維特征空間中學(xué)習(xí)超平面,該超平面將所有合群點(diǎn)分至其一側(cè)并與原點(diǎn)保持最遠(yuǎn)可能距離。

3)Isolation Forest方法是隨機(jī)森林(Random Forest,RF)方法在異常檢測(cè)場(chǎng)景下的推廣。該方法迭代地將數(shù)據(jù)空間劃分為只包含一個(gè)樣本點(diǎn)的最小子空間,并將在早期就被分離出來的樣本點(diǎn)視為異常點(diǎn)。

4)ARAE[24]方法是基于自動(dòng)編碼器的異常檢測(cè)方法,以正樣本數(shù)據(jù)為訓(xùn)練數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)相關(guān)的低維瓶頸特征,并通過該特征重構(gòu)輸入數(shù)據(jù)。對(duì)于合群點(diǎn),由于正樣本訓(xùn)練數(shù)據(jù)已經(jīng)良好地反映了其性質(zhì),自動(dòng)編碼器可以給出較為準(zhǔn)確的重構(gòu),對(duì)于離群點(diǎn)則會(huì)產(chǎn)生較大的重構(gòu)誤差。此外,通過抑制自動(dòng)編碼器對(duì)離群點(diǎn)的重構(gòu)能力,加大了合群點(diǎn)和離群點(diǎn)重構(gòu)誤差之間的數(shù)值差距。最終,以重構(gòu)誤差度量樣本點(diǎn)的異常性。

5)DSVDD[25]方法受支持向量機(jī)方法的啟發(fā),在數(shù)據(jù)空間中尋找一可以包含所有正樣本訓(xùn)練數(shù)據(jù)的最小超球體,并將分布在該超球體球面內(nèi)部的點(diǎn)判定為合群點(diǎn),將外部的點(diǎn)判定為離群點(diǎn)。

6)GT[26]方法是基于幾何變換的異常檢測(cè)方法。該方法通過訓(xùn)練多分類模型,使其盡可能地區(qū)分正樣本訓(xùn)練數(shù)據(jù)及其各種不同的幾何變換結(jié)果,并使用該模型的輸出對(duì)樣本的異常性進(jìn)行評(píng)估。

3.3 實(shí)驗(yàn)配置

實(shí)驗(yàn)均在配有4 張Nvidia GeForce RTXTM3090圖形卡的Linux 服務(wù)器上進(jìn)行,操作系統(tǒng)為Ubuntu 18.04 LTS。使用的深度學(xué)習(xí)框架為PyTorch 1.9.0 的GPU 版本。Python 版本為3.8.0。

對(duì)于性能比較實(shí)驗(yàn),為與其他文獻(xiàn)保持一致,采用了深度異常檢測(cè)領(lǐng)域常用的一對(duì)多數(shù)據(jù)配置,即對(duì)于每個(gè)數(shù)據(jù)集的每個(gè)類,把該類的訓(xùn)練集作為正樣本數(shù)據(jù),并在所有類的測(cè)試集中隨機(jī)抽取一定比例的樣本作為無標(biāo)記數(shù)據(jù)。本文方法和所有對(duì)比方法的抽樣比例均為0.3。對(duì)于消融實(shí)驗(yàn),數(shù)據(jù)配置與性能比較實(shí)驗(yàn)相同,但抽樣比例設(shè)為0.5,在MNIST數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并取各類的平均結(jié)果作為實(shí)驗(yàn)結(jié)果。CIFAR-10 數(shù)據(jù)集的數(shù)據(jù)使用了ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練過的VGG-16 網(wǎng)絡(luò),將最后一層的1 000 維特征作為本文模型的輸入。其他數(shù)據(jù)集直接以原始數(shù)據(jù)作為輸入。

編碼器和解碼器均使用多層感知機(jī),層數(shù)為2,編碼器各層輸出維度分別為64 和32,且解碼器使用了編碼器的鏡像結(jié)構(gòu)。激活函數(shù)采用ReLU,相似度度量的范數(shù)p設(shè)為2,正則化項(xiàng)權(quán)重λ設(shè)為0.15,在批抽樣時(shí)每批的數(shù)量(Batch Size)取64。在性能比較實(shí)驗(yàn)中多通道編碼器的通道數(shù)取固定值9。消融實(shí)驗(yàn)則根據(jù)后文所描述的具體配置確定通道數(shù)。

3.4 性能比較

3.4.1 傳統(tǒng)異常檢測(cè)方法

雖然基于深度神經(jīng)網(wǎng)絡(luò)的方法已在大量應(yīng)用領(lǐng)域中占據(jù)主導(dǎo)地位,但在異常檢測(cè)領(lǐng)域中,一些經(jīng)典的機(jī)器學(xué)習(xí)方法仍然保持著不弱于深度學(xué)習(xí)方法的性能。先將本文方法與這些機(jī)器學(xué)習(xí)方法進(jìn)行對(duì)比。為了保證實(shí)驗(yàn)的全面性,選用Robust Covariance、One-Class SVM、Isolation Forest和Local Outlier Factor這4 種基于機(jī)器學(xué)習(xí)的異常檢測(cè)方法進(jìn)行對(duì)比實(shí)驗(yàn),這4 種方法覆蓋了異常檢測(cè)方法領(lǐng)域主要使用的3 種策略。使用被廣泛接受的異常檢測(cè)性能指標(biāo)——F1-分?jǐn)?shù)(F1-Score)和接受者操作特征曲線下面積(Area Under the Receiver Operating Characteristic Curve,AUROC)來評(píng)估各方法的性能。如圖4 所示,在大多數(shù)情況下,本文方法都能取得較好的結(jié)果,僅在極少數(shù)情況下,某個(gè)機(jī)器學(xué)習(xí)方法的性能能夠接近本文方法,但不能顯著超越。值得注意的是,這些機(jī)器學(xué)習(xí)方法的超參數(shù)都需要進(jìn)行重復(fù)微調(diào)才能使其性能達(dá)到可能的最高值,而本文方法則無須進(jìn)行微調(diào)就能獲得較好的性能。

圖4 機(jī)器學(xué)習(xí)方法在兩個(gè)數(shù)據(jù)集各個(gè)類上的異常檢測(cè)性能對(duì)比Fig.4 Machine learning method performance comparison for anomaly detection on various categories of two datasets

3.4.2 深度異常檢測(cè)方法

將本文方法與一系列具有代表性的深度異常檢測(cè)方法進(jìn)行比較,并采用AUROC 作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)配置與該領(lǐng)域主流工作中采取的配置保持一致。表1~表3 為本文方法與幾種主要的深度異常檢測(cè)方法的性能對(duì)比。每個(gè)數(shù)據(jù)集的最優(yōu)實(shí)驗(yàn)結(jié)果用粗體表示,次優(yōu)則用下劃線表示。實(shí)驗(yàn)結(jié)果顯示,本文方法的性能在大多數(shù)情況下都能超過其他對(duì)比方法,且本文方法在達(dá)到上述性能的同時(shí),仍可保持較高的計(jì)算效率,所需時(shí)間開銷較小,幾乎不需要進(jìn)行超參數(shù)篩選和微調(diào)。對(duì)于數(shù)據(jù)集的類間平均結(jié)果,本文方法在數(shù)據(jù)集Fashion-MNIST 和CIFAR-10 上均達(dá)到最優(yōu),在MNIST 數(shù)據(jù)集上則與表現(xiàn)最好的U-Std 方法僅保持著極微弱的差距。U-Std 方法必須進(jìn)行數(shù)種費(fèi)時(shí)操作才能達(dá)到上述最優(yōu)結(jié)果,而本文方法在減少計(jì)算和人工開銷的同時(shí)仍保持幾乎一致的性能。綜上所述,本文方法總體上優(yōu)于現(xiàn)有的深度異常檢測(cè)方法。

表1 不同方法在MNIST 數(shù)據(jù)集各個(gè)類上的AUROC 指標(biāo)對(duì)比Table 1 Comparison of AUROC indicators of different methods in various categories of MNIST dataset %

表2 不同方法在Fashion-MNIST 數(shù)據(jù)集各個(gè)類上的AUROC 指標(biāo)對(duì)比Table 2 Comparison of AUROC indicators of different methods in various categories of Fashion-MNIST dataset %

表3 不同方法在CIFAR-10 數(shù)據(jù)集各個(gè)類上的AUROC 指標(biāo)對(duì)比Table 3 Comparison of AUROC indicators of different methods in various categories of CIFAR-10 dataset %

由于只有U-Std 方法在MNIST 數(shù)據(jù)集上達(dá)到了與本文方法幾乎可比的性能,因此分析本文方法的效率優(yōu)于U-Std 方法的原因,主要有如下3 點(diǎn):

1)U-Std,即Uninformed Students,需要在大規(guī)模自然圖像數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)描述性的教師網(wǎng)絡(luò)T,以獲得學(xué)生網(wǎng)絡(luò)的回歸目標(biāo)值。這一預(yù)訓(xùn)練過程相當(dāng)耗時(shí),而本文方法不需要此種預(yù)訓(xùn)練。

2)U-Std 方法需分別訓(xùn)練大量與教師網(wǎng)絡(luò)T具有相同網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)生網(wǎng)絡(luò),然而本文方法只需要一次性訓(xùn)練一個(gè)端到端的注意力多通道自動(dòng)編碼器。

3)U-Std 方法需要在一個(gè)包含無異常圖像的驗(yàn)證集上實(shí)施對(duì)數(shù)據(jù)集依賴的微調(diào)。這一微調(diào)操作需要一定的計(jì)算開銷,但本文方法無須該操作。

本文對(duì)其他對(duì)比方法也進(jìn)行了上述分析,在表4中展示了影響各方法時(shí)間效率的主要因素,其中“—”表示未使用,“√”表示使用。

表4 影響不同方法時(shí)間效率的主要因素Table 4 Main influential factors on the time efficiency of different methods

3.5 消融實(shí)驗(yàn)

為驗(yàn)證本文方法采用的各模塊和策略的有效性,本節(jié)通過移除模型中部分模塊或取消部分策略進(jìn)行消融實(shí)驗(yàn),并觀察性能下降與否。

3.5.1 第1 階段的注意力選擇器

相較于本文方法的兩階段結(jié)構(gòu)設(shè)計(jì),一種更直接的做法是去掉注意力選擇器,此時(shí)通道選擇過程變?yōu)橄缺容^樣本在各通道的重構(gòu)誤差,再將樣本直接送入具有最低重構(gòu)誤差的通道。表5 展示了以上述方式(記為Naive)進(jìn)行異常檢測(cè)的結(jié)果。直觀地說,較低的重構(gòu)誤差與較高的匹配可能性具有強(qiáng)相關(guān)性,這一樸素的策略應(yīng)當(dāng)是有效的。然而,表5 的結(jié)果說明這一簡單比較重構(gòu)誤差的方法會(huì)導(dǎo)致模型性能的弱化。

表5 注意力選擇器的消融實(shí)驗(yàn)結(jié)果Table 5 Ablation experiment results of attentive selector %

本文注意到在訓(xùn)練階段簡單地對(duì)重構(gòu)誤差進(jìn)行比較實(shí)際上是一種貪心策略(Greedy Strategy),其總是在當(dāng)時(shí)狀況下選擇局部最優(yōu)的結(jié)果。對(duì)本文方法而言,在每次分配樣本時(shí),總是將樣本送入當(dāng)時(shí)狀況下其重構(gòu)誤差最小的通道中。由于局部最優(yōu)點(diǎn)和全局最優(yōu)點(diǎn)之間存在不一致性,該策略將受到局部極值點(diǎn)的誤導(dǎo)。也就是說,在訓(xùn)練階段,某時(shí)刻重構(gòu)誤差最小的通道并不一定是實(shí)際上的最佳匹配通道。

圖5 給出了與此相關(guān)的幾個(gè)示例,對(duì)于每一個(gè)樣本,左數(shù)第1幅圖給出了其真實(shí)圖像和標(biāo)記,左數(shù)第2幅圖展示了特征更接近真實(shí)圖像的重構(gòu),但其重構(gòu)誤差(Reconstruction Error,RE)大于左數(shù)第3 幅圖的重構(gòu)。通常來說,貪心策略將選擇第3 列的重構(gòu)。對(duì)于有些通道,他們即便不是某樣本在某時(shí)刻的局部最優(yōu),也學(xué)習(xí)到了該樣本最有意義的重構(gòu)。因此,樸素地比較重構(gòu)誤差可能會(huì)將樣本送入錯(cuò)誤的通道,削弱重構(gòu)模塊對(duì)目標(biāo)數(shù)據(jù)的建模能力,一種更好的辦法是使用注意力機(jī)制捕獲樣本和通道之間更深層的潛在關(guān)聯(lián)關(guān)系。實(shí)驗(yàn)結(jié)果證明注意力選擇器的引入可提高方法的性能。

圖5 全局最優(yōu)重構(gòu)和局部最優(yōu)重構(gòu)示意圖Fig.5 Schematic diagram of global optimum and local optimum

3.5.2 第2 階段的競(jìng)爭(zhēng)性選擇器

如果將競(jìng)爭(zhēng)性選擇器移除,則模型變?yōu)橐粋€(gè)純粹的、單階段的注意力選擇器,也就是說,樣本的去向直接取決于單一注意力選擇器的選擇結(jié)果。表6 展示了以上述方式(記為ATT)進(jìn)行異常檢測(cè)的結(jié)果。由表6可知,使用該策略會(huì)在一定程度上降低本文方法的性能。其原因在于,經(jīng)過充分訓(xùn)練以后,競(jìng)爭(zhēng)性選擇器比注意力選擇器更直接地利用合群點(diǎn)通道中學(xué)習(xí)到的監(jiān)督信息,可以有效地對(duì)注意力選擇器生成的匹配結(jié)果進(jìn)行矯正,提高模型的最終表現(xiàn)。

表6 競(jìng)爭(zhēng)性選擇器的消融實(shí)驗(yàn)結(jié)果Table 6 Ablation experiment results of competitive selector %

3.5.3 編碼-重構(gòu)模塊

移除編碼-重構(gòu)模塊意味著直接構(gòu)造一個(gè)選擇器,將數(shù)據(jù)樣本分入各個(gè)類中,并且不是使用自動(dòng)編碼器的通道對(duì)樣本進(jìn)行重構(gòu),而是通過對(duì)目標(biāo)數(shù)據(jù)聚類來實(shí)現(xiàn)。本文將3種聚類算法K-means、Spectral和BIRCH分別與本文方法進(jìn)行比較,結(jié)果如表7 所示??梢钥闯?,聚類算法在異常檢測(cè)任務(wù)上的結(jié)果均低于本文方法。這說明,將常用于異常檢測(cè)領(lǐng)域的自動(dòng)編碼器重構(gòu)模塊與針對(duì)異常檢測(cè)任務(wù)設(shè)計(jì)的選擇器相結(jié)合,其算法性能將超過其他單獨(dú)執(zhí)行選擇操作的算法。

表7 編碼-重構(gòu)模塊的消融實(shí)驗(yàn)結(jié)果(AUROC 值)Table 7 Ablation experiment results of decoding module(AUROC value)%

3.5.4 正樣本數(shù)據(jù)增強(qiáng)

本文希望找到潛藏在無標(biāo)記數(shù)據(jù)中的合群點(diǎn),并在訓(xùn)練時(shí)將其補(bǔ)充到正樣本數(shù)據(jù)集中,從而達(dá)到控制過擬合的效果??梢酝茰y(cè),如果取消這一策略,也就是將這部分合群點(diǎn)從訓(xùn)練數(shù)據(jù)集中移除,將會(huì)降低本文模型的性能。由表8 可知,隨著參與訓(xùn)練的無標(biāo)記數(shù)據(jù)中合群點(diǎn)數(shù)量的減少,本文模型的性能會(huì)逐步下降,這說明使用無標(biāo)記數(shù)據(jù)中的合群點(diǎn)確實(shí)能增強(qiáng)訓(xùn)練數(shù)據(jù),抑制過擬合問題,提升本文模型的性能。

表8 合群點(diǎn)利用率對(duì)本文模型性能的影響Table 8 Influence of the utilization of Inliers on the performance of model in this paper

3.5.5 離群點(diǎn)建模

如果移除本文方法中的離群點(diǎn)通道,將會(huì)取消對(duì)離群點(diǎn)建模,使模型退化為一個(gè)自動(dòng)編碼器,這一變化將迫使模型必須使用一個(gè)經(jīng)驗(yàn)性的閾值來分離合群點(diǎn)和離群點(diǎn)。這里,采用訓(xùn)練數(shù)據(jù)平均重構(gòu)誤差與3 倍標(biāo)準(zhǔn)差的和作為截?cái)嚅撝怠?/p>

圖6 中k=0 的點(diǎn)展示了以上述方式進(jìn)行異常檢測(cè)的結(jié)果??梢钥吹剑∠x群點(diǎn)建模對(duì)模型性能產(chǎn)生了很大影響。這是因?yàn)槟P蜔o法對(duì)離群點(diǎn)建模,在進(jìn)行異常檢測(cè)時(shí)只能經(jīng)驗(yàn)性地推斷合群點(diǎn)的邊界并確定閾值,而不是通過比較樣本對(duì)正常類和異常類的歸屬度來判別其異常性。此時(shí),大量可用的無標(biāo)記數(shù)據(jù)中的信息被浪費(fèi),導(dǎo)致性能下降。

圖6 離群點(diǎn)通道數(shù)量對(duì)本文模型性能的影響Fig.6 Influence of the number of Outlier channels on the performance of model in this paper

3.5.6 不對(duì)稱建模

通過改變多通道解碼器中離群點(diǎn)通道的數(shù)量(即圖6 中的橫坐標(biāo)k)以調(diào)整模型的對(duì)稱度。當(dāng)離群點(diǎn)通道數(shù)設(shè)置為1 時(shí),模型對(duì)合群點(diǎn)和離群點(diǎn)進(jìn)行完全對(duì)稱的建模;當(dāng)離群點(diǎn)通道數(shù)設(shè)置為0 時(shí),不為離群點(diǎn)分配任何通道,沒有了離群點(diǎn)建模過程,模型退化為一個(gè)自動(dòng)編碼器(即上一小節(jié)的情況)。隨著離群點(diǎn)通道數(shù)量的增加,模型的不對(duì)稱性逐漸增加??紤]到計(jì)算資源有限,將離群點(diǎn)通道的數(shù)量控制在0~9 的合理范圍內(nèi)進(jìn)行實(shí)驗(yàn)。

圖6 的實(shí)驗(yàn)結(jié)果顯示,盡管模型的性能表現(xiàn)和離群點(diǎn)通道的數(shù)量并非嚴(yán)格滿足單調(diào)性,但總體上仍呈現(xiàn)正相關(guān)性。對(duì)于模型性能和離群點(diǎn)通道數(shù)量關(guān)系的非嚴(yán)格單調(diào)性可做如下解釋:如先前研究[36]所報(bào)道的,隨著備選特征數(shù)量的增長,模型的參數(shù)規(guī)模也隨之增加,這將導(dǎo)致模型要在更大的參數(shù)空間中搜索最優(yōu)點(diǎn),也會(huì)更容易陷入局部極值點(diǎn),從而使注意力機(jī)制變得難以優(yōu)化。同時(shí),分配至每一個(gè)離群點(diǎn)通道的訓(xùn)練數(shù)據(jù)量也會(huì)縮減,這進(jìn)一步影響了模型性能。這一事實(shí)說明,盡管在理想情況下目標(biāo)數(shù)據(jù)中的每一類都應(yīng)該被分配一個(gè)單獨(dú)的通道進(jìn)行建模,但在實(shí)際應(yīng)用時(shí)必須考慮到平衡模型容量和全局最優(yōu)點(diǎn)可達(dá)性,即通過提高模型找到全局最優(yōu)點(diǎn)的概率,從而提高模型性能,需要損失模型對(duì)目標(biāo)數(shù)據(jù)分布的擬合能力。

3.6 大規(guī)模數(shù)據(jù)實(shí)驗(yàn)

在較大數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)以檢驗(yàn)本文方法在大規(guī)模數(shù)據(jù)下的性能表現(xiàn)。具體地,分別將MNIST 數(shù)據(jù)集和Fashion-MNIST 數(shù)據(jù)集通過疊加、水平翻轉(zhuǎn)、直角旋轉(zhuǎn)等8 種方式進(jìn)行數(shù)據(jù)增強(qiáng)后,取其中一個(gè)數(shù)據(jù)集的所有訓(xùn)練數(shù)據(jù)為正樣本數(shù)據(jù),取兩個(gè)數(shù)據(jù)集的所有測(cè)試數(shù)據(jù)為無標(biāo)記數(shù)據(jù)。通過該方式,將實(shí)驗(yàn)使用的數(shù)據(jù)規(guī)模從9 000個(gè)樣本提高到640 000個(gè)樣本。表9 所示為在不同比例數(shù)據(jù)r下分別取兩個(gè)數(shù)據(jù)集做正樣本數(shù)據(jù)的實(shí)驗(yàn)結(jié)果。其中,當(dāng)r取0.05時(shí)使用32 000個(gè)樣本,當(dāng)r取1時(shí)使用640 000個(gè)樣本,以此類推。表9 的實(shí)驗(yàn)結(jié)果顯示,本文方法在數(shù)據(jù)量大幅增長時(shí)依然可以保持原有的性能水平,顯示出一定的健壯性。

表9 數(shù)據(jù)量對(duì)本文模型AUROC 值的影響Table 9 Influence of data amount on AUROC value of model in this paper %

4 結(jié)束語

針對(duì)當(dāng)前深度異常檢測(cè)方法中存在浪費(fèi)無標(biāo)記數(shù)據(jù)、只度量正常類樣本、對(duì)等處理不同類型樣本等問題,本文提出一種基于多解碼器與兩階段通道選擇的異常檢測(cè)方法。該方法的模型由一個(gè)編碼器、一個(gè)多通道解碼器(即多解碼器)和一個(gè)兩階段通道選擇器組成,其中,通道選擇器能夠?qū)⒚總€(gè)數(shù)據(jù)樣本與其最適合的通道進(jìn)行匹配。在模型訓(xùn)練階段:正類樣本訓(xùn)練數(shù)據(jù)被直接送入指定的合群點(diǎn)通道,使該通道能充分學(xué)習(xí)合群點(diǎn)的模式;無標(biāo)記數(shù)據(jù)則流入由選擇器所決定的通道中。此外,通道選擇器以一種兩階段的方式為樣本分配通道,在模型得到充分訓(xùn)練后,各無標(biāo)記數(shù)據(jù)樣本的標(biāo)簽(即異常與否)由其被最終分配進(jìn)入的目標(biāo)通道屬性來確定。實(shí)驗(yàn)結(jié)果表明,該方法具有優(yōu)越的性能,所采用的各模塊和策略均具備有效性。下一步將引入小樣本的有標(biāo)記離群點(diǎn)信息,以訓(xùn)練和引導(dǎo)異常檢測(cè)中采用的注意力機(jī)制,從而增強(qiáng)學(xué)習(xí)離群點(diǎn)模式的學(xué)習(xí)能力。

猜你喜歡
選擇器合群離群
靶通道選擇器研究與優(yōu)化設(shè)計(jì)
談合群
堅(jiān)持做自己就是不合群?
幫孩子治療“不合群癥”
四選一數(shù)據(jù)選擇器74LS153級(jí)聯(lián)方法分析與研究
電腦與電信(2017年6期)2017-08-08 02:04:22
找出不合群的詞
離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
雙四選一數(shù)據(jù)選擇器74HC153的級(jí)聯(lián)分析及研究
離群的小雞
應(yīng)用相似度測(cè)量的圖離群點(diǎn)檢測(cè)方法
佛教| 丹棱县| 永昌县| 砚山县| 贵阳市| 浦江县| 伊通| 罗山县| 清苑县| 潢川县| 蒲城县| 金山区| 来宾市| 大新县| 拉萨市| 囊谦县| 体育| 万山特区| 景泰县| 大同市| 临夏县| 江华| 湟中县| 江津市| 吉水县| 磐石市| 无极县| 万宁市| 仙居县| 浪卡子县| 临江市| 深圳市| 石河子市| 桂林市| 什邡市| 保亭| 南和县| 广德县| 射洪县| 济源市| 延津县|