范 燁 彭淑娟 柳 欣 崔 振 王楠楠
1(華僑大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 福建廈門(mén) 361021)2(廈門(mén)市計(jì)算機(jī)視覺(jué)與模式識(shí)別重點(diǎn)實(shí)驗(yàn)室(華僑大學(xué)) 福建廈門(mén) 361021)3(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)4(綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(西安電子科技大學(xué)) 西安 710071)(fanye@stu.hqu.edu.cn)
異常檢測(cè)是開(kāi)放場(chǎng)景中機(jī)器學(xué)習(xí)和數(shù)據(jù)分析的一項(xiàng)重要技術(shù),旨在挖掘出數(shù)據(jù)集中與大多數(shù)其他數(shù)據(jù)具有顯著區(qū)別的對(duì)象,已廣泛應(yīng)用于如網(wǎng)絡(luò)垃圾郵件檢測(cè)[1]、信息差異管理[2]、網(wǎng)絡(luò)入侵與故障檢測(cè)[3]、信息竊取[4]、圖像/視頻監(jiān)控[5]等實(shí)際應(yīng)用領(lǐng)域中.近年來(lái),國(guó)內(nèi)外研究學(xué)者針對(duì)異常檢測(cè)已經(jīng)提出了許多有效的解決方法,包括基于數(shù)據(jù)分布的方法[6]、基于距離的方法[7-10]、基于密度的方法[11]和基于聚類(lèi)的方法[12-14].然而,這些異常檢測(cè)的方法主要針對(duì)的是單一視圖數(shù)據(jù).在眾多的實(shí)際場(chǎng)景中,數(shù)據(jù)往往來(lái)源多樣,并且具有多種表現(xiàn)形式.近年來(lái),研究人員發(fā)現(xiàn)對(duì)單個(gè)視圖數(shù)據(jù)進(jìn)行異常檢測(cè)時(shí)常常存在著漏檢問(wèn)題,究其原因在于當(dāng)查看某個(gè)實(shí)例每個(gè)單獨(dú)視圖中的大部分?jǐn)?shù)據(jù)時(shí),它們通常不是異常的,但當(dāng)聯(lián)合考慮多個(gè)視圖時(shí),它們就可能會(huì)呈現(xiàn)異常狀態(tài).然而,由于多視圖數(shù)據(jù)復(fù)雜的組織結(jié)構(gòu)和分布差異性,傳統(tǒng)的異常檢測(cè)方法常常無(wú)法滿足對(duì)多視圖數(shù)據(jù)進(jìn)行異常樣本檢測(cè)的需求.
Fig. 1 Difference between multi-view anomaly detection and cross-modal anomaly detection圖1 多視角異常檢測(cè)與跨模態(tài)異常檢測(cè)的區(qū)別
據(jù)文獻(xiàn)研究[5],在實(shí)際場(chǎng)景中多視圖數(shù)據(jù)常常包括了2類(lèi)數(shù)據(jù):一類(lèi)是來(lái)自同一實(shí)例的不同視角數(shù)據(jù),如來(lái)自同一人臉的左側(cè)部分與右側(cè)部分;另一類(lèi)是源自同一實(shí)例的不同模態(tài)數(shù)據(jù),如反映同一語(yǔ)義信息的圖片與文本等.針對(duì)多視圖樣本點(diǎn)的異常檢測(cè)問(wèn)題,近年來(lái)研究人員提出并嘗試了一些多視圖異常檢測(cè)的方法,然而這些方法主要專(zhuān)注于檢測(cè)多視圖數(shù)據(jù)中屬于同一實(shí)例的不同視角異常樣本信息,鮮有相關(guān)研究專(zhuān)注于檢測(cè)多視圖數(shù)據(jù)中屬于同一實(shí)例的不同模態(tài)異常信息.在實(shí)際場(chǎng)景中,多視角異常檢測(cè)可能難以完成不同模態(tài)的檢測(cè)問(wèn)題.例如,自閉癥患者的行為在平時(shí)與常人無(wú)異,但在一些表述中會(huì)表現(xiàn)出與常人不同的行為.因此,可以利用這些表述對(duì)患者所對(duì)應(yīng)的行為進(jìn)行檢測(cè).為有效檢測(cè)來(lái)源多樣的多視圖異常數(shù)據(jù),研究人員提出了基于多模態(tài)數(shù)據(jù)的跨模態(tài)異常檢測(cè)概念,如圖1所示,多視角異常檢測(cè)旨在通過(guò)結(jié)合不同視角的數(shù)據(jù)進(jìn)行檢測(cè),而跨模態(tài)異常檢測(cè)旨在利用一個(gè)模態(tài)數(shù)據(jù)樣本去檢測(cè)屬于同一實(shí)例的其他模態(tài)樣本異常信息.盡管屬于同一實(shí)例的不同模態(tài)數(shù)據(jù)具有較高的語(yǔ)義關(guān)聯(lián)性,然而不同模態(tài)數(shù)據(jù)樣本呈現(xiàn)分布復(fù)雜、特征異構(gòu)并且具有明顯的語(yǔ)義鴻溝,因此從不同模態(tài)數(shù)據(jù)中進(jìn)行有效的異常檢測(cè)仍是一個(gè)極其挑戰(zhàn)性的課題.
據(jù)文獻(xiàn)[15]可知,目前多視圖數(shù)據(jù)中的樣本異常主要可以分為3類(lèi):1)類(lèi)別異常;2)屬性-類(lèi)別異常;3)屬性異常.這3類(lèi)異常的形式化定義如1)~3):
1) 類(lèi)別異常.在不同視圖中表現(xiàn)出不一致特征的異常值,即該數(shù)據(jù)樣本在不同的視圖中表現(xiàn)出不同的類(lèi)別特征,如圖2空心圓形所示.
2) 屬性-類(lèi)別異常.在某些視圖中表現(xiàn)出正常的特征值,而在其他視圖中表現(xiàn)出不一致的異常值,即該數(shù)據(jù)樣本在某些視圖中沒(méi)有表現(xiàn)出異常,而在其余視圖中表現(xiàn)出異常,如圖2空心三角形所示.
3) 屬性異常.在每個(gè)視圖中都表現(xiàn)出不一致的異常值,即該數(shù)據(jù)樣本在不同的視圖中都表現(xiàn)出異常,如圖2五邊形所示.
Fig. 2 Classfication and detection of three types of outliers圖2 3類(lèi)異常樣本的分類(lèi)及檢測(cè)
有效的多視圖異常檢測(cè)方法需要對(duì)上述3類(lèi)異常樣本進(jìn)行檢測(cè).然而,由于同一實(shí)例不同模態(tài)的數(shù)據(jù)也屬于多視圖數(shù)據(jù),傳統(tǒng)的多視圖異常檢測(cè)無(wú)法有效處理此類(lèi)問(wèn)題.為有效檢測(cè)來(lái)源多樣的多模態(tài)異常數(shù)據(jù),近年來(lái)提出的跨模態(tài)異常檢測(cè)方法仍然需要對(duì)以上述3類(lèi)異常進(jìn)行檢測(cè).據(jù)文獻(xiàn)[14],現(xiàn)有的跨模態(tài)異常檢測(cè)框架主要采用雙分支模型將不同模態(tài)中的數(shù)據(jù)投影到共同語(yǔ)義嵌入空間進(jìn)行差異化分析.然而,若一個(gè)實(shí)例中的多個(gè)模態(tài)數(shù)據(jù)同時(shí)出現(xiàn)異常且數(shù)據(jù)結(jié)構(gòu)特征相似時(shí),該框架會(huì)將該組數(shù)據(jù)投影到相似的位置,從而常常存在漏檢現(xiàn)象.因此,現(xiàn)有的跨模態(tài)異常檢測(cè)方法不能同時(shí)有效滿足對(duì)3類(lèi)不同類(lèi)型異常值進(jìn)行全面檢測(cè),并且有益于訓(xùn)練的樣本沒(méi)有實(shí)際參與模型訓(xùn)練,數(shù)據(jù)利用不夠充分.針對(duì)上述問(wèn)題,本文提出了一種結(jié)合分層深度網(wǎng)絡(luò)與相似度雙向五元組的跨模態(tài)異常檢測(cè)方法,旨在全面檢測(cè)出不同模態(tài)中所有的異常類(lèi)型樣本點(diǎn).具體地,以圖片和文本為例,本文將圖片與文本數(shù)據(jù)輸入到框架之中,使用單視圖異常檢測(cè)層對(duì)其中一個(gè)模態(tài)進(jìn)行檢測(cè),判斷檢測(cè)數(shù)據(jù)樣本中是否存在屬性異常與部分屬性-類(lèi)別異常點(diǎn).若檢測(cè)出該數(shù)據(jù)沒(méi)有此類(lèi)異常,則該數(shù)據(jù)進(jìn)入跨模態(tài)檢測(cè)層,對(duì)該數(shù)據(jù)的圖片以及文本描述進(jìn)行進(jìn)一步檢測(cè),該部分采用相似度雙向五元組損失的雙分支深度網(wǎng)絡(luò)用于檢測(cè)數(shù)據(jù)中的類(lèi)別異常與其余部分的屬性-類(lèi)別異常.該損失讓不同屬性之間的數(shù)據(jù)正交化,相同屬性之間的數(shù)據(jù)線性相關(guān),從而不同屬性數(shù)據(jù)的特征相關(guān)性降低,相同屬性數(shù)據(jù)的特征相關(guān)性提高,并且通過(guò)模態(tài)間雙向約束和模態(tài)內(nèi)的鄰域約束,極大提高了數(shù)據(jù)利用率,進(jìn)而獲得更好的訓(xùn)練效果.本文工作的主要貢獻(xiàn)主要包括3個(gè)方面:
1) 提出一種新的跨模態(tài)異常檢測(cè)框架.該框架結(jié)合分層深度網(wǎng)絡(luò)進(jìn)行跨模態(tài)異常檢測(cè),使得該框架可以完整檢測(cè)出3類(lèi)不同類(lèi)型異常值,為跨模態(tài)異常檢測(cè)提供一種新的研究思路.
2) 提出一種相似度雙向五元組損失的異常檢測(cè)方案,該損失使得不同屬性數(shù)據(jù)正交化,相同屬性數(shù)據(jù)線性相關(guān),有效加大了不同屬性數(shù)據(jù)間的特征差異性;增加了相同屬性數(shù)據(jù)之間的特征相關(guān)性,并通過(guò)雙向約束極大提高了模型的泛化能力.
3) 提出的學(xué)習(xí)框架可以有效檢測(cè)不同模態(tài)中的異常樣本點(diǎn),相比于現(xiàn)有的跨模態(tài)異常檢測(cè)的方法,本文所提出的框架幾乎取得了全面的提升.
隨著多視角數(shù)據(jù)在實(shí)際應(yīng)用中的普及,研究者針對(duì)多視圖數(shù)據(jù)的異常檢測(cè)進(jìn)行了諸多實(shí)驗(yàn)與探究,并提出了一些代表性的多視角異常檢測(cè)方法.例如,Gao等人[16]提出的水平異常檢測(cè)(horizontal anomaly detection, HOAD)是第1個(gè)解決多視圖異常檢測(cè)的有效方法,該算法首先構(gòu)造一個(gè)相似矩陣并進(jìn)行譜嵌入,然后利用不同嵌入之間的相似度來(lái)對(duì)每個(gè)實(shí)例的異常得分進(jìn)行異常檢測(cè)計(jì)算.Marcos等人[17]提出了一種基于親和矩陣(affinity propagation, AP)的異常檢測(cè)方法,該方法通過(guò)分析不同視圖中每個(gè)實(shí)例的鄰域來(lái)檢測(cè)異常樣本點(diǎn).Alexander等人[18]提出了一種基于共識(shí)聚類(lèi)(consensus clusters, CC)的多視圖異常檢測(cè)方法,旨在通過(guò)多個(gè)視圖聚類(lèi)結(jié)果的不一致性來(lái)檢測(cè)異常樣本點(diǎn).然而,這些方法都僅用于檢測(cè)類(lèi)別異常,并未考慮其他異常類(lèi)別.針對(duì)這個(gè)問(wèn)題,Zhao等人[19]首先提出了多視圖數(shù)據(jù)中樣本屬性異常與類(lèi)別異常的概念,接著使用低秩子空間與K-means聚類(lèi)方法(dual-regularized multi-view outlier detection, DMOD)對(duì)2類(lèi)不同異常值進(jìn)行同時(shí)檢測(cè).然而,基于聚類(lèi)的檢測(cè)方法對(duì)數(shù)據(jù)集中的異常樣本點(diǎn)比較敏感,常常導(dǎo)致聚類(lèi)中心的偏差高,從而導(dǎo)致低檢測(cè)率.Li等人[20]將數(shù)據(jù)投影到低秩子空間進(jìn)行學(xué)習(xí)(multi-view low-rank analysis, MLRA),然而該方法要求不同視圖有著相同的維度,因此在許多多模態(tài)應(yīng)用場(chǎng)景中受到限制.
近年來(lái),Li等人[15]深入總結(jié)多視角異常樣本的各種情況,并提出了第3類(lèi)屬性-類(lèi)別異常概念.為了檢測(cè)3類(lèi)不同的異常,Sheng等人[21]提出了使用KNN(K-nearest neighbor)對(duì)不同視圖進(jìn)行檢測(cè)的方法MUVAD(multi-view anomaly detection),該方法通過(guò)單個(gè)視圖對(duì)應(yīng)的其余視圖數(shù)據(jù)近鄰關(guān)系進(jìn)行相似度異常檢測(cè),取得了在低維數(shù)據(jù)中很好的效果.然而該方法在高維數(shù)據(jù)樣本中的異常檢測(cè)效果欠佳.隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,Ji等人[22]首次使用神經(jīng)網(wǎng)絡(luò)對(duì)多視圖進(jìn)行異常檢測(cè)(multi-view outlier detection in deep intact space, MODDIS),該方法利用神經(jīng)網(wǎng)絡(luò)將各自視圖與融合視圖的特征進(jìn)行提取疊加,取得了較好的多視角異常檢測(cè)效果.然而,在多模態(tài)數(shù)據(jù)中,不同模態(tài)數(shù)據(jù)樣本分布復(fù)雜、特征異構(gòu)并且具有明顯的語(yǔ)義鴻溝,因此,該方法不適用于特征異構(gòu)的多模態(tài)數(shù)據(jù)異常檢測(cè).據(jù)文獻(xiàn)查證,針對(duì)多視圖數(shù)據(jù)中跨模態(tài)數(shù)據(jù)的異常檢測(cè)是一項(xiàng)較為嶄新的課題,有關(guān)此類(lèi)問(wèn)題的方法較少.Li等人[23]針對(duì)跨模態(tài)異常檢測(cè)問(wèn)題,提出了基于深度網(wǎng)絡(luò)的跨模態(tài)異常檢測(cè)方法(cross-modal anomaly detection, CMAD),該方法首先使用單向三元組對(duì)跨模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練,然后通過(guò)相似度度量判斷不同模態(tài)之間的異常,可以有效地突破不同模態(tài)的語(yǔ)義鴻溝,進(jìn)行跨模態(tài)異常檢測(cè).然而,該方法僅僅只關(guān)注不同模態(tài)之間的相似性,從而會(huì)對(duì)具有相似性的不同模態(tài)異常樣本進(jìn)行漏檢.同時(shí),由于該方法使用單向的三元組損失函數(shù),該損失函數(shù)忽略了許多其他有益于訓(xùn)練的樣本,其訓(xùn)練效果還有所欠缺.
針對(duì)來(lái)源不同的多視圖異構(gòu)數(shù)據(jù),本文以圖像和文本為例介紹跨模態(tài)異常檢測(cè)學(xué)習(xí)框架.同時(shí),針對(duì)現(xiàn)有跨模態(tài)異常檢測(cè)框架對(duì)3類(lèi)異常值檢測(cè)不夠全面的問(wèn)題,如圖3所示,本文提出的異常檢測(cè)框架采用了分層深度網(wǎng)絡(luò)結(jié)構(gòu).具體地,學(xué)習(xí)框架首先引入一個(gè)單視圖異常檢測(cè)網(wǎng)絡(luò)層,通過(guò)深層特征和模態(tài)內(nèi)近鄰樣本相似度判斷來(lái)檢測(cè)數(shù)據(jù)樣本中是否存在屬性異常與屬性-類(lèi)別異常點(diǎn).若檢測(cè)出該數(shù)據(jù)沒(méi)有此類(lèi)異常,進(jìn)一步采用相似度雙向五元組損失的雙分支深度網(wǎng)絡(luò)用于檢測(cè)跨模態(tài)數(shù)據(jù)中的類(lèi)別異常與屬性-類(lèi)別異常,該損失使得不同屬性數(shù)據(jù)正交化、相同屬性數(shù)據(jù)線性相關(guān),加大了不同屬性之間的特征的差異性,并同時(shí)提高了相同屬性之間的特征相關(guān)性.此外,學(xué)習(xí)框架通過(guò)模態(tài)間雙向約束和鄰域約束來(lái)提高樣本數(shù)據(jù)的利用率和增強(qiáng)模型的泛化能力.
(1)
Fig. 3 The proposed cross-modal anomaly detection framework圖3 本文提出的跨模態(tài)異常檢測(cè)框架
(2)
(3)
(4)
(5)
屬于同一樣本的多模態(tài)數(shù)據(jù)具有語(yǔ)義一致性.為刻畫(huà)圖片和文本的語(yǔ)義關(guān)聯(lián)性,本文采取相似度雙向五元組損失函數(shù)進(jìn)行圖片文本的語(yǔ)義關(guān)聯(lián)性學(xué)習(xí)約束,該損失由多個(gè)相似度三元組損失構(gòu)成,該損失函數(shù)使得不同屬性數(shù)據(jù)得以正交化,相同屬性數(shù)據(jù)線性相關(guān),相似度三元組損失其形式化定義為
(6)
其中,a表示固定樣本,p表示與a屬于同一類(lèi)別的正樣本,n表示與a屬于不同類(lèi)別的負(fù)樣本,sim(a,p)表示固定樣本a與正樣本p對(duì)應(yīng)的特征表達(dá)式之間的相似度;sim(a,n)表示固定樣本a與負(fù)樣本n對(duì)應(yīng)的特征表達(dá)式之間的相似度,當(dāng)sim(a,n)=0時(shí)固定樣本a與負(fù)樣本n正交.為了使得該損失函數(shù)收斂效果更好,本文在該損失函數(shù)中增加了一個(gè)松弛γ,γ表示sim(a,n)之間的相似度松弛.針對(duì)每個(gè)三元組(a,p,n),三元組損失的優(yōu)化目標(biāo)是讓sim(a,n)盡可能小于γ,sim(a,p)盡可能接近γ0,當(dāng)sim(a,p)=1時(shí),固定樣本a與正樣本p線性相關(guān),并且該損失保證各個(gè)向量不為零向量,因此本文使用的γ0=1,且γ<γ0.
2.3.1 模態(tài)間的雙向約束
(9)
因此損失定義為
(10)
(11)
因此上述損失函數(shù)可以表示為
(12)
該損失函數(shù)對(duì)圖像-文本和文本-圖像數(shù)據(jù)進(jìn)行了雙向語(yǔ)義關(guān)聯(lián)約束,使得不同模態(tài)間相同屬性的特征相關(guān)性增大,不同屬性的特征相關(guān)性減少.
2.3.2 模態(tài)內(nèi)的鄰域約束
(14)
因此文本模態(tài)內(nèi)鄰域損失定義為
(15)
(16)
對(duì)相同模態(tài)之間進(jìn)行鄰域約束,可以使得在相同模態(tài)之間不同屬性的數(shù)據(jù)特征相關(guān)性減少,相同屬性的數(shù)據(jù)特征相關(guān)性增大,不僅增加了數(shù)據(jù)的使用率,而且可以增大不同屬性數(shù)據(jù)的區(qū)分度.
2.3.3 訓(xùn)練策略
(17)
(18)
整個(gè)的相似度雙向五元組損失函數(shù)為
(19)
本文采用結(jié)合權(quán)重衰減和動(dòng)量技術(shù)的隨機(jī)梯度下降方法(stochastic gradient descent, SGD)來(lái)優(yōu)化模型.
為了充分評(píng)估本文所提出算法的有效性和魯棒性,本節(jié)進(jìn)行了大量實(shí)驗(yàn)來(lái)進(jìn)行驗(yàn)證.
本文采用3個(gè)公開(kāi)的MNIST,F(xiàn)ashionMNIST,CIFAR10數(shù)據(jù)集進(jìn)行異常檢測(cè)算法性能評(píng)估,數(shù)據(jù)集的詳細(xì)信息描述為:
MNIST[24]數(shù)據(jù)集由7萬(wàn)張?jiān)紙D像來(lái)代表1×28×28像素的10個(gè)不同數(shù)字.整個(gè)MNIST數(shù)據(jù)集分為6萬(wàn)個(gè)訓(xùn)練集和1萬(wàn)個(gè)實(shí)例的測(cè)試集.
FashionMNIST[25]數(shù)據(jù)集是一個(gè)替代MNIST手寫(xiě)數(shù)字集的圖像數(shù)據(jù)集,其涵蓋了來(lái)自10種類(lèi)別標(biāo)簽的共7萬(wàn)個(gè)不同商品圖片.該數(shù)據(jù)集的大小以及訓(xùn)練集/測(cè)試集劃分與MNIST數(shù)據(jù)集一致.
CIFAR10[26]數(shù)據(jù)集是一個(gè)用于普適物體識(shí)別的計(jì)算機(jī)視覺(jué)數(shù)據(jù)集,該數(shù)據(jù)集包含6萬(wàn)張3×32×32的RGB彩色圖片,總共10個(gè)分類(lèi).其中,包括5萬(wàn)張用于訓(xùn)練集,1萬(wàn)張用于測(cè)試集.
3個(gè)數(shù)據(jù)集同時(shí)包含圖片數(shù)據(jù)信息和類(lèi)別標(biāo)簽信息,因此本文參照文獻(xiàn)[23]的方法,根據(jù)類(lèi)別標(biāo)簽信息自動(dòng)為每張圖像中添加文本標(biāo)簽語(yǔ)義描述信息,并通過(guò)GLOVE詞嵌入方法將文本標(biāo)簽信息嵌入到100維向量中,使得數(shù)據(jù)集綜合生成與圖片語(yǔ)義相對(duì)應(yīng)的文本描述信息.本文從3個(gè)數(shù)據(jù)集中的訓(xùn)練集分別取出5 000個(gè)實(shí)例作為驗(yàn)證集,并確保其訓(xùn)練集與驗(yàn)證集不相交.
針對(duì)多視角數(shù)據(jù)存在3類(lèi)異常樣本的問(wèn)題,本文生成一定比例的跨模態(tài)3類(lèi)異常數(shù)據(jù).具體地,本文將一定比例的文本進(jìn)行修改以及隨機(jī)注入其他類(lèi)型的文本數(shù)據(jù)來(lái)生成文本屬性異常與屬性-類(lèi)別異常的數(shù)據(jù);同時(shí),本文將一定比例圖片中的維度數(shù)據(jù)進(jìn)行隨機(jī)生成來(lái)構(gòu)建圖片屬性異常數(shù)據(jù)與屬性-類(lèi)別異常,并選取一定比例文本和圖片進(jìn)行隨機(jī)打亂來(lái)生成類(lèi)別異常.
本文采用了4種近3年來(lái)可用于跨模態(tài)異常檢測(cè)的算法進(jìn)行比較:基于雙分支深度神經(jīng)網(wǎng)絡(luò)嵌入的學(xué)習(xí)框架[27](embedding network, EN),通過(guò)測(cè)量不同模態(tài)之間的歐氏距離來(lái)區(qū)分跨模態(tài)異常;基于特征融合的深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)框架(MODDIS);基于相似度的跨視圖KNN框架(MUVAD);以及深度網(wǎng)絡(luò)跨模態(tài)異常檢測(cè)的方法(CMAD).在實(shí)驗(yàn)中,這些基線方法的參數(shù)設(shè)置與論文中描述一致.本文算法實(shí)驗(yàn)中對(duì)L與Linter損失函數(shù)進(jìn)行了對(duì)比實(shí)驗(yàn)和分析,其損失函數(shù)中的超參數(shù)γ值設(shè)置為0.4.
本文實(shí)驗(yàn)中,使用Accuracy,F(xiàn)PR,TPR,AUC作為評(píng)價(jià)指標(biāo).AUC為ROC曲線面積,AUC值越高,該方法的性能越好;TPR為真正例率;FPR為假正例率.TPR的值越高,F(xiàn)PR的值越低,該方法性能越好,F(xiàn)PR,TPR公式為
(20)
其中TP,F(xiàn)N,TN,F(xiàn)P分別代表真陽(yáng)性、假陰性、真陰性和假陽(yáng)性的數(shù)量.Accuracy為檢測(cè)準(zhǔn)確率,公式為
(21)
表1~3顯示了3種不同數(shù)據(jù)集異常檢測(cè)的Accuracy,F(xiàn)PR,TPR,AUC的平均值.
Table 1 Results on MNIST Anomaly Detected by Each Framework
Table 2 Results on FashionMNIST Anomaly Detected by Each Framework
Table 3 Results on CIFAR10 Anomaly Detected by Each Framework
可以看出,本文所提出的方法優(yōu)于所有的基線方法,相較于多視角異常檢測(cè)的方法,本文的方法有著很大的優(yōu)勢(shì).由于本文使用的數(shù)據(jù)集維度相較于文獻(xiàn)[21]中所使用的維度更大,MUVAD算法中所使用的KNN算法存在維度災(zāi)難,因此,該算法在低維數(shù)據(jù)中性能較好,而在本文所使用的數(shù)據(jù)集中的準(zhǔn)確率較低.由于不同模態(tài)的數(shù)據(jù)維度差距較大,基于特征融合的MODDIS算法在融合過(guò)程中會(huì)出現(xiàn)圖片數(shù)據(jù)起主要作用的情況.由于CIFAR10數(shù)據(jù)集中的圖片數(shù)據(jù)維度的占比相比于其他數(shù)據(jù)集更高,因此,該算法在CIFAR10數(shù)據(jù)集中的準(zhǔn)確率相比與其余數(shù)據(jù)集更低.CMAD算法在較為簡(jiǎn)單的MNIST數(shù)據(jù)集上可以達(dá)到與本文方法相當(dāng)?shù)男阅?,但在相?duì)語(yǔ)義多樣的FashionMNIST與CIFAR10數(shù)據(jù)集中表現(xiàn)出低于本文提出的方法的性能.在表1與表4中可以看出在MNIST數(shù)據(jù)集中,Linter損失相比于L損失時(shí)的表現(xiàn)更好,其原因在于使用Linter損失函數(shù)時(shí),該損失關(guān)注不同模態(tài)間的學(xué)習(xí),L損失關(guān)注不同模態(tài)間學(xué)習(xí)的同時(shí)也進(jìn)行模態(tài)內(nèi)的學(xué)習(xí),增加了學(xué)習(xí)復(fù)雜度,而MNIST數(shù)據(jù)集相對(duì)于其他數(shù)據(jù)集模態(tài)內(nèi)的區(qū)分度較高,即模態(tài)內(nèi)不同屬性的數(shù)據(jù)區(qū)分明顯,導(dǎo)致L損失相對(duì)于Linter損失沒(méi)有優(yōu)勢(shì),因此L損失在MNIST數(shù)據(jù)集中的表現(xiàn)比Linter損失差.圖4顯示了不同方法在相同指標(biāo)下的對(duì)比曲線圖,可以看出本文提出的方法在相同指標(biāo)下始終優(yōu)于其余基線方法,實(shí)驗(yàn)證明了本文方法的有效性.
此外,實(shí)驗(yàn)同樣在FshionMNIST與CIFAR10數(shù)據(jù)集上進(jìn)行驗(yàn)證和測(cè)試.從表5和表6實(shí)驗(yàn)結(jié)果可以看出準(zhǔn)確率在不同異常比情況下屬性異常數(shù)據(jù)/屬性-類(lèi)別異常數(shù)據(jù)的變化情況.特別地,在MNIST數(shù)據(jù)集中表現(xiàn)良好的CMAD學(xué)習(xí)框架,在FshionMNIST與CIFAR10數(shù)據(jù)集異常比例上升中異常檢測(cè)效果表現(xiàn)出整體下降的趨勢(shì)比較顯著.
Fig. 4 Performance comparison of each method on different datasets圖4 各個(gè)方法在不同數(shù)據(jù)集中性能比較
Table 4 Accuracies Obtained by Different Frameworks with Diverse Abnormal Proportions (MNIST)表4 各框架對(duì)比不同異常比例的準(zhǔn)確率(MNIST)
Table 5 Accuracies Obtained by Different Frameworks with Diverse Abnormal Proportions (FashionMNIST)表5 各框架對(duì)比不同異常比例的準(zhǔn)確率(FashionMNIST)
Table 6 Accuracies Obtained by Different Frameworks with Diverse Abnormal Proportions (CIFAR10)表6 各框架對(duì)比不同異常比例的準(zhǔn)確率(CIFAR10)
相比較而言,本文提出的跨模態(tài)異常學(xué)習(xí)框架同樣保持著在不同異常比例下較高情況下較好的準(zhǔn)確率,并在不同占比的異常數(shù)據(jù)中保持著穩(wěn)定的檢測(cè)精度.
綜上所述,本文所提出的方法相較于基線算法有著更好的魯棒性以及更高的準(zhǔn)確率,究其原因在于:1)本文算法首先使用單視圖網(wǎng)絡(luò)檢測(cè)結(jié)構(gòu)可以有效檢測(cè)出數(shù)據(jù)中的屬性異常,以降低屬性-類(lèi)別異常的漏檢性,初步增加了檢測(cè)的準(zhǔn)確率;2)本文算法使用相似度雙向五元組損失,加大了不同屬性數(shù)據(jù)之間的特征差異性,同時(shí)增加了相同屬性之間的特征相關(guān)性;3)提出的雙向約束框架在相同數(shù)量的數(shù)據(jù)集下可以得到充分的訓(xùn)練,數(shù)據(jù)利用率高,從而使得訓(xùn)練的模型泛化能力較強(qiáng),可適用于不同類(lèi)型的異常樣本檢測(cè).實(shí)驗(yàn)結(jié)果表明了提出方法的有效性.
針對(duì)極具挑戰(zhàn)性的多源異構(gòu)數(shù)據(jù)的跨模態(tài)異常檢測(cè)問(wèn)題,本文提出了一種結(jié)合分層深度網(wǎng)絡(luò)與相似度雙向五元組的跨模態(tài)異常檢測(cè)方法,該方法充分考慮模態(tài)內(nèi)和模態(tài)間的各種異常差異,并采用單視圖網(wǎng)絡(luò)和雙分支網(wǎng)絡(luò)相結(jié)合的方法,可以有效適用于不同類(lèi)型的跨模態(tài)異常檢測(cè),在不同數(shù)據(jù)集中均獲得了顯著的效果,并且在3類(lèi)不同類(lèi)型的跨模態(tài)異常檢測(cè)情況下的表現(xiàn)幾乎全面超過(guò)了現(xiàn)有的方法,有效地提高了檢測(cè)的準(zhǔn)確率,相關(guān)實(shí)驗(yàn)驗(yàn)證了本文提出方法的有效性.在下一階段的研究工作中,本學(xué)習(xí)框架將進(jìn)一步探究不同參數(shù)的搭配對(duì)不同多模態(tài)數(shù)據(jù)集運(yùn)行結(jié)果的影響,盡可能挖掘一種自適應(yīng)參數(shù)的選擇方法用來(lái)適配形式各異的多模態(tài)異常數(shù)據(jù)集.
作者貢獻(xiàn)聲明:范燁負(fù)責(zé)算法設(shè)計(jì)與論文撰寫(xiě);彭淑娟負(fù)責(zé)模型優(yōu)化和論文撰寫(xiě);柳欣負(fù)責(zé)模型可行性分析;崔振負(fù)責(zé)算法優(yōu)化;王楠楠負(fù)責(zé)實(shí)驗(yàn)的多樣性分析.