劉華玲,劉雅欣,許珺怡,陳尚輝,喬 梁
上海對外經(jīng)貿(mào)大學 統(tǒng)計與信息學院,上海 201620
當今,數(shù)字化金融服務以其非接觸、高效率和服務場景靈活等優(yōu)勢,極大便利了消費者的金融活動,在大數(shù)據(jù)、云計算以及人工智能等新興技術的驅動下,以金融科技為主題的金融革命正以燎原之勢席卷全球[1-2],各種創(chuàng)新型數(shù)字化金融服務場景和渠道不斷涌現(xiàn)。同時,以此為背景的“黑色產(chǎn)業(yè)”肆虐發(fā)展,已經(jīng)滲透到個人信貸、醫(yī)療保險和車險理賠等金融領域。據(jù)統(tǒng)計,相關“黑色產(chǎn)業(yè)”從業(yè)人員超過500萬,涉及金額損失達到千億級別[3]。因此,探究新型場景下的金融反欺詐研究方法具有極大的理論價值和現(xiàn)實意義。
早期的文獻多集中于利用檢測規(guī)則進行欺詐識別,前提假設為欺詐活動存在明顯的規(guī)則模式,可以通過定義一些組合規(guī)則進行識別,其具有易操作性和可解釋性,因此在早期的欺詐檢測中廣受歡迎?;谝?guī)則的方法高度依賴人類專家的知識判定,難以發(fā)現(xiàn)復雜動態(tài)且隱蔽的欺詐模式,同時,極易被欺詐者識別進而改變自身的欺詐行為以躲避檢測,這將不斷提升基于規(guī)則的檢測難度。為此,許多學者提出使用機器學習以挖掘常規(guī)方式難以識別的潛在欺詐模式。該類方法將從不同維度提取用戶的統(tǒng)計特征,如用戶的社會屬性、交易信息和行為信息,用傳統(tǒng)的機器學習模型對用戶數(shù)據(jù)進行訓練學習[4-5]。然而,此類方法將用戶特征作為獨立的矢量處理,忽略了實體之間的關聯(lián)性。
如今,我國信息化邁入以物聯(lián)網(wǎng)和云計算為代表的新階段,金融機構積累了海量的用戶屬性信息和行為信息,如何從中挖掘用戶間關聯(lián)成為提高欺詐檢測性能的關鍵。圖數(shù)據(jù)在表示實體復雜交互關系方面具有得天獨厚的優(yōu)勢,基于圖挖掘的異常識別技術(graphbased anomaly detection,GBAD)因其高效、普適和準確性高等特點受到了工業(yè)界和學術界的廣泛關注。此類方法致力于從“關系”角度分析問題,基于行業(yè)大數(shù)據(jù)和相關領域知識構建關聯(lián)網(wǎng)絡,實體抽象為圖中的節(jié)點,實體間的交互抽象為節(jié)點間的連邊,并運用相關的圖挖掘技術識別異常模式的節(jié)點、邊或者子圖。相比傳統(tǒng)的欺詐檢測技術,基于圖的異常檢測不僅可以直觀地呈現(xiàn)數(shù)據(jù)中隱含的復雜拓撲結構,而且將數(shù)據(jù)對象間的關聯(lián)融入到欺詐識別任務中,從網(wǎng)絡的整體拓撲結構出發(fā)更容易識別隱藏極深的欺詐行為。近年來,GBAD技術在識別網(wǎng)絡內的欺詐活動方面做出了巨大貢獻,被欺詐檢測專家認為是穩(wěn)健、可靠和有前途的異常檢測技術[6]。
本文對圖異常檢測在金融反欺詐中的應用進行系統(tǒng)分類,介紹其中具有代表性的方法,探討現(xiàn)有方法的局限性和面臨的挑戰(zhàn),指明未來的研究方向。具體貢獻如下:
(1)分別從個體反欺詐和群體反欺詐的視角,將圖異常檢測技術系統(tǒng)分類,并對每種技術進行全面的評述、分析和比較;
(2)拓展了圖異常檢測方法,整理歸納近幾年涌現(xiàn)的基于圖嵌入、深度自編碼器以及圖神經(jīng)網(wǎng)絡等技術解決欺詐檢測的新方法;
(3)結合當前反欺詐的前沿任務展望圖異常檢測技術的發(fā)展方向。
Hawkins定義傳統(tǒng)的異常檢測是尋找數(shù)據(jù)集中分布或形成機制顯著區(qū)別于正常模式的數(shù)據(jù)對象[7]。圖異常檢測[8]是利用圖數(shù)據(jù)結構進行問題建模,并基于相關的圖數(shù)據(jù)挖掘技術,在圖中尋找顯著不同于其他圖對象的節(jié)點、邊或子結構。
欺詐檢測問題可以轉換為異常檢測任務(anomaly detection,AD),相比傳統(tǒng)的異常檢測技術,圖異常檢測在反欺詐領域呈現(xiàn)出巨大的優(yōu)勢,主要體現(xiàn)在以下幾個方面:
(1)欺詐領域中數(shù)據(jù)的相互依賴性
傳統(tǒng)的異常檢測技術將數(shù)據(jù)視為獨立存在于多維空間中的點。在實際問題中,尤其是在欺詐場景下,數(shù)據(jù)對象通常相互關聯(lián)并表現(xiàn)出依賴性。因此在進行異常檢測過程時需要考慮相關性。圖數(shù)據(jù)結構通過在相關對象之間引入連邊自然地表示相互依賴關系,為有效捕捉這種長期相關性提供了強大的范式。例如,在評論者-產(chǎn)品評論的圖數(shù)據(jù)中,評審者的欺詐程度不僅取決于其評論的對象和內容,而且取決于其他評審者如何評價同一產(chǎn)品及其評價的可信度,而這又依賴他們評價的其他產(chǎn)品[9]。由于真實數(shù)據(jù)集中存在的相關性,在圖數(shù)據(jù)中檢測異常更為合理。
(2)欺詐領域的異常關系
欺詐現(xiàn)象的本質可以表示為異常關系,通??紤]兩種情況:①基于關系傳播的機會主義欺詐(如果一個人存在欺詐行為,那么他的熟人有很大概率會進行詐騙);②基于相關群體密切合作的有組織欺詐[10]。以上這兩種情況都指向異常關系的檢測。
(3)圖異常檢測模型的健壯性
隨著欺詐的日益專業(yè)化,欺詐者通常改變欺詐手法以逃避檢測,例如更改或偽造登錄時間和IP地址等行為線索。但是欺詐者無法操縱整個關聯(lián)網(wǎng)絡,因此圖異常檢測被認為是更健壯的對抗欺詐的方法。
圖數(shù)據(jù)結構對關聯(lián)信息強大的表示能力以及圖計算和深度神經(jīng)網(wǎng)絡等相關技術的發(fā)展,使得圖異常檢測技術逐漸成為國內外學者的研究熱點。Akoglu等人[11]將圖異常檢測技術分為基于結構、基于社區(qū)、基于分解和基于窗口等類型,系統(tǒng)梳理了每類方法下的關鍵技術,并討論了圖異常檢測技術在包括欺詐檢測在內的真實場景下的應用。Gupta等人[12]對時序網(wǎng)絡中的圖異常檢測技術進行了總結和歸納,包括基于圖相似度、基于特征向量和基于社區(qū)這三類方法。Ranshous等人[13]全面概述了動態(tài)圖中的異常檢測技術,將其劃分為基于社區(qū)、基于壓縮、基于分解、基于距離和基于概率分布五種類型,并對每類方法中的主流算法進行對比分析。Savage等人[14]關注于在線社交網(wǎng)絡(online social network,OSN)中不同類型異常(如異常節(jié)點、邊緣或子圖)的檢測。他們將OSN中的異常檢測總結為兩個步驟:(1)網(wǎng)絡特征的選擇和計算;(2)基于該特征空間對觀測進行分類。李忠等人[15]分別基于靜態(tài)圖和動態(tài)圖的視角,根據(jù)異常類型進一步將靜態(tài)圖異常檢測劃分為孤立個體異常檢測和群體異常檢測兩類,動態(tài)圖異常檢測分為孤立個體異常檢測、群體異常檢測和事件異常檢測三類,并系統(tǒng)梳理了每類異常檢測的關鍵性技術。蘇紅軍等人[16]從技術層面將靜態(tài)圖異常檢測分為基于結構、基于社區(qū)和基于關系學習三類,按照異常類型將動態(tài)圖異常檢測分為基于節(jié)點、基于邊、基于子圖和基于全圖四類。近年來,基于深度神經(jīng)網(wǎng)絡進行圖異常檢測成為新近研究熱點,陳波馮等人[17]從靜態(tài)圖和動態(tài)圖角度出發(fā),全面概括了基于深度神經(jīng)網(wǎng)絡的圖異常檢測的研究現(xiàn)狀,并總結了圖異常檢測的實際應用場景和相關數(shù)據(jù)集。
表1系統(tǒng)梳理了現(xiàn)有的圖異常檢測綜述。盡管已有上述眾多的圖異常檢測綜述,但大多數(shù)文獻都基于技術角度,目前仍然缺少針對某一應用領域的圖異常檢測研究進展進行系統(tǒng)深入的梳理和總結。以往的工作或從技術層面對所有的圖異常檢測算法進行分類總結,或集中于某一類型的網(wǎng)絡進行歸納分析。本文聚焦于金融欺詐檢測領域,旨在對此應用背景下的圖異常檢測算法研究進展進行系統(tǒng)的梳理和總結,深入探討應用GBAD進行欺詐檢測的關鍵問題、技術方法和未來挑戰(zhàn)。
表1 圖異常檢測相關綜述Table 1 Overview of graph anomaly detections
基于圖的個體反欺詐可以抽象為給定網(wǎng)絡數(shù)據(jù),從中查找異常的節(jié)點或邊。面向個體的欺詐檢測又可以分為基于結構特征的方法、基于鄰近性的方法、基于圖表示學習的方法以及基于社團劃分的方法。
基于特征的圖異常檢測是指通過提取網(wǎng)絡結構特征,并結合附加信息源提取的其他特征,在新構造的特征空間中進行異常檢測。
金融場景下,節(jié)點在網(wǎng)絡中的重要程度與欺詐風險通常呈現(xiàn)一定的正相關關系,如何識別網(wǎng)絡中的關鍵節(jié)點對于欺詐檢測具有重要的現(xiàn)實意義。常用的節(jié)點重要性評價指標有中心性度量、PageRank值[21]和HITS[22]等。中心性度量又分為度中心性、加權度中心性、介數(shù)中心性[23]、接近中心性和特征向量中心性[24]。2015年,Drezewski等人[25]聚焦銀行金融交易,利用度中心性、介數(shù)中心性和PageRank值等特征表示網(wǎng)絡結構,識別用戶在交易網(wǎng)絡中的角色,揭示可疑的洗錢參與者。
除了上述節(jié)點重要性評價指標,基于EgoNet特征進行圖異常檢測也是一種經(jīng)典方法。EgoNet[26]又稱自我中心網(wǎng)絡,一個中心節(jié)點與其一跳范圍內的鄰居節(jié)點以及所有節(jié)點之間的連邊構成一個EgoNet,結構如圖1所示。EgoNet是整體網(wǎng)絡結構的一部分,給定某節(jié)點時采用廣度優(yōu)先搜索獲得,側重于研究單個節(jié)點的性質。
Akoglu等人[27]于2010年首次提出基于EgoNet特征的異常檢測算法OddBall。通過觀測EgoNet的特征分布規(guī)律,識別不符合規(guī)律的EgoNet結構,相應的中心節(jié)點視為異常節(jié)點。給定圖G(V,E,W),節(jié)點i∈V(G),節(jié)點i的EgoNet為gi(Vi,Ei,Wi),滿足:(1)Ei∝Ni,1≤α≤2;(2)Wi∝Eiβ,β≥1;(3)λω,i∝Wiγ,0.5≤γ≤1。其中λω,i為加權鄰接矩陣的主特征值,∝表示服從冪律分布。Wang等人[28]提出基于賬戶EgoNet特征挖掘網(wǎng)上銀行中的異常交易,通過構建交易網(wǎng)絡將賬戶行為表示為圖結構數(shù)據(jù),同時提取符合冪律分布的EgoNet特征,然后根據(jù)賬戶特征與相關冪律分布的“距離”計算其與特定模式的偏差,并將其定義為網(wǎng)銀用戶的異常分數(shù),進行欺詐的檢測與排序。算法使用的特征易于計算,可以用于大規(guī)模網(wǎng)絡欺詐檢測。
基于EgoNet特征的方法僅適用于服從冪律分布的加權網(wǎng)絡,并且僅考慮節(jié)點的一階鄰域信息,無法捕捉更高階的關聯(lián)。GBKD-Forest[29]是一種基于網(wǎng)絡全局結構的無監(jiān)督異常檢測方法。該方法首先從交易網(wǎng)絡中提取三種類型的結構特征,包括出入度等基本特征、邊連接特征以及EgoNet特征,其中邊連接特征包括PageRank、HITS以及中心性度量;然后基于Bagging方法隨機抽樣特征建立KD樹森林以分離異常節(jié)點。GBKD-Forest基于機器學習技術集成多種類型的網(wǎng)絡結構特征,有效提高了欺詐檢測的準確性。
以上研究都是針對單個網(wǎng)絡進行,現(xiàn)實世界中由于業(yè)務場景的復雜性,通常需要構建多個交互網(wǎng)絡以提取更全面的信息。Colladon等人[30]認為保理公司中洗錢行為的潛在風險表現(xiàn)在三方面,即債務人的地理區(qū)域、經(jīng)濟部門以及金融交易金額,針對每種風險因素的獨立網(wǎng)絡進行特征表示,綜合評估個體的欺詐風險。Mahootiha等人[31]根據(jù)洗錢的三階段模式,即資金放置、資金分層和資金整合,分別構建獨立交易網(wǎng)絡,并通過分析度中心性和中介中心性等網(wǎng)絡指標揭示銀行金融交易中的欺詐行為。
表2系統(tǒng)梳理了圖結構特征在欺詐檢測中的應用?;谔卣鞯膱D異常檢測中,圖結構的表征是關鍵,值得注意的是,不同的金融場景以及欺詐手段下,特征選擇各有差異,必須根據(jù)構建網(wǎng)絡的實際含義慎重選擇。一方面是以圖結構為中心的特征,包括二元組和EgoNet等;另一方面是以節(jié)點為中心的特征,包括節(jié)點度、中心性度量和邊權重等。此外,結合多種特征可以提高檢測準確率。
表2 基于結構特征的欺詐檢測Table 2 Fraud detection based on structural features
欺詐被認為是一種社會現(xiàn)象,即欺詐者之間通常會存在某種關聯(lián),這在社會科學中被稱為同質性。同質性假設人們傾向于和在某些方面與自己相似的人交往?;卩徑鹊膱D異常檢測利用網(wǎng)絡的結構信息計算節(jié)點間的鄰近度,鄰近度高的節(jié)點被認為是同一類(正常或欺詐)。
個性化PageRank[38]是節(jié)點鄰近度計算的經(jīng)典方法,是PageRank的擴展。PageRank算法于1996年提出,是基于隨機游走衡量節(jié)點重要性的經(jīng)典算法。在圖上隨機地從一個節(jié)點跳到另一個節(jié)點,即每一步的隨機游走將從當前節(jié)點以相同概率訪問其鄰居節(jié)點。在一定條件下,每個節(jié)點被訪問的概率收斂于平穩(wěn)分布,平穩(wěn)概率即為節(jié)點的PageRank值,計算公式如式(1),概率越高節(jié)點越重要。
式中,d(0≤d≤1)稱為阻尼因子,L(v)表示節(jié)點v的出度。
在PageRank算法中,游走的起始節(jié)點是隨機選擇的,在個性化的PageRank算法中,從某個特定節(jié)點(種子節(jié)點)開始游走,每到一個節(jié)點后,以d的概率繼續(xù)游走,或以1-d的概率返回種子節(jié)點并重新開始。各個節(jié)點的平穩(wěn)概率代表其與種子節(jié)點的相關程度。
Vlasselaer等人[39]通過改進個性化PageRank算法,以適應欺詐傳播場景:(1)加入時間衰減權重矩陣W代替鄰接矩陣M,以降低時間久遠的欺詐節(jié)點的重要性。即隨著時間的推移,欺詐行為的傳播影響越小。權重公式為ωi,j=eγh,γ為衰減常數(shù),h為時間;(2)定義重啟向量vj,如果節(jié)點j發(fā)生欺詐行為,則vj=1,反之,vj=0。專家判定的欺詐者標示為種子節(jié)點,迭代運行個性化PageRank算法,算法收斂時與種子節(jié)點相似的節(jié)點具有較高的PageRank值,面臨的欺詐風險也更高。
He等人[40]提出的BiRank算法是PageRank算法在二部圖中的擴展。óskarsdóttir等人[41]改進了BiRank算法并應用于車險欺詐檢測中。通過調整查詢向量,使其包含網(wǎng)絡中已知的欺詐性索賠知識,與已知欺詐行為聯(lián)系緊密的索賠獲得更高的BiRank值。
上述方法是從節(jié)點層面出發(fā),聚焦個體欺詐,通過度量與已知異常節(jié)點的鄰近性進行欺詐檢測。Bershtein等人[42]聚焦反洗錢領域,基于子圖視角提出利用模糊子圖同構估計交易子集與目標洗錢模式的相似性以檢測洗錢行為。
綜上所述,基于鄰近性的圖異常檢測關鍵在于鄰近性的度量方法。節(jié)點間相似性度量有個性化PageRank、BiRank以及Jaccard鄰近性等。尋找相似子圖的方法主要包括圖模式匹配和模糊子圖同構等,值得注意的是,這類方法只能識別與已知欺詐模式相似的欺詐行為,在識別未知欺詐類型方面存在著局限性。
進行欺詐檢測等圖分析任務的一個關鍵問題是如何有效地表示圖中的特征信息,揭示隱藏的欺詐線索。圖表示學習是將圖數(shù)據(jù)映射到低維向量空間的有效技術,它可以學習并表示網(wǎng)絡的拓撲結構和節(jié)點的屬性信息[43],進而應用到下游的欺詐檢測任務。圖表示學習方法可以分為三類,即矩陣分解、隨機游走和深度神經(jīng)網(wǎng)絡。基于矩陣分解的方法以矩陣的形式表示節(jié)點之間的連接,并以此矩陣進行分解以獲得節(jié)點的嵌入向量。如LLE(locally linear embedding)算法[44]假設每個節(jié)點的嵌入表示都是在其嵌入空間中鄰居節(jié)點的嵌入向量的線性組合。LE(Laplacian eigenmaps)算法[45]在LLE算法的基礎上考慮了節(jié)點之間的權重?;陔S機游走的圖表示學習方法通過圖上的采樣路徑學習鄰域結構,例如DeepWalk[46]通過隨機游走獲得節(jié)點序列,Node2vec[47]采用帶有偏向的隨機游走學習圖中節(jié)點的嵌入表示?;谏疃壬窠?jīng)網(wǎng)絡的圖表示學習可以捕捉數(shù)據(jù)間的非線性關系,以獲得更好的節(jié)點表示。
對于標記數(shù)據(jù),基于圖表示學習的反欺詐算法大多是基于混合模型,使用DeepWalk、Node2Vec以及LINE(large information network embedding)[48]等圖嵌入模型獲得節(jié)點的嵌入表示,然后在低維度的特征數(shù)據(jù)集中執(zhí)行傳統(tǒng)的分類方法以進行欺詐檢測。
DeepWalk通過隨機游走的方式獲取節(jié)點序列,然后將這些節(jié)點序列作為訓練樣本輸入到Skip-gram模型進行訓練,進而得到節(jié)點的嵌入表達。2016年斯坦福大學提出的Node2vec改進了DeepWalk中節(jié)點序列的生成方式,即通過調整隨機游走權重的方法使圖嵌入的結果在網(wǎng)絡的同質性和結構性之間平衡,從而提升網(wǎng)絡嵌入的效果。其中,結構等價性主要用于表征節(jié)點之間結構的相似性,即相同結構的節(jié)點嵌入表達應該是相似的;同質等價性則以距離作為節(jié)點相似性的度量,這在異常欺詐檢測中具有重要的現(xiàn)實意義?;诖?,Zhou等人[49]提出基于Node2vec的互聯(lián)網(wǎng)金融欺詐檢測方法,首先利用Node2vec學習金融網(wǎng)絡中每個節(jié)點的拓撲特征表示為低維稠密向量,然后將其輸入基于深度神經(jīng)網(wǎng)絡的分類模型,每個節(jié)點用戶的預測結果都是0到1之間的浮點數(shù),它表示數(shù)據(jù)樣本是欺詐性數(shù)據(jù)的概率。該方法使用Spark分布式計算框架以提高海量數(shù)據(jù)的處理能力,它是當前很多工業(yè)產(chǎn)品的主流做法。
Node2vec是一種直推式的圖表示學習算法,即需要對網(wǎng)絡中的所有節(jié)點進行訓練,嵌入不能泛化到尚未出現(xiàn)的節(jié)點。在網(wǎng)絡中添加或刪除節(jié)點或邊緣,需要重新迭代整個訓練過程。而金融交易具有動態(tài)性,為避免對不斷更新的網(wǎng)絡重復訓練造成的時間損耗,Belle等人[50]提出基于GraphSAGE算法[51]進行節(jié)點嵌入表示的欺詐檢測框架。GraphSAGE是一種歸納式的節(jié)點嵌入算法,其核心思想是通過學習一個函數(shù)實現(xiàn)對圖數(shù)據(jù)結構的歸納表示學習,該函數(shù)通過對節(jié)點局部鄰域的特征進行采樣和聚合來生成嵌入,可以泛化到未知節(jié)點。Node2vec等直推式算法直接獲取節(jié)點的嵌入表達,而GraphSAGE算法的輸出結果是生成節(jié)點嵌入向量的映射,可擴展性更強。GraphSAGE為應用鄰居節(jié)點屬性的特性聚合提供了一系列可能性,在此欺詐背景下,maxpool和meanpool鄰域特征聚合器提供了最好的結果。
在金融欺詐檢測中,欺詐樣本的數(shù)量遠遠小于正常樣本,存在嚴重的類不平衡問題,然而基于圖神經(jīng)網(wǎng)絡的算法在節(jié)點標簽分布嚴重偏斜的情況下往往表現(xiàn)不佳。DR-GCN[52]是解決圖類不平衡問題的先行者。該方法提出了類條件對抗正則化和潛在分布對齊正則化,但不能擴展到大型圖。Liu等人[53]提出基于GNN的不平衡監(jiān)督學習算法PG-GNN,算法框架如圖2所示。PG-GNN的改進體現(xiàn)在兩方面:首先,利用標簽平衡采樣器選擇節(jié)點和邊,分配給每個節(jié)點的概率與它的標簽頻率成反比,構造平衡子圖用于小批量訓練;其次,在參數(shù)化的距離函數(shù)下,進一步設計鄰域采樣器,對欺詐樣本的鄰域進行過采樣,對正常樣本的鄰域進行欠采樣。
以上工作都是采用有監(jiān)督方法,而在金融欺詐檢測場景下,由于標簽數(shù)據(jù)難以獲得,通常采用無監(jiān)督學習的方法來檢測異常。目前大多方法采用殘差分析的思想,以原始數(shù)據(jù)與估計數(shù)據(jù)的差距(即重構誤差)作為衡量實例異常的指標,具有較大重構誤差的數(shù)據(jù)實例異常的可能性更高。
Bandyopadhyay等人[54]提出基于矩陣分解重構節(jié)點,給定圖結構G,每個節(jié)點vi用鄰接矩陣A的第i行表示,即Ai,為保持節(jié)點在低維空間中嵌入的同質性,通過最小化得到H作為節(jié)點的嵌入表示,并利用節(jié)點重構前后的殘差,為每個節(jié)點引入結構異常分數(shù)O1i,殘差值越大表示節(jié)點欺詐的可能性越大。在屬性異常上,采用同樣的方法,每個節(jié)點vi的特征用特征矩陣C的第i行表示,通過最小化得到節(jié)點的嵌入表示,并為每個節(jié)點引入屬性異常分數(shù)O2i,結合O1i和O2i得到節(jié)點的欺詐概率。
Bandyopadhyay等人[55]在文獻[54]的基礎上進行改進,提出DONE和AdONE算法。該模型在節(jié)點嵌入表示部分替換了文獻[54]中的矩陣分解方法,采用深度自編碼器獲取結構和屬性上的重構損失,用于捕捉節(jié)點間的非線性關系,同樣利用損失函數(shù)引入結構上的異常分數(shù)O1和屬性上的異常分數(shù)O2。
上述兩種方法將節(jié)點的結構和屬性信息分開考慮,忽略了兩者之間的交互信息,圖神經(jīng)網(wǎng)絡可以同時編碼節(jié)點的結構信息和屬性信息,將兩者結合起來考慮,可以捕捉到節(jié)點更好的表示。如圖3所示,Dominant[56]利用圖卷積網(wǎng)絡作為編碼函數(shù),將輸入的屬性網(wǎng)絡壓縮為簡潔的低維嵌入表示;然后利用相應的解碼器函數(shù)重構節(jié)點的拓撲結構和屬性信息,基于重構誤差獲取節(jié)點的欺詐分數(shù)。利用GCN可以有效地捕捉節(jié)點結構和屬性間的交互信息,提高了欺詐檢測的性能。
綜上所述,圖嵌入是一種將圖中的節(jié)點從高維稀疏向量映射到低維稠密向量的有效技術,它學習并表示網(wǎng)絡圖中節(jié)點的拓撲結構和屬性信息。與傳統(tǒng)的圖數(shù)據(jù)挖掘方法相比,在反欺詐業(yè)務場景中應用圖嵌入算法,可以獲得全局視角,更清晰地洞察不同實體之間的潛在關聯(lián)。此外,基于圖嵌入將原始圖轉化為稠密向量后運算效率顯著提升。
不同社團間的橋接節(jié)點或橋接邊可能預示著某種欺詐行為。在信貸場景下,一個節(jié)點連接多個社團且社團內人群多數(shù)信貸不良,那么這個節(jié)點很大可能是黑產(chǎn)中介。黑中介利用互聯(lián)網(wǎng)金融平臺采用大數(shù)據(jù)線上審核的業(yè)務特點,通過不斷地挖掘平臺風控規(guī)則的漏洞或弱點,進行信息包裝、信息偽造以及遠程助貸等欺詐操作,具體包括偽造證件信息、提供銀行卡資源以及欺詐手機號等。例如,貸款客戶通常共享信息或設備形成社團,連接這些社團的關鍵節(jié)點則可以視為黑產(chǎn)中介。
基于社團劃分的欺詐節(jié)點識別依賴于在圖中找到密集連接的“近”節(jié)點組,并點出跨社團連接的節(jié)點或邊。在某些場景下,欺詐可以定義為不直接屬于某個特定社團的“橋”節(jié)點或邊。
Sun等人[57]主要解決了兩個問題:(P1)如何找到給定節(jié)點的社團/鄰域;(P2)如何找到橋接節(jié)點。針對P1,作者基于Personal PageRank的思路,從目標節(jié)點出發(fā)進行隨機游走,計算節(jié)點間的可達概率,以衡量節(jié)點間的相似性,其中具有高PPR評分的節(jié)點構成目標節(jié)點的一個鄰域。對于P2,計算目標節(jié)點的所有鄰居節(jié)點的成對PPR得分并取平均作為“正?!钡梅?,當該分數(shù)比較低時說明節(jié)點的鄰居節(jié)點位于不同社團,可視為欺詐節(jié)點。
上述方法將橋接節(jié)點的識別劃分為兩步,首先基于節(jié)點的相似性進行社團劃分,然后查找社團間的橋接節(jié)點或橋接邊。Xu等人[58]提出一種圖聚類算法SCAN。該算法在進行網(wǎng)絡聚類的同時,挖掘網(wǎng)絡中的橋接節(jié)點和離群點,即橋接節(jié)點是圖聚類的副產(chǎn)品。傳統(tǒng)的圖聚類算法通常以最大化社團內部邊數(shù)為目標,而SCAN算法使用節(jié)點的鄰域為聚類標準,共享更多鄰居的節(jié)點被劃分到同一集群,從而可以有效區(qū)分網(wǎng)絡中節(jié)點的角色,如組內節(jié)點、橋接節(jié)點和離群節(jié)點。
橋接節(jié)點的識別還可以使用矩陣分解的方法。矩陣分解已被廣泛用于解決從降維[59-60]到圖聚類[61-62]等問題。Tong等人[63]從鄰接矩陣角度出發(fā),提出基于非負殘差矩陣分解的圖欺詐檢測方法NrMF。對于一個圖G的鄰接矩陣A,若其相似矩陣A~的秩為r,則其對應的殘差矩陣為R=A-A~,對A進行矩陣分解可表示為A=A~+R=FG+R,其中矩陣F和G是秩為r的分解矩陣,R是殘差矩陣。F和G反映網(wǎng)絡的群體結構信息,殘差矩陣則對應著異常節(jié)點,同時對殘差矩陣R施加非負性約束以增強對異常節(jié)點的可解釋性。實驗表明NrMF算法的準確率可以達到0.95左右。
基于圖的個體欺詐檢測方法可以分為基于特征的欺詐檢測、基于鄰近性的欺詐檢測、基于圖表示學習的欺詐檢測以及基于社團劃分的欺詐檢測。
早期的個體欺詐檢測方法主要從圖的特征提取出發(fā),在新構造的特征空間中進行異常檢測,包括基于結構特征的方法和基于鄰近性的方法。前者利用提取的圖結構特征表征正常行為模式,顯著偏離正常模式的被視為可疑個體。后者利用網(wǎng)絡的結構信息量化節(jié)點間的鄰近度,鄰近度高的節(jié)點被認為是同一類(正?;蚱墼p)?;谔卣鞯膱D異常檢測中,圖結構的表征是關鍵,值得注意的是,不同的金融場景以及欺詐手段下,特征選擇各有差異,需要專家根據(jù)業(yè)務場景和已知的欺詐活動慎重設計。因此,該方法的性能高度依賴于人類專家的干預,可擴展性差;并且圖特征僅考慮網(wǎng)絡的淺層拓撲結構,無法捕捉節(jié)點間的非線性關系。
圖表示學習是將圖數(shù)據(jù)映射到低維向量空間的有效技術,它可以捕捉節(jié)點間的非線性關系以獲得更有效的潛在表示,支持下游的欺詐檢測任務,能夠很好地解決傳統(tǒng)圖特征方法可擴展性差的問題。現(xiàn)有的圖表示學習多基于深度學習,導致該類方法的可解釋性較差,將其運用在欺詐檢測上往往使得檢測結果難以直觀理解。目前,對基于圖表示學習方法的可解釋性仍是學術界的研究難點和熱點。
基于社團劃分的方法旨在挖掘復雜網(wǎng)絡中一類特殊的欺詐節(jié)點——橋接節(jié)點,橋接節(jié)點不直接屬于某一社團,在不同社團之間起著橋梁作用,例如信貸欺詐中的黑產(chǎn)中介。值得注意的是,這類方法應用的前提是網(wǎng)絡中連接多個社團的橋接節(jié)點是欺詐節(jié)點,因此在網(wǎng)絡構建時,應結合實際欺詐場景定義節(jié)點和邊,使其滿足這個前提。
相較于個人欺詐,團伙欺詐的波及范圍更廣,社會危害性也更高,呈現(xiàn)“智能化、產(chǎn)業(yè)化、攻擊迅速隱蔽、內外勾結比例上升和移動端高發(fā)”五大特征,例如,在信貸領域,黑中介和黑產(chǎn)出現(xiàn)深度融合的態(tài)勢,開始以團伙形式開展線上貸款申請審批業(yè)務,騙取大量資金。檢測這種虛假的用戶社區(qū)(也稱為組或集群)已經(jīng)成為一個關鍵的焦點。
網(wǎng)絡中的稠密子圖往往表明異?;蚱墼p行為。以消費金融套現(xiàn)為例,用戶與商戶勾結采取分期付款的形式進行虛假交易,以騙取貸款機構的貸款。這種行為模式致使欺詐用戶節(jié)點和欺詐商戶節(jié)點之間呈現(xiàn)異常的連接分布,在網(wǎng)絡中呈現(xiàn)出一張致密的雙邊連接子圖。文獻定義這種大量同步的非正常關聯(lián)行為模式為LockStep[64],即二部圖中的雙邊聚集行為?;诔砻茏訄D進行欺詐檢測的一般思路是:首先定義稠密度量指標,并采用搜索策略進行度量指標優(yōu)化,從而來檢測大圖中的稠密子圖結構,最終識別出欺詐用戶群體。
傳統(tǒng)的稠密子圖挖掘算法一般使用子圖平均度作為稠密度量指標,Charikar[65]提出使用平均度定義子圖的密度,對于一個無向圖G(V,E),其中S?V,定義E(S)={i,j∈E:i∈S,j∈S},定義子圖的密度為f(S)=||E(S)/|S|,即子圖中邊的個數(shù)與點的個數(shù)的比值,2f(S)是集合S的平均度,稠密子圖的問題則轉化為計算f(S)最大值的問題。求解該f(S)的問題是一個線性規(guī)劃問題,Charikar給出了求解問題的精確算法。為了降低算法的復雜度,Charikar提出了一種近似比為2的近似算法。
在二部圖欺詐中,欺詐用戶往往通過與目標節(jié)點(正常)建立聯(lián)系以偽裝自己,上述利用子圖平均度作為可疑度度量存在一定的偏差,使檢測出的結果包含大量的正常用戶,準確度降低。針對這一問題,Hooi等人[66]提出Fraudar算法:(1)采用列節(jié)點入度降權定義邊可疑度cij=1/ln(dj+c),其中dj表示列節(jié)點的入度,以降低用戶與熱門目標節(jié)點聯(lián)系產(chǎn)生的邊可疑度,從而對抗偽裝;(2)設計基于優(yōu)先樹的貪心算法快速定位最大可疑度子圖,算法的時間復雜度與大圖的邊數(shù)近似地呈線性關系,具有應用于大規(guī)模數(shù)據(jù)分析的能力。
Frauder算法的每次迭代只能輸出一個最大可疑子圖,并且可疑子圖中的所有節(jié)點都被標記為欺詐節(jié)點,增加了后續(xù)人工排查的任務量?;诖耍琑en等人提出EnsemFDet算法[67],進一步提升算法的精確度和運行效率:(1)對二部圖采用單邊節(jié)點采樣將原始圖分解為更小尺寸的子圖,并采用集成框架聚合子問題的輸出,采取多數(shù)投票原則,可以降低次優(yōu)解的總體風險,從而提高預測精度;(2)部署FDET方法來檢測欺詐者,能夠更有效地搜索前k個欺詐子圖;(3)EnsemFDet可以在采樣圖中并行計算欺詐檢測,從而加快檢測過程;(4)在某商城的真實交易數(shù)據(jù)上進行大量的實驗,驗證了EnsemFDet算法的有效性、實用性和可擴展性。
近年來,有研究者將稠密子圖檢測擴展到張量中,可以支持從更高的數(shù)據(jù)維度進行問題建模,提升欺詐檢測的準確性。如圖4所示,在商鋪欺詐評論檢測中,欺詐用戶群體在產(chǎn)生欺詐評論時往往存在時間上的聚集性,在建模時增加時間維度的信息,即構建用戶、商鋪和時間三個維度的三階張量,能夠從更高的信息維度辨別真實的欺詐用戶群體,提升算法的準確性。
2015年,Jiang等人[68]提出了CrossSpot算法。該算法給出子張量的可疑度度量,并從一個可疑種子塊開始,對每個屬性逐一進行迭代優(yōu)化。
以往的算法只基于一種密度度量,導致其只能檢測出特定的欺詐類型?;诖耍琒hin等人[69]提出一種靈活可調整的稠密子張量檢測框架,支持但不限于算數(shù)平均密度、幾何平均密度以及可疑度等密度度量指標。事實上,M-Zoom支持所有滿足式(2)的密度度量指標:
其中,M表示稠密度,B、B′表示塊,R表示關系。如果具有相同關系的兩個塊對于每個維度屬性具有相同的基數(shù),則具有較高或相等質量的塊至少與另一個塊一樣密集。在尋優(yōu)階段,與CrossSpot算法相比,M-Zoom從整個張量出發(fā)采取貪心算法逐個移除屬性值,有效提升了算法的運行速度,并給出近似邊界。
現(xiàn)有的稠密子張量檢測方法只適用于存儲在內存中的小數(shù)據(jù)集,事實上,現(xiàn)實中的大規(guī)模數(shù)據(jù)集,如社交媒體和網(wǎng)絡,通常被存儲在磁盤上?;诖耍琒hin等人提出D-Cube[70],一種基于磁盤的稠密子張量檢測算法。該算法以最小化磁盤IO為目標進行優(yōu)化,并支持Hadoop的MapReduce框架進行分布式運算。
由第3.2節(jié)可知,欺詐可以視為二部圖中的雙邊聚集行為,相應的欺詐檢測可以看作可疑稠密子圖挖掘問題。以往基于結構信息的方法多通過設計各種密度度量、最大化算術度或幾何度[71]等方式檢測稠密子圖,但這些方法僅考慮網(wǎng)絡的淺層拓撲結構,無法捕捉節(jié)點間的非線性關系?;诖?,有學者提出基于深層網(wǎng)絡結構進行團伙欺詐檢測。該方法的一般思路是首先對網(wǎng)絡進行降維處理,通過深度網(wǎng)絡嵌入學習節(jié)點的潛在表示,將網(wǎng)絡結構信息編碼在一個連續(xù)的向量空間中,然后利用聚類算法在潛在空間中找到高密度區(qū)域。降維處理與欺詐檢測不是獨立進行的,而是相互結合使用。
2018年,Wang等人[72]提出深度結構學習模型DeepFD,用于挖掘網(wǎng)絡中的欺詐群體。DeepFD算法通過深度自編碼器將所有的用戶節(jié)點嵌入到一個潛在空間中,目標是使同一欺詐塊中可疑用戶的向量表示盡可能接近,而正常用戶的表示則均勻分布在剩余的潛在空間中,從而使基于密度的檢測方法能夠準確地檢測出欺詐塊。DeepFD的深度結構學習框架如圖5所示,該框架主要由兩部分組成:第一個組件的目的是通過用戶節(jié)點的向量表示來重構原始圖結構;第二個組件捕捉不同用戶節(jié)點之間的行為差異,即如果兩個用戶節(jié)點共享大量的商品節(jié)點,那么它們往往具有較大的相似性度量。通過對兩個構件進行聯(lián)合優(yōu)化,嵌入結果能夠同時保留全局圖結構信息和用戶行為特征。實驗結果表明,DeepFD的F分數(shù)較M-Zoom和D-Cube等基線模型提升10%左右。
與DeepFD算法僅嵌入用戶節(jié)點不同,F(xiàn)raudNE[73]將用戶和項目兩種類型的節(jié)點編碼到一個共享的潛在空間中,使欺詐用戶和項目盡可能緊密地嵌入到同一個密集塊中,而正常的用戶和項目則均勻地分布在低維潛在空間中。如圖6所示,文獻提出的框架包括兩個自動編碼器,分別處理網(wǎng)絡中的源節(jié)點和匯聚節(jié)點,這兩部分可以具有不同的神經(jīng)網(wǎng)絡結構、參數(shù)和非線性激活函數(shù),以解決二部圖的表示問題。
基于圖的團伙反欺詐旨在挖掘由異?;顒訉е碌木哂胁粚こ=Y構的特定子圖,這些子結構通常顯著偏離正常模式,如稠密子圖、稠密子張量、頻繁子圖或其他特定的連接模式。不尋常子圖的定義通常與欺詐檢測問題高度相關,包括基于稠密子圖的欺詐檢測、基于稠密子張量的欺詐檢測、基于深層網(wǎng)絡結構的欺詐檢測以及基于頻繁子圖的欺詐檢測。
網(wǎng)絡中聯(lián)系緊密的子圖往往表明異?;蚱墼p行為,可以通過稠密子圖或稠密子張量挖掘進行有效檢測,兩者的基本思想相似:首先定義稠密度指標,然后采用搜索策略進行度量指標優(yōu)化以識別欺詐用戶群體,其關鍵在于稠密度的定義。前者基于二維網(wǎng)絡數(shù)據(jù)進行研究,往往造成數(shù)據(jù)的缺失。而稠密子張量的方法使用多模數(shù)據(jù)對網(wǎng)絡進行建模,支持從更高的數(shù)據(jù)維度進行用戶行為分析,有效提升欺詐檢測的準確性。不足的是,此類方法通過設計各種密度度量進行稠密子圖(子張量)挖掘,僅考慮網(wǎng)絡的淺層拓撲結構,無法捕捉節(jié)點間的非線性關系。
基于深層網(wǎng)絡結構的欺詐檢測通過深度網(wǎng)絡嵌入學習節(jié)點的潛在表示,將網(wǎng)絡結構信息編碼在一個連續(xù)的向量空間中,然后利用聚類算法在潛在空間中找到高密度區(qū)域。此方法通過圖嵌入對原始網(wǎng)絡進行降維處理,可以拓展到大規(guī)模復雜網(wǎng)絡的欺詐檢測,有效解決傳統(tǒng)檢測算法帶來的維數(shù)災難。
4.1.1 公開數(shù)據(jù)集
關于欺詐檢測的研究大多使用真實世界的數(shù)據(jù)作為測試平臺[74-75]。目前金融領域可用于圖異常檢測的常用公開數(shù)據(jù)集如表3所示,涵蓋通信、信貸欺詐、車險欺詐以及醫(yī)療保險欺詐等不同領域。其中,在線社交網(wǎng)絡(OSN)領域的公開數(shù)據(jù)集較多,而涉及個人隱私信息(如銀行和保險等領域)的數(shù)據(jù)集匱乏。
表3 公開數(shù)據(jù)集Table 3 Public datasets
4.1.2 合成數(shù)據(jù)集
欺詐檢測是一個高度敏感的話題,出于隱私考慮,組織和利益相關者不愿意分享他們的欺詐檢測信息,阻礙了研究的進展以及實驗的可重復性。一種可能的解決方案是考慮使用合成數(shù)據(jù)集。首先使用圖生成器創(chuàng)建盡可能逼近真實場景的網(wǎng)絡,如優(yōu)先連接網(wǎng)絡、隨機網(wǎng)絡、冪律網(wǎng)絡和互聯(lián)網(wǎng)拓撲結構等;然后人為地注入異常信息。目前異常注入的方法[75]主要有三種:(1)擾動原有數(shù)據(jù),即對原本正常的網(wǎng)絡進行人為的調整,使其呈現(xiàn)異常狀態(tài),如隨機重新連接邊緣或交換節(jié)點屬性;(2)插入欺詐信息,即對原有的圖數(shù)據(jù)進行擴展,插入異常節(jié)點和連邊等;(3)對于標簽數(shù)據(jù),可將對應標簽數(shù)目出現(xiàn)次數(shù)較少的節(jié)點視為異常。合成數(shù)據(jù)集提供了一個通用的基準,允許多組研究人員在同一數(shù)據(jù)集上評估提出的算法性能。然而,許多在合成網(wǎng)絡上表現(xiàn)良好的算法在實際應用中可能表現(xiàn)不佳,因為實際數(shù)據(jù)往往很混亂,具有孤立節(jié)點、奇異度分布和不平衡類分布。合成數(shù)據(jù)集在拓撲結構、節(jié)點屬性、邊屬性、社區(qū)結構、數(shù)據(jù)分布和相關性等方面如何設計,使其盡可能接近欺詐檢測算法實際處理的網(wǎng)絡類型仍是未來的一大挑戰(zhàn)。
基于圖的欺詐檢測可視為二分類問題,可利用二分類算法的評估方法說明算法的性能。
在有足夠的標記數(shù)據(jù)時,通常基于ROC或PR曲線的經(jīng)典標準評估算法性能。ROC曲線以FPR(false positive rate)為x軸,TPR(true positive rate)為y軸,其中FPR指實際負樣本中被錯誤預測為正樣本的概率,TPR指實際正樣本中被預測正確的概率。PR曲線以Recall為x軸,Precision為y軸,Recall與TPR含義相同,而Precision指正確分類的正樣本數(shù)占總正樣本的比例。相比于ROC曲線,PR曲線更加關注正樣本(欺詐樣本),對欺詐檢測模型有更好的評估效果。
對于無標簽數(shù)據(jù)集,Goix[76]提出基于過剩質量(EM)和質量體積(MV)曲線以評估異常檢測方法的性能,但目前這兩種方法還沒有應用到圖欺詐檢測中。
基于圖異常檢測進行反欺詐一直是學術界和工業(yè)界的研究熱點。在數(shù)字化金融服務迅速發(fā)展和網(wǎng)絡規(guī)模不斷擴大的情況下,欺詐檢測算法需要高效率且可擴展。近年來,新技術的發(fā)展為圖欺詐檢測提供了理論基礎,如張量分解、網(wǎng)絡嵌入以及圖神經(jīng)網(wǎng)絡等。方法的選擇取決于欺詐檢測的實際需求,最終達到的效果也各有差異。本文對反欺詐中廣泛應用的圖異常檢測技術進行總結,并對未來研究的發(fā)展方向進行總結。
不同的復雜網(wǎng)絡的欺詐定義和檢測方法不同,應根據(jù)復雜網(wǎng)絡的具體應用場景以及側重的特征選擇合適的異常檢測方法。欺詐檢測方法的分類匯總如表4。
表4 欺詐檢測方法分類匯總Table 4 Classification summary of fraud detection methods
目前,雖然社會網(wǎng)絡分析方法在反洗錢、醫(yī)療保險欺詐檢測以及車險欺詐檢測等領域已初見成效,但面對不斷發(fā)展的數(shù)據(jù)變化和實際需求,仍需進一步的發(fā)展與創(chuàng)新,主要有以下方向:
(1)海量數(shù)據(jù)的計算及時性
絕大部分的金融欺詐檢測方案是在事務處理系統(tǒng)中實施的,這種復雜系統(tǒng)能夠實時處理海量事務數(shù)據(jù),通常要求毫秒范圍的響應時間。以交易系統(tǒng)為例,這種端到端的時間限制包括交易處理本身、欺詐評分、支付網(wǎng)絡處理以及通信協(xié)議等步驟。由于實時處理的限制和大型互聯(lián)圖形的使用,社會網(wǎng)絡分析方案面臨嚴重的響應時間壓力。因此,如何利用社會網(wǎng)絡分析實現(xiàn)欺詐檢測的實時性將是一個重要的研究方向。
(2)異構信息網(wǎng)絡的復雜交互性
金融交易處理系統(tǒng)通常涉及眾多交易類型和模型來處理欺詐風險。在金融支付系統(tǒng)中,欺詐檢測模型感興趣的特征可能來自不同類型的社會網(wǎng)絡,這種復雜性成為開發(fā)有效圖形解決方案的障礙。同樣,跨渠道欺詐需要在實時響應服務級別協(xié)議的壓力下,在多個具有不同特征的圖上同時進行計算。因此,如何在獨立的網(wǎng)絡中執(zhí)行批量計算也是未來的一個挑戰(zhàn)。
(3)多模態(tài)數(shù)據(jù)的建??山忉屝?/p>
數(shù)字化場景下的金融服務渠道日趨豐富,不同渠道下的數(shù)據(jù)來源囊括了諸如文本、音頻以及圖像等多模態(tài)數(shù)據(jù),多模態(tài)數(shù)據(jù)中所暗含的潛在信息對于分析金融場景中的欺詐行為至關重要。當前針對多模態(tài)數(shù)據(jù)的建模分析多集中于推薦系統(tǒng)和計算機視覺等人工智能商業(yè)場景,針對數(shù)字化金融科技領域的研究相對較少。因此,探究如何合理解析多模態(tài)數(shù)據(jù)并將其轉化為社會網(wǎng)絡分析法中的實體表達或關系描述是下一階段可突破的學術難點。