孫 權(quán),湯 韜,鄭建賓,潘 婧,趙金濤
1.復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院,上海200433
2.中國銀聯(lián)電子支付研究院,上海201201
隨著互聯(lián)網(wǎng)的飛速發(fā)展,當(dāng)前金融交易、支付場景逐漸多元化.在場景逐漸發(fā)展成熟的過程中,其潛在的風(fēng)險也在不斷地演化和迭代[1].與此同時,金融欺詐用戶利用各種手段及漏洞進行套利、套現(xiàn)[2]、互聯(lián)網(wǎng)攻擊[3-4]、洗錢等金融欺詐及犯罪行為,已經(jīng)從個體的用戶逐漸向集群團伙化、規(guī)?;薪M織的群體發(fā)展,形成龐大的產(chǎn)業(yè)鏈.據(jù)阿里巴巴和南方都市報共同發(fā)布的《2018 網(wǎng)絡(luò)黑灰產(chǎn)治理研究報告》顯示[5],2017年中國網(wǎng)絡(luò)黑色產(chǎn)業(yè)規(guī)模為450 多億元,已達千億元規(guī)模,黑灰產(chǎn)業(yè)比安全產(chǎn)業(yè)發(fā)展得更為迅速.同時,自動化群控技術(shù)、人工智能、生物認(rèn)證等先進的計算機技術(shù)已經(jīng)在該產(chǎn)業(yè)鏈集團中被逐漸利用,欺詐團伙及犯罪用戶的欺詐手段逐漸升級[6],產(chǎn)業(yè)鏈條逐漸深入,存在著極大的系統(tǒng)性金融風(fēng)險,給當(dāng)前的風(fēng)控反欺詐工作帶來了挑戰(zhàn).
當(dāng)前傳統(tǒng)金融風(fēng)控體系打擊欺詐的手段主要基于個體的欺詐用戶行為分析,采用人工核驗、專家規(guī)則等風(fēng)控方法開展偵測工作.面對海量的金融風(fēng)險數(shù)據(jù),亟需智能化程度較高的模型方法,在當(dāng)前支付數(shù)據(jù)和用戶數(shù)據(jù)的驅(qū)動下,對日益嚴(yán)峻的團伙化風(fēng)險進行自動化智能化的偵測.當(dāng)前的欺詐用戶標(biāo)簽多來自人工標(biāo)注和客戶投訴,標(biāo)簽量極其匱乏,亟需開發(fā)相關(guān)業(yè)務(wù)模型,支撐不平衡的樣本數(shù)據(jù)偵測.
基于上述考慮,本文針對當(dāng)前欺詐用戶團伙化的金融欺詐模式偵測能力的不足,提出基于圖計算和機器學(xué)習(xí)方法的團伙化欺詐偵測模型框架,對團伙化的欺詐鏈條進行深入的挖掘,并通過模型的追溯能力提升了模型的可解釋性.以銀聯(lián)云閃付營銷場景為典型案例,對模型應(yīng)用效果進行了詳細(xì)量化分析和評價,并對潛在的其他欺詐場景模型運用進行了框架體系的構(gòu)建和分析.
營銷欺詐團伙利用金融交易、支付場景規(guī)則漏洞,用戶偽造、惡意交易等手段,開展金融欺詐違法犯罪活動的行為,目前已形成龐大的黑色產(chǎn)業(yè)鏈.
典型的營銷欺詐產(chǎn)業(yè)鏈框架如下,在某一場景下,團伙首先通過上游場景賦能,組織相關(guān)的團伙攻擊用戶,通過內(nèi)部的群控方式對團伙成員進行組織.與此同時,團伙通常會與所攻擊場景相關(guān)的組織機構(gòu)及平臺內(nèi)部人士勾結(jié),獲取平臺場景規(guī)則漏洞、內(nèi)部信息等資源,在一定金融場景下對機構(gòu)平臺開展攻擊.結(jié)合當(dāng)前先進的技術(shù)手段,這類組織嚴(yán)密系統(tǒng)化群控的團伙將對場景機構(gòu)平臺、資金利益進行極大程度的攻擊和榨取.最后,團伙相關(guān)利益也存在下游分配和轉(zhuǎn)移,作為另一個金融場景的上游資源進行賦能,從而聯(lián)接多個場景構(gòu)成了縱深的龐大產(chǎn)業(yè)鏈.
圖1 營銷欺詐黑色產(chǎn)業(yè)鏈Figure 1 Marketing fraud black chain
面對逐漸深入的欺詐團伙化、專業(yè)化的產(chǎn)業(yè)鏈,當(dāng)前國內(nèi)外已有相應(yīng)工作進行展開.其主要的研究方向方法和不足體現(xiàn)在以下幾個方面:
1)當(dāng)前風(fēng)控系統(tǒng)絕大多數(shù)從下游交易側(cè)或個體節(jié)點獲取風(fēng)險數(shù)據(jù)和特征[7-8]對于用戶的偵測以個體為目標(biāo)開展,構(gòu)建相應(yīng)特征體系,在信用卡欺詐、電信詐騙等領(lǐng)域進行深入研究,但對于上游的追溯和團伙的挖掘存在明顯的不足.
2)面對日益深入和壯大的欺詐團伙規(guī)模,基于不可解釋的碎片化特征,國內(nèi)外學(xué)者從兩個角度開展模型研究:一是基于原始的信息和特征,構(gòu)建高維度的特征矩陣,利用神經(jīng)網(wǎng)絡(luò)等復(fù)雜模型[9-10]進行研究;二是結(jié)合經(jīng)驗和業(yè)務(wù),提出專家系統(tǒng)方法[11]開展有效偵測,兩種方法結(jié)合不夠緊密,其團伙性行為發(fā)現(xiàn)和解釋也存在嚴(yán)重的不足.
3)在模型開發(fā)基礎(chǔ)上,基于開發(fā)的模型需對偵測場景的實際偵測開展工程化應(yīng)用[12-13],而隨著場景逐漸復(fù)雜,風(fēng)險數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,傳統(tǒng)的單機的離線分析在實時性和算力上均存在明顯的不足.
針對上述不足,本文提出基于交易圖譜網(wǎng)絡(luò)的營銷欺詐異常團伙偵測方法,結(jié)合圖計算、圖嵌入及機器學(xué)習(xí)分類方法,對團伙化欺詐場景進行有效偵測.
如上節(jié)闡述,黃牛商戶和持卡人存在明確的欺詐產(chǎn)業(yè)鏈,異常團伙將事先積累一定數(shù)量的銀行卡和電話號碼,以便在營銷活動開展期間能最大程度地使用用戶身份資源注冊欺詐賬號,套取不法利益.在實際偵測過程中,相關(guān)的交易行為基于用戶的交易流水?dāng)?shù)據(jù)體現(xiàn),交易流水?dāng)?shù)據(jù)包含交易所需的持卡人側(cè)身份要素、商戶側(cè)身份要素及交易金額、時間等具體要素.
典型的交易流水?dāng)?shù)據(jù)和字段如表1所示,基于流水?dāng)?shù)據(jù)設(shè)定手機號與商戶代碼為主鍵值和節(jié)點,可以統(tǒng)計持卡人和商戶間的交易關(guān)系邊,以用于定義節(jié)點和邊屬性,構(gòu)建持卡人商戶的交易圖譜網(wǎng)絡(luò).
表1 交易流水?dāng)?shù)據(jù)示例Table 1 Example of transaction flow
整體模型框架如圖2所示,分為以下幾個層次設(shè)計:
1)基于持卡人與商戶流水?dāng)?shù)據(jù),構(gòu)建多維度的交易圖譜網(wǎng)絡(luò)
欺詐團伙用戶在進行欺詐交易、支付等行為時,存在明顯的用戶—用戶、用戶—平臺等場景行為節(jié)點對,以及相關(guān)交易、支付行為屬性邊.結(jié)合整個場景,將不同節(jié)點對及邊信息整合,可以形成龐大的金融場景圖譜網(wǎng)絡(luò).
不同金融場景涉及用戶類型有所不同,交易、支付關(guān)系亦有所區(qū)別,通常情況下呈現(xiàn)出同質(zhì)和異質(zhì)的圖譜網(wǎng)絡(luò)結(jié)構(gòu).出于場景海量的交易體量,對每一次金融交易或支付行為進行建圖缺乏可行性.本模型中,選取一定時間周期窗口,抽取用戶節(jié)點對的歸集性特征作為邊屬性.圖3(a)顯示了持卡人-商戶及交易屬性邊構(gòu)成的圖譜數(shù)據(jù)體系,包括了持卡人側(cè)的屬性信息、商戶屬性信息以及持卡人商戶的交易邊信息,基于流水?dāng)?shù)據(jù)可以形成相關(guān)的圖連接關(guān)系,并在此基礎(chǔ)上對不同時間窗口下的圖進行信息歸集,形成各時間窗口下的交易圖譜網(wǎng)絡(luò).如圖3(b)所示,對于轉(zhuǎn)賬交易,取一天為時間周期,統(tǒng)計兩張銀行卡間在一天內(nèi)的轉(zhuǎn)賬交易額度、筆數(shù)、時間間隔等特征,即建立了節(jié)點對間的邊屬性值,所構(gòu)建的圖譜用戶節(jié)點均為用戶的銀行卡.進一步遍歷全用戶交易信息,則構(gòu)建了銀行卡為節(jié)點,交易歸集信息為屬性邊的同質(zhì)轉(zhuǎn)賬圖譜網(wǎng)絡(luò).而存在多類用戶的場景下其圖譜網(wǎng)絡(luò)則存在異質(zhì)節(jié)點,如持卡人和商戶間的交易圖譜,但其網(wǎng)絡(luò)的構(gòu)建方法與同質(zhì)網(wǎng)絡(luò)類似.由于各金融場景下數(shù)據(jù)不斷更新,用戶圖譜網(wǎng)絡(luò)亦根據(jù)時間窗口的流動在不斷變化,因此本模型所建立的圖譜網(wǎng)絡(luò)為動態(tài)更新的圖譜網(wǎng)絡(luò),如圖3(c)所示.
圖2 偵測模型框架Figure 2 Framework of detection model
持卡人、商戶形成的圖譜網(wǎng)絡(luò)可做如下形式化表達,結(jié)合上文所述原始交易流水?dāng)?shù)據(jù),即:
{手機號,卡號,設(shè)備號,商戶編號,交易時間戳T,交易金額X1,交易地點X2,···}
在交易邊智能體系下,構(gòu)建的T0~T1 時間區(qū)間的圖譜節(jié)點和邊結(jié)構(gòu)如下:
G=
{
節(jié)點V1:手機號;
節(jié)點V2:商戶編號;
邊屬性E1:交易金額總和sum(X1)t|t ∈[T0,T1];
邊屬性E2:交易筆數(shù)總和count(X1)t|t ∈[T0,T1];
邊屬性E3:交易異地數(shù)量distinct(X2)t|t ∈[T0,T1]
······
}
圖3 交易圖譜構(gòu)圖Figure 3 Graph of transaction network
2)圖網(wǎng)絡(luò)多維度下的子圖過濾層處理
基于海量交易數(shù)據(jù)建立的圖譜網(wǎng)絡(luò)在進行圖分析時,存在大量的噪音數(shù)據(jù)和正常用戶數(shù)據(jù),而難以挖掘潛藏于數(shù)據(jù)中的黑灰產(chǎn)團伙用戶.利用初步的業(yè)務(wù)經(jīng)驗,在不同維度下設(shè)定相關(guān)閾值可以對圖譜進行有效的篩選,留下連接緊密的用戶節(jié)點對,提升團伙挖掘的效果.具體子圖過濾方法如下:
抽取各維度下的邊屬性,設(shè)計ReLU 層過濾,即設(shè)第i個維度下某兩節(jié)點間邊屬性特征值為fi,設(shè)定閾值fi0,當(dāng)特征值fi達到閾值fi0 時,保留該節(jié)點間的邊,反之則刪除該維度邊,以此對全網(wǎng)絡(luò)圖譜進行過濾,獲得各維度下的過濾子圖.對于每一個維度,對應(yīng)的子圖均表征了在該維度下關(guān)系緊密的用戶節(jié)點連接.
如圖4所示,子圖過濾技術(shù)類似于深度學(xué)習(xí)框架中的卷積網(wǎng)絡(luò),通過多通道對圖數(shù)據(jù)的特征過濾,以獲得各通道下的特征圖數(shù)據(jù).
即根據(jù)上節(jié)所述圖譜G={節(jié)點V1;節(jié)點V2;邊E1;邊E2; 邊E3···}
通過通道過濾可得不同通道下子圖:
Gchannel1=G{節(jié)點V1;節(jié)點V2;邊E1(E ∈f1);邊E2; 邊E3···}
Gchannel2=G{節(jié)點V1;節(jié)點V2;邊E1;邊E2(E ∈f2); 邊E3···}
圖4 多維度通道圖過濾Figure 4 Graph filtering under different demensions
3)多維圖譜的節(jié)點及集群特征抽取
在基于一定業(yè)務(wù)邏輯設(shè)定的閾值下獲取的特征子圖,能夠有效地表示各維度下用戶的緊密關(guān)聯(lián)關(guān)系.利用連通圖算法,將具有邊連接的各節(jié)點劃分至一個群組內(nèi),實現(xiàn)各個維度下子圖緊密聯(lián)系用戶的集群劃分.聯(lián)通子圖算法將具有邊連接各個節(jié)點劃分至同一連通組件之中,通過圖節(jié)點和邊遍歷,挖掘一個個連通的孤島群組.在本模型中,基于各維度通道過濾的連同子圖劃分,可以挖掘各維度通道下的各團伙群組,由此獲取各維度下圖結(jié)構(gòu)更多層次的特征.
各層次特征如下:
a.節(jié)點的群組內(nèi)個體特征:即各節(jié)點在時間窗口的個體特征歸集統(tǒng)計值.
b.節(jié)點所在群組的集群拓?fù)涮卣鳎杭锤髯訄D下,節(jié)點所劃分至的群組各邊屬性值規(guī)模等拓?fù)涮卣?
c.節(jié)點在群組中的集群重要度特征:即各子圖下,節(jié)點劃分至的群組中,節(jié)點在整個群組中的重要程度值特征,通過PageRank 算法,對每個聯(lián)通圖節(jié)點重要度進行提取.
對于每一個用戶節(jié)點,通過上述特征多層次抽取,假設(shè)生成了3 個層次共3M個特征量,則其在N維度的邊屬性通道下,共可獲得3M ×N個特征,較之最初M個節(jié)點單體特征,其特征維度得到了系統(tǒng)的提升,能有效提升節(jié)點的團伙化行為挖掘.
4)節(jié)點智能化異常檢測
圖書館的發(fā)展先后經(jīng)歷了傳統(tǒng)圖書館時代——圖書館各自為主,內(nèi)部空間為專業(yè)閱覽室加閉架書庫;計算機網(wǎng)絡(luò)化時代——1990年前后開始圖書館計算機集成系統(tǒng)建設(shè),開始文獻共建共享,書庫空間逐漸向開架調(diào)整,2000年之后開始大規(guī)模館藏資源數(shù)字化和借閱藏一體化空間布局。此階段圖書館的中心工作是以資源建設(shè)為中心,大體量新館建設(shè)是突出性標(biāo)志;復(fù)合圖書館時代——20世紀(jì)末,以數(shù)字資源發(fā)現(xiàn)為主導(dǎo),資源增加和館藏結(jié)構(gòu)與服務(wù)方式的變化,統(tǒng)一檢索與資源發(fā)現(xiàn),閱讀推廣與新媒體服務(wù),24小時自助借還功能與流動書車,倡導(dǎo)提高閱讀量。學(xué)習(xí)共享空間、雙創(chuàng)發(fā)展空間應(yīng)運而生。
通過上述圖挖掘抽取,可以獲取每個用戶節(jié)點3M×N個特征,再經(jīng)過歸一化處理,形成可用于機器學(xué)習(xí)建模訓(xùn)練、預(yù)測的特征矩陣.利用基于決策樹的GBDT 分類模型,結(jié)合數(shù)據(jù)樣本可以進行分類和回歸模型的訓(xùn)練,優(yōu)化和篩選特征值,對未標(biāo)注用戶進行偵測,輸出當(dāng)前團伙化場景中各用戶節(jié)點的風(fēng)險可疑性量化評估.
基于集成學(xué)習(xí)的梯度提升樹(gradient boosting decision tree,GBDT)分類及回歸算法模型可以對該類多特征的問題進行監(jiān)督學(xué)習(xí)[14-15],實現(xiàn)對樣本特征的分類及回歸分析和評分.GBDT 分類模型在計算中將產(chǎn)生多輪迭代,每輪迭代產(chǎn)生一個弱分類器.每個分類器在上一輪分類器的殘差基礎(chǔ)上進行訓(xùn)練,并通過降低偏差來不斷提高最終分類器的精度.類似地,GBDT 回歸模型則是迭代多棵回歸樹來共同決策以輸出特征的回歸結(jié)果.除此之外,GBDT 模型在輸出基于特征的標(biāo)簽分類和回歸結(jié)果的同時,還可以對學(xué)習(xí)過程中的特征變量在決策樹中的重要度進行排序,能有效應(yīng)用于特征篩選.
在目前特征體系下,當(dāng)前通過圖譜網(wǎng)絡(luò)獲取的用戶特征矩陣特征維度相對較低,且特征存在連續(xù)與離散多種類組合特征.對于該類特征的分類,GBDT 較之回歸模型及非集成的決策樹類模型特征組合分析效果更好;同時,當(dāng)前特征以基于個體特征、集群特征和集群重要度進行較好的場景特征工程處理,無需神經(jīng)網(wǎng)絡(luò)模型進行原始數(shù)據(jù)分析,較之神經(jīng)網(wǎng)絡(luò)模型降低了計算復(fù)雜度,并具有較好的模型可解釋性.
5)交易用戶(商戶、持卡人)畫像刻畫
采用分類模型時可以輸出用戶各類特征的權(quán)重值Qimn及對應(yīng)權(quán)重下的各特征歸一化特征值fimn,其中i代表節(jié)點的特征類型即個體節(jié)點類特征、群組規(guī)模類特征和節(jié)點群組貢獻度特征(i=1,2,3),m代表節(jié)點的第m個邊屬性特征(共M個特征),n代表節(jié)點的第n個維度(共N各維度).由此可以計算每個維度下各特征的權(quán)重加權(quán)值,作為對應(yīng)維度下的畫像特征值Kn,即由此便可在各維度下對用戶的綜合行為特征進行描述,刻畫用戶的維度畫像.
同時,基于各維度過濾的劃分子圖追溯可以快速挖掘團伙化的用戶行為,并根據(jù)各節(jié)點內(nèi)的風(fēng)險指數(shù)進行進一步評價.
對于上述模型框架設(shè)計的圖譜網(wǎng)絡(luò),在模型設(shè)計中考慮計算效率問題,采用聯(lián)通圖劃分的社區(qū)劃分方法可以實現(xiàn)分布式的計算,進而提高模型效率.但面對較大規(guī)模的聯(lián)通圖時,結(jié)合具體場景即可能涉及較大規(guī)模的團伙,因此有必要對其成員進行細(xì)化分析.針對各較大規(guī)模的聯(lián)通圖,采用基于圖嵌入技術(shù)分析不同交易節(jié)點的關(guān)聯(lián)關(guān)系相似性,挖掘潛在的核心持卡人團伙.
圖5所示為某基于聯(lián)通圖劃分獲取的持卡人手機號—商戶典型團伙示意,進一步根據(jù)具體交易流水明細(xì)記錄的手機、設(shè)備、卡等元素,可映射出持卡人側(cè)的異構(gòu)圖譜.該圖譜中多加入了設(shè)備、銀行卡節(jié)點,連接了更多的手機節(jié)點,形成了用戶側(cè)的集群網(wǎng)絡(luò).通過圖嵌入技術(shù)生成節(jié)點的隨機游走特征矢量,可以對用戶進行進一步聚類分析.如圖5所示,對于每一個集群子圖,通過N步的游走形成游走序列并對序列進行節(jié)點onehot 編碼,根據(jù)多步游走生成頻率向量對序列節(jié)點進行N維下的聚類分析.
本驗證案例為銀聯(lián)歷史營銷活動中的持卡人在商戶線下交易場景,用于分析的基礎(chǔ)數(shù)據(jù)為持卡人(以手機號為唯一識別ID)在各商戶時交易的流水?dāng)?shù)據(jù),該基礎(chǔ)數(shù)據(jù)中共涉及持卡人約35 000 人,其中有標(biāo)簽標(biāo)注的黃牛持卡人約20 000 人,欺詐用戶與正常用戶的正負(fù)樣本比例約為1∶20.
每一條交易流水?dāng)?shù)據(jù)均為持卡人與商戶的交易,故對于該場景下建立的交易圖譜網(wǎng)絡(luò)為持卡人—商戶的節(jié)點對.根據(jù)模型方法選取一天為時間窗口,統(tǒng)計持卡人與商戶的節(jié)點歸集性特征本案例選取了4 個維度下的特征:持卡人與商戶間的當(dāng)日交易總筆數(shù)、當(dāng)日交易總金額、當(dāng)日交易優(yōu)惠總金額及當(dāng)日交易每筆時間間隔.對于欺詐用戶,其在商戶的套利金額、高頻套利等手段會在以上4 個維度進行體現(xiàn).遍歷所有交易流水,結(jié)合每一個持卡人—商戶節(jié)點對及其多維度邊屬性,可以構(gòu)建全量流水?dāng)?shù)據(jù)下持卡人—商戶的交易異質(zhì)圖譜網(wǎng)絡(luò).
在此基礎(chǔ)上,基于相關(guān)業(yè)務(wù)特點設(shè)定ReLU 圖過濾層中不同維度的閾值,從而獲得多維度下的過濾子圖層,抽取相關(guān)集群及節(jié)點重要度信息特征進行聚合后通過分類器進行分類.根據(jù)相關(guān)場景業(yè)務(wù)邏輯,設(shè)定不同的ReLU 保證剩下的子圖規(guī)模為原圖的20%,相對應(yīng)的閾值為:保留當(dāng)日交易筆數(shù)大于10 筆、交易金額大于150 元、優(yōu)惠金額大于50 元和交易時間間隔小于60 s 的各維度邊,在多通道下進行子圖的過濾.
圖5 手機商戶團伙向手機-設(shè)備-銀行卡的異構(gòu)映射及圖嵌入技術(shù)應(yīng)用Figure 5 Phone-shop groups to phone-device-card network and its embedding method
基于持卡人節(jié)點的特征,構(gòu)建基于GBDT 的用戶分類和回歸模型.對于共35 000 的持卡人樣本,選取5 000 樣本用戶作為模型訓(xùn)練,剩下的30 000 持卡人作為預(yù)測評估模型的準(zhǔn)確性.
基于上述2.2 節(jié)“3)多維圖譜的節(jié)點及集群特征抽取”中所定義的持卡人特征,選取不同數(shù)量的特征,建立兩個GBDT 分類模型以對比分析.其中一個模型只選取每個持卡人節(jié)點的當(dāng)日個體交易特征,而另一個模型則選取每個持卡人節(jié)點所有的單體、群組及群組貢獻度特征進行建模對比.
圖6為當(dāng)前5 000 個持卡人樣本在邏輯回歸(LR),非集成決策樹(DT)基于節(jié)點個體特征和基于圖譜特征下的準(zhǔn)確率與召回率的對比.可以看出,基于不同層次維度的持卡人特征的圖譜全特征分類效果在多種模型下均優(yōu)于基于持卡人節(jié)點個體特征的分類效果,且GBDT模型效果優(yōu)于LR 和DT 模型.圖6進一步通過GBDT 的圖譜全特征分類模型,對剩下30 000 持卡人進行模型預(yù)測.預(yù)測結(jié)果可以看出,綜合考慮全特征的模型在更多的樣本數(shù)據(jù)上具有更好的模型泛化效果.
基于GBDT 的用戶分類和評分模型可以輸出不同維度下的各特征權(quán)重,通過維度特征歸集求和可以獲得各特征值在交易金額、優(yōu)惠金額、交易筆數(shù)及交易時間間隔4 個維度下的特征因子.對于交易金額維度特征因子,其各特征累加如圖7所示.
表2 模型效果對比Table 2 Comparison of model results %
圖6 模型結(jié)果對比Figure 6 Comparison of different model results
圖7 特征因子計算框架Figure 7 Computing framework of feature factors
通過以上方法便實現(xiàn)了各持卡人節(jié)點的特征在4 個維度下的降維,每個維度實質(zhì)上便對應(yīng)了當(dāng)前持卡人節(jié)點的套利團伙化行為畫像,即其團伙化行為中的交易金額程度、交易筆數(shù)程度、交易時間間隔程度和交易優(yōu)惠金額的嚴(yán)重程度.
圖8為持卡人節(jié)點個體交易特征和團伙化特征分析后的結(jié)果對比.出于可視化考慮,僅選取了時間間隔、交易筆數(shù)、優(yōu)惠金額3 個維度和部分節(jié)點進行展示:左圖為僅考慮持卡人個體交易特征的用戶分布情況,每個節(jié)點的3 個坐標(biāo)表示了用戶節(jié)點的交易頻數(shù)(筆數(shù))、交易體量(優(yōu)惠)和交易頻繁度(交易時間間隔).通過歸一化方式進行了散點可視化,該可視化結(jié)果反映了節(jié)點黃牛交易行為畫像.通過對比可知,持卡人個體節(jié)點分布規(guī)律難以挖掘,各分布點堆疊成簇難以區(qū)分;而各持卡人節(jié)點的特征因子分布規(guī)律能較好地把持卡人節(jié)點劃分至各個區(qū)域空間,各個區(qū)域空間則對應(yīng)了該持卡人節(jié)點相應(yīng)的套利行為表征.如貼近交易優(yōu)惠軸分布的節(jié)點,表示其在交易時間間隔和筆數(shù)維度因子較低,其套利行為呈現(xiàn)單筆大額優(yōu)惠套利的團伙化行為特征;而在交易筆數(shù)—原點—交易優(yōu)惠面附近分布的節(jié)點,則表現(xiàn)出大額多筆次的團伙化交易特征表征.由此可見,基于持卡人個體及團伙化套利行為特征的畫像因子,能夠?qū)Τ挚ㄈ说奶桌袨槟J竭M行更全面精準(zhǔn)的刻畫.?
基于上述圖譜網(wǎng)絡(luò)的構(gòu)建和團伙化特征的抽取聚合,可以有效評分與偵測當(dāng)前持卡人-商戶黃牛團伙.而在實際的業(yè)務(wù)中,根據(jù)交易閾值的設(shè)定更多基于業(yè)務(wù)經(jīng)驗,對多維度的子圖聯(lián)通圖劃分中會出現(xiàn)較大規(guī)模的交易團伙,如某一劃分團伙涉及上百個持卡人及商戶.而多個持卡人電話號碼往往存在設(shè)備多用戶、多卡綁定等問題,使得涉及的用戶集群規(guī)模進一步擴大.僅基于聯(lián)通子圖的集群劃分缺乏更深層次的團伙挖掘價值.基于第3節(jié)所屬的圖嵌入的方法,結(jié)合具體交易邊可以對用戶側(cè)在團伙中的表現(xiàn)進行進一步切分.
圖9為某涉及300 多節(jié)點的持卡人集群基于圖嵌入矢量聚類劃分結(jié)果及其在二維坐標(biāo)下的映射.通過聚類分析很明顯發(fā)現(xiàn),黃色標(biāo)注的聚類簇節(jié)點代表了這些對應(yīng)的用戶節(jié)點在團伙中具有較強的關(guān)聯(lián)性,屬于核心的交易節(jié)點.
圖9 基于圖嵌入的電話-卡-設(shè)備集群細(xì)分Figure 9 Phone-card-device group analysis based on graph embedding
本文針對當(dāng)前欺詐團伙化偵測的不足,提出了基于圖計算和機器學(xué)習(xí)的團伙化偵測模型方法框架,并對潛在的更大團伙異質(zhì)圖譜利用圖嵌入技術(shù)進行了進一步細(xì)分,有效提升了團伙化偵測的效率和可解釋性.基于交易及用戶數(shù)據(jù),實現(xiàn)了數(shù)據(jù)與智能技術(shù)對欺詐場景的共同驅(qū)動.