郝建軍 翟歲兵 甘霖
【摘要】 隨著經(jīng)濟(jì)建設(shè)不斷加快,洗錢交易成為世界性的犯罪行為。但是從現(xiàn)狀來看,如何識別洗錢交易難度非常大,選擇科學(xué)合理的識別方法非常關(guān)鍵,更是研究反洗錢的重要課題。本文闡述了交易信息的層次分析和數(shù)據(jù)結(jié)構(gòu),通過真實(shí)交易驗(yàn)證數(shù)據(jù)挖掘方法的有效性和可行性。
【關(guān)鍵詞】 數(shù)據(jù)挖掘 洗錢交易 識別
一、前言
隨著加強(qiáng)打擊洗錢犯罪活動(dòng)的力度,將金融機(jī)構(gòu)推向了反洗錢工作前沿,更是反洗錢的主戰(zhàn)場。而數(shù)據(jù)挖掘能夠從海量信息中獲取有價(jià)值線索,把數(shù)據(jù)挖掘和金融領(lǐng)域知識有效結(jié)合,識別洗錢交易是反洗錢研究中重要的基礎(chǔ)性工作。因此,研究數(shù)據(jù)挖掘識別洗錢交易具有重要意義。
二、交易信息的層次分析和數(shù)據(jù)結(jié)構(gòu)
要選擇合理的識別洗錢交易,就必須要深刻理解與準(zhǔn)確把握金融領(lǐng)域的背景知識。通過分析大量的交易信息,結(jié)合反洗錢的知識與實(shí)踐經(jīng)驗(yàn),可疑把金融交易信息劃分成四個(gè)層次,即為交易層、客戶層、賬戶層以及機(jī)構(gòu)層。交易層就是整個(gè)交易信息之基礎(chǔ),而交易層每一筆交易都包含了交易的主體、時(shí)間、賬戶以及交易性質(zhì)等各種豐富信息。將賬戶作為主體,歸并交易層信息,從而形成了賬戶層。各個(gè)賬戶中所包含交易層的信息不存在交集,并且每一個(gè)賬戶信息都是按照發(fā)生交易時(shí)間進(jìn)行順序排列。假如某個(gè)客戶擁有多個(gè)賬戶,并且將許多賬戶信息納入該客戶名下,和其他的單一客戶賬戶共同構(gòu)成客戶層;客戶層里的賬戶大多按照交易性質(zhì)進(jìn)行區(qū)分,比如資本賬戶、結(jié)算賬戶以及經(jīng)常賬戶,成為唯一客戶。
而客戶層中,例如客戶均為一家機(jī)構(gòu),則合并成客戶信息而形成了機(jī)構(gòu)層。機(jī)構(gòu)層中客戶幾乎都是按照機(jī)構(gòu)組成進(jìn)行區(qū)分,比如集團(tuán)旗下的銷售、生產(chǎn)、財(cái)務(wù)以及物流等各種子公司。機(jī)構(gòu)內(nèi)部猶如一棵樹,所有機(jī)構(gòu)層中機(jī)構(gòu)信息形成了樹林,各種信息加之互相間的交易關(guān)系形成了整個(gè)交易整體。
交易信息基本組成單位就是每筆交易記錄,同一個(gè)交易賬戶交易記錄就形成交易賬戶信息,同一主體關(guān)聯(lián)賬戶信息組成了信息整體。
在交易中每一筆交易均相當(dāng)一個(gè)數(shù)據(jù)點(diǎn),基于記錄的賬戶信息就依照時(shí)間序列形成一條數(shù)據(jù)鏈,關(guān)聯(lián)賬戶的信息構(gòu)成數(shù)據(jù)層,所有主體的信息就形成一個(gè)數(shù)據(jù)立方體。經(jīng)過構(gòu)建多維數(shù)據(jù)的立方體,就能夠從概括層次上分析可疑交易信息。
三、數(shù)據(jù)挖掘識別洗錢交易
為了探究利用數(shù)據(jù)挖掘識別洗錢交易,本文就采用真實(shí)的外匯交易數(shù)據(jù),然后結(jié)合層次分析,選定數(shù)據(jù)挖掘方法識別洗錢交易。
3.1 準(zhǔn)備數(shù)據(jù)
本文驗(yàn)證案例中所用數(shù)據(jù)源是某企業(yè)2011年——2015年外匯賬戶的交易數(shù)據(jù)。針對企業(yè)的原始交易數(shù)據(jù)實(shí)施了數(shù)據(jù)預(yù)處理,在操作中就是結(jié)合了可疑交易行為的特征,將企業(yè)的代碼當(dāng)成ID,檢查了交易數(shù)據(jù)的資金收付標(biāo)志、企業(yè)代碼以及交易金額等各種重要字段,填充了一些錯(cuò)誤與缺失值的使用經(jīng)驗(yàn)值或者背景資料,之后增加了一些分子字段,從而獲取原始特征集。對外匯賬戶的交易數(shù)據(jù)進(jìn)行預(yù)處理后如表1所示。
3.2 驗(yàn)證過程
首先要針對檢測孤立點(diǎn)在洗錢交易中的重要性,要發(fā)揮出聚類算法在分析金融交易過程中具有的優(yōu)勢。分析聚類數(shù)據(jù),將交易數(shù)據(jù)劃分成6類,1,2,3,4類的賬戶主體數(shù)據(jù)上有明顯行業(yè)特征,但是第5類所含企業(yè)具備了交易頻繁、交易金融大以及現(xiàn)金交易少等各種特征,分析此類客戶背景特征,就發(fā)現(xiàn)這一類中的賬戶主體大多規(guī)模大且屬于進(jìn)出口業(yè)務(wù)。而第6類包含了企業(yè)的資金交易不活躍,交易金額與交易次數(shù)都低于其他積累,通過分析就能夠發(fā)現(xiàn)這類賬戶主體大多是一些經(jīng)營不善的公司,而賬戶基本上都屬于睡眠戶,并且在第6類有53條數(shù)據(jù)是沒有合理解釋,只能夠歸并到異常交易的集合中去,聚類分析的結(jié)果如表2所示。
其次針對賬戶層面可疑特征,采用小波分析技術(shù)處理信息,然后結(jié)合背景信息選擇小波函數(shù),對交易時(shí)間序列實(shí)施時(shí)域與頻域變換,建立適用在可疑洗錢交易挖掘小波模型,從而實(shí)現(xiàn)序列奇異性檢測。對于外匯賬戶的信息,依據(jù)每一個(gè)賬戶煤炭交易信息形成的交易時(shí)間序列,運(yùn)用Matlab7.1軟件就能夠?qū)灰讜r(shí)間序列進(jìn)行小波分析。并對交易數(shù)據(jù)的序列進(jìn)行Haar 與bior3.3小波變換,采用多尺度進(jìn)行綜合分析判斷,從不同細(xì)節(jié)的信號高頻系數(shù)重新構(gòu)建信號突變點(diǎn)位置,就能夠準(zhǔn)確定位出交易發(fā)生異常的區(qū)域,從交易賬戶中獲取異常賬戶。
其三利用機(jī)構(gòu)層面的交易來源、流向及性質(zhì)或者用途的異常情形,運(yùn)用數(shù)據(jù)挖掘技術(shù)對路徑異常進(jìn)行識別。分析交易主體和交易流向、編碼間的鏈接,分析資金流向或者交易性質(zhì)上存在異?,F(xiàn)象,屬于一種可疑交易。采用SAS8.0統(tǒng)計(jì)軟件作為分析工具,分析數(shù)據(jù)挖掘模塊具(EM)的信息,在SAS/EM 中調(diào)用其他相關(guān)節(jié)點(diǎn)和Link節(jié)點(diǎn)對數(shù)據(jù)進(jìn)行鏈接分析,獲取到鏈接分析的結(jié)果。
其四;通過多角度挖掘交易數(shù)據(jù);采取不同的挖掘方法識別某方面特征具有絕對優(yōu)勢,由此獲得多層次可疑的交易特征,將各類的可疑特征設(shè)置為輸入屬性,將各種可疑標(biāo)識以集合屬性形成新數(shù)據(jù)集,并把新的數(shù)據(jù)集作為判定可疑度的數(shù)據(jù)源,采用貝葉斯準(zhǔn)則進(jìn)行推理判斷。
從而將多種可疑度轉(zhuǎn)化成單一指標(biāo),由此可定出最佳洗錢的可疑度指標(biāo),得出可疑度的判定閥值,就能夠給判定洗錢交易提供準(zhǔn)確的參考。本文經(jīng)過反洗錢的相關(guān)知識,就能夠確定出可疑度的閥值是0.49。
參 考 文 獻(xiàn)
[1]劉芳,伏峰.利用鏈接發(fā)現(xiàn)技術(shù)偵測可疑賬號交易信息[J].計(jì)算機(jī)工程與科學(xué),2012(6).
[2]楊勝剛.基于數(shù)據(jù)挖掘技術(shù)的人民幣反洗錢系統(tǒng)設(shè)計(jì)[J].財(cái)經(jīng)理
論與實(shí)踐,2015(11).
[3]歐陽衛(wèi)民.我國反洗錢若干重大問題[J].財(cái)經(jīng)理論與實(shí)踐,2016(3).