国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)在商業(yè)銀行反洗錢的應(yīng)用

2016-04-08 06:18周彩冬潘維民
軟件 2016年2期
關(guān)鍵詞:反洗錢計(jì)算機(jī)應(yīng)用技術(shù)商業(yè)銀行

周彩冬++潘維民

摘要:隨著電子商務(wù)和移動(dòng)互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)流量的持續(xù)增長(zhǎng)和以雙十一為代表的多種數(shù)據(jù)洪峰的出現(xiàn),給商業(yè)銀行傳統(tǒng)的反洗錢手段帶來(lái)了巨大的壓力。海量交易數(shù)據(jù)下隱藏著各種洗錢行為,傳統(tǒng)的反洗錢方式在應(yīng)對(duì)持續(xù)增長(zhǎng)的數(shù)據(jù)時(shí)越來(lái)越捉襟見肘。當(dāng)前,大數(shù)據(jù)技術(shù)的發(fā)展為海量數(shù)據(jù)數(shù)據(jù)的收集、存儲(chǔ)、處理等提供了技術(shù)支撐。本文分析了商業(yè)銀行的反洗錢業(yè)務(wù)需求,從業(yè)務(wù)的角度對(duì)比研究當(dāng)前大數(shù)據(jù)領(lǐng)域眾多新技術(shù),提出了一套實(shí)用、可擴(kuò)展的反洗錢處理架構(gòu),并且提出了的大數(shù)據(jù)反洗錢的演進(jìn)方向。

關(guān)鍵詞:計(jì)算機(jī)應(yīng)用技術(shù);反洗錢;大數(shù)據(jù);商業(yè)銀行

中圖分類號(hào):TP31

文獻(xiàn)標(biāo)識(shí)碼:A

DOI: 10.3969/j.issn.1003-6970.2016.02.001

引言

洗錢行為給國(guó)家和社會(huì)帶來(lái)了巨大損失,我國(guó)從上世紀(jì)末就開始從國(guó)家層面實(shí)施反洗錢建設(shè),并且參考國(guó)際經(jīng)驗(yàn)總結(jié)了諸多反洗錢策略。但是隨著金融業(yè)的快速發(fā)展和金融領(lǐng)域信息化的不斷深入,數(shù)據(jù)量的增長(zhǎng)和新興金融產(chǎn)品的不斷推出,傳統(tǒng)的反洗錢方式在處理能力和處理精度上越來(lái)越不能滿足需求,所以商業(yè)銀行需要使用新技術(shù)來(lái)提升自己的反洗錢能力。本文介紹了反洗錢現(xiàn)狀和大數(shù)據(jù)相關(guān)技術(shù)及其優(yōu)勢(shì),分析對(duì)比了當(dāng)前大數(shù)據(jù)領(lǐng)域的一些適用技術(shù),并且結(jié)合商業(yè)銀行的業(yè)務(wù)情況提出了一套實(shí)用的大數(shù)據(jù)反洗錢架構(gòu),最后總結(jié)了大數(shù)據(jù)反洗錢的一些發(fā)展方向。

1 反洗錢現(xiàn)狀

在21世紀(jì)初,為了適應(yīng)國(guó)際反洗錢形勢(shì),我國(guó)反洗錢工作逐步開展,反洗錢監(jiān)管體系從無(wú)到有,逐步建立起來(lái)。但是,當(dāng)前反洗錢的形勢(shì)依然很嚴(yán)峻。根據(jù)中國(guó)人民銀行發(fā)布的《中國(guó)反洗錢報(bào)告2013》的統(tǒng)計(jì),2013年人民銀行共發(fā)現(xiàn)和接收4854份洗錢案件線索,中國(guó)反洗錢監(jiān)測(cè)分析中心全年向公安部等部門主動(dòng)移送和協(xié)查反饋數(shù)量超過(guò)前兩年總和。最近幾年,隨著走私、毒品、貪污賄賂等犯罪不斷曝光,非法轉(zhuǎn)移資金活動(dòng)大量存在,對(duì)洗錢行為的預(yù)防監(jiān)控愈發(fā)顯得重要。

由于洗錢行為大多以商業(yè)銀行作為操作平臺(tái),因而商業(yè)銀行在反洗錢方面具有重要的基礎(chǔ)性作用,商業(yè)銀行有能力也有義務(wù)對(duì)客戶身份、客戶交易行為進(jìn)行識(shí)別,完成反洗錢工作的初篩工作。如果銀行在反洗錢方面工作不利,不僅會(huì)對(duì)銀行造成經(jīng)濟(jì)還有聲譽(yù)的損失,更會(huì)影響反洗錢當(dāng)局的對(duì)于洗錢行為識(shí)別,造成國(guó)家層面的經(jīng)濟(jì)損失,影響國(guó)家的聲譽(yù)。

同時(shí),隨著數(shù)字化信息時(shí)代的來(lái)臨,網(wǎng)絡(luò)交易和移動(dòng)支付的數(shù)量不斷上升,越來(lái)越多、越來(lái)越詳細(xì)的交易數(shù)據(jù)對(duì)傳統(tǒng)的反洗錢處理方式構(gòu)成了挑戰(zhàn),單純的升級(jí)硬件或軟件已經(jīng)無(wú)法應(yīng)對(duì)可預(yù)期的數(shù)據(jù)量的瘋狂增長(zhǎng),因而商業(yè)銀行需要新技術(shù)來(lái)確保未來(lái)的反洗錢工作能準(zhǔn)確高效地進(jìn)行。大數(shù)據(jù)處理技術(shù)的發(fā)展為商業(yè)銀行提供一個(gè)可靠的解決方案。

2 大數(shù)據(jù)簡(jiǎn)介

大數(shù)據(jù)(big data),是指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。在維克托·邁爾一舍恩伯格及肯尼斯·庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》中,大數(shù)據(jù)是指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的SV特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)和Veracity(準(zhǔn)確性)。

隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)和云計(jì)算等領(lǐng)域的發(fā)展,大數(shù)據(jù)技術(shù)在眾多的領(lǐng)域得到了應(yīng)用并推動(dòng)了這些領(lǐng)域的發(fā)展。比如,在商業(yè)領(lǐng)域,沃爾瑪公司通過(guò)分析銷售數(shù)據(jù),了解顧客購(gòu)物習(xí)慣,得出適合搭配在一起出售的商品;在公共衛(wèi)生領(lǐng)域,谷歌通過(guò)對(duì)最頻繁檢索的詞條和美國(guó)疾控中心在2003年至2008年間季節(jié)性流感傳播時(shí)期的數(shù)據(jù)進(jìn)行了比較,預(yù)測(cè)了2009年冬季流感的傳播;在社會(huì)安全管理領(lǐng)域,美國(guó)麻省理工學(xué)院通過(guò)對(duì)某地區(qū)十萬(wàn)多人的SNS等信息進(jìn)行處理,提取人們行為的時(shí)空規(guī)律性,進(jìn)行犯罪預(yù)測(cè)。大數(shù)據(jù)技術(shù)的運(yùn)用,給人類帶來(lái)了更多的想象。

雖然有些數(shù)據(jù)處理技術(shù)已經(jīng)出現(xiàn),然而在一段時(shí)間內(nèi)它們只為調(diào)查局、研究所和世界上的一些巨頭公司所掌握,但隨著開源軟件的發(fā)展,以Hadoop為代表的數(shù)據(jù)處理技術(shù)和系統(tǒng)得以不斷的發(fā)展和完善,并且在諸多領(lǐng)域中得以運(yùn)用,極大地推動(dòng)了各個(gè)產(chǎn)業(yè)的發(fā)展。眾多大公司和研究所都在研究和使用Hadoop平臺(tái),并且針對(duì)各個(gè)細(xì)分領(lǐng)域貢獻(xiàn)了更多實(shí)用的組件,使得Hadoop生態(tài)圈更加完善。

商業(yè)銀行每天都會(huì)產(chǎn)生大量的交易數(shù)據(jù)和客戶信息,使用大數(shù)據(jù)處理技術(shù)來(lái)實(shí)施反洗錢,對(duì)于商業(yè)銀行保證反洗錢職能、提升反洗錢效率、降低反洗錢成本等方面有著重大的意義。

3 大數(shù)據(jù)反洗錢的優(yōu)勢(shì)

使用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)反洗錢,將大大提升商業(yè)銀行的反洗錢處理能力,跳過(guò)計(jì)算能力的瓶頸。當(dāng)前,商業(yè)銀行傳統(tǒng)的反洗錢方式是依據(jù)《金融機(jī)構(gòu)大額交易和可疑交易報(bào)告管理辦法》,對(duì)交易數(shù)據(jù)進(jìn)行計(jì)算,若交易數(shù)據(jù)符合大額交易或者可疑交易標(biāo)準(zhǔn),就將該數(shù)據(jù)報(bào)送反洗錢監(jiān)管機(jī)構(gòu)。商業(yè)銀行一般使用Oracle等傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)的計(jì)算分析,由于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的擴(kuò)展能力有限,數(shù)據(jù)處理能力只能通過(guò)提升硬件性能來(lái)實(shí)現(xiàn)有限提升,無(wú)法應(yīng)對(duì)越來(lái)越大量的交易數(shù)據(jù)。大數(shù)據(jù)處理技術(shù)能實(shí)現(xiàn)橫向擴(kuò)充計(jì)算能力,在處理能力、擴(kuò)充能力、成本等方面有巨大優(yōu)勢(shì)。當(dāng)前,基于關(guān)系型數(shù)據(jù)庫(kù)的反洗錢操作都是通過(guò)SQL來(lái)實(shí)現(xiàn)的,大數(shù)據(jù)平臺(tái)有Hive、Spark SQL、Dremel等實(shí)現(xiàn)SQL接口的大數(shù)據(jù)處理工具,對(duì)于技術(shù)方案切換成本和技術(shù)學(xué)習(xí)成本都能有很好的控制。

大數(shù)據(jù)技術(shù)也讓反洗錢有更多的提升空間。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)需要滿足范式等約束,一般只能處理結(jié)構(gòu)化的數(shù)據(jù)。大數(shù)據(jù)技術(shù)支持非結(jié)構(gòu)化的數(shù)據(jù),同時(shí)配合強(qiáng)大的存儲(chǔ)能力能收集記錄更多維度的數(shù)據(jù),在對(duì)交易數(shù)據(jù)計(jì)算的時(shí)候可以避免樣本計(jì)算帶來(lái)的缺陷,使用完整的數(shù)據(jù)進(jìn)行計(jì)算分析提升反洗錢的效果。由于擁有強(qiáng)大的計(jì)算能力和存儲(chǔ)能力,反洗錢的識(shí)別可以突破《金融機(jī)構(gòu)大額交易和可疑交易報(bào)告管理辦法》中相關(guān)規(guī)則的限制,提供更加細(xì)致的識(shí)別方案,比如可以針對(duì)每個(gè)客戶的歷史數(shù)據(jù),對(duì)比每筆交易,統(tǒng)籌考慮時(shí)間、地點(diǎn)、金額、流向、頻繁程度等要素,理解相關(guān)交易行為的特點(diǎn),配合離群值分析等機(jī)器學(xué)習(xí)算法,進(jìn)而提升可疑交易的識(shí)別準(zhǔn)確率。

4 大數(shù)據(jù)反洗錢的設(shè)計(jì)

4.1 反洗錢業(yè)務(wù)需求

中國(guó)反洗錢工作具有多部門協(xié)作的特點(diǎn),商業(yè)銀行反洗錢工作只是其中一部分。完整的反洗錢工作流程包括:客戶和交易信息收集及篩選、大額和可疑交易分析及甄別、大額和可疑報(bào)告報(bào)送、數(shù)據(jù)匯總檢查及預(yù)處理、可疑交易甄別及行政調(diào)查、移交司法立案?jìng)刹榈拳h(huán)節(jié)(見圖1),并由各商業(yè)銀行、人民銀行反洗錢機(jī)構(gòu)和司法機(jī)構(gòu)分別承擔(dān),形成反洗錢工作的完整閉環(huán)。

當(dāng)前大多數(shù)商業(yè)銀行都是采用Oracle、MySQL等傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)作為數(shù)據(jù)處理的主要T具,然而隨著信息數(shù)據(jù)的增長(zhǎng)和數(shù)據(jù)分析的需求的轉(zhuǎn)變,傳統(tǒng)數(shù)據(jù)庫(kù)遭遇諸多瓶頸,比如數(shù)據(jù)量增長(zhǎng)過(guò)快,導(dǎo)致運(yùn)算效率下降;數(shù)據(jù)抽取處理的代價(jià)過(guò)高,無(wú)法在統(tǒng)一的視圖下處理;無(wú)法處理多種類型的數(shù)據(jù);不具備進(jìn)行搜索或關(guān)聯(lián)分析以發(fā)現(xiàn)隱藏關(guān)系的能力;不具備數(shù)據(jù)挖掘等高級(jí)分析的能力等等。大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展為商業(yè)銀行快速精準(zhǔn)分析數(shù)據(jù)提供了解決方向。

目前,商業(yè)銀行的數(shù)據(jù)分析一般是基于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù),考慮到技術(shù)演進(jìn)的漸進(jìn)性,需要對(duì)反洗錢處理的前后端兼容,同時(shí)兼顧使用的便捷性和穩(wěn)定性,所以使用大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)來(lái)實(shí)現(xiàn);考慮到今后反洗錢策略的升級(jí),新系統(tǒng)也需要為策略升級(jí)留下擴(kuò)展接口。

《金融機(jī)構(gòu)大額交易和可疑交易報(bào)告管理辦法》規(guī)定,金融機(jī)構(gòu)應(yīng)當(dāng)在大額交易發(fā)生后的5個(gè)T作日內(nèi),在可疑交易發(fā)生后的10個(gè)工作日內(nèi)以電子方式報(bào)送相關(guān)報(bào)告到中國(guó)反洗錢監(jiān)測(cè)分析中心。上報(bào)的時(shí)間比較寬裕,在線處理和離線處理都可滿足需求。

4.2 技術(shù)方案比較

4.2.1 數(shù)據(jù)采集技術(shù)

機(jī)構(gòu)信息、員工信息、客戶信息、賬戶信息、牌價(jià)匯率信息、本外幣交易信息等數(shù)據(jù)的采集是由商業(yè)銀行的業(yè)務(wù)柜臺(tái)等直接和用戶交互的機(jī)構(gòu)錄入到系統(tǒng)的,是典型的聯(lián)機(jī)事務(wù)處理(OITP),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)和新興的NoSQL都是備用方案。下表對(duì)關(guān)系型數(shù)據(jù)庫(kù)和NoSQL數(shù)據(jù)庫(kù)做了對(duì)比:

從上表可以看出,關(guān)系型數(shù)據(jù)庫(kù)和NoSQL具有不同的適用場(chǎng)景。商業(yè)銀行的交易數(shù)據(jù)相對(duì)來(lái)說(shuō)模式比較固定,沒(méi)有大量的非結(jié)構(gòu)化數(shù)據(jù),單純OLTP場(chǎng)景下處理能力也完全能滿足需求,同時(shí),銀行現(xiàn)有的業(yè)務(wù)系統(tǒng)也是基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),所以數(shù)據(jù)采集主要還是依靠傳統(tǒng)的數(shù)據(jù)庫(kù)來(lái)完成??蛻魯?shù)據(jù)是非常冗雜的數(shù)據(jù),當(dāng)前商業(yè)銀行記錄的數(shù)據(jù)主要是交易相關(guān)的固定模式的數(shù)據(jù),但是用戶數(shù)據(jù)是非常具有挖掘價(jià)值的,隨著用戶數(shù)據(jù)分析策略的升級(jí),會(huì)有很多非結(jié)構(gòu)化的數(shù)據(jù)作為補(bǔ)充,所以客戶數(shù)據(jù)可以逐步采用Apache HBase等NoSQL數(shù)據(jù)庫(kù),增加對(duì)非結(jié)構(gòu)化數(shù)據(jù)的支持,為在大數(shù)據(jù)平臺(tái)上實(shí)施客戶評(píng)級(jí)、風(fēng)險(xiǎn)監(jiān)控等策略的升級(jí)提供接口。

4.2.2 數(shù)據(jù)分析技術(shù)

實(shí)現(xiàn)大數(shù)據(jù)反洗錢,最主要的就是在交易數(shù)據(jù)中識(shí)別洗錢行為。中國(guó)人民銀行對(duì)商業(yè)銀行的反洗錢的要求就是識(shí)別和報(bào)送大額交易和可疑交易,使用SQL的方式進(jìn)行反洗錢數(shù)據(jù)處理,是便捷有效的方式。反洗錢相關(guān)需求的實(shí)施是典型的聯(lián)機(jī)分析處理(OIAP),當(dāng)前基于大數(shù)據(jù)平臺(tái)的OLAP方案主要有Apache Hive、Dremel clones、Spark SQL三種。在技術(shù)方案選型時(shí),當(dāng)前技術(shù)的成熟程度、開源分支的活力和技術(shù)演進(jìn)的方向都需要考慮,需要從趨勢(shì)上避開一些不具發(fā)展?jié)摿Φ募夹g(shù),比如之前的Shark。

Apache Hive最初由Facebool公司創(chuàng)建,是第一個(gè)基于Hadoop之上的SQL引擎,且至今仍是最成熟的。Hive主要解決的問(wèn)題就是為開發(fā)人員提供SQL方言來(lái)存儲(chǔ)和處理Hadoop集群中的數(shù)據(jù),封裝了復(fù)雜的編程任務(wù),方便在海量靜態(tài)數(shù)據(jù)上做離線分析處理。到目前為止,Hive擁有最完整的SQL功能支持、最為穩(wěn)定,并且也是擁有最多貢獻(xiàn)者的項(xiàng)目,事實(shí)上大多數(shù)SQL引擎都以這種或那種方式依賴于Hive。Hive最初是構(gòu)建在MapReduce之上的,運(yùn)行穩(wěn)定但是耗時(shí)較多。Hortonworks于2013年提出Apache Tez引擎以提高Hive性能,Tez使用數(shù)據(jù)流(Dataflow)的方式避免了MapReduce中間結(jié)果的寫磁盤讀磁盤的性能瓶頸,提高數(shù)據(jù)分析的效率。Hive社區(qū)于2014年推出了Hive on Spark項(xiàng)目(HIVE-7292),并且在Hive l.1版本中正式推出。Hive on Spark在設(shè)計(jì)時(shí)盡可能重用Hive邏輯層面的功能,從生成物理計(jì)劃開始,提供一整套針對(duì)Spark的實(shí)現(xiàn)。在Hive l.l及以后的版本,MapReduce、Tez、Spark三個(gè)引擎可以自由切換。

2010年,Google公開了《Dremel:InteractiveAnalysis of WebScaleDatasets》一文,提出了PB級(jí)數(shù)據(jù)規(guī)模上的“交互式”數(shù)據(jù)分析系統(tǒng)。在PB級(jí)數(shù)據(jù)規(guī)模上,Hive使用MapReduce作為引擎執(zhí)行數(shù)據(jù)處理需要分鐘級(jí)時(shí)間,Dremel只需要秒級(jí)。Dremel論文公開后,外部有很多克隆版本,比如Facebook Presto、Cloudera Impala和Apache Drill. Dremel Clones沒(méi)有再使用緩慢的Hive+MapReduce批處理方式,而是通過(guò)使用與商用并行關(guān)系數(shù)據(jù)庫(kù)( Parallel DatabaseSystem)中類似的分布式查詢引擎,可以直接從HDFS或HBase中用SELECT、JoIN和統(tǒng)計(jì)函數(shù)查詢數(shù)據(jù),從而大大降低了延遲。然而,由于流式傳輸過(guò)程中,中間數(shù)據(jù)都保存在內(nèi)存中,當(dāng)數(shù)據(jù)量過(guò)大內(nèi)存無(wú)法容納時(shí),查詢就會(huì)失敗。Dremel Clones適用于原型階段的快速數(shù)據(jù)分析和模型建立,不適合有復(fù)雜處理邏輯的計(jì)算,不適合大數(shù)據(jù)量的計(jì)算。

Spark是一個(gè)通用的大規(guī)??焖偬幚硪?,Spark完全跳出 MapReduce的處理模型,將數(shù)據(jù)集緩存在內(nèi)存中,并用Lineage機(jī)制容錯(cuò),其彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets)也提供更豐富的編程接口。總體而言,Spark為我們提供了一個(gè)全面、統(tǒng)一的框架用于管理各種有著不同性質(zhì)(文本數(shù)據(jù)、圖表數(shù)據(jù)等)的數(shù)據(jù)集和數(shù)據(jù)源(批量數(shù)據(jù)或?qū)崟r(shí)的流數(shù)據(jù))的大數(shù)據(jù)處理的需求。Spark在SQL方面的發(fā)展最早是基于Hive的Shark,由于Shark對(duì)于Hive有太多依賴(查詢優(yōu)化、語(yǔ)法解析等),性能提升遭遇瓶頸,2014年Spark Submit上Databricks宣布放棄了的Shark的開發(fā),從此Spark上的SQL就分成兩個(gè)路線:Spark SQL和Hiveon Spark。Hive on Spark可以認(rèn)為是前端Hive后端Spark,基于MR或Tez的Hive既有用戶可以在原系統(tǒng)與Hive on Spark系統(tǒng)之間輕松切換,切換工作僅僅只需要簡(jiǎn)單地修改下配置參數(shù)。Spark SQL是一個(gè)完整的新引擎,Spark SQL團(tuán)隊(duì)吸收Shark的優(yōu)點(diǎn)重新開發(fā)了Spark SQL代碼,使得Spark SQL無(wú)論在數(shù)據(jù)兼容、性能優(yōu)化、組件擴(kuò)展方面都得到了極大的提升。Spark SQL在2015年5月的1.3的版本中才走出“Alpha”狀態(tài),是全新的平臺(tái),相對(duì)于Hive在功能豐富性和穩(wěn)定性上還有很多不足。

綜合分析各個(gè)數(shù)據(jù)處理平臺(tái),結(jié)合商業(yè)銀行高穩(wěn)定性、高可用性需求以及大量交易數(shù)據(jù)和充足的離線運(yùn)行時(shí)間的實(shí)際情況,選用至今最成熟的Apache Hive是商業(yè)銀行的最佳選擇。Hive支持MapReduce、Tez、Spark三大引擎,在運(yùn)行效率和運(yùn)行穩(wěn)定性之間有比較大的選擇空間。Dremel Clones可以作為輔助分析工具,幫助調(diào)研調(diào)試新的反洗錢規(guī)則。同時(shí),Spark SQL發(fā)展迅速,也可能成為今后的最佳選擇。

4.2.3 數(shù)據(jù)存儲(chǔ)技術(shù)

大數(shù)據(jù)平臺(tái)的數(shù)據(jù)存儲(chǔ)主要是HDFS和HBase兩種。雖然HBase的底層也是基于HDFS,但是在許多特性上和HDFS是有明顯的區(qū)別的。

由于HBase是基于HDFS的,所以HBase也擁有HDFS的高吞吐量、高可伸縮性等特點(diǎn)。實(shí)質(zhì)上,HBase就是在HDFS的基礎(chǔ)上增加了基于內(nèi)存的緩沖區(qū)并調(diào)整數(shù)據(jù)查找方式。HBase適用于數(shù)據(jù)存儲(chǔ)和搜索,但是對(duì)于數(shù)據(jù)分析,性能會(huì)比HDFS差一些,因?yàn)镠DFS上典型的訪問(wèn)是順序I/O,而HBase上的訪問(wèn)有服務(wù)器的socket連接資源消耗和對(duì)底層多個(gè)文件的合并過(guò)程。當(dāng)前,有Apache Kudu這樣的項(xiàng)目來(lái)兼顧數(shù)據(jù)掃描、隨機(jī)訪問(wèn)和數(shù)據(jù)分析的高性能,避免額外的數(shù)據(jù)移動(dòng),但是該項(xiàng)目正在處于孵化階段,暫時(shí)無(wú)法在項(xiàng)目中運(yùn)用。

商業(yè)銀行反洗錢的主要數(shù)據(jù)源是交易數(shù)據(jù),輔助數(shù)據(jù)源為客戶、賬戶信息;同時(shí)在數(shù)據(jù)的ETL處理階段,有碼值映射表等輔助數(shù)據(jù)。銀行每天業(yè)務(wù)結(jié)束后,會(huì)將數(shù)據(jù)導(dǎo)入到HDFS中,以供分析。交易數(shù)據(jù)是確定不變的數(shù)據(jù),可以使用HDFS來(lái)存儲(chǔ);對(duì)于客戶數(shù)據(jù)等可變數(shù)據(jù),可以使用HBase存儲(chǔ),在運(yùn)行時(shí)加載到HDFS中以提高分析速度。如果不考慮非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),可以不用HBase直接將所有原始數(shù)據(jù)存入關(guān)系數(shù)據(jù)庫(kù)然后統(tǒng)一導(dǎo)入HDFS。 文件存儲(chǔ)格式對(duì)于數(shù)據(jù)分析的效率也有很大影響。目前,Hive支持的幾種主要的數(shù)據(jù)格式如下:

相對(duì)于純文本格式和面向行的二進(jìn)制格式,面向列的二進(jìn)制格式性能消耗較大,但是具有較好的壓縮比和查詢響應(yīng);同時(shí)ORC和Parquet還增加了數(shù)據(jù)的塊統(tǒng)計(jì),能有效減少數(shù)據(jù)分析的時(shí)間。反洗錢業(yè)務(wù)需要大量的數(shù)據(jù)分析,所以分析時(shí)采用ORC格式具有比較好的效果。在數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)會(huì)進(jìn)行分層,不同的數(shù)據(jù)層應(yīng)該根據(jù)實(shí)際采用不同的數(shù)據(jù)格式。

數(shù)據(jù)存儲(chǔ)文件也需要配合文件壓縮來(lái)減少占用的磁盤空間并加速數(shù)據(jù)在網(wǎng)絡(luò)間的傳輸。在反洗錢處理情景中,主要數(shù)據(jù)都是交易記錄,使用壓縮比和壓縮效率比較均衡的LZO或者Snappy皆可。

4.3 大數(shù)據(jù)反洗錢的應(yīng)用

4.3.1 大數(shù)據(jù)反洗錢的架構(gòu)設(shè)計(jì)

通過(guò)對(duì)反洗錢的業(yè)務(wù)研究和各個(gè)數(shù)據(jù)處理階段相關(guān)技術(shù)的對(duì)比研究,確定使用MySQL+HBase的方式來(lái)進(jìn)行數(shù)據(jù)采集(不考慮非結(jié)構(gòu)化數(shù)據(jù)可以全部使用MySQL);使用HDFS+HBase的方式實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)。結(jié)合反洗錢的實(shí)際業(yè)務(wù),對(duì)反洗錢整體的架構(gòu)設(shè)計(jì)如下:

MySQL集群中存儲(chǔ)每天的交易數(shù)據(jù)和客戶數(shù)據(jù),同時(shí)維護(hù)著一份反洗錢的配置文件。每天業(yè)務(wù)結(jié)束后,將MySQL中的數(shù)據(jù)導(dǎo)入到Hadoop處理平臺(tái)中。Hadoop環(huán)境中主要是使用Apache Hive作為數(shù)據(jù)倉(cāng)庫(kù),在Hive中進(jìn)行ETL操作,將數(shù)據(jù)整理轉(zhuǎn)換為反洗錢計(jì)算的輸入,然后進(jìn)行反洗錢的數(shù)據(jù)計(jì)算。最后將計(jì)算得出的預(yù)警結(jié)果導(dǎo)出到MySQL中。

就具體的數(shù)據(jù)分布而言,MySQL主要用于當(dāng)前操作型事務(wù)和少量在線數(shù)據(jù)應(yīng)用,其主要存儲(chǔ)系統(tǒng)基礎(chǔ)數(shù)據(jù)、元數(shù)據(jù)、當(dāng)前處理數(shù)據(jù)(補(bǔ)錄數(shù)據(jù)、案例處理、報(bào)告信息等)等數(shù)據(jù)。Hadoop是作為數(shù)據(jù)處理平臺(tái)(Hive)和數(shù)據(jù)歸檔平臺(tái)(HBase),主要存儲(chǔ)海量指標(biāo)數(shù)據(jù)和歷史數(shù)據(jù)(交易、報(bào)告、客戶/賬戶、評(píng)級(jí)歷史、日志等)。Hive作為基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù),具有天然的易于擴(kuò)充的海量數(shù)據(jù)存儲(chǔ)能力,所以存儲(chǔ)了所有歷史數(shù)據(jù),但是基于Hive的查詢操作會(huì)很慢,所以使用HBase來(lái)輔助查詢。具體的數(shù)據(jù)流如下:

Hive相關(guān)的部分,是整個(gè)系統(tǒng)的數(shù)據(jù)處理中心,包括ETL和規(guī)則計(jì)算。數(shù)據(jù)源是銀行的業(yè)務(wù)系統(tǒng)每天產(chǎn)生的基礎(chǔ)數(shù)據(jù),導(dǎo)出到Hadoop文件系統(tǒng)上;Hive通過(guò)Load命令將數(shù)據(jù)文件加載進(jìn)入到貼源層,貼源層與源系統(tǒng)結(jié)構(gòu)一致。數(shù)據(jù)加載到HDFS后,需要進(jìn)行ETL轉(zhuǎn)化,主要使用HQL語(yǔ)言進(jìn)行數(shù)據(jù)整理,最終在Hive中生成標(biāo)準(zhǔn)數(shù)據(jù)接口,然后將數(shù)據(jù)導(dǎo)入HBase,以供應(yīng)用訪問(wèn)。標(biāo)準(zhǔn)數(shù)據(jù)接口中的數(shù)據(jù)是全部數(shù)據(jù),使用合適的過(guò)濾規(guī)則將當(dāng)日規(guī)則計(jì)算需要的數(shù)據(jù)從標(biāo)準(zhǔn)數(shù)據(jù)模型中取出來(lái),以縮小需要訪問(wèn)的數(shù)據(jù)范圍。然后就可以進(jìn)行反洗錢核心環(huán)節(jié)的處理,進(jìn)行大額和可疑規(guī)則的計(jì)算,并且生成預(yù)警結(jié)果,最后將預(yù)警中間結(jié)果寫到MySQL。

每天的預(yù)警結(jié)果生成以后,需要在Mysql中對(duì)生成的預(yù)警結(jié)果進(jìn)行案例生成,數(shù)據(jù)校驗(yàn)等操作,其中并對(duì)部分?jǐn)?shù)據(jù)進(jìn)行補(bǔ)錄。對(duì)經(jīng)過(guò)在MySQL中補(bǔ)錄的業(yè)務(wù)數(shù)據(jù),如客戶信息、賬戶、交易信息,歸檔到Hive中的標(biāo)準(zhǔn)數(shù)據(jù)接口中,再同步到HBase中。對(duì)經(jīng)過(guò)在MySQL中補(bǔ)錄、認(rèn)定、報(bào)送已經(jīng)接收過(guò)回執(zhí)的數(shù)據(jù),同步到Hive的歷史庫(kù)中,再同步到HBase中的歷史庫(kù)中。

前臺(tái)訪問(wèn)主要涉及下面三個(gè)操作,日常的補(bǔ)錄、案例分析、報(bào)告及報(bào)送工作在MySQL中操作;對(duì)于查詢交易、賬戶、客戶等大數(shù)據(jù)量數(shù)據(jù)訪問(wèn)HBase,通過(guò)服務(wù)接口;對(duì)于歸檔的歷史數(shù)據(jù),通過(guò)服務(wù)接口訪問(wèn)HBase。

4.3.2 大數(shù)據(jù)反洗錢計(jì)算實(shí)現(xiàn)

具體的反洗錢計(jì)算如3所示,涉及的過(guò)程是從“標(biāo)準(zhǔn)數(shù)據(jù)接口”開始,到生成“預(yù)警結(jié)果中間表”結(jié)束。主要的計(jì)算邏輯就是《金融機(jī)構(gòu)大額交易和可疑交易報(bào)告管理辦法》中規(guī)定的4條大額規(guī)則和18條可疑規(guī)則,使用HiveQL根據(jù)客戶數(shù)據(jù)和交易數(shù)據(jù)的特征來(lái)識(shí)別可疑數(shù)據(jù)。

在計(jì)算過(guò)程中,由于數(shù)據(jù)量巨大,全部計(jì)算會(huì)浪費(fèi)過(guò)多資源,所以需要根據(jù)反洗錢的計(jì)算規(guī)則提煉出一些過(guò)濾規(guī)則以減少待計(jì)算的數(shù)據(jù)量。當(dāng)前使用的是以客戶為中心的篩選過(guò)濾規(guī)則,具體的過(guò)濾邏輯如下:

首先根據(jù)當(dāng)天的交易流水過(guò)濾出所有出現(xiàn)過(guò)的客戶ID(包括對(duì)方客戶),然后計(jì)算回顧周期,最后根據(jù)回顧周期從歷史數(shù)據(jù)中篩選出回顧周期內(nèi)需要計(jì)算的數(shù)據(jù)。以客戶為基準(zhǔn)過(guò)濾非計(jì)算數(shù)據(jù),可以有效的避免計(jì)算資源的浪費(fèi)。

反洗錢的計(jì)算過(guò)程中,描述性的規(guī)則在實(shí)施過(guò)程中需要量化。一條規(guī)則在量化后,會(huì)劃分成對(duì)公規(guī)則/對(duì)私規(guī)則、本幣規(guī)則/外幣規(guī)則等多種不同的子規(guī)則。大多數(shù)描述可以通過(guò)簡(jiǎn)單的屬性劃分來(lái)完成,但是有些描述無(wú)法通過(guò)簡(jiǎn)單的劃分來(lái)實(shí)現(xiàn)。以中國(guó)人民銀行的可疑規(guī)則第五條為例:與來(lái)自于販毒、走私、恐怖活動(dòng)、賭博嚴(yán)重地區(qū)或者避稅型離岸金融中心的客戶之間的資金往來(lái)活動(dòng)在短期內(nèi)明顯增多,或者頻繁發(fā)生大量資金收付?!岸唐趦?nèi)資金往次數(shù)明顯增多”這種行為的識(shí)別需要和前期的數(shù)據(jù)比較得到,然而每次計(jì)算時(shí)都統(tǒng)計(jì)歷史上的交易次數(shù)明顯是很低效的。為此,設(shè)計(jì)了資金收付偏移比這一指標(biāo):

短期內(nèi)日平均交易次數(shù)

資金收付偏移比=——————————

長(zhǎng)期日平均交易次數(shù)+1

其中,“短期”和“長(zhǎng)期”都是可調(diào)控參數(shù),針對(duì)對(duì)公用戶和對(duì)私用戶等不同用戶有不同的時(shí)間設(shè)置。由于分母是日平均交易次數(shù),可能是遠(yuǎn)小于1的值,這樣的值會(huì)將偶爾出現(xiàn)的交易放大而出現(xiàn)失真,所以添加了基數(shù)1來(lái)控制敏感度。實(shí)際的資金收付偏移比的閾值和上面所列出的指標(biāo)一樣,也是在參數(shù)表中動(dòng)態(tài)配置的,默認(rèn)的偏移比閾值是3。長(zhǎng)期參數(shù)可以定期計(jì)算保存,這樣每次計(jì)算短期的日平均交易次數(shù)既可以獲得資金收付偏移比,“短期內(nèi)資金往次數(shù)明顯增多”可表示為資金收付偏移比大于閾值,大大減少計(jì)算量。在實(shí)際的反洗錢計(jì)算中,還有新賬戶指標(biāo)、賬戶活躍度指標(biāo)等,都是為了降低計(jì)算復(fù)雜度而設(shè)立的,在此就不全部列舉。

5 反洗錢發(fā)展展望

隨著信息科技的發(fā)展,互聯(lián)網(wǎng)金融等眾多新興的交易模式逐漸增多,這些新技術(shù)在方便普通用戶的同時(shí),也給不法分子提供了新的洗錢手段。因此,作為反洗錢前沿陣地的商業(yè)銀行更需要提升反洗錢的能力,保證金融市場(chǎng)的有序穩(wěn)定。商業(yè)銀行提高反洗錢能力,一方面是反洗錢平臺(tái)技術(shù)的提升,提高數(shù)據(jù)處理能力;另一方面就是反洗錢識(shí)別策略的提升,提高數(shù)據(jù)處理的效率。

在平臺(tái)技術(shù)方面,通過(guò)上文的對(duì)比分析,可以看出當(dāng)前大數(shù)據(jù)技術(shù)已經(jīng)從具有處理能力向具有快速處理能力發(fā)展,越來(lái)越多的考慮使用內(nèi)存、固態(tài)硬盤等硬件睞加速執(zhí)行過(guò)程。MapReduce、類分布式搜索引擎、Spark等諸多技術(shù)的發(fā)展,提供越來(lái)越高效的數(shù)據(jù)分析手段。當(dāng)前,類似Kudu、Spark SQL等部分新的技術(shù)尚處在初期發(fā)展階段,暫時(shí)不能在商業(yè)銀行這種對(duì)穩(wěn)定性要求比較高的隋況下使用,但是將來(lái)肯定會(huì)是數(shù)據(jù)處理的有力擴(kuò)充。本文采用的是離線的處理方式,針對(duì)反洗錢的部分規(guī)則,可以采用Storm等流式計(jì)算引擎來(lái)完成在線實(shí)時(shí)分析計(jì)算,如果能在秒級(jí)別識(shí)別洗錢行為,那么對(duì)于整個(gè)反洗錢生態(tài)都是顛覆性的。

在反洗錢識(shí)別策略方面,商業(yè)銀行傳統(tǒng)的反洗錢監(jiān)控上報(bào)都是基于《金融機(jī)構(gòu)大額交易和可疑交易報(bào)告管理辦法》,這一套方式是對(duì)過(guò)去反洗錢手段的總結(jié),在應(yīng)對(duì)眾多新型交易方式,難免有疏漏之處。升級(jí)反洗錢識(shí)別策略,主要就是引入分類、估計(jì)、預(yù)測(cè)、關(guān)聯(lián)規(guī)則、聚類、描述和可視化等數(shù)據(jù)挖掘技術(shù),從大量數(shù)據(jù)中揭示J葉J隱含的、先前未知的并有潛在價(jià)值的信息。增強(qiáng)對(duì)客戶的風(fēng)險(xiǎn)控制,避免顯性檢測(cè)規(guī)則的弊端,降低反洗錢的識(shí)別成本,提升反洗錢執(zhí)行效率。本文的反洗錢架構(gòu)給反洗錢識(shí)別策略的升級(jí)預(yù)留了接口,可以使用機(jī)器學(xué)習(xí)組件Apache Mahout在HDFS上直接調(diào)試部署;也可以使用Hivemall直接基于Hive進(jìn)行算法的訓(xùn)練部署;也可以使用基于Spark的機(jī)器學(xué)習(xí)系統(tǒng)MLbase及底層的分布式機(jī)器學(xué)習(xí)庫(kù)MLlib來(lái)進(jìn)行反洗錢新策略的訓(xùn)練升級(jí)。盡管近年來(lái)在反洗錢識(shí)別策略方面的研究取得不少進(jìn)展,但總體來(lái)講‘框架研究多,具體方法研究少;理論研究多,結(jié)合具體場(chǎng)景研究少”,目前并沒(méi)有切合實(shí)際的方案,但這是反洗錢的必然發(fā)展方向。

6 結(jié)語(yǔ)

隨著全球經(jīng)濟(jì)信息化不斷加快,洗錢犯罪也呈現(xiàn)出更加多變、隱蔽的特點(diǎn)。商業(yè)銀行作為反洗錢的前鋒,承擔(dān)著反洗錢工作的重要職責(zé)。大數(shù)據(jù)時(shí)代的海量數(shù)據(jù)不僅給商業(yè)銀行的反洗錢帶來(lái)巨大壓力,同時(shí)也給整個(gè)金融市場(chǎng)帶來(lái)了全面提升反洗錢效率的契機(jī)。

本文從當(dāng)前商業(yè)銀行的反洗錢技術(shù)在數(shù)據(jù)處理能力不足的角度出發(fā),分析了商業(yè)銀行的反洗錢業(yè)務(wù)需求,并對(duì)比總結(jié)了當(dāng)前大數(shù)據(jù)相關(guān)技術(shù)在反洗錢場(chǎng)景下的優(yōu)缺點(diǎn)和適用情況,根據(jù)實(shí)際的業(yè)務(wù)情況提出一套實(shí)用的可擴(kuò)展的大數(shù)據(jù)的反洗錢處理框架,并且在反洗錢計(jì)算部分提出了優(yōu)化意見,最后討論了反洗錢發(fā)展的兩個(gè)方向。相信在不久的將來(lái),大數(shù)據(jù)技術(shù)將和反洗錢碰撞出更多的火花。

猜你喜歡
反洗錢計(jì)算機(jī)應(yīng)用技術(shù)商業(yè)銀行
關(guān)于加強(qiáng)控制商業(yè)銀行不良貸款探討
淺析商業(yè)銀行反洗錢內(nèi)控制度建設(shè)
計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)應(yīng)用現(xiàn)代信息技術(shù)組織教學(xué)的工作綜述
計(jì)算機(jī)應(yīng)用技術(shù)與企業(yè)信息化建設(shè)
我國(guó)商業(yè)銀行海外并購(gòu)績(jī)效的實(shí)證研究
我國(guó)商業(yè)銀行風(fēng)險(xiǎn)管理研究
丽江市| 九台市| 客服| 宣化县| 开化县| 秦安县| 文登市| 和政县| 宜良县| 元氏县| 明水县| 庆城县| 嘉兴市| 祁阳县| 沅陵县| 安康市| 罗江县| 济南市| 双流县| 溆浦县| 镇远县| 邵东县| 天峨县| 崇明县| 左云县| 若尔盖县| 潍坊市| 东光县| 莱芜市| 冕宁县| 尚志市| 牙克石市| 留坝县| 盈江县| 普兰店市| 广东省| 万州区| 琼海市| 泸水县| 巴塘县| 郸城县|