張松 趙泊 徐佳
數(shù)據(jù)挖掘在公積金異常提取中的應用研究
張松1趙泊1徐佳2
大數(shù)據(jù)時代,數(shù)據(jù)挖掘方法已經(jīng)被很多人熟悉和應用,此類模型算法也越來越多地應用在系統(tǒng)中。本文簡述了三種異常數(shù)據(jù)挖掘方法,探索在公積金提取業(yè)務中建立異常數(shù)據(jù)挖掘模型,尋找公積金異常提取業(yè)務,進一步探索公積金提取中的騙提、套取行為,以保護廣大繳存人的利益,保衛(wèi)住房資金安全,維護住房公積金正常的管理秩序。
異常數(shù)據(jù)挖掘;提取;住房公積金;大數(shù)據(jù)
在大數(shù)據(jù)時代,數(shù)據(jù)挖掘“啤酒和尿布”的故事幾乎已經(jīng)家喻戶曉,但數(shù)據(jù)挖掘還有一個專門方向——異常數(shù)據(jù)挖掘,又稱離群點分析或偏差檢測。人們在數(shù)據(jù)分析中,經(jīng)常碰到少量數(shù)據(jù),它與一般行為或模式不同,我們稱之為“異常數(shù)據(jù)”,異常數(shù)據(jù)不完全意味著錯誤或欺詐,但很可能預示著問題。異常的出現(xiàn)可能是體系本身背后隱藏的某種較強的未知力量作用的結果。通過識別、分析,往往能發(fā)現(xiàn)許多意想不到的新問題,新知識,從而幫助我們更深入地了解研究對象,發(fā)現(xiàn)問題,進而解決問題。
此外,關注異常數(shù)據(jù)本身往往非常有意義。異常數(shù)據(jù)挖掘可以發(fā)現(xiàn)信用卡的欺詐交易、股市的操控行為、會計信息的造假、洗錢、保險欺詐、違規(guī)交易等。此外,審計也需要經(jīng)常對異常數(shù)據(jù)進行審查。
住房公積金是國家規(guī)定的住房社會保障制度,它由單位和職工共同繳存的長期住房儲金組成,是住房分配貨幣化的主要形式。其業(yè)務主要有歸集、提取、貸款發(fā)放和回收等。其中,提取業(yè)務涉及面廣,業(yè)務量大,自由度高,違規(guī)風險大。因而,在實際中有一些公積金套取、騙提情況發(fā)生,這不僅侵害了廣大公積金繳存人的利益,而且威脅住房資金的安全,也擾亂公積金的正常管理秩序。
本文探索使用異常數(shù)據(jù)挖掘方法,分析公積金的異常提取,找出提取業(yè)務中不易被監(jiān)管者發(fā)現(xiàn)的違規(guī)提取。如:職業(yè)代辦人惡意套取、少量職工違規(guī)提取、個別政策漏洞、程序測試漏洞、經(jīng)辦人操作失誤等。而監(jiān)管者有必要對此類異常數(shù)據(jù)進行進一步調(diào)查,以發(fā)現(xiàn)造成異常的原因,從而堵住提取漏洞,防控風險。
Benford定律又稱首位數(shù)現(xiàn)象。它通過分析業(yè)務金額中首位、第二位數(shù)字出現(xiàn)概率的分布,來判斷提取業(yè)務中有無欺詐。我們將每一個管理部,每種提取原因的提取業(yè)務數(shù)據(jù)集作為研究對象。計算出每個研究對象第一、第二位數(shù)字出現(xiàn)概率與所有提取業(yè)務第一、第二位數(shù)字出現(xiàn)概率平均值的差異度,發(fā)現(xiàn)離群研究對象,找出差異值最大的前幾名作為異常提取風險的指引,有針對性的指導審查異常提取。
簡單地說,關聯(lián)規(guī)則就是找出兩個事物隱藏關系的數(shù)學方法。它通過定量化的數(shù)學模型,計算出X和Y共同發(fā)生的概率,以及X的出現(xiàn)對Y的出現(xiàn)有多大的影響。
在公積金提取業(yè)務中,為了方便廣大職工,規(guī)定可由他人代理職工提取公積金??梢哉f,該政策方便了廣大群眾,降低了群眾的提取成本。但是,也出現(xiàn)個別“職業(yè)代辦人”,即個別中介,代理不符合條件的職工違規(guī)提取公積金,并從中賺取手續(xù)費。
針對此類問題,可以使用關聯(lián)規(guī)則繪制出關聯(lián)關系圖,它可以找出提取業(yè)務數(shù)據(jù)中隱藏的關聯(lián)和關系網(wǎng),挖掘出隱藏在數(shù)據(jù)間的異常關系。按照數(shù)據(jù)的關聯(lián)關系找到違規(guī)提取。具體的,我們可以通過繪制關聯(lián)關系圖找出哪些經(jīng)辦人嫌疑最大,哪類提取業(yè)務異常提取的風險最大。
一般的,在法規(guī)政策、管理制度,大病患病率等條件穩(wěn)定的前提下,每個季度,各類提取業(yè)務的提取數(shù)量和金額應該保持相對穩(wěn)定,不應大起大落。如果某類“提取業(yè)務數(shù)量”、“提取業(yè)務總金額”某季度出現(xiàn)突然大幅度增加,那么,我們認為出現(xiàn)了異常。通過找出業(yè)務突增(業(yè)務數(shù)量、金額劇烈變化)的情況,預判提取業(yè)務的異常?;谶@個思路,一個時間段內(nèi)各類提取、每季度提取總金額環(huán)比突增的前幾名可作為我們審計、風險和合規(guī)檢查的工作切入點。
應當注意,異常數(shù)據(jù)的深層原因是體系背后隱藏的某種較強的未知力量的作用,異常數(shù)據(jù)并不能百分之百的證明該筆提取業(yè)務或經(jīng)辦人有違規(guī)或舞弊。只能說異常數(shù)據(jù)預示著該筆業(yè)務有較大異常的風險,因而可以作為監(jiān)管、審計、風險工作的切入點和線索,輔助異常審查工作,進而提供一種有科學依據(jù)、可模型化、量化的方法輔助糾正工作偏差。
[1]安利平,張松,仝凌云.基于決策樹的OLAM及其應用研究[J].計算機工程與設計,2008(05).
[2]何京玉.新一輪競爭贏在模型[J].金融電子化,2010(09).
[3]王林,蘭紅等.招行的對手和未來[J].第一財經(jīng)周刊,2011(43).
〔作者單位:1.天津市住房公積金管理中心,2.諾和諾德(天津)科技有限公司〕