褚偉 金岳成 林志永 何潯麗 汪東平
[摘要]本文以企業(yè)貨物貿(mào)易分類管理有效性審計(jì)為例,運(yùn)用SAS軟件中的分類相關(guān)模型,通過對以往的企業(yè)分類情況進(jìn)行訓(xùn)練形成分類規(guī)則,實(shí)現(xiàn)模擬業(yè)務(wù)人員進(jìn)行企業(yè)分類篩選,將模擬篩選的企業(yè)與現(xiàn)實(shí)分類企業(yè)作比,對不一致的企業(yè)進(jìn)行現(xiàn)場審計(jì)分析,以發(fā)現(xiàn)分類管理中存在的風(fēng)險(xiǎn)。
[關(guān)鍵詞]數(shù)據(jù)挖掘 ? ?聚類分析 ? ?分類管理 ? ?內(nèi)部審計(jì)
近年來,外匯局不斷推進(jìn)“數(shù)字外管”建設(shè),已開發(fā)20多個(gè)業(yè)務(wù)系統(tǒng)、采集海量業(yè)務(wù)與管理數(shù)據(jù),同時(shí),外匯局內(nèi)審人員短缺,現(xiàn)有分支局少有內(nèi)審專設(shè)機(jī)構(gòu),支局內(nèi)審人員多為兼職,內(nèi)部審計(jì)項(xiàng)目主要依靠總局、分局開展。為緩解審計(jì)人員少、審計(jì)任務(wù)多之間的矛盾,外匯局嘗試?yán)脭?shù)據(jù)挖掘技術(shù),在審計(jì)項(xiàng)目實(shí)施過程中,通過對現(xiàn)有外匯管理信息系統(tǒng)進(jìn)行數(shù)據(jù)挖掘、分析,快速發(fā)現(xiàn)審計(jì)重點(diǎn),合理配置審計(jì)資源,提升內(nèi)部審計(jì)效率,更好發(fā)揮內(nèi)部審計(jì)增加組織價(jià)值的作用。
一、數(shù)據(jù)挖掘的概念及相關(guān)方法
1995年,數(shù)據(jù)挖掘概念在美國計(jì)算機(jī)年會(huì)上被提出,這一概念的主要內(nèi)容是從大量的、模糊的、有噪聲的現(xiàn)實(shí)數(shù)據(jù)中,提取人們不知道但又包含其中并可以被人們利用的知識和信息的過程,內(nèi)含數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)處理、結(jié)果分析和評估等步驟。通過數(shù)據(jù)挖掘,可以讓模糊無關(guān)聯(lián)的數(shù)據(jù),經(jīng)過整理、加工、改造成清晰識別的狀態(tài),從而發(fā)現(xiàn)背后隱藏的邏輯關(guān)系。其中,聚類以及分類預(yù)測是數(shù)據(jù)挖掘過程中使用的關(guān)鍵方法。
聚類分析最本質(zhì)的思想是實(shí)現(xiàn)“物以類聚”。聚類分析要解決的問題是事先不知道所研究的對象應(yīng)分為幾類,更不知道觀測個(gè)體的具體分類情況,其目的是通過對觀測數(shù)據(jù)進(jìn)行分析,選擇一種能夠度量個(gè)體間接近程度的統(tǒng)計(jì)量,從而確定分類數(shù)目,建立一種有效的分類方法,并按接近程度對觀測個(gè)體給出合理的分類。分類和預(yù)測可以用于提取描述重要數(shù)據(jù)類的模型以及預(yù)測數(shù)據(jù)未來的趨勢。SAS軟件中實(shí)現(xiàn)聚類以及分類預(yù)測常用的模型有以下幾種:一是決策樹(Decision Tree),主要用于數(shù)據(jù)分類,通常包括特征選擇、決策樹生成以及決策樹的剪枝等過程,最后通過決策樹形成規(guī)則,再把規(guī)則運(yùn)用到新事物的分類中去;二是人工神經(jīng)網(wǎng)絡(luò)(Neural Networks),即從結(jié)構(gòu)上模仿生物中的神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練來學(xué)習(xí)的非線性預(yù)測模型,運(yùn)用在數(shù)據(jù)挖掘中進(jìn)行分類、聚類特征采掘等;三是隨機(jī)森林(Random Forest),作為決策樹的一種拓展,但不同于決策樹,具有雙重隨機(jī)性,即達(dá)到數(shù)據(jù)樣本采樣的隨機(jī)性以及數(shù)據(jù)特征的隨機(jī)性;四是支持向量機(jī)(Support Vector Machine),即一類按監(jiān)督學(xué)習(xí)方式對數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,具有穩(wěn)健性和稀疏性等特點(diǎn),廣泛運(yùn)用在人像識別、文本分類等模式識別中。
二、數(shù)據(jù)挖掘在外匯局內(nèi)部審計(jì)中的可行性分析
(一)外匯局信息化建設(shè)為內(nèi)部審計(jì)數(shù)據(jù)挖掘提供可能
外匯局不斷加強(qiáng)信息化建設(shè)頂層制度設(shè)計(jì),完善適應(yīng)外匯管理信息系統(tǒng)的軟硬件環(huán)境和技術(shù)路線,并從“技術(shù)支持業(yè)務(wù)改革”向“技術(shù)引導(dǎo)業(yè)務(wù)改革”方向發(fā)展,逐步加強(qiáng)技術(shù)推動(dòng)和引導(dǎo)業(yè)務(wù)改革。根據(jù)宏觀調(diào)控決策、微觀分析預(yù)測和外匯業(yè)務(wù)管理的需要,外匯局一方面加強(qiáng)外匯監(jiān)管和統(tǒng)計(jì)手段的信息化建設(shè),提升監(jiān)管業(yè)務(wù)水平;另一方面探索逐步實(shí)現(xiàn)內(nèi)審內(nèi)控電子化與系統(tǒng)化,強(qiáng)化內(nèi)部管控能力。目前,已開發(fā)使用銀行結(jié)售匯統(tǒng)計(jì)、貨物貿(mào)易、服務(wù)貿(mào)易、資本項(xiàng)目信息管理等20多個(gè)業(yè)務(wù)管理系統(tǒng)(見表1)以及適用于內(nèi)審內(nèi)控項(xiàng)目的實(shí)施、測評分析與整改的內(nèi)控風(fēng)險(xiǎn)測評系統(tǒng)。至此,建立起覆蓋外匯統(tǒng)計(jì)、信息管理、內(nèi)部管控等全方位、多方面的系統(tǒng)平臺,基本形成以數(shù)據(jù)采集、業(yè)務(wù)監(jiān)管、網(wǎng)上服務(wù)為基礎(chǔ)支撐的信息系統(tǒng)架構(gòu)。
(二)外匯管理理念轉(zhuǎn)變?yōu)閮?nèi)部審計(jì)數(shù)據(jù)挖掘提供支持
2009年以來,外匯局大力實(shí)踐外匯管理理念和方式“五個(gè)轉(zhuǎn)變”,從傳統(tǒng)的依賴審批和核準(zhǔn)的管理方式轉(zhuǎn)變?yōu)橹攸c(diǎn)加強(qiáng)跨境資金流動(dòng)的監(jiān)測分析和預(yù)警,從重事前監(jiān)管、行為管理轉(zhuǎn)變?yōu)閺?qiáng)調(diào)事后核查、主體監(jiān)管;從“有罪假設(shè)”轉(zhuǎn)變?yōu)椤盁o罪假設(shè)”,從“正面清單”轉(zhuǎn)變?yōu)椤柏?fù)面清單”等,新一階段的外匯管理工作開展著力于改善服務(wù),側(cè)重于科學(xué)監(jiān)測和風(fēng)險(xiǎn)防控。為更好地滿足“五個(gè)轉(zhuǎn)變”的履職需要,外匯管理人員快速轉(zhuǎn)變理念、改進(jìn)方式、提高素質(zhì),尤其在監(jiān)測分析方面實(shí)現(xiàn)了質(zhì)的飛躍,在數(shù)據(jù)資源的監(jiān)測、分析、利用取得了較好成效。因此,把數(shù)據(jù)挖掘技術(shù)運(yùn)用到外匯管理內(nèi)審工作中,通過大數(shù)據(jù)挖掘和分析提升內(nèi)審工作效率,既十分必要也頗為可行。
三、貨物貿(mào)易分類管理有效性審計(jì)思路
(一)外匯局貨物貿(mào)易分類管理現(xiàn)狀
2012年,外匯局取消原先的核銷制度,推行以分類管理為核心的貨物貿(mào)易外匯管理改革。為保證企業(yè)貿(mào)易外匯收支,購匯結(jié)匯具有真實(shí)、合法的交易背景,與真實(shí)貨物進(jìn)出口情況一致,外匯局采集企業(yè)收支數(shù)據(jù)及貨物流數(shù)據(jù),建立了進(jìn)出口貨物流與收付匯資金流匹配的核查機(jī)制,對企業(yè)貿(mào)易外匯收支進(jìn)行非現(xiàn)場總量核查和監(jiān)測。
實(shí)務(wù)操作中,所有發(fā)生貨物貿(mào)易外匯收支的企業(yè)都需提前到外匯局進(jìn)行名錄登記,不在名錄的企業(yè)不能辦理貿(mào)易外匯收支業(yè)務(wù)。對于所有進(jìn)入名錄企業(yè)庫的企業(yè),外匯局將其分成A、B、C三類。其中A類企業(yè)是按照無罪假設(shè)推定的,所有進(jìn)入名錄企業(yè)庫的企業(yè)經(jīng)過3個(gè)月輔導(dǎo)期后,都?xì)w類為A類企業(yè)。B/C類企業(yè)是外匯局分類監(jiān)管的重點(diǎn),外匯局監(jiān)管部門需要根據(jù)采集到的企業(yè)收支信息和海關(guān)貨物流信息,通過非現(xiàn)場核查和現(xiàn)場核查的方式來分析判斷可能存在的異常或違規(guī)行為,據(jù)此對企業(yè)進(jìn)行降級處理,并對落入到B/C類的企業(yè)采取不同的監(jiān)管措施。
對于B/C類企業(yè)的確定,外匯局采用“系統(tǒng)指標(biāo)+人工核查”的方式。外匯局對于貨物貿(mào)易企業(yè)日常監(jiān)管依靠“貨物貿(mào)易外匯監(jiān)測系統(tǒng)”,系統(tǒng)通過指標(biāo)對異常企業(yè)進(jìn)行預(yù)警?,F(xiàn)有貨物貿(mào)易監(jiān)測指標(biāo)包括總量差額、總量差額率、資金貨物比等。各地監(jiān)測人員按照地區(qū)實(shí)際設(shè)置指標(biāo)閾值,并將閾值報(bào)備外匯管理總局,監(jiān)測人員不能隨意更改閾值設(shè)置。對于超過系統(tǒng)閾值的企業(yè),系統(tǒng)會(huì)將上述企業(yè)落入“重點(diǎn)監(jiān)測庫”,由監(jiān)測人員對其進(jìn)行二次篩選。二次篩選過程中,需要結(jié)合各個(gè)指標(biāo),依靠監(jiān)測人員經(jīng)驗(yàn),通過非現(xiàn)場核查和現(xiàn)場核查,進(jìn)行B/C類企業(yè)的最終確定。
(二)企業(yè)分類監(jiān)管中的審計(jì)要點(diǎn)
分類監(jiān)管是貨物貿(mào)易外匯管理改革的核心,分類準(zhǔn)確性在貨物貿(mào)易日常管理中起至關(guān)重要的作用??梢哉f,分類的準(zhǔn)確與否關(guān)系到日常監(jiān)管是否有效乃至貨物貿(mào)易改革成敗。但在實(shí)際監(jiān)管中,分類監(jiān)管也存在風(fēng)險(xiǎn),一是由于企業(yè)眾多,落入重點(diǎn)監(jiān)測庫的企業(yè)也很多,對企業(yè)的分類篩選工作量極大,以A分局為例,該分局轄內(nèi)共有名錄企業(yè)6萬多家,一般指標(biāo)篩選后落入重點(diǎn)監(jiān)測庫的企業(yè)在6000家左右,監(jiān)管人員要對這些企業(yè)進(jìn)行二次篩選,工作量很大,可能存在工作疏忽,致使應(yīng)納入B/C類的企業(yè)沒有納入;二是可能存在廉政風(fēng)險(xiǎn),監(jiān)管人員在日常監(jiān)管中,出于人情等原因,把應(yīng)納入B/C類的企業(yè)沒有納入。
傳統(tǒng)內(nèi)部審計(jì)方式難以有效發(fā)現(xiàn)上述問題。一般而言,監(jiān)管人員只能發(fā)現(xiàn)不應(yīng)納入B/C類而被納入的企業(yè),因?yàn)閷Υ祟惼髽I(yè),操作規(guī)程要求監(jiān)測人員留有分類資料,而對應(yīng)納入B/C類未納入的企業(yè),往往不留存任何監(jiān)測資料。同時(shí),二次篩選過程是監(jiān)測人員根據(jù)多個(gè)指標(biāo)依靠經(jīng)驗(yàn)綜合把握的,審計(jì)人員無法提供有利證據(jù)證明應(yīng)納入B/C類而沒有納入的企業(yè)。
(三)基于分類和聚類數(shù)據(jù)挖掘的審計(jì)思路
對于企業(yè)分類監(jiān)管的審計(jì),關(guān)鍵是尋找那些應(yīng)納入B/C類而沒有納入的企業(yè)。最好的方法是模擬審計(jì)對象日常監(jiān)測人員自己的行為模式,運(yùn)用計(jì)算機(jī)數(shù)據(jù)挖掘功能學(xué)習(xí)該模式,并將該模式運(yùn)用到實(shí)際數(shù)據(jù)中,從而找到要找的企業(yè)。因此可以使用SAS中的分類相關(guān)模型,通過對以往的企業(yè)分類情況進(jìn)行訓(xùn)練,從而構(gòu)筑有效的分析模型,實(shí)現(xiàn)模擬業(yè)務(wù)人員對企業(yè)進(jìn)行分類篩選。將計(jì)算機(jī)通過模擬篩選出來的企業(yè)與現(xiàn)實(shí)分類得到的企業(yè)作比,對不一致的企業(yè)進(jìn)行現(xiàn)場審計(jì)分析,找到審計(jì)重點(diǎn),發(fā)現(xiàn)被審計(jì)單位的風(fēng)險(xiǎn)。
四、案例分析:在B分局監(jiān)管數(shù)據(jù)與分類模型基礎(chǔ)上建立審計(jì)模型
(一)分類模型的建立
對審計(jì)對象B分局分類模型運(yùn)用SAS軟件中的決策樹、人工神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、支持向量機(jī)等模型來實(shí)現(xiàn)對企業(yè)群組的分析和異常企業(yè)篩查,并通過對比不同分類算法來選取準(zhǔn)確率最好的分類模型。監(jiān)管指標(biāo)及特征值選取過程中,對于貨物貿(mào)易企業(yè)收支行為的判斷與分析需要以貨物流與資金流數(shù)據(jù)為依托。為此,通過被審計(jì)單位監(jiān)測業(yè)務(wù)人員評估,確定9類基礎(chǔ)數(shù)據(jù)指標(biāo)(見表2),并在這9類基礎(chǔ)指標(biāo)基礎(chǔ)上加工形成10個(gè)輸入指標(biāo)作為SAS模型構(gòu)建的特征值(見表3)。其中,總量差額、資金貨物規(guī)模2個(gè)指標(biāo)為總量數(shù)值型指標(biāo),反映對象企業(yè)的整體收支規(guī)模和業(yè)務(wù)體量;總量差額率、資金貨物比、貿(mào)易信貸報(bào)告余額比率、進(jìn)口付匯率、出口收匯率5個(gè)指標(biāo)為比例型數(shù)值指標(biāo),反映對象企業(yè)的外匯收支特征及貨物資金流動(dòng)特征,是進(jìn)行企業(yè)聚類分析的重要判斷基礎(chǔ);企業(yè)分類信息為枚舉型指標(biāo),以貨物貿(mào)易監(jiān)測系統(tǒng)中登記分類信息作為初始依據(jù)。
(二)數(shù)據(jù)采集及加工
審計(jì)對象B分局轄內(nèi)共有4830家已名錄登記的貨物貿(mào)易企業(yè),為有效過濾短期數(shù)據(jù)中的噪音和無意義波動(dòng),在此所有企業(yè)相關(guān)基礎(chǔ)數(shù)據(jù)均以2017年1月至2018年6月之間的累計(jì)加總數(shù)據(jù)作為基礎(chǔ)變量。剔除在此期間未發(fā)生任何收支行為的企業(yè)1041家,共構(gòu)建3789條企業(yè)基礎(chǔ)信息集合。為有效驗(yàn)證分類預(yù)測效果,根據(jù)數(shù)據(jù)挖掘的目標(biāo),采用分類抽樣的方式,從3789條中隨機(jī)選取1895條信息作為訓(xùn)練集,并將3789條全部數(shù)據(jù)作為評分測試集合。
在數(shù)據(jù)挖掘過程中,缺失值及異常值會(huì)導(dǎo)致最終挖掘結(jié)果的偏差,甚至造成混亂的挖掘結(jié)果,在建立基礎(chǔ)數(shù)據(jù)集合后需要對缺失元素的數(shù)據(jù)對象進(jìn)行缺失值填充,并修正會(huì)對挖掘結(jié)果產(chǎn)生較大影響的異常值。在實(shí)際對數(shù)據(jù)預(yù)處理的過程中發(fā)現(xiàn),因?yàn)楝F(xiàn)有業(yè)務(wù)數(shù)據(jù)已經(jīng)進(jìn)行了標(biāo)準(zhǔn)統(tǒng)一,無需數(shù)據(jù)清洗,僅將缺失數(shù)據(jù)進(jìn)行補(bǔ)0處理。同時(shí)針對貨物貿(mào)易企業(yè)分類規(guī)則,將A類企業(yè)標(biāo)識為0,B/C類企業(yè)標(biāo)識為1,作為建模的目標(biāo)變量。
(三)基于SAS的模型實(shí)現(xiàn)過程
在模型實(shí)現(xiàn)過程中,主要應(yīng)用了SASEG和SASEM兩個(gè)主要功能模塊,其中通過SASEG實(shí)現(xiàn)對原始基礎(chǔ)數(shù)據(jù)集的整理,并變換為標(biāo)識的SAS數(shù)據(jù)文件,在SASEM中實(shí)現(xiàn)分類模型的構(gòu)建,選取50%的數(shù)據(jù)記錄作為樣本訓(xùn)練,新建EM流程,選取決策樹、人工神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、支持向量機(jī)等備選算法構(gòu)筑模型,并對算法的效果進(jìn)行匹配比較。通過運(yùn)行流程,得出不同算法間的效果比較,最終結(jié)果顯示隨機(jī)森林算法要優(yōu)于其他算法類型,并將其作為模型構(gòu)建的基礎(chǔ)。構(gòu)建的SAS模型會(huì)通過訓(xùn)練集生成相應(yīng)的分類規(guī)則,根據(jù)訓(xùn)練的規(guī)則對完整評分?jǐn)?shù)據(jù)集進(jìn)行評分,并輸出分析結(jié)果。
(四)模型運(yùn)行結(jié)果及效果評價(jià)
在B分局評分集合的3789條企業(yè)數(shù)據(jù)中,已登記確認(rèn)為B/C類企業(yè)的數(shù)量為149個(gè)。在分類模型預(yù)測中,評分前60的企業(yè)中確認(rèn)B/C類企業(yè)57家,占比95%;在評分前100的企業(yè)中確認(rèn)B/C類企業(yè)81家,占比81%;評分前200的企業(yè)中確認(rèn)B/C類企業(yè)100家,占比50%,占現(xiàn)有已登記B/C類企業(yè)總數(shù)149個(gè)的67.6%;評分前500的企業(yè)中確認(rèn)B/C類企業(yè)113家,占比22.6%,占已登記B/C類企業(yè)總數(shù)的67.6%。
可見,一是模型生產(chǎn)的分類規(guī)則能夠有效覆蓋大多數(shù)潛在異常企業(yè)特征,并生成有效的評分規(guī)則(見表4);二是審計(jì)人員可以重點(diǎn)關(guān)注未納入B/C類企業(yè)的原因,特別是可將前100名中沒有納入B/C類企業(yè)的19家企業(yè)作為審計(jì)重點(diǎn),審查是否存在疏忽或廉政風(fēng)險(xiǎn)。
五、數(shù)據(jù)挖掘在外匯局內(nèi)部審計(jì)中的運(yùn)用展望
數(shù)據(jù)挖掘作為一種當(dāng)今流行的技術(shù)手段,在外匯局內(nèi)部審計(jì)中具有廣闊的運(yùn)用前景。一是不僅在貨物貿(mào)易管理審計(jì)中可以運(yùn)用,在外匯檢查、資本項(xiàng)目管理等業(yè)務(wù)管理領(lǐng)域同樣適用。如在外匯檢查領(lǐng)域,外匯檢查業(yè)務(wù)是外匯局相對風(fēng)險(xiǎn)較高的業(yè)務(wù)領(lǐng)域,外匯局具有檢查權(quán)的分支機(jī)構(gòu)眾多,但外匯局內(nèi)審人員有限,因此需要尋找高風(fēng)險(xiǎn)分支機(jī)構(gòu)優(yōu)先開展審計(jì),通過數(shù)據(jù)挖掘篩選重點(diǎn)分支機(jī)構(gòu)不失為一條可行的路徑。相對于隨機(jī)抽取分支機(jī)構(gòu)開展審計(jì),可依托于外匯案件信息管理系統(tǒng)的海量數(shù)據(jù),先對全國有檢查權(quán)的外匯局進(jìn)行一次聚類分析。按照行政代碼提取全國已完成行政處罰的外匯案件數(shù)據(jù),通過效果性指標(biāo)(處罰筆數(shù)、處罰金額)、效率指標(biāo)(立案時(shí)間與完結(jié)時(shí)間差、立案時(shí)間與處罰時(shí)間差)、規(guī)模指標(biāo)(結(jié)售匯、收支額、違規(guī)金額)等按照行政代碼進(jìn)行聚類,尋找規(guī)模大但效果差、效率低的分支機(jī)構(gòu)優(yōu)先開展內(nèi)部審計(jì)。二是數(shù)據(jù)挖掘手段不僅有聚類、分類預(yù)測,還可以運(yùn)用關(guān)聯(lián)分析、時(shí)間序列分析、孤立點(diǎn)分析等工具。外匯局收集的數(shù)據(jù)大多按時(shí)間采集,具有時(shí)間序列特征,且匯率、國際收支、進(jìn)出口、外匯管理履職等方面具有明顯的關(guān)聯(lián),因此通過時(shí)間序列分析、關(guān)聯(lián)分析等可以有效考查審計(jì)對象履職績效水平。如外匯檢查案件同案不同罰的情況,可通過案件編號提取罰沒款金額、違規(guī)金額等數(shù)據(jù),以孤立點(diǎn)分析技術(shù)尋找罰款比例明顯高于同類的案件,確定審計(jì)重點(diǎn)。三是數(shù)據(jù)挖掘不僅可以提升外匯局內(nèi)審工作效率,還可以增強(qiáng)內(nèi)審工作的科學(xué)性、針對性、有效性,切實(shí)服務(wù)外匯管理中心大局。如國際收支平衡管理是外匯局的中心任務(wù),內(nèi)審部門可通過數(shù)據(jù)挖掘手段檢驗(yàn)國際收支平衡管理成效,提出決策建議,切實(shí)發(fā)揮內(nèi)審咨詢服務(wù)和價(jià)值增值作用。
(作者單位:國家外匯管理局上海市分局,郵政編碼:200120,電子郵箱:jin_yue_cheng@126.com)