尹勇 殷瀟(南京審計(jì)大學(xué))
據(jù)統(tǒng)計(jì),大數(shù)據(jù)平臺(tái)建設(shè)過程中60%工作量集中于審計(jì)數(shù)據(jù)接入/抽取、清洗/轉(zhuǎn)換、加載等審計(jì)數(shù)據(jù)治理集成工作;而在失敗的大數(shù)據(jù)應(yīng)用項(xiàng)目中約有70%以上源自無效的數(shù)據(jù)治理集成方式。
現(xiàn)有審計(jì)數(shù)據(jù)分析需要有良好的審計(jì)數(shù)據(jù)質(zhì)量進(jìn)行支撐,所以審計(jì)數(shù)據(jù)治理集成模塊在大數(shù)據(jù)應(yīng)用項(xiàng)目中具有極其重要的地位。在審計(jì)數(shù)據(jù)治理集成的過程中,我們經(jīng)常面臨三類主要的問題:
(1)審計(jì)數(shù)據(jù)源和審計(jì)數(shù)據(jù)格式眾多,需要處理的審計(jì)數(shù)據(jù)日益復(fù)雜。目前各種業(yè)務(wù)系統(tǒng)每天都在產(chǎn)生大量的審計(jì)數(shù)據(jù),審計(jì)數(shù)據(jù)源頭眾多,審計(jì)數(shù)據(jù)的格式差異很大,包括常規(guī)的文本格式、審計(jì)數(shù)據(jù)庫格式,甚至某些應(yīng)用的私有格式,多種異構(gòu)審計(jì)數(shù)據(jù)源整合難度非常大。除了審計(jì)數(shù)據(jù)源和審計(jì)數(shù)據(jù)格式異常復(fù)雜,審計(jì)數(shù)據(jù)內(nèi)容也呈現(xiàn)爆炸式擴(kuò)增,例如業(yè)務(wù)內(nèi)容審計(jì)數(shù)據(jù)、業(yè)務(wù)運(yùn)行日志審計(jì)數(shù)據(jù)、位置審計(jì)數(shù)據(jù)、時(shí)間空間審計(jì)數(shù)據(jù)等,這些日益復(fù)雜的審計(jì)數(shù)據(jù)對于大數(shù)據(jù)業(yè)務(wù)系統(tǒng)來說是一個(gè)巨大的挑戰(zhàn)。
(2)大數(shù)據(jù)審計(jì)業(yè)務(wù)需求變化快,傳統(tǒng)審計(jì)數(shù)據(jù)處理方式跟不上。由于大數(shù)據(jù)應(yīng)用的特殊性,不斷接入新的審計(jì)數(shù)據(jù)和調(diào)整審計(jì)數(shù)據(jù)模型是一項(xiàng)基本工作,而這些每天都是發(fā)生的工作,是否都需要不斷地修改和開發(fā)才能適應(yīng)?如果是,那么這絕對是企業(yè)資源的巨大浪費(fèi)。另外大數(shù)據(jù)應(yīng)用需要不斷的處理各種新增業(yè)務(wù)以適應(yīng)審計(jì)數(shù)據(jù)分析市場的需求,可能是新增審計(jì)數(shù)據(jù)源,可能是新增審計(jì)數(shù)據(jù)模型,可能是新增結(jié)果展現(xiàn)。這些突發(fā)業(yè)務(wù),不斷挑戰(zhàn)著大數(shù)據(jù)系統(tǒng)的靈活性。大數(shù)據(jù)應(yīng)用系統(tǒng)中動(dòng)輒需要接入數(shù)TB每秒、處理總?cè)萘繑?shù)PB甚至幾十PB的審計(jì)數(shù)據(jù)規(guī)模,而審計(jì)數(shù)據(jù)分析業(yè)務(wù)卻需要在海量審計(jì)數(shù)據(jù)中快速獲取業(yè)務(wù)需要的審計(jì)數(shù)據(jù),并將審計(jì)數(shù)據(jù)以秒級的速度計(jì)算出結(jié)果和快速驗(yàn)證。
(3)審計(jì)數(shù)據(jù)處理過程越來越復(fù)雜,審計(jì)數(shù)據(jù)得不到有效治理。審計(jì)數(shù)據(jù)治理集成不是簡單的審計(jì)數(shù)據(jù)堆疊,審計(jì)數(shù)據(jù)放在一起,需要進(jìn)行科學(xué)的分區(qū)分層管理,以及統(tǒng)一規(guī)范的審計(jì)數(shù)據(jù)命名、審計(jì)數(shù)據(jù)標(biāo)簽管理。海量審計(jì)數(shù)據(jù)在治理和使用過程中,不斷的進(jìn)行拆分、合并、關(guān)聯(lián)、計(jì)算、復(fù)制,需要更有效的方法保證審計(jì)數(shù)據(jù)的完整性和可回溯性。另外如何高效地識(shí)別和處理無效審計(jì)數(shù)據(jù)、垃圾審計(jì)數(shù)據(jù)和錯(cuò)誤審計(jì)數(shù)據(jù),也是大數(shù)據(jù)應(yīng)用的重大難題。
大數(shù)據(jù)審計(jì)平臺(tái)主要采用Hadoop/Spark的技術(shù)架構(gòu)體系作為核心技術(shù)框架,可以整合多個(gè)異構(gòu)業(yè)務(wù)數(shù)據(jù)源,實(shí)現(xiàn)數(shù)據(jù)導(dǎo)入、清洗、轉(zhuǎn)化的一體化管理。本“大數(shù)據(jù)層”治理的數(shù)據(jù)結(jié)構(gòu)包含:
(1)原始數(shù)據(jù)庫:從各信息系統(tǒng)采集來的原始數(shù)據(jù),完全保留原有的數(shù)據(jù)格式和存儲(chǔ)方式,以防止數(shù)據(jù)丟失和便于長期歷史數(shù)據(jù)存根,在經(jīng)過處理以后以冷數(shù)據(jù)的方式存儲(chǔ)。
(2)標(biāo)準(zhǔn)數(shù)據(jù)庫:從數(shù)據(jù)源或者原始庫獲取的數(shù)據(jù),經(jīng)過基礎(chǔ)的格式轉(zhuǎn)換、取值轉(zhuǎn)換、空值補(bǔ)充、關(guān)聯(lián)、去重等數(shù)據(jù)清洗操作以后,形成的遵循相同數(shù)據(jù)規(guī)則的標(biāo)準(zhǔn)化數(shù)據(jù)集合。
(3)專題數(shù)據(jù)庫:根據(jù)一定的審計(jì)業(yè)務(wù)需求、按照一定的數(shù)據(jù)模型,從基礎(chǔ)數(shù)據(jù)庫中關(guān)聯(lián)抽取的數(shù)據(jù)集合。
數(shù)據(jù)接入?,F(xiàn)有系統(tǒng)的數(shù)據(jù)庫多為傳統(tǒng)關(guān)系型數(shù)據(jù)庫,并包含大數(shù)據(jù)存儲(chǔ)和流式數(shù)據(jù)等新興數(shù)據(jù)類型。為了保證審計(jì)數(shù)據(jù)源的全覆蓋,數(shù)據(jù)治理將規(guī)劃支持多種數(shù)據(jù)源類型的導(dǎo)入??梢灾С值臄?shù)據(jù)源種類包括:
(1)傳統(tǒng)關(guān)系數(shù)據(jù)庫。Oracle,Mysql和Domino。
(2)數(shù)據(jù)存儲(chǔ)。HDFS,Hive,Hbase,GreenPlum,Impala,ElasticSearch,Neo4j,Titan。
(3)其他種類數(shù)據(jù)源。a.非標(biāo)準(zhǔn)格式:特定行業(yè)數(shù)據(jù)格式,非標(biāo)準(zhǔn)二進(jìn)制數(shù)據(jù),自定義格式可配置(模板、接口);b.標(biāo)準(zhǔn)格式:CSV,TSV,JSON,XML,HTML,Avro File,RCFile,ORC File,Parquet,ASN1,TLV,EML,MSG,PST,PDF,OFFICE格式,WPS格式,ZIP,RAR等。
數(shù)據(jù)處理。由于各業(yè)務(wù)系統(tǒng)庫表結(jié)構(gòu)的設(shè)計(jì)是為了事務(wù)性的處理,強(qiáng)調(diào)事務(wù)處理能力和并發(fā)性,要求數(shù)據(jù)不能冗余。而審計(jì)部門存儲(chǔ)的數(shù)據(jù)是為了數(shù)據(jù)分析和查詢,要求數(shù)據(jù)冗余存儲(chǔ),所以數(shù)據(jù)中心的表結(jié)構(gòu)和業(yè)務(wù)系統(tǒng)的表格必然是不一致的,數(shù)據(jù)從各業(yè)務(wù)系統(tǒng)抽取到大數(shù)據(jù)層,需要對接入數(shù)據(jù)進(jìn)行清洗、過濾、轉(zhuǎn)換,獲得審計(jì)標(biāo)準(zhǔn)數(shù)據(jù)。本步驟需要完成以下任務(wù):
(1)把多個(gè)不同數(shù)據(jù)源的數(shù)據(jù)合并。
(2)不同數(shù)據(jù)集的轉(zhuǎn)換和同步,去重。
從歷次普法規(guī)劃和決議文件名稱可以看出普法理念的變化。從“一五”普法規(guī)劃的“基本普及法律常識(shí)”到“二五”至“六五”普法規(guī)劃的“法制宣傳教育”再到“七五”普法規(guī)劃的“法治宣傳教育”。國家對全民包括農(nóng)村普法教育的觀念從簡單的法律常識(shí)普及轉(zhuǎn)變?yōu)榉尚麄鹘逃?,又轉(zhuǎn)變?yōu)榉芍卫淼慕逃?/p>
(3)數(shù)據(jù)類型和格式的轉(zhuǎn)換。
(4)用于不同目標(biāo)表的數(shù)據(jù)分離。
數(shù)據(jù)治理。提供數(shù)據(jù)質(zhì)量管理功能,包括數(shù)據(jù)質(zhì)量規(guī)則管理、數(shù)據(jù)質(zhì)量稽核、數(shù)據(jù)質(zhì)量報(bào)表生成,此功能協(xié)助審計(jì)人員改善數(shù)據(jù)質(zhì)量、提升業(yè)務(wù)效率。審計(jì)人員首先在系統(tǒng)中制定質(zhì)量規(guī)則,包括格式檢查、范圍檢查、疏密檢查等;利用制定好的質(zhì)量規(guī)則對數(shù)據(jù)進(jìn)行質(zhì)量稽核;數(shù)據(jù)質(zhì)量稽核結(jié)果通過生成質(zhì)量分析報(bào)表進(jìn)行展示。
審計(jì)模型構(gòu)建是在信息化環(huán)境下實(shí)施數(shù)據(jù)式審計(jì)的核心建設(shè)內(nèi)容,審計(jì)模型構(gòu)建方法的標(biāo)準(zhǔn)規(guī)范是實(shí)現(xiàn)大數(shù)據(jù)審計(jì)的重要基礎(chǔ)設(shè)施。
審計(jì)模型構(gòu)建方法主要包括3個(gè)方面的內(nèi)容:審計(jì)模型目錄體系、審計(jì)模型構(gòu)建、審計(jì)模型要素。審計(jì)模型目錄體系確定審計(jì)模型資源分類、審計(jì)模型代碼結(jié)構(gòu)的規(guī)范,為審計(jì)模型信息資源的積累、使用和共享提供重要條件。審計(jì)模型構(gòu)建方法提出構(gòu)建審計(jì)數(shù)據(jù)模型的規(guī)范,為審計(jì)模型的構(gòu)建提供了較為科學(xué)的方法。審計(jì)模型要素對模型構(gòu)成要素進(jìn)行規(guī)范,為審計(jì)模型的研制、管理和使用提供了規(guī)范。
審計(jì)業(yè)務(wù)及相應(yīng)的審計(jì)方法種類繁多,以此為依據(jù)設(shè)計(jì)的審計(jì)模型在種類和數(shù)量上也相應(yīng)繁雜。為了切實(shí)高效使用審計(jì)模型,首先需要解決審計(jì)模型“有什么”“在哪里”的問題,規(guī)范審計(jì)模型目錄。審計(jì)模型目錄體系確定審計(jì)模型資源分類、代碼結(jié)構(gòu)的規(guī)范,為審計(jì)模型信息資源的積累、使用和共享提供重要條件。
審計(jì)模型目錄體系包括:審計(jì)模型資源分類、審計(jì)模型代碼結(jié)構(gòu)。
審計(jì)模型分類代碼參考專業(yè)計(jì)算機(jī)審計(jì)的分類分級體系,確定統(tǒng)一的代碼規(guī)則,便于各專業(yè)審計(jì)模型目錄體系的代碼編制。
審計(jì)模型是審計(jì)人員為履行審計(jì)職責(zé)、實(shí)現(xiàn)審計(jì)目標(biāo),利用信息技術(shù)對特定審計(jì)事項(xiàng)進(jìn)行檢查和評價(jià)的思路的實(shí)現(xiàn)。
審計(jì)模型的構(gòu)建建立在對審計(jì)業(yè)務(wù)理解的基礎(chǔ)上,對審計(jì)模型的審計(jì)目標(biāo)與功能、所需數(shù)據(jù)和相關(guān)資料、審計(jì)分析步驟、分析步驟的流程圖示、模型執(zhí)行后的審計(jì)結(jié)果展示等,逐一研究建立,從而完成審計(jì)模型的構(gòu)建。
審計(jì)數(shù)據(jù)分析系統(tǒng)通過聚焦審計(jì)業(yè)務(wù)應(yīng)用需求,提供個(gè)性化審計(jì)業(yè)務(wù)數(shù)據(jù)分析模型功能,同時(shí)為了減少審計(jì)人員重復(fù)思考和創(chuàng)建審計(jì)業(yè)務(wù)模型的時(shí)間、提高審計(jì)效率,審計(jì)人員可以利用該功能有計(jì)劃地整理收集各領(lǐng)域?qū)徲?jì)業(yè)務(wù)應(yīng)用知識(shí),并將其固化為審計(jì)模板,構(gòu)建審計(jì)模板庫,并在推廣應(yīng)用中不斷優(yōu)化、增加和更新。數(shù)據(jù)分析的功能至少包括模型定義、模型分析、模型結(jié)果,模型報(bào)告、指標(biāo)定義、指標(biāo)分析、指標(biāo)結(jié)果和指標(biāo)預(yù)警。
審計(jì)工作的核心是數(shù)據(jù)處理,審計(jì)工作面臨著審計(jì)對象及規(guī)則多樣化、審計(jì)過程中重復(fù)工作多且效率等問題。
審計(jì)數(shù)據(jù)分析系統(tǒng)屏蔽底層的大數(shù)據(jù)實(shí)現(xiàn)技術(shù)細(xì)節(jié),根據(jù)不同場景的業(yè)務(wù)需求,將大數(shù)據(jù)分析、挖掘等能力封裝成獨(dú)立的功能模塊,以功能組件的形式為用戶提供便捷易操作的大數(shù)據(jù)功能。
審計(jì)數(shù)據(jù)分析系統(tǒng)提供豐富的數(shù)據(jù)處理功能組件,包括數(shù)據(jù)轉(zhuǎn)化類、數(shù)據(jù)清洗轉(zhuǎn)換類、數(shù)據(jù)分析類、機(jī)器學(xué)習(xí)類、實(shí)用工具類、二次開發(fā)類組件。審計(jì)人員可通過簡單拖拽功能組件連接組成流程,快速生成個(gè)性化審計(jì)業(yè)務(wù)的方式靈活地開展大數(shù)據(jù)審計(jì)工作,隨時(shí)隨地進(jìn)行大數(shù)據(jù)分析挖掘,完美適應(yīng)大數(shù)據(jù)時(shí)代下對審計(jì)工作的需求。
目前,審計(jì)工作也存在很多困難,主要表現(xiàn)在人力資源的不足。如何解決這個(gè)問題,需要依靠新技術(shù)。大數(shù)據(jù)技術(shù)可以很好地解決這個(gè)問題。本文從大數(shù)據(jù)審計(jì)基礎(chǔ)架構(gòu)、審計(jì)模型構(gòu)建以及審計(jì)數(shù)據(jù)分析系統(tǒng)三個(gè)方面闡述了通過大數(shù)據(jù)審計(jì)構(gòu)建審計(jì)全覆蓋的路徑,具有現(xiàn)實(shí)意義。