●王向陽 席 斌 胡璟懿 匡 堯 李 巍
非現(xiàn)場審計,又稱數(shù)據(jù)式審計,是指審計人員以系統(tǒng)和網(wǎng)絡為基礎,以非現(xiàn)場的方式持續(xù)收集與整理被審計對象業(yè)務經(jīng)營管理的數(shù)據(jù)和資料,建立面向數(shù)據(jù)的審計模型,挖掘?qū)徲嬀€索,實現(xiàn)遠程審計程序。與現(xiàn)場審計不同,非現(xiàn)場審計是在非固定的工作地點,依托信息技術手段對底層數(shù)據(jù)進行歸集,建立數(shù)學模型進行分析,以發(fā)現(xiàn)趨勢,分析審計線索,實現(xiàn)審計目標。
由于非現(xiàn)場審計的所有數(shù)據(jù)都來源于審計對象的業(yè)務數(shù)據(jù),且審計監(jiān)管對象并非具體的某一個企業(yè)或法人機構,而往往是對發(fā)生在不同主體的多個相同類型的業(yè)務數(shù)據(jù)進行分析,所涉及的數(shù)據(jù)量龐大,具有大數(shù)據(jù)的特點。因此,非現(xiàn)場審計的工作方式往往無法簡單通過審計人員的肉眼加以辨別和分析,而是由審計人員依據(jù)審計客觀規(guī)律和實際經(jīng)驗,科學合理地設定判斷條件,建立數(shù)學模型,對海量的底層數(shù)據(jù)進行統(tǒng)計分析。因此,傳統(tǒng)的審計方法顯然無法勝任非現(xiàn)場審計的要求,有必要尋求新的工具手段。
機器學習主要是基于數(shù)據(jù)分析獲得規(guī)律,并利用規(guī)律設計一套讓計算機自動“學習”的算法,對未知的數(shù)據(jù)進行預測。與傳統(tǒng)分析工具不同,機器學習是基于客觀經(jīng)濟現(xiàn)象和實際規(guī)律,利用統(tǒng)計學習理論,從海量的數(shù)據(jù)中尋找數(shù)據(jù)之間的聯(lián)系,并據(jù)此實現(xiàn)事先確定的工作目標。傳統(tǒng)的審計模型是通過業(yè)務專家的經(jīng)驗梳理出業(yè)務檢查點 (依賴于業(yè)務專家的經(jīng)驗),然后通過對每一個檢查點編寫對應的檢查規(guī)則(計算機程序)來進行檢查,固化的檢查規(guī)則存在無法動態(tài)擴展、業(yè)務場景的覆蓋度低、依賴于業(yè)務專家的經(jīng)驗等問題,需要通過構建一種新型的智能審計模型,具備對審計疑點的識別能力,對業(yè)務變化的自適應能力,能夠動態(tài)被檢查數(shù)據(jù)中存在疑似問題,而基于機器學習技術的審計模型能夠很好地解決這類問題。
非現(xiàn)場審計范圍主要涉及企業(yè)會計信息、經(jīng)營業(yè)務、公司管理以及公司內(nèi)部控制四個方面,即對會計信息的真實性與完整性、對經(jīng)營業(yè)務的合規(guī)性、對公司經(jīng)營管理的有效性、對被審計對象內(nèi)部控制的健全性進行評價。在非現(xiàn)場審計中,主要采用歷史經(jīng)驗形成審計系統(tǒng)規(guī)則并分析審計線索,鎖定審計異常點,對審計異常預警,實現(xiàn)審計目標。而審計線索主要是對審計資料或信息的異常查找,也就是說非現(xiàn)場審計中主要針對 “審計數(shù)據(jù)異常與否”、“審計流程合規(guī)與否”進行分類分析?;诖?,在機器學習中,用于分類的模型主要有決策樹、樸素貝葉斯算法、神經(jīng)網(wǎng)絡、SVM以及Logistic回歸模型等。本文結合業(yè)務分析案例,選取兩種主要分類分析方法樸素貝葉斯算法和Logistic回歸模型進行討論。
樸素貝葉斯算法是貝葉斯分類中最簡單,也是最為常見的一種分類方法,其基本表達式如下:
一般而言,樸素貝葉斯算法的判斷標準:根據(jù)條件概率p(y|x)的大小來判斷待分類項歸屬于哪個類別。在條件概率的比較過程中,樸素貝葉算法表達式的分母在同一業(yè)務形態(tài)的比較中都是一樣的,因此,選取樸素貝葉斯算法表達式為:
其算法步驟如下:
①設x={a1,a2,…,am}為一個待分類項,而每個a為x的一個特征屬性;
②有類別集合 C={y1,y2,…,yn},計算 P(y1│x),P(y2│x),…,P(yn│x);
③如果 P(yk│x)=max{P(y1│x),P(y2│x),…,P(yn│x)},則x∈yk。
根據(jù)上述算法步驟,我們可以將具體某類審計過程總結為如下三部分:
第一部分是準備階段,該階段需要確定具體的某項審計業(yè)務的特征屬性,并對不同的屬性進行劃分,形成一個樣本集;第二部分是分類器訓練階段,這一階段主要是計算上述分類中的每一個類別在樣本中出現(xiàn)的頻率,以及每個類別下每個特征屬性的條件概率;第三部分是分類判斷預測階段。這一階段主要是使用分類器,對待分類項進行分類統(tǒng)計分析。
1、定義及算法模型。Logistic回歸是研究二分類變量y與一些影響因素(x1,x2,…,xm)之間關系的一種概率型回歸方法。假設有向量x=(x1,x2,…,xm),由m個獨立變量組成,則條件概率P(y=1│x)=p則是這個二分類變量相對于時間x發(fā)生的概率。用Logistic回歸模型表示如下:
其中 g(x)=w0+w1x1+…+wmxm
對該模型進行變形,可以得到最終的Logistic回歸模型,其表達式如下:
2、算法步驟
①設x={a1,a2,…,am)為一個待分類項,而每個a為x的一個特征屬性;
②對二分類事件中頻數(shù)進行統(tǒng)計,然后計算出概率P的值;
③利用極大似然估計方法對模型的參數(shù)w0、w1、…wm進行估計;
④利用估計的模型進行分類預測。
在上述算法步驟中,最重要的是步驟三,即利用極大似然估計方法進行估計,其基本思想是對上述待分類項挑選參數(shù)θ使其滿足下面的方程:
L(x1,x2,…,xm;θ^)=maxL(x1,x2,…,xm;θ)
數(shù)據(jù)是企業(yè)的關鍵主數(shù)據(jù),在非現(xiàn)場審計中資產(chǎn)數(shù)據(jù)的異常,不僅反映數(shù)據(jù)質(zhì)量問題,同時也反映了資產(chǎn)管理問題,另外資產(chǎn)數(shù)據(jù)應用面廣,數(shù)據(jù)異常將影響設備大修技改維護、財務處理、資產(chǎn)決策分析等,因此數(shù)字化審計從資產(chǎn)卡片異常識別入手,對保證數(shù)字化審計基礎扎實意義重大。本文針以固定資產(chǎn)卡片為例,結合機器學習算法構建智能審計模型進行分析。
在建模之前,構建機器學習的建模流程,建模流程主要包括數(shù)據(jù)收集及特征屬性提取、數(shù)據(jù)清洗、分類器選取與模型建立、分類結果評估等四個方面。具體表現(xiàn)如下:
數(shù)據(jù)收集及特征屬性提取:從業(yè)務系統(tǒng)中獲取固定資產(chǎn)卡片數(shù)據(jù),并進行特征屬性數(shù)據(jù)的提取,在數(shù)據(jù)收集時盡可能地從數(shù)據(jù)樣本盡可能多的覆蓋各種業(yè)務場景、數(shù)據(jù)量盡可能大等方面進行數(shù)據(jù)收集工作;
數(shù)據(jù)清洗:對獲得的固定資產(chǎn)卡片進行篩選,將包含了不合理數(shù)據(jù)的固定資產(chǎn)卡片剔除;將剔除后的數(shù)據(jù)分為離散型數(shù)據(jù)和連續(xù)型數(shù)據(jù),并對不同的數(shù)據(jù)類型采用不同的方法進行數(shù)據(jù)預處理:對于連續(xù)型數(shù)據(jù)進行歸一化處理,對于離散型數(shù)據(jù)進行變量數(shù)據(jù)化處理;
分類器選取與模型建立:將預處理后的數(shù)據(jù)按照比例分為訓練集和測試集,利用訓練集的數(shù)據(jù)來訓練模型,利用測試集來評價模型,最終獲得評估模型,并不斷對評價模型進行優(yōu)化和訓練以獲得更高準確率;
分類結果評估:將訓練模型進行對比分析,比較它們之間的預測精度從而來選取可靠的模型,然后對待分類樣本進行分類預測。
圖1 固定資產(chǎn)卡片機器學習的建模流程
1、數(shù)據(jù)收集及特征值屬性選取。樣本數(shù)據(jù)來源于A公司轄屬的6個區(qū)域資產(chǎn)卡片數(shù)據(jù),數(shù)據(jù)樣本量共計76萬多條,涵蓋了A公司電力主業(yè)的全部資產(chǎn)。結合規(guī)則查詢的關鍵屬性與資產(chǎn)卡片自身的業(yè)務特點,對固定資產(chǎn)業(yè)務從資產(chǎn)異常進行分析可以分為資產(chǎn)歸類異常、數(shù)據(jù)完整異常、資產(chǎn)管理異常、資產(chǎn)數(shù)據(jù)異常,經(jīng)過分析選取的特征值如下表:
表1
經(jīng)過綜合分析確定12個特征值:資產(chǎn)編碼、資產(chǎn)類別、資產(chǎn)變動方式、資產(chǎn)狀態(tài)、計量單位、數(shù)量、電壓等級、預計使用年限、使用保管人、資產(chǎn)原值(初始購置價值)、賬面凈值、累計折舊額。將特征數(shù)據(jù)劃分為兩類:離散型數(shù)據(jù)和連續(xù)型數(shù)據(jù),劃分如下:(1)離散型變量,亦稱作文本型變量、分類型變量或枚舉型變量,呈現(xiàn)離散狀態(tài)。包括資產(chǎn)類別、資產(chǎn)描述、資產(chǎn)變動方式、資產(chǎn)狀態(tài)、計量單位、電壓等級、使用保管人;(2)連續(xù)型變量:在一定區(qū)間內(nèi)可以任意取值,而且數(shù)值是連續(xù)不斷的,包括數(shù)量、預計使用年限、資產(chǎn)原值、賬面凈值、累計折舊額。
2、數(shù)據(jù)清洗。首先,依據(jù)現(xiàn)實情況及業(yè)務自身特點,由于單一錯誤數(shù)據(jù)直接反映了資產(chǎn)數(shù)據(jù)異常,可將清洗數(shù)據(jù)直接作為資產(chǎn)數(shù)據(jù)異常結果處理。故對不合理的樣本數(shù)據(jù)進行合理篩選與剔除:剔除資產(chǎn)原值≤0;剔除累計折舊 <0;剔除賬面凈值 <0;剔除資產(chǎn)原值 — 累計折舊額 — 賬面凈值 <0。數(shù)據(jù)清洗后有效樣本數(shù)據(jù)量為497348個。
其次,在離散型變量中,針對資產(chǎn)類別、資產(chǎn)變動方式、資產(chǎn)狀態(tài)、計量單位、電壓等級這些分類型變量,采用數(shù)據(jù)型代替轉(zhuǎn)換,以便計算機便于識別。例如:資產(chǎn)狀態(tài)分類為待報廢、報廢、在運、退運、未投運、庫存?zhèn)溆?、現(xiàn)場留用這7個狀態(tài),可以利用數(shù)字1—7來進行代換。針對文本型數(shù)據(jù),例如資產(chǎn)描述,首先需要進行關鍵詞分析,結合異常特征定義特征值的關鍵詞后,進行數(shù)據(jù)型代替轉(zhuǎn)換。
3、訓練集構成。按照機器學習中樣本數(shù)據(jù)的一般規(guī)則,將清洗后的樣本數(shù)據(jù)分為80%訓練集 (訓練集計397878條數(shù)據(jù))和20%測試集(測試集計99470條數(shù)據(jù)),利用訓練集來訓練模型,利用測試集來評價模型的分類效果的優(yōu)劣性。
1、基于樸素貝葉斯算法的固定資產(chǎn)卡片異常識別
(1)實驗數(shù)據(jù)說明。針對于連續(xù)型變量進行區(qū)間化處理,保證變量之間的獨立型,然后利用貝葉斯分類器進行訓練,根據(jù)貝葉斯原理和思想:根據(jù)條件概率p(yi|x)的大小來判斷待分類項歸屬于哪個類別。
(2)算法分析過程及分析。利用樸素貝葉斯算法進行建模與預測分析,預測結果如下:
表2 預測結果
通過該算法,可以計算出該模型的識別率
2、基于邏輯斯蒂回歸模型的固定資產(chǎn)卡片異常識別
(1)實驗數(shù)據(jù)說明。在連續(xù)型變量中,針對于預計使用年限、資產(chǎn)原值、賬面凈值、累計折舊額可采用極差標準化處理①將樣本數(shù)據(jù)映射到(0,1)區(qū)間里,便于二分類處理。
(2)算法分析過程及分析
表2
3、算法對比分析。樸素貝葉斯算法和邏輯斯蒂回歸模型的識別率如下圖所示:
通過該算法,可以計算出該模型的識別率:
識別率=
圖2 兩種算法的識別率對比圖
在訓練樣本量從5W增加至50W過程中,對比兩個機器學習模型可以發(fā)現(xiàn):
(1)隨著樣本量不斷疊加訓練的情況下,兩個模型的準確率不斷提升。樸素貝葉斯準確率從75.55%提升到83.18%,邏輯斯蒂準確率從81.26%提升到93.14%.
(2)樣本從40W逐漸增加到50W的過程中,我們發(fā)現(xiàn)這兩個模型的準確率處于平穩(wěn)狀態(tài),沒有顯著變化,也就是說訓練樣本量達到一定數(shù)量時,模型準確率不再顯著提升。
(3)樣本量能夠提升模型準確性,但不是唯一因素,還應該考慮模型算法、特征值等因素。
通過對比,我們發(fā)現(xiàn)在準確率方面多元邏輯斯蒂回歸優(yōu)于貝葉斯分類模型,造成這一現(xiàn)象的原因可能是在選取特征方面可能存在一定關聯(lián)關系,另外連續(xù)變量區(qū)間化可能比較模糊,不一定能滿足業(yè)務要求,這些原因都可能使得貝葉斯模型略遜于邏輯斯蒂模型。因此,可以利用多元邏輯斯蒂回歸模型自動對固定資產(chǎn)卡片的異常與否進行分類預測。
4、模型結果與優(yōu)化分析
(1)影響模型準確率的關鍵是模型算法、特征值、樣本數(shù)量和質(zhì)量。從研究成果看出,模型的算法選取對結果準確率有較大影響,對連續(xù)型特征變量,邏輯斯蒂模型更優(yōu),對離散型特征變量,樸素貝葉斯模型更具優(yōu)勢;特征值的選取對結果準確率影響較大,過度選取不但計算量增加,對結果準確率也有不良影響;機器學習模型的優(yōu)化,機器學習模型在樣本量不斷增加的情況下,能夠提升模型的準確性,但是當樣本量達到一定比例后這種趨勢會不明顯,需要從模型的算法、特征值等多種角度去繼續(xù)優(yōu)化。
(2)機器學習方法可用于替代人工查證或規(guī)則查證。從研究成果看出,采用機器學習算法替代人工查證或規(guī)則查證解決審計智能疑點識別是可行的;機器學習方法基于歷史數(shù)據(jù)的學習,聚集了歷史經(jīng)驗,隨著樣本數(shù)據(jù)的成長,比規(guī)則判斷有更大的成長空間。
從研究成果看出,利用機器深度學習技術,探索自動識別問題憑證的智能審計方法,通過歷史數(shù)據(jù)的采集、樣本建立、機器人訓練、訓練結果測試及優(yōu)化調(diào)整等,培養(yǎng)憑證錯誤審計機器人,這種采用分類機器學習算法替代人工查證或規(guī)則查證解決審計智能疑點識別是可行的。而且機器學習方法基于歷史數(shù)據(jù)的學習,聚集了歷史經(jīng)驗,隨著樣本數(shù)據(jù)的成長,比規(guī)則判斷有更大的成長空間。
項目的實施,借助信息化等智能先進技術,將有效規(guī)范審前調(diào)查過程管理,促進審前調(diào)查管理機制的落實和執(zhí)行,提升數(shù)字化審計能力,提高非現(xiàn)場審計的工作效率和效果。另外,研究具有通用性,對于后續(xù)用于解決項目類別劃分、項目投資金額異常等有借鑒意義?!?/p>
注釋:
①極差標準化處理公式:X’=(X-min(X)/(max(X)-min(X))