王若凡
摘? 要:審計(jì)抽樣是指審計(jì)人員對(duì)具有審計(jì)相關(guān)性的部分項(xiàng)目實(shí)施審計(jì)程序,根據(jù)抽樣結(jié)果推斷總體情況。非統(tǒng)計(jì)抽樣作為廣泛使用的審計(jì)抽樣方法主要依據(jù)審計(jì)人員主觀經(jīng)驗(yàn)判斷,抽樣風(fēng)險(xiǎn)高且缺乏理論基礎(chǔ)。本文將機(jī)器學(xué)習(xí)領(lǐng)域簡(jiǎn)單高效的樸素貝葉斯算法應(yīng)用于審計(jì)抽樣問題,以專項(xiàng)資金審計(jì)為例,提出貝葉斯算法審計(jì)抽樣模型。通過抽樣率與“三因素”分析法對(duì)模型抽樣結(jié)果進(jìn)行評(píng)估,驗(yàn)證貝葉斯算法審計(jì)抽樣模型的可靠性。模型將審計(jì)人員職業(yè)經(jīng)驗(yàn)判斷與概率統(tǒng)計(jì)知識(shí)相結(jié)合,能夠降低審計(jì)成本、提高審計(jì)效率、控制審計(jì)風(fēng)險(xiǎn),并為人工智能審計(jì)、在線審計(jì)提供新思路。
關(guān)鍵詞:樸素貝葉斯算法? 審計(jì)抽樣? 機(jī)器學(xué)習(xí)? 分類
中圖分類號(hào):TP311? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2020)12(c)-0172-03
Abstract: Audit sampling refers to that auditors implement audit procedures on some projects with audit relevance and infer the overall situation according to the sampling results. As a widely used audit sampling method, non statistical sampling is mainly based on auditors' subjective experience judgment, with high sampling risk and lack of theoretical basis. In this paper, the simple and efficient naive Bayesian algorithm in machine learning field is applied to audit sampling problem. Taking special fund audit as an example, the Bayesian algorithm audit sampling model is proposed. Through the sampling rate and "three factors" analysis method to evaluate the model sampling results, verify the reliability of Bayesian algorithm audit sampling model. The model can reduce audit cost, improve audit efficiency, control audit risk, and provide new ideas for artificial intelligence audit and online audit.
Key Words: Naive Bayesian algorithm; Audit sampling; Machine learning; Classification
審計(jì)抽樣方法分為統(tǒng)計(jì)抽樣和非統(tǒng)計(jì)抽樣。統(tǒng)計(jì)抽樣在樣本選擇上具有隨機(jī)性,通過概率法則量化審計(jì)風(fēng)險(xiǎn)。非統(tǒng)計(jì)抽樣依靠審計(jì)人員個(gè)人經(jīng)驗(yàn)確定審計(jì)樣本。這些傳統(tǒng)的方法選取樣本時(shí)未考慮樣本本身的屬性且大都是事后審計(jì)。
貝葉斯算法作為機(jī)器學(xué)習(xí)領(lǐng)域廣泛應(yīng)用的分類算法,基于樣本屬性值進(jìn)行決策分類,有著堅(jiān)實(shí)的理論基礎(chǔ)和良好的分類性能。目前,貝葉斯算法在審計(jì)上的相關(guān)應(yīng)用研究主要圍繞風(fēng)險(xiǎn)導(dǎo)向評(píng)估。文獻(xiàn)[1]利用貝葉斯算法對(duì)風(fēng)險(xiǎn)環(huán)節(jié)的風(fēng)險(xiǎn)等級(jí)權(quán)重進(jìn)行修正。文獻(xiàn)[2]運(yùn)用貝葉斯網(wǎng)絡(luò)解釋風(fēng)險(xiǎn)導(dǎo)向?qū)徲?jì)推理過程。此外,文獻(xiàn)[3]利用貝葉斯推斷方法量化、修正先驗(yàn)信息并在此基礎(chǔ)上決定樣本容量。
本文研究的抽樣模型優(yōu)勢(shì)在于:(1)與傳統(tǒng)的審計(jì)抽樣相比有著更加堅(jiān)實(shí)的理論基礎(chǔ);(2)綜合考慮多因素,樣本更具代表性;(3)既能事后抽樣,又能實(shí)時(shí)動(dòng)態(tài)抽樣,實(shí)現(xiàn)在線審計(jì)和動(dòng)態(tài)監(jiān)控。
1? 樸素貝葉斯分類算法
貝葉斯算法是機(jī)器學(xué)習(xí)領(lǐng)域廣泛應(yīng)用的一種簡(jiǎn)單高效的分類方法。本文應(yīng)用樸素貝葉斯算法,假定各屬性相互獨(dú)立,基于概率和誤判損失來選擇最優(yōu)的類別標(biāo)記。
本文應(yīng)用場(chǎng)景為二分類問題,樣本標(biāo)記為抽樣和不抽樣,樣本a誤分類為c的誤判損失為R(c│a)=1-P(c|a)。
樸素貝葉斯分類器假設(shè)所有屬性相互獨(dú)立,因此貝葉斯公式(1)可改寫為(2),其中m是屬性個(gè)數(shù),ai是樣本a在第i個(gè)屬性上的取值。
最小化分類錯(cuò)誤率的貝葉斯分類器為對(duì)每個(gè)樣本a選擇使誤判損失最小即P(c|a)最大的類別標(biāo)記。樣本a的標(biāo)記判定準(zhǔn)則h(a)如下,其中y是樣本標(biāo)記集合:
2? 審計(jì)抽樣
本文以2015—2018年專項(xiàng)資金使用為案例對(duì)審計(jì)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),用2015年數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),2016年數(shù)據(jù)作為測(cè)試數(shù)據(jù)評(píng)估驗(yàn)證模型,在2017、2018年數(shù)據(jù)上進(jìn)行抽樣實(shí)驗(yàn),具體流程為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)訓(xùn)練、測(cè)試評(píng)估和模型應(yīng)用。
2.1 數(shù)據(jù)準(zhǔn)備
樣本屬性特征包括:經(jīng)濟(jì)內(nèi)容、金額區(qū)間、可行性研究、立項(xiàng)、調(diào)劑檢查、招標(biāo)、合同、驗(yàn)收和臺(tái)帳,如表1所示。
2.2 數(shù)據(jù)訓(xùn)練
審計(jì)專家根據(jù)經(jīng)驗(yàn)在2015年的247條數(shù)據(jù)記錄中抽樣75條數(shù)據(jù)記錄。計(jì)算屬性的條件概率作為先驗(yàn)經(jīng)驗(yàn),具體情況如下:
(1)記錄標(biāo)記為抽樣的概率為30.36%,不抽樣概率為69.64%;
(2)根據(jù)計(jì)算屬性的條件概率,具體值如表2所示。
2.3 測(cè)試評(píng)估
選取2016年276條數(shù)據(jù)記錄進(jìn)行抽樣測(cè)試,貝葉斯算法審計(jì)抽樣模型抽取樣本77條,抽樣率P(c)=77/276 = 27.90% ,與2015年訓(xùn)練期抽樣率30.36%相比相差2.46%。同時(shí)用“三因素”分析法,根據(jù)樣本量公式計(jì)算得到可靠程度95%(概率度t=1.96)、預(yù)計(jì)差錯(cuò)率P=5%、精確度p=4.1%的樣本量77.91,與2016年貝葉斯算法實(shí)驗(yàn)結(jié)果相當(dāng),模型可靠。
2.4 模型應(yīng)用
2.4.1 屬性抽樣結(jié)果
對(duì)2017年429條審計(jì)數(shù)據(jù)、2018年420條審計(jì)數(shù)據(jù)進(jìn)行審計(jì)抽樣實(shí)驗(yàn),結(jié)果如表3所示。
2017、2018年抽樣率測(cè)試結(jié)果與訓(xùn)練期2015年抽樣率30.36%、2016年測(cè)試期抽樣率27.90%比較,抽樣率相當(dāng)。
2.4.2 “三因素”計(jì)算樣本量驗(yàn)證貝葉斯算法模型抽樣結(jié)果
貝葉斯分類模型抽樣樣本量與根據(jù)樣本量公式計(jì)算得到的樣本量大小相當(dāng),從而貝葉斯分類模型抽樣結(jié)果可靠程度95%(概率度t=1.96),預(yù)計(jì)差錯(cuò)率5%、精確度達(dá)到3.1%~4.1%。如表4所示。
3? 結(jié)語
本文提出的樸素貝葉斯審計(jì)抽樣模型抽樣率在30%左右,達(dá)到預(yù)期要求,與“三因素”樣本量的計(jì)算結(jié)果相當(dāng),模型可靠。模型滿足風(fēng)險(xiǎn)導(dǎo)向?qū)徲?jì)要求,達(dá)到控制風(fēng)險(xiǎn)、提高效率的目的,還可應(yīng)用于在線審計(jì),隨著審計(jì)數(shù)據(jù)的更新跟蹤是否抽樣檢查,實(shí)現(xiàn)動(dòng)態(tài)監(jiān)控。
本文研究還存在一定的局限性,一是數(shù)據(jù)屬性結(jié)構(gòu)有待優(yōu)化調(diào)整,二是樸素貝葉斯分類器是基于“屬性條件獨(dú)立性假設(shè)”,但實(shí)際上此假設(shè)往往很難成立,可以采取基于屬性增益率、關(guān)聯(lián)度的加權(quán)方法來調(diào)整屬性變量的影響,這將是今后進(jìn)一步研究提高的方向。
參考文獻(xiàn)
[1] 董麗虹.風(fēng)險(xiǎn)導(dǎo)向?qū)徲?jì)中風(fēng)險(xiǎn)環(huán)節(jié)權(quán)重的重構(gòu)與修正研究——基于條件概率和貝葉斯定理[J].當(dāng)代經(jīng)濟(jì),2014(14):113-115.
[2] 王旭.基于貝葉斯網(wǎng)絡(luò)的審計(jì)風(fēng)險(xiǎn)管理模型構(gòu)建[J].財(cái)會(huì)通訊,2013(22):97-99.
[3] 朱新玲,黎鵬.貝葉斯推斷在抽樣審計(jì)中的應(yīng)用研究[J].統(tǒng)計(jì)教育,2005(12):50-52.
[4] 王鹿,李志偉,朱成德,等.基于樸素貝葉斯算法的垃圾郵件過濾研究[J].傳感器與微系統(tǒng),2020,39(9):46-48,52.
[5] 彭子豪,譚欣.并行化改進(jìn)的樸素貝葉斯算法在中文文本分類上的應(yīng)用[J].科學(xué)技術(shù)創(chuàng)新,2020(26):176-178.
[6] 楊文華.大數(shù)據(jù)在保障性安居工程跟蹤審計(jì)中的應(yīng)用[D].天津:天津財(cái)經(jīng)大學(xué),2019.
[7] 景鵬飛.審計(jì)全覆蓋視角下的預(yù)算執(zhí)行審計(jì)問題研究[D].昆明:云南財(cái)經(jīng)大學(xué),2018.
[8] 常志鵬,徐娟.基于樸素貝葉斯算法的網(wǎng)絡(luò)教學(xué)平臺(tái)響應(yīng)時(shí)間研究[J].數(shù)字技術(shù)與應(yīng)用,2019,37(12):112-115.
科技創(chuàng)新導(dǎo)報(bào)2020年36期