国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹算法的審計數(shù)據(jù)分析研究

2020-07-09 03:37王晨陽
會計之友 2020年13期
關(guān)鍵詞:決策樹數(shù)據(jù)挖掘

王晨陽

【摘 要】 大數(shù)據(jù)時代的海量信息對審計工作的強度和技術(shù)性提出了更高的要求,如何對審計數(shù)據(jù)進行分析,是審計人員面臨的挑戰(zhàn)。文章以Weka分析軟件作為實驗平臺,分別應(yīng)用決策樹分類算法中典型的ID3算法和C4.5算法,以UCI數(shù)據(jù)庫中的Balloons數(shù)據(jù)集為例進行分類算法預測功能的闡述,并結(jié)合實例,提出決策樹算法在審計中的有效應(yīng)用。隨后探討了審計數(shù)據(jù)分析的發(fā)展趨勢:云計算審計應(yīng)用;開源機器學習算法融入審計;云安全審計;非結(jié)構(gòu)化數(shù)據(jù)文本挖掘?qū)徲?特高壓、新能源汽車充電樁、5G網(wǎng)絡(luò)、大數(shù)據(jù)中心、人工智能等為代表的新基建數(shù)據(jù)挖掘應(yīng)用等。

【關(guān)鍵詞】 數(shù)據(jù)挖掘; 決策樹; 審計數(shù)據(jù)分析; Weka軟件

【中圖分類號】 F239.1 ?【文獻標識碼】 A ?【文章編號】 1004-5937(2020)13-0139-05

一、引言

如今,我們正處于大數(shù)據(jù)的時代,面對數(shù)量龐大、內(nèi)容和存儲方式多種多樣的信息資產(chǎn),審計工作者需要使用全新的處理模式才能夠更加迅速地進行數(shù)據(jù)分析,高效地發(fā)現(xiàn)更多有價值的審計線索。大數(shù)據(jù)時代海量數(shù)據(jù)的不斷增加,一方面給審計工作提供了更加堅實的基礎(chǔ),另一方面,對審計工作的強度和技術(shù)都提出了更高的要求。如何運用日益增長的數(shù)據(jù)?如何運用更多的模型和算法為審計服務(wù)?這些問題都將成為審計部門以及審計人員面臨的挑戰(zhàn)。

處理大數(shù)據(jù)最為實用的審計方法之一就是發(fā)掘型分析審計。發(fā)掘型分析是指用戶通過對大量數(shù)據(jù)的分析研究,從中找出隱藏的規(guī)律,從而對數(shù)據(jù)或行為未來的趨勢進行預測的一種數(shù)據(jù)分析模式[1]。而要想實現(xiàn)發(fā)掘型分析,目前最為有效的手段就是數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘一共有四類比較常用的分析方法,分別是聚簇分析、分類分析、序列分析和關(guān)聯(lián)分析,而決策樹則是最常見的分類方法。我們將數(shù)據(jù)進行分類主要是為了根據(jù)每組數(shù)據(jù)不同的屬性將它們歸類到不同的分組中,分析每個分組中各類數(shù)據(jù)的不同屬性,找出符合該數(shù)據(jù)屬性的模型,再建立相對應(yīng)的模型對已有的數(shù)據(jù)進行分析以及對新數(shù)據(jù)未來的趨勢進行預測。

本研究簡要介紹了決策樹算法及決策樹算法分類模型實例,討論了該算法在審計中的應(yīng)用,探討了數(shù)據(jù)挖掘技術(shù)在對審計數(shù)據(jù)進行分析的過程中應(yīng)用程度的發(fā)展趨勢。

二、決策樹算法簡介

決策樹,是一種跟多叉樹很相似的樹型結(jié)構(gòu),又稱判定樹,主要對數(shù)據(jù)的離散或連續(xù)屬性進行分析并進行建模及預測[2]。決策樹是按照從上到下依次進行分類的方法構(gòu)造的模型,從最基礎(chǔ)的訓練元組集以及與之相關(guān)的類標號進行分類,訓練數(shù)據(jù)集隨著決策樹模型的構(gòu)建,以遞歸的方式被分成了幾個小的子集。決策樹內(nèi)部的每一個結(jié)點都代表了利用其某個屬性進行相關(guān)的試驗,而從結(jié)點衍生出的每一個分支則意為在該試驗基礎(chǔ)上的屬性結(jié)果的輸出,每一個葉結(jié)點代表的是所存儲的一個類標號的信息。其基本思想是:如果訓練樣本集中的所有樣本都屬于同一種類型,那么便將這個樣本集作為一個葉結(jié)點,且標識為該類;如果不是,那么就先根據(jù)某種方法確定一個屬性進行測試,按照測試出的不同的值把整個樣本集劃分為多個子集,形成內(nèi)部結(jié)點,這樣就能夠保證在同一個子集上,不同的樣本能具有相同的屬性值。接著反復處理各個子集,直到得到滿意或滿足條件的分類屬性即停止。最后,在所有的樣本中間,信息量最大的屬性成為根結(jié)點,而中間結(jié)點則是以此結(jié)點作為樹根的分支中所包括的樣本中信息量最大的那一個屬性[2]。

決策樹算法可以針對不同類別的因變量,從多個不同的預測變量中,預測出其中單個變量的未來趨勢的變化。目前決策樹的算法有很多種,本文采用的是其中最經(jīng)典的兩種算法——ID3算法和C4.5算法。

三、設(shè)計思路與方案概述

(一)實驗基本方案

1.建立模型,描述預定數(shù)據(jù)分類集和概念集。假設(shè)每一個元組都歸于一個預先定義好的類,通過類標號屬性進行判定。在典型情況下,學習模型可以通過判定樹、分類規(guī)則或者數(shù)學公式的方法建立[3]。

2.使用模型,對將來的或未知的對象進行分類。將每一個測試實例的學習模型類和已知的類標號進行比較,在分析對比的基礎(chǔ)上合理預測相關(guān)信息。學習模型在預先已給測試數(shù)據(jù)集上的正確率等于準確被模型進行分類的實例數(shù)占測試實例總數(shù)的百分比。測試數(shù)據(jù)集必須具有獨立性,一定要避免產(chǎn)生“過分適應(yīng)數(shù)據(jù)”的不良情況。

實驗以Weka軟件作為實踐平臺對數(shù)據(jù)進行挖掘處理,分別對ID3算法、C4.5算法的分析預測性能進行總結(jié)評價。

(二)實驗步驟

1.數(shù)據(jù)準備。使用對不同的試驗條件做出T/F判斷的數(shù)據(jù)集Balloons.arff,數(shù)據(jù)集包含4個屬性,分別是Color、Size、Act、Age共76個實例,如表1所示。

取“Balloons.arff”文件的76條數(shù)據(jù)中前50條數(shù)據(jù)作為訓練數(shù)據(jù)集,另存為文件“Balloons-train”,取后26條數(shù)據(jù)作為測試數(shù)據(jù)集,另存為文件“Balloons-test”。

2.訓練過程。打開Weka軟件,用“Explorer”打開訓練集,觀察訓練集是否已按照要求進行處理。切換到“Classify”選項卡的“ID3”或“J48”選項,看左中的“Test Option”。為確保生成模型的準確性而不至于出現(xiàn)過擬合(overfitting)的現(xiàn)象,有必要采用10折交叉驗證(10-fold cross validation)來選擇和評估模型[4],點擊“Start”按鈕生成Bayes模型。該模型關(guān)于誤差或分析等結(jié)果將在“Classifier output”中生成展示。

3.測試過程。必須保證訓練數(shù)據(jù)集及待測數(shù)據(jù)集中各屬性的設(shè)置相同,在“Test Opion”中選擇“Supplied test set”作為測試文件,觀察預測的結(jié)果以及混淆矩陣。

四、分類模型的建立

(一)ID3算法

1.ID3算法的描述與實驗過程

ID3算法是數(shù)據(jù)挖掘決策樹分類算法中最為基礎(chǔ)及影響深刻的,它主要用于解決屬性選擇方面的相關(guān)問題。ID3算法的主要思想是在每一次分裂之前用給定算法計算得出一個分裂屬性,并按照該屬性劃分訓練數(shù)據(jù)集,得到一些子集,從而形成若干個“樹枝”。ID3算法的最終目的是能夠得到一個規(guī)模最小的決策樹。信息增益是ID3算法中極其重要的數(shù)據(jù)量,選擇具有最高信息增益的屬性作為分裂屬性,可以促使結(jié)果分區(qū)對元組分類所需要的信息量達到可選范圍內(nèi)最小,得出的結(jié)果最為準確。

(5)重復步驟4,依次對outlook的overcast分支、rain分支建立子樹,最后得到能夠?qū)ξ粗悩颂柕臉颖具M行合理預測的決策樹。

(6)利用已得到的決策樹對類標號未知的樣本進行合理預測。

基于ID3算法得到的Balloons數(shù)據(jù)集的分析結(jié)果如圖1所示。

由分析結(jié)果可知,該模型正確率為76%。原本應(yīng)該是T的實例,有15個判斷正確,9個判斷錯誤;原本應(yīng)該是F的實例,有23個判斷正確,3個判斷錯誤。實例總數(shù)=15+9+23+3=50。

得到的決策樹如圖2所示。

該模型的精度可通過改進算法進一步提高,之后可利用得到的決策樹對測試數(shù)據(jù)集進行驗證。

2.ID3算法的總結(jié)

ID3算法是一種自上而下、貪婪的遍歷方法,其核心是在每一次分裂之前用給定算法計算得出一個分裂屬性,并按照該屬性劃分訓練數(shù)據(jù)集,最終構(gòu)建與訓練數(shù)據(jù)集一致的決策樹。ID3算法的優(yōu)點在于算法簡單易懂,便于實踐操作。缺點在于算法對于待處理的數(shù)據(jù)有局限性,只能處理分類數(shù)據(jù)而不能處理連續(xù)性數(shù)據(jù);算法會由于對測試子集的劃分規(guī)模過小導致統(tǒng)計特征缺乏,分類過程中止;算法中使用信息增益作為決策樹結(jié)點屬性選擇的標準,因此決策樹算法的選擇可能具有多分支的屬性,可能出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的不良情況,弱化分類意義,對決策不提供有效支持。

(二)C4.5算法

1.C4.5算法簡介

C4.5是基于ID3算法的改進版本,選擇信息增益率作為確定決策樹結(jié)點屬性的標準。C4.5算法克服了ID3算法中可能出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況,并能夠?qū)B續(xù)屬性數(shù)據(jù)進行處理。C4.5中采用后剪枝的方法對樹的結(jié)點進行修剪,有效應(yīng)對決策樹分類學習過程的過度擬合問題。應(yīng)用C4.5算法時,首先選擇具有最高信息增益率的屬性作為分裂屬性,可以有效地降低偏袒概率。

2.C4.5算法的總結(jié)

C4.5算法的優(yōu)點:(1)決策樹方法結(jié)構(gòu)簡單,便于理解;(2)決策樹模型使用效率高,非常適用于訓練數(shù)據(jù)集數(shù)據(jù)量大的情況;(3)決策樹一般不必接受外部知識;(4)決策樹方法的分類精確度較高;(5)對ID3算法進行改進,能夠?qū)B續(xù)值、不完整值進行處理,對樹進行剪枝,避免過擬合問題的出現(xiàn)。

C4.5算法的缺點:(1)處理連續(xù)屬性比較耗時;(2)對訓練實例數(shù)據(jù)質(zhì)量要求較高,算法不夠穩(wěn)定,精度不夠高。

五、決策樹算法應(yīng)用于審計數(shù)據(jù)分析

在計算機數(shù)據(jù)審計中,分類是對各類數(shù)據(jù)按照一定規(guī)則和特質(zhì)分為不同類別,并根據(jù)不同類別采用適合的審計策略[5]。決策樹算法對于審計而言最重要的意義之一在于提取海量數(shù)據(jù)中的規(guī)則,并預測數(shù)據(jù)記錄的真實性,應(yīng)用時一般遵循以下步驟:第一,將待分析數(shù)據(jù)隨機分為兩組,一組為測試數(shù)據(jù)集(如上文中實例的26條測試數(shù)據(jù)集),另一組為訓練數(shù)據(jù)集(如上文中實例的50條訓練數(shù)據(jù)集);第二,選擇適當?shù)臎Q策樹分類算法(如上文中實例的Weka軟件中的ID3算法),利用訓練數(shù)據(jù)集來創(chuàng)建數(shù)據(jù)挖掘模型;第三,利用創(chuàng)建的模型對測試數(shù)據(jù)集的分類真實性進行預測,得出預測結(jié)果與實際情況不一樣的記錄;第四,通過對決策樹算法改進的研究(如上文中實例的Weka軟件中的C4.5等優(yōu)化算法),優(yōu)化算法思想,最終得出改進后的結(jié)果,和原有結(jié)果進行對比并評估其準確率;第五,若存在預測結(jié)果與實際情況不一樣的記錄,則可認為可疑數(shù)據(jù),作為異常情況處理,進行深入審計分析調(diào)查[6]。

基于分類算法的特點,待分析數(shù)據(jù)集各屬性之間應(yīng)當存在與區(qū)分類別有關(guān)的邏輯關(guān)聯(lián)關(guān)系,例如工程項目物料供應(yīng)商分類中區(qū)分合格供應(yīng)商和不合格供應(yīng)商,數(shù)據(jù)表中供應(yīng)商的推薦單位、營業(yè)執(zhí)照規(guī)定的經(jīng)營范圍、企業(yè)資質(zhì)類別及等級、財務(wù)狀況等屬性間應(yīng)當存在判定合格與否的規(guī)則關(guān)系,審計人員在對數(shù)據(jù)進行清洗、轉(zhuǎn)換等預處理操作后,應(yīng)用分類算法,建立分類模型,對原始數(shù)據(jù)進行分析,篩選出與分類模型不相適應(yīng)的數(shù)據(jù)記錄,確定審計疑點做進一步查證,對疑似不合格供應(yīng)商的交易往來記錄重點審計。

在審計實踐中,面對業(yè)務(wù)數(shù)據(jù)較多、不同業(yè)務(wù)系統(tǒng)使用率高的客戶單位,審計人員必須考慮審計的時間限制和審計結(jié)果的風險程度。對數(shù)據(jù)進行預處理時,我們需要考慮如何提高數(shù)據(jù)的準確度以及怎樣提高挖掘分析的速度,采用合適的統(tǒng)計數(shù)據(jù)和處理方法。我們通常使用的分類方法有統(tǒng)計方法和決策樹分類法等等。運用這些不同的分類方法可以很大程度上減小審計所帶來的工作量,降低其帶來的審計風險[5]。

隨著大數(shù)據(jù)的出現(xiàn)以及數(shù)據(jù)挖掘技術(shù)的不斷進步,審計信息化的進程得到了大幅的提升,對審計工作來說,大數(shù)據(jù)技術(shù)并不僅僅是一種技術(shù)手段,更是為審計全覆蓋的實現(xiàn)提供了最基本的技術(shù)支持[7]。

六、結(jié)論與展望

利用決策樹分類算法可以有效地對數(shù)據(jù)信息進行分類預測。ID3算法使用自上而下的貪婪搜索對所有可能的決策樹控空間進行遍歷,算法簡單易懂,便于學習實踐,是其他決策樹分類算法的基礎(chǔ),該算法可達到局部最優(yōu)的效果,然而不一定全局最優(yōu)。當屬性取值很多時最好優(yōu)先考慮C4.5算法,C4.5算法將信息增益改為信息增益比,以解決偏向取值較多的屬性問題,從而反饋以較為合理準確的分析預測結(jié)果,另外它可以處理連續(xù)型屬性。

數(shù)據(jù)挖掘技術(shù)在審計中的應(yīng)用在快速發(fā)展,它的應(yīng)用還存在一些局限性,例如被審單位數(shù)據(jù)質(zhì)量存在嚴重問題、利用數(shù)據(jù)挖掘技術(shù)進行審計取證的成本問題、專業(yè)技術(shù)人員素質(zhì)要求等。盡管如此,在全面信息化的外部環(huán)境要求下,為有效發(fā)揮審計風險預警和防范功能,審計人員必須充分利用被審計單位的電子數(shù)據(jù),借助數(shù)據(jù)挖掘技術(shù)對被審計單位的海量數(shù)據(jù)進行分析,獲得審計線索,發(fā)現(xiàn)審計疑點,提高審計效率和效果,有效控制審計風險[8]。計算機審計已顯示出傳統(tǒng)審計方法無法比擬的巨大優(yōu)勢,數(shù)據(jù)挖掘技術(shù)應(yīng)用的廣闊前景是不容忽視的。審計署“十三五”規(guī)劃指出,我國將推進大數(shù)據(jù)為核心的審計信息化建設(shè),到2020年實現(xiàn)對經(jīng)濟社會各類主要信息數(shù)據(jù)的全歸集。大數(shù)據(jù)給新時代審計帶來前所未有的挑戰(zhàn),審計人員如何將結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)相融合,如何在PB量級數(shù)據(jù)中快速而精準地提取有價值的信息,如何習慣并熟練獲取及處理非結(jié)構(gòu)化數(shù)據(jù),這些都是“大數(shù)據(jù)驅(qū)動的審計”中亟待解決的難題,未來數(shù)據(jù)挖掘技術(shù)將成為審計方法創(chuàng)新的重要內(nèi)容[9]。

除了決策樹分類算法外,聚類和深度學習等機器學習算法在審計中的應(yīng)用也在不斷探索中。其中一個趨勢是將開源的R和Python等算法不斷融入審計應(yīng)用中,開源軟件由于其開源特性,成本低,具有開放性,各種新算法可以不斷拓展和融入。特別是爬蟲算法等新算法對非結(jié)構(gòu)化、異構(gòu)數(shù)據(jù)的支持,將數(shù)據(jù)挖掘的審計應(yīng)用程度帶入新的階段。另一個趨勢是依托大公司大平臺的產(chǎn)品進行審計應(yīng)用,比如SAS統(tǒng)計軟件數(shù)據(jù)挖掘分析,Tabular的可視化數(shù)據(jù)分析,阿里云、華為云、騰訊云、微軟Azure云機器學習工具,亞馬遜AWS云計算工具等等。大型軟件公司的軟件產(chǎn)品穩(wěn)定,又有強大的研發(fā)背景和實力,還有可靠的客戶服務(wù)支持等優(yōu)勢,前途不可限量。但隨著以云技術(shù)為支持與多源大數(shù)據(jù)相融合的政務(wù)服務(wù)云建設(shè)等的開始,云服務(wù)同時面臨著嚴峻的安全問題,大數(shù)據(jù)泄露、外部侵襲以及技術(shù)漏洞等諸多風險將逐漸常見,基于風險導向模式開展政務(wù)云安全審計也將逐步提上日程[10]。

另外,文本挖掘?qū)Σ杉姆墙Y(jié)構(gòu)化原始審計數(shù)據(jù)進行挖掘,并且根據(jù)明確的審計需求建立不同的文本挖掘模型,從而發(fā)現(xiàn)審計疑點,形成審計證據(jù)和審計線索也是一個趨勢,而且文本挖掘可以結(jié)合非結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)庫NoSQL或Hbase分布式存儲系統(tǒng)和HDFS分布式文件系統(tǒng),生成文本摘要,并進行分類和關(guān)聯(lián)分析[11]。

在數(shù)據(jù)挖掘的行業(yè)應(yīng)用方面,基礎(chǔ)數(shù)據(jù)的質(zhì)量和行業(yè)需求驅(qū)動力將是不同行業(yè)的差別關(guān)鍵所在。金融行業(yè)中銀行保險證券的數(shù)據(jù)質(zhì)量極高、投入大,其數(shù)據(jù)挖掘?qū)徲嫅?yīng)用將走在各行業(yè)前列。中國經(jīng)濟發(fā)展的三駕馬車是投資、消費和出口,消費數(shù)據(jù)分析,比如信用卡消費數(shù)據(jù)挖掘分析等將異軍突起;投資依然是拉動中國經(jīng)濟發(fā)展和保就業(yè)的重要動力,特別是以特高壓、新能源汽車充電樁、5G網(wǎng)絡(luò)、大數(shù)據(jù)中心、人工智能、公共衛(wèi)生等為代表的新基建。而其中的電力能源服務(wù)行業(yè)投資工程,基礎(chǔ)數(shù)據(jù)質(zhì)量好,前期積累多,數(shù)據(jù)挖掘?qū)徲嫅?yīng)用也將大跨步發(fā)展,走在各大型央企前列。

【參考文獻】

[1] 應(yīng)里孟.數(shù)據(jù)式審計常用的數(shù)據(jù)分析方法[J].中國農(nóng)業(yè)會計,2011(9):14-15.

[2] 陶帥.基于決策樹算法的保障房審計分類規(guī)則研究[D].鄭州:華北水利水電大學碩士學位論文,2017.

[3] 李梅.基于決策樹的中職學生體質(zhì)測試成績分析研究[D].蘭州:西北師范大學碩士學位論文,2018.

[4] 張瑩.基于決策樹的網(wǎng)絡(luò)學院學生學業(yè)影響因素研究[D].開封:河南大學碩士學位論文,2013.

[5] 陳丹萍.數(shù)據(jù)挖掘技術(shù)在現(xiàn)代審計中的運用研究[J].南京審計學院學報,2009,6(2):57-61.

[6] 張成.數(shù)據(jù)挖掘技術(shù)在金融審計中的研究與應(yīng)用[D].合肥:安徽大學碩士學位論文,2014.

[7] 劉國常,胡楓.大數(shù)據(jù)助推政府審計全覆蓋路徑研究[J].會計之友,2018(18):98-101.

[8] 胡珊珊.數(shù)據(jù)挖掘技術(shù)在現(xiàn)代審計中的應(yīng)用研究[J].老區(qū)建設(shè),2015(8):44-45.

[9] 劉國城,陳正升.大數(shù)據(jù)審計的發(fā)展態(tài)勢、總體策劃與流程分析[J].會計之友,2019(8):30-35.

[10] 王會金,劉國城.大數(shù)據(jù)時代政務(wù)云安全風險估計及其審計運行研究[J].審計與經(jīng)濟研究,2018(5):1-11.

[11] 張志恒,成雪嬌.大數(shù)據(jù)環(huán)境下基于文本挖掘的審計數(shù)據(jù)分析框架[J].會計之友,2017(16):117-120.

猜你喜歡
決策樹數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應(yīng)用
基于改進決策樹的故障診斷方法研究
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
基于決策樹的出租車乘客出行目的識別
基于決策樹的復雜電網(wǎng)多諧波源監(jiān)管
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
南投县| 滕州市| 界首市| 和林格尔县| 乡宁县| 韩城市| 舒城县| 潞城市| 贵溪市| 廉江市| 曲松县| 和静县| 阿尔山市| 玉林市| 合阳县| 佛坪县| 南部县| 古蔺县| 陆丰市| 湘潭县| 长乐市| 汉沽区| 白玉县| 太仓市| 陇西县| 深圳市| 新绛县| 汨罗市| 凉城县| 株洲县| 洛川县| 海兴县| 新泰市| 尼玛县| 饶河县| 阳信县| 宝丰县| 广饶县| 荆州市| 枣庄市| 洪泽县|