国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

孤立點(diǎn)分析在審計(jì)疑點(diǎn)發(fā)現(xiàn)中的應(yīng)用探討

2019-09-05 01:52陳旭陳紅平
會(huì)計(jì)之友 2019年17期
關(guān)鍵詞:Python語(yǔ)言

陳旭 陳紅平

【摘 要】 孤立點(diǎn)分析作為一種無(wú)監(jiān)督方法,在結(jié)合具體審計(jì)業(yè)務(wù)選擇適當(dāng)審計(jì)指標(biāo)的基礎(chǔ)上,能夠自主發(fā)現(xiàn)審計(jì)疑點(diǎn)。在自主學(xué)習(xí)并發(fā)現(xiàn)價(jià)值信息的過(guò)程中,孤立點(diǎn)分析方法既兼顧了對(duì)海量數(shù)據(jù)的總體分析,又可作為審計(jì)經(jīng)驗(yàn)補(bǔ)充,輔助審計(jì)工作人員發(fā)現(xiàn)審計(jì)疑點(diǎn),并實(shí)現(xiàn)疑點(diǎn)的精確定位。文章在分析孤立點(diǎn)研究現(xiàn)狀及常用審計(jì)疑點(diǎn)發(fā)現(xiàn)方法的基礎(chǔ)上,提出了基于孤立點(diǎn)分析的審計(jì)疑點(diǎn)發(fā)現(xiàn)方法,構(gòu)建了基于孤立點(diǎn)分析的審計(jì)疑點(diǎn)發(fā)現(xiàn)框架,并嘗試結(jié)合Y上市公司實(shí)際案例數(shù)據(jù),利用Python語(yǔ)言實(shí)現(xiàn)建模分析,以探討孤立點(diǎn)分析方法對(duì)于輔助審計(jì)疑點(diǎn)發(fā)現(xiàn)、提高審計(jì)工作效率的意義,為審計(jì)人員挖掘?qū)徲?jì)疑點(diǎn)提供了新思路。

【關(guān)鍵詞】 孤立點(diǎn); 審計(jì)疑點(diǎn); 審計(jì)數(shù)據(jù)分析; Python語(yǔ)言

【中圖分類(lèi)號(hào)】 F239.45 ?【文獻(xiàn)標(biāo)識(shí)碼】 A ?【文章編號(hào)】 1004-5937(2019)17-0072-05

信息技術(shù)的蓬勃發(fā)展伴隨著信息數(shù)據(jù)的迅速增長(zhǎng),為了有效收集并利用這些數(shù)據(jù),企業(yè)不斷提升管理信息化水平,許多單位紛紛建立起了TB甚至PB級(jí)數(shù)據(jù)庫(kù),從而導(dǎo)致審計(jì)數(shù)據(jù)呈現(xiàn)出量化的趨勢(shì)[1]。面對(duì)海量數(shù)據(jù),如何實(shí)現(xiàn)“審計(jì)全覆蓋”并從中快速有效地發(fā)現(xiàn)疑點(diǎn),運(yùn)用“整體分析、系統(tǒng)研究、疑點(diǎn)發(fā)現(xiàn)、分散核驗(yàn)、精確定位”的數(shù)字化審計(jì)方式,充分發(fā)揮審計(jì)“免疫系統(tǒng)”作用,是目前審計(jì)人員面臨的全新挑戰(zhàn)。

在以風(fēng)險(xiǎn)為導(dǎo)向的審計(jì)模式下,審計(jì)人員充分考慮被審計(jì)單位經(jīng)濟(jì)環(huán)境、治理結(jié)構(gòu)等因素,在合理職業(yè)懷疑基礎(chǔ)上,系統(tǒng)地對(duì)審計(jì)風(fēng)險(xiǎn)進(jìn)行識(shí)別與評(píng)估,制定并實(shí)施與風(fēng)險(xiǎn)相適應(yīng)的審計(jì)計(jì)劃,執(zhí)行審計(jì)程序,搜集審計(jì)證據(jù)。常用審計(jì)數(shù)據(jù)分析方法要求審計(jì)人員具有相關(guān)的先驗(yàn)知識(shí),在數(shù)據(jù)量暴增環(huán)境下,難以從海量數(shù)據(jù)中快速發(fā)現(xiàn)疑點(diǎn)。鑒于此,本文嘗試對(duì)提高審計(jì)疑點(diǎn)發(fā)現(xiàn)效率的方法進(jìn)行探討。

一、研究現(xiàn)狀

近年,關(guān)于聚類(lèi)及孤立點(diǎn)分析方法在審計(jì)工作中的應(yīng)用研究,許多專(zhuān)家學(xué)者進(jìn)行了一些探索和嘗試。楊松[2]改進(jìn)了基于單元的異常檢測(cè)算法,并給出了算法流程,討論了異常算法如何應(yīng)用于審計(jì)證據(jù)的獲取,以醫(yī)用注射器數(shù)據(jù)為例,詳細(xì)介紹了在審計(jì)系統(tǒng)中使用孤立點(diǎn)算法的方法,證明了該方法的高效性。劉巍[3]設(shè)計(jì)編寫(xiě)了基于DBSCAN聚類(lèi)的孤立點(diǎn)發(fā)現(xiàn)程序,并以某救災(zāi)資金審計(jì)項(xiàng)目數(shù)據(jù)為例,對(duì)程序進(jìn)行驗(yàn)證,通過(guò)該程序,發(fā)現(xiàn)了一些孤立點(diǎn),為審計(jì)人員提供了審計(jì)疑點(diǎn)分析新方向。孫等[4]以某高?;üこ探Y(jié)算審計(jì)項(xiàng)目為例,分析了聚類(lèi)技術(shù)及其對(duì)電子政務(wù)審計(jì)的意義,利用相關(guān)財(cái)務(wù)及非財(cái)務(wù)指標(biāo)展示了孤立點(diǎn)分析審計(jì)抽樣模型的實(shí)施原理,驗(yàn)證了該模型對(duì)于快速確定可疑樣本、提高審計(jì)效率的作用。程平等[5]根據(jù)電子政務(wù)抽樣審計(jì)對(duì)多維數(shù)據(jù)進(jìn)行分層處理的需求,提出在分層算法中融入基于主次屬性劃分的聚類(lèi)方法,以適應(yīng)多維數(shù)據(jù)分層抽樣的需要,為電子政務(wù)審計(jì)分層抽樣系統(tǒng)的實(shí)現(xiàn)提供了一種新的解決方案。楊蘊(yùn)毅等[6]基于“在單一的聚類(lèi)結(jié)果中,具有較低可疑性的點(diǎn)通常會(huì)被具有較高可疑性的點(diǎn)所掩蓋”這一發(fā)現(xiàn),建議使用迭代聚類(lèi)方法分析審計(jì)疑點(diǎn),并在篩除明顯的小聚類(lèi)之后,實(shí)行重復(fù)聚類(lèi),以獲得更多信息,然后利用上市公司財(cái)報(bào)數(shù)據(jù)進(jìn)行測(cè)試,對(duì)比可疑數(shù)據(jù)與證監(jiān)會(huì)等機(jī)構(gòu)的查處信息,驗(yàn)證了方法的可行性。譚艷娜[7]提出將局部異常因子(LOF)算法用于DBSCAN聚類(lèi)的核心對(duì)象判定,對(duì)核心對(duì)象進(jìn)行重新定義,并利用社保審計(jì)數(shù)據(jù)進(jìn)行測(cè)試,驗(yàn)證了在不具備審計(jì)政策及法規(guī)知識(shí)等情況下,該算法快速有效地實(shí)現(xiàn)了數(shù)據(jù)疑點(diǎn)分析。郭洪建(2015)采用K-means聚類(lèi)算法獲得了10家商業(yè)銀行的信用風(fēng)險(xiǎn)狀況以及相應(yīng)監(jiān)管指標(biāo)等級(jí)劃分,經(jīng)相關(guān)專(zhuān)家驗(yàn)證,該結(jié)果合理有效,得出了利用K-means聚類(lèi)算法能提高審計(jì)分析質(zhì)量的結(jié)論。

二、常用審計(jì)疑點(diǎn)發(fā)現(xiàn)方法分析

審計(jì)人員如何在采集的原始數(shù)據(jù)中發(fā)現(xiàn)審計(jì)疑點(diǎn),對(duì)審計(jì)目標(biāo)的實(shí)現(xiàn)有直接影響。在審計(jì)的整個(gè)實(shí)施階段,審計(jì)疑點(diǎn)發(fā)現(xiàn)效率是審計(jì)項(xiàng)目質(zhì)量和審計(jì)成果體現(xiàn)的重要保障,因此,審計(jì)人員應(yīng)當(dāng)重點(diǎn)關(guān)注如何利用高效的數(shù)據(jù)分析方法發(fā)現(xiàn)審計(jì)疑點(diǎn)。

目前,常用的審計(jì)數(shù)據(jù)分析方法包括利用SQL語(yǔ)句進(jìn)行查詢(xún)分析以及利用Excel、Access、審計(jì)軟件等進(jìn)行統(tǒng)計(jì)分析[8]。其中,SQL語(yǔ)句查詢(xún)、審計(jì)軟件等常用于政府部門(mén)及事業(yè)單位內(nèi)部審計(jì);會(huì)計(jì)師事務(wù)所常用Excel以及會(huì)計(jì)賬表相關(guān)審計(jì)軟件進(jìn)行數(shù)據(jù)分析;大型企業(yè)在進(jìn)行內(nèi)部審計(jì)時(shí)往往采用專(zhuān)門(mén)的審計(jì)平臺(tái)或在管理信息系統(tǒng)中嵌入審計(jì)模塊,而中小企業(yè)則更依賴(lài)于利用Excel及Access進(jìn)行審計(jì)數(shù)據(jù)分析。

常用的審計(jì)疑點(diǎn)發(fā)現(xiàn)方法需要審計(jì)人員具備一定的業(yè)務(wù)邏輯思維,了解數(shù)據(jù)勾稽關(guān)系,有明確的審計(jì)規(guī)則,用數(shù)據(jù)去驗(yàn)證先驗(yàn)知識(shí),審計(jì)結(jié)果具有可預(yù)期性。這些基于審計(jì)人員經(jīng)驗(yàn)的審計(jì)數(shù)據(jù)方法可以發(fā)現(xiàn)問(wèn)題,卻也存在一定的缺陷。首先,利用這些方法來(lái)發(fā)現(xiàn)問(wèn)題是基于審計(jì)人員的經(jīng)驗(yàn)及現(xiàn)有知識(shí),一旦審計(jì)人員缺乏相關(guān)認(rèn)識(shí),就難以發(fā)現(xiàn)相應(yīng)問(wèn)題。其次,每個(gè)審計(jì)人員專(zhuān)業(yè)水平存在不一致性,經(jīng)驗(yàn)存在主觀性,對(duì)同一問(wèn)題的判斷也可能不一致。最后,審計(jì)經(jīng)驗(yàn)的累積相對(duì)于數(shù)據(jù)發(fā)展往往較為滯后,導(dǎo)致問(wèn)題的發(fā)現(xiàn)不能滿(mǎn)足及時(shí)性需求,而這種不同步性也在一定程度上加大了審計(jì)風(fēng)險(xiǎn)。

三、基于K-Means聚類(lèi)的孤立點(diǎn)分析方法

基于K-Means聚類(lèi)的孤立點(diǎn)分析方法在模型應(yīng)用前不需要利用訓(xùn)練集進(jìn)行訓(xùn)練,是自主式學(xué)習(xí),不以經(jīng)驗(yàn)知識(shí)為基礎(chǔ),一定程度上彌補(bǔ)了常用審計(jì)疑點(diǎn)發(fā)現(xiàn)方法的缺陷。

(一)算法原理分析

K-Means聚類(lèi)的主要原理是將n項(xiàng)數(shù)據(jù)對(duì)象分到k個(gè)分區(qū)中,而k需要預(yù)先確定,每個(gè)分區(qū)都視為一個(gè)聚類(lèi)。首先,從n項(xiàng)數(shù)據(jù)對(duì)象中隨機(jī)選擇k項(xiàng)數(shù)據(jù)點(diǎn)作為初始聚類(lèi)中心點(diǎn),根據(jù)剩余對(duì)象與初始聚類(lèi)中心點(diǎn)之間的相似度,按就近原則將各數(shù)據(jù)項(xiàng)分配給最近距離分區(qū);然后重新計(jì)算各聚類(lèi)中心點(diǎn),并通過(guò)迭代方法持續(xù)修改直至所有聚類(lèi)保持不變,形成最終聚類(lèi)結(jié)果。

定義1:中位數(shù)m。假設(shè)一維空間中的n項(xiàng)數(shù)據(jù)按從小到大的順序排列為m1,m2,m3,…,mn,如果n是偶數(shù),則這n項(xiàng)數(shù)據(jù)中位數(shù)m=mn/2;反之,如果n是奇數(shù),則m=[mn/2]+1,其中[ ]表示取整運(yùn)算,如[1.2]=1。

定義2:孤立點(diǎn)判斷標(biāo)準(zhǔn)。設(shè)數(shù)據(jù)集X經(jīng)聚類(lèi)后被劃分為k個(gè)不相交的數(shù)據(jù)集V1,V2,V3,…,Vk,則V1,V2,V3,…,Vk分別是這k個(gè)數(shù)據(jù)集的樣本數(shù),其中假定樣本數(shù)滿(mǎn)足V1

(二)算法描述

從上述原理可知,孤立點(diǎn)集即分類(lèi)之后具有較少樣本的聚類(lèi),其中閾值參數(shù)需預(yù)先確定,并且不同閾值參數(shù)對(duì)探測(cè)到的孤立點(diǎn)數(shù)量有影響。基于K-Means聚類(lèi)的孤立點(diǎn)分析算法描述如下:

輸入給定的數(shù)據(jù)集X,判斷是否是孤立的閾值參數(shù)?漬;

輸出孤立點(diǎn)樣本G;

步驟1:初始化聚類(lèi)個(gè)數(shù)和初始聚類(lèi)中心;

步驟2:按照K-Means算法聚類(lèi),得到k個(gè)聚類(lèi)V1,V2,V3,…,Vk;

步驟3:分別計(jì)算k個(gè)聚類(lèi)的樣本數(shù),即V1,V2,V3,…,Vk,并根據(jù)從小到大的順序?qū)颖緮?shù)進(jìn)行排序,得到V'1,V'2,V'3,…,V'k,其中V'1,V'2,V'3,…,V'k是經(jīng)重新排序的聚類(lèi);

步驟4:計(jì)算中位數(shù)m;

步驟5:按照下列方式計(jì)算臨界參數(shù)b:

For i=1 to m

If m/V'i≥?漬 then

i=i+1

else

b=i

end if

end;

步驟6:輸出孤立點(diǎn)集合V'1,V'2,V'3,…,V'b。

(三)孤立點(diǎn)分析的應(yīng)用

孤立點(diǎn)分析在許多領(lǐng)域都受到了重視,例如信用卡與電信欺詐檢測(cè)、貸款審批、天氣及地震預(yù)測(cè)、客戶(hù)分類(lèi)等。其中,對(duì)信用卡與電信欺詐檢測(cè)時(shí),將每個(gè)客戶(hù)用卡歷史數(shù)據(jù)運(yùn)用欺詐模型進(jìn)行分析,當(dāng)發(fā)現(xiàn)客戶(hù)近期交易行為與歷史記錄不一致時(shí),則認(rèn)為可能存在欺詐,若經(jīng)相關(guān)人員及時(shí)證實(shí)其具有欺詐性,則可一定程度上避免損失。

在許多數(shù)據(jù)挖掘技術(shù)中,孤立點(diǎn)被認(rèn)為是影響數(shù)據(jù)挖掘技術(shù)效果的“噪聲”數(shù)據(jù),并且是在早期數(shù)據(jù)預(yù)處理過(guò)程中應(yīng)該被剔除的數(shù)據(jù)。但是,對(duì)于審計(jì)工作來(lái)說(shuō),孤立點(diǎn)數(shù)據(jù)則是關(guān)鍵部分,審計(jì)實(shí)施過(guò)程中發(fā)現(xiàn)的孤立點(diǎn)能夠?yàn)閷徲?jì)人員發(fā)現(xiàn)審計(jì)線(xiàn)索提供有利幫助。審計(jì)工作實(shí)踐證明,在審計(jì)分析過(guò)程中,可疑數(shù)據(jù)往往是“孤立點(diǎn)”,這些數(shù)據(jù)通常隱藏在大量正常數(shù)據(jù)中,因而使用有效的孤立點(diǎn)發(fā)現(xiàn)技術(shù)來(lái)檢測(cè)和發(fā)現(xiàn)這些數(shù)據(jù)可以為詳細(xì)審計(jì)創(chuàng)造條件,進(jìn)一步提高審計(jì)效率。

基于K-Means聚類(lèi)的孤立點(diǎn)檢測(cè)算法的優(yōu)點(diǎn)是時(shí)間和空間的復(fù)雜度是線(xiàn)性或接近線(xiàn)性的,適用于大規(guī)模數(shù)據(jù)集分析,所以利用這種算法進(jìn)行孤立點(diǎn)挖掘是高度有效的。因此,本文將基于K-Means的孤立點(diǎn)分析方法應(yīng)用于審計(jì)疑點(diǎn)發(fā)現(xiàn),為探索新的審計(jì)疑點(diǎn)發(fā)現(xiàn)方法做出嘗試。

四、基于孤立點(diǎn)分析的審計(jì)疑點(diǎn)發(fā)現(xiàn)模型

基于K-Means聚類(lèi)的孤立點(diǎn)分析方法有利于審計(jì)疑點(diǎn)發(fā)現(xiàn)以及審計(jì)線(xiàn)索挖掘,鑒于此,本文提出了一種基于孤立點(diǎn)分析的審計(jì)疑點(diǎn)發(fā)現(xiàn)模型(如圖1所示)。

(一)數(shù)據(jù)采集與預(yù)處理

根據(jù)審計(jì)目標(biāo)和內(nèi)容,審計(jì)人員利用SQL語(yǔ)句編程、ETL技術(shù)、MapReduce編程等方法從被審計(jì)單位處獲得需要的原始審計(jì)數(shù)據(jù)。

在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理之前,審計(jì)人員應(yīng)首先分析具體的審計(jì)項(xiàng)目,綜合數(shù)據(jù)字典和數(shù)據(jù)庫(kù)描述文檔分析數(shù)據(jù)的含義以及業(yè)務(wù)流程等,查找與實(shí)現(xiàn)審計(jì)目標(biāo)相關(guān)的數(shù)據(jù)表和字段。換句話(huà)說(shuō),審計(jì)人員需要找到恰當(dāng)?shù)臄?shù)據(jù)屬性或數(shù)據(jù)屬性組合進(jìn)行孤立點(diǎn)挖掘。然后利用數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等技術(shù)對(duì)審計(jì)數(shù)據(jù)進(jìn)行處理,減少數(shù)據(jù)的不一致、冗余、異常等問(wèn)題,將數(shù)據(jù)轉(zhuǎn)換為易于分析的形式,以保證數(shù)據(jù)分析的高效性。

(二)孤立點(diǎn)檢測(cè)

對(duì)于處理好的數(shù)據(jù)集,通過(guò)孤立點(diǎn)分析模型區(qū)分正常數(shù)據(jù)與異常數(shù)據(jù),并利用可視化技術(shù)展示檢測(cè)結(jié)果,有助于審計(jì)人員快速鎖定異常數(shù)據(jù)。

(三)孤立點(diǎn)分析

在此步驟中,審計(jì)人員需要分析所有孤立點(diǎn)以確定它們是否是可疑數(shù)據(jù),雖然發(fā)現(xiàn)的孤立點(diǎn)是挖掘的目標(biāo),但對(duì)于審計(jì)目標(biāo)來(lái)說(shuō),它們不一定都具備利用價(jià)值。比如,有些孤立點(diǎn)雖然異常但卻合理;而有些孤立點(diǎn)雖然異常,但其造成的影響很小,達(dá)不到重要性水平等。這些都需要審計(jì)工作人員根據(jù)審計(jì)目標(biāo)對(duì)孤立點(diǎn)進(jìn)行專(zhuān)業(yè)性判斷,最后利用相關(guān)審計(jì)疑點(diǎn)確認(rèn)方法發(fā)現(xiàn)審計(jì)線(xiàn)索。可疑數(shù)據(jù)的專(zhuān)業(yè)判斷可以使用的常規(guī)技術(shù)有函證法、復(fù)算法、審閱法、盤(pán)存法和鑒定法等。

五、基于孤立點(diǎn)分析的審計(jì)疑點(diǎn)發(fā)現(xiàn)模型的Python應(yīng)用實(shí)現(xiàn)

本文嘗試?yán)肶上市公司實(shí)際業(yè)務(wù)數(shù)據(jù),驗(yàn)證基于K-Means聚類(lèi)的孤立點(diǎn)分析方法在審計(jì)疑點(diǎn)發(fā)現(xiàn)中的應(yīng)用效果,同時(shí)利用Python語(yǔ)言,選擇盡可能簡(jiǎn)單靈活的方式,以方便該方法的實(shí)際應(yīng)用和推廣。

(一)Python語(yǔ)言?xún)?yōu)勢(shì)

本文利用Python語(yǔ)言進(jìn)行孤立點(diǎn)分析,其語(yǔ)法簡(jiǎn)潔功能強(qiáng)大,應(yīng)用廣泛,數(shù)據(jù)分析庫(kù)較為全面,同時(shí)可實(shí)現(xiàn)跨平臺(tái)操作,能高效實(shí)現(xiàn)數(shù)據(jù)可視化。

(二)案例背景

Y企業(yè),主營(yíng)電子相關(guān)商品銷(xiāo)售業(yè)務(wù),有多家銷(xiāo)售門(mén)店。在對(duì)Y企業(yè)進(jìn)行年度審計(jì)時(shí),審計(jì)人員對(duì)資產(chǎn)負(fù)債表日前后銷(xiāo)售業(yè)務(wù)進(jìn)行截止性測(cè)試,測(cè)試過(guò)程中發(fā)現(xiàn)該企業(yè)12月20日的一筆銷(xiāo)售記錄沒(méi)有與之對(duì)應(yīng)的銷(xiāo)售合同,且缺乏財(cái)務(wù)負(fù)責(zé)人簽字。通過(guò)查看其他相關(guān)記錄發(fā)現(xiàn),12月20日的發(fā)貨記錄顯示有1 000余件商品離庫(kù)發(fā)出至購(gòu)貨方,通過(guò)對(duì)比被審計(jì)單位該期間貨車(chē)出入記錄,審計(jì)人員發(fā)現(xiàn)這筆發(fā)貨記錄與貨車(chē)出入記錄不符。經(jīng)進(jìn)一步調(diào)查發(fā)現(xiàn),該企業(yè)上一年度被列為ST上市公司,為保住上市資格,將該批商品存放至臨時(shí)租用庫(kù)房,并虛構(gòu)銷(xiāo)售收入。

為了發(fā)現(xiàn)這一審計(jì)疑點(diǎn),審計(jì)人員通常需要了解被審計(jì)單位可能出現(xiàn)提前或延后確認(rèn)銷(xiāo)售收入以調(diào)整資產(chǎn)負(fù)債表日前后收益的情況,甚至?xí)x擇虛構(gòu)銷(xiāo)售收入。在具備這個(gè)先驗(yàn)知識(shí)基礎(chǔ)上,審計(jì)人員需要對(duì)被審計(jì)單位進(jìn)行針對(duì)性測(cè)試,進(jìn)而發(fā)現(xiàn)審計(jì)疑點(diǎn)。但是,對(duì)于被審計(jì)單位的許多其他業(yè)務(wù),審計(jì)人員往往不太了解情況,缺乏相關(guān)的規(guī)律性經(jīng)驗(yàn)。這種情況下,審計(jì)人員根據(jù)抽樣需求,從海量數(shù)據(jù)中抽取一定數(shù)量的樣本進(jìn)行分析,耗時(shí)耗力,而且可能獲取不到有價(jià)值的審計(jì)疑點(diǎn)。本文試圖使用基于K-means聚類(lèi)的孤立點(diǎn)分析方法對(duì)Y企業(yè)銷(xiāo)售業(yè)務(wù)數(shù)據(jù)進(jìn)行挖掘分析,以驗(yàn)證該方法挖掘?qū)徲?jì)疑點(diǎn)的有效性。

(三)數(shù)據(jù)預(yù)處理

一是利用SQL語(yǔ)句從被審計(jì)單位管理信息系統(tǒng)數(shù)據(jù)庫(kù)中獲取幾個(gè)典型門(mén)店2018年1月1日到2018年12月31日的銷(xiāo)售財(cái)務(wù)記錄,并提取門(mén)店編號(hào)、日期、單據(jù)號(hào)、商品編號(hào)、數(shù)量、金額等字段數(shù)據(jù)作為分析樣本數(shù)據(jù)。二是利用Pandas工具包將數(shù)據(jù)以object形式導(dǎo)入(如圖2所示),以防止部分?jǐn)?shù)據(jù)因類(lèi)型問(wèn)題存在無(wú)法導(dǎo)入的情況,利用dtypes屬性查看導(dǎo)入數(shù)據(jù)類(lèi)型,如圖3所示,除日期外的所有字段類(lèi)型均為object。三是將數(shù)量、金額等字段數(shù)據(jù)類(lèi)型利用astype()函數(shù)轉(zhuǎn)換為float形式(如圖4所示),方便后續(xù)分析。四是利用count()函數(shù)查看數(shù)據(jù)匯總情況,判斷是數(shù)據(jù)是否存在缺失值等情況,樣本數(shù)據(jù)匯總情況如圖5所示,各字段的數(shù)據(jù)量相同,說(shuō)明不存在缺失值情況。五是進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理(如圖6所示)。

(四)孤立點(diǎn)挖掘及分析

由于該孤立點(diǎn)分析方法幾乎不基于任何先驗(yàn)知識(shí),筆者嘗試將標(biāo)準(zhǔn)化后的數(shù)據(jù)聚類(lèi)類(lèi)別分別設(shè)置為2、3、4、5、6、7,觀察其聚類(lèi)及孤立點(diǎn)分析結(jié)果(代碼如圖7所示),并借助matplotlib工具包中的plot函數(shù)以散點(diǎn)圖的形式顯示孤立點(diǎn)分析結(jié)果(如圖8所示),有利于審計(jì)人員更直觀地觀察到孤立數(shù)據(jù)。

經(jīng)對(duì)比發(fā)現(xiàn),將數(shù)據(jù)聚為5類(lèi)時(shí),其聚類(lèi)及孤立點(diǎn)檢測(cè)結(jié)果較為合理,因此,筆者分析了聚類(lèi)類(lèi)別為5的孤立點(diǎn)分析結(jié)果。圖9顯示了數(shù)據(jù)聚類(lèi)為5的孤立點(diǎn)分析散點(diǎn)圖效果。

圖9散點(diǎn)位置代表著對(duì)應(yīng)序列號(hào)數(shù)據(jù)與中心點(diǎn)之間的距離。其中,黑點(diǎn)屬于正常范圍之類(lèi),即距離小于預(yù)定的閾值,而帶標(biāo)注灰點(diǎn)的距離則大于預(yù)設(shè)閾值,將其視為孤立點(diǎn)。因此,分析結(jié)果為第239、3 176、4 264及7 889條記錄可能存在異常。其中,第7 889條記錄經(jīng)進(jìn)一步查驗(yàn),其對(duì)應(yīng)的日期是12月20日,門(mén)店編號(hào)是1010003,商品編號(hào)為A012920030000,確認(rèn)為案例背景中被發(fā)現(xiàn)的疑點(diǎn)記錄。此外,第239條經(jīng)查驗(yàn)是1010002號(hào)門(mén)店在2月26日發(fā)生的一筆編碼為A011846660000的商品銷(xiāo)售退回記錄,金額較大,且與一般銷(xiāo)售退回業(yè)務(wù)存在差異,考慮被審計(jì)單位是否在上一個(gè)會(huì)計(jì)年度也虛構(gòu)了銷(xiāo)售收入,然后這一年按銷(xiāo)售退回進(jìn)行處理,并沖銷(xiāo)對(duì)應(yīng)的主營(yíng)營(yíng)業(yè)收入與應(yīng)收賬款等,若能結(jié)合上一年的銷(xiāo)售業(yè)財(cái)數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)這一事實(shí),也應(yīng)將其作為審計(jì)疑點(diǎn)。第3 176與第4 264條記錄分別是1010002號(hào)門(mén)店在10月3日與12月10日發(fā)生的金額較大的銷(xiāo)售記錄,其中10月3日該企業(yè)為慶祝公司周年慶及國(guó)慶,做了促銷(xiāo)活動(dòng),刺激了銷(xiāo)量,該記錄屬于正常數(shù)據(jù)。第4 264條記錄屬于年末大額銷(xiāo)售,應(yīng)予以一定關(guān)注。

需要注意的是,利用該方法分析出的異常數(shù)據(jù)未必都是問(wèn)題數(shù)據(jù),需要審計(jì)人員進(jìn)一步分析排查,以確定審計(jì)疑點(diǎn)。利用該算法分析出的結(jié)果僅作為一種參考或思路,可以將其理解為被挖掘出的孤立數(shù)據(jù)大概率是問(wèn)題數(shù)據(jù),有助于審計(jì)人員縮小審計(jì)疑點(diǎn)排查范圍。

六、結(jié)語(yǔ)

本文分析了常用審計(jì)疑點(diǎn)發(fā)現(xiàn)方法及其存在的缺陷,提出了一種K-Means聚類(lèi)孤立點(diǎn)分析的審計(jì)疑點(diǎn)發(fā)現(xiàn)方法。以Y上市公司實(shí)際銷(xiāo)售數(shù)據(jù)為樣本,利用Python語(yǔ)言驗(yàn)證了K-Means聚類(lèi)孤立點(diǎn)分析方法發(fā)現(xiàn)審計(jì)疑點(diǎn)的可行性和有效性,為審計(jì)人員提供了一種有效的數(shù)據(jù)分析方法。與常用審計(jì)疑點(diǎn)發(fā)現(xiàn)方法相比,該方法具有以下優(yōu)點(diǎn):

(一)更好地體現(xiàn)了審計(jì)人員專(zhuān)業(yè)性水平

與常用的審計(jì)疑點(diǎn)發(fā)現(xiàn)方法相比,該方法在發(fā)現(xiàn)疑點(diǎn)時(shí)不需要審計(jì)人員具備行業(yè)知識(shí)基礎(chǔ),不用依賴(lài)審計(jì)經(jīng)驗(yàn)及業(yè)務(wù)知識(shí)等建立的審計(jì)分析模型進(jìn)行數(shù)據(jù)分析。而對(duì)于異常情況的進(jìn)一步分析則需要審計(jì)人員具備相當(dāng)豐富的業(yè)務(wù)知識(shí)和審計(jì)經(jīng)驗(yàn),有助于提高審計(jì)人員的專(zhuān)業(yè)水平,提升行業(yè)人才競(jìng)爭(zhēng)力。

(二)通用性較強(qiáng)

孤立點(diǎn)分析方法不需要利用訓(xùn)練集進(jìn)行模型訓(xùn)練,在使用時(shí)只需要根據(jù)數(shù)據(jù)特征選擇合適的檢測(cè)算法,就能適用于不同的審計(jì)業(yè)務(wù)中,并高效檢測(cè)出被審計(jì)數(shù)據(jù)中的孤立點(diǎn)。

(三)提高了審計(jì)效率

該方法首先利用孤立點(diǎn)檢測(cè)算法對(duì)數(shù)據(jù)集進(jìn)行初步檢測(cè),然后審計(jì)人員對(duì)檢測(cè)出的孤立點(diǎn)數(shù)據(jù)進(jìn)行分析判斷,確定可疑孤立點(diǎn),最后針對(duì)可疑孤立點(diǎn)進(jìn)行專(zhuān)業(yè)判斷,這種方法很大程度上縮小了審查數(shù)據(jù)量,從而提高了審計(jì)效率。

本文提出的方法為審計(jì)人員提供了疑點(diǎn)發(fā)現(xiàn)及數(shù)據(jù)分析的新思路,接下來(lái)需要不斷完善這個(gè)方法,將其與其他數(shù)據(jù)挖掘算法結(jié)合,使其能更有效地應(yīng)用到實(shí)際審計(jì)工作中。

【參考文獻(xiàn)】

[1] 秦榮生.大數(shù)據(jù)、云計(jì)算技術(shù)對(duì)審計(jì)的影響研究[J].審計(jì)研究,2014(6):23-28.

[2] 楊松.基于關(guān)聯(lián)規(guī)則和孤立點(diǎn)算法的審計(jì)證據(jù)獲取研究[J].工業(yè)控制計(jì)算機(jī),2017(2):98-99.

[3] 劉巍.基于聚類(lèi)的孤立點(diǎn)發(fā)現(xiàn)技術(shù)研究及其在審計(jì)中的應(yīng)用[D].青島:中國(guó)海洋大學(xué)碩士學(xué)位論文,2010.

[4] 宋迪.大數(shù)據(jù)環(huán)境下基于孤立點(diǎn)分析的審計(jì)抽樣方法[J].財(cái)務(wù)與會(huì)計(jì),2015(14):71-73.

[5] 程平,崔納牟倩.大數(shù)據(jù)時(shí)代基于財(cái)務(wù)共享服務(wù)模式的內(nèi)部審計(jì)[J].會(huì)計(jì)之友,2016(16):122-125.

[6] 楊蘊(yùn)毅,孫中和,盧靖.基于迭代式聚類(lèi)的審計(jì)疑點(diǎn)發(fā)現(xiàn)——以上市公司財(cái)報(bào)數(shù)據(jù)為例[J].審計(jì)研究,2015(4):60-66.

[7] 譚艷娜.面向?qū)徲?jì)領(lǐng)域的聚類(lèi)離群點(diǎn)檢測(cè)研究[D].哈爾濱:哈爾濱工程大學(xué)碩士學(xué)位論文,2011.

[8] 陳國(guó)珍,趙婧.信息化環(huán)境下內(nèi)部審計(jì)技術(shù)方法研究[J].會(huì)計(jì)之友,2013(22):98-100.

猜你喜歡
Python語(yǔ)言
關(guān)于面向非計(jì)算機(jī)專(zhuān)業(yè)開(kāi)設(shè)Python語(yǔ)言的幾點(diǎn)思考
計(jì)算思維培養(yǎng)視域下《Python程序設(shè)計(jì)》課程的教學(xué)改革實(shí)踐
在高中信息技術(shù)課中培養(yǎng)學(xué)生計(jì)算思維的有效方法探討
基于KNN算法的手寫(xiě)數(shù)字識(shí)別
Python語(yǔ)言教學(xué)中問(wèn)題解決能力和創(chuàng)新能力的培養(yǎng)實(shí)踐
Python語(yǔ)言程序設(shè)計(jì)教學(xué)體系建設(shè)
面向計(jì)算生態(tài)的Python語(yǔ)言入門(mén)課程教學(xué)方案
基于Python語(yǔ)言和支持向量機(jī)的字符驗(yàn)證碼識(shí)別
論P(yáng)ython程序設(shè)計(jì)語(yǔ)言
基于Python語(yǔ)言的面向?qū)ο笳n程實(shí)踐教學(xué)探討
察隅县| 绵竹市| 亚东县| 福贡县| 崇州市| 纳雍县| 星子县| 安宁市| 寻乌县| 千阳县| 永吉县| 齐河县| 广州市| 江华| 龙海市| 衡阳县| 剑川县| 黄龙县| 宝鸡市| 白水县| 麻栗坡县| 越西县| 苍山县| 承德市| 萨嘎县| 绵竹市| 济南市| 馆陶县| 麻江县| 泗阳县| 土默特右旗| 新宾| 桓台县| 贵州省| 泰顺县| 田东县| 洛南县| 台南县| 崇信县| 庆阳市| 贵定县|