聚類分析在內(nèi)部審計中的應用研究

2019-02-16 11:38杜潔李芹潘媛李玲璠孫銀博何加攀

中國管理信息化 2019年1期

杜潔李芹潘媛李玲璠孫銀博何加攀

[摘要] 聚類分析的目的是將收集到的數(shù)據(jù)按照某一特征進行分類，形成相似元素的集合。在內(nèi)部審計中的應用是通過收集各個業(yè)務領域的數(shù)據(jù)，運用聚類分析，發(fā)現(xiàn)同類數(shù)據(jù)間的差距，根據(jù)差異分析出疑點數(shù)據(jù)，從而提出審計意見，解決了傳統(tǒng)審計管理效率低、實施難等問題。實驗結果表明，通過該算法能夠快速高效地發(fā)現(xiàn)各業(yè)務領域的疑點數(shù)據(jù)，為審計工作提供了依據(jù)和新的方式，提高了工作效率和收益。

[關鍵詞] 聚類分析；k-means算法；疑點數(shù)據(jù)；內(nèi)部審計

doi ： 10 . 3969 / j . issn . 1673 - 0194 . 2019. 01. 001

[中圖分類號] F239.45 [文獻標識碼] A [文章編號] 1673 - 0194（2019）01- 0004- 03

0 引言

聚類分析應用于醫(yī)學、市場分析、信息安全、金融等多個領域。目前，在內(nèi)部審計中的應用主要是在企業(yè)和同業(yè)間的差距分析，很少針對業(yè)務數(shù)據(jù)存在的問題進行分析，傳統(tǒng)的內(nèi)部審計限于單一的看賬、查賬，難以發(fā)現(xiàn)數(shù)據(jù)底層的潛在問題，為了讓內(nèi)部審計有一個質(zhì)的提升，采用聚類對業(yè)務數(shù)據(jù)進行分析與挖掘去發(fā)現(xiàn)深層次的問題，所以面對不同的業(yè)務數(shù)據(jù)采用不同的分析手段成為當前研究的熱點與難題，但很少在內(nèi)部審計方面應用。本文針對內(nèi)部審計的業(yè)務數(shù)據(jù)采用k-means聚類方法對業(yè)務數(shù)據(jù)進行分析，并取得了不錯的結果，填補了對內(nèi)部審計業(yè)務數(shù)據(jù)分析的空白。

1 聚類分析的原理及分類

1.1 聚類分析的原理

聚類分析的基本原理是，根據(jù)對象自身屬性，運用統(tǒng)計方法根據(jù)某種差異性和相似性，得到對象間的相似性關系，按照相似性關系對對象進行分組聚類，可能提供多個分析結果解，需要根據(jù)實際情況提供主觀判斷和后續(xù)的分析。

1.2 聚類分析的分類

目前聚類方式有三類：一是系統(tǒng)聚類，用于對小樣本的對象間聚類以及對變量聚類。二是有序樣品聚類，對有排序次序的樣本的對象間聚類，要求是次序相鄰的對象才能聚為一類。三是動態(tài)聚類，適用于樣本量大時對象間的聚類，一般用k-means法處理。由于內(nèi)部審計一般依靠歷史數(shù)據(jù)，提出有價值的工作建議，所以由于涉及內(nèi)部審計的業(yè)務數(shù)據(jù)量較大，所以本文采用第三種聚類分析方式。

2 聚類方法k-means算法

2.1 k-means算法基本原理

k指的是將數(shù)據(jù)集分為簇的個數(shù)，means指的是簇內(nèi)對象的均值。如果簇內(nèi)的相似性越大，簇間的差別性越大，那么聚類效果就越好。相似度是根據(jù)聚類對象的平均值進行計算，其算法步驟如下：

（1）從數(shù)據(jù)集中任意選取k個點作為初始質(zhì)心，即每個簇的均值，其中，質(zhì)心的計算方法是：除去第一次質(zhì)心手動指定外，以后的質(zhì)心都是由計算均值獲得。

（2）根據(jù)數(shù)據(jù)點到質(zhì)心的距離將剩余的每個對象收歸到最近的質(zhì)心所在的簇中。

（3）根據(jù)分類結果重新計算每個簇（有變化）的質(zhì)心或平均值。重復進行（2）、（3）步驟，直到質(zhì)心不再改變，即準則算法函數(shù)收斂，采用平方誤差準則：

2.2 k-means過程示意圖

2.3 k-means算法優(yōu)缺點分析

k-means算法的時間復雜度為：O（nkt）。其中，k指聚類簇數(shù)，t指迭代次數(shù)，n指對象數(shù)，所以對于處理大數(shù)據(jù)集時，具有高效性，而且實現(xiàn)方式簡單、快速。通過實驗表明，k-means對于處理簇接近高斯分布時，效果更好。因為k-means需要事先指定k作為初始質(zhì)心，對k的選取會導致不同的分析結果，所以對于一些事先需要分類的數(shù)據(jù)分析效果不好，影響最終分析結果。對“噪聲”和孤立點數(shù)據(jù)較為敏感，容易對均值產(chǎn)生較大影響，且分析只能保證局部最優(yōu)，不能保證全局最優(yōu)。

3 內(nèi)部審計的應用

3.1 R語言實現(xiàn)k-means算法

由于內(nèi)部審計涉及的營銷、財務等多個業(yè)務，所以本文針對以紅河建水居民用電量為例子使用R語言實現(xiàn)k-means算法進行分析，來體現(xiàn)聚類算法在內(nèi)部審計中的應用。具體實現(xiàn)流程如下。

3.1.1 標準化處理

分析數(shù)據(jù)可能存在量綱不同的情況，如體重和身高，它們量綱不同，體重可能在40-60kg間，身高可能在140-170cm之間，那么就需要進行數(shù)據(jù)標準化處理。若直接用原數(shù)據(jù)分析，可能會加強數(shù)值較高的指標在分析結果的作用，削弱數(shù)值較低的指標在分析結果的作用。數(shù)據(jù)標準化公式：

3.1.2 輪廓系數(shù)

3.2 實驗結果

經(jīng)過k-means聚類分析得到疑點數(shù)據(jù)表（見表1）。

從疑點數(shù)據(jù)表中可知：在重度用電客戶簇中，有一個疑點用戶，在輕度用電客戶簇中有9個疑點用戶都可能存在偷電等情況的發(fā)生。經(jīng)過實際有關人員對這些用戶的調(diào)查，確實發(fā)現(xiàn)存在問題。實驗結果表明該算法能夠為內(nèi)部審計提供審計依據(jù)，提高了工作效率。

4 結論

聚類分析算法在內(nèi)部審計涉及數(shù)據(jù)分析與挖掘方面都可能用到，傳統(tǒng)的內(nèi)部審計的分析都是通過Excel、SQL等方式進行分析，對于復雜且數(shù)據(jù)量大的數(shù)據(jù)分析過程會變得相對復雜，而使用R語言實現(xiàn)的聚類分析能夠快速高效地得出分析結果。為審計人員提供了直接、高效的審計依據(jù)。本文主要是針對大工業(yè)用電的電費與電量進行分析，證明算法的簡單、高效與實用性強，但只考慮了接近高斯分布類型的數(shù)據(jù)，在實際應用中，會涉及不同的數(shù)據(jù)類型，有很多針對不同數(shù)據(jù)類型的改進算法，需要進一步研究。

主要參考文獻

[1]方匡南.基于數(shù)據(jù)挖掘的分類和聚類算法研究及R語言實現(xiàn)[D].廣州：暨南大學，2007.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

聚類分析在內(nèi)部審計中的應用研究