曾靜
摘 要:對于計算機的數(shù)據(jù)審計的質(zhì)量來說,一個重要的影響因素就是數(shù)據(jù)的質(zhì)量,數(shù)據(jù)質(zhì)量所產(chǎn)生的問題會直接的影響到整體分析的效率,這就會給審計工作帶來很大的障礙。本文主要是站在目前的總體社會發(fā)展狀況上,分析了計算機審計的一般流程,并指出審計數(shù)據(jù)的采集和采集以后數(shù)據(jù)的清洗、集成、轉(zhuǎn)換等等環(huán)節(jié)。通體對數(shù)據(jù)質(zhì)量產(chǎn)生問題的分類和分析,提出了具有針對性的提高數(shù)據(jù)審計質(zhì)量的一些處理方法以及實現(xiàn)的相關技術,希望能夠?qū)σ院蟮墓ぷ鲙韼椭?/p>
關鍵詞:數(shù)據(jù)質(zhì)量;計算機審計;數(shù)據(jù)清洗
引言:隨著計算機技術的不斷更新和發(fā)展,涉及各個領域的計算機信息系統(tǒng)也逐漸的走進我們的生活和工作之中。而我們所說的面對數(shù)據(jù)的計算機審計簡單的說就是對信息系統(tǒng)中輸入、處理和輸出這幾個方面的電子數(shù)據(jù)進行相關的審計工作,也可以說是計算機數(shù)據(jù)的審計。計算機數(shù)據(jù)審計是目前審計工作中的一個重要的環(huán)節(jié),也是在信息化大環(huán)境中審計部門的一項工作內(nèi)容。全面且質(zhì)量高的數(shù)據(jù)能夠讓審計工作變得更加的精準和高效,但是在目前的實際工作中仍然存在一些造假等方面的不當之處,下面進行具體的分析。
一、計算機數(shù)據(jù)的審計流程
在計算機數(shù)據(jù)的審計流程中,主要分為審前調(diào)查、數(shù)據(jù)采集、數(shù)據(jù)清洗、集成和轉(zhuǎn)換、建立審計數(shù)據(jù)庫、建模分析這幾個主演的環(huán)節(jié)。審前調(diào)查主要是指通過對被審單位的組織結構進行了解并掌握該單位的信息系統(tǒng)分布和使用總體情況,從而為進一步的調(diào)查提供有力的依據(jù)。而審計數(shù)據(jù)的采集主要是指在進行審計調(diào)查之前提出相應的數(shù)據(jù)需求,在數(shù)據(jù)采集的對象和方法上得到明確,這樣能夠避免不必要的投入。數(shù)據(jù)的清洗、集成和轉(zhuǎn)換主要就是指被審單位的信息系統(tǒng)可能存在一定的隱瞞成分,所以這時候?qū)π畔⒌暮Y選和過濾是為最終的結果質(zhì)量打下堅實的基礎。
另外就是建立數(shù)據(jù)庫,數(shù)據(jù)庫主要是將采集到的數(shù)據(jù)經(jīng)過清洗、集成和轉(zhuǎn)換之后,利用一定的裝載公路將這些數(shù)據(jù)有組織的存儲到審計庫當中。最后,我們要做的就是進行建模分析,建模分析就是對存儲的數(shù)據(jù)庫進行集成、完整、一致的處理,這一環(huán)節(jié)是整個審計工作的重點,建立起相應的的分析模型能夠從不同的角度和層次對這個數(shù)據(jù)進行分析,從而找到真正的審計線索,達到數(shù)據(jù)審計的最終目的。
二、計算機審計數(shù)據(jù)質(zhì)量的問題分析
隨著科學技術的不斷發(fā)展,數(shù)據(jù)的采集在渠道和技術上都變得越來越廣泛,審計數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量往往是由進入數(shù)據(jù)庫的原始數(shù)據(jù)所決定的,而在原始數(shù)據(jù)中,一般有兩種問題會破壞數(shù)據(jù)的質(zhì)量,分別是單個數(shù)據(jù)源問題和多個數(shù)據(jù)源問題,下面進行具體的分析:
(一)單數(shù)據(jù)源中的問題分析
但數(shù)據(jù)源中的數(shù)據(jù)質(zhì)量問題是出現(xiàn)在單個數(shù)據(jù)集合中的,首先數(shù)據(jù)的缺失是一個極為重要的問題,對信息輸入的不正確、錯誤的操作等都會導致數(shù)據(jù)的缺失。其次,數(shù)據(jù)的異常和重復,數(shù)據(jù)的異常主要是指數(shù)據(jù)存在孤立點,這就使得這些數(shù)據(jù)不能符合數(shù)據(jù)的一般模型,而數(shù)據(jù)的重復則是指數(shù)據(jù)中存在多條一樣的記錄,但在實際中卻是一個實際體,這樣的數(shù)據(jù)就缺少了其本身的價值和意義。最后,就是數(shù)據(jù)的失誤,數(shù)據(jù)的失誤是指事物的內(nèi)在屬性同實體間的屬性之間的關聯(lián)不一致??偟膩碚f,這些單個數(shù)據(jù)源的問題會導致審計數(shù)據(jù)出現(xiàn)嚴重的質(zhì)量問題。
(二)多個數(shù)據(jù)源集成時的數(shù)據(jù)質(zhì)量問題
在多個數(shù)據(jù)源集成的數(shù)據(jù)質(zhì)量問題中,首先我們要說的就是數(shù)據(jù)模式的沖突,其主要是破壞數(shù)據(jù)模式相關的不一致,主要是命名沖突和結構沖突,也就是屬名和實體之間存在不符合的現(xiàn)象。其次,就是數(shù)據(jù)語義上產(chǎn)生的沖突,其主要的原因就是語義和實際相關之間存在不符的現(xiàn)象,原因可能是因為設計者對客觀趙姨阿里的闡述采用了不同的描述方法。最后,導致多源數(shù)據(jù)沖突的原因就是數(shù)據(jù)的重復沖突,也就是很有可能在同一個數(shù)據(jù)的不同數(shù)據(jù)源里會出現(xiàn)簡單的重復現(xiàn)象,也有可能是重復的數(shù)據(jù)治療存在一定的矛盾。
三、提高數(shù)據(jù)質(zhì)量的一般處理方法
想要全面有效的解決計算機數(shù)據(jù)審計中的問題,那么保證審計結論的正確性就是一個重要的關鍵點。數(shù)據(jù)質(zhì)量問題會直接的影響到審計分析的準確性,直接降低審計工作的效率,所以就要給予充分的重視,來保證審計工作的有效開展。首先我們要對采集來的數(shù)據(jù)進行質(zhì)量檢查,在根據(jù)從中發(fā)現(xiàn)的問題進行分析,進而找到問題所在的根源,并進行具有針對性的問題分析,最終將所獲得數(shù)據(jù)的準確性展開分析。
下面我們來具體的介紹一下對數(shù)據(jù)清洗的步驟,首先我們要說的就是定義轉(zhuǎn)換流程和映射規(guī)則,其主要就是根據(jù)數(shù)據(jù)源的數(shù)目和數(shù)據(jù)間存在的異質(zhì)來對大量的數(shù)據(jù)進行變換和清洗工作。模式的變換有時會用來映射源和目標數(shù)據(jù)的模型。前期的數(shù)據(jù)清洗很有可能糾正單數(shù)據(jù)源數(shù)據(jù)中所存在的問題,并為之后的數(shù)據(jù)集成做相應的準備工作。而后期的數(shù)據(jù)清洗則是能夠處理模式集成數(shù)據(jù)和多源數(shù)據(jù)中存在的問題。
校驗,對數(shù)據(jù)的轉(zhuǎn)換流程和轉(zhuǎn)換定義的正確性進行有效的測試和評估,為了能夠有效的找到數(shù)據(jù)中可能存在的錯誤,那么反復的校驗和分析就必不可少,這樣能夠讓錯誤的數(shù)據(jù)變得更明顯,從而選出錯誤的數(shù)據(jù),來將整體數(shù)據(jù)進行清洗。接下來的就是轉(zhuǎn)換,將清洗過的數(shù)據(jù)進行回流,能夠?qū)?shù)據(jù)中有誤差的部分用正確的數(shù)據(jù)來代替,這樣對于數(shù)據(jù)整體的質(zhì)量也是一個十分有效的改觀。
四、數(shù)據(jù)清洗的基本技術
(一)空值的處理
對于一些包含大量空值的數(shù)據(jù)質(zhì)量問題來說,空值所占的比例是決定其是否應該被刪除的一個根據(jù),這些空值的數(shù)據(jù)往往不能為審計數(shù)據(jù)的模型提供有效的信息,甚至會影響建模者的視線,降低整體的數(shù)據(jù)分析效果。想要解決這一問題,最好的處理辦法就是將空值數(shù)列刪除,通過計算每行的空值數(shù)據(jù)比例刪除大比例的部分以保證整體數(shù)據(jù)的質(zhì)量。
(二)數(shù)據(jù)缺失的處理
對于缺失的數(shù)據(jù)來說,我們可以用四種方法來填補其中缺失的部分,包括使用一個固定的值來填充缺失值、使用屬性的平均值來填充缺失值、使用成數(shù)推導值來代替缺失值、使用最有可能的值來代替缺失值。這幾種方法都是有效的填補數(shù)據(jù)中有缺失部分的方法,其能夠?qū)⒄w的數(shù)據(jù)進行不斷的完善,從而改變其質(zhì)量上的不足。
(三)對數(shù)據(jù)異常的處理方法
所謂的異常數(shù)據(jù)指的就是遠離或者超出某個正常的的數(shù)據(jù)分布狀態(tài)的數(shù)據(jù),這些數(shù)據(jù)的共同特征就是其在數(shù)據(jù)中的孤立點的存在。對這些數(shù)據(jù)中的孤立點的處理首先要做的就是將這些孤立點找到,因為孤立點的存在是其數(shù)據(jù)質(zhì)量上的問題所導致,但也可能反映了事物背后某種異常的變化狀態(tài)。但是對孤立點本身的研究也是十分必要的,它往往可能蘊含著數(shù)據(jù)審計中的一些重要的線索,所以就要在找到孤立點以后再通過人工的核對來確定是否是真正的孤立點,如果是真的孤立點那么就可以將其視為干擾數(shù)據(jù)進行刪除。對于孤立點的檢測方式來說,要依據(jù)數(shù)據(jù)的多少來確定,如果數(shù)據(jù)的量不是很大,那么就可以通過人工檢測的方法來進行尋找,如果數(shù)據(jù)量很大那么就要借助于計算機的自動監(jiān)測系統(tǒng)進行檢測。
結論:總的來說,在面向數(shù)據(jù)的計算機審計中,數(shù)據(jù)的質(zhì)量是影響整體審計結果的一個重要的因素,所以想要提高整體的數(shù)據(jù)審計質(zhì)量,就要從數(shù)據(jù)源的質(zhì)量上來把握,準確的找到數(shù)據(jù)存在的問題,并借助相關的技術方法進行有針對性的數(shù)據(jù)清洗,以此來保證審計結果的合理性。
參考文獻:
[1]米天勝,張金城. 面向數(shù)據(jù)的計算機審計中數(shù)據(jù)質(zhì)量問題的探討[J]. 審計與經(jīng)濟研究,2006,01:40-43.
[2]李春青. 計算機審計中數(shù)據(jù)質(zhì)量評價指標體系初探[J]. 審計月刊,2006,04:12-13.
[3]劉紅明. 探討面向數(shù)據(jù)的計算機輔助審計[J]. 財經(jīng)界(學術版),2014,04:240.