楊熳
[摘要]非結(jié)構(gòu)化內(nèi)部審計(jì)數(shù)據(jù)有著異構(gòu)程度高、存儲(chǔ)分散、處理難等特點(diǎn),處理時(shí)應(yīng)圍繞審計(jì)目標(biāo),厘清數(shù)據(jù)的種類和處理方法,通過(guò)構(gòu)建非結(jié)構(gòu)化審計(jì)數(shù)據(jù)處理的邏輯框架,有針對(duì)性地運(yùn)用各種處理方法,達(dá)到提高審計(jì)質(zhì)效的目的。
[關(guān)鍵詞]非結(jié)構(gòu)化? ? 審計(jì)數(shù)據(jù)? ? 數(shù)據(jù)處理? ? 內(nèi)部審計(jì)
部審計(jì)工作日益依賴數(shù)據(jù)分析來(lái)提取有用的
審計(jì)信息并形成相關(guān)審計(jì)結(jié)論。目前,理論界就構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)進(jìn)行了大量研究。內(nèi)部審計(jì)人員作為非專業(yè)技術(shù)人員,面對(duì)非結(jié)構(gòu)化數(shù)據(jù),能夠做什么,做到什么程度,以及如何在繼續(xù)利用結(jié)構(gòu)化數(shù)據(jù)的同時(shí),加強(qiáng)非結(jié)構(gòu)化數(shù)據(jù)的管理,從而最大限度發(fā)揮數(shù)據(jù)分析在內(nèi)部審計(jì)中的作用,是一個(gè)值得關(guān)注和探索的課題。
一、內(nèi)部審計(jì)中非結(jié)構(gòu)化數(shù)據(jù)處理的必要性
非結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)不規(guī)則或不完整、未經(jīng)預(yù)定義、不能用數(shù)據(jù)庫(kù)二維邏輯來(lái)表現(xiàn)的數(shù)據(jù)。包括各種格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻、視頻等。在業(yè)務(wù)領(lǐng)域,紙質(zhì)資料不斷被電子信息存儲(chǔ)方式所取代。因此,內(nèi)部審計(jì)工作獲取的資料中,存在大量電子化的非結(jié)構(gòu)數(shù)據(jù)。這些數(shù)據(jù)主要包括以下三類:一是文本類,如被審計(jì)單位的人事任命、活動(dòng)通知、項(xiàng)目立項(xiàng)、資金支出等文件,各單位、各部門(mén)自主編制的非結(jié)構(gòu)化的統(tǒng)計(jì)、記錄、登記資料等。二是圖像類,如各類活動(dòng)的圖片資料、各種記錄資料的圖片格式等。三是視頻類,如涉及安全保衛(wèi)的影像資料,其他用于記錄的視頻材料等。
以文本、圖形、圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)形式提供的審計(jì)資料中往往蘊(yùn)藏著諸多有用的審計(jì)線索和審計(jì)證據(jù)。面對(duì)如此巨大的非結(jié)構(gòu)化審計(jì)數(shù)據(jù),如何存儲(chǔ)、查詢、分析、挖掘和利用這些海量信息資源就顯得尤為關(guān)鍵。一方面,是否對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,關(guān)系到審計(jì)內(nèi)容的全面性和完整性,直接影響內(nèi)部審計(jì)的質(zhì)量。另一方面,能否有效對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,關(guān)系到審計(jì)的效率和效果,直接影響到內(nèi)部審計(jì)的成效。有效的非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)能夠?qū)⒎墙Y(jié)構(gòu)化數(shù)據(jù)全面納入審計(jì)視野,加強(qiáng)數(shù)據(jù)挖掘的力度,確保內(nèi)部審計(jì)內(nèi)容的完整性,加大內(nèi)部審計(jì)力度。
二、非結(jié)構(gòu)化數(shù)據(jù)處理的難點(diǎn)與要點(diǎn)
對(duì)審計(jì)工作而言,非結(jié)構(gòu)化數(shù)據(jù)具有大量的價(jià)值信息,可用于發(fā)現(xiàn)審計(jì)線索、佐證審計(jì)發(fā)現(xiàn)。但非結(jié)構(gòu)化審計(jì)數(shù)據(jù)具有以下特點(diǎn):一是數(shù)據(jù)格式多樣,異構(gòu)程度高,內(nèi)部審計(jì)人員難以進(jìn)行統(tǒng)一處理;二是各類審計(jì)資料分散存儲(chǔ)在各種媒介或各個(gè)部門(mén),內(nèi)部審計(jì)人員進(jìn)行信息匯集較困難;三是審計(jì)資料的內(nèi)容無(wú)序可循,表達(dá)無(wú)規(guī)則。內(nèi)部審計(jì)人員在信息處理及有效信息篩選方面難度較大。這些特點(diǎn)也是非結(jié)構(gòu)化數(shù)據(jù)處理的難點(diǎn),處理的難點(diǎn)還來(lái)源于數(shù)據(jù)處理手段的欠缺以及審計(jì)人員數(shù)據(jù)處理基礎(chǔ)知識(shí)的匱乏等。
目前尚沒(méi)有成熟簡(jiǎn)便的非結(jié)構(gòu)化數(shù)據(jù)處理工具或方法。審計(jì)人員還不能像處理結(jié)構(gòu)化數(shù)據(jù)一樣,快捷地對(duì)審計(jì)資料進(jìn)行數(shù)據(jù)挖掘。一是傳統(tǒng)數(shù)據(jù)處理工具在應(yīng)對(duì)非結(jié)構(gòu)化數(shù)據(jù)方面力不從心。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)采用二維結(jié)構(gòu),主要面向傳統(tǒng)數(shù)據(jù)分析應(yīng)用領(lǐng)域,擅長(zhǎng)解決結(jié)構(gòu)化數(shù)據(jù)管理問(wèn)題,在管理非結(jié)構(gòu)化數(shù)據(jù)方面先天不足,尤其在處理海量非結(jié)構(gòu)化信息時(shí),更是面臨巨大挑戰(zhàn)。二是目前非結(jié)構(gòu)化數(shù)據(jù)處理的經(jīng)驗(yàn)積累不足,尚未出現(xiàn)技術(shù)研究與業(yè)務(wù)應(yīng)用相互促進(jìn)的良性互動(dòng)。非結(jié)構(gòu)化數(shù)據(jù)價(jià)值日益受到重視,如何對(duì)組織內(nèi)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理,已經(jīng)有一定的探索和實(shí)踐,但對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理,尤其是審計(jì)人員等非專業(yè)人士如何有效處理非結(jié)構(gòu)化數(shù)據(jù),經(jīng)驗(yàn)不足。三是非結(jié)構(gòu)化數(shù)據(jù)的處理與目前大多數(shù)審計(jì)人員的知識(shí)結(jié)構(gòu)不匹配。非結(jié)構(gòu)化數(shù)據(jù)由于其本身的數(shù)據(jù)結(jié)構(gòu),理解這類數(shù)據(jù)的處理方式要具備一定的數(shù)據(jù)處理基礎(chǔ)知識(shí)和能力。而目前審計(jì)人員對(duì)財(cái)務(wù)、法律法規(guī)應(yīng)用等方面比較精通,而對(duì)信息技術(shù)及其數(shù)據(jù)處理方式的了解不足;部分對(duì)信息技術(shù)、數(shù)據(jù)處理等領(lǐng)域有專門(mén)研究的內(nèi)部審計(jì)人員又缺乏對(duì)財(cái)務(wù)等業(yè)務(wù)知識(shí)的了解。另外,非結(jié)構(gòu)化數(shù)據(jù)與內(nèi)部審計(jì)目標(biāo)的連接也考驗(yàn)著審計(jì)人員對(duì)審計(jì)目標(biāo)、審計(jì)內(nèi)容和審計(jì)方法的把控能力,對(duì)審計(jì)人員的素質(zhì)提出了更高要求。
為有效應(yīng)對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理帶來(lái)的困難,內(nèi)部審計(jì)人員應(yīng)牢牢把握以下三點(diǎn):一是明確審計(jì)目標(biāo)與非結(jié)構(gòu)化數(shù)據(jù)之間的關(guān)系,有針對(duì)性地篩選非結(jié)構(gòu)化數(shù)據(jù)作為處理對(duì)象。二是根據(jù)審計(jì)對(duì)象的不同,厘清審計(jì)中涉及非結(jié)構(gòu)化數(shù)據(jù)的具體種類,為審計(jì)數(shù)據(jù)處理做好準(zhǔn)備,并根據(jù)實(shí)際情況,充分利用目前已經(jīng)存在的非結(jié)構(gòu)化數(shù)據(jù)處理方式。三是利用審計(jì)的廣闊平臺(tái),不斷探索非結(jié)構(gòu)化數(shù)據(jù)的種類、數(shù)據(jù)處理的有效方式,在實(shí)踐中積累經(jīng)驗(yàn)和方法。
三、非結(jié)構(gòu)化審計(jì)數(shù)據(jù)處理的邏輯框架
針對(duì)非結(jié)構(gòu)化審計(jì)數(shù)據(jù)量大、形式復(fù)雜的實(shí)際情況,為提高審計(jì)成效,避免誤入無(wú)目的、無(wú)方向的數(shù)據(jù)處理誤區(qū),應(yīng)建立非結(jié)構(gòu)化數(shù)據(jù)處理的整體框架。
從審計(jì)方案中的審計(jì)目標(biāo)著手,邏輯框架向上下兩個(gè)方向展開(kāi)(見(jiàn)圖1)。向上逐級(jí)展開(kāi),得到審計(jì)發(fā)現(xiàn)問(wèn)題和審計(jì)成效;向下逐層展開(kāi),確定所需的審計(jì)證據(jù)及審計(jì)數(shù)據(jù)。向上展開(kāi)顯示的是審計(jì)目標(biāo)實(shí)現(xiàn)的價(jià)值,向下展開(kāi)顯示的是審計(jì)目標(biāo)實(shí)現(xiàn)的過(guò)程,而審計(jì)目標(biāo)即審計(jì)過(guò)程中的操作指南,其實(shí)現(xiàn)與否也是審計(jì)質(zhì)量的衡量標(biāo)準(zhǔn)。
整個(gè)邏輯框架的中心點(diǎn)是審計(jì)目標(biāo)。審計(jì)目標(biāo)可以細(xì)分為各個(gè)子目標(biāo),是數(shù)據(jù)處理的出發(fā)點(diǎn),各子目標(biāo)的實(shí)現(xiàn)是審計(jì)成效得到彰顯的基礎(chǔ)??蚣艿闹匾獌?nèi)容是圍繞各個(gè)審計(jì)子目標(biāo)查找相應(yīng)的審計(jì)證據(jù),其過(guò)程是通過(guò)對(duì)各類審計(jì)數(shù)據(jù)的處理找到所需的審計(jì)證據(jù),從而實(shí)現(xiàn)審計(jì)目標(biāo)。非結(jié)構(gòu)化審計(jì)數(shù)據(jù)的處理是數(shù)據(jù)處理的有機(jī)組成部分,對(duì)實(shí)現(xiàn)審計(jì)目標(biāo)有著不可取代的作用。
非結(jié)構(gòu)化審計(jì)數(shù)據(jù)的處理包括數(shù)據(jù)采集、數(shù)據(jù)歸類及預(yù)處理、數(shù)據(jù)挖掘、信息融合等過(guò)程。數(shù)據(jù)的采集是整個(gè)數(shù)據(jù)處理過(guò)程的起點(diǎn),其主要方法有系統(tǒng)導(dǎo)出、零散或集中拷貝、數(shù)據(jù)自動(dòng)推送、數(shù)據(jù)鉆取等。對(duì)審計(jì)資料的歸類處理主要是將各類非結(jié)構(gòu)化數(shù)據(jù)分類,同時(shí)根據(jù)數(shù)據(jù)的種類有針對(duì)性地進(jìn)行預(yù)處理。一般而言,在內(nèi)部審計(jì)資料中,非結(jié)構(gòu)化數(shù)據(jù)可以分為文本類、圖像類和視頻類等,相應(yīng)地,根據(jù)數(shù)據(jù)的種類,知識(shí)挖掘可以分為文本挖掘、圖像挖掘和視頻挖掘。非結(jié)構(gòu)化數(shù)據(jù)采集、歸類、預(yù)處理和知識(shí)挖掘的最終目的是將數(shù)據(jù)處理所得的信息進(jìn)行融合,得到審計(jì)工作所需的描述性結(jié)果、診斷性結(jié)果,甚至是預(yù)測(cè)性和自我學(xué)習(xí)分析性結(jié)果。
四、非結(jié)構(gòu)化審計(jì)數(shù)據(jù)處理的方式
針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)以及目前的審計(jì)數(shù)據(jù)處理現(xiàn)狀,審計(jì)中要加強(qiáng)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的利用,重心應(yīng)放在數(shù)據(jù)采集、歸類處理與預(yù)處理、知識(shí)挖掘和信息融合等方面,以充分發(fā)揮其在審計(jì)中的作用。
(一)審計(jì)數(shù)據(jù)采集
內(nèi)部審計(jì)數(shù)據(jù)的獲取是審計(jì)工作的起點(diǎn),獲取數(shù)據(jù)的質(zhì)量極大影響著審計(jì)質(zhì)量。通過(guò)什么方式獲取、獲取什么樣的數(shù)據(jù)、獲取多少數(shù)據(jù),是審計(jì)人員首先需要思考的問(wèn)題。
對(duì)于內(nèi)部審計(jì)數(shù)據(jù)的獲取,主要有系統(tǒng)導(dǎo)出和直接拷貝、數(shù)據(jù)推送、數(shù)據(jù)專業(yè)化采集三種。業(yè)務(wù)系統(tǒng)一般會(huì)預(yù)留數(shù)據(jù)接口用于數(shù)據(jù)傳輸,審計(jì)人員只要做好部門(mén)間的協(xié)調(diào)就可自行或在技術(shù)人員協(xié)助下將數(shù)據(jù)以一定的格式導(dǎo)出,并保存到審計(jì)人員的電腦或?qū)徲?jì)系統(tǒng)中。系統(tǒng)導(dǎo)出是數(shù)據(jù)收集最理想的方式,要求業(yè)務(wù)系統(tǒng)在設(shè)計(jì)開(kāi)發(fā)時(shí)必須預(yù)留數(shù)據(jù)導(dǎo)出接口。直接拷貝是指將相關(guān)審計(jì)數(shù)據(jù)拷貝到移動(dòng)存儲(chǔ)介質(zhì),是一種直接的數(shù)據(jù)獲取方式。數(shù)據(jù)推送是指相關(guān)業(yè)務(wù)系統(tǒng)根據(jù)設(shè)定的條件,通過(guò)特定的渠道主動(dòng)向內(nèi)部審計(jì)人員發(fā)送相關(guān)數(shù)據(jù)的形式。數(shù)據(jù)專業(yè)化采集是數(shù)據(jù)獲取中最復(fù)雜的一種,是指審計(jì)人員借助專用的工具或手段,在被審計(jì)單位網(wǎng)頁(yè)等資源上收集各類信息。相較其他兩種方式,數(shù)據(jù)專業(yè)化采集較為復(fù)雜。目前運(yùn)用較多的是以網(wǎng)絡(luò)爬蟲(chóng)技術(shù)為核心,結(jié)合其他技術(shù)的網(wǎng)站信息采集技術(shù),整個(gè)采集包含網(wǎng)頁(yè)采集、信息抽取和信息檢索三個(gè)過(guò)程。其中,網(wǎng)頁(yè)采集是指審計(jì)人員利用工具對(duì)含有相關(guān)審計(jì)資料的網(wǎng)絡(luò)站點(diǎn)進(jìn)行網(wǎng)頁(yè)抓取并保存;信息抽取是審計(jì)人員在網(wǎng)頁(yè)采集的基礎(chǔ)上,按照自定義的抽取規(guī)則抽取審計(jì)所需信息;信息檢索則負(fù)責(zé)信息的呈現(xiàn),即審計(jì)人員在網(wǎng)頁(yè)信息抽取的基礎(chǔ)上利用檢索工具完成所需信息的檢索,并將得到的信息進(jìn)行呈現(xiàn)。
在非結(jié)構(gòu)化數(shù)據(jù)采集前,內(nèi)部審計(jì)人員要通過(guò)以往經(jīng)驗(yàn)、詢問(wèn)、觀察等方式,了解組織內(nèi)部各類非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)方式以及數(shù)據(jù)可能獲得的方式,并根據(jù)實(shí)現(xiàn)審計(jì)目標(biāo)所需審計(jì)證據(jù)的內(nèi)容與形式來(lái)決定非結(jié)構(gòu)化數(shù)據(jù)獲取的必要性以及獲取數(shù)量。
(二)審計(jì)數(shù)據(jù)歸類與預(yù)處理
高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)處理的基礎(chǔ),初步采集到的非結(jié)構(gòu)化數(shù)據(jù)需要經(jīng)過(guò)歸類和預(yù)處理后才能進(jìn)行相應(yīng)的知識(shí)挖掘,從而得出審計(jì)證據(jù)或?qū)徲?jì)所需的信息。一般而言,在內(nèi)部審計(jì)資料中,非結(jié)構(gòu)化數(shù)據(jù)可以分為文本類、圖像類和視頻類等。非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理基于兩方面原因:一是采集的數(shù)據(jù)中存在一些錯(cuò)誤或異常數(shù)據(jù),需要通過(guò)預(yù)處理來(lái)提高數(shù)據(jù)質(zhì)量;二是根據(jù)非結(jié)構(gòu)化數(shù)據(jù)挖掘的需要,將相關(guān)數(shù)據(jù)進(jìn)行歸集或者去除無(wú)關(guān)數(shù)據(jù),為后續(xù)處理做好準(zhǔn)備,如去掉網(wǎng)頁(yè)中存在的廣告、導(dǎo)航欄等不必要信息。
在不同的審計(jì)項(xiàng)目和不同的審計(jì)數(shù)據(jù)來(lái)源情況下,非結(jié)構(gòu)化數(shù)據(jù)預(yù)處理有不同的處理要求,難以形成一致方法。但總體而言,預(yù)處理過(guò)程是一個(gè)減少數(shù)據(jù)缺陷、進(jìn)行數(shù)據(jù)整合和融合、進(jìn)行數(shù)據(jù)變換和歸約的過(guò)程,實(shí)質(zhì)上是一個(gè)數(shù)據(jù)提質(zhì)的過(guò)程。具體而言,包含數(shù)據(jù)清理、數(shù)據(jù)的組織與集成、數(shù)據(jù)選擇、數(shù)據(jù)變換等多種形式。
非結(jié)構(gòu)化數(shù)據(jù)清理是指通過(guò)計(jì)算機(jī)與人工相結(jié)合的方式,致力于發(fā)現(xiàn)數(shù)據(jù)不完整、數(shù)據(jù)不一致、數(shù)據(jù)錯(cuò)誤等缺陷。首先,對(duì)非結(jié)構(gòu)化數(shù)據(jù)的缺陷類型進(jìn)行分類。將缺陷數(shù)據(jù)分為數(shù)據(jù)不完整、數(shù)據(jù)不準(zhǔn)確、數(shù)據(jù)不一致等類型,并且評(píng)估這些數(shù)據(jù)缺陷對(duì)審計(jì)中數(shù)據(jù)分析工作及數(shù)據(jù)分析結(jié)果的影響。其次,對(duì)數(shù)據(jù)缺陷產(chǎn)生的原因進(jìn)行分析。鑒別其是記錄過(guò)程中隨意產(chǎn)生的還是后期被修改導(dǎo)致的,是該類數(shù)據(jù)自身特征導(dǎo)致的還是記錄系統(tǒng)不穩(wěn)定導(dǎo)致的。分析數(shù)據(jù)缺陷的原因可以為有效的數(shù)據(jù)清理在方法選擇和工作量估計(jì)方面做好準(zhǔn)備。最后,對(duì)數(shù)據(jù)進(jìn)行清理。數(shù)據(jù)清理的手段包括人工和計(jì)算機(jī)兩種方式。對(duì)于偶發(fā)性數(shù)據(jù)缺陷一般采用人工方式進(jìn)行處理,而對(duì)于系統(tǒng)性、長(zhǎng)期性數(shù)據(jù)缺陷一般采用計(jì)算機(jī)方式進(jìn)行處理。
數(shù)據(jù)的組織與集成是指將多種非結(jié)構(gòu)化數(shù)據(jù)源融合為一體進(jìn)行異構(gòu)數(shù)據(jù)整合的過(guò)程,是將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行有效合并的過(guò)程。一方面,要關(guān)注數(shù)據(jù)模式問(wèn)題,對(duì)于統(tǒng)一模式的數(shù)據(jù),其集成相對(duì)簡(jiǎn)單,但對(duì)于不同模式的數(shù)據(jù),如何進(jìn)行有效集成,需要結(jié)合實(shí)際情況加以考慮。另一方面,要關(guān)注數(shù)據(jù)集成過(guò)程中產(chǎn)生的數(shù)據(jù)質(zhì)量問(wèn)題,如由于數(shù)據(jù)集成產(chǎn)生的數(shù)據(jù)冗余問(wèn)題,在集成過(guò)程中發(fā)現(xiàn)的數(shù)據(jù)沖突問(wèn)題等。
數(shù)據(jù)選擇是指對(duì)采集的非結(jié)構(gòu)化數(shù)據(jù)根據(jù)審計(jì)目標(biāo)進(jìn)行篩選的過(guò)程。非結(jié)構(gòu)化審計(jì)數(shù)據(jù)量大、形式復(fù)雜,為提高審計(jì)成效,應(yīng)根據(jù)審計(jì)目的去除冗雜數(shù)據(jù),有針對(duì)性地選擇審計(jì)數(shù)據(jù)。一是選擇直接與審計(jì)目標(biāo)相關(guān)的數(shù)據(jù),并且研判數(shù)據(jù)的質(zhì)和量能否支撐審計(jì)證據(jù),根據(jù)實(shí)際情況修正或者補(bǔ)充完整審計(jì)數(shù)據(jù)。二是慎重考慮與審計(jì)目標(biāo)間接相關(guān)的數(shù)據(jù),選擇對(duì)實(shí)現(xiàn)審計(jì)目標(biāo)關(guān)系較近的審計(jì)數(shù)據(jù),舍棄對(duì)實(shí)現(xiàn)審計(jì)目標(biāo)作用較小的數(shù)據(jù)。三是舍棄與審計(jì)目標(biāo)實(shí)現(xiàn)無(wú)關(guān)的數(shù)據(jù)。
數(shù)據(jù)變換是指將處理難度大的非結(jié)構(gòu)化數(shù)據(jù)根據(jù)現(xiàn)有的技術(shù)或手段轉(zhuǎn)換為另一種數(shù)據(jù)形式的過(guò)程,這種變換有多種形式。有的是將數(shù)據(jù)從一種模式轉(zhuǎn)換為另一種模式,非結(jié)構(gòu)化數(shù)據(jù)形式多樣,導(dǎo)致數(shù)據(jù)模式的多樣化,因此存在模式轉(zhuǎn)換的必要性;有的是將多維數(shù)據(jù)壓縮成維數(shù)較少的數(shù)據(jù),選擇性地消除非結(jié)構(gòu)化審計(jì)數(shù)據(jù)在時(shí)間、空間、屬性等方面的差異;有的是將數(shù)據(jù)進(jìn)行泛化,用更高層級(jí)的數(shù)據(jù)概念代替低層級(jí)數(shù)據(jù)概念,從而減少數(shù)據(jù)的復(fù)雜度。
對(duì)于內(nèi)部審計(jì)人員而言,在非結(jié)構(gòu)化數(shù)據(jù)的預(yù)處理方面要遵循兩個(gè)原則:一是避免將低質(zhì)量數(shù)據(jù)納入數(shù)據(jù)處理的范圍;二是盡量借助一定的技術(shù)手段將數(shù)據(jù)挖掘難度大的數(shù)據(jù)轉(zhuǎn)化為處理難度小的數(shù)據(jù)類型。
(三)審計(jì)數(shù)據(jù)的知識(shí)挖掘
在大量的非結(jié)構(gòu)化數(shù)據(jù)中獲取所需的審計(jì)信息是實(shí)現(xiàn)審計(jì)目標(biāo)的途徑之一,而知識(shí)挖掘則是獲取審計(jì)信息的重要途徑。內(nèi)部審計(jì)資料中的非結(jié)構(gòu)化數(shù)據(jù)一般分為文本類、圖像類和視頻類等,知識(shí)挖掘相應(yīng)分為文本挖掘、圖像挖掘和視頻挖掘等。
文本挖掘是指從相關(guān)文本數(shù)據(jù)中獲取有價(jià)值知識(shí)和信息的數(shù)據(jù)挖掘方法,包括基于單文檔的數(shù)據(jù)挖掘和基于文檔集的數(shù)據(jù)挖掘。其主要原理是通過(guò)文本分詞、語(yǔ)義分析、文本特征抽取等技術(shù),結(jié)合用戶相關(guān)性反饋等技術(shù)進(jìn)行輔助查詢,從而給予用戶智能知識(shí)提示。首先,利用分詞系統(tǒng)或分詞工具對(duì)文本資料進(jìn)行文本分詞,得到文本的“詞吧”。其次,將文本向量化,將分詞后的文本轉(zhuǎn)化成計(jì)算機(jī)能夠識(shí)別和處理的形式,如采用向量空間模型將文本中的詞特征量化處理后作為文本的特征向量。再次,利用文本頻率、互信息量等特征選擇方法降低特征向量的維度。最后,利用KNN算法、貝葉斯算法、決策樹(shù)算法等進(jìn)行知識(shí)挖掘。
圖像挖掘是用來(lái)挖掘大規(guī)模圖像數(shù)據(jù)中隱含知識(shí)、圖像內(nèi)或圖像間各種關(guān)系以及隱藏在圖像中的各種模式的一種技術(shù)。根據(jù)圖像挖掘的具體對(duì)象可分為基于圖像描述的數(shù)據(jù)挖掘和基于圖像內(nèi)容的數(shù)據(jù)挖掘。在內(nèi)部審計(jì)中,應(yīng)用較多的是利用文字識(shí)別軟件提取圖片上的文字,再通過(guò)文本挖掘方式進(jìn)行處理。
視頻挖掘是目前最為復(fù)雜的類型,一個(gè)常見(jiàn)的視頻數(shù)據(jù)可能包含音頻、圖像、文本等豐富的信息。在內(nèi)部審計(jì)中,涉及最多的視頻資料是監(jiān)控視頻。對(duì)于監(jiān)控視頻,一般通過(guò)對(duì)運(yùn)動(dòng)目標(biāo)的場(chǎng)景事件和行為進(jìn)行挖掘,從而得出異常和正常模式,并且對(duì)異常事件進(jìn)行預(yù)警,其預(yù)警模式在非現(xiàn)場(chǎng)審計(jì)監(jiān)督方面具有重要意義。視頻挖掘的另一種方式是利用圖像識(shí)別技術(shù)對(duì)相關(guān)視頻進(jìn)行關(guān)鍵幀的提取,從而得到視頻的圖像摘要,也可以對(duì)這些關(guān)鍵幀建立圖像索引。
(四)審計(jì)信息的融合
信息融合是將內(nèi)部審計(jì)中獲取的多種類型或多種渠道的信息融合在一起,并從中提取出更精確或具有更多特征有效信息的過(guò)程。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)處理得出的信息而言,審計(jì)信息的融合既包括各類非結(jié)構(gòu)化數(shù)據(jù)處理結(jié)果之間的信息融合,也包括非結(jié)構(gòu)化數(shù)據(jù)處理信息與審計(jì)中獲取的其他信息的融合。內(nèi)部審計(jì)信息融合的作用主要體現(xiàn)在增加內(nèi)部審計(jì)信息的利用率,提高審計(jì)結(jié)論的可信度和精確度,最終提高審計(jì)質(zhì)量。
審計(jì)信息的融合在整個(gè)過(guò)程中涉及大量的審計(jì)判斷。一般而言,相互支持的審計(jì)信息能夠增強(qiáng)審計(jì)證據(jù)的可靠性,審計(jì)信息的互斥以及信息較弱的支持度會(huì)降低審計(jì)證據(jù)的可靠性。在信息融合中,也會(huì)應(yīng)用到聚類分析、自適應(yīng)神經(jīng)網(wǎng)絡(luò)、表決邏輯和信息熵等理論。
審計(jì)信息的融合最終是為了實(shí)現(xiàn)審計(jì)目標(biāo),審計(jì)目標(biāo)的載體是審計(jì)結(jié)論,審計(jì)結(jié)論有描述性結(jié)果、診斷性結(jié)果、預(yù)測(cè)性結(jié)果和自我學(xué)習(xí)分析性結(jié)果四個(gè)層次。審計(jì)信息融合的目的是使審計(jì)結(jié)論不斷地從描述性向自我學(xué)習(xí)方向深化。
(作者單位:中國(guó)人民銀行杭州中心支行,
郵政編碼:310001,電子郵箱:yangman26@126.com)