劉曉寧 馬 西 曾 航 胡陽華
維克托·爾耶·舍恩伯格在《大數據時代》中前瞻性地指出,大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型,迎來了新時代的思維變革、商業(yè)變革和管理變革。信息技術、大數據、云計算、區(qū)塊鏈、物聯(lián)網、人工智能已經引發(fā)了全球新的商業(yè)模式。
在我國財務管理領域,用友財務云采用領先的智能技術,基于會計理論,以業(yè)務事項為基礎,打造智能財務為核心理念,構建國內具備實時、智能、精細、多維、可視、生態(tài)的企業(yè)數智化財務云服務平臺,助力用戶財務數字化轉型。這些商業(yè)模式改變了交易的記錄和存儲方式,顛覆了信息數據收集、整理、分析、應用的方法。電子化、無紙化使得用戶對財務信息的要求也上升到了實時化和在線化階段。由于管理環(huán)境的變化,尤其是薩班斯-奧克斯利(Sarbanes-Oxley)法案的實施,很多政府審計部門、會計師事務所、公司和企業(yè)不得不高度重視審計技術的效率和效果。在這種大環(huán)境下,也就應運而生了大數據、云計算審計技術。
近幾年來,建立與信息時代、知識社會相適應的面向服務、以用戶為中心、以人為本的開放的社會創(chuàng)新形態(tài)正在形成。尤其在審計領域,2021年10月,第十三屆全國人民代表大會常務委員會第三十一次會議通過《關于修改<中華人民共和國審計法>的決定》。新修訂的《審計法》重點強調要升級技術手段,強化智慧監(jiān)督,為審計監(jiān)督利用大數據、云計算、人工智能等先進數字技術提供了良好的政策保障。
目前,我國數字化建設發(fā)展迅猛,“東數西算”工程正式全面啟動,全國一體化大數據中心體系完成總體布局設計。加快推動算力建設,將有效激發(fā)數據要素創(chuàng)新活力,加速數字產業(yè)化和產業(yè)數字化進程,催生新技術、新產業(yè)、新業(yè)態(tài)、新模式,支撐經濟高質量發(fā)展。截至2020年,我國數據中心機架規(guī)模達到500萬架,預計“十四五”末期達到1 800萬架,近五年年均增速逾30%,或將新增1.95萬億元投資。同時,隨著互聯(lián)網、大數據、云計算、區(qū)塊鏈等技術應用于財務、審計領域的研究越來越多,大數據、云計算審計技術也漸漸被認為是未來替代現(xiàn)代審計技術的必然趨勢。
國內外學術界近年來高度關注大數據、云計算、區(qū)塊鏈在審計領域里的應用。AICPA(2014)初步分析了大數據環(huán)境對審計工作的影響;Earley(2015)分析了大數據技術給審計工作帶 來 的 機 遇 和 挑 戰(zhàn);Chen (2014)、Melnik(2010)、Gulisano(2012)認為,大數據分析需要一些能在有限的時間內對大量數據進行有效分析的技術,這些技術覆蓋了計算機科學、統(tǒng)計學、經濟學、會計學、審計學等學科。同時,一些用于分析大數據的工具也被開發(fā)出來。
國內研究大數據、云計算審計的項目類型繁雜,徐超(2021)從大數據審計采集技術、存儲技術、分析技術以及可視化技術描述了大數據審計技術核心因素及具體的應用過程。陳偉(2019)介紹了目前已有的大數據分析技術與工具,以及大數據環(huán)境下基于數據可視化技術的電子數據審計方法原理。在此基礎上,學者們還專門研究了基于數據可視化技術的電子數據審計方法,并與目前常用的基于SQL的數據查詢方法,以及基于審計軟件的分析方法進行對比分析。鄭金秀(2022)介紹了大數據審計技術的三個基本步驟,并以某集團公司銷售業(yè)務專項審計為例,闡述了大數據審計技術的運用,提出了加強大數據審計技術運用的思考建議。夏軍等(2021)著重就大數據技術在經濟責任審計中應用的必要性、在具體審計項目中的應用展開分析,并結合具體案例說明該技術的應用途徑和方法,然后就應用中遇到的問題進行思考,以提高大數據技術運用成效。
綜上所述,目前對大數據、云計算審計技術的研究,基本都停留在理論探討層面,而對技術層面的研究并不多,尤其在實際操作應用領域進展緩慢,主要是計算機硬件接口不兼容、軟件技術不匹配等原因所致。為此,本文從大數據、云計算審計技術層面進行探討,借以推進該技術在審計領域的應用。
大數據處理主要分以下幾個步驟:
1.數據的收集。(1)抓取或者爬取,例如搜索引擎就是這么做的。(2)推送,利用終端收集數據。
2.數據的傳輸。一般會通過隊列方式進行,因為數據量實在是太大了,必須經過處理才會有用。
3.數據的存儲。大數據是歷史的交易數據,需要存儲下來。對于數據的存儲,需要一個很大的分布式文件系統(tǒng)來做處理,把多臺機器的硬盤打成一塊大的文件系統(tǒng)。
4.數據的處理和分析。上面存儲的數據是原始數據,原始數據多是雜亂無章的,有很多垃圾數據在里面,因而需要清洗和過濾,得到一些高質量的數據進行分析。對于數據分析,需要對大量的數據做分解、統(tǒng)計、匯總,一般采用分布式計算方法,將大量的數據分成小份,每臺機器處理一小份,多臺機器并行處理。
5.數據的檢索和挖掘。檢索就是搜索,Google、百度兩大搜索引擎都是將分析后的數據放入搜索引擎。另外就是挖掘,僅僅將數據搜索出來已經不能滿足人們的要求,還需要從信息中挖掘出其間相互的關系。所以通過各種算法挖掘數據中的關系,形成知識庫。
大數據十分雜亂,經過梳理和清洗,才能夠稱為信息。信息會包含很多規(guī)律,我們需要從信息中將規(guī)律總結出來,稱為知識(Knowledge)。有了知識,然后利用這些知識去應用于實踐,這就叫做智慧(Intelligence)。
根據大數據、云計算審計的概念,對海量的數據處理方式可以分為:
1.計算機輔助大數據處理方式。它是通過人工采集或獲取非電子數據,然后將人工采集的數據錄入計算機,通過本地專業(yè)計算機軟件進行鑒別、分析的一種處理方式。這種方式處理結果比較準確,但由于軟件比較落后,且計算機處理能力有限,所以速度和質量也難以保證,對非結構化數據仍然需要結合人腦并用進行。
2.聯(lián)網大數據處理方式。它是利用計算機聯(lián)網方式遠程采集大數據并采用本地軟件進行數據處理,聯(lián)網大數據審計具有非現(xiàn)場審計、實時審計(或亞實時審計)、遠程審計、數據采集效率高等特征,但由于數據量巨大,對數據存儲、處理需要的硬件和軟件是一個巨大的挑戰(zhàn)。
3.云平臺大數據處理方式。它是基于云平臺采用相關軟件采集、識別、鑒證、挖掘和分析來自于物理世界的非結構化數據,包括音頻、視頻、射頻、文本、圖片等數據。這種處理方式采用集成數據、模型和各種數據采集技術的云平臺技術,數據存儲和處理能力強,尤其是集成了智能技術和物聯(lián)網技術的云平臺效率更高。這也是今后用來作為研究樣本的一種大數據、云計算審計技術的數據處理方式。
利用大數據、云計算進行審計工作,首先是獲得數據,大數據、云計算審計所獲得的數據和傳統(tǒng)調查數據不同,起初是零亂的,面對混亂,如何處理,這就需要大數據挖掘的方法。其基本思路是,將雜亂無章的大數據先歸類,再降低它的維度,降維為若干類別以后,便讓大數據和調查數據的形態(tài)差不多。這里我們把數據挖掘流程的步驟歸納一下。
1.獲得數據:通過映射-降維,形成可分析的數據。
2.選擇要分析的降維數據,選擇變量,降維以后的數據變量是可選的。
3.進行數據變換:包括數據類型的變換、數據模式的變換等等。
4.模式發(fā)現(xiàn):數據挖掘就是要發(fā)現(xiàn)模式。
5.模式評估:對已經發(fā)現(xiàn)的模式,評估其信度和效度。
6.知識表達:大數據、云計算審計的最終結果。
(二)大數據、云計算審計的描述性分析
所謂大數據、云計算審計的描述性分析,就是對審計對象進行描述性的刻畫,也是用數據刻畫,獲得審計對象的數字畫像。
1.特征分析。特征分析就是點分析,類似于針對調查數據做的單變量分析,刻畫審計對象的基本特征。
2.關聯(lián)分析。可以理解為雙變量和多變量之間關系的分析。關聯(lián)分析類似于調查數據的雙變量、多變量分析,是基于事物不同特征之間的相關性分析。不過,其分析的基本思路和統(tǒng)計學的相關性分析方法大不相同。
3.聚類分析。這原本就是調查數據統(tǒng)計分析方法的一種,用分類原則篩選因子,減少變量的數量,又稱“降維”。在大數據挖掘中,點集數據是適合聚類分析的數據類型,通過聚類,讓原本混雜的數據歸入各自的類。聚類主要是做多特征的綜合聚類。
4.離群點分析。這在調查數據時叫極值,在大數據里叫離群點,兩個不一樣。
預測分析技術是系統(tǒng)工程、運籌學的范疇,這里不再列舉,只講與調查數據分析根本不同的部分。傳統(tǒng)的調查數據是先建模再搜集數據,最后檢驗模型。而大數據、云計算審計分析是先有數據,建模的基礎是數據,因此被稱為數據建模。數據建模是基于數據歸納的,在數據里發(fā)現(xiàn)、挖掘,通過描述性分析建立簡單模型,用簡單模型讓機器學習。
大數據的數據建模通常有兩類。一類是分類模型,一類是回歸模型。分類模型分析事物的類別,關注特征值;回歸模型分析變量之間的關系模式,為預測分析而準備。在這個基礎上,數據建模是多種技術的應用。首先是數學建模技術,其次是統(tǒng)計學原理和方法,再次是算法。如何讓機器可計算并達到計算的有效率,在算法中還涉及一系列的理論與技術。如:數據庫、可視化、機器學習、模式識別技術等等。
大數據、云計算審計技術的語言和算法相對復雜一些,這也是數據建模中的核心,它不僅用于建庫,也用于做所有與數據挖掘、建模相關的工作,比如說機器學習,從初始數據建模到模型迭代、穩(wěn)健,都依靠算法的效率。
再比如,R語言。R語言作為統(tǒng)計學一門語言,一直在小眾領域閃耀著光芒。直到大數據的爆發(fā),R語言變成了一門炙手可熱的數據分析利器。我們從數據可視化角度出發(fā),了解統(tǒng)計計算與繪圖功能集于一身的R語言。首先,它作為大數據分析工具,在分析數據時有其得天獨厚的優(yōu)勢,而且R語言在審計領域應用的可行性,為審計人員更直觀、便利地分析數據提供基礎的理論參考。其次,針對海量的審計數據分析,R語言提出了大數據、云計算審計分析的新模式。在開展R語言統(tǒng)計模型應用研究時,先建立從統(tǒng)計模型、指標提取到統(tǒng)計模型檢驗與優(yōu)化、統(tǒng)計模型重寫、數據可視化的一套方法。在此基礎上,具體針對BI工具發(fā)現(xiàn)問題,應用R語言進行異常數據指標的相關因素分析。
(三)大數據可視化數據模型
大數據可視化需要數據分析模型。一般數據模型可以從兩個角度來區(qū)分:數據和業(yè)務。我們在進行大數據、云計算審計時,主要采用數據模型。所謂數據模型是從統(tǒng)計數據視角而言的實體模型,通常指統(tǒng)計分析、大數據挖掘、深度學習、人工智能技術等種類的實體模型,這些模型是從科學研究的視角界定的。
1.降維模型。對海量的大數據和大規(guī)模的數據進行數據挖掘時,數據集的維度往往在無限地增加,但計算機的處理能力和速度有限。此外,數據集的多個維度之間可能存在共同的線性關系,這會造成學習模型的可擴展性不足,乃至優(yōu)化算法結果無效。因此,人們必須減少層面總數并減少層面間共線性危害。
2.回歸模型?;貧w分析模型是一種數據分析方法,它是研究變量X對因變量Y的數據分析。
3.聚類分析模型。聚類分析法是大數據挖掘和測算中的基礎任務,它是將很多統(tǒng)計數據集中化,具備“類似”特點的統(tǒng)計數據點區(qū)劃為一致類型,并最后轉化成好幾個類的方式。海量數據集中必須有相似的數據點?;谶@一假設,可以區(qū)分數據,并且可以找到每個數據集(分類)的特征。
4.分類模型。分類算法根據對已知類型訓練集的測算和剖析,從文中發(fā)掘類型標準,為此分析新統(tǒng)計數據類型的類別優(yōu)化算法。分類算法是解決分類問題的一種方法,是數據挖掘、機器學習和模式識別的一個重要研究領域。
5.關聯(lián)模型。關聯(lián)規(guī)則,是根據尋找最能解釋數據變量之間關系的規(guī)則,在大量多元數據集中找到有用的關聯(lián)規(guī)則。這是一種從大量數據中找出各種數據之間關系的方法。此外,它還可以挖掘基于時間序列的各種數據之間的關系。
6.時間序列模型。時間序列是一種用于研究數據隨時間變化的算法模型,是一種常用的回歸預測方法,原則是有關事物的連續(xù)性。
大數據、云計算審計技術的主要任務是通過構建一個支撐平臺,實現(xiàn)對審計數據的分析和處理。云平臺中的審計需要應用數據挖掘技術,將審計系統(tǒng)和數據挖掘技術結合起來,找到結合的突破口。運用數據挖掘技術對被審計單位信息系統(tǒng)在運行過程中產生的大量業(yè)務數據與財務數據進行深入分析,對審計數據進行初步挖掘與篩選,形成可疑數據,運用分析方法以及操作方法,對被審計單位經濟活動進行判斷,獲取審計線索。
根據目前我國大數據、云計算審計的實踐,我們有針對性提出以下建議:一是通過線上講座等方式,對審計人員進行培訓,學習大數據、云計算審計技術課程,提高業(yè)內人員專業(yè)水平;二是提高審計專用便攜機和服務器的硬件配置和性能,實現(xiàn)數據接口的統(tǒng)一和數據標準的規(guī)范化。
為了使大數據、云計算審計工作更加規(guī)范,提高審計工作質量和效率,實現(xiàn)審計數據接口統(tǒng)一,以方便數據的讀取、交換和錄入,我國計算機軟件協(xié)會和財政部發(fā)布過接口的標準,但標準化程度的推廣卻不理想,會計數據接口類型仍然很多,多種原因疊加形成了如今復雜多樣的審計數據接口。對此,我們還需要進一步努力改進。