李浩塵 謝勁松
[摘要]本文通過開展大數(shù)據(jù)環(huán)境下審計取證定位及其方向選擇問題研究,旨在嘗試為人工智能審計軟件設計開發(fā)提供新思路,為審計證據(jù)定量研究提供新途徑,為快速準確獲取審計證據(jù)探索新方法。
[關鍵詞]大數(shù)據(jù) ? ?審計取證 ? ?定位 ? ?研究
隨著計算機、物聯(lián)網(wǎng)等技術的應用與普及,網(wǎng)絡空間中人、機、物交互、融合產(chǎn)生和獲取的數(shù)據(jù)規(guī)模與速度極大提高,由此人類社會步入大數(shù)據(jù)時代。在這種情況下,如何在海量數(shù)據(jù)中挖掘到與被審計單位相關的各種有用信息,準確高效地獲取審計證據(jù),是審計人員必須面對和思考的問題。由于研究范圍僅涉及證據(jù)收集切入點選擇等問題,因此,通過引入信息生成傳遞及決策樹模型,將重點放在對同一經(jīng)濟活動信息集合中信息鏈環(huán)上的上/下位信息及其相互關聯(lián)等方面。
一、上/下位信息概念、成因及其表現(xiàn)形態(tài)
(一)從信息生成規(guī)律分析
審計中審計主體接觸到的各種信息,均屬于被審計單位相關經(jīng)濟活動的自在信息、自有信息和記錄信息集合。其中,自在信息是經(jīng)濟活動以信息方式向外部世界顯示的存在和特征,在轉化為人類大腦記憶或者機器智能、信息系統(tǒng)信息及通過一定載體記錄為文字、符號、電子數(shù)據(jù)等信息之前,人類意識不到它,更談不上認識它。這類信息遵循了物質(zhì)世界物理學定律,在時空上位置指向唯一。如未經(jīng)計量的用戶照明、動力等電能。這種隨時間變化處理的信息,是經(jīng)濟活動信息集合中的底層信息(初始信息),是自有信息和記錄信息的唯一來源,是認識信息時空序列的客觀依據(jù)。在數(shù)字化時代,這些信息通過交互式應用系統(tǒng)(如Web系統(tǒng)、互聯(lián)計算機集群——云系統(tǒng)、電子商務系統(tǒng)等)、嵌入式應用系統(tǒng)(如移動電話中使用的軟件)、數(shù)據(jù)采集系統(tǒng)、批處理系統(tǒng)運行順序輸出生成記錄信息。如電網(wǎng)企業(yè)通過集中抄表終端(或公用變壓器采集終端)對低壓電力用戶電能數(shù)據(jù)和配電變壓器用電量及運行參數(shù)的實時采集的數(shù)據(jù);通過單片機(主控MCU模塊,又稱中心單元)將實時采集數(shù)據(jù)經(jīng)過處理、控制,輸出、上傳到采集終端器和主站數(shù)據(jù)庫等數(shù)據(jù)。這些數(shù)據(jù)保持了經(jīng)濟活動發(fā)展蹤跡,體現(xiàn)了被審計事項的時序構成,組成了信息集合原子性(不可分割)、序列化鏈環(huán)。這種同一信息集合中含義相互關聯(lián)、相互承續(xù),時空位置相鄰、生成順序鄰接的信息稱為鏈環(huán)信息。
當鏈環(huán)信息成為審計對象時,審計主體會根據(jù)審計假設或命題信息需要,將審計取證切入點或者審計觀察點前后相連的鏈環(huán)信息劃分為上位信息與下位信息。這種劃分是信息含義上的劃分,與信息載體獨立與否無關。其中,上位信息是下位信息的部分或全部來源,下位信息是上位信息含義的承續(xù),是上位信息這個“因”或“前提”基礎上產(chǎn)生的“結果”。審計中,如果上位信息得到查實,那么與其相關聯(lián)的下位信息自然也就得到查實。反之,下位信息所蘊含的上位信息就不可能得到查實。查證屬實、符合經(jīng)濟活動時空次序的上位信息屬于確定性信息,而確定性信息是形成審計證據(jù)的基礎;下位信息與當下審計命題或假設無關,是另一事項信息,相對于特定被審計事項而言,它屬于非相關信息,而非相關信息不能作為證據(jù)使用。如果下位信息可以證成上位信息,實質(zhì)上就是錯誤預設了下位信息已經(jīng)隱含了上位信息被證明的事實,用需要證明的事實去證明事實自身,其邏輯推理的結果必然是死循環(huán),違背了邏輯規(guī)律。
為便于理解,舉例說明。如審計主體在審查某國有企業(yè)員工出差費用報銷的真實性時,記載這項經(jīng)濟活動的記賬憑證以及相關的明細賬、總賬記錄等下位信息就不能作為證明員工出差的證據(jù)使用,作為證據(jù)使用的只能是員工出差申請單以及車船票、住宿費發(fā)票等上位信息。
從信息生成來源考察所獲得的上/下位信息,屬于實質(zhì)性的上/下位信息,它是審計取證定位及方向選擇的客觀依據(jù)。
(二)從計算機軟硬件體系結構中數(shù)據(jù)流的規(guī)律分析
在現(xiàn)階段計算機的計算模型下,無論是傳統(tǒng)的控制流計算模型即計算機內(nèi)的數(shù)據(jù)按指令循序操作模式,還是大數(shù)據(jù)處理平臺上以數(shù)據(jù)流為核心的數(shù)據(jù)流計算模型即新型數(shù)據(jù)驅(qū)動方式處理生成的數(shù)據(jù),都是按上一個數(shù)據(jù)計算處理完成,將結果傳遞給下一個計算單元操作執(zhí)行這一順序進行的。各種信息系統(tǒng)在需求描述、設計、開發(fā)以及運行中均遵循了經(jīng)濟活動的規(guī)律,體現(xiàn)了實際業(yè)務流程,具有嚴密的邏輯性。編程語言也提供了相應的實現(xiàn)語句。例如,C++程序設計語言就提供了多種不同的控制流語句,其中順序執(zhí)行的語句規(guī)定:第一條語句首先執(zhí)行,然后是第二條語句,以此類推?,F(xiàn)階段,被審計單位各種交互式應用系統(tǒng)、嵌入式控制系統(tǒng)、批處理系統(tǒng)、數(shù)據(jù)采集系統(tǒng)、集成式系統(tǒng)等,所采用的計算機語言和解決實際問題的算法,都是按經(jīng)濟活動時序關系或程序設計語言事前確定的方向和有限規(guī)則操作步驟設計運行的,反映了被審計單位經(jīng)濟活動數(shù)據(jù)處理的過程與流程,體現(xiàn)了經(jīng)濟活動信息含義的遞歸關系,如貨幣資金=庫存現(xiàn)金+銀行存款+其他貨幣資金,總是從“庫存現(xiàn)金”到“銀行存款”和“其他貨幣資金”的值計算“貨幣資金”的值。
計算機軟硬件體系結構中數(shù)據(jù)流所形成的上/下位信息屬于形式上的上/下位信息,它是審計主體認識實質(zhì)性上/下位信息的結構化、形式化載體。
(三)從智能化審計軟件推理過程分析
隨著人工智能(Artificial Intelligence,AI)技術的快速發(fā)展及其在金融、交通、商業(yè)、電信、電力等領域的廣泛應用,被審計單位生產(chǎn)經(jīng)營活動過程中人、機、物交互、融合所產(chǎn)生的并在互聯(lián)網(wǎng)上獲得的數(shù)據(jù)也將越來越多。適應這些大容量、多類型、集中化存儲的海量數(shù)據(jù)的智能化審計軟件,也將得到快速開發(fā)與應用。智能審計軟件所采用的從初始事實(證據(jù))出發(fā),運用知識庫中特定領域的基本原理、常識或經(jīng)驗知識,通過推理機逐步推出與審計命題或?qū)徲嫾僭O相關的審計結論的推理過程,系統(tǒng)性、結構化地體現(xiàn)了應用領域的規(guī)律和規(guī)則,反映了事實(前提)與結論、上位信息與下位信息的邏輯關系。如對某供電企業(yè)配網(wǎng)設備檢修工程設計變更(簽證)事項的真實性進行審計時,智能化審計軟件會依據(jù)知識庫中有關配網(wǎng)設備檢修工程以及設計變更(簽證)深/淺層知識,按以下步驟收集審查信息,固化相關證據(jù):第一步,收集審查設計(簽證)工程名稱及變更卷冊號、圖號信息;第二步,收集審查設計(簽證)事項內(nèi)容、相關施工措施、紀要或協(xié)議信息;第三步,收集審查變更圖紙、照片、示意圖信息;第四步,收集審查變更工程量信息;第五步收集審查變更費用計算書信息;第六步,收集審查設計變更工程安全質(zhì)量稽查信息;第七步,收集審查設計變更工程監(jiān)理、中間(隱蔽)工程驗收及工程竣工驗收等信息。至于該工程設計變更后續(xù)的結算(決算)、財務轉資等信息,由于屬于上述流程中的下位信息,因而不得作為證明本事項的證據(jù)使用。
這種基于實質(zhì)和形式化上/下位信息,通過智能化審計軟件推理過程所確認的上/下位信息,屬于審計主體認識上的上/下位信息,是形成審計證據(jù)的基礎。
二、不同形態(tài)的上/下位信息及其含義遞歸關系分析
不同形態(tài)的上/下位信息之間既相互聯(lián)系又互相區(qū)別。實質(zhì)性的上/下位信息真實地反映了被審計單位經(jīng)濟活動實際,是審計證據(jù)取舍的依據(jù);而形式上的上/下位信息則是審計主體實施審計搜索、識別的載體與對象;認識上的上/下位信息則是審計主體已經(jīng)獲取到、最終能夠形成審計證據(jù)的相關信息,這類信息既可以證成審計事項,也可能因為與經(jīng)濟活動不符,導致審計失敗。
信息的形成是從底層向高層聚合的,具有類似樹形的結構。從樹形結構底層的葉子節(jié)點所代表的信息源開始也就是信息生產(chǎn)者如文件或者傳感器采集設備生成的數(shù)據(jù)開始的上位信息,然后通過配準、匯集、關聯(lián)和計算等信息加工,將底層數(shù)據(jù)或信息融合成更加抽象的高層信息表示,逐次完成既定融合目標任務,直至根節(jié)點,形成某一經(jīng)濟活動的信息集合,在融合的過程中形成自下而上的多叉樹形結構,如圖1所示。
多叉樹信息遞歸結構圖中,某一經(jīng)濟活動信息集合組成的信息網(wǎng)中,任一獨立載體或載體中不同描述段所記載的記錄信息或自有信息可視為該信息網(wǎng)中的節(jié)點,節(jié)點之間的連接弧表示節(jié)點對節(jié)點的直接影響。葉節(jié)點與根節(jié)點之間的層次距離為節(jié)點深度。結構圖中含有的節(jié)點和弧越多,表明相應的經(jīng)濟活動信息越復雜。結構圖中的信息節(jié)點主要由信息節(jié)點之間的上位/下位關系連接,這種關系體現(xiàn)了經(jīng)濟活動各信息節(jié)點之間信息內(nèi)容的承繼關系,表明信息是從上位節(jié)點逐層向下位節(jié)點加工融合傳遞的,上位信息是下位信息的具體呈現(xiàn)。同一事項的下位信息與所有的上位信息輸出點,構成下位信息因果網(wǎng)。而因果網(wǎng)具有上位/下位關系的兩個信息節(jié)點共享同一經(jīng)濟活動部分信息,且下位信息繼承了同一經(jīng)濟活動的全部或部分上位信息。葉節(jié)點與根節(jié)點之間的深度越大即與根節(jié)點的層次距離越遠,所蘊含的經(jīng)濟活動信息就越具體且數(shù)量也越大,而越接近根節(jié)點信息量則越少。
在結構圖中,第四層9-18號葉節(jié)點(包括6號節(jié)點)均為上位節(jié)點信息又稱初始信息,這些信息均由其他系統(tǒng)(互聯(lián)網(wǎng))提供或者本系統(tǒng)生成,在信息集合中最接近經(jīng)濟活動真相,是經(jīng)濟活動信息集合中信息量最大的節(jié)點。例如,通過傳感器從被審計單位經(jīng)濟活動中采集并發(fā)送的各種實時數(shù)據(jù);人們通過感覺器官感知后儲存、記憶的自有信息或自在信息發(fā)生時第一時間轉換為錄音、錄像、文字、數(shù)據(jù)等的記錄信息。第二層、第三層中2、3、4、5、7、8號非葉節(jié)點為中間層次節(jié)點,相對于1號根節(jié)點,他們?yōu)樯衔还?jié)點,而與第四層9-18號葉節(jié)點相比較又換位為下位節(jié)點。
上位信息和下位信息的分界點是通過人機對話方式輸入到智能審計軟件中的審計命題或?qū)徲嫾僭O相對應的信息。在一組描述同一經(jīng)濟活動的信息集合中,上位信息是下位信息生成之前的信息,是形成下位信息的前提信息;而下位信息則是上位信息的后續(xù)信息,承續(xù)了上位信息的相關含義。之所以上位信息可以成為審計命題或假設的證據(jù)而下位信息不能作為證據(jù)使用,關鍵在于下位信息本身就是需要證明的事項,是未經(jīng)核實(查實)的信息,如果使用未經(jīng)核實(查實)的信息來推知上位信息,顯然違背了人類認知科學和邏輯推理規(guī)律。例如,審查某項固定資產(chǎn)計提折舊有無差錯時,某計提折舊業(yè)務序列中的下位信息為待證計提折舊的事實,而上位信息則是計提折舊的固定資產(chǎn)原值、折舊率等前端業(yè)務信息,折舊計提結果所影響的折舊、成本、費用明細賬以及總分類賬金額的變化則是下位信息。作為證明折舊計提事項真實性的審計證據(jù),應該是引起折舊計提事項發(fā)生的原因——上位信息,而不是它的結果——下位信息。
三、審計取證定位及其方向性選擇
審計取證方向及其定位方法要點是:審計證據(jù)取證必須以確定的審計命題或者審計假設所需要收集的被審計事項信息為起點,從上(前)往下(后)或者由下(后)往上(前),通過對相關信息的正向或逆向溯源,收集上位信息,查清被審計事項真相的方法。審計取證定位及方向性選擇過程如圖2所示。
(一)確定被審計事項所需信息的位置特征
首先,以某一具體審計命題或?qū)徲嫾僭O定位切入點(觀察點),再根據(jù)切入點(觀察點)定義上/下位信息。具體做法就是在數(shù)據(jù)清洗、填充、修改、標準化、類型轉化等預處理基礎上,對照應用領域規(guī)則、業(yè)務流程或者范例庫中所記載的相同經(jīng)濟活動相似情節(jié)、過程等特征,利用計算機檢索算法來確定。這一位置特征與同一經(jīng)濟活動信息集中的對被審計事項起證明作用的信息相對應的字符位置相關,通常表現(xiàn)為上、下位兩種位置:表示在被審計事項所需信息的上(前)邊或者下(后)邊。上/下邊位置應根據(jù)經(jīng)濟活動自在信息的順序而不是其記錄信息或者自有信息所記載(記憶)的順序來確定。其次,選擇被審計事項信息的各種鄰接節(jié)點字符特征,這樣做是為了能細粒度地提取所在上/下位節(jié)點信息,它有多種選擇方式,如上下兩個字符或上/下一個或多個字符以及下一個或多個字符。信息細粒度應根據(jù)審計范圍或?qū)徲嬆繕松踔翆徲嬍马椀闹匾潭褥`活掌握。
(二)審計取證方向選擇
被審計事項信息位置特征確定后,接下來就要選擇審計取證方向。從信息定義考察,被審計事項上/下位信息都蘊含了信息,但下位信息只是被審計事項原有含義上的新增或重復信息,對于被審計事項來說是明確確定的,不存在未被消除的隨機不確定性因素。因被審計事項的下位信息不能作為證明其真實性的證據(jù)使用,因而被審計事項的上位信息可獨立或者相互印證地證明被審計事項的真實性。也就是說,被審計事項的上位信息,根據(jù)證明需要可以成為審計證據(jù)。在數(shù)據(jù)結構中與被審計事項無直接關聯(lián)的其他節(jié)點信息,由于違背了審計證據(jù)的相關性規(guī)定,也不能成為證據(jù)。仍以圖1為例,若節(jié)點4確定為被審計事項,那么葉節(jié)點9、10、11就可以用作節(jié)點4的證據(jù)節(jié)點,而與節(jié)點4相關聯(lián)的上層節(jié)點2,則不是節(jié)點4的證據(jù)節(jié)點,除此之外,其他節(jié)點也不能收集、固化為節(jié)點4的證據(jù)。
(三)審計取證路徑選擇
被審計事項自在信息通過一定工具和技術轉換為人們能夠理解和認識的不同系統(tǒng)性質(zhì)的自有信息或記錄信息后,審計主體可以選擇不同的信息獲取渠道來查清相關經(jīng)濟活動,但取證路徑必須遵循經(jīng)濟活動內(nèi)在規(guī)律。例如,制造企業(yè)生產(chǎn)與存貨活動發(fā)生領料、生產(chǎn)加工、銷售產(chǎn)品等業(yè)務后,相應地也會產(chǎn)生產(chǎn)品生產(chǎn)、材料(產(chǎn)品)出入庫、成本計算等信息,審計主體可以根據(jù)構成這些不同業(yè)務體系信息的時空次序,選擇性地收集相關證據(jù)。
(四)審計取證方法選擇
審計取證關鍵技術有關鍵詞提取、主題提取、內(nèi)容抓取等,這里僅從思路上介紹幾種方法。
1.基于范例的推理方法。建立審計范例庫,根據(jù)關鍵詞索引,從審計范例庫中檢索出(聯(lián)想到)與審計中面臨問題最類似(相關)的范例,進行差別比較和解答改編,通過聯(lián)想(或類比),將解決過去問題的經(jīng)驗包括解答和解決過程用于解決當前問題。
2.中文文本關鍵短語提取方法?;诮y(tǒng)計的關鍵短語提取,如利用統(tǒng)計方法,用詞頻TF、詞權重TF-IDF以及首位置信息作為統(tǒng)計特征,對候選短語進行評估,提出文本中關鍵短語;基于混合模型的關鍵短語抽取,即一種在隱馬爾科夫模型和最大熵模型的基礎上提出的一種無向圖學習模型;利用決策樹進行中文文本關鍵短語的自動抽取;改進的Seg Phrase算法等。
3.對完整或非完整數(shù)據(jù)庫的查詢方法。如PSKYline-join算法、SQL Server數(shù)據(jù)庫T-SQL查詢方法、基于Key/Value數(shù)據(jù)庫的查詢方法等。
(作者單位:國家電網(wǎng)有限公司 ?國網(wǎng)湖北省電力有限公司,郵政編碼:430077,電子郵箱:xiejs19621xjs@sina.com)
主要參考文獻
蔡圓媛.大數(shù)據(jù)環(huán)境下基于知識整合的語義計算技術與應用[M].北京:北京理工大學出版社, 2018
高濟.人工智能高級技術導論[M].北京:高等教育出版社, 2009
謝亞妮,李響,黃兆坤,鐘鳴,雷鳴濤.一種基于Key/Value數(shù)據(jù)庫的查詢方法[J].信息化研究, 2019(3)