郭月
(太原旅游職業(yè)學(xué)院,山西 太原 030032)
財(cái)務(wù)舞弊長期危害我國經(jīng)濟(jì)社會的正常發(fā)展,如何識別財(cái)務(wù)舞弊一直是學(xué)術(shù)界和實(shí)務(wù)界的研究重點(diǎn)之一。財(cái)務(wù)舞弊的危害范圍極廣。站在投資者的角度,在確認(rèn)投資之前,需要較為全面客觀的了解上市公司的財(cái)務(wù)狀況、經(jīng)營成果等信息,而財(cái)務(wù)報(bào)告則是最直接、最有效的證明資料。但是,財(cái)務(wù)舞弊通過粉飾財(cái)務(wù)數(shù)據(jù),掩蓋了上市公司所存在的問題,最終可能導(dǎo)致投資者的投資失敗。站在國家的角度,財(cái)務(wù)舞弊打破了資本市場的正常運(yùn)行,降低了資本配置的效率,更有甚者會直接影響投資者對于我國資本市場的投資信心。
隨著財(cái)務(wù)舞弊現(xiàn)象的頻繁發(fā)生,如何及時識別并有效防止財(cái)務(wù)舞弊現(xiàn)象的發(fā)生成為政府和學(xué)術(shù)界的研究重點(diǎn)。早期的財(cái)務(wù)舞弊手段較為簡單,主要通過檢查財(cái)務(wù)報(bào)表相關(guān)項(xiàng)目之前的勾稽關(guān)系進(jìn)行識別。但隨著財(cái)務(wù)舞弊手段的逐漸復(fù)雜,較為隱秘的財(cái)務(wù)舞弊問題已經(jīng)無法通過簡單的財(cái)務(wù)數(shù)據(jù)關(guān)系進(jìn)行識別,因此,有學(xué)者將統(tǒng)計(jì)學(xué)工具引入財(cái)務(wù)舞弊識別研究中,通過建立模型進(jìn)行分析,大大提高了識別的準(zhǔn)確性。然而傳統(tǒng)的識別模型仍然存在局限性,主要體現(xiàn)在:一是統(tǒng)計(jì)學(xué)模型大多建立在財(cái)務(wù)指標(biāo)的基礎(chǔ)上,而對于非財(cái)務(wù)指標(biāo)的舞弊問題則無法引入模型;二是依靠統(tǒng)計(jì)的預(yù)測性分析反映事物的共性規(guī)律,而部分特性問題則無法被識別;三是模型大多研究的是線性關(guān)系,而實(shí)務(wù)中的舞弊路徑更為復(fù)雜,因此會降低預(yù)測結(jié)果的準(zhǔn)確度。
隨著現(xiàn)代信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘獨(dú)有的特點(diǎn)被越來越多的引入到科學(xué)研究當(dāng)中。數(shù)據(jù)挖掘的優(yōu)勢在于,通過從數(shù)據(jù)池中篩選出的有效信息,并利用計(jì)算機(jī)高效的信息處理能力進(jìn)行不同算法的學(xué)習(xí),從而得到一個或多個數(shù)學(xué)模型,利用得到的模型進(jìn)行分類和預(yù)測,克服了傳統(tǒng)統(tǒng)計(jì)學(xué)模型的單一線性要求,大幅度提高了識別的有效性。
神經(jīng)網(wǎng)絡(luò)是最早運(yùn)用到財(cái)務(wù)舞弊識別中的數(shù)據(jù)挖掘技術(shù),與統(tǒng)計(jì)學(xué)模型不同的是,變量之間的線性關(guān)系并不是神經(jīng)網(wǎng)絡(luò)技術(shù)的必要條件,因此,模型的適用范圍更廣,總體的預(yù)測正確率也較高。但是,由于神經(jīng)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)類似于“黑箱”,無法對連接權(quán)重進(jìn)行明顯的解釋,因此不能確定結(jié)果的統(tǒng)計(jì)可信度。選擇其他數(shù)據(jù)挖掘技術(shù)并應(yīng)用于財(cái)務(wù)舞弊識別問題成為未來研究的重點(diǎn)方向。
“大數(shù)據(jù)”已成為當(dāng)今社會的“高頻詞”,在數(shù)據(jù)爆炸的時代,有效地對海量數(shù)據(jù)進(jìn)行捕捉、存儲、管理和分析能夠推動整個社會的信息化發(fā)展。大數(shù)據(jù)之于政府,是提升效能的手段;大數(shù)據(jù)之于經(jīng)濟(jì),驅(qū)動增長的新動力;大數(shù)據(jù)之于人們,將改變傳統(tǒng)生活模式。正如愛德華·戴明所說:“任何人都必須用數(shù)據(jù)來說話。”因此,毫不夸張地說,大數(shù)據(jù)戰(zhàn)略將是爭奪全世界的下一個前沿。
托馬斯·H·達(dá)文波特曾說:“每一個組織都需要選定分析軟件,用它來挖掘數(shù)據(jù)的意義”。數(shù)據(jù)挖掘(DataMining,DM)的概念最早出現(xiàn)在1995年的美國計(jì)算機(jī)年會(ACM)上,其實(shí)質(zhì)是利用計(jì)算機(jī)系統(tǒng),對相關(guān)數(shù)據(jù)進(jìn)行處理。整個過程設(shè)計(jì)多種學(xué)科,是一項(xiàng)綜合性的技術(shù)。數(shù)據(jù)挖掘的核心是利用計(jì)算機(jī)算法對已知有效的輸入數(shù)據(jù)和輸出數(shù)據(jù)進(jìn)行訓(xùn)練,并對訓(xùn)練得出的模型進(jìn)行反復(fù)驗(yàn)證,使得模型能夠在一定程度上反映出輸入數(shù)據(jù)和輸出數(shù)據(jù)的關(guān)系。由于該模型經(jīng)過了大量的練習(xí)和驗(yàn)證,因此具有一定的科學(xué)依據(jù)。再利用得到的模型,對新的數(shù)據(jù)進(jìn)行計(jì)算,從而得到新的預(yù)測結(jié)果,這就是數(shù)據(jù)挖掘的基本原理。
數(shù)據(jù)挖掘的主要內(nèi)容可以概括為六個方面,即關(guān)聯(lián)、回歸、分類、聚類、預(yù)測和診斷。它們不僅在挖掘的目的和內(nèi)容上不同,所使用的技術(shù)差別也很大,所以通常也將數(shù)據(jù)挖掘的技術(shù)按照這六個方面來分類。
關(guān)聯(lián):數(shù)據(jù)關(guān)聯(lián)是旨在從大量的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)特征之間或者數(shù)據(jù)之間的相互依賴關(guān)系。關(guān)聯(lián)是指多個不同變量在取值范圍之間存在一定的規(guī)律性。對數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析主要是為了解決數(shù)據(jù)之間隱藏的相關(guān)關(guān)系。有時數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系并非憑借經(jīng)驗(yàn)可以得出,因此關(guān)聯(lián)分析生成的規(guī)則具有一定的科學(xué)性和可信性。
回歸:回歸是確定兩種或兩種以上變數(shù)間相互定量關(guān)系的一種統(tǒng)計(jì)分析方法?;貧w是數(shù)據(jù)挖掘中最為基礎(chǔ)的方法,一般應(yīng)用于量化型的問題。常見的回歸函數(shù)分為四類,根據(jù)因變量的個數(shù)不同分為一元回歸函數(shù)和多元回歸函數(shù);根據(jù)函數(shù)類型分為線性回歸函數(shù)和非線性回歸函數(shù)。另外還有兩種特殊的回歸方式,一種是在回歸過程中可以調(diào)整變量數(shù)的回歸方法,成為逐步回歸。另一種是以指數(shù)結(jié)構(gòu)函數(shù)作為回歸模型的回歸方法,成為Logistic回歸。
分類:在數(shù)據(jù)挖掘中分類是最為常見的問題,其典型的應(yīng)用就是根據(jù)事物在數(shù)據(jù)層面表現(xiàn)的特征,對事物進(jìn)行科學(xué)的分類。對于分類問題,人們已經(jīng)研究并總結(jié)出了許多有效的分類方法,到目前為止,已經(jīng)研究出的經(jīng)典分類方法主要包括;決策樹、神經(jīng)網(wǎng)絡(luò)、貝葉斯分類、K-近鄰算法、判別分析、支持向量機(jī)等分類方法。現(xiàn)實(shí)生活中許多領(lǐng)域都需要對對象進(jìn)行分類。例如,在銀行業(yè)務(wù)中,按照風(fēng)險(xiǎn)評價(jià)體系構(gòu)建客戶信用分類模型,據(jù)此決定是否貸款;電子政務(wù)數(shù)據(jù),客戶保持、工業(yè)生產(chǎn)領(lǐng)域等。挖掘財(cái)務(wù)舞弊的識別過程就是分類的過程,將影響財(cái)務(wù)舞弊行為的因素加入模型當(dāng)中,通過各種分類算法生成最有效的模型,以區(qū)分是否發(fā)生財(cái)務(wù)舞弊。
聚類:聚類分析又稱群分析,是對大量樣品進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法。首先分析出各自的特性,在沒有任何規(guī)則可供參考的情況下,將數(shù)據(jù)分類到不同的類或者簇中,因此,相同的類或簇中所包含的樣本具有極大地相似性,不同的類或簇中包含的對象則存在極大地相異性。根據(jù)聚類原理,可將聚類算法分為以下幾種:劃分聚類、層次聚類、基于密度的聚類、基于網(wǎng)絡(luò)的聚類和基于模型的聚類。
預(yù)測:預(yù)測是預(yù)計(jì)未來事件的一門科學(xué),它包含采集歷史數(shù)據(jù)并用某種數(shù)學(xué)模型來預(yù)測未來,它也可以憑借主觀思想對未來進(jìn)行預(yù)期。預(yù)測的意義在于它能夠在根據(jù)客觀規(guī)律,借助大量的數(shù)據(jù)信息和不同情況,勾畫出事物未來的發(fā)展方向,人們在這種大致的輪廓中提出多種具有替代效果的方案,這樣就使人們具有了戰(zhàn)略眼光,并且這種戰(zhàn)略眼光并非臆想而出,而是具有一定的理論基礎(chǔ)。
診斷:在數(shù)據(jù)挖掘中,診斷的對象是離群點(diǎn)或稱為孤立點(diǎn)。離群點(diǎn)是不符合一般數(shù)據(jù)模型的點(diǎn),它們與數(shù)據(jù)的其他部分不同或不一致。產(chǎn)生離群點(diǎn)的原因主要有兩點(diǎn):一是由于度量或執(zhí)行錯誤所導(dǎo)致的,二是固有數(shù)據(jù)可變性所造成的。大多數(shù)據(jù)挖掘算法都不同程度地減小離群點(diǎn)的影響,甚至排除它們。但是信息是否有噪聲往往是相對的,一個人的噪聲信息可能是另一個人的有效信號,一味地刪除離群點(diǎn)可能導(dǎo)致隱藏的重要信息丟失。這種離群點(diǎn)探測和分析簡稱為診斷。
近年來,有不少學(xué)者從關(guān)聯(lián)規(guī)則、模糊集和人工智能等其他方面出發(fā)提出了新的離群點(diǎn)診斷算法,比較典型的有基于關(guān)聯(lián)的方法、基于模糊集的方法、基于人工神經(jīng)網(wǎng)絡(luò)的方法、基于遺傳算法或克隆選擇的方法等。
在大量數(shù)據(jù)日新月異的年代,分析數(shù)據(jù)成為一種重要的需求,尋找從海量數(shù)據(jù)中分析得出有用信息的方法成為當(dāng)下研究的重點(diǎn)和難點(diǎn)。數(shù)據(jù)挖掘技術(shù)作為統(tǒng)計(jì)學(xué)習(xí)的應(yīng)用將會在今后的科學(xué)發(fā)展觀和技術(shù)應(yīng)用中發(fā)揮越來越大的作用。使用數(shù)據(jù)挖掘技術(shù),可以幫助人們發(fā)現(xiàn)數(shù)據(jù)之間隱藏的規(guī)律。數(shù)據(jù)挖掘應(yīng)用于財(cái)務(wù)舞弊識別模型的主要優(yōu)勢體現(xiàn)在以下幾個方面:
首先,數(shù)據(jù)挖掘是處理海量數(shù)據(jù)的有效方法?,F(xiàn)實(shí)中的數(shù)據(jù)不但規(guī)模大,而且常常具有不確定性,數(shù)據(jù)挖掘技術(shù)往往是處理這類數(shù)據(jù)最強(qiáng)有力的工具。它在海量數(shù)據(jù)或者數(shù)據(jù)池中篩選出有用的信息,通過各種不同的計(jì)算方法學(xué)習(xí)到一個或者多個數(shù)學(xué)模型(計(jì)算機(jī)完成),再利用這個模型進(jìn)行分類或者預(yù)測。我們知道,要識別財(cái)務(wù)舞弊需要通過大量的數(shù)據(jù)進(jìn)行分析求證,充分考慮潛在的影響因素,而不是靠經(jīng)驗(yàn)去判斷。數(shù)據(jù)挖掘是在傳統(tǒng)統(tǒng)計(jì)分析方法基礎(chǔ)之上的升級,克服了多種假設(shè)條件,使得生成的模型更具有實(shí)踐性和可應(yīng)用性。
其次,通過前文的理論分析可知,人們的心理、行為和環(huán)境等外部定性因素越來越成為研究財(cái)務(wù)舞弊問題的出發(fā)點(diǎn),而這些定性因素很難用定量的指標(biāo)精準(zhǔn)描述出來,因此傳統(tǒng)統(tǒng)計(jì)分析手段顯得捉襟見肘。而數(shù)據(jù)挖掘則很好地彌補(bǔ)了這塊短板,通過海量數(shù)據(jù)的集成,尋找這些因素的共同特征,通過不斷地機(jī)器學(xué)習(xí)和試驗(yàn),可以近似定量地準(zhǔn)確定描述出指標(biāo)的特征,從而滿足研究的需要。由此可見,對財(cái)務(wù)舞弊這類無法定量描述的社會現(xiàn)象,完全可以借助數(shù)據(jù)庫和計(jì)算機(jī)進(jìn)行深入研究。
最后,使用數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)庫模型則更側(cè)重于實(shí)驗(yàn)的真實(shí)性。在傳統(tǒng)的統(tǒng)計(jì)模型之中,人們通過經(jīng)驗(yàn)分析做出假設(shè),在假設(shè)的基礎(chǔ)上進(jìn)行統(tǒng)計(jì)分析。此時,變量和模型已經(jīng)確定,人們只是關(guān)注模型擬合的優(yōu)劣及指標(biāo)選取對趨勢的影響。但嚴(yán)格意義來說,確定的解釋變量往往不全面,在回歸分析時往往忽視了其他解釋變量對模型的影響,而數(shù)據(jù)挖掘可以很好地對此進(jìn)行補(bǔ)充和完善。
單一使用傳統(tǒng)數(shù)據(jù)分析方式和數(shù)據(jù)大算法都無法達(dá)到高準(zhǔn)確度的預(yù)測模型結(jié)果,需要將兩者有機(jī)結(jié)合,進(jìn)一步對復(fù)雜數(shù)據(jù)進(jìn)行規(guī)律研究,數(shù)據(jù)挖掘技術(shù)為構(gòu)建財(cái)務(wù)舞弊模型奠定了先進(jìn)的技術(shù)可行性。本文通過闡述數(shù)據(jù)挖掘技術(shù)的基本思路和主要內(nèi)容,分析其在財(cái)務(wù)舞弊識別問題中的優(yōu)勢及應(yīng)用。通過將數(shù)據(jù)挖掘技術(shù)應(yīng)用于財(cái)務(wù)舞弊識別問題中,可以對企業(yè)是否存在財(cái)務(wù)舞弊進(jìn)行進(jìn)一步的甄別,提高了報(bào)表信息使用者對財(cái)務(wù)舞弊的識別能力,有利于引導(dǎo)資本的合理配置,維護(hù)資本市場的健康發(fā)展。