摘要:隨著大數(shù)據(jù)技術(shù)的迅速發(fā)展與應(yīng)用,審計(jì)案件線(xiàn)索分類(lèi)面臨著諸多挑戰(zhàn),如數(shù)據(jù)質(zhì)量與準(zhǔn)確性不高、數(shù)據(jù)處理與分析難度增加、數(shù)據(jù)隱私與保密性需強(qiáng)化、缺乏標(biāo)準(zhǔn)與規(guī)范等。針對(duì)這些問(wèn)題,該文提出了相應(yīng)的策略,旨在提高審計(jì)案件線(xiàn)索分類(lèi)的效率與準(zhǔn)確性。同時(shí),本文也可以為其他領(lǐng)域的數(shù)據(jù)分析提供一定的借鑒與參考。
關(guān)鍵詞:大數(shù)據(jù);審計(jì)案件線(xiàn)索;分類(lèi)策略
doi:10.3969/J.ISSN.1672-7274.2024.10.014
中圖分類(lèi)號(hào):F 239;TP 3 文獻(xiàn)標(biāo)志碼:A 文章編碼:1672-7274(2024)10-00-04
Research on the Classification of Audit Case Clues Based on Big Data
Abstract: With the rapid development and application of big data technology, the classification of audit cas+4dTfC3n6nO/QR3SwPGjHUpriYT1IBeqJCB2Sz4mSOg=e clues faces many challenges, such as low data quality and accuracy, increased difficulty in data processing and analysis, need to strengthen data privacy and confidentiality, and lack of standards and norms. In response to these issues, this article proposes corresponding strategies aimed at improving the efficiency and accuracy of audit case clues classification. At the same time, this article can also provide some reference for data analysis in other fields.
Keywords: big data; audit case clues; classification strategy
在當(dāng)今社會(huì),大數(shù)據(jù)技術(shù)的迅速發(fā)展與廣泛應(yīng)用為各個(gè)領(lǐng)域帶來(lái)了巨大的機(jī)遇與挑戰(zhàn)。審計(jì)作為一項(xiàng)涉及大量數(shù)據(jù)與復(fù)雜分析的經(jīng)濟(jì)監(jiān)督活動(dòng),如何有效利用大數(shù)據(jù)技術(shù)進(jìn)行審計(jì)案件線(xiàn)索分類(lèi),提高審計(jì)效率與準(zhǔn)確性,是當(dāng)前審計(jì)行業(yè)面臨的重要問(wèn)題[1]。通過(guò)本研究,我們希望能夠?yàn)閷徲?jì)行業(yè)提供有益的參考,推動(dòng)審計(jì)技術(shù)的創(chuàng)新與發(fā)展,提高審計(jì)工作的效率與準(zhǔn)確性。
1 審計(jì)案件線(xiàn)索分類(lèi)相關(guān)技術(shù)發(fā)展現(xiàn)狀
1.1 數(shù)據(jù)質(zhì)量與準(zhǔn)確性不高
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的來(lái)源與類(lèi)型多種多樣,這使得數(shù)據(jù)的質(zhì)量與準(zhǔn)確性成為一個(gè)重要的問(wèn)題。由于數(shù)據(jù)可能包含各種主觀與客觀的錯(cuò)誤,如遺漏、誤解與錯(cuò)誤,這可能導(dǎo)致審計(jì)線(xiàn)索的誤導(dǎo)與不準(zhǔn)確[2]。此外,不同數(shù)據(jù)源之間的數(shù)據(jù)差異也可能導(dǎo)致審計(jì)線(xiàn)索分類(lèi)的不準(zhǔn)確。
1.2 數(shù)據(jù)處理與分析難度增加
大數(shù)據(jù)的規(guī)模與復(fù)雜性要求審計(jì)師具備更高的數(shù)據(jù)處理與分析能力。他們需要使用更高級(jí)的技術(shù)工具與算法來(lái)處理與分析這些數(shù)據(jù),以便準(zhǔn)確地識(shí)別與分類(lèi)審計(jì)線(xiàn)索[3]。然而,目前許多審計(jì)機(jī)構(gòu)缺乏這方面的技術(shù)與人才,這限制了1Ycw0ViFupgHdBTvXvLYSqSpkFcgU1S2smIXtC1TBO8=大數(shù)據(jù)在審計(jì)中的應(yīng)用與發(fā)展。
1.3 數(shù)據(jù)隱私與保密性需強(qiáng)化
在大數(shù)據(jù)背景下,數(shù)據(jù)的隱私與保密性成為一個(gè)重要的問(wèn)題。審計(jì)師需要采取措施保護(hù)個(gè)人與企業(yè)的敏感信息,防止數(shù)據(jù)泄露與濫用。然而,如何在保護(hù)數(shù)據(jù)隱私與保密性的同時(shí),有效地利用大數(shù)據(jù)技術(shù)進(jìn)行審計(jì)案件線(xiàn)索分類(lèi),是一個(gè)亟待解決的問(wèn)題。
2 基于大數(shù)據(jù)的審計(jì)案件線(xiàn)索分類(lèi)策略
2.1 提高數(shù)據(jù)質(zhì)量與準(zhǔn)確性
第一,建立數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn):根據(jù)審計(jì)需求,建立一套完善的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),包括數(shù)據(jù)的完整性、準(zhǔn)確性、一致性與真實(shí)性等方面。通過(guò)數(shù)據(jù)清洗、驗(yàn)證等手段,提高數(shù)據(jù)的準(zhǔn)確性與質(zhì)量。第二,定期評(píng)估數(shù)據(jù)質(zhì)量:定期對(duì)數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估,發(fā)現(xiàn)數(shù)據(jù)中存在的問(wèn)題與錯(cuò)誤并及時(shí)進(jìn)行糾正與修復(fù)。同時(shí),通過(guò)評(píng)估數(shù)據(jù)質(zhì)量,可以發(fā)現(xiàn)數(shù)據(jù)來(lái)源與數(shù)據(jù)采集等方面存在的問(wèn)題,進(jìn)一步優(yōu)化數(shù)據(jù)采集與數(shù)據(jù)處理流程。第三,強(qiáng)化數(shù)據(jù)質(zhì)量監(jiān)控:在數(shù)據(jù)處理與分析過(guò)程中,需要不斷監(jiān)控?cái)?shù)據(jù)質(zhì)量,及時(shí)發(fā)現(xiàn)與處理數(shù)據(jù)異常與錯(cuò)誤。通過(guò)建立數(shù)據(jù)質(zhì)量監(jiān)控機(jī)制,可以實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)的質(zhì)量與準(zhǔn)確性,保證數(shù)據(jù)的準(zhǔn)確性與可靠性。
2.2 優(yōu)化數(shù)據(jù)處理與分析流程
首先,數(shù)據(jù)預(yù)處理:在進(jìn)行數(shù)據(jù)處理與分析之前,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理包括對(duì)數(shù)據(jù)進(jìn)行清洗、去重、填充缺失值等操作,以保證數(shù)據(jù)的準(zhǔn)確性與可靠性。其次,數(shù)據(jù)分組與分類(lèi):根據(jù)數(shù)據(jù)的特征,將數(shù)據(jù)進(jìn)行分組與分類(lèi)。通過(guò)分組與分類(lèi),能夠?qū)?shù)據(jù)劃分為不同的類(lèi)別與組別,以便后續(xù)的數(shù)據(jù)分析與挖掘。再次,數(shù)據(jù)聚合與匯總:將數(shù)據(jù)進(jìn)行聚合與匯總,將分散的數(shù)據(jù)整合成整體的數(shù)據(jù)。通過(guò)數(shù)據(jù)聚合與匯總,可以發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律與趨勢(shì),為審計(jì)案件線(xiàn)索的分類(lèi)提供有力的支持。最后,數(shù)據(jù)可視化與分析:通過(guò)數(shù)據(jù)可視化與分析工具,將數(shù)據(jù)進(jìn)行可視化展示與分析。通過(guò)可視化展示,能夠更加直觀地展示數(shù)據(jù)的分布與特征,便于發(fā)現(xiàn)數(shù)據(jù)中存在的問(wèn)題與異常。
2.3 強(qiáng)化數(shù)據(jù)隱私與保密性
首先,建立數(shù)據(jù)隱私與保密性政策:制定明確的數(shù)據(jù)隱私與保密性政策,對(duì)數(shù)據(jù)的采集、存儲(chǔ)與使用等方面進(jìn)行規(guī)范與管理。同時(shí),加強(qiáng)對(duì)數(shù)據(jù)使用人員的監(jiān)管與教育,防止數(shù)據(jù)泄露與濫用。其次,數(shù)據(jù)加密與加密存儲(chǔ):采用數(shù)據(jù)加密技術(shù),對(duì)敏感數(shù)據(jù)進(jìn)行加密處理。同時(shí),將加密數(shù)據(jù)存儲(chǔ)在加密存儲(chǔ)設(shè)備中,防止數(shù)據(jù)被非法獲取與利用。再次,數(shù)據(jù)訪(fǎng)問(wèn)權(quán)限控制:對(duì)數(shù)據(jù)的訪(fǎng)問(wèn)權(quán)限進(jìn)行嚴(yán)格控制,只有經(jīng)過(guò)授權(quán)的人員才能訪(fǎng)問(wèn)敏感數(shù)據(jù)。同時(shí),采用多層次的安全審計(jì)機(jī)制,對(duì)數(shù)據(jù)的訪(fǎng)問(wèn)與使用進(jìn)行實(shí)時(shí)監(jiān)控與記錄。最后,數(shù)據(jù)備份與恢復(fù):對(duì)數(shù)據(jù)進(jìn)行定期備份與恢復(fù)操作,以防止數(shù)據(jù)丟失與損壞。同時(shí),采用災(zāi)備恢復(fù)機(jī)制,確保備份數(shù)據(jù)的可用性與完整性。
3 審計(jì)案件標(biāo)簽管理系統(tǒng)設(shè)計(jì)方案
3.1 案件線(xiàn)索標(biāo)簽設(shè)計(jì)及重要性計(jì)算
使用種子線(xiàn)索覆蓋率作為標(biāo)簽重要性的量化指標(biāo),基本步驟如下:
①獲得種子線(xiàn)索CID列表CID_SEED,共計(jì)N個(gè)CID。
②將標(biāo)簽案件線(xiàn)索表與種子線(xiàn)索CID列表內(nèi)關(guān)聯(lián),獲得種子線(xiàn)索標(biāo)簽案件線(xiàn)索表TAG_SEED。
③設(shè)當(dāng)前標(biāo)簽管理系統(tǒng)中基礎(chǔ)標(biāo)簽個(gè)數(shù)為M,在TAG_SEED中對(duì)每個(gè)標(biāo)簽的最新業(yè)務(wù)版本計(jì)算CID個(gè)數(shù)CNT(i),i=1…M。
④每個(gè)標(biāo)簽在種子群體上的覆蓋率為X(i)=CNT(i)/N,i=1…M,覆蓋率越高,重要性越高。
將標(biāo)簽按照重要性進(jìn)行可視化,即確定從標(biāo)簽覆蓋率圖像尺寸空間的一個(gè)單增映射,以體現(xiàn)重要性和覆蓋率正相關(guān)的關(guān)系。
典型的映射F有線(xiàn)性函數(shù)AX+B(A>0,B>0)、指數(shù)函數(shù)AX(A>0)和N次函數(shù)XN(N>1)等。最終上線(xiàn)版本可考慮提供多種函數(shù)接口,呈現(xiàn)不同分布種類(lèi)的云圖(映射的梯度越大,標(biāo)簽重要性的區(qū)分度越大)。
3.2 模型設(shè)計(jì)
3.2.1 模型定義
采用帶正例的無(wú)標(biāo)記樣本學(xué)習(xí)(PU Learning),正例即種子線(xiàn)索??啥x,種子線(xiàn)索(記為P,即Postive)相對(duì)于未標(biāo)注的對(duì)照案件線(xiàn)索群體(記為U,即Unlabled)來(lái)說(shuō),規(guī)模要小得多。PU學(xué)習(xí)的主要步驟有:
①根據(jù)P線(xiàn)索在U中找出可靠的負(fù)樣本集合RN(Reliable Negative),以便將PU問(wèn)題轉(zhuǎn)換為經(jīng)典的二分類(lèi)問(wèn)題。
②使用P和RN分別作為正負(fù)樣本,訓(xùn)練分類(lèi)模型。
3.2.2 確立可靠負(fù)樣本
常用的算法有樸素貝葉斯、Rocchio、SPY、1-DNF等。綜合考慮基礎(chǔ)標(biāo)簽定義形式和當(dāng)前標(biāo)簽管理系統(tǒng)存儲(chǔ)結(jié)構(gòu),優(yōu)先考慮1-DNF算法。
1-DNF算法基本思想是:對(duì)于每個(gè)特征,如果其在P集合中的出現(xiàn)頻次大于N集合,記該特征為正特征(Positive Feature,PF),所有滿(mǎn)足該條件的特征組成一個(gè)PF集合。對(duì)U中的每個(gè)樣本,如果其完全不包含PF集合中的任意一個(gè)特征,則該樣本應(yīng)加入RN。算法步驟描述如下:
①PF置空,RN=U。
②設(shè)的特征集為。
實(shí)現(xiàn)方法及主要問(wèn)題。從上一步做完獨(dú)熱編碼的模型寬表出發(fā)進(jìn)行上述算法操作,一個(gè)可行的通過(guò)基本數(shù)據(jù)轉(zhuǎn)換(查詢(xún)語(yǔ)句)實(shí)現(xiàn)的步驟如下:
①設(shè)寬表字段為CID,X1,…,XN,IS_P。其中X1到XN為N個(gè)0-1特征,IS_P為是否正例的0-1標(biāo)記。生成如下2N個(gè)新列:Pi=Xi*IS_P, Ui=Xi*(1-IS_P),i=1 to N。
②對(duì)P1,…,PN和U1,…,UN字段全表Group By求和得到一個(gè)維度為1*2N的橫表,結(jié)構(gòu)為SUM_P1,…,SUM_PN,SUM_U1,…,SUM_UN。
③使用寬轉(zhuǎn)長(zhǎng)操作將上表轉(zhuǎn)成N*3維的豎表,字段為FEATURE_INDEX,SUM_P,SUM_U,其中FEATURE_INDEX值為“X1,…,XN”。
④對(duì)豎表通過(guò)條件SUM_P/|P|>SUM_U/|U|進(jìn)行過(guò)濾,留下的FEATURE_INDEX用來(lái)表征PF特征集,假設(shè)剩下n個(gè)特征。
⑤將上一步的FEATURE_INDEX做長(zhǎng)轉(zhuǎn)寬操作變?yōu)榫S度為1*n的寬表,列名為Xa1,Xa2,…,Xan。其中a1到an為1到N的一個(gè)子集,n≤N。表的值為常數(shù)0。
將原始寬表和第c229a2df00bd77be5fa52c86f6084266cfb1269e6ccdd0c083f463c313d13471⑤步中的橫表用(Xa1,Xa2,…,Xan)組合鍵做內(nèi)關(guān)聯(lián),關(guān)聯(lián)所得的CID即為RN集合。
與特征集轉(zhuǎn)換過(guò)程一樣,該步驟的主要問(wèn)題還是需要確保編碼的參數(shù)泛化問(wèn)題,如上述過(guò)程中的N。
3.2.3 模型訓(xùn)練及算法選擇
確定可靠負(fù)樣本之后,將其作為負(fù)樣本與種子線(xiàn)索所代表的正樣本合并即可使用分類(lèi)器訓(xùn)練模型。我們分別嘗試邏輯回歸和Xgboost算法。最終上線(xiàn)版本(或者均上線(xiàn)提供模型選項(xiàng))取決于平臺(tái)實(shí)際情況和后續(xù)測(cè)試結(jié)果。
3.2.3.1 邏輯回歸
邏輯回歸屬于經(jīng)典的廣義線(xiàn)性模型,我們的問(wèn)題屬于二項(xiàng)邏輯回歸模型:
式中,X∈R是自變量;Y∈0,1是輸出;w為權(quán)值向量;b為偏置;w·x是w和的內(nèi)積。
設(shè)訓(xùn)練集中有N個(gè)樣本。假設(shè):
則似然函數(shù)為:
對(duì)其求對(duì)數(shù)似然函數(shù)有:
從而對(duì)求得極大值,得到w的估計(jì)值。求極值的方法可以是梯度下降法、梯度上升法等。
主要實(shí)現(xiàn)步驟有:
(1)生成訓(xùn)練數(shù)據(jù)。將正樣本集P與上一步中獲得的可靠負(fù)樣本集RN合并,統(tǒng)計(jì)正樣本率,即Target Rate。如果Target Rate過(guò)于不平衡(<1%或>99%)則應(yīng)考慮重新抽樣使得正、負(fù)樣本平衡——當(dāng)RN過(guò)大,則對(duì)RN集進(jìn)行抽樣;當(dāng)P過(guò)大則對(duì)P進(jìn)行抽樣。邏輯回歸效果不受輕度樣本不均的影響,因其損失函數(shù)不是由正確率來(lái)決定的,而是計(jì)算最大似然值。這一步最終生成訓(xùn)練數(shù)據(jù)。
將邏輯回歸算法進(jìn)行編碼。一般的做法是將開(kāi)源的算法包接入大數(shù)據(jù)平臺(tái)對(duì)訓(xùn)練數(shù)據(jù)使用算法獲得模型參數(shù),如spark的MLlib包即提供邏輯回歸的算法功能。
由于邏輯回歸模型參數(shù)計(jì)算的最大似然問(wèn)題較為簡(jiǎn)單,開(kāi)發(fā)者直接使用編程語(yǔ)言也能輕易實(shí)現(xiàn)。例如,可采用隨機(jī)梯度上升法最大化,迭代函數(shù)為
其中為梯度向量,分量為的偏導(dǎo),即
故隨機(jī)梯度上升迭代算法為
重復(fù)下面直到收斂
3.2.3.2 Xgboost
Xgboost是適用于大規(guī)模并行運(yùn)算的提升樹(shù)開(kāi)源工具包,大量數(shù)據(jù)挖掘競(jìng)賽選手采用它,展現(xiàn)了強(qiáng)大的威力。同時(shí)該算法包的擴(kuò)展性和可移植性強(qiáng),便于工業(yè)界大規(guī)模問(wèn)題的解決。在當(dāng)前問(wèn)題中的實(shí)現(xiàn)步驟與邏輯回歸方法類(lèi)似,包括:
(1)生成訓(xùn)練數(shù)據(jù)。由于Xgboost是多個(gè)回歸樹(shù)的“加法”,故對(duì)于樣本不平衡的處理方法與邏輯回歸類(lèi)似。在極度不平衡的情況下需要進(jìn)行重抽樣處理。
使用Xgboost算法包對(duì)訓(xùn)練數(shù)據(jù)運(yùn)行模型算法,生產(chǎn)成模型框架Object。使用何種語(yǔ)言編碼取決于大數(shù)據(jù)平臺(tái)的版本,并且需要仔細(xì)進(jìn)行測(cè)試,保證算法包使用正確、結(jié)果可靠。無(wú)須算法層面的編碼,因?yàn)閄gboost包提供多種接口,包括C++、R、Python、Julia和Java。甚至,許多開(kāi)源工作者開(kāi)發(fā)了在多種分布式計(jì)算系統(tǒng)上直接能夠使用的API,通過(guò)正確的流程控制和API5CSKRcP4MPtNAcljfFof4A==使用編碼,能輕松地實(shí)現(xiàn)Xgboost算法快速和高效的功能。例如,Xgboost4J是一個(gè)能同時(shí)在Spark、Flink和Dataflow等JVM平臺(tái)上使用的便攜式API。通過(guò)它即可引用Xgboost包中的各種功能。
(2)模型打分。使用上一步生成的模型object對(duì)測(cè)試集上的樣本點(diǎn)進(jìn)行打分。
之后投產(chǎn)的步驟需要在U集線(xiàn)索上進(jìn)行打分,輸出的正例概率值可作為同P正例線(xiàn)索相似度的度量衡。
4 模型評(píng)估
由于該問(wèn)題是半監(jiān)督問(wèn)題,只有正例的實(shí)際結(jié)果,無(wú)法在全量數(shù)據(jù)上進(jìn)行模型和實(shí)際結(jié)果的對(duì)比驗(yàn)證。不過(guò),依然可以從以下兩方面入手,評(píng)估模型效果:
(1)評(píng)估帶“可靠負(fù)樣本”標(biāo)簽的分類(lèi)模型本身的效果。使用傳統(tǒng)的ROC曲線(xiàn)、AUC、KS值及混淆矩陣等。根據(jù)實(shí)際需求可以考慮在系統(tǒng)中開(kāi)放相關(guān)指標(biāo)的可視化接口,供業(yè)務(wù)人員參考。
(2)可以單純研究模型在“正例”上的分?jǐn)?shù)分布。正例上的分布越一致地接近1,說(shuō)明正例的統(tǒng)一性以及同其他樣本的區(qū)分度越高。
5 審計(jì)案件標(biāo)簽管理系統(tǒng)技術(shù)效果
審計(jì)案件標(biāo)簽管理系統(tǒng)使用了半監(jiān)督的機(jī)器學(xué)習(xí)及算法來(lái)實(shí)現(xiàn)案件、線(xiàn)索的智能分類(lèi),隨著時(shí)間的推移和使用次數(shù)的增多,該分類(lèi)模型將越來(lái)越精細(xì),越來(lái)越準(zhǔn)確。同時(shí),該發(fā)明可協(xié)助企業(yè)廉政部門(mén)快速對(duì)案件進(jìn)行分類(lèi),并能協(xié)助客戶(hù)系統(tǒng)快速羅列出歷史案件信息,并展示出歷史優(yōu)秀案件辦理過(guò)程,提升案件辦理效果和線(xiàn)索采納效率。
總之,通過(guò)對(duì)大數(shù)據(jù)技術(shù)的深入分析與應(yīng)用,我們提出了一系列策略與方法,旨在提高審計(jì)案件線(xiàn)索分類(lèi)的效率與準(zhǔn)確性。我們針對(duì)一系列問(wèn)題,提出了相應(yīng)的解決策略。然而,盡管我們?cè)诨诖髷?shù)據(jù)的審計(jì)案件線(xiàn)索分類(lèi)方面取得了一定的成果,但仍有許多問(wèn)題需要深入研究與探討??偟膩?lái)說(shuō),本文的研究為審計(jì)行業(yè)提供了有益的參考與指導(dǎo),為推動(dòng)審計(jì)技術(shù)的創(chuàng)新與發(fā)展、提高審計(jì)工作的效率與準(zhǔn)確性做出了貢獻(xiàn)。同時(shí),本研究也可以為其他領(lǐng)域的數(shù)據(jù)分析提供一定的借鑒與參考。
參考文獻(xiàn)
[1] 周海鷹.基于協(xié)同治理視角的審計(jì)案件線(xiàn)索移送機(jī)制研究[J].財(cái)會(huì)通訊,2021(19):120-124.
[2] 謝秋玲.審計(jì)證據(jù)鏈在經(jīng)濟(jì)案件中的司法運(yùn)用[J].審計(jì)文摘,2022(11):92-95.
[3] 王陽(yáng),杜霞.高校審計(jì)線(xiàn)索分析方法探究[J].審計(jì)與理財(cái),2022(3):14-16.