摘要:該文通過(guò)分析運(yùn)營(yíng)商業(yè)務(wù)系統(tǒng)多年的用戶操作日志數(shù)據(jù),運(yùn)用機(jī)器學(xué)習(xí)技術(shù)揭示了各應(yīng)用系統(tǒng)在業(yè)務(wù)操作中敏感數(shù)據(jù)操作風(fēng)險(xiǎn)、業(yè)務(wù)違規(guī)操作風(fēng)險(xiǎn)及審計(jì)漏洞。針對(duì)這些問(wèn)題,提出了加強(qiáng)數(shù)據(jù)監(jiān)控、深化業(yè)務(wù)關(guān)系分析及完善事后審查等建議。希望該文可以為相關(guān)企業(yè)在用戶行為審計(jì)工作中提供一定的參考,從而讓智能化審計(jì)能力更好地服務(wù)于審計(jì)工作,由此實(shí)現(xiàn)自動(dòng)化、實(shí)時(shí)化愿景,通過(guò)多維度數(shù)據(jù)分析深化風(fēng)險(xiǎn)識(shí)別,構(gòu)建風(fēng)險(xiǎn)預(yù)警模型,提升應(yīng)對(duì)能力,提升審計(jì)風(fēng)險(xiǎn)管理水平。
關(guān)鍵詞:機(jī)器學(xué)習(xí);行為審計(jì);智能審計(jì)
doi:10.3969/J.ISSN.1672-7274.2024.10.049
中圖分類號(hào):F 239;TP 181 文獻(xiàn)標(biāo)志碼:B 文章編碼:1672-7274(2024)10-0-04
Application of Machine Learning in User Behavior Audit
Abstract: By analyzing the user operation log data of operator business system for many years, this paper uses machine learning technology to reveal the sensitive data operation risk, business violation operation risk and audit vulnerability of each application system in business operation. To solve these problems, some suggestions are put forward, such as strengthening data monitoring, deepening business relationship analysis and improving post-examination. It is hoped that this paper can provide some reference for relevant enterprises in user behavior audit, so that intelligent audit capability can better serve audit work, so as to realize the vision of automation and real-time, deepen risk identification through multidimensional data analysis, build risk early warning model to improve response ability, and improve audit risk management level.
Keywords: machine learning; behavior audit; intelligent audit
0 引言
數(shù)字化時(shí)代,隨著企業(yè)信息化程度的不斷加深,用戶行為數(shù)據(jù)已成為企業(yè)運(yùn)營(yíng)和安全管理中不可或缺的一部分。用戶行為審計(jì)作為監(jiān)控和分析用戶活動(dòng)、確保業(yè)務(wù)合規(guī)性和安全性的重要手段,正面臨著前所未有的挑戰(zhàn)。經(jīng)對(duì)比分析可知,傳統(tǒng)的用戶行為審計(jì)方法往往依賴于日志分析、規(guī)則匹配等技術(shù),然而這些方法在處理海量、高維、復(fù)雜的用戶行為數(shù)據(jù)時(shí),卻難以準(zhǔn)確捕捉異常行為模式,及時(shí)預(yù)警潛在風(fēng)險(xiǎn)[1]。
近年來(lái),隨著人工智能技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)憑借著能夠深入挖掘用戶行為數(shù)據(jù)中的隱藏規(guī)律和潛在風(fēng)險(xiǎn)在審計(jì)分析領(lǐng)域得到了一定范圍的應(yīng)用。為進(jìn)一步展示機(jī)器學(xué)習(xí)在用戶行為審計(jì)中的巨大潛力,本文以運(yùn)營(yíng)商某業(yè)務(wù)系統(tǒng)為例,將該業(yè)務(wù)系統(tǒng)全體用戶作為審計(jì)研究對(duì)象,探討機(jī)器學(xué)習(xí)在該機(jī)構(gòu)用戶行為審計(jì)中的應(yīng)用,并總結(jié)其運(yùn)行思路,以期為更多企業(yè)在今后的數(shù)字化轉(zhuǎn)型中提供更為高效、精準(zhǔn)的安全防護(hù)手段。
1 用戶操作的數(shù)據(jù)采集及處理
1.1 數(shù)據(jù)采集
經(jīng)調(diào)研可知,當(dāng)前該業(yè)務(wù)系統(tǒng)目前主要以敏感數(shù)據(jù)查詢和數(shù)據(jù)維護(hù)為主。而無(wú)論是哪種業(yè)務(wù)操作,都存在一定的敏感數(shù)據(jù)操作風(fēng)險(xiǎn)。本文針對(duì)敏感數(shù)據(jù)源的數(shù)據(jù)采集、分析、匯總,借助業(yè)務(wù)系統(tǒng)內(nèi)部員工的系統(tǒng)操作日志進(jìn)行數(shù)據(jù)采集并保障數(shù)據(jù)的完整性。
1.2 數(shù)據(jù)處理
1.2.1 批量業(yè)務(wù)操作識(shí)別
用戶數(shù)據(jù)處理的判斷依據(jù)是基于用戶操作行為的一致性和連續(xù)性,以及系統(tǒng)日志的變化情況。具體而言,當(dāng)系統(tǒng)日志從A切換到B時(shí),通常意味著用戶環(huán)境或操作場(chǎng)景發(fā)生了顯著變化。在這種變化下,如果用戶需要重新登錄,或者即使不需要登錄也需要花費(fèi)較長(zhǎng)時(shí)間(如1到2分鐘),產(chǎn)生的數(shù)據(jù)泄露等問(wèn)題[2]。基于這一用戶操作原理,本文將用戶操作風(fēng)險(xiǎn)主要?jiǎng)澐譃橐韵聨追N。
(1)身份驗(yàn)證風(fēng)險(xiǎn):當(dāng)用戶登錄某敏感系統(tǒng)從一個(gè)常用終端切換至另一個(gè)時(shí),則存在身份驗(yàn)證被繞過(guò)或假冒的風(fēng)險(xiǎn),攻擊者可能利用這一時(shí)機(jī),通過(guò)偽造身份或利用漏洞進(jìn)行非法登錄。
(2)數(shù)據(jù)泄露風(fēng)險(xiǎn):用戶登錄敏感系統(tǒng)進(jìn)行上傳或下載數(shù)據(jù)等操作,往往需要一定的時(shí)間,此過(guò)程中數(shù)據(jù)容易被攻擊者盜取或篡改,進(jìn)而導(dǎo)致敏感數(shù)據(jù)在傳輸或存儲(chǔ)過(guò)程中泄露。
(3)會(huì)話劫持風(fēng)險(xiǎn):在系統(tǒng)日志切換過(guò)程中,如果會(huì)話管理不當(dāng),攻擊者可能利用會(huì)話標(biāo)識(shí)符(如Session ID)劫持用戶的會(huì)話,從而控制用戶賬號(hào)進(jìn)行非法操作。
(4)操作異常風(fēng)險(xiǎn):用戶操作行為的突然變化,如頻繁切換系統(tǒng)日志、操作異常等,也可能是內(nèi)部欺詐或外部攻擊的征兆。
因此,本文將基于機(jī)器學(xué)習(xí)技術(shù),將審計(jì)數(shù)據(jù)按照用戶操作劃分,并根據(jù)用戶操作連續(xù)性對(duì)數(shù)據(jù)進(jìn)行編號(hào)分組。
1.2.2 構(gòu)建用戶關(guān)系
經(jīng)調(diào)研可知,用戶之間的關(guān)系十分錯(cuò)綜復(fù)雜,他們既有直接的關(guān)系,如上下級(jí)關(guān)系、同事關(guān)系等,同事也有間接的關(guān)系,如通過(guò)共同行為、操作記錄等建立的關(guān)聯(lián)。因此在業(yè)務(wù)系統(tǒng)審計(jì)中,識(shí)別和理解用戶之間的這些關(guān)系對(duì)于發(fā)現(xiàn)潛在的風(fēng)險(xiǎn)和違規(guī)行為至關(guān)重要。
本文以該業(yè)務(wù)系統(tǒng)某一年典型審計(jì)案例為例,在第三季度,審計(jì)團(tuán)隊(duì)發(fā)現(xiàn)了一批敏感數(shù)據(jù),這些數(shù)據(jù)顯示某些用戶頻繁地進(jìn)行數(shù)據(jù)修改、保存、查詢操作,且這些操作與他們的日常業(yè)務(wù)活動(dòng)不符。進(jìn)一步分析發(fā)現(xiàn),這些用戶之間存在著大量的同時(shí)操作記錄,這表明他們之間很可能建立了某種緊密的聯(lián)系。為了更清晰地展示用戶之間的關(guān)系,本文基于機(jī)器學(xué)習(xí)技術(shù),對(duì)用戶操作數(shù)據(jù)進(jìn)行分組和編號(hào),如表1所示。本文通過(guò)比較用戶工號(hào)、操作時(shí)間、系統(tǒng)日志等信息,將具有相似操作行為的用戶劃分一組并賦予組號(hào),旨在更為直觀地觀察哪些用戶之間存在緊密聯(lián)系,以及他們之間的操作行為是否具有一致性或連續(xù)性。
由表1可知,根據(jù)第一組數(shù)據(jù)(組號(hào)為1),在節(jié)點(diǎn)A、B、C之間構(gòu)建關(guān)系,形成第一組關(guān)系圖。首先,這里節(jié)點(diǎn)A和B都涉及了頻繁信息修改的操作,而節(jié)點(diǎn)C則涉及敏感信息查詢操作,盡管操作類型不完全相同,但由于它們?cè)谕唤M內(nèi),因此本文認(rèn)為節(jié)點(diǎn)A、B、C之間存在一定的關(guān)聯(lián);其次,根據(jù)第二組數(shù)據(jù)(組號(hào)為2),在節(jié)點(diǎn)C、B、D之間構(gòu)建關(guān)系,形成第二組關(guān)系圖。在這一組中,節(jié)點(diǎn)C和D都涉及敏感信息查詢的操作,而節(jié)點(diǎn)B則再次出現(xiàn)在了頻繁信息修改操作中。這進(jìn)一步強(qiáng)化了節(jié)點(diǎn)B與其他用戶之間的關(guān)聯(lián),尤其是與節(jié)點(diǎn)C的關(guān)聯(lián),因?yàn)镃同時(shí)出現(xiàn)在了兩個(gè)組中;最后,將這兩組關(guān)系合并后,由此得到如圖1所示的一個(gè)新的關(guān)系。在這個(gè)圖中,節(jié)點(diǎn)B和C之間由于同時(shí)出現(xiàn)在了兩個(gè)組中,因此它們之間的權(quán)重為2,這表明節(jié)點(diǎn)B和C之間的關(guān)系確實(shí)比它們與其他節(jié)點(diǎn)的關(guān)系更加緊密。這種緊密關(guān)系可能暗示著節(jié)點(diǎn)B和C之間有著某種共同的業(yè)務(wù)活動(dòng)或利益關(guān)聯(lián),需要進(jìn)一步通過(guò)審計(jì)和調(diào)查來(lái)確認(rèn)。
基于思路,本文在SQLServer數(shù)據(jù)庫(kù)中對(duì)該業(yè)務(wù)系統(tǒng)的全部數(shù)據(jù)進(jìn)行梳理統(tǒng)計(jì),并借助Python的NetworkX包在FR布局算法下進(jìn)行可視化展示,得出圖2完整用戶關(guān)系圖。
需要說(shuō)明的是,圖2中實(shí)線表示邊的權(quán)重大于2,而虛線則表示邊的權(quán)重小于等于2。
2 基于機(jī)器學(xué)習(xí)的客戶關(guān)系分析
2.1 樣本訓(xùn)練
為更好地識(shí)別及分析用戶操作數(shù)據(jù)中的敏感數(shù)據(jù),提取了業(yè)務(wù)系統(tǒng)一年的歷史資料,由此構(gòu)建了一套基于當(dāng)年年度的歷史資料的回歸模型,并以過(guò)去10年的系統(tǒng)操作日志為研究對(duì)象,進(jìn)行了滑動(dòng)交叉驗(yàn)證的樣本訓(xùn)練,其過(guò)程如圖3所示。
2.2 數(shù)據(jù)降噪
為進(jìn)一步減少數(shù)據(jù)中的噪聲和異常值,提高模型的準(zhǔn)確性和可靠性,本文首先通過(guò)數(shù)據(jù)清洗步驟,識(shí)別并去除了那些明顯不符合邏輯或業(yè)務(wù)規(guī)則的數(shù)據(jù)記錄,如時(shí)間戳錯(cuò)誤、數(shù)據(jù)異常(如修改、查詢過(guò)于頻繁)等。其次,本文又應(yīng)用基于統(tǒng)計(jì)學(xué)的數(shù)據(jù)平滑技術(shù),計(jì)算了每個(gè)特征字段(如修改、查詢時(shí)間等)的均值、標(biāo)準(zhǔn)差等統(tǒng)計(jì)量,并根據(jù)這些統(tǒng)計(jì)量設(shè)定了合理的閾值范圍[3]。對(duì)于超出這些閾值的數(shù)據(jù)點(diǎn),本文采用平滑處理的方法,如平均值替代、中位數(shù)替代或回歸預(yù)測(cè)值替代,以減少其對(duì)整體數(shù)據(jù)集的負(fù)面影響。最后,為了進(jìn)一步提高數(shù)據(jù)質(zhì)量,本文還采用了聚類分析的方法,通過(guò)將數(shù)據(jù)集中的樣本劃分為若干個(gè)群組,使得同一群組內(nèi)的樣本之間具有較高的相似性,而不同群組間的樣本則具有較大的差異性。其目的不僅可以減少噪聲數(shù)據(jù)對(duì)模型的影響,而且還可以更好地理解用戶行為的多樣性和復(fù)雜性。如圖4所示。
2.3 關(guān)系分析
在剖析客戶關(guān)系圖時(shí),雖然圖4基于多個(gè)獨(dú)立聯(lián)通子圖揭示了“客戶團(tuán)伙”的清晰界限,簡(jiǎn)化了初步識(shí)別的過(guò)程。但面對(duì)完整用戶關(guān)系圖的復(fù)雜場(chǎng)景,必然會(huì)將多個(gè)團(tuán)伙因人員眾多或偶然性關(guān)聯(lián)而交織在一起。因此為應(yīng)對(duì)這一挑戰(zhàn),本文引入了社區(qū)發(fā)現(xiàn)算法,旨在提升模型在復(fù)雜網(wǎng)絡(luò)中的適用性和準(zhǔn)確性。如圖5所示,基于社區(qū)發(fā)現(xiàn)算法的機(jī)器學(xué)習(xí)技術(shù),能夠有效識(shí)別網(wǎng)絡(luò)中具有高度內(nèi)聚性和相似性的節(jié)點(diǎn)集合,即“社區(qū)”或“團(tuán)伙”。
在眾多社區(qū)發(fā)現(xiàn)算法中,筆者發(fā)現(xiàn)經(jīng)過(guò)多輪實(shí)驗(yàn)與測(cè)試,其中的標(biāo)簽傳播算法(Label Propagation Algorithm,LPA)不僅操作簡(jiǎn)單高效,而且易于實(shí)現(xiàn)且能夠處理好大規(guī)模網(wǎng)絡(luò)數(shù)據(jù),因此,本文通過(guò)應(yīng)用LPA算法對(duì)原有的獨(dú)立團(tuán)伙進(jìn)行識(shí)別,以期可以解析那些因復(fù)雜關(guān)聯(lián)而難以區(qū)分的節(jié)點(diǎn)群。最終,經(jīng)算法通過(guò)運(yùn)行后,對(duì)屬于同一團(tuán)伙的客戶進(jìn)行了顏色編碼標(biāo)注,得出了如圖6所示結(jié)果。其中,節(jié)點(diǎn)最多的聯(lián)通子圖內(nèi)的團(tuán)伙識(shí)別尤為清晰,提供了直觀的團(tuán)伙結(jié)構(gòu)視圖。
3 人工核查的審計(jì)成果分析
完成團(tuán)伙識(shí)別后,筆者對(duì)該業(yè)務(wù)系統(tǒng)日志中存在敏感操作數(shù)據(jù)較多的人員進(jìn)行抽取,并基于全部用戶關(guān)系進(jìn)行劃分后的關(guān)系圖進(jìn)行重點(diǎn)核查,進(jìn)而得到了如圖7所示的團(tuán)伙作案結(jié)果。
通過(guò)本次審計(jì),發(fā)現(xiàn)第三季度的個(gè)人業(yè)務(wù)操作中存在多起敏感數(shù)據(jù),并基于這些數(shù)據(jù)進(jìn)行了調(diào)研,最終確實(shí)發(fā)現(xiàn)了存在審計(jì)問(wèn)題的不良事件,涉及敏感數(shù)據(jù)泄露。通過(guò)此次基于機(jī)器學(xué)習(xí)的用戶行為審計(jì),筆者協(xié)助該機(jī)構(gòu)責(zé)令相關(guān)部門整改,很好地規(guī)避了數(shù)據(jù)泄露事件發(fā)生。
4 結(jié)束語(yǔ)
本文通過(guò)對(duì)運(yùn)營(yíng)商業(yè)務(wù)系統(tǒng)一年的歷史操作日志數(shù)據(jù)進(jìn)行深入分析,特別是在用戶操作數(shù)據(jù)采集、處理及用戶關(guān)系分析的基礎(chǔ)上,發(fā)現(xiàn)了該機(jī)構(gòu)在業(yè)務(wù)操作中存在的幾大問(wèn)題:一是部分用戶在操作過(guò)程中存在頻繁修改信息和查詢敏感信息的行為,增加了敏感數(shù)據(jù)的風(fēng)險(xiǎn);二是該機(jī)構(gòu)存在多個(gè)員工利用復(fù)雜關(guān)系網(wǎng)絡(luò)進(jìn)行批量化業(yè)務(wù)操作行為,這些行為嚴(yán)重造成了數(shù)據(jù)泄露風(fēng)險(xiǎn),并可能對(duì)業(yè)務(wù)系統(tǒng)敏感數(shù)據(jù)造成重大損失;三是部分?jǐn)?shù)據(jù)修改及查詢行為實(shí)際是企業(yè)所為,但名義上卻由個(gè)人承擔(dān),這表明業(yè)務(wù)操作及檢查存在嚴(yán)重漏洞,未能及時(shí)發(fā)現(xiàn)并阻止此類違規(guī)行為。據(jù)此,本文通過(guò)數(shù)字審計(jì)有效排查了數(shù)據(jù)數(shù)據(jù)泄露風(fēng)險(xiǎn)。
而在未來(lái)的審計(jì)工作中,建議該機(jī)構(gòu)以及更多類似業(yè)務(wù)系統(tǒng)需要加強(qiáng)數(shù)據(jù)監(jiān)控與分析,通過(guò)建立更加完善的數(shù)據(jù)采集與處理機(jī)制,利用先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)實(shí)時(shí)監(jiān)控用戶操作行為,繼續(xù)優(yōu)化用戶關(guān)系分析模型,提高團(tuán)伙識(shí)別和復(fù)雜關(guān)系網(wǎng)絡(luò)解析能力,確保敏感數(shù)據(jù)用途的真實(shí)性和合規(guī)性,提高風(fēng)險(xiǎn)應(yīng)對(duì)的效率。通過(guò)平臺(tái)的廣泛應(yīng)用,或是結(jié)合大數(shù)據(jù)、云計(jì)算等先進(jìn)技術(shù),實(shí)現(xiàn)多維度、多層次的數(shù)據(jù)分析,發(fā)現(xiàn)更多隱藏的風(fēng)險(xiǎn)和問(wèn)題,為審計(jì)工作提供更加全面的支持。
參考文獻(xiàn)
[1] 崔景洋,陳振國(guó),田立勤,等.基于機(jī)器學(xué)習(xí)的用戶與實(shí)體行為分析技術(shù)綜述[J].計(jì)算機(jī)工程,2022,48(2):15-30.
[2] 郭迅華,吳鼎,衛(wèi)強(qiáng),等.機(jī)器學(xué)習(xí)與用戶行為中的偏差問(wèn)題:知偏識(shí)正的洞察[J].管理世界,2023,39(5):145-159.
[3] 吳勇,方君,王尚純,等.基于機(jī)器學(xué)習(xí)模型的審計(jì)應(yīng)用:內(nèi)涵,模式與風(fēng)險(xiǎn)[J].中國(guó)注冊(cè)會(huì)計(jì)師,2021(9):34-40.