国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)背景下審計數(shù)據(jù)采集技術(shù)與方法的研究

2020-10-09 11:26:24徐超
會計之友 2020年19期
關(guān)鍵詞:數(shù)據(jù)采集

【摘 要】 審計數(shù)據(jù)的采集是進行大數(shù)據(jù)審計的基礎(chǔ),審計數(shù)據(jù)采集質(zhì)量直接關(guān)系到審計結(jié)果,因此,在大數(shù)據(jù)背景下進行審計數(shù)據(jù)采集技術(shù)與方法的研究尤為重要。文章以網(wǎng)絡(luò)爬蟲技術(shù)為核心進行審計大數(shù)據(jù)采集技術(shù)與方法的探索研究,形成了審計數(shù)據(jù)采集框架,該框架能夠根據(jù)具體的審計需求,自動采集和預(yù)處理相關(guān)的審計公開數(shù)據(jù),從而有效補充審計內(nèi)部數(shù)據(jù)不足、質(zhì)量不高等問題,力求快速發(fā)現(xiàn)審計問題,提高大數(shù)據(jù)審計效率。同時,以互聯(lián)網(wǎng)金融企業(yè)專項審計為例,驗證審計數(shù)據(jù)采集框架的必要性和有效性,研究成果為大數(shù)據(jù)審計提供了一個可供借鑒的研究方法。

【關(guān)鍵詞】 審計大數(shù)據(jù); 數(shù)據(jù)采集; 網(wǎng)絡(luò)爬蟲技術(shù)

【中圖分類號】 TP391;F239? 【文獻標識碼】 A? 【文章編號】 1004-5937(2020)19-0114-06

一、引言

大數(shù)據(jù)的運用給人類社會各行各業(yè)帶來深刻影響和巨大變化,以大數(shù)據(jù)技術(shù)為代表的信息化、智能化建設(shè),正有力地推動著國家治理能力走向更高水平。審計是黨和國家監(jiān)督體系的重要組成部分,是國家治理的基石,審計行業(yè)的使命促進國家良治和全球良知及全球可持續(xù)發(fā)展。為迎接大數(shù)據(jù)時代,大力推進大數(shù)據(jù)審計,已成為我們必然的發(fā)展方向和現(xiàn)實選擇。

習(xí)近平總書記在中央審計委員會第一次會議上指出:“深化審計制度改革,解放思想、與時俱進,創(chuàng)新審計理念,及時揭示和反映經(jīng)濟社會各領(lǐng)域的新情況、新問題、新趨勢。要堅持科技強審,加強審計信息化建設(shè)。”目前,國家審計署“金審工程三期”正是以大數(shù)據(jù)審計為核心,開展國家重大工程項目建設(shè),在大數(shù)據(jù)審計模式下,通過構(gòu)建全維化數(shù)據(jù)畫像,開展財政、金融與企業(yè)間,財務(wù)與業(yè)務(wù)數(shù)據(jù)間,中央、部門與地方間,部門縱向各級間,單個系統(tǒng)和單個被審計對象與宏觀經(jīng)濟運行間的上下、左右、各種關(guān)聯(lián)分析,力圖全面、立體、系統(tǒng)地認識被審計對象,以全維視角、智能化技術(shù),實現(xiàn)總體分析,試圖建立“國家審計云”??梢哉f,應(yīng)用大數(shù)據(jù)技術(shù)是實現(xiàn)審計全覆蓋目標的必由之路,大數(shù)據(jù)審計建設(shè)是影響審計事業(yè)未來發(fā)展的核心技術(shù)工程。新時代信息技術(shù)下審計技術(shù)與方法的研究已經(jīng)成為當(dāng)下以及今后一段時期亟需研究的重大課題。

綜上所述,本文以網(wǎng)絡(luò)爬蟲技術(shù)為核心進行審計大數(shù)據(jù)采集技術(shù)與方法的探索,形成審計數(shù)據(jù)采集框架。該框架能夠根據(jù)具體的審計需求,自動采集和預(yù)處理相關(guān)的審計公開數(shù)據(jù),增加審計數(shù)據(jù)采集質(zhì)量與完整性,力求快速發(fā)現(xiàn)審計問題,提高大數(shù)據(jù)審計效率。

二、文獻回顧

審計大數(shù)據(jù)采集技術(shù)不但完成對大量數(shù)據(jù)的自動采集,而且能對采集的數(shù)據(jù)進行各種預(yù)處理,也就是數(shù)據(jù)的ETL(Extract-Transform-Load),為挖掘數(shù)據(jù)的潛在價值做準備,為用戶構(gòu)建解決方案或者實現(xiàn)決策提供支持。審計大數(shù)據(jù)采集是審計大數(shù)據(jù)分析生命周期的重要一環(huán),是實現(xiàn)高效可靠審計的基礎(chǔ),不少學(xué)者從數(shù)據(jù)采集方式方法以及數(shù)據(jù)采集系統(tǒng)的安全性等方面已經(jīng)開展了相關(guān)研究。在國內(nèi),徐超和吳平平[ 1 ]指出,大數(shù)據(jù)審計工作應(yīng)該是“三個集成、五個關(guān)聯(lián)”,也就是在審計的時候要將數(shù)據(jù)、分析和審計工作三方面綜合起來進行,而數(shù)據(jù)作為第一個要素,需要建立有效的采集機制,規(guī)范其采集格式及要素。陳琦和陳偉[ 2 ]設(shè)計了一種多源的審計數(shù)據(jù)采集方法,可以對多種不同格式的數(shù)據(jù)進行集中采集。趙華和閔志剛[ 3 ]基于Oracle數(shù)據(jù)庫,完成了一套高效的數(shù)據(jù)采集和轉(zhuǎn)換系統(tǒng),能夠有效地提升審計人員的工作效率。張立[ 4 ]和王志之[ 5 ]闡述了如何對采集的審計數(shù)據(jù)進行預(yù)處理,以提高數(shù)據(jù)質(zhì)量,更好地為審計服務(wù)。盧學(xué)英[ 6 ]從數(shù)據(jù)采集和預(yù)處理的四個方面,對如何保證審計數(shù)據(jù)采集的完整性進行了探討。賴春林[ 7 ]針對醫(yī)?;饘徲嫴杉臄?shù)據(jù)如何處理進行了深入分析,給出了一些可能的應(yīng)用方式。張志恒和成雪嬌[ 8 ]以采集的文本數(shù)據(jù)為出發(fā)點,設(shè)計了一個審計數(shù)據(jù)分析框架,重點闡述了如何對采集的文本數(shù)據(jù)進行預(yù)處理并加以利用。在國外,Samtani等[ 9 ]發(fā)現(xiàn)數(shù)據(jù)采集系統(tǒng)并不是絕對安全的,他們基于Shodan搜索引擎,對數(shù)據(jù)采集設(shè)備的安全漏洞進行了評估,識別了大量SCADA數(shù)據(jù)采集設(shè)備的安全漏洞。Colombo 等[ 10 ]針對歐洲核子研究中心ATLAS探測器數(shù)據(jù)采集系統(tǒng)遇到的數(shù)據(jù)傳輸延遲問題,設(shè)計了相應(yīng)的數(shù)據(jù)采集仿真工具,用以分析不同的流量和調(diào)度策略,以及網(wǎng)絡(luò)硬件情況下的系統(tǒng)行為,為未來改進數(shù)據(jù)采集系統(tǒng)提供支持。Lee等[ 11 ]使用一個安全的數(shù)據(jù)采集和簽名模塊生成用于流數(shù)據(jù)完整性檢查的元數(shù)據(jù),然后借助元數(shù)據(jù)校驗遠程數(shù)據(jù)采集的完整性和有效性。

綜上可以看出,在大數(shù)據(jù)審計采集方面主要是運用高效快速的采集技術(shù)以及采集質(zhì)量、采集數(shù)據(jù)標準化等的研究;而對審計大數(shù)據(jù)采集的完整性、真實性、有效性研究較少,尤其與被審計單位相關(guān)聯(lián)外部數(shù)據(jù)采集研究較少。因此,本文主要集中于對被審計單位相關(guān)聯(lián)的外部數(shù)據(jù)采集的研究,提出利用網(wǎng)絡(luò)爬蟲技術(shù)采集與審計對象相關(guān)的外部數(shù)據(jù),從而對內(nèi)部數(shù)據(jù)進行有力補充,力圖使審計大數(shù)據(jù)采集更加完整和真實有效。

三、網(wǎng)絡(luò)爬蟲技術(shù)

網(wǎng)絡(luò)爬蟲技術(shù)是一種基于互聯(lián)網(wǎng),自動抓取網(wǎng)頁特定的一種技術(shù)。它的實現(xiàn)機制類似于人對網(wǎng)頁的點擊操作,可以在非人工干預(yù)下完成客戶端(瀏覽器)和服務(wù)器之間的交互,實現(xiàn)對網(wǎng)絡(luò)數(shù)據(jù)自動、精準、大范圍的提取。根據(jù)爬取任務(wù)的不同,網(wǎng)絡(luò)爬蟲可分為通用型、聚焦型、優(yōu)先型、增量型、深層型等多種類型,同時,用戶還可以根據(jù)實際需求構(gòu)建自定義網(wǎng)絡(luò)爬蟲。

使用網(wǎng)絡(luò)爬蟲,用戶首先要根據(jù)自己的需求選擇一個或幾個目標網(wǎng)站作為網(wǎng)絡(luò)爬蟲的初始URL,并加入到待抓取URL隊列中。然后網(wǎng)絡(luò)爬蟲將自動進行以下循環(huán)操作:(1)如果待抓取URL隊列為空,則終止循環(huán),停止網(wǎng)絡(luò)爬蟲,輸出爬取的結(jié)果(即網(wǎng)頁數(shù)據(jù)庫中的內(nèi)容);否則,從待抓取隊列中取出隊首的URL地址,然后在互聯(lián)網(wǎng)中進行查找,找到它相對應(yīng)的網(wǎng)頁,并把它下載下來。(2)對下載的網(wǎng)頁進行數(shù)據(jù)提取。提取的數(shù)據(jù)包括URL地址以及感興趣的內(nèi)容兩個方面。對于提取的URL地址,如果這個URL地址以前沒有分析過,那么就將這個URL地址加入到待抓取URL隊列中;對于提取的內(nèi)容,則經(jīng)過數(shù)據(jù)清洗,保存到網(wǎng)頁數(shù)據(jù)庫中,作為爬蟲的結(jié)果供后續(xù)分析?;玖鞒倘鐖D1所示。

網(wǎng)絡(luò)爬蟲技術(shù)在審計領(lǐng)域中的應(yīng)用,例如商業(yè)銀行進行小微企業(yè)貸款審計,數(shù)據(jù)采集難一直是審計部門十分困擾的問題。小微企業(yè)客戶貸款信息的真實一般由自己報送,客戶資源的真實性、完整性、有效性亟需驗證。審計部門對材料真實審查往往無從下手,通常會面臨企業(yè)客戶的財務(wù)信息、非財務(wù)信息搜索整合困難,尤其是小微企業(yè)的財務(wù)信息難以核實、難以識別客戶資料信息造假以及來自銀行內(nèi)部工作人員“偽造”信息等一系列問題。網(wǎng)絡(luò)爬蟲技術(shù)作為大數(shù)據(jù)前端的數(shù)據(jù)采集技術(shù),可以很好地解決這一系列問題。利用網(wǎng)絡(luò)爬蟲技術(shù),配合圖像識別、語音識別、語義理解等大數(shù)據(jù)技術(shù),可以實現(xiàn)海量的外部高價值數(shù)據(jù)收集,包括如表1所示的政府公開數(shù)據(jù)、企業(yè)官網(wǎng)數(shù)據(jù)、社交數(shù)據(jù)、新聞輿情數(shù)據(jù)等。審計部門得以通過客戶動態(tài)數(shù)據(jù)的獲取,為客戶建立“全景畫像”,對客戶的實際業(yè)務(wù)、運行情況以及報送材料的一致性進行全方位、細粒度的實時審查,從而使得商業(yè)銀行審計部門在審計范圍、時效性、前瞻性等方面得到有效改善。

四、基于網(wǎng)絡(luò)爬蟲技術(shù)的審計大數(shù)據(jù)采集框架

網(wǎng)絡(luò)爬蟲技術(shù)下的審計大數(shù)據(jù)采集框架,需要支持不同部門、不同平臺的數(shù)據(jù)采集,其采集的對象千差萬別,而且內(nèi)容和形式也是多樣的,如果采用單一類型的網(wǎng)絡(luò)爬蟲,將難以滿足如此靈活的需求,因此本文將通用型爬蟲和深層網(wǎng)絡(luò)爬蟲兩類技術(shù)相結(jié)合,首先基于通用型爬蟲,對基本的、通用的審計數(shù)據(jù)進行抓取,其次基于深層網(wǎng)絡(luò)爬蟲,對某些重點方面和特殊需求進行深度分析,以進一步爬取針對性更強的數(shù)據(jù)。采集框架如圖2所示,主要包括審計采集數(shù)據(jù)預(yù)定義、網(wǎng)絡(luò)爬蟲系統(tǒng)、審計采集數(shù)據(jù)實時監(jiān)控,具體如下:

(一)審計采集數(shù)據(jù)預(yù)定義

在進行網(wǎng)絡(luò)爬蟲技術(shù)下的審計大數(shù)據(jù)采集前,需要對采集數(shù)據(jù)預(yù)先定義,以確定采集數(shù)據(jù)的范圍和數(shù)據(jù)精準有效,具體根據(jù)審計計劃,圍繞審計目標,針對具體審計業(yè)務(wù)內(nèi)容進行預(yù)定義,使得數(shù)據(jù)采集的來源可靠有效,采集的內(nèi)容準確高效。

(1)預(yù)定義采集需求。針對不同審計目標,用戶創(chuàng)建主題,選擇可靠數(shù)據(jù)來源,構(gòu)建數(shù)據(jù)爬取的約束條件和觸發(fā)條件,預(yù)定義審計采集標準、需求及內(nèi)容,選擇的數(shù)據(jù)目標應(yīng)能實現(xiàn)審計項目方案。在進行采集數(shù)據(jù)前,首先應(yīng)在對被審計單位信息系統(tǒng)充分了解的基礎(chǔ)上進行外部數(shù)據(jù)選擇,其次需要根據(jù)具體審計業(yè)務(wù)內(nèi)容來采集所需的審計大數(shù)據(jù)。

(2)選擇審計數(shù)據(jù)來源。確定審計目標后,應(yīng)在對被審計單位業(yè)務(wù)流程及關(guān)鍵控制點充分了解的基礎(chǔ)上進行數(shù)據(jù)來源選擇,需要尋找能夠完成審計項目方案的可靠數(shù)據(jù)來源網(wǎng)站或App軟件系統(tǒng)進行數(shù)據(jù)采集。例如,固定資產(chǎn)審計,采集的可靠審計數(shù)據(jù)來源包括企業(yè)官方網(wǎng)站的數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)、政府及各部門發(fā)布的各類相關(guān)數(shù)據(jù),如征信數(shù)據(jù)、司法數(shù)據(jù)、海關(guān)數(shù)據(jù)、稅務(wù)數(shù)據(jù)、工商數(shù)據(jù)以及網(wǎng)絡(luò)輿情等相關(guān)外部數(shù)據(jù)。

(二)網(wǎng)絡(luò)爬蟲系統(tǒng)

網(wǎng)絡(luò)爬蟲技術(shù)下審計大數(shù)據(jù)的采集,主要采用鏈接結(jié)構(gòu)評價的爬行策略,以審計目標預(yù)先定義的主題為需求,選擇性地爬行與審計對象主題內(nèi)容相關(guān)的頁面。但是,互聯(lián)網(wǎng)數(shù)據(jù)不是孤立的,爬取的頁面之間總存在各種聯(lián)系,因此,本文基于鏈接結(jié)構(gòu)的搜索策略模式,利用網(wǎng)頁之間的結(jié)構(gòu)特征,根據(jù)審計目標構(gòu)建頁面重要性評價方法,以優(yōu)化爬蟲搜索順序,提高爬蟲質(zhì)量。

網(wǎng)絡(luò)爬蟲策略基于PageRank算法來進行審計大數(shù)據(jù)的采集。如果一個網(wǎng)頁多次被審計對象相關(guān)主題預(yù)定義或者引用,則可能是很重要的網(wǎng)頁,與爬取審計目標密切相關(guān);如果一個網(wǎng)頁沒有被多次引用,但還是被重要審計主題預(yù)定義或者引用,則該網(wǎng)頁也有可能是重要的網(wǎng)頁。因此,基于這兩個基本假設(shè),對每個網(wǎng)頁的重要性進行審計大數(shù)據(jù)采集,具體步驟如算法1所示。

算法1:網(wǎng)絡(luò)爬蟲算法(審計大數(shù)據(jù)采集)

Intput:? ? ?相關(guān)審計需求URL

Output: 與之相關(guān)各字段采集信息

Step1 審計目標預(yù)定義,生成任務(wù)模塊,根據(jù)種子任務(wù)獲取數(shù)據(jù)爬取URL,同時,生成待下載任務(wù)。

Step2 根據(jù)待下載任務(wù),圍繞預(yù)定義的審計內(nèi)容進行爬取,如果選擇數(shù)據(jù)源對應(yīng)的爬蟲URL在任務(wù)里面不存在時,就會新插入一個任務(wù),并把這個任務(wù)ID取出來保存到主題任務(wù)表中。

Step3 URL解析與讀取,利用正則表達式提取出設(shè)定的目標數(shù)據(jù),對已經(jīng)爬取的網(wǎng)頁,連同待爬取URL隊列中的URL形成網(wǎng)頁集合,同時把任務(wù)ID和主題ID放在這個URL的后面,在保存數(shù)據(jù)時會把任務(wù)ID保存到全量數(shù)據(jù)表中。

Step4 對網(wǎng)頁集合進行排序去重,計算每個頁面的PageRank值,計算完成之后,將待爬取URL隊列中的URL按照PageRank值的大小優(yōu)先級排列,同時對其進行過濾去重,按照該順序爬取頁面,并判斷是否繼續(xù)爬取種子任務(wù)。

Step5 種子任務(wù)迭代模塊,從種子任務(wù)隊列取出待下載的種子任務(wù)生成待下載任務(wù)。

Step6 進入循環(huán),轉(zhuǎn)Step2。

Step7 數(shù)據(jù)約束條件判斷,爬取數(shù)據(jù)保存到全量數(shù)據(jù)表中就會調(diào)用服務(wù)端提供的API,并且?guī)先蝿?wù)ID和主題ID信息,服務(wù)端的API會根據(jù)這個任務(wù)ID和主題ID去全量數(shù)據(jù)表和主題任務(wù)表中獲取對應(yīng)的數(shù)據(jù)和約束條件。

Step8 根據(jù)全量數(shù)據(jù)表的數(shù)據(jù)和主題任務(wù)表約束條件填充對應(yīng)的數(shù)據(jù)到審計業(yè)務(wù)表里面推送給滿足條件的審計用戶。

(三)審計采集數(shù)據(jù)實時監(jiān)控

在利用網(wǎng)絡(luò)爬蟲技術(shù)進行審計大數(shù)據(jù)采集過程中,會出現(xiàn)爬蟲程序異常、自動終止、實時性差、出現(xiàn)錯誤位置不明確、修復(fù)爬蟲時間長等問題,因此,對爬蟲爬取的數(shù)據(jù)需要進行實時監(jiān)控,以確保整個審計大數(shù)據(jù)采集過程的順利進行。本文將根據(jù)審計目標爬取的審計大數(shù)據(jù)用時序數(shù)據(jù)庫(Influxdb)進行技術(shù)處理,而后利用可視化工具(Grafana)將爬蟲數(shù)據(jù)情況通過可視化圖形界面展示出來,這樣能夠?qū)W(wǎng)絡(luò)爬蟲系統(tǒng)以及采集到的數(shù)據(jù)實時監(jiān)測,發(fā)現(xiàn)異常及時處理,從而保障了整個網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集框架的有序運行。時序數(shù)據(jù)庫(Influxdb)是一款開源的時間序列數(shù)據(jù)庫,專門用來存儲和時間相關(guān)的數(shù)據(jù),例如用它存儲某個時間點爬蟲抓取信息的數(shù)量??梢暬ぞ撸℅rafana)是一個跨平臺、開源的度量分析工具,也是一個實時監(jiān)控系統(tǒng),擁有精美的網(wǎng)絡(luò)產(chǎn)品界面(web UI),支持多種圖表,可以展示時序數(shù)據(jù)庫(Influxdb)中存儲的數(shù)據(jù),并且有報警的功能。

五、互聯(lián)網(wǎng)金融審計具體應(yīng)用

(一)審計背景

互聯(lián)網(wǎng)金融是一種更加普惠的大眾化金融模式,在網(wǎng)絡(luò)上實現(xiàn)支付結(jié)算、貨幣借貸、銷售金融產(chǎn)品等,能夠提高金融服務(wù)效率,降低金融服務(wù)成本,這是互聯(lián)網(wǎng)技術(shù)與現(xiàn)代金融有機結(jié)合的產(chǎn)物,給金融市場帶來了新的活力和發(fā)展機遇?;ヂ?lián)網(wǎng)金融的主要特點是便捷隱蔽、成本低廉、風(fēng)險多維性等,對其監(jiān)管和審計比傳統(tǒng)金融更加復(fù)雜,審計部門如何對互聯(lián)網(wǎng)金融開展審計監(jiān)督成為一個新的命題。

根據(jù)審計計劃,對某市200多家互聯(lián)網(wǎng)金融企業(yè)進行一次重點專項審計,審計目標是以互聯(lián)網(wǎng)金融企業(yè)為背景,審計某市互聯(lián)網(wǎng)金融企業(yè)在運營過程中是否存在違規(guī)、違法現(xiàn)象。主要從四個方面進行關(guān)注,即網(wǎng)絡(luò)非法集資、非法經(jīng)營或者虛假交易、網(wǎng)絡(luò)產(chǎn)品的兌付風(fēng)險、互聯(lián)網(wǎng)金融信息安全。傳統(tǒng)審計主要對互聯(lián)網(wǎng)金融企業(yè)申報信息進行真實性審計,對財務(wù)預(yù)算、收入、支出等進行合規(guī)性審計,同時,與相關(guān)人員座談走訪、對互聯(lián)網(wǎng)金融企業(yè)相關(guān)金融產(chǎn)品及合同進行抽樣檢閱等。實踐表明,僅僅依靠被審計單位提供的數(shù)據(jù)進行審計,已經(jīng)無法滿足審計需要。不少審計人員覺得“對會計資料進行逐一審查,未發(fā)現(xiàn)有明顯的違紀違法現(xiàn)象”,“整本賬目上數(shù)字工整清晰,毫無違法違規(guī)現(xiàn)象”[ 12 ]。因此,在大數(shù)據(jù)背景下利用網(wǎng)絡(luò)爬蟲技術(shù)獲取公開外部數(shù)據(jù)信息尤為重要,是對審計大數(shù)據(jù)采集完整性、真實性、有效性的極大補充,是快速發(fā)現(xiàn)審計問題與線索的關(guān)鍵,是審計報告的重要依據(jù)。

(二)審計大數(shù)據(jù)采集

審計數(shù)據(jù)采集預(yù)定義。根據(jù)審計目標,針對某市互聯(lián)網(wǎng)金融企業(yè)的特點以及相關(guān)業(yè)務(wù)內(nèi)容進行審計數(shù)據(jù)采集預(yù)定義,選擇可靠審計數(shù)據(jù)來源進行審計大數(shù)據(jù)采集,形成如圖3所示的企業(yè)基礎(chǔ)數(shù)據(jù)、企業(yè)征信數(shù)據(jù)、企業(yè)關(guān)聯(lián)/投資數(shù)據(jù)、企業(yè)歷史違約數(shù)據(jù)以及企業(yè)網(wǎng)絡(luò)輿情數(shù)據(jù)。

網(wǎng)絡(luò)爬蟲系統(tǒng)。通過以上審計數(shù)據(jù)采集預(yù)定義,審計人員利用網(wǎng)絡(luò)爬蟲技術(shù)從公開信息網(wǎng)絡(luò)中爬取對應(yīng)互聯(lián)網(wǎng)金融企業(yè)的數(shù)據(jù)信息,具體使用如圖4所示的Python語言編寫爬蟲代碼。

(1)根據(jù)預(yù)先定義采集數(shù)據(jù)需求。以互聯(lián)網(wǎng)金融企業(yè)名稱為索引,確立數(shù)據(jù)來源網(wǎng)站。利用網(wǎng)絡(luò)爬蟲技術(shù)爬取企業(yè)基礎(chǔ)數(shù)據(jù)以及相關(guān)信息,如國家企業(yè)征信系統(tǒng)、司法系統(tǒng)、天眼查、企查查、啟信寶等,重點對工商數(shù)據(jù)、商標數(shù)據(jù)、公開訴訟數(shù)據(jù)、輿情數(shù)據(jù)以及企業(yè)關(guān)系的深度挖掘與爬取。

(2)構(gòu)造種子URL初始化爬蟲。利用已有互聯(lián)網(wǎng)金融企業(yè)的名稱數(shù)據(jù),根據(jù)各網(wǎng)站的URL特點構(gòu)造初始化爬蟲的URL。

(3)獲取網(wǎng)頁源文檔。利用Python語言的requests、urllib2等庫解析種子URL獲得網(wǎng)頁源文檔。

(4)解析網(wǎng)頁源文檔。使用Python的pyquery、BeautifulSoup、xpath等庫或正則表達式解析網(wǎng)頁的源文檔,獲得需要的文本內(nèi)容存入數(shù)據(jù)庫,或抽取需要的URL放入待爬取URL隊列再進入循環(huán)爬取。

(5)數(shù)據(jù)預(yù)處理與存儲。對采集的審計數(shù)據(jù)進行預(yù)處理,使得數(shù)據(jù)滿足審計需求,并使用Pymongo存儲到MongoDB數(shù)據(jù)庫。

審計數(shù)據(jù)采集實時監(jiān)控。對網(wǎng)絡(luò)爬蟲等采集系統(tǒng)采集到的數(shù)據(jù)進行實時監(jiān)控,避免出現(xiàn)爬蟲程序異常自動終止,實時性差,錯誤位置不明確修復(fù)爬蟲時間長等問題,用時序數(shù)據(jù)庫(Influxdb)進行技術(shù)處理,而后通過可視化工具(Grafana)將爬蟲數(shù)據(jù)情況通過可視化圖形化界面展示出來,如圖5所示。

(三)審計采集結(jié)果分析

利用網(wǎng)絡(luò)爬蟲技術(shù)的審計大數(shù)據(jù)采集框架,獲取互聯(lián)網(wǎng)金融企業(yè)基礎(chǔ)數(shù)據(jù)、企業(yè)征信數(shù)據(jù)、企業(yè)關(guān)聯(lián)/投資數(shù)據(jù)、企業(yè)歷史違約數(shù)據(jù)以及企業(yè)網(wǎng)絡(luò)輿情數(shù)據(jù)等外部數(shù)據(jù),補充對互聯(lián)網(wǎng)金融企業(yè)專項審計項目工作,使審計采集數(shù)據(jù)更加完整,從而對某市的互聯(lián)網(wǎng)金融企業(yè)審計數(shù)據(jù)分析更加準確、真實。在對公開獲取的外部數(shù)據(jù)進行整合清洗之后,審計發(fā)現(xiàn)能夠迅速判斷互聯(lián)網(wǎng)金融企業(yè)是否存在偽造經(jīng)營狀態(tài)信息、企業(yè)股東之間是否存在關(guān)聯(lián)關(guān)系、企業(yè)是否存在信用問題。同時,在研判網(wǎng)絡(luò)非法集資、非法經(jīng)營或者虛假交易、網(wǎng)絡(luò)產(chǎn)品的兌付風(fēng)險、互聯(lián)網(wǎng)金融信息安全等方面發(fā)揮重要作用。

六、總結(jié)與展望

隨著大數(shù)據(jù)時代的到來,未來審計必將從目前的發(fā)現(xiàn)問題逐漸發(fā)展為預(yù)測問題、預(yù)防問題,而這一系列的發(fā)展必將基于大量高質(zhì)量數(shù)據(jù)的獲取和積累。因此,本文以目前廣泛使用的數(shù)據(jù)采集技術(shù)——網(wǎng)絡(luò)爬蟲技術(shù)為基礎(chǔ),探討了審計領(lǐng)域大數(shù)據(jù)采集的方式方法,設(shè)計了審計數(shù)據(jù)采集框架,能夠針對不同的具體審計需求自動采集和預(yù)處理相關(guān)的審計公開數(shù)據(jù),有效地補充審計內(nèi)部數(shù)據(jù)不足。同時,為提升采集的數(shù)據(jù)質(zhì)量,本文開發(fā)了混合網(wǎng)絡(luò)爬蟲技術(shù),該技術(shù)能夠結(jié)合通用爬蟲和深層爬蟲,大幅提升網(wǎng)絡(luò)爬蟲獲取審計數(shù)據(jù)的有效性和質(zhì)量,為大數(shù)據(jù)審計奠定了堅實的數(shù)據(jù)基礎(chǔ)。

【參考文獻】

[1] 徐超,吳平平.淺析各國大數(shù)據(jù)審計工作現(xiàn)狀:基于世界審計組織大數(shù)據(jù)工作組第一次會議的研討結(jié)果[EB/OL]. http://www.audit.gov.cn / n6 / n41 /c96373 / content.html,2017-06-01.

[2] 陳琦,陳偉.一種基于C#的審計數(shù)據(jù)采集方法的設(shè)計與實現(xiàn)[J].中國管理信息化,2015(17):37-39.

[3] 趙華,閔志剛.Oracle審計數(shù)據(jù)的采集與轉(zhuǎn)換[J].審計與理財,2015(3):17-18.

[4] 張立.ETL技術(shù)在數(shù)據(jù)審計中的具體應(yīng)用[J].中國審計,2015(24):52-53.

[5] 王志之.審計數(shù)據(jù)預(yù)處理探析[J].中國經(jīng)貿(mào),2017(16):260-261.

[6] 盧學(xué)英.計算機審計中如何獲取真實完整的電子數(shù)據(jù)[J].價值工程,2017,36(20):205-206.

[7] 賴春林.如何有效利用審計采集的數(shù)據(jù)?——以醫(yī)?;饘徲嫗槔齕J].審計與理財,2016(11):17-18.

[8] 張志恒,成雪嬌.大數(shù)據(jù)環(huán)境下基于文本挖掘的審計數(shù)據(jù)分析框架[J].會計之友,2017(16):117-120.

[9] SAMTANI S, YU S, ZHU H, et al. Identifying supervisory control and data acquisition (SCADA) devices and their vulnerabilities on the internet of things (IoT):a text mining approach[J].IEEE Intelligent Systems,2018,33(2):63-73.

[10] COLOMBO T, FRONING H, GARCIA P J,et al. Optimizing the data-collection time of a large-scale data-acquisition system through a simulation framework[J]. Journal? of? Supercomputing,2016,72(12):4546-4572.

[11] LEE K M, LEE K M, SANG H L. Remote data integrity check for remotely acquired and stored stream data[J]. Journal? of? Supercomputing,2018,74(9):1182-1201.

[12] 許偉,雷玥.狼狽為奸終現(xiàn)形[J].中國審計,2013(24):29-30.

猜你喜歡
數(shù)據(jù)采集
Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng)的設(shè)計與改進
CAN總線通信技術(shù)在電梯監(jiān)控系統(tǒng)中的應(yīng)用
基于大型嵌入式系統(tǒng)的污水檢測系統(tǒng)設(shè)計
社會保障一卡通數(shù)據(jù)采集與整理技巧
基于AVR單片機的SPI接口設(shè)計與實現(xiàn)
CS5463在植栽用電子鎮(zhèn)流器老化監(jiān)控系統(tǒng)中的應(yīng)用
大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
鐵路客流時空分布研究綜述
基于廣播模式的數(shù)據(jù)實時采集與處理系統(tǒng)
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)
軟件工程(2016年8期)2016-10-25 15:52:53
文昌市| 镇坪县| 左权县| 简阳市| 德格县| 拜泉县| 讷河市| 沙坪坝区| 三门峡市| 晋江市| 谷城县| 隆昌县| 平武县| 新邵县| 竹溪县| 漳浦县| 四子王旗| 乌拉特后旗| 庄河市| 屏东县| 阿拉尔市| 长岭县| 化德县| 长宁县| 盘山县| 都匀市| 新巴尔虎左旗| 察雅县| 冕宁县| 屯留县| 梨树县| 营山县| 维西| 虎林市| 慈利县| 高要市| 贵州省| 保靖县| 沙洋县| 将乐县| 海盐县|