十堰市審計局在某農(nóng)機補貼專項資金審計項目中,采取八爪魚網(wǎng)頁數(shù)據(jù)采集器和Neo4j圖數(shù)據(jù)庫有機結(jié)合的辦法,有效解決了審計組數(shù)據(jù)采集慢、分析難的實際困難,大大提高了工作效率,實現(xiàn)了快速獲取數(shù)據(jù)、精準高效分析,最終查出多家企業(yè)操縱多重身份假買假賣騙取農(nóng)機補貼的問題,挖出了在審批過程中以權(quán)謀私的幕后黑手,揭示了農(nóng)機版的“空手套白狼”。
審計組經(jīng)過調(diào)查,確定了在農(nóng)機補貼資金的申報審批環(huán)節(jié),對農(nóng)機買賣雙方企業(yè)及個人的背景信息進行審核分析,找出虛假買賣騙取農(nóng)機補貼疑點的大數(shù)據(jù)審計思路,但是卻面臨兩大難題:一是數(shù)據(jù)采集慢,該區(qū)工商數(shù)據(jù)質(zhì)量不高,審計組需要花費大量時間采集整理數(shù)據(jù);二是數(shù)據(jù)分析難,面對200多家參與買賣的企業(yè),以及企業(yè)背后的法人和數(shù)量成倍增加的股東,常規(guī)的SQL數(shù)據(jù)庫分析方法已經(jīng)不適用,如何才能理清買賣行為背后錯綜復雜的關(guān)系是審計組亟待解決的問題。
審計組一方面運用八爪魚網(wǎng)頁數(shù)據(jù)采集器在“天眼查”網(wǎng)站上批量采集工商數(shù)據(jù),實現(xiàn)短時間內(nèi)數(shù)據(jù)的自動化采集和規(guī)范化儲存。該方法改變了網(wǎng)頁查詢“翻開一個網(wǎng)頁、查詢一條信息、記錄一條數(shù)據(jù)”的現(xiàn)狀,擺脫對人工搜索及收集數(shù)據(jù)的依賴,從而降低獲取信息的成本,大幅提高了工作效率。另一方面,利用Neo4j圖數(shù)據(jù)庫數(shù)據(jù)模型簡單、反饋結(jié)果直觀的特點,將整理后的工商信息批量導入Neo4j圖數(shù)據(jù)庫,自動構(gòu)建企業(yè)間、人物間的買賣關(guān)系,快速梳理出農(nóng)機購置與申報補貼過程中各類事務之間、個人和群體之間的復雜關(guān)系,再通過分析語句快速、精準查找疑點線索,解決了數(shù)據(jù)分析難的問題。
步驟1:創(chuàng)建采集任務、選定查詢網(wǎng)址。進入八爪魚網(wǎng)頁數(shù)據(jù)采集器軟件選擇“自定義采集—使用向?qū)J讲杉?。找到?shù)據(jù)來源的網(wǎng)址并在“采集網(wǎng)址”一欄輸入。需注意的是,網(wǎng)址要具體到查詢界面一級,可先在瀏覽器中找到再復制粘貼。具體到本案例,如圖1至圖4所示,在用“天眼查”網(wǎng)站查詢企業(yè)信息時,審計組預先選定地域,用關(guān)鍵字進行模糊查詢,批量采集“農(nóng)機公司”信息。
圖1
圖2
圖3
圖4
步驟2:創(chuàng)建翻頁設(shè)置,選定采集要素。如圖5所示,用八爪魚網(wǎng)頁數(shù)據(jù)采集器打開設(shè)定網(wǎng)址后,選定需要采集的要素,并設(shè)置自動翻頁數(shù)量。如圖6所示,本案例中,審計組采集了“公司名稱”“法定代表人”“注冊資本”“成立時間”四個要素。
圖5
圖6
步驟3:定義采集字段、數(shù)據(jù)采集導出。如圖7所示,對需要采集的信息定義字段名稱以及提取信息的類型,啟動“本地采集”并保存為excel格式。
圖7
本案例中,審計組通過八爪魚網(wǎng)頁數(shù)據(jù)采集器采集到特定地域農(nóng)機公司相關(guān)信息500余條,并將全部信息導出成excel格式。
1.整理數(shù)據(jù)標準表。審計組將八爪魚網(wǎng)頁數(shù)據(jù)采集器采集到的“企業(yè)信息表”與被審計單位提供的基礎(chǔ)數(shù)據(jù)表“XX市農(nóng)機補貼發(fā)放明細表”導入SQL數(shù)據(jù)庫,通過企業(yè)名稱或法人代表字段進行關(guān)聯(lián),整理出本次審計范圍內(nèi)的農(nóng)機生產(chǎn)企業(yè)和經(jīng)銷商,并初步梳理出企業(yè)之間的買賣關(guān)系,導出生成“農(nóng)機企業(yè)表”和“購買關(guān)系表”用于下一步的數(shù)據(jù)分析。
2.轉(zhuǎn)換格式、數(shù)據(jù)準備。將“農(nóng)機企業(yè)表”和“購買關(guān)系表”由excel格式轉(zhuǎn)換成csv格式,并存放于Neo4jdefault.graphdbimport文件夾中用于Neo4j數(shù)據(jù)分析,如圖8所示。導入的文件先由excel表另存為csv格式,再以“記事本”的方式打開,選擇編碼UTF-8格式進行保存。
圖8
需要注意的是,Neo4j默認是從打開地址目錄下的import中讀出,所以必須在此目錄下創(chuàng)建csv文件,否則在Neo4j中執(zhí)行載入命令會出現(xiàn)找不到文件的情況。
1.批量導入節(jié)點。在Neo4j中編寫語句:
如圖9示,節(jié)點批量導入完成,根據(jù)“企業(yè)信息表”自動生成了企業(yè)節(jié)點和法人代表、注冊資本、成立時間等屬性。
圖9
2.批量導入關(guān)系。在Neo4j中編寫語句:
如圖10所示,關(guān)系導入完成,根據(jù)《購買關(guān)系表》自動生成了企業(yè)間買賣關(guān)系。
圖10
3.數(shù)據(jù)分析、生成疑點。根據(jù)審計思路,審計組將農(nóng)機銷售過程中買賣雙方存在關(guān)聯(lián)關(guān)系作為分析重點,并編寫語句:
執(zhí)行結(jié)果如圖11所示,圖中4家企業(yè)之間存在買賣關(guān)系并享受了農(nóng)機補助,但其法人代表為同一人,疑似通過虛假買賣騙取農(nóng)機補貼。
圖11
在此基礎(chǔ)上,審計組繼續(xù)拓寬思路,將農(nóng)機購買合同簽訂人與買賣企業(yè)社保信息導入Neo4j中,篩查個人或企業(yè)買賣農(nóng)機過程中利用本企業(yè)員工身份虛假購買農(nóng)機騙取農(nóng)機補貼情況。分析操作過程同上,在此不做贅述。
審計組根據(jù)Neo4j的分析結(jié)果,迅速鎖定對象,通過工商部門、人社部門的外圍取證確定了買賣雙方真實身份,結(jié)合購買合同、補貼申請資料和補貼資金發(fā)放流水,鎖定了4家存在關(guān)聯(lián)關(guān)系的企業(yè)操縱多重身份假買假賣騙取農(nóng)機補貼106萬元;960臺劣質(zhì)茶葉篩選機流向農(nóng)戶,造成國家資金損失57.6萬元,經(jīng)銷商享受的農(nóng)機補貼高于賣價從中牟利58.38萬元等問題,全面揭示了農(nóng)機版的“空手套白狼”。
審計組順藤摸瓜,重點關(guān)注農(nóng)機補貼資金的審批環(huán)節(jié),找出了在審批過程中玩忽職守、按補貼金額10%比例收取企業(yè)贊助款設(shè)立小金庫的XX區(qū)農(nóng)機局局長張某。審計組迅速將該案件線索移交至檢察機關(guān)。
經(jīng)過辦案人員的進一步核實,發(fā)現(xiàn)張某利用職務上的便利,貪污和與他人共同貪污公款28.54余萬元,其中張某共計分得15.25萬元。同時利用農(nóng)機補貼指標分配、資質(zhì)審核、項目驗收之便,非法收受他人財物共計37.4萬元,屬于數(shù)額巨大,其行為已構(gòu)成受賄罪。最終,張某以貪污、受賄罪被判處有期徒刑4年,處罰金30萬元,受賄及貪污所得52.65萬元予以收繳,受到了應有的懲罰。區(qū)農(nóng)機局另外兩名副局長犯單位受賄罪,免予刑事處罰。
在本案例中,審計組一是通過八爪魚網(wǎng)頁數(shù)據(jù)采集器實現(xiàn)了快速批量采集工商數(shù)據(jù),大幅提高了工作效率,但同時發(fā)現(xiàn),采集到的數(shù)據(jù)會存在數(shù)據(jù)錯誤、格式不對、顯示亂碼等問題,這就需要利用SQL對數(shù)據(jù)進行批量加工整理,以滿足數(shù)據(jù)分析的需要。審計組在相應部門無法取得能夠滿足審計需要的工商數(shù)據(jù)的情況下,選擇在網(wǎng)上爬取數(shù)據(jù)實屬無奈之舉,但就該軟件本身來說,其相關(guān)功能可以在其他審計項目做到更深入的運用。二是通過運用Neo4j批量導入的功能,快速構(gòu)建節(jié)點和關(guān)系,理清了買賣行為背后錯綜復雜的關(guān)系,將虛假買賣騙取農(nóng)機補貼資金的違法行為直觀地呈現(xiàn)在審計人員面前。但是,在整個Neo4j軟件操作環(huán)節(jié)中,審計人員大部分時間還是花費在數(shù)據(jù)準備階段,即整理需要導入的節(jié)點表和關(guān)系表,而這部分工作使用的還是最常規(guī)的SQL功能,如何進一步在數(shù)據(jù)準備階段提高工作效率是值得審計人員繼續(xù)思考和探索的問題。