趙慶華 張琳 曹慶 王笙宇
摘要:文章以審計署的審計公告為研究對象,利用文本挖掘技術對國家重大工程項目審計公告展開研究,分析導致重大工程項目審計風險的主要原因和規(guī)律。同時,文章利用詞云圖將統(tǒng)計結果進行可視化呈現(xiàn),運用TF-IDF算法找出導致重大工程項目審計風險的主要因素,并提出切實有效的重大工程項目審計風險管理建議。
關鍵詞:重大工程;文本挖掘;審計公告;審計風險
隨著我國經(jīng)濟的高速發(fā)展,一系列重大工程項目相繼啟動給我國的經(jīng)濟發(fā)展產(chǎn)生了巨大的助力,如三峽水利樞紐工程、港珠澳大橋、鐵路“八橫八縱”等。但因重大工程項目投資量大、社會參與度大、決策過程復雜、技術要求高、施工難度大、利益相關者多及項目的社會影響范圍廣等特點,導致這些項目面臨著較高風險。因此,審計風險識別與分析對重大工程項目審計風險管理有極大的影響,更是重大工程項目審計風險管理必不可少的環(huán)節(jié)。
本文提出利用文本挖掘(Text Mining,簡稱TM)方法對審計署審計公告進行數(shù)據(jù)分析。通過對重大工程項目審計公告進行結構化處理,得到工程風險相關信息,進而利用關聯(lián)分析技術對所得到的風險信息進行分析,探究重大工程項目風險發(fā)生原因及規(guī)律,以期為工程風險分析提供新的思路。
一、數(shù)據(jù)來源及分析工具
(一)數(shù)據(jù)準備
審計公告及解讀是對國家重大工程進行項目投資決策、項目設計管理、項目招標投標、項目合同、工程造價、項目財務收支、項目管理、項目投資績效等方面的審計解讀。審計署網(wǎng)站搜集2004~2019年的審計報告48篇作為文本挖掘的語料,覆蓋了保障性住房、大型機場場館、災后重建等房建市政類國家重大工程項目,以確保后續(xù)利用文本挖掘方法分析重大工程風險的客觀性。
文章選取審計報告中發(fā)現(xiàn)的主要問題作為文本挖掘的語料,由于審計公告僅可以網(wǎng)頁瀏覽,不能下載,便利用八爪魚采集器從審計署網(wǎng)站上進行數(shù)據(jù)提取整理至數(shù)據(jù)庫中,形成初始文本數(shù)據(jù)庫。
(二)數(shù)據(jù)預處理
審計公告中的文本數(shù)據(jù)包含較多對本研究無用信息,因而需要對其進行文本預處理。本文主要研究重大工程審計風險發(fā)生的原因和規(guī)律,因此審計公告中的工程基本情況及審計總體評價、整改方法、審計建議等暫時不列入研究范圍。
數(shù)據(jù)預處理中,準確合理地分解審計報告中各條結論至關重要。如審計報告中的某條的審計結論是“施工工藝和設備設計不合理”,分詞得“施工”“工藝”“和”“設備”“設計”“不”“合理”,并未將“施工工藝”“設備設計” “不合理”分解成工程管理專用詞語。為使分詞結果達到預期效果,避免工程管理或工程審計專業(yè)詞匯切分誤差及停用詞的干擾,在詞典中加入了土木工程、審計相關詞典和自建停用詞表。預處理步驟如下:
1.語料庫:利用python語言編程讀取爬取的審計數(shù)據(jù),數(shù)據(jù)存儲類型為txt、csv等格式,形成語料庫。本文利用python語言open("xx.txt",'r',encoding='utf-8').read()代碼讀取數(shù)據(jù)形成語料庫。
2.自定義詞典:分詞工具雖然有默認詞典和識別新詞的能力,但仍會出現(xiàn)分詞歧義,難以保證分詞質(zhì)量,需加入自定義詞典保證分詞準確。從搜狗輸入法中下載審計常用詞匯.scel、審計術語.scel、建筑詞匯大全.scel及土木工程專用詞庫.scel等多個詞典。使用jieba.load_userdict(file_name)加載自定義詞典。
3.停用詞典:分詞后出現(xiàn)的某些語氣詞、虛詞和數(shù)字,如“的”“呢”“2016”等,這些字詞、數(shù)字的實際意義不大。為提高檢索效率,本文對分詞中出現(xiàn)的停用詞進行篩選和過濾。建立適合的停用詞表,與默認停用詞表共同使用以過濾停用詞,保證分詞和可視化分析準確性。在python語言中,使用stoplist=[line.strip()for line in open("stopwords.txt",encoding='utf-8').readlines()]命令來達到去除停用詞的目的。
做好以上分詞準備工作后進行分詞,并將相應的詞頻統(tǒng)計信息自動存儲為csv文件保存至文件夾中。
二、基于文本挖掘的重大工程風險分析
目前,重大工程風險研究常用方法主要為案例總結法、專家調(diào)查法等定性分析方法,研究結果較為主觀。文本挖掘則通過處理龐大的文本信息,挖掘文本中隱含的結構規(guī)律,以結構化方式表示,其分析結果相對客觀。文本挖掘主要包括數(shù)據(jù)的收集及預處理、可視化分析和統(tǒng)計決策三個步驟。
(一)詞頻分析
在python語言中利用jieba分詞工具進行分詞處理,去除詞頻數(shù)影響較小或詞頻數(shù)較低的詞語,得到統(tǒng)計詞頻前500的詞語。由于審計風險詞語廣、種類多、詞語字數(shù)不一,因此使用split函數(shù)并自定義多元抽函數(shù),通過for函數(shù)對其進行循環(huán),利用count函數(shù)得到各風險詞組詞頻。為了盡可能有效地挖掘到所需信息,本文主要針對由兩個字、三個字、四個字的專業(yè)詞匯及其所構成的詞語進行重點分析。本文分別將兩字詞匯、三字詞匯、四字詞匯統(tǒng)計的分詞按詞頻降序排列,然后選擇其中詞頻較高的詞語生成文檔詞矩陣列表,如表1。
在表1中可以看到,二元抽中“資金”一詞出現(xiàn)的頻率最高,共216次,相應可能發(fā)生風險的原因是投資控制不嚴,套取建設資金,多報、虛報騙取中央專項資金等。詞頻頻數(shù)大于60的二元詞匯審計風險多集中于工程項目申報,建設程序審批,招投標與合同以及資金管理,換言之,審計風險多發(fā)生于工程項目前期。其次,“合同”、“招標”、“規(guī)劃”、“挪用”等與建設單位有關。可見,重大工程審計風險的發(fā)生與建設單位的制度完善和廉潔程度有較大關聯(lián)。
在三元抽的情況下,“招投標”一詞出現(xiàn)的頻數(shù)最高,共出現(xiàn)74次,說明重大工程項目風險常出現(xiàn)在項目招投標階段。在四元抽情況下,“施工單位”是出現(xiàn)頻數(shù)最高的詞語,共出現(xiàn)42次,闡釋了重大工程項目風險來自施工單位。在這兩種抽取模式下,“工程款”“施工圖”“施工隊”“工程量”“管理費”“設計變更”“工程質(zhì)量”“工程施工”等詞語說明主要風險詞匯都集中在施工階段,即審計風險主要來源于施工單位的施工風險和造價風險。
(二)可視化分析
數(shù)據(jù)可視化起源于20世紀50年代計算機圖形學早期,將大型數(shù)據(jù)以圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息與規(guī)律的過程。本文利用詞云圖技術對文本數(shù)據(jù)進行分析,并生成可視化圖像進一步分析其內(nèi)在規(guī)律。根據(jù)分詞所得到的語料庫,利用python軟件中“Wordcloud”包制作詞云圖,如圖1、圖2、圖3和圖4。
(三)基于TF-IDF算法的工程審計關鍵風險檢索與分析
從詞云圖來看,雖然能夠發(fā)現(xiàn)導致重大工程項目審計風險的分布情況,但高頻詞語中出現(xiàn)了大量的諸如“資金”、“管理”等對工程審計風險原因的判斷沒有明顯影響的詞語。因此需要運用其他方法提取工程審計關鍵風險。
TF-IDF(Term Frequency-Inverse Document Frequency)是一種用于文本挖掘與信息檢索的常用加權算法。TF-IDF算法如下:
式中:N為文件集中文本的總數(shù);N(x)為文件集中包含詞x的文本總數(shù)。詞x的TF-IDF則定義為:
利用TF-IDF算法進行關鍵詞的篩選和整理,得到部分詞語的重要性大小如表2所示。
1.建設資金(決策階段):項目申報立項時,部分項目建設單位為套取國家資金,重復申報,隨意擴大項目規(guī)模;項目施工時,挪用、擠占項目資金,多計工程款項,造成國有資源浪費。部分工程項目立項后各方資金到位情況難以把控,影響工程進度與質(zhì)量。
2.招投標過程(招投標階段):項目招投標時,標書審核不嚴,違規(guī)更改招投標方式,將應招標的工程化整為零規(guī)避招標,甚至有的單位將工程違規(guī)分包給無相應資質(zhì)的單位,給工程項目建設帶來質(zhì)量、安全等風險,進而導致項目審計風險。
3.項目設計(項目設計階段):在部分重大工程項目中,設計階段管理混亂,因勘察設計失誤,違反基本建設程序,設計變更多,變更交底不及時等,造成資金浪費和質(zhì)量風險,導致工程項目審計風險增加。
4.項目施工(項目施工階段):施工過程中,施工單位施工方案編制不合理,未按施工圖施工,施工未嚴格按照施工工序,偷工減料;監(jiān)理單位人員及其人員資質(zhì)不足,相應申請表,變更簽證等無監(jiān)理單位意見,造成工程質(zhì)量問題和進度滯后。
三、結語
本文利用文本挖掘技術對審計署審計公告數(shù)據(jù)就國家重大工程審計風險進行了統(tǒng)計分析。根據(jù)數(shù)據(jù)特征,提取出影響重大工程項目建設過程中的各種審計風險,利用文本挖掘,詞云圖等方式對統(tǒng)計結果做出分析與展示。結果表明:項目決策階段,國家審核部門應對申報項目進一步了解,以防項目重復申報,項目規(guī)模與需求匹配,項目建議書中應考慮項目周邊配套設施;招投標階段,國家審計部門對項目展開跟蹤審計,嚴格規(guī)范項目招投標行為,確保招投標過程公平、公正;項目設計階段,建設單位組織項目設計、勘察、施工、運維單位審圖,及時發(fā)現(xiàn)問題,確保項目設計變更較少,減少返工;施工階段,施工單位做好施工人員安全知識培訓,嚴格按照施工圖和施工方案施工。監(jiān)理單位嚴格檢查隱蔽工程,變更簽證,確保檔案完整。
參考文獻:
[1]向鵬成,羅玉蘋.重大工程項目建設的社會穩(wěn)定風險傳導機理研究[J].世界科技研究與發(fā)展,2014,36(04):420-425.
[2]崔淼.審計視角下重大工程項目風險研究[D].揚州:揚州大學,2020.
[3]王明達,陳潑,陳子新,等.基于文本挖掘的物探作業(yè)事故分析方法[J].西安石油大學學報(自然科學版),2019,34(04): 119-126.
[4]鄭石橋,時現(xiàn),王會金.論工程審計內(nèi)容[J].財會月刊,2019,861(17):102-106.
[5]Ma L,Zhang B,Cui M,et al.Adopting a Qca Approach to Investigating the Risks Involved in Megaprojects From Auditing Perspective[J].Discrete Dynamics in Nature and Society,2019.
[6]沈亮,戴洪帥,王天嬌,等. 基于文本挖掘的石化安全管理及可視化研究[J].化工管理,2020,568(25):127-130+133.
[7]石鳳貴.中文文本分詞及其可視化技術研究[J].現(xiàn)代計算機,2020,684(12):131-138+148.
[8]Chen Z.A Dynamic System Approach to Risk Analysis for Megaproject Delivery[J].Proceedings of the Institution of Civil Engineers-Management,Procurement and Law,2019.
[9]嚴越,鄭靜,林德南,等.面向腦卒中防治知識圖譜的風險評估與分類[J].醫(yī)學信息學雜志,2020,41(09):31-36.
[10]李巖,郭鳳英,翟興,等.基于jieba中文分詞的在線醫(yī)療網(wǎng)站醫(yī)生畫像研究[J].醫(yī)學信息學雜志,2020,41(07):14-18.
[11]倪冰葦,趙鴻萍,顧月清.基于詞云圖和層次聚類的天然產(chǎn)物研究熱點分析[J].中國新藥雜志,2020,29(12):1326-1333.
[12]汪東升,黃傳河,黃曉鵬,等.電信大數(shù)據(jù)文本挖掘算法及應用[J].計算機科學,2017,44(12):232-238.
[13]李金海,何有世,熊強.基于大數(shù)據(jù)技術的網(wǎng)絡輿情文本挖掘研究[J].情報雜志,2014,33(10):1-6+13.
[14]馬世龍,烏尼日其其格,李小平.大數(shù)據(jù)與深度學習綜述[J].智能系統(tǒng)學報,2016,11(06):728-742.
(作者單位:趙慶華、張琳、曹慶,揚州大學建筑科學與工程學院;王笙宇,揚州維揚發(fā)展投資有限公司)