国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本分析技術(shù)挖掘工程重復(fù)立項(xiàng)問題的研究

2020-04-13 08:04:40黎晚晴陳玲娜梁惠欣
經(jīng)濟(jì)管理文摘 2020年5期
關(guān)鍵詞:申報(bào)材料申報(bào)關(guān)鍵

■馬 博 劉 森 黎晚晴 陳玲娜 梁惠欣 李 勇

(1.中國南方電網(wǎng)有限公司審計(jì)部;2.南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司)

1 引 言

近年來我國經(jīng)濟(jì)高速增長,國內(nèi)電網(wǎng)建設(shè)也得到了飛速發(fā)展,每年都會(huì)建設(shè)大量的工程項(xiàng)目,然而由于項(xiàng)目眾多、申報(bào)材料繁雜(包括調(diào)研報(bào)告、項(xiàng)目建議書、立項(xiàng)報(bào)告、項(xiàng)目規(guī)劃書、項(xiàng)目初步設(shè)計(jì)書、可行性研究報(bào)告、技術(shù)經(jīng)濟(jì)分析報(bào)告等各類材料),衍生出項(xiàng)目重復(fù)申報(bào)或相似項(xiàng)目建設(shè)等一系列問題,如何科學(xué)、高效地發(fā)現(xiàn)工程項(xiàng)目的重復(fù)申報(bào)問題,成為當(dāng)前電網(wǎng)企業(yè)內(nèi)部審計(jì)較為重要的課題之一。

通過多年來的不斷積累,工程立項(xiàng)審批部門積累了大量歷史項(xiàng)目申報(bào)材料。此外,隨著近些年來的電網(wǎng)公司信息化建設(shè)的不斷推進(jìn),相關(guān)項(xiàng)目申報(bào)材料由紙質(zhì)文件轉(zhuǎn)換成電子文件進(jìn)行了存儲(chǔ),為審計(jì)分析奠定了數(shù)據(jù)基礎(chǔ)。與此同時(shí),自然語言處理技術(shù)和文本分析挖掘技術(shù)也不斷成熟,并且在各行業(yè)取得了廣泛應(yīng)用,將文本挖掘技術(shù)引入到工程項(xiàng)目立項(xiàng)申報(bào)材料的審計(jì)過程中,能夠大幅提高審計(jì)效率。

2 基于文本挖掘技術(shù)的工程項(xiàng)目重復(fù)立項(xiàng)分析

在傳統(tǒng)的電網(wǎng)工程項(xiàng)目立項(xiàng)審計(jì)過程中,審計(jì)人員往往僅靠人工審閱立項(xiàng)申報(bào)材料,再根據(jù)自身大腦記憶的歷史項(xiàng)目進(jìn)行比對(duì),識(shí)別項(xiàng)目是否存在重復(fù)申報(bào)行為;或者通過檢索項(xiàng)目名稱關(guān)鍵字,看是否之前有項(xiàng)目名稱類似的項(xiàng)目或有類似采購,以判斷是否是重復(fù)申報(bào)項(xiàng)目。這些方法,一方面過于依賴審計(jì)人員的經(jīng)驗(yàn)積累;另一方面,由于僅對(duì)項(xiàng)目名稱或部分采購內(nèi)容進(jìn)行查重分析,稍加修改的重復(fù)申報(bào)項(xiàng)目很容易被漏掉;此外,人工審核效率也較為低下。因此,本課題引入文本挖掘技術(shù),自動(dòng)對(duì)海量的立項(xiàng)項(xiàng)目的相關(guān)材料進(jìn)行相似性分析,快速識(shí)別出相似的項(xiàng)目,從而大幅提高項(xiàng)目重復(fù)申報(bào)審計(jì)的效率。

在本課題中,主要涉及4部分工作:信息抽取模型訓(xùn)練、歷史立項(xiàng)材料信息抽取、新項(xiàng)目重復(fù)立項(xiàng)審計(jì)、舊項(xiàng)目重復(fù)立項(xiàng)審計(jì)。

圖1 主要工作

(1)信息抽取模型訓(xùn)練。

為了對(duì)各個(gè)項(xiàng)目的關(guān)鍵內(nèi)容進(jìn)行對(duì)比分析,例如項(xiàng)目背景、項(xiàng)目目標(biāo)、建設(shè)內(nèi)容、項(xiàng)目金額、采購設(shè)備、關(guān)鍵技術(shù)等,需要從項(xiàng)目申報(bào)等材料中抽取相關(guān)內(nèi)容,形成結(jié)構(gòu)化數(shù)據(jù)。但是由于各單位各年度的工程項(xiàng)目申報(bào)材料等存在不同的格式模板,無法構(gòu)建一種統(tǒng)一的信息抽取規(guī)則,因此本課題通過機(jī)器學(xué)習(xí)的方式,對(duì)人工標(biāo)注立項(xiàng)申報(bào)材料進(jìn)行訓(xùn)練學(xué)習(xí),形成信息抽取模型,自動(dòng)識(shí)別文檔模板,并抽取項(xiàng)目申報(bào)材料中的關(guān)鍵數(shù)據(jù)。信息抽取模型的訓(xùn)練過程主要如圖2。

圖2 訓(xùn)練信息標(biāo)注模型

(2)歷史項(xiàng)目信息抽取。

對(duì)于歷史積累的海量申報(bào)項(xiàng)目,調(diào)用訓(xùn)練出的信息抽取模型,逐個(gè)自動(dòng)抽取各個(gè)項(xiàng)目的關(guān)鍵數(shù)據(jù),形成結(jié)構(gòu)化歷史項(xiàng)目數(shù)據(jù)庫,為后續(xù)項(xiàng)目信息審計(jì)比對(duì)提供數(shù)據(jù)支撐。

(3)歷史項(xiàng)目重復(fù)申報(bào)分析。

歷史項(xiàng)目重復(fù)申報(bào)分析,主要批量對(duì)抽取形成結(jié)構(gòu)化歷史項(xiàng)目數(shù)據(jù)庫中的項(xiàng)目進(jìn)行比對(duì)分析,識(shí)別其中的重復(fù)申報(bào)項(xiàng)目??傮w處理流程如下圖,先從結(jié)構(gòu)化歷史項(xiàng)目數(shù)據(jù)庫讀取每一個(gè)項(xiàng)目的結(jié)構(gòu)化數(shù)據(jù);再計(jì)算各項(xiàng)目兩兩之間的相似度,將相似的項(xiàng)目聚類,形成聚類結(jié)果;對(duì)于聚類中項(xiàng)目數(shù)大于1的聚類,認(rèn)為是潛在的重復(fù)申報(bào)項(xiàng)目;對(duì)于聚類中項(xiàng)目數(shù)大于1的聚類,且其中的項(xiàng)目都屬于同一申報(bào)單位的,認(rèn)為是重復(fù)申報(bào)項(xiàng)目,并輸出其項(xiàng)目名稱、申報(bào)單位、申報(bào)時(shí)間(如圖3)。

圖3 歷史項(xiàng)目重復(fù)申報(bào)分析

(4)新項(xiàng)目重復(fù)申報(bào)分析。

對(duì)于新提交的立項(xiàng)項(xiàng)目,調(diào)用信息抽取模型自動(dòng)抽取其關(guān)鍵數(shù)據(jù),并利用文本相似分析算法計(jì)算其和歷史項(xiàng)目庫中每個(gè)項(xiàng)目的關(guān)鍵數(shù)據(jù)之間的相似度,計(jì)算出相似度得分,如果有歷史項(xiàng)目與其相似度大于閾值,則認(rèn)為該項(xiàng)目存在重復(fù)申報(bào)行為,并輸出相似度大于閾值的項(xiàng)目。

圖4 新項(xiàng)目重復(fù)申報(bào)分析

3 關(guān)鍵技術(shù)

3.1 基于機(jī)器學(xué)習(xí)模型的信息抽取技術(shù)

信息抽取技術(shù)是從大段的文字中抽取關(guān)心的關(guān)鍵信息,并將其存儲(chǔ)成結(jié)構(gòu)化數(shù)據(jù),以便后續(xù)進(jìn)一步查詢和分析使用。通常來說,信息抽取技術(shù)分為基于規(guī)則的信息抽取技術(shù)和基于機(jī)器學(xué)習(xí)模型的信息抽取技術(shù)2種。

基于規(guī)則的信息抽取技術(shù)往往結(jié)果較為精準(zhǔn),但也存在明顯的劣勢(shì),就是普適性較差,需要將所有的可能的情況和抽取規(guī)則都窮舉;文檔格式稍有差異,抽取結(jié)果就會(huì)存在偏差。

與其相對(duì)的就是基于機(jī)器學(xué)習(xí)模型的信息抽取技術(shù),其大致思想是認(rèn)為標(biāo)注一些模型訓(xùn)練用的文檔,標(biāo)注出從中要抽取的關(guān)鍵信息、位置、屬性名稱,例如從工程申報(bào)材料中抽取工程建設(shè)目標(biāo)對(duì)應(yīng)內(nèi)容、在文檔中的位置、屬性名稱為“工程建設(shè)目標(biāo)”;每個(gè)訓(xùn)練文檔中會(huì)人為標(biāo)注出所有需要抽取的關(guān)鍵數(shù)據(jù)。機(jī)器學(xué)習(xí)的過程,就是通過學(xué)習(xí)海量的文檔數(shù)據(jù),自動(dòng)總結(jié)學(xué)習(xí)出每一個(gè)關(guān)鍵信息對(duì)應(yīng)的上下文特征,以及關(guān)鍵信息本身的文本特征,據(jù)此自動(dòng)從新文檔中抽取出所有關(guān)鍵信息。本課題采用了條件隨機(jī)模型 CRF(Conditional Random Field)作為特征抽取模型的訓(xùn)練算法模型。

CRF模型由Lafferty等人于2001年提出,是基于熵模型和隱馬爾科夫模型之上提出的一種基于遵循馬爾可夫性的概率圖模型,近年來在分詞、詞性標(biāo)注和命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)中取得了很好的效果。

3.2 文本相似分析技術(shù)

文本相似分析,簡單來說就是計(jì)算兩個(gè)文本串之間的相似度。例如對(duì)工程申報(bào)材料中相關(guān)項(xiàng)目的項(xiàng)目情況介紹、服務(wù)方案、服務(wù)安排、進(jìn)度控制、質(zhì)量控制進(jìn)行相似度分析,首先調(diào)用訓(xùn)練出的信息抽取模型,抽取出關(guān)鍵數(shù)據(jù),然后對(duì)關(guān)鍵數(shù)據(jù)進(jìn)行預(yù)處理,其中包括正則匹配、文本分詞、停用詞處理、字符串操作、規(guī)約化數(shù)據(jù)等,再通過文本相似度計(jì)算方法進(jìn)行計(jì)算,最后根據(jù)該項(xiàng)目中的項(xiàng)目情況介紹、服務(wù)方案、服務(wù)安排、進(jìn)度控制、質(zhì)量控制各部分權(quán)重,分析出和其他項(xiàng)目的最終相似度。常見的文本相似度計(jì)算方法有Jaccard相似系數(shù)、編輯距離算法、夾角余弦相似度3種。

3.2.1 Jaccard 相似系數(shù)

Jaccard 相似系數(shù)(Jaccard similarity coefficient)用于比較有限樣本集之間的相似性與差異性。Jaccard系數(shù)值越大,樣本相似度越高。

給定兩個(gè)集合A,B,Jaccard 系數(shù)定義為A與B交集的大小與A與B并集的大小的比值,|A∩B|/|A∪B|,其實(shí)就是計(jì)算兩個(gè)字符串中字符的交集和并集的比值。

3.2.2 夾角余弦相似度

兩個(gè)文本A和B之間的夾角余弦相關(guān)度similarity常用向量之間夾角的余弦值表示,公式為:

其中,Ai、Bi分別表示文本A和B第i個(gè)詞的詞頻,1<=i<=n。

由于項(xiàng)目申報(bào)信息中,數(shù)據(jù)稀疏度過高,通過余弦相似度計(jì)算會(huì)產(chǎn)生誤導(dǎo)性結(jié)果。

3.3 文本聚類技術(shù)

聚類算法是一種常見的數(shù)據(jù)挖掘算法,目的在于把大量的數(shù)據(jù)點(diǎn)分成若干類別,把相似的內(nèi)容和行為聚集在一起,不同的類之間盡量保證不相似。例如一些難以發(fā)覺的信息以特殊的形式隱藏在大數(shù)據(jù)中,一般的審計(jì)數(shù)據(jù)分析方法很難挖掘出這些異常信息,而采用文本聚類的算法能夠彌補(bǔ)這個(gè)缺陷。這些異常信息往往是審計(jì)人員重點(diǎn)審查的對(duì)象,可以對(duì)舞弊和違規(guī)行為的評(píng)估提供審計(jì)證據(jù)。對(duì)審計(jì)文本進(jìn)行聚類后,可以按類別對(duì)每類文本進(jìn)行具體的分析、比較和總結(jié),大大減輕了審計(jì)人員進(jìn)行數(shù)據(jù)分析的工作量。

4 工程項(xiàng)目重復(fù)立項(xiàng)分析應(yīng)用實(shí)例

我們開發(fā)工程項(xiàng)目關(guān)鍵信息抽取功能,運(yùn)維文本挖掘的分詞、噪聲詞過濾等技術(shù),進(jìn)行文本相似度分析,并在相似度的基礎(chǔ)之上,運(yùn)用聚類算法識(shí)別相似度較高的項(xiàng)目群,輔助工程項(xiàng)目重復(fù)申報(bào)審計(jì)工作,為審計(jì)人員提供快速識(shí)別疑似重復(fù)立項(xiàng)的工程項(xiàng)目線索,大幅度提高了審計(jì)工作效率,具體分為以下三個(gè)步驟:工程項(xiàng)目信息抽取、文本相似度分析和重復(fù)立項(xiàng)聚類分析。

4.1 工程項(xiàng)目信息抽取

通過信息抽取模型功能,將各項(xiàng)目申報(bào)材料中的關(guān)鍵信息,例如項(xiàng)目名稱、項(xiàng)目摘要、項(xiàng)目申請(qǐng)理由、項(xiàng)目內(nèi)容、項(xiàng)目總投資、項(xiàng)目預(yù)算、采購物資列表、項(xiàng)目支出明細(xì)等,抽取成結(jié)構(gòu)化數(shù)據(jù),為后續(xù)文本相似度分析提供高質(zhì)量的數(shù)據(jù)基礎(chǔ)。其中,每一條記錄代表一個(gè)項(xiàng)目,每個(gè)字段代表該項(xiàng)目的關(guān)鍵數(shù)據(jù)項(xiàng)。

4.2 文本相似度分析

運(yùn)用文本挖掘工具對(duì)工程項(xiàng)目信息抽取后得到的高質(zhì)量數(shù)據(jù)項(xiàng)分別進(jìn)行文本相似度分析,實(shí)踐步驟有以下三個(gè)步驟:

(1)首先讀取抽取后的工程項(xiàng)目信息數(shù)據(jù),運(yùn)用分詞技術(shù),將各數(shù)據(jù)項(xiàng)文本進(jìn)行文本預(yù)處理操作;

(2)再通過企業(yè)核心詞庫、停用詞處理、噪聲詞過濾等操作提取每個(gè)關(guān)鍵數(shù)據(jù)項(xiàng)的關(guān)鍵詞;

(3)然后運(yùn)用文本相似度計(jì)算方法進(jìn)行計(jì)算各個(gè)關(guān)鍵數(shù)據(jù)項(xiàng)的相似度。

具體建模流程如下圖所示,實(shí)現(xiàn)從信息抽取表到相似度表的轉(zhuǎn)換。

圖5 文本相似度分析建模流程

4.3 重復(fù)立項(xiàng)聚類分析

本課題還通過聚類算法對(duì)海量的歷史項(xiàng)目進(jìn)行重復(fù)申報(bào)分析,將文本相似度分析的結(jié)果,作為聚類分析的輸入,實(shí)現(xiàn)將項(xiàng)目數(shù)據(jù)分類到不同的類或者簇,同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性??焖僮R(shí)別相似度較高的項(xiàng)目簇,并運(yùn)用網(wǎng)絡(luò)圖呈現(xiàn)技術(shù)對(duì)聚類結(jié)果進(jìn)行直觀展示,如下圖所示,其中每個(gè)點(diǎn)代表一個(gè)項(xiàng)目,對(duì)于聚集度很高的項(xiàng)目,說明其相似度極高,存在重復(fù)申報(bào)行為。對(duì)于相似度大于閾值的項(xiàng)目,系統(tǒng)會(huì)輸出相似項(xiàng)目列表及相似度,并可對(duì)比分析項(xiàng)目申報(bào)信息的相似內(nèi)容與差異。對(duì)于相似度大于閾值的項(xiàng)目,系統(tǒng)會(huì)輸出相似項(xiàng)目列表及相似度,并可對(duì)比分析項(xiàng)目申報(bào)信息的相似內(nèi)容與差異。

圖6 歷史數(shù)據(jù)重復(fù)申報(bào)聚類分析與展示

結(jié) 語

本課題通過引入文本挖掘等人工智能技術(shù),對(duì)海量的立項(xiàng)材料進(jìn)行高效分析,從而從中分析潛在的項(xiàng)目重復(fù)申報(bào)行為,為項(xiàng)目重復(fù)申報(bào)審計(jì)提供了新的手段。通過項(xiàng)目實(shí)踐,證明本課題采用的技術(shù)行之有效,能夠大幅提高項(xiàng)目重復(fù)申報(bào)的工作效率,并且同時(shí)避免了人為粗心或經(jīng)驗(yàn)缺失而造成的審計(jì)遺漏。因此,建議相關(guān)技術(shù)進(jìn)一步廣泛推廣,全方位提升工程項(xiàng)目審計(jì)的效率與質(zhì)量。

猜你喜歡
申報(bào)材料申報(bào)關(guān)鍵
“少年工程院活動(dòng)校”暨“航天未來人才培養(yǎng)?!惫餐陥?bào)
高考考好是關(guān)鍵
國際收支間接申報(bào)問答
中國外匯(2019年13期)2019-10-10 03:37:42
遼寧農(nóng)機(jī)推廣鑒定申報(bào)注意事項(xiàng)
醫(yī)療機(jī)構(gòu)中藥飲片陽光采購申報(bào)材料的建議
安徽省祖代及省級(jí)重點(diǎn)種畜禽場(chǎng)生產(chǎn)經(jīng)營許可證申報(bào)材料解析
《申報(bào)》與上海民國時(shí)期禁戲
中華戲曲(2016年1期)2016-09-26 08:49:02
如何做好農(nóng)業(yè)綜合開發(fā)項(xiàng)目的資金申請(qǐng)
獲勝關(guān)鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
生意無大小,關(guān)鍵是怎么做?
中國商人(2013年1期)2013-12-04 08:52:52
金坛市| 富蕴县| 汝南县| 唐河县| 东海县| 平山县| 宁津县| 吉林市| 资源县| 平泉县| 攀枝花市| 灯塔市| 栖霞市| 武乡县| 江源县| 玉环县| 台山市| 岑巩县| 萨嘎县| 商洛市| 巴青县| 石阡县| 博白县| 彭州市| 湄潭县| 顺昌县| 隆尧县| 丰都县| 文成县| 静乐县| 班戈县| 满城县| 张家界市| 怀安县| 醴陵市| 张家口市| 铜梁县| 旬邑县| 视频| 莫力| 同德县|