基于文本挖掘的稅政自動(dòng)識(shí)別與分發(fā)系統(tǒng)研究

2021-05-11 05:48姜亮張梅梅

會(huì)計(jì)之友 2021年10期

姜亮張梅梅

【摘要】當(dāng)前我國(guó)稅收政策更新速度快，所涉部門多，僅靠財(cái)務(wù)部門人工搜集、分析、組織實(shí)施效率低下，導(dǎo)致企業(yè)錯(cuò)失應(yīng)稅減稅機(jī)會(huì)，因此稅收政策文本的實(shí)時(shí)學(xué)習(xí)和自動(dòng)分發(fā)成為加強(qiáng)企業(yè)應(yīng)稅管理、降本增效的首要任務(wù)。文章設(shè)計(jì)稅政文本挖掘系統(tǒng)來(lái)實(shí)現(xiàn)稅政文本自動(dòng)學(xué)習(xí)和分發(fā)：首先，分析稅收政策文檔;其次，利用分詞系統(tǒng)和TF-IDF算法提取每個(gè)文本的特征，用貝葉斯、決策樹(shù)和隨機(jī)森林三種分類器進(jìn)行文本分類，并將結(jié)果與人工標(biāo)注結(jié)果進(jìn)行對(duì)照;最后，計(jì)算三種分類算法的混淆矩陣、準(zhǔn)確率和召回率。實(shí)驗(yàn)結(jié)果表明，隨機(jī)森林算法文本識(shí)別正確率最高，稅政文本挖掘系統(tǒng)采用該算法進(jìn)行識(shí)別和自動(dòng)分發(fā)，據(jù)此部署部門協(xié)同工作，能顯著提升公司財(cái)稅管理工作的全局性和協(xié)同性。

【關(guān)鍵詞】隨機(jī)森林; 部門協(xié)同; 稅政文本

【中圖分類號(hào)】 F263? 【文獻(xiàn)標(biāo)識(shí)碼】 A? 【文章編號(hào)】 1004-5937（2021）10-0037-05

一、引言

企業(yè)實(shí)現(xiàn)業(yè)財(cái)聯(lián)動(dòng)、部門協(xié)同是降本增效、提升競(jìng)爭(zhēng)力的新財(cái)稅管理手段。但稅收政策更新速度快，涉及企業(yè)部門多，目前僅靠財(cái)務(wù)部門人工搜集分析并學(xué)習(xí)稅收政策，造成企業(yè)學(xué)習(xí)成本過(guò)高、效率低下，且缺乏部門高效協(xié)同方式，導(dǎo)致企業(yè)錯(cuò)失應(yīng)稅減稅機(jī)會(huì)。如研發(fā)費(fèi)用加計(jì)扣除政策執(zhí)行情況，調(diào)查顯示59.5%的企業(yè)希望稅務(wù)或科技部門加強(qiáng)對(duì)企業(yè)財(cái)務(wù)或研發(fā)人員的宣傳與輔導(dǎo)力度，且表示政策的宣傳輔導(dǎo)服務(wù)對(duì)政策的落實(shí)有較大影響，另外跨部門聯(lián)動(dòng)機(jī)制還未形成，各部門對(duì)研發(fā)活動(dòng)和研發(fā)項(xiàng)目的認(rèn)定存在偏差，制約了相關(guān)政策的有效執(zhí)行[ 1 ]。因此應(yīng)由財(cái)務(wù)部門單獨(dú)規(guī)劃向集團(tuán)整體部門協(xié)作轉(zhuǎn)化[ 2 ]。

2019年4月，本研究聯(lián)合調(diào)查了大型國(guó)企GW的財(cái)務(wù)部和科技部關(guān)于科研加計(jì)扣除稅收優(yōu)惠政策的應(yīng)稅問(wèn)題，對(duì)“三新”項(xiàng)目的申請(qǐng)、評(píng)審、立項(xiàng)、執(zhí)行及項(xiàng)目結(jié)束的全流程調(diào)研分析后可知，該企業(yè)科技部門希望普及“三新”項(xiàng)目認(rèn)知規(guī)則，財(cái)務(wù)部門認(rèn)為關(guān)鍵環(huán)節(jié)之一是在年度納稅申報(bào)前進(jìn)行相關(guān)資料留存?zhèn)洳?，“三新”?xiàng)目的評(píng)審和資料留存?zhèn)浒感枰?cái)務(wù)部和科技部人員多次溝通確認(rèn)，制度性成本顯著增加。針對(duì)節(jié)能節(jié)水項(xiàng)目企業(yè)所得稅優(yōu)惠目錄聯(lián)合調(diào)研財(cái)務(wù)部和采購(gòu)部負(fù)責(zé)人，主要問(wèn)題是需協(xié)同運(yùn)檢部、物資部和物資公司對(duì)不同廠商、不同規(guī)格型號(hào)的設(shè)備空載損耗值、負(fù)載損耗值等性能參數(shù)進(jìn)行檢測(cè)，但因多部門協(xié)同困難，采購(gòu)部門未能“應(yīng)享盡享”該項(xiàng)優(yōu)惠稅政。

針對(duì)當(dāng)前稅政更新快、數(shù)量比較大、信息壁壘強(qiáng)的特點(diǎn)，建立實(shí)時(shí)稅政協(xié)同工作機(jī)制是支撐實(shí)時(shí)反應(yīng)和實(shí)時(shí)控制、提升財(cái)稅實(shí)時(shí)管控能力、深化財(cái)務(wù)集約化的重要保證。實(shí)時(shí)稅政學(xué)習(xí)工作依賴人工，效率和精度不能保障，則建立稅政文本自動(dòng)學(xué)習(xí)和分發(fā)機(jī)制成為首要任務(wù)。文本挖掘是從非結(jié)構(gòu)化數(shù)據(jù)中提取有價(jià)值信息和知識(shí)的技術(shù)，主要通過(guò)關(guān)鍵詞篩選和文本編碼對(duì)政策文本進(jìn)行規(guī)范的量化分析。宋英慧和黃麒[ 3 ]在分析財(cái)務(wù)報(bào)表附注時(shí)采用文本挖掘方法，先使用分詞對(duì)財(cái)務(wù)報(bào)表附注的文本集合進(jìn)行信息拆分，然后通過(guò)詞頻統(tǒng)計(jì)提取財(cái)務(wù)報(bào)表附注披露內(nèi)容的特征，直觀地看出披露內(nèi)容重點(diǎn)集中于哪些信息。張志恒和成雪嬌[ 4 ]建立不同的文本挖掘模型，對(duì)審計(jì)數(shù)據(jù)進(jìn)行分析，進(jìn)而發(fā)現(xiàn)審計(jì)疑點(diǎn)，最終形成可理解的審計(jì)證據(jù)和審計(jì)線索。其他政策文本挖掘探索還包括安全生產(chǎn)問(wèn)責(zé)制度[ 5 ]、特色小鎮(zhèn)專項(xiàng)政策[ 6 ]、廣東省科技金融政策[ 7 ]、中央政府創(chuàng)新創(chuàng)業(yè)支持政策[ 8 ]等。

基于此，本文以促進(jìn)企業(yè)多部門高效率協(xié)同應(yīng)稅為中心，提出一種“文本多分類+部門匹配”的自動(dòng)識(shí)別與分發(fā)機(jī)制，將稅政文本按照部門特征分類識(shí)別并自動(dòng)分發(fā)給相應(yīng)部門。根據(jù)自動(dòng)分發(fā)結(jié)果，部署部門協(xié)同工作內(nèi)容，預(yù)期將最新稅政置于業(yè)務(wù)流程前端，實(shí)現(xiàn)稅收籌劃與協(xié)同部署。

二、稅政文本挖掘系統(tǒng)

（一）稅政文本自動(dòng)識(shí)別分發(fā)與部門協(xié)同

稅政文本自動(dòng)識(shí)別分發(fā)系統(tǒng)負(fù)責(zé)稅政文本的自動(dòng)識(shí)別、分發(fā)，經(jīng)部門協(xié)同處理之后進(jìn)行價(jià)值分析和處理，科研部、財(cái)務(wù)部、人資部、采購(gòu)部等部門協(xié)同工作，如圖1所示。

（二）稅政文本自動(dòng)分發(fā)系統(tǒng)設(shè)計(jì)

稅政文本分發(fā)系統(tǒng)包括數(shù)據(jù)爬取、文本挖掘和反饋系統(tǒng)，關(guān)鍵步驟是提取文本實(shí)用信息并自動(dòng)分發(fā)給相應(yīng)部門進(jìn)行學(xué)習(xí)、協(xié)同工作來(lái)實(shí)現(xiàn)稅前控制。企業(yè)稅政文本主要來(lái)自國(guó)家稅務(wù)總局官方網(wǎng)站、各省稅務(wù)局網(wǎng)站及企業(yè)稅收相關(guān)網(wǎng)站。文本來(lái)源眾多，內(nèi)容繁雜，人工收集、學(xué)習(xí)、分發(fā)低效且不能及時(shí)部門協(xié)同，采用基于Python語(yǔ)言的爬蟲程序收集數(shù)據(jù)，企業(yè)可建稅政文本數(shù)據(jù)庫(kù)。稅政文本自動(dòng)識(shí)別分發(fā)系統(tǒng)主要過(guò)程如下：

1.關(guān)鍵詞分析

根據(jù)文本特征值對(duì)文本進(jìn)行多分類。建立一個(gè)分類模型，輸入項(xiàng)為稅收文本，輸出項(xiàng)為該文本匹配部門。由于中文文本的特性，在特征建模前需要對(duì)文本進(jìn)行分詞處理。目前主流中文分詞方法是基于理解的分詞方法、基于字符串匹配的分詞方法和基于統(tǒng)計(jì)的分詞方法，本文采用開(kāi)源jieba分詞器。為了避免不含語(yǔ)義信息的噪聲對(duì)最終分類造成影響，本文對(duì)分詞結(jié)果進(jìn)行了停用詞過(guò)濾，使用的停用詞表是《哈工大停用詞表》，經(jīng)過(guò)驗(yàn)證該表在中文停用詞過(guò)濾上有較好的效果。特征工程方面，使用了詞袋模型將文本表示為向量形式。詞袋模型將文本數(shù)據(jù)集所有的詞條構(gòu)建成字典，并將每一篇文本表示為詞條出現(xiàn)的頻率集合。

稅政文本使用TF-IDF算法進(jìn)行關(guān)鍵詞分析，通過(guò)計(jì)算詞頻和逆向文件頻率來(lái)說(shuō)明詞條的類別區(qū)分能力，從而判斷該詞條是否為文本的關(guān)鍵詞。

詞頻（TF）代表詞條在文本中出現(xiàn)的頻率，表示為：

其中ni，j是該詞在文本中出現(xiàn)的次數(shù)，分母則是文本中所有詞匯出現(xiàn)的總和。

逆向文件頻率（IDF）代表出現(xiàn)該詞條的文件在整個(gè)文件集合中的頻率，表示為：

其中，D是語(yǔ)料庫(kù)中的文件總數(shù)，分母表示包含詞語(yǔ)ti的文件數(shù)目。最終TF-IDF值表示為公式（1）與公式（2）的乘積。某一特定文件中的高頻率和該詞語(yǔ)在整個(gè)文件集合中的低文件頻率，可以產(chǎn)生高權(quán)重的TF-IDF。因此，TF-IDF傾向于選擇重要且并不常見(jiàn)的詞作為稅政文本的關(guān)鍵詞。

本文使用詞袋模型對(duì)文本進(jìn)行特征建模，再對(duì)數(shù)據(jù)集中的每個(gè)詞條計(jì)算TF-IDF值，將文本表示為每個(gè)詞條TF-IDF值的集合形式，得到的文本數(shù)據(jù)集是994*55 726的矩陣形式，去掉特征中不包含任何信息的數(shù)字和字母特征，最終得到的文本集合是994*53 109的矩陣形式。

2.人工標(biāo)注

按企業(yè)部門進(jìn)行人工標(biāo)注，經(jīng)對(duì)文本數(shù)據(jù)集預(yù)覽和主題把握，制定分類標(biāo)注依據(jù)，部門確定為財(cái)務(wù)部、管理層（職能部門、發(fā)展部門和辦公室）、人力資源部、采購(gòu)部等，如表1所示。

本文以國(guó)家稅務(wù)總局官方網(wǎng)站2017年11月至2019年8月的994篇稅收文本為數(shù)據(jù)源進(jìn)行文本挖掘。文本標(biāo)注關(guān)鍵詞對(duì)應(yīng)如表2所示。

3.文本多分類

為了提高分類準(zhǔn)確度，采用三種常見(jiàn)的分類器來(lái)構(gòu)建模型。

（1）貝葉斯分類器

貝葉斯分類器是在相關(guān)概率已知的情況下，找到誤判損失最小的分類類別。對(duì)于N種可能的分類類別，文本x分錯(cuò)類帶來(lái)的損失可以表示為：

其中λij是指將Cj誤分為Ci時(shí)所產(chǎn)生的損失，為使損失達(dá)到最小，要求后驗(yàn)概率最大。貝葉斯分類器利用貝葉斯公式計(jì)算待分類項(xiàng)在某個(gè)條件下屬于各類的概率，然后將待分類項(xiàng)歸于后驗(yàn)概率最大的一類。

（2）決策樹(shù)算法

決策樹(shù)算法通過(guò)對(duì)特征進(jìn)行選擇，找出使數(shù)據(jù)集整體信息量下降最快的特征作為節(jié)點(diǎn)，并按照這一原則進(jìn)行迭代，直至整體信息量下降為零。本文使用基于ID3算法的決策樹(shù)，根據(jù)信息增益來(lái)尋找適合切分?jǐn)?shù)據(jù)的特征。

（3）隨機(jī)森林

隨機(jī)森林是一種裝袋算法，通過(guò)集成多個(gè)能力強(qiáng)、差異性強(qiáng)的同類型弱分類器來(lái)組成一個(gè)強(qiáng)分類器，使用訓(xùn)練出來(lái)的多個(gè)弱分類器對(duì)數(shù)據(jù)集進(jìn)行分類，然后使用多數(shù)投票的方式來(lái)輸出最終的分類結(jié)果。本文隨機(jī)森林使用了CART樹(shù)作為弱分類器，后者是一種以基尼系數(shù)作為特征選擇標(biāo)準(zhǔn)的決策樹(shù)模型，由于集成的作用，最終隨機(jī)森林預(yù)測(cè)效果要優(yōu)于決策樹(shù)，且對(duì)噪音不敏感，適合用于特征較復(fù)雜且噪音較強(qiáng)的文本分類。本文使用sklearn標(biāo)準(zhǔn)化工具建立分類器并進(jìn)行訓(xùn)練。

三、稅政文本自動(dòng)識(shí)別實(shí)驗(yàn)分析

（一）分類準(zhǔn)確率

對(duì)994篇稅政文本按3：1進(jìn)行訓(xùn)練集和測(cè)試集切分，訓(xùn)練文本用于建立并訓(xùn)練分類器，測(cè)試文本用于對(duì)分類器進(jìn)行效果測(cè)試。將模型對(duì)測(cè)試集分類的結(jié)果與人工標(biāo)注的結(jié)果進(jìn)行比較。針對(duì)稅政文本多分類的實(shí)驗(yàn)結(jié)果，通過(guò)計(jì)算準(zhǔn)確率、混淆矩陣和各部門文本召回率對(duì)效果進(jìn)行評(píng)判，結(jié)果如表3。

結(jié)果表明，三種分類器準(zhǔn)確率都超過(guò)了90%，說(shuō)明常見(jiàn)的機(jī)器學(xué)習(xí)分類器對(duì)人工標(biāo)注的實(shí)驗(yàn)稅政文本都有較好的分類效果，其中隨機(jī)森林算法的分類準(zhǔn)確率最高。

（二）召回率

除采用準(zhǔn)確率這一評(píng)判標(biāo)準(zhǔn)之外，還可以通過(guò)混淆矩陣和計(jì)算召回率對(duì)分類效果進(jìn)行評(píng)估?；煜仃囍?，橫軸是該文本人工標(biāo)注結(jié)果，縱軸是模型預(yù)測(cè)結(jié)果，斜對(duì)角線上的數(shù)據(jù)代表分類正確的文本數(shù)量，其余坐標(biāo)點(diǎn)上的數(shù)據(jù)代表了分類錯(cuò)誤的文本數(shù)量。根據(jù)混淆矩陣可以按以下公式計(jì)算出部門對(duì)應(yīng)召回率：

部門召回率Ri=■ （4）

其中i的區(qū)間是從1到4，且分別對(duì)應(yīng)四個(gè)部門的ID。結(jié)果如表4所示。

表4可得，貝葉斯分類器分類錯(cuò)誤的文本數(shù)量為66，其中財(cái)務(wù)部文本的召回率最低，原屬于財(cái)務(wù)部卻被誤判為其他部門的文本為40篇，占錯(cuò)誤文本的76%，而其他部門文本誤判的數(shù)量不超過(guò)10%。決策樹(shù)算法分類準(zhǔn)確率為0.9759，分類錯(cuò)誤的文本數(shù)量為18篇，各部門召回率均值處在高水平，且相差較小。隨機(jī)森林算法的分類效果非常顯著，準(zhǔn)確率達(dá)到0.9919，只有6篇文本被分類錯(cuò)誤。因隨機(jī)森林算法集成了多個(gè)決策樹(shù)算法并最終按照少數(shù)服從多數(shù)原則輸出，故在結(jié)果上糾正了單棵決策樹(shù)分類出現(xiàn)的錯(cuò)誤，對(duì)管理層和人力資源部稅政文本分類準(zhǔn)確率達(dá)到100%。召回率比較如圖2所示。

隨機(jī)森林的混淆矩陣如圖3所示。

綜合三種算法的召回率和折線圖來(lái)看，隨機(jī)森林算法的準(zhǔn)確率在各部門文本中都是最高的，并且表現(xiàn)較為平穩(wěn)，不會(huì)受到文本自身的影響，則本文選擇隨機(jī)森林算法應(yīng)用于企業(yè)稅政文本自動(dòng)學(xué)習(xí)和分發(fā)。

（三）反饋模塊

文本多分類完成后，為確保每個(gè)文本的分類結(jié)果匹配到相應(yīng)部門，且保證同一篇文本里包含的價(jià)值可以被多個(gè)部門使用，則需要在系統(tǒng)中設(shè)置反饋模塊，以達(dá)到控制和優(yōu)化系統(tǒng)的作用。該模塊通過(guò)監(jiān)測(cè)文本的去向以及被使用完后的狀態(tài)來(lái)實(shí)現(xiàn)控制和反饋。本文定義三種文本在使用后的狀態(tài)分別是“用完”“余值”和“無(wú)用”，含義及控制反饋見(jiàn)表5。

通過(guò)該控制方式，可實(shí)現(xiàn)對(duì)文本價(jià)值的高效利用，通過(guò)反饋達(dá)到優(yōu)化系統(tǒng)的目的。

四、稅政文本自動(dòng)分發(fā)與部門協(xié)同

應(yīng)用稅政文本自動(dòng)識(shí)別和分發(fā)系統(tǒng)，將位于業(yè)務(wù)末端的應(yīng)稅管理置于業(yè)務(wù)前端，通過(guò)部門協(xié)同學(xué)習(xí)構(gòu)建業(yè)財(cái)聯(lián)動(dòng)機(jī)制，強(qiáng)化財(cái)稅管理對(duì)業(yè)務(wù)的指導(dǎo)。以財(cái)政部、稅務(wù)總局、科技部關(guān)于提高研究開(kāi)發(fā)費(fèi)用稅前加計(jì)扣除比例的通知（財(cái)稅〔2018〕99號(hào)）稅政文本為例，簡(jiǎn)稱為“三新”項(xiàng)目加計(jì)扣除政策。該項(xiàng)政策通過(guò)系統(tǒng)自動(dòng)識(shí)別并分發(fā)到研發(fā)部、科技部、財(cái)務(wù)部等部門，多部門協(xié)同學(xué)習(xí)后部署標(biāo)準(zhǔn)化、流程化和范式化的管理機(jī)制，將位于研發(fā)業(yè)務(wù)流程末端的應(yīng)稅管理與科技部前端環(huán)節(jié)實(shí)現(xiàn)橫向聯(lián)動(dòng)、部門協(xié)同，確保業(yè)務(wù)信息與稅務(wù)信息高效傳輸。如圖4所示。

通過(guò)業(yè)務(wù)流程分析，將稅政規(guī)則前置于科研項(xiàng)目申報(bào)環(huán)節(jié)之前進(jìn)行學(xué)習(xí)，因不同部門之間存在較強(qiáng)的知識(shí)壁壘，為了提高科研項(xiàng)目享受加計(jì)扣除的比例，提高管理效率，部署部門協(xié)同工作時(shí)設(shè)置財(cái)務(wù)助理和科研助理。該管理流程通過(guò)稅政自動(dòng)識(shí)別并分發(fā)到所涉部門，相關(guān)部門據(jù)此部署業(yè)財(cái)聯(lián)動(dòng)的協(xié)同工作流程，促進(jìn)了稅政文本的多部門高效學(xué)習(xí)，籌劃了應(yīng)稅的業(yè)務(wù)細(xì)節(jié)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于文本挖掘的稅政自動(dòng)識(shí)別與分發(fā)系統(tǒng)研究