国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本挖掘的稅政自動(dòng)識(shí)別與分發(fā)系統(tǒng)研究

2021-05-11 05:48姜亮張梅梅
會(huì)計(jì)之友 2021年10期
關(guān)鍵詞:隨機(jī)森林

姜亮 張梅梅

【摘 要】 當(dāng)前我國(guó)稅收政策更新速度快,所涉部門多,僅靠財(cái)務(wù)部門人工搜集、分析、組織實(shí)施效率低下,導(dǎo)致企業(yè)錯(cuò)失應(yīng)稅減稅機(jī)會(huì),因此稅收政策文本的實(shí)時(shí)學(xué)習(xí)和自動(dòng)分發(fā)成為加強(qiáng)企業(yè)應(yīng)稅管理、降本增效的首要任務(wù)。文章設(shè)計(jì)稅政文本挖掘系統(tǒng)來(lái)實(shí)現(xiàn)稅政文本自動(dòng)學(xué)習(xí)和分發(fā):首先,分析稅收政策文檔;其次,利用分詞系統(tǒng)和TF-IDF算法提取每個(gè)文本的特征,用貝葉斯、決策樹(shù)和隨機(jī)森林三種分類器進(jìn)行文本分類,并將結(jié)果與人工標(biāo)注結(jié)果進(jìn)行對(duì)照;最后,計(jì)算三種分類算法的混淆矩陣、準(zhǔn)確率和召回率。實(shí)驗(yàn)結(jié)果表明,隨機(jī)森林算法文本識(shí)別正確率最高,稅政文本挖掘系統(tǒng)采用該算法進(jìn)行識(shí)別和自動(dòng)分發(fā),據(jù)此部署部門協(xié)同工作,能顯著提升公司財(cái)稅管理工作的全局性和協(xié)同性。

【關(guān)鍵詞】 隨機(jī)森林; 部門協(xié)同; 稅政文本

【中圖分類號(hào)】 F263? 【文獻(xiàn)標(biāo)識(shí)碼】 A? 【文章編號(hào)】 1004-5937(2021)10-0037-05

一、引言

企業(yè)實(shí)現(xiàn)業(yè)財(cái)聯(lián)動(dòng)、部門協(xié)同是降本增效、提升競(jìng)爭(zhēng)力的新財(cái)稅管理手段。但稅收政策更新速度快,涉及企業(yè)部門多,目前僅靠財(cái)務(wù)部門人工搜集分析并學(xué)習(xí)稅收政策,造成企業(yè)學(xué)習(xí)成本過(guò)高、效率低下,且缺乏部門高效協(xié)同方式,導(dǎo)致企業(yè)錯(cuò)失應(yīng)稅減稅機(jī)會(huì)。如研發(fā)費(fèi)用加計(jì)扣除政策執(zhí)行情況,調(diào)查顯示59.5%的企業(yè)希望稅務(wù)或科技部門加強(qiáng)對(duì)企業(yè)財(cái)務(wù)或研發(fā)人員的宣傳與輔導(dǎo)力度,且表示政策的宣傳輔導(dǎo)服務(wù)對(duì)政策的落實(shí)有較大影響,另外跨部門聯(lián)動(dòng)機(jī)制還未形成,各部門對(duì)研發(fā)活動(dòng)和研發(fā)項(xiàng)目的認(rèn)定存在偏差,制約了相關(guān)政策的有效執(zhí)行[ 1 ]。因此應(yīng)由財(cái)務(wù)部門單獨(dú)規(guī)劃向集團(tuán)整體部門協(xié)作轉(zhuǎn)化[ 2 ]。

2019年4月,本研究聯(lián)合調(diào)查了大型國(guó)企GW的財(cái)務(wù)部和科技部關(guān)于科研加計(jì)扣除稅收優(yōu)惠政策的應(yīng)稅問(wèn)題,對(duì)“三新”項(xiàng)目的申請(qǐng)、評(píng)審、立項(xiàng)、執(zhí)行及項(xiàng)目結(jié)束的全流程調(diào)研分析后可知,該企業(yè)科技部門希望普及“三新”項(xiàng)目認(rèn)知規(guī)則,財(cái)務(wù)部門認(rèn)為關(guān)鍵環(huán)節(jié)之一是在年度納稅申報(bào)前進(jìn)行相關(guān)資料留存?zhèn)洳?,“三新”?xiàng)目的評(píng)審和資料留存?zhèn)浒感枰?cái)務(wù)部和科技部人員多次溝通確認(rèn),制度性成本顯著增加。針對(duì)節(jié)能節(jié)水項(xiàng)目企業(yè)所得稅優(yōu)惠目錄聯(lián)合調(diào)研財(cái)務(wù)部和采購(gòu)部負(fù)責(zé)人,主要問(wèn)題是需協(xié)同運(yùn)檢部、物資部和物資公司對(duì)不同廠商、不同規(guī)格型號(hào)的設(shè)備空載損耗值、負(fù)載損耗值等性能參數(shù)進(jìn)行檢測(cè),但因多部門協(xié)同困難,采購(gòu)部門未能“應(yīng)享盡享”該項(xiàng)優(yōu)惠稅政。

針對(duì)當(dāng)前稅政更新快、數(shù)量比較大、信息壁壘強(qiáng)的特點(diǎn),建立實(shí)時(shí)稅政協(xié)同工作機(jī)制是支撐實(shí)時(shí)反應(yīng)和實(shí)時(shí)控制、提升財(cái)稅實(shí)時(shí)管控能力、深化財(cái)務(wù)集約化的重要保證。實(shí)時(shí)稅政學(xué)習(xí)工作依賴人工,效率和精度不能保障,則建立稅政文本自動(dòng)學(xué)習(xí)和分發(fā)機(jī)制成為首要任務(wù)。文本挖掘是從非結(jié)構(gòu)化數(shù)據(jù)中提取有價(jià)值信息和知識(shí)的技術(shù),主要通過(guò)關(guān)鍵詞篩選和文本編碼對(duì)政策文本進(jìn)行規(guī)范的量化分析。宋英慧和黃麒[ 3 ]在分析財(cái)務(wù)報(bào)表附注時(shí)采用文本挖掘方法,先使用分詞對(duì)財(cái)務(wù)報(bào)表附注的文本集合進(jìn)行信息拆分,然后通過(guò)詞頻統(tǒng)計(jì)提取財(cái)務(wù)報(bào)表附注披露內(nèi)容的特征,直觀地看出披露內(nèi)容重點(diǎn)集中于哪些信息。張志恒和成雪嬌[ 4 ]建立不同的文本挖掘模型,對(duì)審計(jì)數(shù)據(jù)進(jìn)行分析,進(jìn)而發(fā)現(xiàn)審計(jì)疑點(diǎn),最終形成可理解的審計(jì)證據(jù)和審計(jì)線索。其他政策文本挖掘探索還包括安全生產(chǎn)問(wèn)責(zé)制度[ 5 ]、特色小鎮(zhèn)專項(xiàng)政策[ 6 ]、廣東省科技金融政策[ 7 ]、中央政府創(chuàng)新創(chuàng)業(yè)支持政策[ 8 ]等。

基于此,本文以促進(jìn)企業(yè)多部門高效率協(xié)同應(yīng)稅為中心,提出一種“文本多分類+部門匹配”的自動(dòng)識(shí)別與分發(fā)機(jī)制,將稅政文本按照部門特征分類識(shí)別并自動(dòng)分發(fā)給相應(yīng)部門。根據(jù)自動(dòng)分發(fā)結(jié)果,部署部門協(xié)同工作內(nèi)容,預(yù)期將最新稅政置于業(yè)務(wù)流程前端,實(shí)現(xiàn)稅收籌劃與協(xié)同部署。

二、稅政文本挖掘系統(tǒng)

(一)稅政文本自動(dòng)識(shí)別分發(fā)與部門協(xié)同

稅政文本自動(dòng)識(shí)別分發(fā)系統(tǒng)負(fù)責(zé)稅政文本的自動(dòng)識(shí)別、分發(fā),經(jīng)部門協(xié)同處理之后進(jìn)行價(jià)值分析和處理,科研部、財(cái)務(wù)部、人資部、采購(gòu)部等部門協(xié)同工作,如圖1所示。

(二)稅政文本自動(dòng)分發(fā)系統(tǒng)設(shè)計(jì)

稅政文本分發(fā)系統(tǒng)包括數(shù)據(jù)爬取、文本挖掘和反饋系統(tǒng),關(guān)鍵步驟是提取文本實(shí)用信息并自動(dòng)分發(fā)給相應(yīng)部門進(jìn)行學(xué)習(xí)、協(xié)同工作來(lái)實(shí)現(xiàn)稅前控制。企業(yè)稅政文本主要來(lái)自國(guó)家稅務(wù)總局官方網(wǎng)站、各省稅務(wù)局網(wǎng)站及企業(yè)稅收相關(guān)網(wǎng)站。文本來(lái)源眾多,內(nèi)容繁雜,人工收集、學(xué)習(xí)、分發(fā)低效且不能及時(shí)部門協(xié)同,采用基于Python語(yǔ)言的爬蟲程序收集數(shù)據(jù),企業(yè)可建稅政文本數(shù)據(jù)庫(kù)。稅政文本自動(dòng)識(shí)別分發(fā)系統(tǒng)主要過(guò)程如下:

1.關(guān)鍵詞分析

根據(jù)文本特征值對(duì)文本進(jìn)行多分類。建立一個(gè)分類模型,輸入項(xiàng)為稅收文本,輸出項(xiàng)為該文本匹配部門。由于中文文本的特性,在特征建模前需要對(duì)文本進(jìn)行分詞處理。目前主流中文分詞方法是基于理解的分詞方法、基于字符串匹配的分詞方法和基于統(tǒng)計(jì)的分詞方法,本文采用開(kāi)源jieba分詞器。為了避免不含語(yǔ)義信息的噪聲對(duì)最終分類造成影響,本文對(duì)分詞結(jié)果進(jìn)行了停用詞過(guò)濾,使用的停用詞表是《哈工大停用詞表》,經(jīng)過(guò)驗(yàn)證該表在中文停用詞過(guò)濾上有較好的效果。特征工程方面,使用了詞袋模型將文本表示為向量形式。詞袋模型將文本數(shù)據(jù)集所有的詞條構(gòu)建成字典,并將每一篇文本表示為詞條出現(xiàn)的頻率集合。

稅政文本使用TF-IDF算法進(jìn)行關(guān)鍵詞分析,通過(guò)計(jì)算詞頻和逆向文件頻率來(lái)說(shuō)明詞條的類別區(qū)分能力,從而判斷該詞條是否為文本的關(guān)鍵詞。

詞頻(TF)代表詞條在文本中出現(xiàn)的頻率,表示為:

其中ni,j是該詞在文本中出現(xiàn)的次數(shù),分母則是文本中所有詞匯出現(xiàn)的總和。

逆向文件頻率(IDF)代表出現(xiàn)該詞條的文件在整個(gè)文件集合中的頻率,表示為:

其中,D是語(yǔ)料庫(kù)中的文件總數(shù),分母表示包含詞語(yǔ)ti的文件數(shù)目。最終TF-IDF值表示為公式(1)與公式(2)的乘積。某一特定文件中的高頻率和該詞語(yǔ)在整個(gè)文件集合中的低文件頻率,可以產(chǎn)生高權(quán)重的TF-IDF。因此,TF-IDF傾向于選擇重要且并不常見(jiàn)的詞作為稅政文本的關(guān)鍵詞。

本文使用詞袋模型對(duì)文本進(jìn)行特征建模,再對(duì)數(shù)據(jù)集中的每個(gè)詞條計(jì)算TF-IDF值,將文本表示為每個(gè)詞條TF-IDF值的集合形式,得到的文本數(shù)據(jù)集是994*55 726的矩陣形式,去掉特征中不包含任何信息的數(shù)字和字母特征,最終得到的文本集合是994*53 109的矩陣形式。

2.人工標(biāo)注

按企業(yè)部門進(jìn)行人工標(biāo)注,經(jīng)對(duì)文本數(shù)據(jù)集預(yù)覽和主題把握,制定分類標(biāo)注依據(jù),部門確定為財(cái)務(wù)部、管理層(職能部門、發(fā)展部門和辦公室)、人力資源部、采購(gòu)部等,如表1所示。

本文以國(guó)家稅務(wù)總局官方網(wǎng)站2017年11月至2019年8月的994篇稅收文本為數(shù)據(jù)源進(jìn)行文本挖掘。文本標(biāo)注關(guān)鍵詞對(duì)應(yīng)如表2所示。

3.文本多分類

為了提高分類準(zhǔn)確度,采用三種常見(jiàn)的分類器來(lái)構(gòu)建模型。

(1)貝葉斯分類器

貝葉斯分類器是在相關(guān)概率已知的情況下,找到誤判損失最小的分類類別。對(duì)于N種可能的分類類別,文本x分錯(cuò)類帶來(lái)的損失可以表示為:

其中λij是指將Cj誤分為Ci時(shí)所產(chǎn)生的損失,為使損失達(dá)到最小,要求后驗(yàn)概率最大。貝葉斯分類器利用貝葉斯公式計(jì)算待分類項(xiàng)在某個(gè)條件下屬于各類的概率,然后將待分類項(xiàng)歸于后驗(yàn)概率最大的一類。

(2)決策樹(shù)算法

決策樹(shù)算法通過(guò)對(duì)特征進(jìn)行選擇,找出使數(shù)據(jù)集整體信息量下降最快的特征作為節(jié)點(diǎn),并按照這一原則進(jìn)行迭代,直至整體信息量下降為零。本文使用基于ID3算法的決策樹(shù),根據(jù)信息增益來(lái)尋找適合切分?jǐn)?shù)據(jù)的特征。

(3)隨機(jī)森林

隨機(jī)森林是一種裝袋算法,通過(guò)集成多個(gè)能力強(qiáng)、差異性強(qiáng)的同類型弱分類器來(lái)組成一個(gè)強(qiáng)分類器,使用訓(xùn)練出來(lái)的多個(gè)弱分類器對(duì)數(shù)據(jù)集進(jìn)行分類,然后使用多數(shù)投票的方式來(lái)輸出最終的分類結(jié)果。本文隨機(jī)森林使用了CART樹(shù)作為弱分類器,后者是一種以基尼系數(shù)作為特征選擇標(biāo)準(zhǔn)的決策樹(shù)模型,由于集成的作用,最終隨機(jī)森林預(yù)測(cè)效果要優(yōu)于決策樹(shù),且對(duì)噪音不敏感,適合用于特征較復(fù)雜且噪音較強(qiáng)的文本分類。本文使用sklearn標(biāo)準(zhǔn)化工具建立分類器并進(jìn)行訓(xùn)練。

三、稅政文本自動(dòng)識(shí)別實(shí)驗(yàn)分析

(一)分類準(zhǔn)確率

對(duì)994篇稅政文本按3:1進(jìn)行訓(xùn)練集和測(cè)試集切分,訓(xùn)練文本用于建立并訓(xùn)練分類器,測(cè)試文本用于對(duì)分類器進(jìn)行效果測(cè)試。將模型對(duì)測(cè)試集分類的結(jié)果與人工標(biāo)注的結(jié)果進(jìn)行比較。針對(duì)稅政文本多分類的實(shí)驗(yàn)結(jié)果,通過(guò)計(jì)算準(zhǔn)確率、混淆矩陣和各部門文本召回率對(duì)效果進(jìn)行評(píng)判,結(jié)果如表3。

結(jié)果表明,三種分類器準(zhǔn)確率都超過(guò)了90%,說(shuō)明常見(jiàn)的機(jī)器學(xué)習(xí)分類器對(duì)人工標(biāo)注的實(shí)驗(yàn)稅政文本都有較好的分類效果,其中隨機(jī)森林算法的分類準(zhǔn)確率最高。

(二)召回率

除采用準(zhǔn)確率這一評(píng)判標(biāo)準(zhǔn)之外,還可以通過(guò)混淆矩陣和計(jì)算召回率對(duì)分類效果進(jìn)行評(píng)估?;煜仃囍?,橫軸是該文本人工標(biāo)注結(jié)果,縱軸是模型預(yù)測(cè)結(jié)果,斜對(duì)角線上的數(shù)據(jù)代表分類正確的文本數(shù)量,其余坐標(biāo)點(diǎn)上的數(shù)據(jù)代表了分類錯(cuò)誤的文本數(shù)量。根據(jù)混淆矩陣可以按以下公式計(jì)算出部門對(duì)應(yīng)召回率:

部門召回率Ri=■ (4)

其中i的區(qū)間是從1到4,且分別對(duì)應(yīng)四個(gè)部門的ID。結(jié)果如表4所示。

表4可得,貝葉斯分類器分類錯(cuò)誤的文本數(shù)量為66,其中財(cái)務(wù)部文本的召回率最低,原屬于財(cái)務(wù)部卻被誤判為其他部門的文本為40篇,占錯(cuò)誤文本的76%,而其他部門文本誤判的數(shù)量不超過(guò)10%。決策樹(shù)算法分類準(zhǔn)確率為0.9759,分類錯(cuò)誤的文本數(shù)量為18篇,各部門召回率均值處在高水平,且相差較小。隨機(jī)森林算法的分類效果非常顯著,準(zhǔn)確率達(dá)到0.9919,只有6篇文本被分類錯(cuò)誤。因隨機(jī)森林算法集成了多個(gè)決策樹(shù)算法并最終按照少數(shù)服從多數(shù)原則輸出,故在結(jié)果上糾正了單棵決策樹(shù)分類出現(xiàn)的錯(cuò)誤,對(duì)管理層和人力資源部稅政文本分類準(zhǔn)確率達(dá)到100%。召回率比較如圖2所示。

隨機(jī)森林的混淆矩陣如圖3所示。

綜合三種算法的召回率和折線圖來(lái)看,隨機(jī)森林算法的準(zhǔn)確率在各部門文本中都是最高的,并且表現(xiàn)較為平穩(wěn),不會(huì)受到文本自身的影響,則本文選擇隨機(jī)森林算法應(yīng)用于企業(yè)稅政文本自動(dòng)學(xué)習(xí)和分發(fā)。

(三)反饋模塊

文本多分類完成后,為確保每個(gè)文本的分類結(jié)果匹配到相應(yīng)部門,且保證同一篇文本里包含的價(jià)值可以被多個(gè)部門使用,則需要在系統(tǒng)中設(shè)置反饋模塊,以達(dá)到控制和優(yōu)化系統(tǒng)的作用。該模塊通過(guò)監(jiān)測(cè)文本的去向以及被使用完后的狀態(tài)來(lái)實(shí)現(xiàn)控制和反饋。本文定義三種文本在使用后的狀態(tài)分別是“用完”“余值”和“無(wú)用”,含義及控制反饋見(jiàn)表5。

通過(guò)該控制方式,可實(shí)現(xiàn)對(duì)文本價(jià)值的高效利用,通過(guò)反饋達(dá)到優(yōu)化系統(tǒng)的目的。

四、稅政文本自動(dòng)分發(fā)與部門協(xié)同

應(yīng)用稅政文本自動(dòng)識(shí)別和分發(fā)系統(tǒng),將位于業(yè)務(wù)末端的應(yīng)稅管理置于業(yè)務(wù)前端,通過(guò)部門協(xié)同學(xué)習(xí)構(gòu)建業(yè)財(cái)聯(lián)動(dòng)機(jī)制,強(qiáng)化財(cái)稅管理對(duì)業(yè)務(wù)的指導(dǎo)。以財(cái)政部、稅務(wù)總局、科技部關(guān)于提高研究開(kāi)發(fā)費(fèi)用稅前加計(jì)扣除比例的通知(財(cái)稅〔2018〕99號(hào))稅政文本為例,簡(jiǎn)稱為“三新”項(xiàng)目加計(jì)扣除政策。該項(xiàng)政策通過(guò)系統(tǒng)自動(dòng)識(shí)別并分發(fā)到研發(fā)部、科技部、財(cái)務(wù)部等部門,多部門協(xié)同學(xué)習(xí)后部署標(biāo)準(zhǔn)化、流程化和范式化的管理機(jī)制,將位于研發(fā)業(yè)務(wù)流程末端的應(yīng)稅管理與科技部前端環(huán)節(jié)實(shí)現(xiàn)橫向聯(lián)動(dòng)、部門協(xié)同,確保業(yè)務(wù)信息與稅務(wù)信息高效傳輸。如圖4所示。

通過(guò)業(yè)務(wù)流程分析,將稅政規(guī)則前置于科研項(xiàng)目申報(bào)環(huán)節(jié)之前進(jìn)行學(xué)習(xí),因不同部門之間存在較強(qiáng)的知識(shí)壁壘,為了提高科研項(xiàng)目享受加計(jì)扣除的比例,提高管理效率,部署部門協(xié)同工作時(shí)設(shè)置財(cái)務(wù)助理和科研助理。該管理流程通過(guò)稅政自動(dòng)識(shí)別并分發(fā)到所涉部門,相關(guān)部門據(jù)此部署業(yè)財(cái)聯(lián)動(dòng)的協(xié)同工作流程,促進(jìn)了稅政文本的多部門高效學(xué)習(xí),籌劃了應(yīng)稅的業(yè)務(wù)細(xì)節(jié)。

猜你喜歡
隨機(jī)森林
隨機(jī)森林算法在中藥指紋圖譜中的應(yīng)用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
基于隨機(jī)森林的登革熱時(shí)空擴(kuò)散影響因子等級(jí)體系挖掘
基于隨機(jī)森林的HTTP異常檢測(cè)
個(gè)人信用評(píng)分模型比較數(shù)據(jù)挖掘分析
隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測(cè)中的應(yīng)用
基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
基于奇異熵和隨機(jī)森林的人臉識(shí)別
基于隨機(jī)森林算法的B2B客戶分級(jí)系統(tǒng)的設(shè)計(jì)
房山区| 神池县| 巴林左旗| 周宁县| 吉林省| 岑巩县| 龙泉市| 化隆| 广丰县| 平利县| 迁安市| 确山县| 吉木乃县| 凤阳县| 年辖:市辖区| 景德镇市| 陆丰市| 安多县| 九寨沟县| 大埔县| 金溪县| 周宁县| 乌拉特中旗| 葫芦岛市| 大厂| 利川市| 江源县| 子洲县| 东平县| 酒泉市| 定陶县| 苗栗县| 南雄市| 云南省| 舞钢市| 镇雄县| 临漳县| 贵溪市| 临湘市| 鄂伦春自治旗| 贵阳市|