鄒安琪,陳艷平
(貴州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025)
隨著人工智能、云計算和大數(shù)據(jù)等新興技術(shù)不斷發(fā)展,稅務(wù)作為國家經(jīng)濟(jì)的重要組成部分,面臨著稅務(wù)改革和現(xiàn)代化建設(shè)等時代任務(wù),因此,智慧稅務(wù)應(yīng)運而生。在實際稅收征管中,首先需要專家對國家頒布的條例進(jìn)行解讀并制定規(guī)則,然后再由計算機(jī)工作人員將規(guī)則編寫成代碼進(jìn)行稅收計算。該模式依賴人工,無法實現(xiàn)智慧稅務(wù)中的“智慧”,稅務(wù)領(lǐng)域迫切需要一種能夠自動抽取并表示稅收條例所蘊(yùn)含規(guī)則和知識的方法。由于知識圖譜結(jié)合了高效的深度學(xué)習(xí)方法,是決策支持、語義搜索、智能問答等智能服務(wù)的基礎(chǔ)技術(shù)[1],因而能夠為上述問題提供優(yōu)秀的解決方案:通過知識圖譜構(gòu)建可以自動表征和抽取稅收條例中的規(guī)則及知識,并使用知識圖譜“解讀”稅收條例。
本文結(jié)合自然語言處理技術(shù),研究面向稅收條例的稅法知識表示模型和稅法知識抽取方法,構(gòu)建面向稅收條例的稅法知識圖譜。根據(jù)征收條例內(nèi)在知識結(jié)構(gòu)特征和邏輯關(guān)系,對稅收條例所蘊(yùn)含的知識進(jìn)行建模。同時,對稅務(wù)條例知識抽取數(shù)據(jù)集進(jìn)行標(biāo)注,設(shè)計實現(xiàn)針對稅務(wù)知識要素的抽取算法,提出針對稅法知識圖譜的自動構(gòu)建框架。
知識圖譜始于20 世紀(jì)50 年代,可分為3 個發(fā)展階段[2]:第一階段(1955-1977 年)是知識圖譜起源階段,引文網(wǎng)絡(luò)分析方法被用于研究現(xiàn)代科學(xué)發(fā)展脈絡(luò);第二階段(1977-2012 年)是知識圖譜發(fā)展階段,語義網(wǎng)得到快速發(fā)展,“知識本體”的研究開始成為計算機(jī)科學(xué)重要領(lǐng)域;第三階段(2012 年至今)是知識圖譜發(fā)展的繁榮階段,2012年谷歌提出Google Knowledge Graph[3],知識圖譜正式得名。知識圖譜一經(jīng)提出便引起學(xué)術(shù)界和工業(yè)界廣泛關(guān)注,并成功應(yīng)用于醫(yī)療、金融、公安、教育、社交網(wǎng)絡(luò)、電商等領(lǐng)域,可將其分為通用領(lǐng)域知識圖譜和垂直領(lǐng)域知識圖譜。
在通用領(lǐng)域,國外對于知識圖譜的研究早于國內(nèi),最具代表性的大規(guī)模通用領(lǐng)域知識圖譜包括YAGO[4]、DBpedia[5]、Wikidata[6]、Probase[7]、ConceptNet[8]等。國內(nèi)工業(yè)界和學(xué)術(shù)界也對通用領(lǐng)域知識圖譜展開了一系列研究,工業(yè)界如百度“知心”、搜狗“知立方”,學(xué)術(shù)界如THUOCL、大詞林、zhishi.me、CN-Probase 等。
在垂直領(lǐng)域,學(xué)術(shù)界也掀起了知識圖譜相關(guān)技術(shù)研究高潮,胡芳槐[9]以互聯(lián)網(wǎng)上各類結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)為基礎(chǔ),提出基于多種數(shù)據(jù)源的知識圖譜構(gòu)建方法,構(gòu)建包含數(shù)千萬事實知識的中文知識圖譜。李文鵬等[10]針對4種不同類型的軟件資源,基于軟件知識實體提取原則,提出軟件知識圖譜構(gòu)建方法,包括軟件知識實體抽取、關(guān)系關(guān)聯(lián)和知識查詢,并基于此實現(xiàn)了面向開源軟件項目的軟件知識圖譜構(gòu)建工具,提高了軟件復(fù)用性,有助于軟件開發(fā)人員對軟件知識進(jìn)行檢索與應(yīng)用。楊玉基等[11]對領(lǐng)域知識圖譜構(gòu)建進(jìn)行系統(tǒng)研究,提出領(lǐng)域知識圖譜快速構(gòu)建方法,并使用該方法以中國基礎(chǔ)教育的九門學(xué)科為原始數(shù)據(jù)構(gòu)建了包含67 萬個實體及1 412 萬條事實的中文學(xué)科知識圖譜。張元博[12]構(gòu)建了一種半監(jiān)督的知識挖掘方法,依據(jù)挖掘的醫(yī)療信息構(gòu)建醫(yī)療領(lǐng)域知識圖譜,針對醫(yī)療數(shù)據(jù)中結(jié)構(gòu)化知識缺失問題,提出使用Bootstrapping 算法和條件隨機(jī)場對元數(shù)據(jù)進(jìn)行抽取。王劍輝等[13]通過分析知網(wǎng)收錄的國內(nèi)空中交通管理資料,利用知識圖譜對空中交通管理知識進(jìn)行可視化。Arenas 等[14]運用DBpedia 數(shù)據(jù)集中IT 領(lǐng)域數(shù)據(jù)資源間的關(guān)系,使用建立關(guān)聯(lián)圖的方法構(gòu)建知識圖譜,實現(xiàn)了IT 資源實體語義查詢。Karidi 等[15]基于知識圖譜和圖計算提出在Twitter 中關(guān)注主題推薦算法,實現(xiàn)了知識圖譜在社交網(wǎng)絡(luò)中的應(yīng)用研究。洪文興等[16]基于中文預(yù)訓(xùn)練語言模型,對知識圖譜構(gòu)建過程中的信息抽取算法進(jìn)行研究,其中包括命名實體識別和關(guān)系抽取,并以此實現(xiàn)了司法案件案情知識圖譜自動構(gòu)建。
目前,知識圖譜在司法、生物醫(yī)療、金融風(fēng)控和電子商務(wù)等特定領(lǐng)域有著廣泛應(yīng)用,但在涉稅領(lǐng)域方面鮮有研究。稅務(wù)領(lǐng)域作為國家經(jīng)濟(jì)重要組成部分,稅務(wù)智能化建設(shè)與每個人息息相關(guān),構(gòu)建基于智慧稅務(wù)的知識圖譜迫在眉睫。
在構(gòu)建稅收條例知識圖譜前,需對構(gòu)建圖譜的原始數(shù)據(jù)進(jìn)行分析,得到知識圖譜建模數(shù)據(jù)形態(tài),并說明知識圖譜要素的知識類型,定義知識圖譜結(jié)構(gòu)模型。
對稅收條例進(jìn)行人工分析并與稅務(wù)領(lǐng)域?qū)<疫M(jìn)行討論,發(fā)現(xiàn)稅收條例文本詞匯專業(yè)性強(qiáng)、可讀性差,具有語言表達(dá)規(guī)范、語義明確、知識較為結(jié)構(gòu)化、邏輯性強(qiáng)等特點。
傳統(tǒng)知識圖譜只對涉及到的實體類型和關(guān)系類型進(jìn)行預(yù)定義,這種建模方式無法完全將稅收條例中蘊(yùn)含的語義內(nèi)涵和知識結(jié)構(gòu)表示出來,但稅收條例存在明顯語義結(jié)構(gòu),為此提出稅收條例知識子圖建模具體涉稅措施,通常將一個稅收條例轉(zhuǎn)化為一個子圖,如圖1所示。
Fig.1 Tax regulations knowledge subgraph圖1 稅收條例知識子圖
稅收條例知識子圖是以納稅人為根節(jié)點、具體涉稅措施為終結(jié)點的有向無環(huán)圖。其內(nèi)部結(jié)構(gòu)鮮明,包含9 種知識要素和5種要素關(guān)系,知識要素如表1所示。
Table 1 Types of knowledge elements of tax regulations表1 稅收條例知識要素類型
稅收條例知識子圖包含納稅主體、納稅對象、納稅行為、納稅客體、主體修飾、行為修飾、對象修飾及時間。其中,修飾要素通常是對主體、對象、行為進(jìn)行修飾限定,例如表1 中的“二手車經(jīng)銷”與“從事”結(jié)合起來對納稅主體“納稅人”進(jìn)行修飾。修飾要素用于對納稅主體、納稅對象及納稅行為進(jìn)行限定,對條例邏輯和知識結(jié)構(gòu)更好地進(jìn)行刻畫。時間用于對條例有效日期作出描述。除知識要素外,根據(jù)知識表示方法定義的6種關(guān)系如表2所示。
Table 2 Six relationships defined according to the knowledge representation method表2 根據(jù)知識表示方法定義的6種關(guān)系
稅收條例知識圖譜以納稅人源節(jié)點為中心節(jié)點,由稅收條例知識子圖構(gòu)成知識圖譜。該知識圖譜并非子圖的簡單拼接,向圖譜中添加子圖時,需判斷待添加稅法分面樹和已有稅法分面樹間的語義關(guān)系。為此,定義基于知識圖譜的操作如下:
(1)查詢子圖。查詢符合條件的知識子圖,判斷其是否存在。查詢操作是其他操作的基礎(chǔ),是分面樹進(jìn)行添加、更新、刪除等操作的前提條件。
(2)添加子圖。添加某一子圖,添加前應(yīng)先判斷該分面樹是否已存在,添加后,知識圖譜中會新增一個子圖。
(3)更新子圖。若添加子圖前發(fā)現(xiàn)該子圖已存在,則更新分面樹。更新操作可能存在合并、拆分子圖的情況。
(4)刪除子圖。對知識圖譜中符合條件的知識子圖執(zhí)行刪除操作,查詢當(dāng)前知識圖譜,若存在同待刪知識子圖語義相同的子圖,則執(zhí)行刪除操作。
稅收條例知識要素抽取采用命名實體識別方法,對句子中每個字預(yù)測一個分類標(biāo)簽,從而判斷該字在要素中的語義角色。在B-I-O 編碼中,B(Beginning)表示該字對應(yīng)一個要素的開始,I(Inside)表示要素的后續(xù),O(Outside)表示不屬于該要素。為保證建模標(biāo)簽間的語義依賴關(guān)系,現(xiàn)有要素識別方法主要采用序列標(biāo)注模型輸出一條最大化標(biāo)注路徑,從而建立句子中知識要素間的語義依賴信息。
傳統(tǒng)基于Word2vec 的序列標(biāo)注模型無法表征上下文關(guān)系,一個詞只包含一個詞向量。本文在BiLSTM-CRF 模型基礎(chǔ)上,引入基于BERT 的預(yù)訓(xùn)練語言模型,構(gòu)建BERT-BiLSTM-CRF 稅收條例要素抽取模型,結(jié)構(gòu)如圖2所示。
Fig.2 Element extraction model of tax regulations based on BERT圖2 基于BERT的稅收條例要素抽取模型
模型整體可劃分為三大網(wǎng)絡(luò)層:第一層是嵌入層,利用BERT 預(yù)訓(xùn)練語言模型對句子進(jìn)行嵌入生成融合上下文語義信息的字符向量表示;第二層是BiLSTM 層,對BERT輸出的字符向量表示進(jìn)行編碼及解碼,有效獲取字符序列的長距離依賴;第三層是CRF 層,對上層輸出解碼,學(xué)習(xí)標(biāo)簽間約束關(guān)系并輸出最大化標(biāo)注序列。
BERT 模型在嵌入層對輸入的條例依次進(jìn)行詞嵌入、段落嵌入和位置信息嵌入[17]。詞嵌入對輸入的文本進(jìn)行分詞處理,將每一個token 轉(zhuǎn)換為固定維度的向量表示;段落嵌入是用[CLS]和[SEP]特殊符號分割句子中的token,并以0/1 下標(biāo)做區(qū)分進(jìn)行嵌入。由于BERT 可以處理長度為512 的句子,故以0-512 區(qū)分每個字的位置,以此學(xué)習(xí)每個位置的向量表示,得到包含輸入序列順序特征的位置嵌入。3 種嵌入表示疊加輸入后,BERT 采用Transformer 對輸出向量進(jìn)行特征提取。給定條例1 的文本輸入為{w1,w2,w3,...,wn},經(jīng)過BERT 嵌入層得到帶有上下文語義信息的向量表示為{x1,x2,x3,...,xn},其中n代表句子長度。
BiLSTM 指雙向長短記憶神經(jīng)網(wǎng)絡(luò),在解決長距離序列依賴方面較為優(yōu)秀,并解決了LSTM 只能獲取單向語義信息的問題,LSTM 單元通過門控機(jī)制以控制信息取舍。
每個LSTM 單元中包含輸入門it、輸出門ot和遺忘門ft,BERT 嵌入得到字符分布式表示為x={x1,x2,x3,...,xn},t 時刻的輸入包括xt與ht-1,ct和ct-1表示記憶單元,ct-1通過遺忘門摒棄部分歷史信息,結(jié)合輸入門新加入的信息得到ct,利用輸出門計算得到當(dāng)前時刻ht,其計算過程如式(1)。
CRF 作為解碼層,用于學(xué)習(xí)標(biāo)簽間的約束關(guān)系,解決標(biāo)簽不合理問題。BiLSTM 的輸出將句子表示映射到與句子字符對應(yīng)的標(biāo)簽概率矩陣P,其中Pij表示句中第i個字符對應(yīng)標(biāo)簽是j的概率,而CRF 主要是學(xué)習(xí)標(biāo)簽間的轉(zhuǎn)移矩陣A,其中Ai,j表示i標(biāo)簽后接j標(biāo)簽的概率。
對于經(jīng)過BiSLTM 特征抽取后得到的隱狀態(tài)輸出H(h1,h2,...,hn),其對應(yīng)標(biāo)簽序列為Y(y1,y2,...,yn),得分函數(shù)可定義為式(3)。
其中,S表示全部句子集合,Hs表示句子s經(jīng)過BERT和BiLSTM 的隱狀態(tài)輸出,Ys表示句子s對應(yīng)的預(yù)測標(biāo)簽序列。
為構(gòu)建稅務(wù)征收條例知識圖譜,本文選用國家稅務(wù)總局和各地稅務(wù)局官網(wǎng)政策庫自1984 年以來發(fā)布的各項稅務(wù)征收條例作為數(shù)據(jù)集。采用BIO 格式對稅收條例知識建模方法提及的要素進(jìn)行標(biāo)注,最終得到Tax 數(shù)據(jù)集。以8∶1∶1 的比例對數(shù)據(jù)集進(jìn)行劃分得到訓(xùn)練集、驗證集和測試集。稅收條例知識要素類型和數(shù)據(jù)統(tǒng)計信息如表3所示。
為證明本文模型的可擴(kuò)展性,除在本文標(biāo)注的Tax 數(shù)據(jù)集上開展實驗外,還選取了兩個中文基準(zhǔn)數(shù)據(jù)集MSRA和Weibo[18]進(jìn)行實驗,數(shù)據(jù)集統(tǒng)計信息如表4所示。
本實驗基于Tensorflow 深度學(xué)習(xí)框架,在Linux 系統(tǒng)下的Nvidia Tesla P40 平臺上進(jìn)行模型訓(xùn)練。主要參數(shù)包括:最大句子長度為300,batch_size 為64,學(xué)習(xí)率為0.000 5,優(yōu)化器采用Adam[18],drop_out 為0.5;為緩解梯度消失和爆炸的影響,LSTM 隱含單元設(shè)為128,層數(shù)為2;經(jīng)過預(yù)訓(xùn)練模型對比實驗后,選取更加適用于本文抽取任務(wù)的RoBER-Ta-wwm-ext[19]模型,該模型包含了包含12 個Transformer,預(yù)訓(xùn)練詞向量維度為768。本文采用P 值、R 值和F1值作為評價指標(biāo),F(xiàn)1值使用微平均計算,具體計算公式如式(6)。
Table 3 Statistics of element number of Tax dataset表3 Tax數(shù)據(jù)集要素數(shù)量統(tǒng)計
Table 4 Statistical of universal datasets表4 通用數(shù)據(jù)集統(tǒng)計
其中,TP 表示預(yù)測要素是正確識別的個數(shù);FP 表示預(yù)測要素是錯誤識別的個數(shù);FN 表示標(biāo)準(zhǔn)標(biāo)注要素被錯誤識別的個數(shù)。
為證明本模型性能,采用BiLSTM-CRF、BERT-CRF 這兩種模型作為對比模型。具體實驗性能如表5所示。
Table 5 Knowledge element extraction model performance表5 知識要素抽取模型性能
將本文模型與序列標(biāo)注經(jīng)典基線模型BiLSTM+CRF進(jìn)行對比,3 個指標(biāo)均大幅提升,準(zhǔn)確率提升10.03%,召回率提升11.47%,F(xiàn)1 值提升11.15%。說明在稅務(wù)領(lǐng)域,BERT 預(yù)訓(xùn)練模型詞向量較于傳統(tǒng)Word2vec 模型訓(xùn)練的靜態(tài)詞向量在表達(dá)字的語義信息和有效提取上下文特征方面表現(xiàn)更佳,證實了本文模型在稅務(wù)領(lǐng)域要素抽取任務(wù)上可行。
將BERT+BiLSTM+CRF 模型與BERT+CRF 模型進(jìn)行對比,兩個模型間的區(qū)別在于BiLSTM 層,從結(jié)果上看召回率降低了,但準(zhǔn)確率提高2.1%,F(xiàn)1 值提高2.44%,證明BiLSTM 在獲取句子的長距離語義依賴方面具有一定優(yōu)勢。
在通用數(shù)據(jù)集MRSA 上實體類型少,識別較為容易,3個模型F1值均達(dá)到90%以上,BERT-BiLSTM-CRF 模型相較于BiLSTM-CRF 模型各項指標(biāo)均提高5%以上,但與BERT-CRF 模型相比,性能提升不大。在更具挑戰(zhàn)性的數(shù)據(jù)集Weibo 中,本文模型各項指標(biāo)較基線模型BiLSTM 提升17%以上,在BERT-CRF 模型上的提升比MSRA 數(shù)據(jù)集更大,表明本文方法具有一定擴(kuò)展性。
為驗證各種中文預(yù)訓(xùn)練語言模型性能,在本文模型結(jié)構(gòu)下選取BERT-base[17]、BERT-wwm[19]、Roformer[20]、Ro-BERTa-wwm-ext[19]等BERT 模型進(jìn)行對比實驗,實驗性能如表6所示。
BERT 系列模型明顯優(yōu)于Roformer,表明BERT 系列模型更適用于本文抽取任務(wù)。BERT-wwm 作為BERT 升級版,引入了全詞MASK,實驗表明,模型在準(zhǔn)確率(P)和召回率(R)上略優(yōu)于BERT-base,F(xiàn)1指標(biāo)性能幾乎接近。
由于RoBERTa-wwm-ext 訓(xùn)練數(shù)據(jù)量大和特殊設(shè)計的MASK 方式,各項指標(biāo)均明顯優(yōu)于其他對比預(yù)訓(xùn)練模型。
Table 6 Pre-training model extraction performance表6 預(yù)訓(xùn)練模型抽取性能
本文基于上述稅收要素抽取模型,實現(xiàn)了面向稅收條例的知識圖譜自動構(gòu)建,構(gòu)建流程如下:
(1)知識要素抽取。給定一條稅務(wù)條文,采用基于BERT 的稅收條例要素抽取模型對稅務(wù)征收條例進(jìn)行要素識別,得到知識要素數(shù)據(jù)列表List1。
(2)結(jié)構(gòu)組合。由于稅法分面樹的各部分組成詞較為固定,將要素按<納稅主體-主體修飾>、<納稅主體-納稅對象>、<納稅對象-對象修飾>、<稅種-納稅對象>、<納稅行為-行為修飾><納稅行為-稅種>進(jìn)行組合得到數(shù)據(jù)列表List2。
對List2中的各類二元組組合,利用表2 中的預(yù)定義關(guān)系類型進(jìn)行關(guān)系拼接,形成最后的關(guān)系數(shù)據(jù)列表List3。此列表包含:要素1 及其要素類別、要素2 及其要素類別,從而得到三元組,對三元組進(jìn)行拼接得到稅收條例知識子圖。
(3)稅收條例知識圖譜構(gòu)建。利用子圖中的納稅人源節(jié)點進(jìn)行融合得到知識圖譜。子圖融合之前進(jìn)行定義的查詢子圖操作,利用文本匹配方法在條例庫中進(jìn)行匹配,若有沖突則執(zhí)行子圖更新操作,更新知識圖譜中的知識子圖;若無沖突則進(jìn)行添加子圖操作。通過上述操作融合知識子圖得到知識圖譜。
(4)可視化展示。將獲取的知識圖譜以數(shù)據(jù)形式進(jìn)行結(jié)構(gòu)化存儲,利用Echarts 結(jié)合Vue.js 開發(fā)的知識圖譜可視化工具,以導(dǎo)向圖形式對稅收條例知識進(jìn)行可視化展示,如圖3所示。
Fig.3 Visual display of tax regulations knowledge graph圖3 稅收條例知識圖譜可視化展示
本文面向稅務(wù)征收條例數(shù)據(jù)研究知識圖譜構(gòu)建方法,針對知識圖譜構(gòu)建需求,提出面向稅收條例的知識建模方法,準(zhǔn)確且適當(dāng)?shù)乇硎玖硕愂諚l例中蘊(yùn)含的知識。同時,針對稅收條例的數(shù)據(jù)特點,設(shè)計基于BERT 的稅收條例知識要素抽取模型,在本文標(biāo)注的Tax 數(shù)據(jù)集上展現(xiàn)出其優(yōu)秀性能,并通過對比實驗選取適合本文任務(wù)的中文預(yù)訓(xùn)練語言模型。在通用數(shù)據(jù)集上進(jìn)行實驗也展現(xiàn)了較好性能,證明該模型適用于稅務(wù)知識抽取任務(wù),且在通用領(lǐng)域具有一定擴(kuò)展性。最后,基于知識要素抽取模型,提出了知識圖譜自動構(gòu)建流程,實現(xiàn)了面向稅收條例知識圖譜的構(gòu)建。
為構(gòu)建質(zhì)量更高的知識圖譜,后續(xù)研究將收集更多稅收條例數(shù)據(jù)進(jìn)行人工標(biāo)注,增加數(shù)據(jù)量以提升知識要素抽取性能。知識建模中要素分類粒度較粗,并不能完全涵蓋所有領(lǐng)域知識概念,后續(xù)將繼續(xù)補(bǔ)充相關(guān)領(lǐng)域知識,完善知識建模方法。