謝軍 胡發(fā)剛
摘要:這篇文章探討電子發(fā)票信息形式的轉(zhuǎn)換在RPA前期的作用,闡述發(fā)票中非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的必要性,針對電子發(fā)票PDF形式提出具體的形式轉(zhuǎn)換的處理方法,為加速會(huì)計(jì)核算人工智能化進(jìn)程提供參考。
關(guān)鍵詞:電子發(fā)票;機(jī)器人流程自動(dòng)化;鍵值對
近期,備受關(guān)注的《電子商務(wù)法》經(jīng)十三屆全國人大常委會(huì)第五次會(huì)議表決通過,并于2019年1月1日起施行。《電子商務(wù)法》第十四條明確,“電子商務(wù)經(jīng)營者銷售商品或者提供服務(wù)應(yīng)當(dāng)依法出具紙質(zhì)發(fā)票或者電子發(fā)票等購貨憑證或者服務(wù)單據(jù)。電子發(fā)票與紙質(zhì)發(fā)票具有同等法律效力?!笨梢哉f,《電子商務(wù)法》的推出,將會(huì)推動(dòng)電子發(fā)票在國內(nèi)企業(yè)中的廣泛運(yùn)用。
一、RPA的前期流程
財(cái)務(wù)領(lǐng)域的機(jī)器人流程自動(dòng)化(RPA),是當(dāng)前比較流行的財(cái)務(wù)數(shù)字化應(yīng)用技術(shù),把財(cái)務(wù)相關(guān)的數(shù)據(jù)輸入—處理—決策—輸出的流程進(jìn)行分析、拆解,再用機(jī)器人軟件模擬人的操作,把原本需要很多人力在會(huì)計(jì)軟件、ERP軟件、報(bào)表軟件,甚至CRM軟件和稅務(wù)軟件等各種軟件平臺上完成的填寫、菜單點(diǎn)擊、執(zhí)行命令、輸出報(bào)表、報(bào)送等動(dòng)作,交由機(jī)器人來完成,并且每個(gè)動(dòng)作都可以追溯[1]。
RPA這些優(yōu)勢為企業(yè)中提供了提升財(cái)務(wù)核算效率的手段,直觀地管理核算過程,但是一方面機(jī)器人完全按照既定規(guī)則完成動(dòng)作,堅(jiān)定不移地遵守;另一方面RPA需要以電子表格、網(wǎng)絡(luò)表單或數(shù)據(jù)庫的形式提供結(jié)構(gòu)化數(shù)據(jù),以便機(jī)器人完美地工作。認(rèn)知智能結(jié)合機(jī)器學(xué)習(xí)在RPA中提供了這種功能,可以處理非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),并將其轉(zhuǎn)化為結(jié)構(gòu)化形式,然后由機(jī)器人處理。例如,結(jié)合光學(xué)字符識別技術(shù)(OCR)、語音識別等認(rèn)知技術(shù),從輸入端將發(fā)票信息轉(zhuǎn)化為計(jì)算機(jī)可以處理的信息再交由機(jī)器人進(jìn)行后續(xù)處理流程。比如,光學(xué)字符識別技術(shù)可以把紙質(zhì)的憑證發(fā)票、賬冊、合同的信息掃描到計(jì)算機(jī)里,并識別為電子邏輯信息,然后交給機(jī)器人去做記賬、報(bào)表處理[2];而語音識別技術(shù)可以幫助機(jī)器人識別、接收人的語音指令,甚至從人的語音當(dāng)中識別出數(shù)字信息并且進(jìn)行處理。
二、電子發(fā)票信息形式轉(zhuǎn)換的作用
電子發(fā)票是現(xiàn)代信息社會(huì)的產(chǎn)物,是在購銷商品、提供服務(wù)或者接受服務(wù)以及從事其他經(jīng)營活動(dòng)中,開具、收取的數(shù)據(jù)電文形式的收付款憑證。電子發(fā)票與傳統(tǒng)發(fā)票的區(qū)別主要有兩點(diǎn):一是從傳統(tǒng)的物理介質(zhì)發(fā)展為數(shù)據(jù)電文形式,二是打破了紙質(zhì)發(fā)票作為會(huì)計(jì)記賬憑證的傳統(tǒng),具備會(huì)計(jì)檔案電子記賬的條件。國家稅務(wù)總局公告2015年第84號《關(guān)于推行通過增值稅電子發(fā)票系統(tǒng)開具的增值稅電子普通發(fā)票有關(guān)問題的公告》正式規(guī)定打印版式電子發(fā)票的法律效力、基本用途和基本使用規(guī)定等與稅務(wù)機(jī)關(guān)監(jiān)制的增值稅普通發(fā)票相同。
在傳統(tǒng)的方式中,財(cái)務(wù)會(huì)計(jì)人員接觸最多的是結(jié)構(gòu)化的數(shù)據(jù),如三十年前開始采用的會(huì)計(jì)電算化中使用簡單的關(guān)系型數(shù)據(jù)庫作為財(cái)務(wù)信息的存儲(chǔ)、查詢和報(bào)送工具,財(cái)務(wù)領(lǐng)域最核心的三張表——資產(chǎn)負(fù)債表、利潤表和現(xiàn)金流量表以及賬冊,也是結(jié)構(gòu)化數(shù)據(jù)。隨著財(cái)務(wù)管理越來越向前端延伸去支撐業(yè)務(wù),財(cái)務(wù)工作面對的不僅僅是結(jié)構(gòu)化的財(cái)務(wù)數(shù)據(jù),而可能會(huì)面臨很多業(yè)務(wù)數(shù)據(jù),比如客戶信息、公司產(chǎn)業(yè)信息等,在這些大量的業(yè)務(wù)數(shù)據(jù)中,相當(dāng)多的數(shù)據(jù)可能是非結(jié)構(gòu)化的數(shù)據(jù),有些信息甚至可以從社交媒體當(dāng)中產(chǎn)生,這些信息反映了用戶群的偏好和聚焦程度,并可作為投資估值和市場決策依據(jù),在資本市場上也為投資機(jī)構(gòu)和監(jiān)管部門所關(guān)注。對企業(yè)來說,財(cái)務(wù)工作所需的信息不是任憑幾張表格就可以囊括的。
對發(fā)票來說,數(shù)據(jù)是相同的,但由于格式可能會(huì)有所不同、形式不同,發(fā)票中存儲(chǔ)的信息成為非結(jié)構(gòu)化數(shù)據(jù)。如果機(jī)器人獲得了這種非結(jié)構(gòu)化數(shù)據(jù),它可能會(huì)突然停止運(yùn)行。這時(shí)通過機(jī)器學(xué)習(xí),從發(fā)票表格中提取元數(shù)據(jù)并將其輸入到記錄系統(tǒng)中,一旦輸入,機(jī)器人就可以使用這些數(shù)據(jù)進(jìn)行后續(xù)處理。利用搜索功能提取發(fā)票中記錄的開票日期、金額、貨物或應(yīng)稅勞務(wù)、服務(wù)名稱等元數(shù)據(jù)信息,將加強(qiáng)企業(yè)管理整個(gè)財(cái)務(wù)風(fēng)險(xiǎn)組合,加速會(huì)計(jì)核算人工智能化進(jìn)程。
三、電子發(fā)票信息的識別
目前PDF形式在移動(dòng)終端、電腦上易于閱讀、不易編輯,電子發(fā)票較多采用這種形式。雖然可以通過采集電子發(fā)票元數(shù)據(jù)的途徑,來獲取電子發(fā)票中包含的信息[3,4],但由于采集元數(shù)據(jù)的工具尚不完備,本文介紹一種通過定制模板獲取電子發(fā)票信息的方法。
在Python語言中,PDFMiner是一個(gè)
可以從PDF文檔中提取信息的工具,與其他PDF相關(guān)的工具不同,它注重獲取和分析文本數(shù)據(jù)。PDFMiner允許獲取PDF某一頁中文本的準(zhǔn)確位置和一些諸如字體、行數(shù)的文本信息。它包括一個(gè)PDF轉(zhuǎn)換器,可以把PDF文件轉(zhuǎn)換成HTML等格式;還包括一個(gè)擴(kuò)展的PDF解析器,可以用于除文本分析以外的其它用途。PDFMiner的內(nèi)置工具pdf2txt.py可以從PDF文件中提取所有文本內(nèi)容。
PDFMiner官方網(wǎng)頁(https://euske.github.io/pdfminer/)列舉出其特點(diǎn)包括:
1.完全使用python編寫。
2.解析,分析,并轉(zhuǎn)換成PDF文檔。
3.支持PDF-1.7規(guī)范。
4.支持中日韓語言和垂直書寫。
5.支持各種字體類型(Type1、 TrueType、Type3和CID)。
6.支持基本加密(RC4)。
7. PDF與HTML轉(zhuǎn)換。
8.支持提取綱要(TOC)。
9.支持提取標(biāo)簽內(nèi)容。
10.通過分組文本塊重建原始的布局(Layout)。
Layout布局分析返回的PDF文檔中的每個(gè)頁面LTPage對象,這個(gè)對象和頁內(nèi)包含的子對象,形成一個(gè)樹結(jié)構(gòu),LTPage:表示整個(gè)頁,可能會(huì)含有LTTextBox,LTFigure,LTImage,LTRect,LTCurve和LTLine子對象。LTTextBox即文字所在的矩形區(qū)域。
轉(zhuǎn)換處理的步驟:
(1)利用以上PDFMiner的特點(diǎn),首先獲取電子發(fā)票中的“開票日期”、“納稅人識別號”、“貨物或應(yīng)稅勞務(wù)、服務(wù)名稱”、“數(shù)量”、“單價(jià)”、“價(jià)稅合計(jì)”等文字的坐標(biāo)位置,即所在矩形區(qū)域的坐標(biāo),形成一個(gè)發(fā)票信息的認(rèn)知模板。例如,“開票日期”的坐標(biāo)位置是(580,46,610,52)。使用pdf2txt.py提取所在矩形區(qū)域的文本內(nèi)容并輸出。
(2)然后在各個(gè)信息區(qū)域右側(cè)或者下方的矩形區(qū)域提取文本內(nèi)容并輸出。
四、發(fā)票信息的整理與輸出
鍵值對的鍵(Key)是數(shù)據(jù)的標(biāo)識信息,值(Value)是數(shù)據(jù)本身。將以上提取的發(fā)票信息認(rèn)知模板作為鍵,其附近區(qū)域的內(nèi)容作為對應(yīng)鍵的值,形成互聯(lián)網(wǎng)常用的json數(shù)據(jù)形式輸出。在RPA中json形式的數(shù)據(jù)既可以單獨(dú)使用,也可以與既存的結(jié)構(gòu)化數(shù)據(jù)庫字段進(jìn)行匹配,保存在結(jié)構(gòu)化數(shù)據(jù)庫中,作進(jìn)一步處理和分析。如果需要,這種鍵值對也很容易轉(zhuǎn)換成為XML數(shù)據(jù)形式。PDFMiner的內(nèi)置工具dumppdf.py把PDF文件內(nèi)容轉(zhuǎn)變成pseudo-XML格式,但是轉(zhuǎn)換的結(jié)果中多數(shù)鍵值不能有效對應(yīng)。
當(dāng)發(fā)票的“貨物或應(yīng)稅勞務(wù)、服務(wù)名稱”中出現(xiàn)“(詳見銷貨清單)”時(shí),需要進(jìn)一步按上文轉(zhuǎn)換處理的步驟提取PDF的下一頁發(fā)票信息,包括“貨物(勞務(wù))名稱”、“規(guī)格型號”等。
五、結(jié)論與展望
電子發(fā)票將對財(cái)務(wù)工作產(chǎn)生深遠(yuǎn)影響[5],財(cái)務(wù)是一個(gè)強(qiáng)規(guī)則領(lǐng)域,電子化批量處理發(fā)票數(shù)據(jù)將財(cái)務(wù)領(lǐng)域內(nèi)可重復(fù)、有規(guī)律可循的事務(wù)流程和報(bào)告流程交給機(jī)器人處理。在以上提出的處理方法的基礎(chǔ)上,電子發(fā)票包含的有效信息將轉(zhuǎn)換成會(huì)計(jì)記賬信息,這有助于加速提高財(cái)務(wù)決策效率。
參考文獻(xiàn):
[1]程平,王文怡.基于RPA的財(cái)務(wù)共享服務(wù)中心費(fèi)用報(bào)銷優(yōu)化研究[J].會(huì)計(jì)之友,2018 (13): 146-151.
[2]彭晶.智能識別技術(shù)在企業(yè)信息化系統(tǒng)中的應(yīng)用探討[J].信息與電腦(理論版),2018 (14): 118-120+125.
[3]馬仲凱.電子發(fā)票元數(shù)據(jù)集探析[J].管理工程師,2018,23 (04): 42-49.
[4]張雅君,李澤鋒.電子發(fā)票核心元數(shù)據(jù)構(gòu)成與捕獲研究[J].北京檔案,2018 (08): 30-32.
[5]陳立,劉纖云.“互聯(lián)網(wǎng)+”環(huán)境下電子發(fā)票對企業(yè)財(cái)務(wù)工作的影響[J].會(huì)計(jì)之友,2016 (13): 92-93.