李宗民
(中原工學(xué)院經(jīng)濟(jì)管理學(xué)院,鄭州 450007)
在數(shù)字經(jīng)濟(jì)時(shí)代,隨著智能技術(shù)的快速發(fā)展與廣泛應(yīng)用,將深刻影響會(huì)計(jì)行業(yè)和業(yè)務(wù)的發(fā)展,促進(jìn)會(huì)計(jì)信息處理方式的創(chuàng)新和會(huì)計(jì)人員職能的轉(zhuǎn)型升級(jí)[1]. 通過人工智能與會(huì)計(jì)業(yè)務(wù)的融合,會(huì)計(jì)人員可以借助智能算法實(shí)現(xiàn)會(huì)計(jì)信息的高效、精準(zhǔn)、自動(dòng)處理,彌補(bǔ)傳統(tǒng)會(huì)計(jì)信息處理方式的準(zhǔn)確性、實(shí)效性和完整性不足等缺點(diǎn),提升會(huì)計(jì)信息處理的效率與效益[2],原有流程性、標(biāo)準(zhǔn)化和重復(fù)性的會(huì)計(jì)業(yè)務(wù)將被人工智能取代[3]. 這些特征將促使會(huì)計(jì)人員從會(huì)計(jì)核算職能,向強(qiáng)化內(nèi)控、輔助與參與企業(yè)經(jīng)營決策等管理會(huì)計(jì)職能方向轉(zhuǎn)型.
會(huì)計(jì)核算業(yè)務(wù)中的大部分憑證、票據(jù)等信息會(huì)計(jì)都是以圖像為載體呈現(xiàn),如何借助人工智能算法和圖像處理技術(shù)將圖像信息轉(zhuǎn)換成準(zhǔn)確、及時(shí)和有效的文本信息,對提高會(huì)計(jì)處理處理效率、質(zhì)量、及時(shí)性等方面具有關(guān)鍵意義,也是促進(jìn)會(huì)計(jì)人員職能轉(zhuǎn)型升級(jí)的前提與保障.
近年來,針對會(huì)計(jì)信息智能處理方面的研究,一些專家、學(xué)者做了有意義的研究與探索. 張艷等提出運(yùn)用框線檢測,建立框線相似模型,精確提取票據(jù)圖像框架特征,對票據(jù)類別進(jìn)行分類[4]. 李治江等提出運(yùn)用樸素貝葉斯理論,構(gòu)建樸素貝葉斯分類模型,把圖像中的各個(gè)像素分成二類放到模型中,有效地實(shí)現(xiàn)彩色圖像各顏色區(qū)域的分離[5]. 韓征等提出運(yùn)用蒙特卡洛模擬的圖像二值化增強(qiáng)算法,對背景復(fù)雜、亮度不均勻的圖像進(jìn)行二值化分割[6]. 倬棟等綜合最大類間方差法和Bernsen算法,進(jìn)行實(shí)時(shí)二值化處理,解決光照不均勻條件下的圖像處理問題[7]. 卜飛宇等提出運(yùn)用框線去除算法,排除框線對字符識(shí)別的干擾[8]. 歐陽歡等提出運(yùn)用最大對稱環(huán)繞算法,通過對圖像目標(biāo)進(jìn)行聚類分析,實(shí)現(xiàn)圖章的識(shí)別與校正[9]. 鐘俠提出運(yùn)用基于Hough的票據(jù)圖像傾斜檢測與校正方法,以圖像中心為原點(diǎn),通過平移變換,確定峰值點(diǎn),精確計(jì)算傾斜角度,并進(jìn)行校正[10]. 羅曉萍提出運(yùn)用向上優(yōu)先區(qū)域生長法搜索行間留白,實(shí)現(xiàn)文本行分割與圖像校正[11]. 曹玉東等提出移動(dòng)基準(zhǔn)點(diǎn)定位算法,對銀行票據(jù)文本信息區(qū)域進(jìn)行定位[12]. 金海燕等提出運(yùn)用二值化法,根據(jù)垂直投影和輪廓特征對發(fā)票中的數(shù)字進(jìn)行自適應(yīng)字符分割與識(shí)別,提高了圖像字符串的分割效率和準(zhǔn)確率[13]. 崔文成等提出運(yùn)用數(shù)字結(jié)構(gòu)特征算法,對發(fā)票編號(hào)的字體結(jié)構(gòu)與特征進(jìn)行識(shí)別,與基于輪廓特征的識(shí)別相比,具有高識(shí)別率、準(zhǔn)確性和低噪聲魯棒性[14]. 蔣方等提出依據(jù)發(fā)票信息布局和文本特征,結(jié)合雙向LSTM(Long Short-Term Memory)序列學(xué)習(xí)結(jié)構(gòu)對文本進(jìn)行分割與識(shí)別[15]. 宋琦悅等提出運(yùn)用改進(jìn)滴水算法,尋找粘連字符切分路徑,對粘連字符進(jìn)行分割,效果較好[16].
盡管針對會(huì)計(jì)票據(jù)智能化處理方面已有許多研究成果,但仍存在識(shí)別的準(zhǔn)確性、完整性、效率性和智能性等方面的問題不足. 本文綜合相關(guān)研究成果與實(shí)踐,綜合運(yùn)用票據(jù)圖像處理技術(shù),采用二值化、定向白游改進(jìn)算法對票據(jù)圖像進(jìn)行預(yù)處理與傾斜校正,然后,運(yùn)用維納濾波法和灰度投影法對圖像進(jìn)行去噪與字符分割,最后,利用卷積神經(jīng)網(wǎng)絡(luò)特征識(shí)別模型從票據(jù)圖像中提取特征數(shù)據(jù),智能識(shí)別會(huì)計(jì)信息,實(shí)現(xiàn)會(huì)計(jì)信息的智能化采集與處理.
本文運(yùn)用上述思路與方法,對真實(shí)的150張?jiān)鲋刀惏l(fā)票樣本進(jìn)行仿真實(shí)驗(yàn),識(shí)別率為98.42%,實(shí)驗(yàn)結(jié)果具有很強(qiáng)的有效性,本文的研究成果將對會(huì)計(jì)信息處理智能化,促進(jìn)會(huì)計(jì)人員職能轉(zhuǎn)型升級(jí)有一定的促進(jìn)作用.
圖像二值化是將彩色圖像或多灰度圖像轉(zhuǎn)換成只有兩個(gè)黑白灰度圖像的過程. 其處理步驟與方法如下.
1)脫色處理. 對于彩色圖像首先進(jìn)行圖像脫色,即灰度處理. 將彩色像素轉(zhuǎn)換成灰度像素的常用算法是計(jì)算RGB三種顏色系列的平均值,并使用平均值表示灰度像素的灰度(0~255). 該算法非常簡單,許多圖像處理APP平臺(tái)為圖像脫色提供了封裝功能.
2)黑白分割. 通過將像素的灰度值與閾值進(jìn)行比較來確定像素是黑色還是白色(像素值是1 還是0).計(jì)算公式如下:
式(1)中e是選擇的閾值. 當(dāng)圖像的像素值為0時(shí)為白色. 當(dāng)圖像的像素值為1時(shí)為黑色,即字符圖像. 如果圖像背景不在灰度值上(如紋理不同),可以將差別特征值,轉(zhuǎn)換為灰度差別,然后再利用閾值判斷分割該圖像,并通過動(dòng)態(tài)調(diào)節(jié)閾值實(shí)現(xiàn)圖像的二值化分割.
在票據(jù)圖像獲取過程中由人為或其他原因,所獲取的圖像經(jīng)常會(huì)出現(xiàn)傾斜現(xiàn)象. 這樣將影響圖像后續(xù)的字符分割效果,必須通過傾斜識(shí)別,以校正圖像的水平度.
王威等提出了基于定向白游傾斜角度檢測算法,從白色像素開始,沿著特定方向搜索,進(jìn)行傾斜校正[17].該方法的計(jì)算誤差比較大,本文提出一種基于方向白色行進(jìn)的改進(jìn)方法. 具有步驟與方法如下.
1)采集樣本點(diǎn). 在預(yù)處理后的圖像中,掃描圖像的行和列,以第一個(gè)黑色像素為樣本起點(diǎn),在水平和垂直方向上以一定間隔獲取一個(gè)采樣點(diǎn),并依次獲取完整圖像的采樣點(diǎn).
2)分析采樣點(diǎn). 確定采樣點(diǎn)是否是文本和直線之間的中心點(diǎn),若在采樣點(diǎn)的區(qū)域中存在黑色像素,則刪除采樣點(diǎn),否則,寫下更改的位置.
3)計(jì)算傾斜角. 首先以每個(gè)滿足條件的采樣點(diǎn)作為圖像中心,以1°為單位計(jì)算白色游程的長度,找到各采樣點(diǎn)白游程的最大長度. 然后,沿著各采樣點(diǎn)的白游程長度方向上下搜索每個(gè)角度的白色游程,遇到帶有黑色像素就停止搜索,從而獲得線之間的每個(gè)角度的白色游程,并對獲得的角度進(jìn)行平均,然后記錄角度值. 最后,對滿足條件的每個(gè)采樣點(diǎn)重復(fù)上述步驟,并再次平均每個(gè)采樣點(diǎn)獲得的角度的平均值,即獲得準(zhǔn)確的傾斜角度.
4)傾斜校正. 根據(jù)獲得的傾斜角度,以圖像的中心點(diǎn)為原點(diǎn)旋轉(zhuǎn). 任意一點(diǎn)(x,y)旋轉(zhuǎn)后的水平和垂直坐標(biāo)公式如下:
該方法采用選擇多個(gè)采樣點(diǎn),計(jì)算各方向的白游程,并通過平均值作為最終的白游程,獲取的傾斜角度更準(zhǔn)確.
會(huì)計(jì)票據(jù)圖像在打印、傳輸、轉(zhuǎn)換或存儲(chǔ)的過程中會(huì)受到各種隨機(jī)因素的影響而產(chǎn)生許多噪音,使圖像變得粗糙、質(zhì)量下降、特征淹沒[18]. 為了確保字符分割與識(shí)別的準(zhǔn)確性,必須對會(huì)計(jì)票據(jù)圖像進(jìn)行降噪處理.
根據(jù)噪聲與信號(hào)之間的關(guān)系,可以將噪聲分為加性噪聲、乘性噪聲和附加噪聲. 其中,加性噪聲是背景噪聲,包括熱噪聲、散粒噪聲,它與信號(hào)疊加,具有普遍性;乘性噪聲(也稱為卷積噪聲)是由系統(tǒng)衰落或其他非線性等,時(shí)變因素引起,取決于信號(hào)的存在;附加噪聲主要來源于人為、自然和內(nèi)部因素.
信息降噪主要采用均值濾波、中值濾波與維納濾波等方法,其中,維納濾波是自適應(yīng)濾波中使用最廣泛的方法[19],是在可計(jì)算的情況下,通過使用原始獲得的濾波參數(shù)的結(jié)果來自動(dòng)調(diào)整后續(xù)的濾波參數(shù),以獲得適合于輸入圖像和噪聲的統(tǒng)計(jì)特性[20],它可以更好地消除噪音點(diǎn)并保留圖像的高頻和邊緣信息.
維納濾波是通過信號(hào)和噪聲的概率密度隨機(jī)函數(shù),找到未污染圖像的估計(jì)值f?(x,y),以便滿足估計(jì)圖像和原始圖像f(x,y)之間的誤差最?。?/p>
當(dāng)E || f(x,y)-w(x,y)*g(x,y)2=min 時(shí),維納濾波方程滿足以下等式:
式(5)中:H(u,v)是退化函數(shù);H*(u,v)是H(u,v)的共軛函數(shù);H(u,v)和W(u,v)分別是h(x,y)和w(x,y)的傅里葉變換;Pf(u,v)/Pn(u,v)為分別信噪比. 其中,圖像功率譜Pf(u,v)、噪聲功率譜Pn(u,v)公式如下:
因此,維納濾波估計(jì)值可表示為
式(8)中,G(u,v)是w(x,y)的傅里葉變換.
經(jīng)過降噪處理后,獲得相對干凈的數(shù)字字符串區(qū)域,需要將數(shù)字字符串區(qū)域中的打印數(shù)字一一分割用于后續(xù)的數(shù)字識(shí)別處理. 本文使用基于灰度投影的字符切割算法來準(zhǔn)確、快速地切割單個(gè)字符[21]. 其思路如下:
1)根據(jù)降噪后的二值化圖像的像素分布,分別進(jìn)行水平與垂直方向投影,對每一行或每一列所有灰度值為0的像素?cái)?shù)求和.
2)在水平和垂直方向分別設(shè)定一個(gè)搜索范圍與步長,并計(jì)算兩個(gè)曲線的一階差分值.
3)選擇相差最小的位置,識(shí)別判斷投影的每一行或列,找到分割點(diǎn).
4)根據(jù)分割點(diǎn)進(jìn)行字符分割.
5)依據(jù)思路,設(shè)計(jì)算法,用Matlab實(shí)現(xiàn)上述思路.
對于會(huì)計(jì)票據(jù),比如發(fā)票,在水平和垂直方向投影時(shí),由于許多字符交錯(cuò)排列,投影的效果會(huì)受到影響.這時(shí)發(fā)票在水平和垂直方向投影時(shí),許多字符行和列是交錯(cuò)排列的,并且會(huì)受到影響,應(yīng)考慮動(dòng)態(tài)設(shè)置子區(qū)域投影以減少票據(jù)類型和格式的影響.
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種包含卷積計(jì)算的深度前饋神經(jīng)網(wǎng)絡(luò),直接將圖像作為網(wǎng)絡(luò)的輸入,通過權(quán)重共享機(jī)制,自動(dòng)提取圖像特征;通過池化合并減少參數(shù)量、有效地避免過擬合和圖像平移變性,并通過連接的稀疏性,實(shí)現(xiàn)多維數(shù)據(jù)“扁平化”[22].
本文采用卷積神經(jīng)網(wǎng)絡(luò)對票據(jù)圖像特征進(jìn)行識(shí)別與分類. 首先把30×30的原始票據(jù)圖像,采用16維度的5×5 卷積核,1 個(gè)卷積步長對圖像進(jìn)行卷積,獲得16 維度的26×26 大小的特征圖,經(jīng)過2×2 池化最大化合并,獲得16個(gè)維度的13×13大小的特征圖. 在此基礎(chǔ)上,進(jìn)行2層卷積與池化,采用32維度的4×4卷積核,2×2化池最大化合并,獲得32×5×5 大小的扁平化向量. 最后,運(yùn)用ReLu 函數(shù)作為全連接層每個(gè)神經(jīng)元的激勵(lì)函數(shù),采用softMax分類器實(shí)現(xiàn)對會(huì)計(jì)票據(jù)圖像的分類識(shí)別與最大化輸出.
本文的實(shí)驗(yàn)環(huán)境為Intel Core i3-4150@3.50 GHz 的CPU,4G 內(nèi)存的硬件配置,64 bit win7 和MATLAB 2013B軟件配置.
本文收集了150張?jiān)鲋刀惏l(fā)票,以測試系統(tǒng)數(shù)字識(shí)別的準(zhǔn)確性. 實(shí)驗(yàn)總共使用了10 410個(gè)字符,其中發(fā)票代碼區(qū)域中使用了1800 個(gè)字符;購買方名稱區(qū)域945 個(gè)字符;納稅人識(shí)別號(hào)為2700 個(gè)字符;開票日期為2100個(gè)字符;數(shù)量區(qū)域有495個(gè)字符;單價(jià)區(qū)域有1125個(gè)字符;金額區(qū)域有1245個(gè)字符.
本文以150張發(fā)票作為會(huì)計(jì)票據(jù)圖像樣本,由于發(fā)票的信息量非常大,本文僅對發(fā)票代碼、開票日期、納稅人識(shí)別號(hào)、數(shù)量、單價(jià)、金額等文本信息進(jìn)行分割與識(shí)別,具體仿真結(jié)果分析如下.
1)字符分割效果分析
該仿真實(shí)驗(yàn)采用灰度投影法,并結(jié)合分割區(qū)域的字符縱橫比,對150張發(fā)票圖像的相關(guān)文本信息進(jìn)行水平與垂直字符分割. 首先對發(fā)票圖像二值化、傾斜校正與降噪處理,然后計(jì)算出水平與垂直坐標(biāo)后,對文本字符進(jìn)行分割,并各文本字符進(jìn)行單獨(dú)分析,以驗(yàn)證分割算法的有效性. 由于本文僅對發(fā)票代碼、納稅人識(shí)別號(hào)、開票日期、金額、單價(jià)、數(shù)量等信息進(jìn)行分析,以驗(yàn)證分割算法的有效性. 對150張發(fā)票樣本的分割區(qū)域總數(shù)為945個(gè)(由于購買方有時(shí)購買商品類型或種類不止一種,對數(shù)量、單價(jià)及金額區(qū)域的分割多于150個(gè)),仿真實(shí)驗(yàn)分割效果如表1所示.
表1 發(fā)票字符分割實(shí)驗(yàn)結(jié)果Tab.1 Experimental results of invoice character segmentation
從表1可以看出,采用基于灰度投影法的字符分割模型對發(fā)票文本字符分割平均正確率為98.37%,效果較好. 由于數(shù)量、單價(jià)、金額區(qū)域基本上都是數(shù)字或字符,縱橫比差異很小,每個(gè)字符都是一個(gè)完整的部分,受到復(fù)雜結(jié)構(gòu)的影響很少,其正確分割率相對較高. 開票是可變域信息,會(huì)受到字條重疊、布局重疊等因素的影響,結(jié)構(gòu)相對復(fù)雜,正確分割率較低,僅為96.00%,仍有很大的改進(jìn)空間.
2)區(qū)域字符識(shí)別效果分析
發(fā)票圖像經(jīng)過二值化預(yù)處理、圖像校正、圖像去噪、定位和分割操作后,采用基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型對字符進(jìn)行仿真識(shí)別. 在150 張?jiān)鲋刀惏l(fā)票樣本中,共對10 922 個(gè)字符進(jìn)行識(shí)別,其中發(fā)票代碼區(qū)域1800個(gè)字符,納稅人識(shí)別號(hào)2700個(gè)字符,開票日期2100個(gè)字符,數(shù)量區(qū)812個(gè)字符,單價(jià)區(qū)1643個(gè)字符,貨幣區(qū)1867個(gè)字符. 經(jīng)過仿真實(shí)驗(yàn),各區(qū)域及整體的字符正確識(shí)別數(shù)及識(shí)別率如表2所示.
表2 各區(qū)域字符識(shí)別率Tab.2 Regional character recognition rate
從表2可以看出,發(fā)票圖像確定區(qū)域的字符正確識(shí)別率明顯高于總體字符平均正確識(shí)別率,開票日期作為可變域,其字符正確識(shí)別率低于平均識(shí)別率,且遠(yuǎn)遠(yuǎn)低于確定區(qū)域字符正確識(shí)別率,主要是由于機(jī)器打印引起日期、區(qū)域重疊等問題造成的,僅通過結(jié)構(gòu)和投影特征來分割與識(shí)別字符已不能達(dá)成預(yù)期目標(biāo). 總體上,基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的識(shí)別模型具有較好的字符識(shí)別率(平均98.42%),但仍存在進(jìn)一步優(yōu)化的空間,特別是對可變域的字符分割與識(shí)別方面.
本文采用二值化、改進(jìn)型定向白游法、維納濾波、灰度投影及卷積神經(jīng)網(wǎng)絡(luò)等方法,對增值稅發(fā)票圖像進(jìn)行預(yù)處理、傾斜校正、去噪、字符分割及識(shí)別,實(shí)現(xiàn)會(huì)計(jì)信息的智能化提取. 仿真實(shí)驗(yàn)效果表明,該方法是有效的,可以大大提高會(huì)計(jì)信息處理的準(zhǔn)確性、效率與及時(shí)性. 該研究有助于提升會(huì)計(jì)信息智能化水平,提高會(huì)計(jì)信息處理效率,并促進(jìn)會(huì)計(jì)人員從流程化、固化的會(huì)計(jì)核算事務(wù)中解脫出來.