国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Tesseract 的會計票據(jù)圖像識別系統(tǒng)設(shè)計研究

2021-09-18 14:10:38李沛霖尚丹梅
中國管理信息化 2021年17期
關(guān)鍵詞:圖像識別字符票據(jù)

李沛霖,呂 巍,姚 琳,尚丹梅

(錦州醫(yī)科大學(xué),遼寧 錦州 121001)

0 引言

隨著會計管理信息化的不斷發(fā)展,會計票據(jù)的信息化需求也越來越迫切。會計管理工作每天都要面對大量的紙質(zhì)票據(jù),各種紙質(zhì)票據(jù)按照傳統(tǒng)的工作流程,需要人工手動錄入信息,按流程逐級人工審核,并管理大量的紙質(zhì)票據(jù)檔案,這使得整體錄入和審核工作量繁重,效率較低。在目前的會計信息化中可以將會計票據(jù)以圖像的形式存檔,但其本身是一種非結(jié)構(gòu)化的數(shù)據(jù)格式,不利于信息的進一步利用。

光學(xué)字符識別(Optical Character Recognition,OCR)是一種通過光學(xué)技術(shù)掃描文本和字符以獲得圖像信息的方法,通過形態(tài)特征的分析確定標(biāo)準(zhǔn)文本和字符編碼,轉(zhuǎn)化為計算機內(nèi)碼,并存儲在文本文件中,是快速文本輸入的一種方式。如果將OCR 技術(shù)應(yīng)用于會計票據(jù)識別,對于數(shù)字化的票據(jù)圖像,OCR技術(shù)能將其內(nèi)容逐項識別出來,方便進一步轉(zhuǎn)化為會計文檔。

目前,市場上已有很多成熟的OCR 產(chǎn)品,如漢王、文通、ABBYY FineReader OCR、Tesseract OCR、IRIS ReadIRIS、百度OCR 等。在眾多OCR 識別產(chǎn)品中,Tesseract 作為谷歌的免費開源OCR 軟件,使用集束搜索算法和K-近鄰算法(KNN)進行預(yù)識別,并支持樣本訓(xùn)練,可以形成特定的語言庫。相對于其他價格昂貴的商業(yè)化識別軟件,Tesseract 可以用較低成本針對會計場景建立專用字庫,從而提高識別準(zhǔn)確度。

1 會計票據(jù)圖像識別系統(tǒng)構(gòu)成

基于Tesseract 的會計票據(jù)圖像識別平臺系統(tǒng)構(gòu)成如圖1所示,主要包括圖像預(yù)處理模塊、OCR 字符識別模塊及識別文本處理模塊。圖像預(yù)處理接收用戶導(dǎo)入的票據(jù)圖像,進行圖像去噪聲、圖像二值化、圖像傾斜矯正等操作,為圖像后續(xù)的檢測和識別做好準(zhǔn)備。預(yù)處理后的票據(jù)圖像經(jīng)文字檢測和識別模塊處理,形成文本文件。識別文本處理模塊將文本信息轉(zhuǎn)化為相應(yīng)會計格式文檔。

2 圖像預(yù)處理

票據(jù)圖像在進行數(shù)字化轉(zhuǎn)換時,會受到各種環(huán)境因素影響,為了提高圖像識別的質(zhì)量,通常需要對圖像進行去噪聲、二值化、傾斜矯正等預(yù)處理。

2.1 圖像去噪聲

使用電子設(shè)備采集的圖像,受到外界光照、噪聲等環(huán)境的干擾,造成圖像清晰度下降,給圖像的檢測和識別帶來不利影響,在進行圖像分析和處理之前,需要消除圖像噪聲,并針對不同的噪聲特點采用適合的濾波器,以便最大程度地還原圖像的質(zhì)量。自適應(yīng)中值濾波可以根據(jù)圖像局部變化,動態(tài)的改變?yōu)V波器窗口尺寸大小,其算法流程如圖2 所示。該算法盡可能地保護圖像中的細節(jié)信息,避免圖像邊緣的細化或者粗化,能較好地保留圖像的邊界和高頻成分,適于處理會計票據(jù)圖像。

2.2 圖像二值化

圖像二值化是將彩色或多灰度圖像轉(zhuǎn)換為只有黑白二值的灰度圖像的過程,將圖像轉(zhuǎn)換為二值圖像,減少圖像數(shù)據(jù)量的同時,去除圖像的冗余信息,凸顯圖像的輪廓。

(1)圖像脫色處理

彩色圖像轉(zhuǎn)換為灰度圖像可以采用平均法、最大最小平均法及加權(quán)平均法等,其中加權(quán)平均法最常用,它根據(jù)人的亮度感知系統(tǒng)計算出RGB 三種顏色的參數(shù),使用標(biāo)準(zhǔn)化參數(shù)計算對應(yīng)像素的灰度值(0-255),該算法實現(xiàn)簡單,使用廣泛。

(2)圖像黑白分割

對于票據(jù)圖像經(jīng)常出現(xiàn)的亮度分布不均勻、有陰影等情況。如果采用全局閾值法,將導(dǎo)致票據(jù)圖像出現(xiàn)大量的黑色區(qū)域;采用自適應(yīng)閾值法對票據(jù)圖像處理,容易出現(xiàn)文字?jǐn)嗔训那闆r。經(jīng)過大量測試,發(fā)現(xiàn)OTSU 法對票據(jù)圖像二值化效果較理想。

OTSU 算法按圖像的灰度特性,將圖像分成背景和目標(biāo)兩部分,背景和目標(biāo)之間的類間方差越大,說明構(gòu)成圖像的兩部分差別越大。當(dāng)部分目標(biāo)錯分為背景或者部分背景錯分為目標(biāo)都會導(dǎo)致兩部分差別變小,因此要計算能將兩類分開的最佳閾值,使得它們的類間方差最小。

假設(shè)圖像的尺寸大小為M×N,初始閾值為T0。對圖像中的像素依次進行計算,將圖像像素值大于初始閾值的像素點作為目標(biāo),累積求得像素點個數(shù)N0,背景像素點個數(shù)為:

目標(biāo)像素點占整個圖像的像素個數(shù)比例ω0為:

設(shè)灰度圖像背景和目標(biāo)的區(qū)分閾值為T,目標(biāo)像素點所占圖像總像素點的比例為ω0,灰度均值為μ0,背景占圖像比例為ω1,灰度均值為μ1,則整幅圖像的平均灰度為:

令灰度圖像的每一個灰度值t=0,1,…,N-1(N 為圖像的灰度級),使目標(biāo)和背景兩部分之間的類間方差達到最大:

OTSU 閾值法是求圖像全局閾值的最佳方法,計算簡單、快速,不受圖像亮度和對比度的影響。

2.3 圖像的傾斜矯正

在票據(jù)圖像的獲取過程中,經(jīng)常會出現(xiàn)圖像傾斜現(xiàn)象,這樣會影響圖像后續(xù)的字符分割效果,必須矯正圖像的水平度。Hough 變換是一種特征提取技術(shù),它通過一種投票算法監(jiān)測具有特定形狀的物體,直線檢測精度高,受直線中的間隙和噪聲影響較小。將圖像空間中用直角坐標(biāo)表示的直線變換為極坐標(biāo)空間中的點,把直線上點的坐標(biāo)變換到過點的直線的系數(shù)域,通過利用共線和直線相交的關(guān)系使直線的提取問題轉(zhuǎn)化為在參數(shù)空間中計算局部最大值的計數(shù)問題,得到一個符合特定形狀的集合作為Hough 變換結(jié)果。在Hough 變換中用ρ 表示原點距直線的法線距離,θ 為該法線與x 軸的夾角,可用如下參數(shù)方程表示該直線:

使用Hough 變換通過尋找極坐標(biāo)系中點集的峰值,發(fā)現(xiàn)長的直線特征,接下來基于Hough 變換找到最長邊緣線,確定傾斜角度,完成票據(jù)的傾斜矯正。

3 基于Tesseract 的OCR 識別

經(jīng)過預(yù)處理的會計票據(jù)圖像樣本使用jTessBoxEditor 整合進一個Tiff 圖片集中,然后調(diào)用Tesseract 引擎進行預(yù)識別,生成文本檢測Box 文件,Box 為文本文件,順序地、每行一個字符地列出訓(xùn)練圖像中的字符,以及字符在圖像中的邊界框坐標(biāo)、邊界框長寬大小。對于Box 文件需要進一步校正,以修改其中的錯誤,積累字庫,針對票據(jù)圖像中出現(xiàn)的不同字體,可以生成字體特征文件,識別流程如圖3 所示。

訓(xùn)練完成后生成會計票據(jù)字庫,將字庫文件拷貝到Tesseract 安裝目錄下的Tessdata 文件內(nèi),即可調(diào)用字庫進行會計票據(jù)圖像的識別。根據(jù)經(jīng)驗數(shù)據(jù)分析,基于Tesseract 的字符識別,需要確保每個字符最小的數(shù)量樣本,對于不經(jīng)常出現(xiàn)的字符至少需要10 次的數(shù)量樣本,出現(xiàn)特別頻繁的字符至少需要20 次的數(shù)量樣本。如果訓(xùn)練樣本數(shù)量較少,會影響識別的準(zhǔn)確率,解決辦法為增加訓(xùn)練樣本數(shù)量,這是提高識別率的最根本、最有效方法。

4 識別文本處理

對文字識別后生成的文本文件,依次讀出行列對應(yīng)的文字信息并寫入表格。對于表格中的數(shù)據(jù),按照會計科目等類別,進行統(tǒng)計歸類、分類匯總,形成會計信息表,方便進一步根據(jù)實際需求編制財務(wù)表格。在文本數(shù)據(jù)導(dǎo)入并匯總成表格時,針對OCR 識別過程中可能出現(xiàn)的錯誤,還需引入糾錯程序,使用相似度算法對可能出現(xiàn)的錯誤進行自動糾錯,并提供手動糾錯提示。

5 結(jié)語

基于Tesseract 的會計票據(jù)圖像識別系統(tǒng),借助圖像處理技術(shù)和開源OCR 識別引擎提供一種低成本的會計票據(jù)圖像識別方案,該方案對120 張樣本票據(jù)進行試驗,總體識別率為93.57%,準(zhǔn)確率相對較高,可以基本滿足會計工作需求,但仍然存在個別識別錯誤,需要手動校對。在后續(xù)的實踐應(yīng)用中還要不斷完善其功能,改進圖像預(yù)處理能力并積累字庫,進一步提高識別準(zhǔn)確率和效率,提高會計信息處理效率和智能化水平。

猜你喜歡
圖像識別字符票據(jù)
尋找更強的字符映射管理器
字符代表幾
一種USB接口字符液晶控制器設(shè)計
電子制作(2019年19期)2019-11-23 08:41:50
基于Resnet-50的貓狗圖像識別
電子制作(2019年16期)2019-09-27 09:34:50
高速公路圖像識別技術(shù)應(yīng)用探討
消失的殖民村莊和神秘字符
圖像識別在物聯(lián)網(wǎng)上的應(yīng)用
電子制作(2018年19期)2018-11-14 02:37:04
圖像識別在水質(zhì)檢測中的應(yīng)用
電子制作(2018年14期)2018-08-21 01:38:16
合作市| 桑植县| 松溪县| 蓝田县| 石城县| 万载县| 枣庄市| 乾安县| 淮安市| 台东市| 汶川县| 呼玛县| 茌平县| 化隆| 江西省| 道孚县| 凤城市| 阜南县| 洪雅县| 铜川市| 清水县| 赣榆县| 昌平区| 陵川县| 新源县| 玛曲县| 宾阳县| 夏邑县| 七台河市| 康保县| 温宿县| 荣昌县| 温州市| 牟定县| 安远县| 太白县| 芜湖县| 仲巴县| 洪洞县| 冷水江市| 保靖县|