国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于OCR技術(shù)的莫爾斯格式報(bào)自動(dòng)識(shí)別算法應(yīng)用

2022-08-26 01:52沈博
現(xiàn)代信息科技 2022年11期
關(guān)鍵詞:字庫自動(dòng)識(shí)別報(bào)文

沈博

(深圳電器公司,廣東 深圳 518000)

0 引 言

莫爾斯碼電報(bào)作為最古老的無線數(shù)字化通信方式,具有占用頻帶窄,不易被干擾,設(shè)備簡單,通信距離遠(yuǎn)等特點(diǎn)。隨著通信技術(shù)的發(fā)展,莫爾斯碼電報(bào)在大部分應(yīng)用領(lǐng)域已被其他無線通信方式取代,但在軍事和海運(yùn)等行業(yè)中作為應(yīng)急的通信手段仍然是必不可少,可在無傳統(tǒng)通信方式的情況下,提供安全可靠的遠(yuǎn)距離通信。

莫爾斯碼電報(bào)雖具有很多其他報(bào)文通信所不具備的優(yōu)點(diǎn),但其報(bào)文格式不靈活、符號規(guī)則復(fù)雜、對通信員要求高、信息不直觀易出錯(cuò)、抄報(bào)發(fā)報(bào)速率慢等缺點(diǎn),使用起來諸多弊端。主要體現(xiàn)在:

(1)通信員上機(jī)時(shí)需要精神高度集中,發(fā)報(bào)時(shí)漏發(fā)、錯(cuò)發(fā)報(bào)概率較大;

(2)發(fā)報(bào)速率慢,緊急情況下無法滿足及時(shí)通信的需求;

(3)報(bào)文可視化程度差,傳閱、保存不方便;

(4)實(shí)時(shí)性和便捷性差,快速錄報(bào)和抄報(bào)實(shí)現(xiàn)困難。

本文重點(diǎn)介紹一款智能莫爾斯格式報(bào)抄發(fā)設(shè)備(以下簡稱“抄發(fā)設(shè)備”)的實(shí)現(xiàn),及運(yùn)行于該設(shè)備的一種基于OCR技術(shù)的莫爾斯報(bào)文自動(dòng)識(shí)別算法,以實(shí)現(xiàn)格式報(bào)文自動(dòng)錄入和糾錯(cuò),有效提高發(fā)報(bào)速率和發(fā)報(bào)正確率,解決莫爾斯碼電報(bào)的使用弊端。

1 智能莫爾斯格式報(bào)抄發(fā)設(shè)備實(shí)現(xiàn)

1.1 抄發(fā)設(shè)備體系架構(gòu)

報(bào)抄發(fā)設(shè)備是配合短波電臺(tái)使用的設(shè)備,將莫爾斯格式報(bào)處理為標(biāo)準(zhǔn)的“點(diǎn)劃”音頻格式,通過短波電臺(tái)進(jìn)行發(fā)送和接收,完成通信功能。其體系架構(gòu)如圖1所示。

圖1 收發(fā)設(shè)備體系架構(gòu)圖

抄發(fā)設(shè)備整機(jī)體系架構(gòu)由硬件平臺(tái)、嵌入式移動(dòng)智能操作系統(tǒng)及應(yīng)用程序三部分組成。硬件平臺(tái)包括莫爾斯碼格式報(bào)采集單元、RK3399處理器單元、電源模塊、人機(jī)交互模塊和接口控制模塊。嵌入式智能移動(dòng)操作系統(tǒng)包括安全加固內(nèi)核、底層庫和操作系統(tǒng)框架。應(yīng)用程序是基于嵌入式智能移動(dòng)操作系統(tǒng)運(yùn)行環(huán)境下,開發(fā)相應(yīng)的業(yè)務(wù)軟件,綜合運(yùn)用圖像識(shí)別、音頻編解碼、主動(dòng)降噪、抗干擾等技術(shù),實(shí)現(xiàn)莫爾斯格式報(bào)快速錄入、自動(dòng)發(fā)送和接收等功能。

1.2 抄發(fā)設(shè)備硬件設(shè)計(jì)

抄發(fā)設(shè)備是基于微處理器RK3399的嵌入式智能平臺(tái),主要由RK3399處理器單元、莫爾斯格式報(bào)采集單元、人機(jī)交互模塊、電源模塊和對外接口組成,硬件組成框圖如圖2所示。

圖2 抄發(fā)設(shè)備硬件組成框圖

莫爾斯格式報(bào)采集單元和RK3399處理器單元為抄發(fā)設(shè)備的核心組成部分,主要負(fù)責(zé)對莫爾斯格式報(bào)的運(yùn)算處理,包括音頻采集、A/D轉(zhuǎn)換、D/A轉(zhuǎn)換、降噪、音頻編解碼、信號識(shí)別、收發(fā)控制等部分組成。其中攝像頭可快速采集格式報(bào)報(bào)文內(nèi)容,通過相關(guān)算法實(shí)現(xiàn)報(bào)文快速錄入。

1.3 抄發(fā)設(shè)備軟件設(shè)計(jì)

抄發(fā)設(shè)備業(yè)務(wù)軟件是基于嵌入式智能移動(dòng)操作系統(tǒng)開發(fā)的,主要功能包括溝通聯(lián)絡(luò)、報(bào)文錄入、報(bào)文發(fā)送、報(bào)文接收和參數(shù)設(shè)置五大模塊。溝通聯(lián)絡(luò)是設(shè)備間按照約定的協(xié)議格式進(jìn)行的數(shù)據(jù)交互。報(bào)文錄入使用OCR(光學(xué)字符識(shí)別)技術(shù)自動(dòng)識(shí)別莫爾斯格式報(bào)報(bào)文,可以快速的將紙質(zhì)格式報(bào)文轉(zhuǎn)化為可編輯的電子格式報(bào)文,從而實(shí)現(xiàn)報(bào)文的快速錄入。報(bào)文發(fā)送主要利用了莫爾斯編碼算法對電報(bào)文進(jìn)行數(shù)據(jù)處理,然后將處理后的數(shù)據(jù)以音頻數(shù)據(jù)流的方式發(fā)送給電臺(tái)。報(bào)文接收采用了莫爾斯報(bào)文信號自動(dòng)檢測算法,檢測音頻中“點(diǎn)劃”相應(yīng)頻率的莫爾斯編碼并解碼為相應(yīng)字符。

2 莫爾斯報(bào)文自動(dòng)識(shí)別算法應(yīng)用

2.1 自動(dòng)識(shí)別算法應(yīng)用描述

傳統(tǒng)電報(bào)紙的錄入都是依靠人工,效率低、易出錯(cuò)。而抄發(fā)設(shè)備使用的OCR(光學(xué)字符識(shí)別)技術(shù)可以將拍照后的格式報(bào)圖片快速、準(zhǔn)確地轉(zhuǎn)換為可編輯的文本文件,用戶能實(shí)時(shí)對轉(zhuǎn)換后的報(bào)文內(nèi)容進(jìn)行編輯、修改、確認(rèn)和發(fā)送。

莫爾斯報(bào)文主要有數(shù)碼電報(bào)和信號報(bào),這些報(bào)文格式都是表格形式,格式固定,故稱格式報(bào)。當(dāng)前包含表格圖片的文字識(shí)別仍是技術(shù)難點(diǎn),需要對表格圖片進(jìn)行相關(guān)處理后,再采用OCR技術(shù)進(jìn)行文字自動(dòng)識(shí)別。

格式報(bào)的自動(dòng)識(shí)別流程有以下幾個(gè)步驟:首先,對電報(bào)圖片進(jìn)行傾斜矯正、灰度化和二值化等圖像處理算法,準(zhǔn)確有效的將電報(bào)圖片按照單元格進(jìn)行分割,并對分割后的每一個(gè)單元格圖片進(jìn)行樣本采集、字庫訓(xùn)練等處理,生成以電報(bào)數(shù)字為主的專用字庫;然后,判斷單元格總數(shù)初步區(qū)分報(bào)文類型,結(jié)合專用字庫通過文字識(shí)別算法識(shí)別出每一個(gè)單元格的內(nèi)容;最后,將所有單元格內(nèi)容有序的填充到報(bào)文界面中。

2.2 自動(dòng)識(shí)別算法原理機(jī)制

格式報(bào)的識(shí)別難點(diǎn)在于格式報(bào)圖片的預(yù)處理和圖片的文本識(shí)別。對格式報(bào)圖片的預(yù)處理和圖片的文本識(shí)別包含如下步驟:首先,對電報(bào)紙圖片進(jìn)行灰度化二值化處理,利用OpenCV形態(tài)學(xué)函數(shù)腐蝕和膨脹,得到圖片表格橫縱線的交點(diǎn)集;然后,通過這些交點(diǎn)集對電報(bào)圖片進(jìn)行分割得到每一個(gè)單元格;最后,采用OCR技術(shù)逐一對每個(gè)單元格文字進(jìn)行識(shí)別。

格式報(bào)自動(dòng)識(shí)別算法的原理主要包括以下幾個(gè)方面:

(1)連通區(qū)域分析。對格式報(bào)圖片進(jìn)行灰度化和二值化處理,并進(jìn)行連通區(qū)域分析,檢測出字符區(qū)域的區(qū)域輪廓以及子輪廓,將其集成為文本區(qū)域塊。

(2)文本行和字符的查找。連通區(qū)域分析后,可大致確定文本區(qū)域塊和文本尺寸,采用百分位高度過濾器過濾掉跨行大寫字母及縱向粘連一起的字符,利用字符的高度信息,選取所有字符的中值高度,通過調(diào)節(jié)字符高度的比例濾除一些無關(guān)的字符塊(比如標(biāo)點(diǎn)符號),實(shí)現(xiàn)文本行的查找。

對塊區(qū)域的橫坐標(biāo)排序,利用坐標(biāo)擬合直線擬合方法—中位數(shù)最小方差擬合文本行的形狀。采用最小二乘法檢測出等距文本,對非等距字體(如百分號,斜體等),利用中線、基準(zhǔn)線之間的空白大小來分割字符,實(shí)現(xiàn)字符的查找。

(3)字符識(shí)別。首先,分割查找出的文本行中的字符,將凹進(jìn)去的輪廓點(diǎn)作為候選分割點(diǎn),分割后,使用靜態(tài)字符分類器對分割后的字符進(jìn)行識(shí)別;然后,將識(shí)別結(jié)果提供給字符庫進(jìn)行檢索,結(jié)合分類器的選擇為文本行中的字符找出最匹配的字符。若候選分割點(diǎn)全部使用后,識(shí)別結(jié)果仍然不佳,此時(shí)需進(jìn)一步對字符進(jìn)行拼接,利用最佳優(yōu)先算法(Best-fisrt search strategy)檢索最優(yōu)的字符組合。最后,采用自適應(yīng)字符分類器對先分割后拼接的字符進(jìn)行識(shí)別,并將識(shí)別的結(jié)果輸入字符庫進(jìn)行查找匹配,若查找成功,則將查找匹配結(jié)果轉(zhuǎn)化為字符,否則,判定字符破損不全,進(jìn)行字符修補(bǔ)。字符識(shí)別框架圖如圖3所示。

圖3 字符識(shí)別框架示意圖

2.3 自動(dòng)識(shí)別算法實(shí)現(xiàn)

格式報(bào)自動(dòng)識(shí)別主要包括格式報(bào)圖片預(yù)處理、字庫訓(xùn)練、文字識(shí)別三個(gè)步驟。

2.3.1 格式報(bào)圖片的預(yù)處理

格式報(bào)圖片的預(yù)處理主要目的是為了準(zhǔn)確有效的分割出每個(gè)單元格,包括圖片傾斜矯正、灰度化、二值化等圖像處理步驟,如圖4所示。

圖4 電報(bào)紙的圖片預(yù)處理步驟

利用收發(fā)設(shè)備的攝像頭對紙質(zhì)格式報(bào)進(jìn)行拍照,拍攝的格式報(bào)圖片如圖5所示,在拍攝過程中,可能存在圖像傾斜、字跡不連續(xù)等現(xiàn)象,導(dǎo)致OCR識(shí)別的拒識(shí)率和誤識(shí)率增大。因此,需要對圖片進(jìn)行傾斜矯正、灰度化處理、二值化處理、圖片腐蝕、圖片膨脹和圖片分割等處理。

圖5 紙質(zhì)格式報(bào)拍攝圖片

2.3.1.1 格式報(bào)圖片傾斜校正

報(bào)文拍攝時(shí),不可避免地會(huì)出現(xiàn)圖像傾斜,增大圖片分割和識(shí)別處理的難度,需對圖片進(jìn)行校正。使用自動(dòng)校正法,自動(dòng)分析電報(bào)文圖像的版面特征,計(jì)算圖像的傾斜角度,并根據(jù)傾斜角度對圖片進(jìn)行校正。圖6為傾斜校正后格式報(bào)圖片。

圖6 校正后格式報(bào)圖片

2.3.1.2 格式報(bào)圖片灰度化

一般攝像頭采集的格式報(bào)圖片為彩色圖片,因光線原因,在彩色圖片中包含部分干擾像素,影響文字識(shí)別準(zhǔn)確率。為濾除這些干擾像素,需對圖片進(jìn)行灰度化處理?;叶然幚砗蟾袷綀?bào)圖片如圖7所示。

圖7 灰度化處理后格式報(bào)圖片

2.3.1.3 格式報(bào)圖片二值化

二值化處理,就是將灰度值圖像信號轉(zhuǎn)化成只有黑和白的二值圖像信號?;叶忍幚砗蟮膱D片需進(jìn)行二值化處理,將報(bào)文內(nèi)容與背景進(jìn)一步分離開。二值化效果的好壞,直接影響灰度電報(bào)文圖像的識(shí)別率,二值化處理后格式報(bào)圖片如圖8所示。

圖8 二值化處理后格式報(bào)圖片

2.3.1.4 格式報(bào)圖片腐蝕

圖片腐蝕處理是用于處理二值化處理后的報(bào)文表格邊緣模糊部分。它將二值化格式報(bào)圖片與模板矩陣進(jìn)行卷積,刪除格式報(bào)表格邊緣的某些像數(shù)點(diǎn),濾掉格式報(bào)表格不清晰的邊界,腐蝕過程中可以根據(jù)需求自行生成模板矩陣。

2.3.1.5 格式報(bào)圖片膨脹

圖片膨脹用于補(bǔ)全格式報(bào)字符中不連續(xù)部分,將格式報(bào)圖片的一部分區(qū)域與卷積核進(jìn)行卷積計(jì)算,計(jì)算出卷積核覆蓋區(qū)域像數(shù)點(diǎn)的最大值,并將這個(gè)最大值賦給參考點(diǎn)指定的像數(shù),格式報(bào)圖片中字符的區(qū)域參考指定像素值逐漸增長,從而修補(bǔ)字符中像素不連續(xù)部分。

2.3.1.6 格格式報(bào)圖片分割

圖片分割是將報(bào)文表格內(nèi)容分割成獨(dú)立的單元格,便于進(jìn)行字符自動(dòng)識(shí)別。使用OpenCV算法庫檢測膨脹和腐蝕處理后的格式報(bào)圖片的輪廓,獲取輪廓集。該輪廓集中包含輪廓拐點(diǎn)的坐標(biāo)信息,設(shè)置相應(yīng)的閾值,過濾除未框選的報(bào)文內(nèi)容的輪廓,對過濾后的輪廓集進(jìn)行矩形邊框擬合,獲取表格縱橫線交點(diǎn)集,如圖9所示。該表格縱橫線交點(diǎn)集包含每個(gè)矩形邊框的左上角和右下角的坐標(biāo)信息,基于這些坐標(biāo)信息,對格式報(bào)圖片進(jìn)行分割,得到每個(gè)獨(dú)立單元格,如圖10所示。

圖9 表格縱橫線的交點(diǎn)集

圖10 格式報(bào)圖片分割圖

2.3.2 字庫訓(xùn)練

由于格式報(bào)的報(bào)文內(nèi)容主要是由數(shù)字和字母組成,因此以英文語言庫為基礎(chǔ),通過對電報(bào)文樣本的特征提取,生成主要以數(shù)字和英文字符組成的字庫,用于報(bào)文自動(dòng)識(shí)別。以下為字庫訓(xùn)練的主要步驟:

(1)配置訓(xùn)練環(huán)境;

(2)預(yù)處理訓(xùn)練樣本。準(zhǔn)備多張訓(xùn)練樣本圖片,將所有的訓(xùn)練樣本圖片預(yù)處理后進(jìn)行合并;

(3)生成訓(xùn)練字符位置信息文件,并記錄文字識(shí)別引擎識(shí)別出來的字符及其位置坐標(biāo);

(4)修正識(shí)別結(jié)果。對訓(xùn)練字符位置信息文件中識(shí)別錯(cuò)誤的字符進(jìn)行人工修正,并保存結(jié)果;

(5)產(chǎn)生訓(xùn)練字符集。使用步驟(4)產(chǎn)生的訓(xùn)練字符位置信息文件作為輸入,產(chǎn)生訓(xùn)練字符集文件,該文件包含所有可被文字識(shí)別引擎識(shí)別的字符的集合;

(6)提取訓(xùn)練字符特征。新建訓(xùn)練字體屬性文件,該文件中每一行表示一種字體信息,對步驟(5)產(chǎn)生的訓(xùn)練字符集文件使用相關(guān)指令生成字符的各種特征屬性文件,以及每個(gè)字符所對應(yīng)的字符特征數(shù)量文件;

(7)合并上述步驟所產(chǎn)生的訓(xùn)練文件,生成數(shù)字文本字庫。

2.3.3 字符自動(dòng)識(shí)別

字符自動(dòng)識(shí)別分為兩個(gè)階段:字符檢測和字符識(shí)別。

2.3.3.1 字符檢測

字符檢測表示對格式報(bào)圖片中存在字符的區(qū)域進(jìn)行定位,找到字符或者文本行的邊界框。字符檢測常用的方法為滑動(dòng)窗口算法,首先從每個(gè)滑動(dòng)窗口中提取字符特征,輸入已訓(xùn)練的分類器中,判斷當(dāng)前滑動(dòng)窗口是否包含字符,然后通過二值化來精確定位字符的位置。

通過滑動(dòng)窗口算法,遍歷整個(gè)圖片,對標(biāo)記的訓(xùn)練樣本特征進(jìn)行判斷,找到圖片中目標(biāo)字符,進(jìn)行矩形化提取。

2.3.3.2 字符識(shí)別

首先,對提取的矩形化字符區(qū)域進(jìn)行分割,拆分成不同的字符;然后,根據(jù)訓(xùn)練獲取的字庫對字符進(jìn)行預(yù)測;最后,合并每個(gè)字符的預(yù)測結(jié)果,獲取矩形化字符區(qū)域整體的預(yù)測結(jié)果。

綜合上述算法原理,進(jìn)一步提高抄發(fā)設(shè)備文字識(shí)別率和識(shí)別速度,主要采取了以下幾個(gè)措施:

(1)提高攝像頭像素,拍攝清晰的格式報(bào)圖片,降低拒識(shí)率和誤識(shí)率;

(2)優(yōu)化圖片輪廓識(shí)別函數(shù),加快表格圖片輪廓的識(shí)別,增加識(shí)別圖片表格位置的準(zhǔn)確度;

(3)優(yōu)化圖片裁剪函數(shù),加快圖片裁剪的速度;

(4)增加樣本采集數(shù)據(jù),進(jìn)行字庫訓(xùn)練,進(jìn)一步完善訓(xùn)練字庫,從而提高文字識(shí)別率和識(shí)別速度;

(5)利用多線程技術(shù),同時(shí)進(jìn)行圖片裁剪和圖片文字識(shí)別。

3 結(jié) 論

莫爾斯報(bào)文自動(dòng)識(shí)別算法對莫爾斯格式報(bào)樣本的識(shí)別具有較高精確度,可有效降低報(bào)文錯(cuò)識(shí)率和漏識(shí)率。運(yùn)行在抄發(fā)設(shè)備上,能夠快速的識(shí)別莫爾斯電報(bào)文,避免了人工錄入速度慢和易出錯(cuò)的問題,解決莫爾斯電報(bào)的使用弊端。

猜你喜歡
字庫自動(dòng)識(shí)別報(bào)文
小麥面條和面過程不同階段面絮的劃分與自動(dòng)識(shí)別
海法新港一期自動(dòng)化集裝箱碼頭電子數(shù)據(jù)交換報(bào)文系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
基于VR技術(shù)的X射線圖像安檢危險(xiǎn)品自動(dòng)識(shí)別
基于報(bào)文類型的限速值動(dòng)態(tài)調(diào)整
對蒙古文字研究與信息發(fā)布互動(dòng)平臺(tái)網(wǎng)站建設(shè)的探討
字庫在設(shè)計(jì)中的局限性——以食品包裝為例
用戶設(shè)備進(jìn)行組播路徑追蹤的方法及系統(tǒng)
字庫字體侵權(quán)系列案例分析研究
基于自動(dòng)識(shí)別的壓力表
液晶顯示模塊(LCM)的中文字庫顯示簡化探討
临沂市| 荣成市| 赤城县| 尖扎县| 郁南县| 青阳县| 迭部县| 云梦县| 柏乡县| 陇川县| 马边| 金华市| 剑河县| 忻州市| 徐汇区| 金寨县| 武穴市| 临夏县| 昌黎县| 扎兰屯市| 阿拉善盟| 方山县| 辽阳市| 固阳县| 崇信县| 枣强县| 裕民县| 浦县| 葫芦岛市| 九寨沟县| 杭锦旗| 瓮安县| 台东市| 博罗县| 文安县| 孟州市| 墨脱县| 米脂县| 日土县| 龙门县| 石首市|