国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于OCR的數(shù)字儀表自動(dòng)識(shí)別在工業(yè)現(xiàn)場中的應(yīng)用

2021-01-15 02:11:08劉志勇魯乾鵬施方展王得磊楊魯江
儀器儀表用戶 2021年1期
關(guān)鍵詞:字符卷積文字

周 曼,劉志勇,魯乾鵬,施方展,王得磊,楊魯江

(浙江中控技術(shù)股份有限公司,杭州 310053)

0 引言

在流程工業(yè)現(xiàn)場的配方控制中,配方比例控制尤為重要,但因?yàn)楦鞣N因素,該環(huán)節(jié)難以直接自動(dòng)化進(jìn)行。在很多工業(yè)現(xiàn)場,各種原料均由工人使用電子稱計(jì)重。需記錄投料前重量,投料后重量并計(jì)算差額以計(jì)量投料量,最后在需要留檔時(shí)人工錄入電腦,這在一定程度上影響了效率和準(zhǔn)確率。本文主要解決針對(duì)這些難以使用自動(dòng)化計(jì)算投料量的場景,在不改動(dòng)現(xiàn)場儀表的情況下,基于光學(xué)字符識(shí)別(Optical Character Recognition,OCR)對(duì)圖像文件進(jìn)行分析識(shí)別處理后,使用EAST全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文字檢測,再使用CNN-LSTM-CTC進(jìn)行文字識(shí)別,將圖像數(shù)據(jù)經(jīng)過模型運(yùn)算后轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),從而實(shí)現(xiàn)數(shù)字儀表的數(shù)據(jù)識(shí)別和記錄。

1 OCR光學(xué)字符識(shí)別

計(jì)算機(jī)文字識(shí)別,俗稱光學(xué)字符識(shí)別,英文全稱是Optical Character Recognition(簡稱OCR),它是利用光學(xué)技術(shù)和計(jì)算機(jī)技術(shù)把印在或?qū)懺诩埳系奈淖肿x取出來,并轉(zhuǎn)換成一種計(jì)算機(jī)能夠接受,人又可以理解的格式[1]。OCR技術(shù)是實(shí)現(xiàn)文字高速錄入的一項(xiàng)關(guān)鍵技術(shù),是對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過程。亦即將圖像中的文字進(jìn)行識(shí)別,并以文本的形式返回。

傳統(tǒng)上,圖像預(yù)處理采用數(shù)字圖像處理和機(jī)器學(xué)習(xí)(HOG)提取特征,但對(duì)復(fù)雜環(huán)境的泛化能力不強(qiáng),本文中使用CNN的神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。

文字檢測即使用先驗(yàn)知識(shí)對(duì)圖像中的文本區(qū)域進(jìn)行框選,常用的檢測方法有:Faster R-CNN(基于區(qū)域的快速卷積網(wǎng)絡(luò)方法)、FCN(Fully Convolutional Networks,全卷積神經(jīng)網(wǎng)絡(luò))、RRPN(Rotation Region Proposal Network,旋轉(zhuǎn)區(qū)域提議網(wǎng)絡(luò))、TextBoxes(文本框)、DMPNet(Deep Matching Prior Network,深度匹配先驗(yàn)網(wǎng)絡(luò))、CTPN(Connectionist Text Proposal Network,連接文本提議網(wǎng)絡(luò))、SegLink(Segment link,切片鏈接)、EAST(Efficient and Accurate Scene Text Detector,高效文本檢測),本文采用EAST高效文本檢測方法。

文本識(shí)別是將當(dāng)前字符提取的特征向量與特征模板庫進(jìn)行模板粗分類和模板細(xì)匹配,識(shí)別出字符的算法。本文采用CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡(luò))-LSTM(Long Short Term Memory,長短期記憶網(wǎng)絡(luò))-CTC(Connectionist Temporal Classifier,聯(lián)接時(shí)間分類器)相結(jié)合的方法,即CNN-LSTM-CTC進(jìn)行文本識(shí)別。

1.1 EAST全卷積神經(jīng)網(wǎng)絡(luò)文字檢測

EAST[2]的網(wǎng)絡(luò)結(jié)構(gòu)總共包含3個(gè)部分:特征提取分支(feature extractor stem),特征合并分支(feature-merging branch) 以及輸出層(output layer)。

在特征提取分支部分,主要由四層卷積層組成。在特征合并分支部分,這里采用的是反池化的操作,首先經(jīng)過一層反池化操作,得到與上一層卷積特征圖(feature map)同樣大小的特征,然后將其余進(jìn)行拼接,拼接后再依次進(jìn)入一層和的卷積層,以減少拼接后通道數(shù)的增加,得到對(duì)應(yīng)的特征圖。在特征合并分支的最后一層,是一層的卷積層,卷積后得到的特征圖(feature map)最終直接進(jìn)入輸出層。之所以要引入特征合并分支,是因?yàn)樵趫鼍拔淖肿R(shí)別中,文字的大小非常極端,較大的文字需要神經(jīng)網(wǎng)絡(luò)高層的特征信息,而比較小的文字則需要神經(jīng)網(wǎng)絡(luò)淺層的特征信息。因此,只有將網(wǎng)絡(luò)不同層次的特征進(jìn)行融合才能

滿足這樣的需求。在輸出層部分,主要有兩部分:一部分是用單個(gè)通道的卷積得到分?jǐn)?shù)圖(score map),另一部分是多個(gè)通道的卷積得到幾何形狀圖(geometry map),在這一部分,幾何形狀可以是旋轉(zhuǎn)盒子(RBOX)或者四邊形(QUAD)。對(duì)于RBOX,主要有5個(gè)通道,其中4個(gè)通道表示每一個(gè)像素點(diǎn)與文本線上、右、下、左邊界距離(axisaligned bounding box,AABB),另一個(gè)通道表示該四邊形的旋轉(zhuǎn)角度。對(duì)于QUAD,則采用四邊形4個(gè)頂點(diǎn)的坐標(biāo)表示,因此總共有8個(gè)通道。

1.2 CNN-LSTM-CTC文字識(shí)別

CNN-LSTM-CTC[3-5]基于卷積神經(jīng)網(wǎng)絡(luò)的長短期記憶連接時(shí)間分類器是處理不定長文字的常用方法之一。不定長文字在現(xiàn)實(shí)中大量存在,由于字符數(shù)量不固定、不可預(yù)知,因而識(shí)別的難度也較大,這也是目前研究文字識(shí)別的主要方向。常用的不定長文字識(shí)別方法有:CNN-LSTM-CTC、CRNN(Convolutional Recurrent Neural Network,卷積循環(huán)神經(jīng)網(wǎng)絡(luò))、chinsesocr(基于yolo3:用于文字檢測、crnn:用于文字識(shí)別的自然場景文字識(shí)別項(xiàng)目),本文采用CNNLSTM-CTC方法。

LSTM(Long Short Term Memory,長短期記憶網(wǎng)絡(luò))是一種特殊結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò);(Recurrent Neural Networks,RNN),用于解決RNN的長期依賴問題。由于隨著輸入RNN網(wǎng)絡(luò)的信息的時(shí)間間隔不斷增大,普通RNN就會(huì)出現(xiàn)“梯度消失”或是“梯度爆炸”的現(xiàn)象。LSTM單元由輸入門(Input Gate)、遺忘門(Forget Gate)和輸出門(Output Gate)組成[3,4]。

CTC(Connectionist Temporal Classifier,聯(lián)接時(shí)間分類器),主要用于解決輸入特征與輸出標(biāo)簽的對(duì)齊問題。由于文字存在不同間隔或變形等問題,導(dǎo)致文字有不同的表現(xiàn)形式,但實(shí)際上都是同一個(gè)文字。在識(shí)別時(shí)會(huì)將輸入圖像進(jìn)行分塊后再去識(shí)別,得出每塊屬于某個(gè)字符的概率,其中對(duì)于無法識(shí)別的標(biāo)記為特殊字符“-”。由于字符變形等原因,導(dǎo)致對(duì)輸入圖像分塊識(shí)別時(shí),相鄰塊可能會(huì)識(shí)別為同一個(gè)結(jié)果,從而導(dǎo)致字符重復(fù)出現(xiàn)。因此,通過CTC來解決對(duì)齊問題,模型訓(xùn)練后,對(duì)結(jié)果中去掉間隔字符、去掉重復(fù)字符(如果同一個(gè)字符連續(xù)出現(xiàn),則表示只有一個(gè)字符,如果中間有間隔字符,則表示該字符出現(xiàn)多次)。因此,通過CTC就解決了輸入特征與輸出標(biāo)簽的對(duì)齊問題。

1.3 數(shù)據(jù)增廣

數(shù)據(jù)增廣常用的方法有:鏡像(flip)、旋轉(zhuǎn)(rotation)、縮放(scale)、裁剪(crop)、平移(translation)、高斯噪聲(gaussion noise)、圖像亮度、飽和度和對(duì)比度變化,PCA Jittering,Lable shuffle,SDA,生成對(duì)抗網(wǎng)絡(luò)(generative adversi network)等。本文中主要用到的數(shù)據(jù)增廣方法有旋轉(zhuǎn)、平移、加陰影、加高光、加模糊、加畸變與加色彩轉(zhuǎn)換等方法。

圖1 現(xiàn)場稱重儀表圖像Fig.1 Image of the on-site weighing instrument

2 工業(yè)現(xiàn)場應(yīng)用與結(jié)果分析

本文中以某涂料廠的電子稱重儀為例拍攝相關(guān)的圖像,由于現(xiàn)場存在多種稱重設(shè)備,拍攝角度和光照情況以及儀表屏幕常有反光、陰影和畸變,各類儀表字體字形顏色差別較大,如圖1所示。

針對(duì)原始圖像進(jìn)行預(yù)處理,本文中采用的預(yù)處理方法為Canny邊緣檢測后采用閉運(yùn)算即先膨脹后腐蝕的方法后,進(jìn)行灰度化和二值化到預(yù)處理后的圖片。此后通過EAST文本檢測和CNN-LSTM-CTC基于卷積神經(jīng)網(wǎng)絡(luò)的長短期記憶連接時(shí)間分類器處理得到最后的識(shí)別數(shù)據(jù),如圖2所示。

使用基于RESNET的EAST網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在測試中發(fā)現(xiàn),對(duì)已經(jīng)預(yù)訓(xùn)練好的EAST網(wǎng)絡(luò)進(jìn)行遷移訓(xùn)練,根本無法達(dá)到預(yù)期效果,有可能是因?yàn)橐呀?jīng)陷入局部最優(yōu)點(diǎn)無法在使用場景下工作。之后只加載了RESNET[6]的特征提取網(wǎng)絡(luò),再重新訓(xùn)練了EAST網(wǎng)絡(luò),效果能達(dá)到預(yù)期,在測試集中可以達(dá)到95%以上準(zhǔn)確率。在訓(xùn)練中數(shù)據(jù)擴(kuò)增十分重要,加入隨機(jī)的旋轉(zhuǎn)與截取,使數(shù)據(jù)集擴(kuò)增3倍以上,使最終結(jié)果更加穩(wěn)定。使用兩路泰坦GPU,訓(xùn)練時(shí)間在7個(gè)小時(shí)左右收斂。

識(shí)別模型負(fù)責(zé)從已經(jīng)截出的文字區(qū)域中識(shí)別出數(shù)字,采取CNN-LSTM-CTC的結(jié)構(gòu)。CNN負(fù)責(zé)提取數(shù)據(jù),LSTM從左向右掃描特征序列之后用CTC[7]進(jìn)行解碼,獲得識(shí)別結(jié)果。

本文采用現(xiàn)場采集的儀表原圖,隨機(jī)選取80%,經(jīng)過數(shù)據(jù)增廣后得到共8000張圖片用于文字檢測模型訓(xùn)練,剩下的20%原圖即2000張圖片用于進(jìn)行文件檢測的測試。文字識(shí)別時(shí)采用14000張圖片進(jìn)行模型訓(xùn)練,1500張圖片用于測試。經(jīng)測試該模型有較好的準(zhǔn)確率,對(duì)小數(shù)點(diǎn)也比較敏感,整體識(shí)別率95%以上。為了使結(jié)果更加穩(wěn)定,依舊采用了圖像擴(kuò)增,擴(kuò)增包括旋轉(zhuǎn)、平移、加陰影、加高光、加模糊、加畸變與加色彩轉(zhuǎn)換。使用兩路泰坦GPU,訓(xùn)練時(shí)間在兩個(gè)小時(shí)左右收斂。

圖2 圖像處理過程圖Fig.2 Image processing process diagram

圖3 現(xiàn)場PDA采集圖像和解析識(shí)別圖Fig.3 On-site PDA image collection and analysis and recognition diagram

在終端部署時(shí),由于現(xiàn)場采集圖像的PDA計(jì)算能力有限,必須選用“終端采集,服務(wù)端計(jì)算”的模型。值得注意的是為了運(yùn)行java版本的tensorflow與opencv,java需要到1.8以上,需要安裝vcredist組件。在接口設(shè)計(jì)中,提供了多種調(diào)用模式,可以直接將BASE64編碼的照片傳入或?qū)⑽募穆窂絺魅胫笾苯臃祷刈R(shí)別結(jié)果,示例如圖3所示。由于現(xiàn)場處理器性能充足,從PDA上傳到得到結(jié)果在1s以內(nèi)完成。

3 結(jié)束語

基于OCR的數(shù)字儀表自動(dòng)化識(shí)別在工業(yè)現(xiàn)場中存在較大需求,本文針對(duì)某涂料廠的數(shù)字稱重儀上采集的圖像進(jìn)行圖像預(yù)處理后,再采用EAST全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本檢測后,通過CNN-LSTM-CTC基于卷積神經(jīng)網(wǎng)絡(luò)的長短期記憶連接時(shí)間分類器進(jìn)行文本識(shí)別,得到較好的識(shí)別效果,采用“終端采集,服務(wù)端計(jì)算”的方式實(shí)現(xiàn)快速解析識(shí)別結(jié)果,滿足現(xiàn)場應(yīng)用需求。

猜你喜歡
字符卷積文字
尋找更強(qiáng)的字符映射管理器
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
文字的前世今生
熱愛與堅(jiān)持
當(dāng)我在文字中投宿
文苑(2020年12期)2020-04-13 00:55:10
字符代表幾
一種USB接口字符液晶控制器設(shè)計(jì)
電子制作(2019年19期)2019-11-23 08:41:50
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
消失的殖民村莊和神秘字符
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
定西市| 敦化市| 黄石市| 香港| 沙雅县| 青铜峡市| 新化县| 尚志市| 博罗县| 大同县| 沭阳县| 东源县| 松潘县| 巢湖市| 通渭县| 盐山县| 安泽县| 东丽区| 贺兰县| 体育| 天水市| 吉林省| 巨野县| 桂林市| 祁东县| 广丰县| 喀喇沁旗| 格尔木市| 沭阳县| 洪雅县| 古交市| 金溪县| 新和县| 慈溪市| 新蔡县| 旅游| 杭锦旗| 樟树市| 吉安市| 临海市| 白山市|