国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于OCR 深度學習的自動化站點審核方法

2022-01-06 10:53:52蔡金青
廣東通信技術(shù) 2021年12期
關(guān)鍵詞:校驗站點關(guān)鍵

[蔡金青]

1 引言

隨著通信工程勘察設(shè)計數(shù)智化的發(fā)展,勘察設(shè)計審核過程逐步引入平臺化流轉(zhuǎn)模式,但是仍舊存在圖紙審核過程為人工審核,人工記錄設(shè)計圖紙中的關(guān)鍵工程參數(shù)、站點信息。且多以辦公軟件或者小型數(shù)據(jù)庫形式記錄,并與后期勘察設(shè)計庫中的信息進行校驗,校驗方法采用辦公軟件公式方法解決。人工審核存在效率低下、工作強度大、易錯等缺點。在后期二階段工程參數(shù)、站點信息數(shù)據(jù)庫過程中也多以數(shù)據(jù)庫校驗方式判斷綜合資管平臺數(shù)據(jù)庫是否存在入庫錯誤等問題。

本方法通過OCR 深度學習方式提取圖紙關(guān)鍵信息,并與平臺勘察設(shè)計模塊中人工錄入數(shù)據(jù)、綜合資管平臺數(shù)據(jù)進行自動校驗,大幅提升省端站點信息數(shù)據(jù)審核效率、正確率。

2 原理概述

本方法實現(xiàn)原理主要包括圖紙關(guān)鍵字識別、OCR(Optical Character Recognition,光學字符識別)深度學習及關(guān)鍵字入庫校驗3 個部分。

圖紙關(guān)鍵字識別部分首先將可能在文字的區(qū)域檢測出來,然后再進行識別。本質(zhì)是識別圖片中的文字,即在復雜的圖片背景下對所需目標文字進行識別提取。

OCR 深度學習針對基站設(shè)計圖紙,采用基于AI 訓練的圖片文字識別模型,對識別的文本框坐標進行檢測。該算法結(jié)合了CNN(卷積神經(jīng)網(wǎng)絡(luò))和LSTM(循環(huán)神經(jīng)網(wǎng)絡(luò))的技術(shù),通過CNN 提取深度特征,LSTM 用于序列的特征識別?;贏I 訓練的OCR 模型與調(diào)用在線OCR 接口相結(jié)合處理模式。平臺具體架構(gòu)如圖1 所示。

圖1 OCR 深度學習的自動化站點審核平臺架構(gòu)

本方法采用對DXF(圖紙格式)的OCR 深度學習,最終自動采集圖紙信息,采用DXF 文件相較于原始DWG文件的好處在于:DXF 是Autodesk 公司開發(fā)的用于AutoCAD 與其它軟件之間進行CAD 數(shù)據(jù)交換的CAD 數(shù)據(jù)文件格式。DXF 是一種開放的矢量數(shù)據(jù)格式,可以分為兩類:ASCII 格式和二進制格式;ASCII 具有可讀性好,但占有空間較大;二進制格式占有空間小、讀取速度快。由于AutoCAD 現(xiàn)在是最流行的CAD 系統(tǒng),DXF 也被廣泛使用,成為事實上的標準。DWG 的來繪圖更直觀(DXF圖紙中線條的相交處都會有個小圓),而用于數(shù)控加工的圖紙則必須是DXF 文件(操作者必須把DWG 轉(zhuǎn)換成DXF 后才可加工)。DXF 是工業(yè)標準格式的一種。

關(guān)鍵字抓取入庫將識別出的工程參數(shù)、站點信息數(shù)據(jù)與平臺存儲的值進行校驗,校驗的結(jié)果會在勘察設(shè)計小區(qū)列表中呈現(xiàn)。如果信息不一致,可通過系統(tǒng)查看出不一致字段。其中牽涉到工程參數(shù)、站點信息一次校驗、二次校驗流程。具體流程如圖2 所示。

圖2 OCR 深度學習的自動化站點審核平臺流程

在時效方面,基于OCR 深度學習的自動化站點審核方法將原有站點審核校驗回填時間由10 min 縮短至20 s(以單站實驗結(jié)果),效率提升97%。隨著站點數(shù)的增加(OCR 圖紙深度學習模塊以多線程并行服務(wù)運行,暫時開啟8 線程并行服務(wù)),效率值會更進一步提升。

3 圖紙關(guān)鍵字識別

OCR 深度學習是檢測、識別的基礎(chǔ)。首先將文字的區(qū)域檢測出來,然后再進行識別。本質(zhì)是識別圖片中的文字,即在復雜的圖片背景下對所需目標文字進行識別提取。

文字識別可應(yīng)用于許多領(lǐng)域,如閱讀、翻譯、文獻資料的檢索、信件和包裹的分揀、稿件的編輯和校對、大量統(tǒng)計報表和卡片的匯總與分析、銀行支票的處理、商品發(fā)票的統(tǒng)計匯總、商品編碼的識別、商品倉庫的管理,以及水、電、煤氣、房租、人身保險等費用的征收業(yè)務(wù)中的大量信用卡片的自動處理和辦公室打字員工作的局部自動化等。以及文檔檢索,各類證件識別,方便用戶快速錄入信息,提高各行各業(yè)的工作效率。

3.1 文字識別基礎(chǔ)步驟

(1)文字區(qū)域:檢測存在文字的區(qū)域。

(2)文字檢測:識別區(qū)域中的文字。

3.2 文字區(qū)域

對文字存在區(qū)域的檢測方法,與目標檢測領(lǐng)域的常用檢測方法相當,分為一步和二步二種方法,后續(xù)也可以考慮使用無標記方法對文字區(qū)域進行檢測。

(1)在文字識別領(lǐng)域,常用的二步方法為快速RCNN,單階段方法。相比之下,前者的精度更好,后者速度更快。

(2)在文字識別領(lǐng)域,與傳統(tǒng)目標檢測的不同還在于文字的方向、扭曲程度等。

對于水平文字的檢測。水平文字文本框是規(guī)則的四邊形(4 個自由度),類似于物體檢測。水平文字檢測效果較好的算法為CTPN。

文本框是不規(guī)則的四邊形,擁有8 個自由度,傾斜文字檢測較好的算法由cvpr2017 提出。一般的檢測套路為:檢測文本框,采用拉東變換、霍夫變換等方法進行文本矯正,通過投影直方圖分割單行文本圖片,對單行文本進行OCR。

3.3 文字檢測

文字采用分類模式,可以對字符進行分割后單獨識別,也可以進行序列識別,顯然易見的是,序列識別才是真正有意義的。

(1)定長文字:各個字符之間是獨立的,需事先選定可預測的序列的最大長度,比較適用于門牌檢測或車牌號碼檢測。

(2)不定長文字:可以產(chǎn)生任意長度的文字。

將文字檢測和識別放在一個網(wǎng)絡(luò)中進行聯(lián)合訓練,目前主流的兩種模型。

①CNN 與RNN/LSTM/GRU 與CTC:卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)與遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)/長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)/門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)(Gated Recurrent Unit,GRU)與時序類分類(Connectionist Temporal Classification,CTC)。

②引入注意力機制(CNN+RNN+Attention):其中注意力機制可以分為硬模式和軟模式。其中硬模式能夠直接給出硬定位,通常是直觀展現(xiàn)文字區(qū)域的位置。軟模式通常采用RNN/LSTM/GRU。

4 OCR 深度學習提取

將設(shè)計圖紙文字提取出來后,拼接為整個文本串,再從文本串中識別提取關(guān)鍵字如掛高、天線方位角、電調(diào)下傾角、機械下傾角、經(jīng)緯度等,最后從關(guān)鍵字前后識別非中文字符得到對應(yīng)的關(guān)鍵數(shù)據(jù)。并通過文字識別校驗,實現(xiàn)工程參數(shù)、站點信息關(guān)鍵核驗功能。

部分代碼如圖3 所示。

圖3 文字識別部分關(guān)鍵代碼

具體技術(shù)原理及步驟包括3 步。

(1)設(shè)計人員將CAD 圖紙的存儲為更易識別的DXF 格式(DXF 是一種開放的矢量數(shù)據(jù)格式,易解析),并上傳至規(guī)劃審核平臺的勘察設(shè)計模塊。

(2)勘察設(shè)計模塊上傳CAD 圖紙的同時,系統(tǒng)會同時啟動OCR 深度學習模塊提取關(guān)鍵信息功能,將圖紙中所需的工程參數(shù)、站點信息數(shù)據(jù)自動識別(調(diào)用DXFparser 模塊模糊找出DXF 中需要讀取標記的字段,存儲在內(nèi)存中),并且與勘察設(shè)計中人工錄入的參數(shù)信息進行校驗。

(3)將識別出的工程參數(shù)、站點信息數(shù)據(jù)與平臺存儲的值進行校驗,校驗的結(jié)果會在勘察設(shè)計小區(qū)列表中呈現(xiàn)。如果信息不一致,可通過系統(tǒng)查看出不一致字段。

圖紙中關(guān)鍵工程參數(shù)、站點信息如圖4 所示。

圖4 關(guān)鍵工程參數(shù)、站點信息提取

5 關(guān)鍵字入庫校驗

勘察設(shè)計模塊上傳CAD 圖紙的同時,系統(tǒng)會同時啟動啟動OCR 深度學習模塊提取關(guān)鍵信息功能,將圖紙中所需的工程參數(shù)、站點信息數(shù)據(jù)自動識別抓取入庫與勘察信息庫進行關(guān)鍵信息校驗。具體校驗如圖5 所示。

圖5 關(guān)鍵工程參數(shù)、站點信息入庫

將識別出的工程參數(shù)、站點信息數(shù)據(jù)與勘察信息庫的值進行校驗,校驗的結(jié)果會在勘察設(shè)計小區(qū)列表中呈現(xiàn)。如果信息不一致,可通過系統(tǒng)查看出不一致字段。具體比對如圖6 所示。

圖6 關(guān)鍵工程參數(shù)、站點信息校驗比對

后期待施工完成入網(wǎng)后,再將關(guān)鍵信息與綜合資管平臺進行二次校驗,并保證站點信息全平臺準確唯一。

6 總結(jié)

一種基于OCR 深度學習的自動化站點審核方法,該方法通過數(shù)智化手段針對站點圖紙通過OCR 深度學習的方法提取設(shè)計圖紙中的關(guān)鍵工程參數(shù)、站點信息(掛高、天線方位角、電調(diào)下傾角、機械下傾角、經(jīng)緯度、區(qū)域位置、環(huán)境描述等)入庫。將從圖紙中提取出的站點關(guān)鍵工程參數(shù)、站點信息與勘察設(shè)計庫中的信息比對以校驗審核設(shè)計階段出現(xiàn)的工程參數(shù)、站點信息錯誤,以及后期資管平臺關(guān)鍵信息錯誤。

猜你喜歡
校驗站點關(guān)鍵
高考考好是關(guān)鍵
基于Web站點的SQL注入分析與防范
電子制作(2019年14期)2019-08-20 05:43:42
2017~2018年冬季西北地區(qū)某站點流感流行特征分析
爐溫均勻性校驗在鑄鍛企業(yè)的應(yīng)用
首屆歐洲自行車共享站點協(xié)商會召開
中國自行車(2017年1期)2017-04-16 02:53:52
怕被人認出
故事會(2016年21期)2016-11-10 21:15:15
大型電動機高阻抗差動保護穩(wěn)定校驗研究
電測與儀表(2015年1期)2015-04-09 12:03:02
基于加窗插值FFT的PMU校驗方法
鍋爐安全閥在線校驗不確定度評定
獲勝關(guān)鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
德阳市| 和平区| 岑溪市| 浑源县| 宜春市| 浠水县| 望城县| 准格尔旗| 荃湾区| 伊宁市| 临颍县| 武义县| 靖远县| 西峡县| 剑河县| 札达县| 卓资县| 胶州市| 佛山市| 昭通市| 婺源县| 南乐县| 周宁县| 青州市| 盐城市| 双江| 巫山县| 平和县| 长宁区| 沧源| 堆龙德庆县| 富宁县| 麦盖提县| 东安县| 巴林左旗| 西安市| 寿阳县| 郁南县| 阿巴嘎旗| 凤阳县| 伊春市|