摘" 要:電力工程設(shè)計(jì)中鐵塔設(shè)計(jì)圖紙的自動(dòng)識(shí)別與信息提取是一項(xiàng)急需解決的問(wèn)題。該文提出一種基于深度學(xué)習(xí)和光學(xué)字符識(shí)別(Optical Character Recognition,OCR)技術(shù)的鐵塔設(shè)計(jì)圖紙智能識(shí)別系統(tǒng)。該系統(tǒng)由分段結(jié)構(gòu)識(shí)別、文本識(shí)別和關(guān)鍵信息提取3個(gè)主要模塊組成。分段結(jié)構(gòu)識(shí)別模塊采用改進(jìn)的U-Net卷積神經(jīng)網(wǎng)絡(luò)模型;文本識(shí)別模塊基于Tesseract 4.0進(jìn)行優(yōu)化,提高字符識(shí)別準(zhǔn)確率;關(guān)鍵信息提取模塊則使用基于規(guī)則的解析引擎,從識(shí)別出的分段結(jié)構(gòu)和文本中抽取關(guān)鍵信息。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)在鐵塔圖紙識(shí)別的準(zhǔn)確性、泛化性和效率方面均達(dá)到較高水平塔形結(jié)構(gòu)識(shí)別F1值為96.35%,字符識(shí)別準(zhǔn)確率為99.10%。該系統(tǒng)可有效支持電力工程設(shè)計(jì)和管理的數(shù)字化、智能化轉(zhuǎn)型,具有廣闊的應(yīng)用前景。
關(guān)鍵詞:鐵塔圖紙;深度學(xué)習(xí);光學(xué)字符識(shí)別;關(guān)鍵信息提取;U-Net;Tesseract
中圖分類(lèi)號(hào):TP39" " " 文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號(hào):2095-2945(2025)02-0020-06
Abstract: Automatic identification and information extraction of tower design drawings in power engineering design is an urgent problem to be solved urgently. This paper proposes an intelligent recognition system for tower design drawings based on deep learning and optical character recognition(OCR) technology. The system consists of three main modules: segmented structure recognition, text recognition and key information extraction. The segmented structure recognition module adopts an improved U-Net convolutional neural network model; the text recognition module is optimized based on Tesseract 4.0, which improves the accuracy of character recognition. The key information extraction module uses a rule-based parsing engine to extract key information from the identified segmentation structures and texts. Experimental results show that the system achieves a higher level tower structure recognition F1 value of 96.35% and a character recognition accuracy of 99.10% in terms of accuracy, generalization and efficiency in tower drawing recognition. The system can effectively support the digital and intelligent transformation of power engineering design and management, and has broad application prospects.
Keywords: tower drawing; deep learning; optical character recognition (OCR); key information extraction; U-Net; Tesseract
隨著電力工程的不斷發(fā)展,輸電線(xiàn)路建設(shè)規(guī)模日益擴(kuò)大,鐵塔作為其中的關(guān)鍵設(shè)施,其設(shè)計(jì)和施工質(zhì)量直接影響到整個(gè)電網(wǎng)的安全穩(wěn)定運(yùn)行[1]。電力需求的持續(xù)增長(zhǎng)導(dǎo)致電塔施工項(xiàng)目的規(guī)模和復(fù)雜性也在不斷上升,傳統(tǒng)的手工處理方法已經(jīng)無(wú)法滿(mǎn)足對(duì)施工效率和精度的高標(biāo)準(zhǔn)要求。在鐵塔施工方案編制過(guò)程中,設(shè)計(jì)圖紙是技術(shù)人員獲取塔型結(jié)構(gòu)、分段參數(shù)、材料用量、高度重量等關(guān)鍵信息的主要來(lái)源[2]。施工前,技術(shù)人員需要仔細(xì)閱讀和分析圖紙,提取相關(guān)參數(shù),并根據(jù)這些信息制定施工方案,指導(dǎo)現(xiàn)場(chǎng)作業(yè)[3]。然而,由于鐵塔圖紙內(nèi)容復(fù)雜,涉及多種視圖和符號(hào),人工閱讀和理解非常耗時(shí)耗力。據(jù)統(tǒng)計(jì),一名有經(jīng)驗(yàn)的技術(shù)人員完全理解一張鐵塔圖紙平均需要30 min以上[4],時(shí)間較長(zhǎng);同時(shí),培養(yǎng)一名有經(jīng)驗(yàn)的技術(shù)人員耗費(fèi)的資源更多,時(shí)間成本更高,通常需要2~3 a[5]。因此,亟需開(kāi)發(fā)一種自動(dòng)、高效、準(zhǔn)確的圖紙信息提取技術(shù),以解決上述問(wèn)題,提升鐵塔施工的智能化水平。
近年來(lái),人工智能技術(shù)在圖像識(shí)別領(lǐng)域取得了長(zhǎng)足進(jìn)步,為解決復(fù)雜工程圖紙信息提取問(wèn)題提供了新的思路。國(guó)內(nèi)外學(xué)者針對(duì)鐵塔圖紙信息提取問(wèn)題開(kāi)展了一系列研究,取得了一定進(jìn)展,但仍存在不足之處。
在分段結(jié)構(gòu)識(shí)別方面,傳統(tǒng)方法主要采用模板匹配、特征提取等技術(shù),但難以適應(yīng)鐵塔圖紙的多樣性和復(fù)雜性。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)憑借其強(qiáng)大的特征學(xué)習(xí)能力,在目標(biāo)檢測(cè)、語(yǔ)義分割等任務(wù)中表現(xiàn)出色[6]。畢含嘉等[7]針對(duì)輸電線(xiàn)路巡檢中多類(lèi)缺陷檢測(cè)問(wèn)題,提出改進(jìn)YOLO v7方法。通過(guò)空間金字塔池化增強(qiáng)特征提取,注意力機(jī)制提升關(guān)鍵區(qū)域感知,在金具脫落等缺陷檢測(cè)中表現(xiàn)優(yōu)異。葉力鳴等[8]提出級(jí)聯(lián)式絕緣子缺陷檢測(cè)方法,結(jié)合語(yǔ)義分割和目標(biāo)檢測(cè)技術(shù)。先用分割網(wǎng)絡(luò)粗定位,再用檢測(cè)網(wǎng)絡(luò)精細(xì)識(shí)別。余添添等[9]提出改進(jìn)YOLOv5的違規(guī)施工監(jiān)測(cè)方法。通過(guò)改進(jìn)backbone網(wǎng)絡(luò)和特征金字塔結(jié)構(gòu)提升小目標(biāo)檢測(cè)能力,實(shí)現(xiàn)對(duì)違規(guī)行為的實(shí)時(shí)監(jiān)測(cè),支持施工安全管理。
綜上所述,現(xiàn)有研究在目標(biāo)檢測(cè)和文字識(shí)別方面均取得了一定進(jìn)展。然而,這些方法在鐵塔圖紙信息提取領(lǐng)域仍存在以下局限:一方面,目標(biāo)檢測(cè)算法主要針對(duì)實(shí)際場(chǎng)景中的設(shè)備缺陷識(shí)別,未充分考慮工程圖紙中的結(jié)構(gòu)特征;另一方面,現(xiàn)有研究往往將圖形識(shí)別和文字識(shí)別割裂開(kāi)來(lái),缺乏有效的信息融合機(jī)制,難以滿(mǎn)足鐵塔施工方案編制對(duì)結(jié)構(gòu)化信息的需求。為此,亟需設(shè)計(jì)一種能夠同時(shí)處理圖形結(jié)構(gòu)和文本信息,并實(shí)現(xiàn)兩者有機(jī)融合的綜合性方法,以提高鐵塔圖紙信息提取的準(zhǔn)確性和自動(dòng)化水平。
因此,本文面向鐵塔施工方案編制過(guò)程中的實(shí)際需求,提出了一種基于深度學(xué)習(xí)和OCR的鐵塔圖紙關(guān)鍵信息智能提取算法。該方法首先采用改進(jìn)的U-Net模型對(duì)圖紙中的鐵塔分段結(jié)構(gòu)進(jìn)行定位和分割,然后利用優(yōu)化的Tesseract模型提取鐵塔分段編號(hào)、分段高度等關(guān)鍵文本信息,最后,通過(guò)基于規(guī)則的方法解析圖形和文本,整合結(jié)構(gòu)化的鐵塔施工關(guān)鍵信息。
本文的主要貢獻(xiàn)如下:①針對(duì)復(fù)雜鐵塔圖紙場(chǎng)景,改進(jìn)U-Net網(wǎng)絡(luò)結(jié)構(gòu),提高了鐵塔圖形的識(shí)別精度;②優(yōu)化Tesseract的字符識(shí)別模型,提升了文本提取的準(zhǔn)確率;③在真實(shí)鐵塔圖紙數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了所提方法的有效性和優(yōu)越性。
1nbsp; 鐵塔分段結(jié)構(gòu)識(shí)別
鐵塔分段結(jié)構(gòu)識(shí)別的整體技術(shù)路線(xiàn)如圖1所示。首先,對(duì)鐵塔設(shè)計(jì)圖紙進(jìn)行歸類(lèi)整理,并進(jìn)行預(yù)處理和標(biāo)注,構(gòu)建訓(xùn)練數(shù)據(jù)集。然后,采用改進(jìn)的U-Net模型對(duì)圖紙進(jìn)行語(yǔ)義分割,識(shí)別出鐵塔的各個(gè)結(jié)構(gòu)部分。最后,對(duì)分割結(jié)果進(jìn)行后處理,生成鐵塔的分段結(jié)構(gòu)表。
1.1" 數(shù)據(jù)集預(yù)處理
為了訓(xùn)練U-Net模型,需要構(gòu)建鐵塔圖紙語(yǔ)義分割數(shù)據(jù)集。本文收集國(guó)家電網(wǎng)浙江省電力有限公司提供的1 309張鐵塔設(shè)計(jì)圖紙,涵蓋了各種常見(jiàn)的鐵塔型號(hào)和設(shè)計(jì)風(fēng)格。具體包括了110~500 kV的單雙回路及四回路的各類(lèi)鐵塔設(shè)計(jì)圖,涵蓋直線(xiàn)塔、耐張轉(zhuǎn)角塔、換位塔、直線(xiàn)轉(zhuǎn)角塔與終端塔共5種類(lèi)別,具體的塔形包括了上字型、干字型、酒杯型、貓頭型與羊角型等。
我們首先對(duì)原始圖紙進(jìn)行以下預(yù)處理:將圖紙統(tǒng)一調(diào)整為1 024×1 024像素大小;轉(zhuǎn)換為灰度圖像;進(jìn)行直方圖均衡化,增強(qiáng)圖像對(duì)比度;使用高斯濾波器降噪。
預(yù)處理后,需要對(duì)圖紙進(jìn)行標(biāo)注。本文定義了6個(gè)語(yǔ)義類(lèi)別:塔身、橫擔(dān)、塔腿。標(biāo)注過(guò)程中,使用Make Sense工具,由3名有經(jīng)驗(yàn)的工程師對(duì)每張圖紙進(jìn)行多邊形標(biāo)注,并通過(guò)多數(shù)投票確定最終的標(biāo)注結(jié)果。將標(biāo)注多邊形柵格化為與原圖大小一致的語(yǔ)義分割圖,每個(gè)像素的值對(duì)應(yīng)其類(lèi)別標(biāo)簽。
最終,按照8∶1∶1比例,隨機(jī)選取1 047張圖紙作為訓(xùn)練集,131張作為驗(yàn)證集,131張作為測(cè)試集。將圖紙和標(biāo)簽數(shù)據(jù)劃分為256×256像素的圖塊。
1.2" U-Net模型
U-Net是一種經(jīng)典的語(yǔ)義分割模型,廣泛應(yīng)用于醫(yī)學(xué)圖像、遙感影像等領(lǐng)域[10]。它采用編碼器-解碼器架構(gòu),可以同時(shí)提取圖像的高層語(yǔ)義特征和低層細(xì)節(jié)特征,生成像素級(jí)別的分割結(jié)果??紤]到鐵塔設(shè)計(jì)圖紙具有以下特點(diǎn):背景復(fù)雜,含有文字、符號(hào)等干擾信息;鐵塔結(jié)構(gòu)呈現(xiàn)多尺度特征,需要融合局部和全局信息;不同部件邊界清晰,像素類(lèi)別不平衡。
U-Net恰好能夠應(yīng)對(duì)這些挑戰(zhàn)。它的編碼器通過(guò)卷積和池化操作提取多尺度特征,解碼器通過(guò)上采樣和跳躍連接恢復(fù)空間細(xì)節(jié),最后通過(guò)Softmax層輸出每個(gè)像素的類(lèi)別概率。因此,本文選擇U-Net作為鐵塔圖紙語(yǔ)義分割的基本模型。
1.3" U-Net模型的改進(jìn)
針對(duì)鐵塔分段結(jié)構(gòu)識(shí)別任務(wù)的特點(diǎn),本文對(duì)U-Net模型進(jìn)行了以下改進(jìn)。
1.3.1" 引入注意力機(jī)制
在編碼器和解碼器的每個(gè)卷積塊后,加入通道注意力和空間注意力模塊,使模型能夠自適應(yīng)地關(guān)注重要的特征通道和空間區(qū)域,如圖2所示。通道注意力通過(guò)全局平均池化和兩層全連接學(xué)習(xí)通道權(quán)重,空間注意力通過(guò)卷積層和Sigmoid激活學(xué)習(xí)空間權(quán)重。將2種注意力權(quán)重相乘,并與原始特征圖逐元素相乘,得到增強(qiáng)后的特征圖。
1.3.2" 采用深度可分離卷積
將標(biāo)準(zhǔn)卷積拆分為深度卷積和逐點(diǎn)卷積。深度卷積對(duì)每個(gè)輸入通道單獨(dú)進(jìn)行卷積,逐點(diǎn)卷積用1×1卷積對(duì)深度卷積的輸出進(jìn)行線(xiàn)性組合。這種分解可以大大減少模型參數(shù)量和計(jì)算量,提高訓(xùn)練效率。
1.3.3" 損失函數(shù)改進(jìn)
針對(duì)鐵塔圖紙中前背景類(lèi)別不平衡問(wèn)題,在交叉熵?fù)p失函數(shù)中引入Focal Loss[11],降低易分類(lèi)樣本的權(quán)重,強(qiáng)調(diào)困難樣本。Focal Loss的定義如下
," (1)
式中:pt是模型預(yù)測(cè)的真實(shí)類(lèi)別概率,γ是聚焦參數(shù),用于調(diào)節(jié)樣本難易程度的權(quán)重。
此外,還在損失函數(shù)中加入了Dice Loss ,直接優(yōu)化分割結(jié)果與真實(shí)標(biāo)簽的重疊度。Dice Loss的定義如下
式中:pi和gi分別是第i個(gè)像素的預(yù)測(cè)概率和真實(shí)標(biāo)簽,N為像素總數(shù)。
最終的損失函數(shù)為Focal Loss和Dice Loss的加權(quán)和
Loss=α·FL+(1-α)·DL , (3)
式中:α為平衡因子,本文取0.5。
2" 關(guān)鍵文本信息提取
在鐵塔設(shè)計(jì)圖紙中,文本信息承載了大量關(guān)鍵數(shù)據(jù),如分段號(hào)、分段高度、材料標(biāo)注等。準(zhǔn)確提取這些文本對(duì)于實(shí)現(xiàn)圖紙信息的自動(dòng)化處理至關(guān)重要。我們將重點(diǎn)探討如何優(yōu)化OCR技術(shù),以適應(yīng)鐵塔圖紙的復(fù)雜環(huán)境,提高關(guān)鍵文本信息的識(shí)別準(zhǔn)確率。
2.1" 光學(xué)字符識(shí)別
OCR是一種將圖像中的文本內(nèi)容轉(zhuǎn)換為可編輯的電子文本的技術(shù)。OCR的一般流程包括圖像預(yù)處理、布局分析、字符分割、特征提取和字符識(shí)別等步驟[12],如圖3所示。
鐵塔設(shè)計(jì)圖紙具有以下特點(diǎn):圖形符號(hào)眾多,如線(xiàn)條、箭頭、標(biāo)注等;文字種類(lèi)豐富,包括漢字、數(shù)字、字母和特殊符號(hào)等;版式多樣,有橫向文本、豎向文本、傾斜文本等;字體風(fēng)格不一,由CAD導(dǎo)出的字體種類(lèi)與通用標(biāo)準(zhǔn)字體具有差別。
這些特點(diǎn)給OCR帶來(lái)了巨大挑戰(zhàn)。傳統(tǒng)OCR技術(shù)主要基于模板匹配和特征工程,泛化能力有限,難以準(zhǔn)確提取鐵塔圖紙中的文本信息。
近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,OCR技術(shù)取得了長(zhǎng)足進(jìn)步?;谏疃葘W(xué)習(xí)的OCR可以自動(dòng)學(xué)習(xí)文本特征,適應(yīng)多種字體、語(yǔ)言和場(chǎng)景,大幅提升了識(shí)別精度和效率[13]。因此,本文采用了先進(jìn)的深度學(xué)習(xí)OCR技術(shù),并針對(duì)鐵塔圖紙的特點(diǎn)進(jìn)行了優(yōu)化和改進(jìn),以期獲得高質(zhì)量的關(guān)鍵文本信息提取結(jié)果。
2.2" 面向鐵塔圖紙的Tesseract OCR優(yōu)化
Tesseract是一款由Google維護(hù)的開(kāi)源OCR引擎,支持多種語(yǔ)言和平臺(tái),識(shí)別精度和速度均處于業(yè)界領(lǐng)先水平[14]。但是,Tesseract對(duì)于復(fù)雜背景下的文本識(shí)別效果有待提高。為了適應(yīng)鐵塔圖紙的特點(diǎn),本文對(duì)Tesseract進(jìn)行了以下優(yōu)化。
2.2.1" 預(yù)處理優(yōu)化
噪聲去除:采用自適應(yīng)中值濾波算法,根據(jù)圖像局部區(qū)域的灰度分布,自動(dòng)調(diào)整濾波窗口大小,有效去除背景噪聲和圖形干擾[15]。
傾斜校正:利用霍夫變換檢測(cè)圖像中的直線(xiàn),計(jì)算整體傾斜角度,通過(guò)仿射變換進(jìn)行校正,確保文本水平或垂直[16]。
二值化:采用自適應(yīng)閾值分割算法,根據(jù)圖像局部區(qū)域的灰度分布,自動(dòng)計(jì)算二值化閾值,提高前景文本與背景的對(duì)比度[17]。
2.2.2" 版面分析優(yōu)化
文本行檢測(cè):采用基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè) (Connectionist Text Proposal Network,CTPN)算法[18],通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取文本行候選框,再用循環(huán)神經(jīng)網(wǎng)絡(luò)優(yōu)化文本行坐標(biāo),準(zhǔn)確定位傾斜和彎曲的文本行。
表格檢測(cè):采用基于圖像分析的表格結(jié)構(gòu)識(shí)別算法,通過(guò)提取表格線(xiàn)和交叉點(diǎn),構(gòu)建表格拓?fù)浣Y(jié)構(gòu),實(shí)現(xiàn)表格與文本的分離。
關(guān)鍵區(qū)域定位:根據(jù)鐵塔圖紙的布局特點(diǎn),設(shè)計(jì)啟發(fā)式規(guī)則,快速定位包含關(guān)鍵信息的區(qū)域,如標(biāo)題欄、參數(shù)欄等,減少無(wú)關(guān)文本的干擾。
2.2.3" 字符識(shí)別優(yōu)化
特征提?。翰捎肎oogleNet預(yù)訓(xùn)練模型[19],在ImageNet數(shù)據(jù)集上進(jìn)行遷移學(xué)習(xí),提取字符圖像的深層語(yǔ)義特征。
字符分類(lèi):采用CTC(Connectionist Temporal Classification)損失函數(shù)[20],將字符識(shí)別建模為時(shí)序分類(lèi)問(wèn)題,利用LSTM網(wǎng)絡(luò)學(xué)習(xí)字符序列特征,提高識(shí)別準(zhǔn)確率。
后處理優(yōu)化:引入鐵塔專(zhuān)業(yè)詞典和規(guī)則約束,對(duì)識(shí)別結(jié)果進(jìn)行糾錯(cuò)和優(yōu)化,提高關(guān)鍵文本信息的識(shí)別精度。
綜合以上優(yōu)化策略,本文構(gòu)建了一個(gè)適用于鐵塔圖紙的OCR系統(tǒng),在復(fù)雜背景下取得了良好的關(guān)鍵文本信息提取效果。該系統(tǒng)可以準(zhǔn)確識(shí)別鐵塔型號(hào)、設(shè)計(jì)參數(shù)、材料標(biāo)注等關(guān)鍵信息,為后續(xù)的信息解析與應(yīng)用奠定了基礎(chǔ)。
3" 實(shí)驗(yàn)結(jié)果分析
為了全面評(píng)估所提出方法的有效性,本文在真實(shí)的鐵塔圖紙數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),并與現(xiàn)有方法進(jìn)行了比較。同時(shí),為了探究不同改進(jìn)策略的貢獻(xiàn),還設(shè)計(jì)了消融實(shí)驗(yàn)。
3.1" 實(shí)驗(yàn)環(huán)境與訓(xùn)練策略
3.1.1" 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)在以下硬件和軟件環(huán)境中進(jìn)行,具體見(jiàn)表1。
3.1.2" 數(shù)據(jù)集介紹
本文使用國(guó)家電網(wǎng)浙江省電力有限公司提供的1 309張鐵塔設(shè)計(jì)圖紙進(jìn)行實(shí)驗(yàn),其中涵蓋了多種塔型和設(shè)計(jì)規(guī)格。每張圖紙均有專(zhuān)業(yè)人員標(biāo)注的塔型號(hào)、設(shè)計(jì)參數(shù)、材料標(biāo)注等關(guān)鍵信息。我們將數(shù)據(jù)集按照8∶1∶1的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
3.1.3" 評(píng)價(jià)指標(biāo)
對(duì)于鐵塔分段結(jié)構(gòu)識(shí)別任務(wù),采用像素級(jí)別的精確率(Precision)、召回率(Recall)、F1分?jǐn)?shù)和IoU(Intersection over Union)作為評(píng)價(jià)指標(biāo)。對(duì)于關(guān)鍵文本信息提取任務(wù),采用字符級(jí)別的精確率(Precision)、召回率(Recall)、F1分?jǐn)?shù)和字符錯(cuò)誤率(Character Error Rate,CER)作為評(píng)價(jià)指標(biāo)。
3.1.4" 訓(xùn)練策略
具體訓(xùn)練策略及參數(shù)設(shè)置見(jiàn)表2。
3.2" 改進(jìn)U-Net實(shí)驗(yàn)結(jié)果
3.2.1" 消融實(shí)驗(yàn)
為了驗(yàn)證本文提出的各項(xiàng)改進(jìn)策略的有效性,設(shè)計(jì)了以下消融實(shí)驗(yàn)(表3)。
Baseline:原始U-Net;
+Attention Gate(AG):在編碼器和解碼器間添加注意力門(mén)控機(jī)制;
+Depthwise Separable Convolution(DSC):將標(biāo)準(zhǔn)卷積替換為深度可分離卷積;
+Dice Loss(DL):在損失函數(shù)中引入Dice Loss;
Ours:本文改進(jìn)的組合。
從表3可以看出,單獨(dú)引入AG、DSC和DL均可提升分割性能,綜合所有改進(jìn)策略后,模型在各項(xiàng)指標(biāo)上均取得了最優(yōu)表現(xiàn),F(xiàn)1分?jǐn)?shù)和IoU系數(shù)分別達(dá)到了96.35%和92.87%,相比Baseline分別提升了3.17和6.62個(gè)百分點(diǎn)??偟膩?lái)說(shuō),改進(jìn)U-Net在鐵塔分段結(jié)構(gòu)識(shí)別任務(wù)上取得了較好的性能。
3.3" 優(yōu)化OCR實(shí)驗(yàn)結(jié)果
為了分析不同優(yōu)化模塊對(duì)OCR識(shí)別性能的影響,設(shè)計(jì)了以下消融實(shí)驗(yàn)。
Baseline:標(biāo)準(zhǔn)Tesseract OCR;
+Adaptive Median Filter(AMF):自適應(yīng)中值濾波噪聲去除;
+CTPN:基于CTPN的文本行檢測(cè);
+GoogleNet+CTC:基于GoogleNet和CTC的字符識(shí)別;
+Post-processing(PP):引入鐵塔專(zhuān)業(yè)詞典和規(guī)則約束的后處理優(yōu)化;
Ours:本文改進(jìn)的組合。
從表4可以看出,各項(xiàng)優(yōu)化策略對(duì)OCR性能提升均有貢獻(xiàn)。其中,AMF通過(guò)去除背景噪聲,提高了Precision;CTPN準(zhǔn)確定位了文本行,使Recall大幅提升;GoogleNet+CTC增強(qiáng)了字符特征表示和序列識(shí)別能力,全面改善了各項(xiàng)指標(biāo);PP利用先驗(yàn)知識(shí)對(duì)識(shí)別結(jié)果進(jìn)行糾錯(cuò),進(jìn)一步提高了Precision和F1分?jǐn)?shù)。綜合各項(xiàng)優(yōu)化后,系統(tǒng)在字符級(jí)別的F1分?jǐn)?shù)達(dá)到98.84%,較Baseline提升5.73個(gè)百分點(diǎn),CER也降低到了0.79%,實(shí)現(xiàn)了對(duì)鐵塔圖紙關(guān)鍵文本的高精度識(shí)別。 綜合以上實(shí)驗(yàn)結(jié)果,本文提出的基于改進(jìn)U-Net的鐵塔圖紙分割和優(yōu)化OCR的關(guān)鍵文本提取方法是有效可行的。改進(jìn)U-Net通過(guò)引入注意力門(mén)控、深度可分離卷積、Dice Loss等,提高了鐵塔結(jié)構(gòu)分割的精度,優(yōu)于主流語(yǔ)義分割模型。優(yōu)化OCR系統(tǒng)在預(yù)處理、版面分析、字符識(shí)別等多個(gè)環(huán)節(jié)進(jìn)行了鐵塔圖紙場(chǎng)景適配,并利用領(lǐng)域知識(shí)進(jìn)行后處理優(yōu)化,大幅提升了關(guān)鍵文本信息提取的準(zhǔn)確率,優(yōu)于傳統(tǒng)和基于深度學(xué)習(xí)的OCR方法。這為后續(xù)的鐵塔設(shè)計(jì)圖紙智能解析與應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。
4" 結(jié)論
本文針對(duì)鐵塔設(shè)計(jì)圖紙的自動(dòng)化信息提取問(wèn)題,提出了一種融合改進(jìn)U-Net和優(yōu)化OCR的解決方案。通過(guò)大量實(shí)驗(yàn)驗(yàn)證了方法的有效性,主要結(jié)論如下。
1)提出了一種改進(jìn)的U-Net模型,通過(guò)引入注意力門(mén)控機(jī)制、深度可分離卷積和Dice Loss,有效提高了鐵塔結(jié)構(gòu)分割的精度。與原始U-Net相比,改進(jìn)模型在F1-score和IoU上分別提升了3.17和6.62個(gè)百分點(diǎn),達(dá)到了96.35%和92.87%的水平。
2)針對(duì)鐵塔圖紙的場(chǎng)景特點(diǎn),對(duì)Tesseract OCR系統(tǒng)進(jìn)行了多方面的優(yōu)化,包括自適應(yīng)中值濾波降噪、基于CTPN的文本行檢測(cè)、基于GoogleNet和CTC的字符識(shí)別,以及利用鐵塔專(zhuān)業(yè)詞典的后處理糾錯(cuò)。優(yōu)化后的OCR系統(tǒng)在字符級(jí)別的F1-score達(dá)到98.84%,較標(biāo)準(zhǔn)Tesseract提升了5.73個(gè)百分點(diǎn),CER降低到0.79%。
3)研究中發(fā)現(xiàn),復(fù)雜背景、字符粘連斷開(kāi)、手寫(xiě)體等因素仍然對(duì)圖紙信息提取構(gòu)成挑戰(zhàn)。未來(lái)工作將探索小樣本學(xué)習(xí)、數(shù)據(jù)增強(qiáng)等策略,進(jìn)一步提升模型的泛化性能和魯棒性。
4)本文研究彌補(bǔ)了鐵塔設(shè)計(jì)圖紙自動(dòng)化解析的空白,為鐵塔行業(yè)的數(shù)字化轉(zhuǎn)型提供了關(guān)鍵技術(shù)支撐。所提出的方法可以大幅提高圖紙信息提取的效率和準(zhǔn)確率,減少人工錄入的成本和錯(cuò)誤,具有顯著的應(yīng)用價(jià)值。同時(shí),文中對(duì)U-Net和OCR的改進(jìn)優(yōu)化思路,也可為其他工程圖紙、手寫(xiě)文檔等場(chǎng)景的信息提取任務(wù)提供有益參考。
5)后續(xù)研究建議從以下幾個(gè)方面深入:①探索將知識(shí)圖譜、數(shù)據(jù)挖掘等技術(shù)與圖紙信息提取相結(jié)合,實(shí)現(xiàn)鐵塔設(shè)計(jì)圖紙的語(yǔ)義理解與智能應(yīng)用;②研究新型的小樣本學(xué)習(xí)方法,減少深度學(xué)習(xí)模型對(duì)大規(guī)模標(biāo)注數(shù)據(jù)的依賴(lài);③將圖紙信息提取與鐵塔設(shè)計(jì)智能化、全生命周期管理等業(yè)務(wù)場(chǎng)景相融合,創(chuàng)新行業(yè)應(yīng)用模式。
綜上所述,本文在鐵塔設(shè)計(jì)圖紙智能信息提取領(lǐng)域進(jìn)行了積極探索,取得了有益研究成果。提出的融合改進(jìn)U-Net和優(yōu)化OCR的技術(shù)方案,可以高效準(zhǔn)確地提取圖紙關(guān)鍵信息,為智能化鐵塔工程設(shè)計(jì)奠定基礎(chǔ)。隨著人工智能技術(shù)的不斷發(fā)展,鐵塔行業(yè)數(shù)字化轉(zhuǎn)型升級(jí)將持續(xù)深化。未來(lái),圖紙智能解析、設(shè)計(jì)自動(dòng)優(yōu)化、運(yùn)維感知預(yù)測(cè)等智慧應(yīng)用場(chǎng)景值得期待,必將推動(dòng)行業(yè)邁向更加高效、精準(zhǔn)、綠色、安全的智能時(shí)代。
參考文獻(xiàn):
[1] 張文亮,劉壯志,王明俊,等.智能電網(wǎng)的研究進(jìn)展及發(fā)展趨勢(shì)[J].電網(wǎng)技術(shù),2009,33(13):1-11.
[2] 田一丁.基于主成分回歸的架空輸電線(xiàn)路工程項(xiàng)目成本控制研究[D].南昌:南昌大學(xué),2024.
[3] 陳鵬,王海波,李明,等.輸電線(xiàn)路鐵塔結(jié)構(gòu)計(jì)算與校核系統(tǒng)的研究與應(yīng)用[J].電力勘測(cè)設(shè)計(jì),2016(3):111-115.
[5] 宋璇,于麗,蔡維鋒.輸電線(xiàn)路鐵塔安裝質(zhì)量控制分析[J].模具制造,2024,24(3):200-202.
[6] 謝從珍,馬康,盧偉民,等.基于GWO改進(jìn)神經(jīng)網(wǎng)絡(luò)的風(fēng)致輸電桿塔響應(yīng)計(jì)算方法[J].科學(xué)技術(shù)與工程,2023,23(31):13407-13414.
[7] 畢含嘉,楊楚睿,王小雨,等.基于改進(jìn)YOLOv7的輸電線(xiàn)路多類(lèi)缺陷目標(biāo)檢測(cè)[J/OL].電子科技:1-11[2024-05-06].https://doi.org/10.16180/j.cnki.issn1007-7820.2025.04.003.
[8] 葉力鳴,陳蔚文.一種結(jié)合語(yǔ)義分割和目標(biāo)檢測(cè)的級(jí)聯(lián)式絕緣子缺陷檢測(cè)方法[J].計(jì)算機(jī)與現(xiàn)代化,2023(6):82-88.
[9] 余添添,吳松,唐芝青,等.利用鐵塔視頻圖像和改進(jìn)YOLOv5的違規(guī)施工監(jiān)測(cè)[J].地理空間信息,2024,22(4):45-48.
[10] 蔡強(qiáng).基于深度學(xué)習(xí)的電力標(biāo)識(shí)牌缺陷檢測(cè)系統(tǒng)研究與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2022.
[11] KONG S, YANG L, HUANG H,et al.MAF-Net: A multi-attention fusion network for power transmission line extraction from aerial images[J].Expert Systems With Applications, 2024:250.
[12] 竹夢(mèng)圓,張昀瑋,楊澤昆.通信行業(yè)工程圖紙智能識(shí)別與重構(gòu)[J].郵電設(shè)計(jì)技術(shù),2023(7):31-36.
[13] 劉立,陳玉輝,劉曉婷.一種工程圖紙類(lèi)文檔識(shí)別分類(lèi)的技術(shù)研究[J].電子設(shè)計(jì)工程,2020,28(12):89-94.
[14] 章安,馬明棟.基于Tesseract文字識(shí)別的預(yù)處理研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2021,31(1):73-76,174.
[15] 高立鵬,徐振佳,劉寶華,等.基于機(jī)器視覺(jué)的輸電鐵塔聯(lián)結(jié)板加工特征測(cè)量方法[J].河北電力技術(shù),2023,42(3):65-69.
[16] 周仿榮,馬儀,沈志,等.雙通道卷積神經(jīng)網(wǎng)絡(luò)模型電力設(shè)備圖像識(shí)別[J].云南電力技術(shù),2019,47(2):69-73,77.
[17] 萬(wàn)書(shū)亭,孫瑞濱,賈東亮,等.基于VMD-MD的輸電鐵塔螺栓松動(dòng)檢測(cè)方法[J].中國(guó)工程機(jī)械學(xué)報(bào),2023,21(1):79-84.
[18] HUANG, M., LAN, C., HUANG, W., et al. Natural scene text detection based on multiscale connectionist text proposal network[J]. The Journal of Engineering,2020.
[19] MAHADEVKAR S, PATIL S, KOTECHA K. Enhancement of handwritten text recognition using AI-based hybrid approach[J]. MethodsX,2024(12):102654.
[20] 沈濤,徐玉龍,陳亞峰,等.通信工程設(shè)計(jì)中的圖紙自動(dòng)化生成方案研究[J].郵電設(shè)計(jì)技術(shù),2022(11):86-92.
基金項(xiàng)目:國(guó)家自然科學(xué)基金(62072410);浙江省基礎(chǔ)公益研究計(jì)劃項(xiàng)目(LGG22F020014)
第一作者簡(jiǎn)介:鄭林(1984-),男,工程師。研究方向?yàn)殡娏ㄔO(shè)工程設(shè)計(jì)。
*通信作者:毛科技(1979-),男,博士,副教授。研究方向?yàn)橹悄苡?jì)算與圖像識(shí)別。