摘 要:針對無人機巡檢拍攝的高像素電力桿塔照片中桿塔號牌文字識別成功率低的問題,提出了一種改進連接文本區(qū)域網絡(Connectionist Text Proposal Network,CTPN) 算法。利用二維重疊滑動切割方法對輸入圖像進行切割,將主干網絡Vgg16 改為MobilenetV2 對切割后圖片進行卷積處理,同時在其中加入深度適配網絡(Deep Adaptation Network,DAN)的注意力機制得到特征圖;將卷積得到的特征圖轉化成序列輸入至雙向長短期記憶神經(Bi-directional Long Short-TermMemory,Bi-LSTM) 網絡學習序列特征,并通過全連接層得到建議框;加入重映射方法將建議框映射回原圖,篩選整合映射到原圖的建議框后,得到號牌文本框。將得到的文本框內的圖像截取輸入到卷積循環(huán)神經網絡(Convolutional RecurrentNeural Network,CRNN) 進行文字識別。實驗結果表明,當切割框為456 pixel×256 pixel、橫向重疊率為9% 、縱向重疊率為8% 時,識別精度可以達到87% 。
關鍵詞:深度學習;高像素;場景文字識別;小目標
中圖分類號:TP391. 4 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):
文章編號:1003-3106(2024)06-1560-09
0 引言
隨著無人機在輸電線路運行檢修中的普及應用,巡檢過程中無人機會拍攝大量照片,再由人工識別出照片中電力桿塔缺陷并明確電力桿塔的位置,到現場對缺陷部分進行檢修。無人機巡檢照片中桿塔號牌具有電力桿塔的線路名稱以及屬于該線路第幾座塔的文字信息,如果能通過場景文字識別方法對桿塔號牌中的文字進行自動識別獲取信息,則可以大幅減輕人工負擔。無人機因安全原因無法靠近電力桿塔進行拍攝,因此無人機拍攝的高像素照片中號牌區(qū)域只占原圖的1% 左右,如何高效地提取電力桿塔照片中號牌的文字信息就成為了亟待解決的問題。
傳統(tǒng)的場景文字識別方法可以分為3 種:第一種方法基于紋理對文字進行識別[1-3],將文字當作特殊紋理,利用其紋理特征進行處理,通過對圖像中的區(qū)域進行窮舉以確定紋理特征。基于紋理的文字識別方法存在特征構造方法較簡單、檢測精度較低、且計算量大的缺點。第二種方法基于成分對文本進行識別。以筆劃寬度變換(Stroke Width Transform,SWT)[4]為例,以聯通組件為基礎進行文字識別,能夠更快速地找到文字所在的區(qū)域。然而,由于場景中存在圖片的仿射變換以及文字斷連等因素,使該方法的魯棒性較低。第三種方法融合了前2 種方法的文字識別方法[5-6],首先通過聯通組件找到文字所在區(qū)域,再利用紋理方法輔助識別文字,但該方法在復雜背景情況下文字識別成功率仍然較低[7]。
隨著深度學習的迅速發(fā)展,場景文字識別模型將識別文字的過程分為2 步:第一步文本檢測;第二步文本識別。目標檢測方法是文本檢測參考的方向之一,例如,基于Faster R-CNN[8]模型的連接文本區(qū)域網絡(Connectionist Text Proposal Network,CTPN)[9]模型。CTPN 模型通過卷積神經網絡(ConvolutionalNeural Network,CNN)與循環(huán)神經網絡(RecurrentNeural Network,RNN)的結合對圖像特征進行提取,其中CNN 模型選用Vgg16 作為圖像空間特征的提取的網絡,RNN 則使用雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)[10]對圖像序列特征進行提取,將提取的圖像特征輸入至CTC[11]計算出預測序列與目標序列之間的條件概率。Deeptext[12]、R2CNN[13]等模型都是基于FasterR-CNN 的場景文字識別。在該方法的啟發(fā)下選用CTPN 的架構對號牌文字進行識別,能夠將文本識別和文本檢測分成2 步,完成對號牌文字的識別。
在復雜圖像背景中檢測小目標是圖像分析處理領域的一個重要研究方向,小目標廣泛存在于遠距離拍攝的航空航天影像或視頻監(jiān)控中,利用計算機對捕獲的高質量圖像數據進行有效分析和處理,識別出不同類別的目標并標注其所在的位置。目前專門針對小目標檢測的算法研究較少,現有的小目標檢測算法一般是在通用目標檢測方法的基礎之上通過加深網絡的層數,設計能夠提取到更豐富特征的主干網絡[14-15]、復雜化特征融合過程[16-17]來增強模型對多尺度目標的魯棒性。電力桿塔照片中號牌文字同樣屬于小目標,識別方法可參考現有的小目標檢測方法。
高像素圖片若不經過尺寸調整將原圖輸入至網絡會導致模型運行速度過慢,因而現有的深度學習模型先將輸入圖片尺寸調整到一定尺寸,例如224 pixel×224 pixel。調整后的圖片像素丟失過多,會導致小目標特征不明顯,從而使網絡無法識別高像素圖片中的小目標。針對這一問題,提出了一種二維重疊的滑動切割方法并改進CTPN,用于對高像素圖片中小目標號牌文字識別,二維重疊的滑動切割方法能夠提高找到號牌圖像中小目標文字的成功率;針對切割后圖片存在特征不明顯的情況則通過多尺度特征融合,增加號牌特征深度,提高模型對號牌文本檢測精度;對應切割方法提出建議框的重映射方法用于文本框生成。
1 基于CTPN 的電力桿塔號牌文字識別方法
圖1 為電力桿塔號牌文字識別方法的流程,其中主要包括三部分:圖像切割、改進CTPN、CRNN 網絡。首先,將輸入圖像進行二維重疊切割;其次,將切割后的圖像依次輸入至改進CTPN 網絡得到文本框;最后,截取文本框中的圖像,并將該圖像輸入至CRNN 網絡對其文字內容進行識別。
1. 1 二維重疊的滑動切割模塊
圖片調整示例如圖2 所示,將無人機拍攝圖片調整至544 pixel×544 pixel 大小后截取號牌得到的結果,大圖為原圖樣例,小圖為對應的大圖中截取出的號牌圖片。
為了解決上述問題,提出二維重疊的滑動切割方法。原始圖像的分辨率為5 472 pixel×3 078 pixel,遵循一定命名規(guī)范將一張圖片裁成一組圖片用以輸入至特征提取網絡。截取出來的每張圖片的命名規(guī)范為Image[height width row column],表示記錄下切割窗口左上角點的橫縱坐標。其中,height、width 表示縱坐標,row、column 表示橫坐標。在圖像切割過程中需要保證文字的完整性,因此切割過程中加入橫向重疊率和縱向重疊率參數,以解決文字被截斷的問題。在同一行的圖像切割過程中,下一個窗口的切割范圍與上一個窗口存在橫向重疊。在新的一行切割過程中,該行的切割窗口與上一行的切割窗口有縱向重疊。
將圖片輸入后,程序自動讀取圖像的總高度為H,總寬度為W。對圖像進行切割時,每行的切割高度為h,每列的切割寬度為w。每一行的切割數量為nr,每列的切割數量為nc。橫向重疊率為rr,縱向重疊率為rc,floor()為向下取整。
式中:xs、ys 為左上角的橫縱坐標,i、j 為第i 行和第j列的切割區(qū)域,xe、ye 為右下角的橫縱坐標。
最終切割得到區(qū)域坐標可表示為:
(xs ,ys ,xe ,ye )。(7)
切割示例如圖4 所示,展示了切割過程中小圖與大圖的對應關系。
1. 2 多尺度特征融合模塊
原始的CTPN 以Vgg16 為主干網絡對輸入圖像進行特征提取,該網絡對圖像特征的利用率不高,并且號牌文字特征信息較少,導致特征隨卷積加深逐漸稀疏。改進CTPN 將主干網絡換為MobilenetV2,該網絡使用倒殘差結構加強了網絡各層之間的聯系,且此網絡是輕量級網絡,能夠有效減少運行時間。
針對號牌圖像不清晰的圖片識別成功率不高,但號牌圖片前景與背景區(qū)別大,在改進的CTPN 的卷積層加入深度適配網絡(Deep AdaptationNetwork,DAN)中的結構,用以聚焦關鍵區(qū)域。DAN中引入了2 個注意力機制:一個是空間注意力機制,用于選擇圖像中的關鍵區(qū)域;另一個是通道注意力機制,用于選擇關鍵通道。圖5 展示了圖像特征提取流程[18]。
由于文字的連續(xù)性,既需要學習圖像的空間特征,也需要學習序列特征,因此在通過卷積得到特征圖后引入Bi-LSTM 神經網絡。CNN 用于學習感受野內的空間信息,Bi-LSTM 則用于學習序列特征。通過卷積獲得一個N×C×H×W 的特征圖,對該特征圖通過3 ×3 滑動窗口提取特征向量,得到一個N×9C×H×W 的特征向量。將特征向量輸入到Bi-LSTM得到N ×512 ×H ×W 的序列。序列特征提取如圖6所示。
融合了“空間+序列”特征后,將特征輸入到全連接層,并將輸出接入類似區(qū)域建議網絡的網絡結構。由于在最后會輸出文本框,因此需要生成建議框對文字的位置進行預測。與二階段目標檢測類似,改進CTPN 通過歐幾里得回歸檢測推薦框(anchor),以得到文字的邊界框。網絡在獲取了anchor的基礎上,使用激活函數(softmax)來判斷anchor 中是否包含文本。另一個分支則通過邊界框回歸修正包含文本的anchor 的中心y 坐標和高度。
式中:cay、ha 分別為anchor 的y 坐標中心和高度,cy和h 分別為預測出的y 坐標中心和高度。k 個邊框調整參數,用來精修文本行的2 個端點,表示每個建議框的水平平移量。
o = xside - cax/wa , (9)
式中:xside 為預測出的距離anchor 水平坐標最近的坐標,cax為anchor 的x 坐標中心,wa 為anchor 的寬度。
1. 3 二維重疊切割重映射模塊
通過特征提取和anchor 邊界框的預測,網絡可以得到若干個預測框,拼接預測框能夠得到完整的文本預測框。由于最初圖片經二維重疊的滑動切割后輸入網絡,因此需要對得到的預測框做重映射,將預測框映射回到原圖的位置。預測框坐標加上圖片輸入時保存的左上角橫縱坐標即為映射至原圖的方法,其計算如下:
[cox,coy] = [cax,cay]+ [rcx,hcy], (10)
式中:cox表示anchor 在原圖的y 坐標,coy表示anchor在原圖的x 坐標,cay表示原圖切片后anchor 的y 坐標,cax表示原圖切片后anchor 的x 坐標,rcx表示原圖切片后圖片左上角y 坐標,hcy表示原圖切片后左上角x 坐標。
由于圖片切割時為有重疊的切割,且原圖中存在一定預測框重疊,因此可通過非極大抑制(NonMaximum Suppression,NMS)方法對預測框通過激活函數得到的數值進行篩選。選取第一個框為候選框,沿正方向尋找候選框與剩余推薦框之間水平距離小于50 的推薦框并保留與候選框橫向重疊率大于0. 5 的推薦框,同時選取水平距離小于50 的推薦框中最右邊的推薦框作為候選框,相同的方法沿反方向再進行一次查找,將結果拼接得到連續(xù)文本的完整文本框作為最后結果輸出。重映射示例如圖7所示。
訓練時需要通過損失函數對訓練的結果進行評估,該損失函數由兩部分組成,2 個分支對應兩部分的損失函數。
第一部分是邏輯回歸損失用于監(jiān)督學習推薦框中是否包含文本,此處使用交叉熵函數;第二部分是邊界框的回歸,此處使用平滑的平均絕對值誤差函數(smooth L1)。
1. 4 基于CRNN 的文本識別模塊
早期的深度學習光學字符識別(OpticalCharacter Recognition,OCR)通過單獨切割字母并進行多類標的分類任務以識別文本,而CRNN 則使用端到端深度學習進行文本識別,將文本轉化為序列并輸入到深度學習網絡中,通過CNN 和RNN 對輸入圖像進行特征學習,解決了不同圖像尺度和文本長度出現的識別問題[19]。
改進CTPN 可以得到圖像中的文本框,再提取出該位置中的文本圖像輸入到CRNN。CRNN 的第一層是CNN,用卷積網絡從圖像中提取圖像特征。該卷積層共有4 個最大池化層,最后2 個池化層的窗口尺寸由2×2 改為1×2,以適應文本圖像大多為寬度較長的矩形的長度。通過卷積網絡得出的圖像特征序列不能直接輸入至RNN 中,需要對圖像特征序列進行提取出單列的向量,每個特征向量在特征圖上按列從左到右生成。CRNN 中的RNN 同樣使用Bi-LSTM,將提取出來的特征向量輸入至RNN中。RNN 最后輸出每個字符的softmax 概率分布。然后將該向量輸入至轉錄層連接主義時間分類(Connectional Temporal Classification,CTC ),使用CTC 解碼以歸納字符的連接特性,解碼則是基于最大似然的損失函數。
2 實驗
2. 1 數據集
訓練文本檢測部分的數據集已具備多條線路的電力桿塔號牌的圖片,由于該數據集為自行通過無人機拍攝的數據集,因此訓練網絡前需要對圖片中線路名稱、塔號和警示語的中文進行標注。
數據集標注采用ICDAR2017 的標注方式,存儲至txt 文件中,每行向量化文本表示圖片中文字的標注框4 個點的坐標,左上角為原點記錄橫縱坐標并以順時針將各個點排列記錄,同時包含圖片的文字內容和其所用的語言,其結構如圖8 所示,為多座塔的號牌信息標注。
由于電力桿塔巡檢環(huán)境惡劣,且存在人員操作不規(guī)范等原因會對圖像的文字識別產生影響,例如圖片過曝、號牌掉落和文字不清楚等情況,因此需要對圖像進行圖像增強工作。同時對本身沒有拍攝到號牌的圖片進行剔除,經過剔除后對圖像進行圖像增強工作,能夠一定程度豐富數據集。
數據增強示例如圖9 可示,顏色擾動方法如圖9(a)所示,即對圖片的亮度、對比度、飽和度調整擴增數據,這一方法是模擬環(huán)境光線變化對號牌識別產生的影響。翻轉方法如圖9(b)所示,即對已有圖片水平翻轉和垂直翻轉,由于號牌擺掛方式不是固定不變的,因此加入翻轉方法。添加噪聲如圖9(c)所示,其中添加噪聲會選擇添加黑色噪點或者白色噪點。
數據集中共有1 388 張圖片,其大小均為5 472 pixel×3 078 pixel,按如下劃分:訓練集1 110 張,測試集139 張,驗證集139 張,對訓練集以及測試集進行數據增強之后的數據集總數可以達到3 886 張。
訓練文本識別部分時則在使用號牌文字的標注信息的同時加入公開數據集ICDAR2017,共12 263 張圖像,其中8 034 張作為訓練集,4 229 張作為測試集。使用四邊形框標注文本行,ICDAR2017 數據集絕大多數是相機拍的自然場景,一些是屏幕截圖,包含了大多數場景,如室外街道、室內場景和手機截圖等。
2. 2 評價指標
改進CTPN 中計算損失的方法為:
第一部分使用交叉熵損失函數用以判斷anchor 中是否含有文本,第二部分為smooth L1 函數用以判斷邊界框的回歸。在判斷精度時可以借鑒目標檢測中的查準率/ 精度(Precision)計算方法,Precision =TP / (TP+FP),其中TP 表示判斷為正的樣本數量,FP 表示為負樣本誤判為正樣本的數量。同時目標檢測中還有查全率(Recall)作為評價指標,Recall =TP / (TP+FN),其中FN 表示正樣本誤判成負樣本的數量。
2. 3 實驗設置
實驗環(huán)境配置如下:Intel (R) Core (TM) i711800H 處理器,16 GB 內存,nVIDIA3060 顯卡,操作系統(tǒng)為Windows 10,開發(fā)語言為Python3. 8. 8,開發(fā)工具PyCharm,網絡的初始參數采用隨機初始化,表1 為訓練時超參數的選擇。
2. 4 二維重疊切割參數實驗
圖像切割方法中窗口大小作為重要參數,對圖像的文本檢測會產生影響,切割窗口過大會在輸入網絡后導致像素丟失過多,特征不明顯,切割窗口過小會導致特征被切割造成學習特征錯誤,故需通過實驗確定切割窗口大小。最終經過實驗得到窗口大小為456 pixel×256 pixel,橫向重疊率為9% ,縱向重疊率為8% 時能夠達到所需效果。
在設定窗口大小的實驗中,每組的橫向重疊率以及縱向重疊率都為0% ,并且主干網絡選用Vgg16。在使用桿塔號牌數據集時,窗口大小的參數選定為原圖的長寬為基礎按比例選擇。分析精度折線如圖10 所示,具有預訓練參數的條件下,不同窗口大小的切割圖片在訓練過程中精度總體呈上升趨勢,圖中窗口大?。?368 pixel×769 pixel 為精度最低的折線,窗口大?。矗担?pixel×256 pixel 為精度最高的折線。
窗口大小評價參數如表2 所示??梢钥闯?,窗口大?。矗担?pixel×256 pixel 時識別精度最高,并且精度接近正常圖片輸入時CTPN 所達到的精度。
圖像切割過程中,在窗口大小固定為456 pixel×256 pixel 的情況下為確保特征的完整性,用二維重疊的滑動切割方法可以保證切割后文字特征完整性,有利于后續(xù)特征提取。實驗中,窗口大小寬度為上一個實驗結果的456 pixel,橫向重疊率為號牌中文字寬度與窗口大小寬度的比例,則最小比例為6% ,后續(xù)以1% 為步長做實驗。
橫向重疊率實驗如圖11 所示。在具有預訓練參數,固定窗口大小為456 pixel×256 pixel,且縱向重疊率為0% 的條件下,橫向重疊率參數改變,精度伴隨訓練輪數的增加平穩(wěn)上升,橫向重疊率越高精度越高,但其精度較窗口大小對精度的影響較小。
橫向重疊率評價參數如表3 所示。當橫向重疊率為9% 時可以得到最佳精度及召回率,橫向重疊率高能提高識別的精度,但橫向重疊率小可以提高訓練速度。
縱向重疊率最小為號牌中文字的高度與窗口大小的高度的比例,實驗中,窗口的高為256 pixel,縱向重疊率最小?。担?,后續(xù)以1% 為步長做實驗??v向重疊率實驗如圖12 所示,在具有預訓練參數,固定窗口大小為456 pixel×256 pixel 且橫向重疊率為9% 的條件下,縱向重疊率參數變化,精度伴隨訓練輪數的增加平穩(wěn)上升??v向重疊率越高精度越高,但其精度較窗口大小對精度的影響同樣較小。
縱向重疊率評價參數如表4 所示,當縱向重疊率為8% 時,識別精度以及召回率效果最佳,縱向重疊率高同樣能提高識別的精度。
2. 5 對比實驗
主干網絡實驗如圖13 所示,使用不同的主干網絡訓練過程中,隨著訓練輪數的增加,精度基本呈穩(wěn)步上升的趨勢,主干網絡選用MobilenetV2+DAN 可以達到最佳的效果,同時該網絡具有輕量化的特點。
主干網絡如表5 所示,在添加切割窗口的情況下,分別調用不同的主干網絡搭配。經實驗發(fā)現,加入多尺度融合的網絡可以提高識別精度。
將不同場景文本識別模型不加切割方法進行訓練,與切割加改進CTPN 模型進行對比。切割參數為上述實驗的結果,窗口大?。矗担?pixel×256 pixel,橫向重疊率為9% ,縱向重疊率為8% 。實驗時輸入圖像大小皆為5 472 pixel×3 078 pixel,對比實驗如圖14 所示。訓練過程中精度基本呈穩(wěn)步上升趨勢,但從精度折線圖上能夠明顯看出,在加入二維重疊的滑動切割方法后精度顯著提高。同時對比其他現有深度學習場景文字識別模型,二維重疊的滑動切割方法能夠提高小目標文本檢測精度。
對比實驗如表6 所示,可以看出加入二維重疊的滑動切割方法后,損失、精度以及召回率有效提高。
聚焦效果如圖15 所示,通過二維重疊的滑動切割方法同時改進CTPN 主干網絡,加上二維重疊的重映射方法,能夠對號牌文字進行有效識別。
3 結束語
傳統(tǒng)的場景文字識別方法和基于深度學習的場景文字識別方法都難以識別無人機巡檢拍攝的電力桿塔照片中高像素、小目標號牌文字。為解決此問題,提出二維重疊滑動切割的改進CTPN 算法。通過實驗確定切割的窗口大小以及切割時的橫向以及縱向重疊率,確保切割時較大保留文字的完整性同時提高文本檢的精度。加入建議框的重映射方法,以達到在原圖上完整框出文本框的目的。將主干網絡改為MobilenetV2+DAN 的多尺度融合結構,最終能夠達到87% 的精度。雖然在文本檢測方面取得了一定成果,但在文本識別方面還有提升空間,下一個階段將著重研究優(yōu)化CRNN,提高文本識別精度。
參考文獻
[1] ZHONG Y,KARU K,JAIN A K. Locating Text inComplex Color Images [J]. Pattern Recognition,1995,28(10):1523-1535.
[2] KIM K I,JUNG K,KIM J H. Texturebased Approach forText Detection in Images Using Support Vector Machinesand Continuously Adaptive Mean Shift Algorithm [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(12):1631-1639.
[3] LYU M R,SONG J Q,CAI M. A Comprehensive Methodfor Multilingual Video Text Detection,Localization,andExtraction [J ]. IEEE Transactions on Circuits andSystems for Video Technology,2005,15(2):243-255.
[4] EPSHTEIN B,OFEK E,WEXLER Y. Detecting Text inNatural Scenes with Stroke Width Transform[C]∥2010IEEE Computer Society Conference on Computer Visionand Pattern Recognition. San Francisco:IEEE,2010:2963-2970.
[5] LIU Y,GOTO S,IKENAGA T I,et al. A ContourbasedRobust Algorithm for Text Detection in Color Images [J].IEICE Transactions on Information and Systems,2006,89(3):1221-1230.
[6] PAN Y F,HOU X,LIU C L. A Hybrid Approach to Detectand Localize Texts in Natural Scene Images [J]. IEEETransactions on Image Processing,2010,20(3):800-13.
[7] 于君娜,單子力,李方方,等. 多源圖像融合技術在無人機中的應用[J]. 無線電工程,2019,49(7):581-586.
[8] GIRSHICK R G. Fast RCNN [C]∥2015 IEEE International Conference on Computer Vision. Santiago:IEEE,2015:1440-1448.
[9] TIAN Z,HUANG W L,HE T,et al. Detecting Text in NaturalImage with Connectionist Text Proposal Network [C]∥14th European Conference. Amsterdam:ACM,2016:56-72.
[10] OLAH C. Understanding LSTM Networks [EB / OL ].[2023 - 07 - 05]. http:∥ colah. github. io / posts / 2015 -08-UnderstandingLSTMs / .
[11] PATERLINIBRECHOT P,BENALI N L. CirculatingTumor Cells (CTC)Detection:Clinical Impact and FutureDirections[J]. Cancer Letters,2007,253(2):180-204.
[12] BUTA M,NEUMANN L,MATAS J. Deep Textspotter:An EndtoEnd Trainable Scene Text Localization andRecognition Framework [C]∥ 2017 IEEE InternationalConference on Computer Vision. Venice:IEEE,2017:2223-2231.
[13] JIANG Y Y,ZHU X Y,WANG X B,et al. R2CNN:Rotational Region CNN for Orientation Robust Scene Text Detection[EB/ OL]. (2017-06-29)[2023-07-01]. https:∥arxiv. org / abs / 1706. 09579.
[14] HE K M,ZHANG X Y,REN S Q,et al. Deep ResidualLearning for Image Recognition [C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition. LasVegas:IEEE,2016:770-778.
[15] HUANG G,LIU Z,VAN DER MAATEN L,et al. DenselyConnected Convolutional Networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:2261-2269.
[16] LIN T Y,DOLLR P,GIRSHICK R,et al. FeaturePyramid Networks for Object Detection [C]∥2017 IEEEConference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:936-944.
[17] FU C Y,LIU W,RANGA A,et al. DSSD:DeconvolutionalSingle Shot Detector [EB / OL]. (2017-01-13)[2023 -07-02]. https:∥arxiv. org / abs / 1701. 06659.
[18] FU J,LIU J,TIAN H J,et al. Dual Attention Network forScene Segmentation [C]∥2019 IEEE / CVF Conferenceon Computer Vision and Pattern Recognition. LongBeach:IEEE,2019:3141-3149.
[19] 韋泰丞,譚穎韜. 基于視覺語義關聯的卷煙零售終端文字識別[J]. 無線電工程,2022,52(10):1848-1856.
作者簡介
李有春 男,(1968—),碩士,高級工程師。主要研究方向:電力調度、電網運行檢修、現場安全管控等。
湯春俊 男,(1979—),碩士,高級工程師。主要研究方向:輸電線路建設、施工、運行、帶電檢修、精益化運檢管理等。
梁加凱 男,(1983—),高級工程師。主要研究方向:帶電作業(yè)、安全防護、線路檢修精益化管理等。
林龍旭 男,(1998—),碩士研究生。主要研究方向:圖像處理和文字識別。
徐 敏 女,(1983—),碩士,高級工程師。主要研究方向:電力系統(tǒng)信息化。
(*通信作者)謝 敏 女,(1975—),碩士,講師。主要研究方向:溫度計量、無人機控制與應用。
基金項目:金華八達集團有限公司科技項目(BD2022JH-KXXM007)