国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于YOLOv8-OCR的井下人員檢測算法

2024-09-16 00:00:00倪云峰霍潔侯穎王靜郭蘋
無線電工程 2024年8期
關(guān)鍵詞:注意力機制目標(biāo)檢測

關(guān)鍵詞:目標(biāo)檢測;YOLOv8:光學(xué)字符識別;反光號碼牌;注意力機制

0引言

煤炭工業(yè)對我國國民經(jīng)濟快速發(fā)展具有基礎(chǔ)性作用。2022年中國擁有的煤炭儲量約占世界總量的15.1%,居世界第三位,僅次于美國和俄羅斯。煤炭產(chǎn)量比上年增長7.9%,超過全球煤炭總產(chǎn)量的50.8%,消費量比上年增長0.6%,達到了161.10 EJ(占比為27%),位居世界第一。

在我國,煤礦環(huán)境錯綜復(fù)雜,一旦發(fā)生事故就會造成重大的經(jīng)濟損失以及人員的傷亡。因此,對井下工作人員的嚴(yán)格保護變得至關(guān)重要。通常,井下許多重點安全區(qū)域都是以人員監(jiān)控管理為主。由于我國很多煤礦工人在井下穿著統(tǒng)一的安全帽和工作服,一旦發(fā)生事故,難以確定受害者的身份以及位置,對后續(xù)的救援增加了困難,因此,改善井下人員的著裝對防范安全事故有著至關(guān)重要的作用。本文創(chuàng)新性地將行人屬性應(yīng)用到井下,將反光號碼牌貼在安全帽和工作服上作為屬性進行識別。安全帽和工作服上的反光號碼牌在井下昏暗環(huán)境中容易被攝像頭捕捉,從而提高井下人員的人身安全。近年來,隨著視頻監(jiān)控系統(tǒng)的普及,基于圖像處理的著裝識別技術(shù)得到快速發(fā)展。但是,復(fù)雜的背景干擾和非剛性的人體結(jié)構(gòu)特點使得直接從原圖提取著裝特征的方法效果不佳。因此,大多數(shù)現(xiàn)有的識別算法依賴基于深度學(xué)習(xí)的目標(biāo)檢測方法。

圖像的目標(biāo)檢測是對目標(biāo)進行識別然后框出目標(biāo)所在位置。目前的煤礦井下人員檢測方法主要以深度學(xué)習(xí)的目標(biāo)檢測為框架,包括R-CNN和Y0L0系列兩大類。R-CNN主要針對候選區(qū)域進行分類回歸,檢測精度高;Y0L0系列則通過處理整個圖像而不需要復(fù)雜的設(shè)計來優(yōu)先考慮更快的檢測。

因此,為提高人員在井下昏暗環(huán)境的檢測性能,本文采用改進的Y0L0v8算法對井下人員進行檢測,首先,本文創(chuàng)新性地將行人屬性應(yīng)用到工地場景,將反光號碼牌貼在安全帽和工作服上作為屬性進行識別,之后收集井下環(huán)境的圖片,通過圖片的預(yù)處理構(gòu)建對應(yīng)的井下數(shù)據(jù)集,在Y0L0v8基礎(chǔ)上替換了FReLU激活函數(shù),解決了激活函數(shù)中的空間不敏感問題,使普通的卷積也具備捕獲復(fù)雜的視覺布局能力,使模型具備像素級建模的能力。除此之外,還引入注意力機制,使得精確度提高。然后對識別的號碼牌區(qū)域用光學(xué)字符識別(Optical Character Recogni-tion,OCR)技術(shù)對區(qū)域的數(shù)字進行識別。根據(jù)訓(xùn)練及驗證數(shù)據(jù)集的劃分,評估不同算法下的檢測性能,與傳統(tǒng)算法YOLOv8進行性能對比,提高了精度與速度,以及模型魯棒性,應(yīng)用性能更優(yōu)。

1Y0L0v8算法原理

Y0L0v8算法是由Ultralytics于2023年發(fā)布的Y0L0系列最新模型,Y0L0v8的一個關(guān)鍵特性是可擴展性。它被設(shè)計為一個框架,支持所有以前版本的Y0L0,可以輕松地在不同版本之間切換并比較它們的性能。除了可擴展性之外,Y0L0v8還包括許多其他創(chuàng)新,使其廣泛應(yīng)用在對象檢測和圖像分割任務(wù)上,包括新的骨干網(wǎng)絡(luò)、新的無錨網(wǎng)絡(luò)檢測頭和新的損失函數(shù)功能。Y0L0v8非常高效,可以實現(xiàn)從CPU到GPU的運行。Y0L0v8的骨干部分與Y0L0v5基本相同,基于CSP思想,將C3模塊替換為C2f模塊。C2f模塊借鑒了YOLOv7中的ELAN思路,將C3和ELAN結(jié)合在一起組成了C2f模塊,使Y0L0v8在保證自身質(zhì)量輕的同時可以獲得更豐富的梯度流信息。在骨干末端,仍然使用最流行的快速空間金字塔池化(Spatial Pyramid Poo-ling-Fast,SPPF)模塊,依次傳遞3個大小為5×5的Maxpools,然后將每一層進行串聯(lián),這樣既保證了不同尺度下物體的精度,同時又保證了物體的輕量化。在頸部,YOLOv8使用的特征融合方法仍然是PAN-FPN,加強了不同尺度下特征層信息的融合和利用。Y0L0v8的作者使用了2個上采樣和多個C2f模塊以及最終解耦的頭部結(jié)構(gòu)來組成頸部模塊。在Y0L0x中,頭部解耦的想法被Y0L0v8用于頸部的最后一部分。它將置信度和回歸盒結(jié)合起來,達到了一個新的精度水平。對于正樣本和負樣本分配,Y0L0v8算法使用任務(wù)對齊單階段目標(biāo)檢測(Task-aligned One-stage Object Detection,TOOD)的分酉己器,根據(jù)分類和回歸的加權(quán)得分選擇正樣本。

Y0L0v8支持所有版本的Y0L0,可以在不同版本之間隨意切換,還可以在各種硬件平臺(CPU-GPU)上運行,具有很強的靈活性。Y0L0v8網(wǎng)絡(luò)架構(gòu)如圖1所示。

2改進模型

2.1引入卷積注意力模塊注意力機制

注意力機制最初應(yīng)用于計算機視覺以模擬人類視覺注意力處理。起源于2014年Google Deep-Mind團隊,此后在各種深度學(xué)習(xí)領(lǐng)域得到了廣泛應(yīng)用,例如自然語言處理、對象檢測和語義分割。通過將注意力機制納入目標(biāo)檢測中,模型可以專注于圖像中的關(guān)鍵信息,過濾掉不相關(guān)的數(shù)據(jù),從而優(yōu)化計算資源并提高小目標(biāo)的檢測性能。本文將卷積塊注意力模塊(Convolutional Block AttentionModule.CBAM)引入圖2所示的黃色位置。

CBAM結(jié)構(gòu)由通道注意力模塊和空間注意力模塊組成,如圖3所示。通道注意力側(cè)重于識別具有特定目標(biāo)特征的相關(guān)通道,而空間注意力則強調(diào)空間域內(nèi)的關(guān)鍵信息。通過將網(wǎng)絡(luò)的注意力引導(dǎo)到感興趣的區(qū)域,這些機制增強了特征提取,特別是對于表面字符等小目標(biāo),從而顯著提高了檢測精度和整體模型性能。通道和空間注意力模塊與卷積層的集成通過自適應(yīng)調(diào)整進一步優(yōu)化特征圖,過程如下:

通道注意力模塊通過輸入,分別通過多層感知機(Multi-Layer Perception,MLP)對MLP輸出的特征進行逐元素求和運算,生成最終的通道關(guān)注特征圖。對其與輸入特征圖進行乘法運算,生成空間注意力模塊所需的輸入特征。該過程表示如下:

空間注意力模塊使用上述注意輸出的特征圖作為該模塊的輸入特征圖。將特征與模塊輸入相乘,生成最終生成的特征圖。該過程表示如下:

2.2替換激活函數(shù)

通過保留基本特征并消除冗余,激活函數(shù)有效地映射激活的神經(jīng)元特征,從而增強卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的表達能力,在整個網(wǎng)絡(luò)結(jié)構(gòu)中也起到了重要作用。目標(biāo)檢測常用的激活函數(shù)包括Sigmoid、tanh、ReLU、PReLU和Mish,都有助于網(wǎng)絡(luò)的非線性能力。然而,這些函數(shù)有一個共同的局限性:只激活單個特征點,而不考慮上下文信息,導(dǎo)致激活域大小固定為1X1,并且對整體圖像信息的關(guān)注有限。

針對此問題,香港理工大學(xué)于2020年提出一種專門用于圖像識別Funnel激活函數(shù)(FReLU)。本文將激活函數(shù)中的Sigmoid-Weighted Linear Unit(SiLU)替換為FReLU的模塊稱為CBF模塊,如圖4所示。FReLU是一種專用于視覺任務(wù)的激活函數(shù),增加了空間條件來擴展ReLU和PReLU。FReLU提出的二維漏斗樣激活函數(shù),通過在ReLU激活函數(shù)中加入漏斗條件T(x),將二維漏斗樣激活函數(shù)擴展到2D。只引入少量的計算和過擬合風(fēng)險來激活網(wǎng)絡(luò)中空間不敏感的信息,以改善視覺任務(wù)。該過程表示如下:

激活特性分析:FReLU激活函數(shù)中(激活特性如圖5所示),在進行非線性激活時,max()函數(shù)給了網(wǎng)絡(luò)模型是否關(guān)注空間信息的2種選擇,當(dāng)卷積的結(jié)果T(x)更大時,模型將關(guān)注到更多的空間信息而不再是單個特征點。

通過分析可以看出,采用FReLU激活函數(shù)進行模型搭建將使模型有更廣的激活域,同時增強對空間信息捕獲能力。

2.30CR

OCR技術(shù)的發(fā)展得益于計算機視覺、深度學(xué)習(xí)和自然語言處理等領(lǐng)域的進步?,F(xiàn)代0CR系統(tǒng)通常基于深度學(xué)習(xí)模型,如CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),這些模型能夠更好地捕捉字符的特征和上下文信息,提高識別準(zhǔn)確性和魯棒性。字符識別就是對分割的字符一個個進行識別,一般分為模板匹配法與神經(jīng)網(wǎng)絡(luò)2種算法。模板匹配計算目標(biāo)圖像與每個模板圖像之間的距離,并根據(jù)相似度對它們進行排序,最相似的模板代表識別出的字符。然而,該算法需要結(jié)構(gòu)良好的字符,并且容易受到角度變化和拉伸引起的扭曲的影響。相比之下,神經(jīng)網(wǎng)絡(luò)利用字符間特征來實現(xiàn)魯棒識別,能夠從不同類型的噪聲干擾中提取不變特征,即使在處理變換后的目標(biāo)字符圖像時也表現(xiàn)出很強的適應(yīng)性。因此,本文在識別過程中采用Easy0CR,從預(yù)處理階段得到的增強圖像中讀出數(shù)字。

Easy 0CR是一種支持70多種語言的0CR方法,如漢語、英語和印地語等。0CR是基于ResNet、長短期記憶(Long Short Term Memory,LSTM)和連接時間分類(Connectionist Temporal Classification,CTC)模型的字符識別。Easy 0CR有3個主要組件,網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。①特征提取,對ResNet模型進行特征提取訓(xùn)練。②序列標(biāo)記,采用LSTM算法。③基于CTC進行解碼。在識別過程中利用了EasyOCR的Readtext功能。簡單0CR的主要特點是從圖像中讀取字母和數(shù)字,并返回其所在位置的坐標(biāo)。

3實驗過程

3.1實驗環(huán)境

本實驗所用計算機操作系統(tǒng)為Windows 11 64位,處理器型號為i7-12700H,顯卡型號為NVIDIAGeForce RTX 3060 Ti,內(nèi)存8GB。以PyTorch框架:為基礎(chǔ),編程環(huán)境為Python 3.8。

3.2數(shù)據(jù)集和預(yù)處理

為驗證本文井下人員著裝號碼牌檢測方法的有效性,利用自建井下數(shù)據(jù)集進行實驗,共采集1 830張圖片,標(biāo)簽包括號碼牌0~9,分別代表張某(0)、王某(1)、李某(2)、劉某(3)、陳某(4)、楊某(5)、趙某(6)、周某(7)、吳某(8)、許某(9)。為滿足數(shù)據(jù)集的多樣化要求并提高模型的穩(wěn)健性,選擇3種圖像處理技術(shù)擴大數(shù)據(jù)集的廣度和深度,從而增強模型的彈性,包括水平翻轉(zhuǎn)以引入方向不變性、添加隨機高斯噪聲以提高針對相機失真的魯棒性,以及隨機亮度調(diào)整以模擬同一位置的照明條件的變化。

擴充后的數(shù)據(jù)集共有8581張圖片,并將數(shù)據(jù)集圖片按照7:2:1的比例劃分為訓(xùn)練集、測試集和驗證集。

3.3訓(xùn)練模型

本文數(shù)據(jù)集來源于自建井下數(shù)據(jù)集,其中圖像為某煤礦井下圖片,分辨率均為2048pixel×2048pixel。數(shù)據(jù)集中有近8580張圖片,對圖片中的人員號碼牌進行標(biāo)注,共包含10個類別。共計訓(xùn)練集6000張,測試集1700張。數(shù)據(jù)中使用0~9的標(biāo)簽代替人員信息。采用PyTorch框架對本文改進后的網(wǎng)絡(luò)結(jié)構(gòu)進行訓(xùn)練學(xué)習(xí)。訓(xùn)練過程中每批次圖像為32張,模型在數(shù)據(jù)集中循環(huán)訓(xùn)練300次,學(xué)習(xí)率為0.0001。如果3個連續(xù)循環(huán)訓(xùn)練損失不下降,將學(xué)習(xí)率降低10倍。如果10個連續(xù)循環(huán)訓(xùn)練參數(shù)不下降,結(jié)束訓(xùn)練過程。

圖7是使用Y0L0v8進行檢測的結(jié)果,其中對帶有2、3、5、6、9號碼牌的井下人員檢測率達到了90%以上(9號碼牌的檢測準(zhǔn)確率最高為94.5%,0號碼牌的測試準(zhǔn)確率僅為71.2%)。

圖8是使用YOLOv8+CBAM+CBF進行檢測的結(jié)果,其中對帶有1、2、3、5、6、8、9號碼牌的井下人員檢測率達到了90%以上(6號碼牌的檢測準(zhǔn)確率最高為97.9%,0號碼牌的測試準(zhǔn)確率僅為76.6%)。

4實驗結(jié)果分析

4.1評價指標(biāo)

為了驗證模型有效性和檢測效果,選取平均精度均值(mean Average Precision,mAP)、召回率(Re-call,R)、準(zhǔn)確率(Precision,P)和每幀推理時間作為評價指標(biāo)。

4.2反光號碼牌區(qū)域檢測效果驗證

本文首先驗證提出的模型在進行號碼牌牌檢測時的有效性。為了進一步驗證上述改進方法的效果,進行了消融實驗,結(jié)果如圖9和表1所示。由于本文主要針對YOLOv8網(wǎng)絡(luò)進行改進,實驗選取YOLOv8網(wǎng)絡(luò)作為對比基準(zhǔn)。可以看出,為提高YOLOv8網(wǎng)絡(luò)的精度,引入了CBAM注意力機制模塊,模型準(zhǔn)確率從85.2%提高到89.7%,提高了4%。然而,這一改進使得召回率下降了6%。召回率的下降可歸因于通道注意力和空間注意力機制的引入,增加了網(wǎng)絡(luò)的深度。因此,當(dāng)在神經(jīng)網(wǎng)絡(luò)的較低層學(xué)習(xí)相似的物體時,判別性特征變得不那么突出,導(dǎo)致檢測到物體但分類不正確,從而降低召回率。盡管如此,平均精度還是提高了近1%,證明了改進模型的有效性。引入CBF模塊后,進一步提升了網(wǎng)絡(luò)性能,準(zhǔn)確率由89.7%提高至90.6%,使得最終檢測結(jié)果更準(zhǔn)確。相較于原YOLOv8網(wǎng)絡(luò),YOLOV8+CBAM+CBF模型模型的準(zhǔn)確率由85.2%提高至91.2%,召回率較原網(wǎng)絡(luò)沒有變化,平均精度提升了2.7%。進一步提高了模型的準(zhǔn)確性并證明了其有效性。

4.3反光號碼牌識別效果驗證

結(jié)合YOLOv8+CBAM+CBF和Easy OCR的識另IJ網(wǎng)絡(luò),在自建數(shù)據(jù)集上與傳統(tǒng)字符識別算法EasyPR進行對比測試,結(jié)果如圖10和表2所示。

實驗結(jié)果表明,在自建數(shù)據(jù)集上,本文提出的基于YOLOV8的OCR井下人員識別算法準(zhǔn)確率達到了93.2%,較Easy PR算法詞準(zhǔn)確率提高了16%。而檢測一張2048pixelx2 048 pixel圖片僅用時24.4ms,符合實時檢測的時間要求。

從圖10和表2結(jié)果可以看出,本文采用先檢測人員著裝號碼牌的區(qū)域,然后在該區(qū)域上對數(shù)字進行識別,其虛報率(偽號碼牌占有效總號碼牌的比例)和漏檢率有很大改善,去除了不少干擾,為后續(xù)的字符識別節(jié)約了時間(即阻止了偽號碼牌進入字符識別模型)。

井下人員反光號碼牌檢測結(jié)果如圖11所示,檢測結(jié)果用矩形框表示,框上是識別的類別標(biāo)簽和相應(yīng)的概率。通過對比看出,圖11(a)中YOLOv8模型對煤礦昏暗背景下的小目標(biāo)檢測能力較差;圖11(b)中的改進模型對以上問題都有明顯改善,進一步證明了改進模型的有效性和實用性。

5結(jié)束語

針對煤礦人員在井下惡劣環(huán)境的檢測效果,本文創(chuàng)新性地將行人屬性應(yīng)用到煤礦場景下,以提高檢測性能。針對井下小目標(biāo)檢測率低的缺點,采用注意力模型,提高了網(wǎng)絡(luò)對不同尺度的特征提取能力;然后通過引入視覺激活模塊提高了模型檢測準(zhǔn)確率;最后對檢測到的號碼牌區(qū)域用字符識別技術(shù)對區(qū)域的數(shù)字進行識別,進一步提高了模型的檢測精度。實驗結(jié)果表明,本文算法與原算法相比能夠更有效地應(yīng)對井下環(huán)境中的光照變化和干擾因素并且滿足實時檢測的要求。

猜你喜歡
注意力機制目標(biāo)檢測
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
軟件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一個基于知識庫的問答系統(tǒng)
視頻中目標(biāo)檢測算法研究
軟件(2016年4期)2017-01-20 09:38:03
行為識別中的人體運動目標(biāo)檢測方法
移動機器人圖像目標(biāo)識別
基于背景建模法的運動目標(biāo)檢測
苏尼特左旗| 吴忠市| 蒲江县| 贵州省| 海丰县| 喀喇| 茌平县| 屏边| 樟树市| 新闻| 襄城县| 独山县| 博野县| 当涂县| 惠来县| 会泽县| 麟游县| 兴义市| 九寨沟县| 深泽县| 黎城县| 嘉义县| 陕西省| 桂阳县| 寿宁县| 介休市| 松潘县| 上虞市| 昌江| 遂昌县| 达日县| 长岭县| 西华县| 灵台县| 凌海市| 周口市| 萨迦县| 武邑县| 龙陵县| 静宁县| 会理县|