国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進YOLOv5s的靜態(tài)/動態(tài)手勢識別算法探究

2024-12-31 00:00:00王路遙
信息系統(tǒng)工程 2024年12期

摘要:為了提高YOLOv5s算法在靜態(tài)/動態(tài)手勢識別場景下的應用效果,研究過程針對該算法存在的問題,提出三項改進措施,分別為優(yōu)化特征金字塔的結(jié)構(gòu)、引入卷積注意力模塊和Ghost模塊。以上措施旨在提高運算效率和精確率,降低手勢識別場景下的漏檢和錯檢。采集一萬張靜態(tài)/動態(tài)手勢影像,對算法進行訓練和檢驗,將mAP:0.5、召回率、精確性和幀率作為評價指標,對比算法性能。結(jié)果顯示,改進YOLOv5s算法在各項指標上均有所提升,達到了預期效果。

關(guān)鍵詞:改進YOLOv5s算法;靜態(tài)手勢識別;動態(tài)手勢識別

一、前言

在人工智能時代,靜態(tài)/動態(tài)手勢作為人機交互的指令,成為目標識別的重要內(nèi)容。YOLOv5s算法屬于輕量化的目標識別算法,可部署在邊緣性的終端設備上,具有廣泛的應用前景。然而,該算法在靜態(tài)/動態(tài)手勢識別場景下存在一定的局限性,表現(xiàn)為容易丟失小目標、運算效率不足、對手勢圖像空間信息區(qū)分能力欠缺。在此次研究中,對于以上問題,設計了有針對性的改進措施,從而建立了改進的YOLOv5s算法。

二、基于改進YOLOv5s的靜態(tài)/動態(tài)手勢識別算法設計

(一)YOLOv5s算法在手勢識別場景下的局限性分析

1.小目標丟失

YOLOv5s算法通過Neck網(wǎng)絡提取目標特征,但靜態(tài)/動態(tài)手勢識別場景下的目標物以小目標為主,在光線較暗的情況下,目標位置信息模糊,容易導致小目標丟失的問題[1]。

2.算法效率不足

在傳統(tǒng)的YOLOv5s算法中,Backbone網(wǎng)絡和Neck網(wǎng)絡均大量運用標準的卷積操作。在靜態(tài)/動態(tài)手勢識別場景下,算法的網(wǎng)絡層次較深,導致卷積核數(shù)量增加,運算量也隨之提高,制約了算法的特征提取效率[2]。

3.對手勢圖像空間信息區(qū)分能力欠缺

利用傳統(tǒng)的YOLOv5s算法進行手勢識別時,受到手勢空間位置的影響,該算法的識別效果難以達到理想的程度,對手勢特征的區(qū)分能力存在不足。

(二) 靜態(tài)/動態(tài)手勢識別場景下的YOLOv5s算法改進

1.YOLOv5s算法Neck網(wǎng)絡的FPN結(jié)構(gòu)改進

特征金字塔(Feature Pyramid Network,F(xiàn)PN)屬于YOLOv5s算法頸部網(wǎng)絡的重要組成部分,其在特征提取方面發(fā)揮著關(guān)鍵作用,能夠減少背景信息和噪聲的干擾[3]。為了解決手勢識別場景下的小目標丟失問題,應該對FPN的結(jié)構(gòu)進行優(yōu)化,具體實現(xiàn)方法如下:

(1)FPN結(jié)構(gòu)簡化

FPN具有較多的網(wǎng)絡節(jié)點,導致其結(jié)構(gòu)較為復雜。簡化其結(jié)構(gòu)能夠提高對小目標的檢測效率。通過裁剪操作,剪除FPN網(wǎng)絡中最高維和最低維特征層的中間節(jié)點,實現(xiàn)結(jié)構(gòu)簡化。

(2)FPN特征傳遞方式設計

結(jié)構(gòu)簡化改變了FPN的特征傳遞方式,在FPN結(jié)構(gòu)改進之后,按照以下方式完成特征傳遞。先通過上采樣從高維特征層獲取特征信息,再將上采樣的結(jié)果融入中間維度的特征層,輸出相應的融合結(jié)果。最后將高維特征層和中維特征層的特征融合結(jié)果連接至低維特征層,從而實現(xiàn)特征傳遞。

2.基于Ghost Module的YOLOv5s算法效率提升

針對傳統(tǒng)YOLOv5s算法標準卷積操作存在的問題,為了提高YOLOv5s算法的手勢識別效率,可引入Ghost Module。該模塊用于模型壓縮,能夠以較少的參數(shù)生成較多的特征圖,從而降低運算量和網(wǎng)絡延時,同時提高算法的運算速度。

(1)Ghost Module在YOLOv5s中的應用方法

在YOLOv5s算法中引入Ghost Module之后,將原始的靜態(tài)圖像或者動態(tài)影像輸入算法中,先通過普通卷積操作產(chǎn)生本征特征圖,再運用線性卷積的方法處理本征特征圖,生成Ghost特征圖,最后拼接本征特征圖和Ghost特征圖,輸出相應的結(jié)果,如圖1所示。在以上過程中,針對本征特征圖的線性卷積運算有效地豐富了目標特征,有利于改善算法的學習能力。

(2)改進YOLOv5s算法運算效率分析

引入Ghost Module的目的為提高算法的計算效率,評價指標為每秒浮點運算次數(shù)(Floating Point Operations Per Second,F(xiàn)LOPS)。原算法采用普通卷積,其運算效率的計算方法為式(1)。

式(1)中:F0為普通卷積條件下的FLOPS;c為本征特征圖的通道數(shù)量;w和h分別為算法輸出的獨立手勢特征圖的寬度、高度;n為獨立手勢特征圖的數(shù)量;k×k 表示卷積核大??;k為卷積核的高度或者寬度,其單位為像素[4]。引入Ghost Module之后,算法運算效率的計算方法為式(2)。

式(2)中:F1為引入Ghost Module后算法的FLOPS;s為Ghost特征圖的數(shù)量;d×d 為線性卷積核的大小;d為線性卷積核的寬度和高度,其單位為像素。

為了評價改進后YOLOv5s算法的效率提升幅度,對F0和F1做除法運算,可得出二者的比例關(guān)系,如式(3)所示。

式(3)中,線性卷積核和普通卷積核的大小相同,由于cgt;s,因此c+s-1≈c。根據(jù)式(3)的計算結(jié)果,F(xiàn)0約為F1的s倍,說明引入Ghost Module后,算法的運算量顯著降低,效率得到提升。

3.基于CBAM改進YOLOv5s的空間信息識別能力

為了提高YOLOv5s算法的空間信息識別能力,研究過程向其中引入卷積注意力模塊(Convolutional Block Attention Module,CBAM)。CBAM由兩部分組成,其一為通道注意力模塊,其二為空間注意力模塊。

(1)通道注意力模塊的應用方法

手勢圖像輸入通道注意力模塊之后,根據(jù)圖像的寬度和高度,分別進行全局平均池化、全局最大池化,進而得到兩張不同的特征圖。將兩個特征圖輸入多層感知機,經(jīng)過特征加入與激活操作,輸出處理后的特征圖。

(2)空間注意力模塊的應用方法

將通道注意力模塊的輸出結(jié)果作為空間注意力模塊的輸入信息,同樣的,對輸入的特征圖進行最大池化和平均池化,從而生成兩個不同的特征圖,再經(jīng)過連接、降維、權(quán)重分配,最后輸出相應結(jié)果。

三、 靜態(tài)/動態(tài)手勢識別算法性能檢驗

(一)搭建實驗環(huán)境

實驗過程需要搭建算法的運行環(huán)境,硬件設備包括高性能計算機和顯卡。計算機采用Intel Core i5-6300HQ中央處理器,顯卡的型號為NVIDIA GeForce GTX 960M。軟件方面,通過OpenCV平臺進行模型訓練,算法的初始學習率設置為0.001,訓練過程持續(xù)2000次。

(二)手勢數(shù)據(jù)采集和標注

1.數(shù)據(jù)采集

試驗之前采集一萬張靜態(tài)和動態(tài)的手勢圖片,手勢分為六種,分別展示1~6的數(shù)字。在收集圖片時,每一種手勢都涵蓋多個拍攝角度,并且改變手勢的背景。六種手勢圖的數(shù)量為1624、1688、1682、1670、1644、1692。手勢圖片用于訓練和檢測改進的YOLOv5s算法,其中80%作為訓練集,剩余的20%作為測試集。

2.數(shù)據(jù)標注

對于每一張靜態(tài)或動態(tài)的手勢照片,在目標檢測過程中,需要利用標注框圈定圖片的關(guān)鍵信息。數(shù)據(jù)標注的目的是確定標注框的關(guān)鍵信息,包括標注框幾何中心的坐標(x,y)、標注框的高度h1以及標注框的寬度w1。將目標圖片的左上角的坐標記為(xmin ,ymin),右下角的坐標記為(xmax,ymax),則標注框的橫坐標

x=(xmax+xmin)/2a,y=(ymax+ymin)/2b,w=(xmax-xmin)/a,h=(xmax-ymin)/b[5]。其中,a為目標圖像的寬度,b為目標圖像的高度。

(三)算法性能評價指標

算法性能評價指標涵蓋精確率、召回率以及mAP:0.5。其中,mAP為平均精度均值,mAP:0.5是指交并比閾值為0.5時計算得到的平均正確率的均值。mAP:0.5對算法性能的評價更為全面,因此被作為最主要的評價指標。

(四)實驗數(shù)據(jù)分析

利用靜態(tài)/動態(tài)手勢識別數(shù)據(jù)對算法進行訓練,訓練周期為2000次,隨著訓練次數(shù)的增加,算法的性能不斷提升,以下對比YOLOv5s算法和改進YOLOv5s算法在不同訓練周期下的mAP:0.5指標和召回率指標,結(jié)果如下:

1.算法改進前后mAP:0.5指標對比

YOLOv5s算法改進前后的mAP:0.5指標對比如圖2所示。

當訓練周期為0~800次時,兩種算法的mAP:0.5指標均快速增長。當訓練周期超過800次后,該指標逐步接近峰值,直至達到穩(wěn)定。根據(jù)實驗結(jié)果,YOLOv5s算法mAP:0.5的穩(wěn)定值為0.914,即91.4%。改進YOLOv5s算法的mAP:0.5指標的穩(wěn)定值為0.945,即94.5%。由此可見,改進YOLOv5s算法對動態(tài)/靜態(tài)手勢的識別率整體高于未改進的YOLOv5s算法。

2.算法改進前后召回率對比

召回率反映了算法模型識別為正類的實例在所有實際正類實例中的占比,召回率越高,代表算法模型識別的有效正例越多、錯誤率越低。YOLOv5s算法改進前后的召回率檢測結(jié)果如圖3所示。

從數(shù)據(jù)可知,在0~800次的訓練周期內(nèi),兩種算法的召回率快速提升。隨著訓練周期的增加,召回率繼續(xù)提高,直至達到穩(wěn)定。根據(jù)實驗結(jié)果,在2000次的訓練中,改進YOLOv5s算法的召回率最終可達到0.991,即99.1%。未改進YOLOv5s算法的召回率在2000次訓練后可達到0.978,即97.8%。因此,改進YOLOv5s算法對靜態(tài)/動態(tài)手勢的漏檢、錯檢情況得到一定程度的改善。

3.同類算法綜合性能對比

為了進一步驗證改進YOLOv5s算法性能,設置四個對照算法,包括YOLOv3、YOLOv4、YOLOv5s以及SSD(Single Shot Detection)。利用靜態(tài)/動態(tài)手勢數(shù)據(jù)集對其進行訓練,采用相同的驗證集檢測算法的幀率、mAP:0.5、精確性和召回率,見表1。

從數(shù)據(jù)可知,改進YOLOv5s算法的四項指標全面優(yōu)于其他目標檢測算法。

四、結(jié)語

傳統(tǒng)的YOLOv5s算法在靜態(tài)/動態(tài)手勢識別場景中的應用效果存在一定的局限性,主要問題為丟失小目標、運算效率不足、對手勢空間信息識別能力存在欠缺。為了解決以上問題,在此次研究中設計了改進的YOLOv5s算法,研究結(jié)果如下:

第一,對于小目標丟失問題,改進措施為優(yōu)化FPN的結(jié)構(gòu),從而提高算法對背景噪聲的抗干擾能力。在提升算法效率方面,引入Ghost Module,有效地降低了算法的運算量。為了改善算法對空間信息的識別能力,引入CBAM模塊。

第二,檢驗算法性能時,采集一萬張手勢影像,改變拍攝角度,增加空間識別的難度。將mAP:0.5、召回率、精確率、幀率作為性能評價指標。結(jié)果顯示,改進YOLOv5s算法優(yōu)于其他同類算法。

參考文獻

[1]李泰國,張英志,張?zhí)觳?,?基于改進YOLOv5s算法的列車駕駛員手勢識別[J].鐵道學報,2023,45(01):75-83.

[2]馬天祥.基于目標檢測和模板匹配的交警手勢識別研究[J].現(xiàn)代信息科技,2022,6(20):60-64+70.

[3]張新君,趙春霖.改進的YOLOv5s遙感影像機場場面飛機小目標識別[J].電光與控制,2024,31(07):104-111.

[4]曹獻爍,陳純毅,胡小娟,等.改進Yolov5s的移動端AR目標識別算法[J].重慶理工大學學報(自然科學),2023,37(10):146-155.

[5]金鑫,莊建軍,徐子恒.輕量化YOLOv5s網(wǎng)絡車底危險物識別算法[J].浙江大學學報(工學版),2023,57(08):1516-1526+1561.

作者單位:華為技術(shù)有限公司

責任編輯:張津平、尚丹

鄢陵县| 凤山县| 大埔县| 泰宁县| 阳高县| 宜宾市| 仪征市| 桂东县| 香格里拉县| 蒙阴县| 武隆县| 邯郸县| 岱山县| 金湖县| 祁东县| 桦南县| 西乌珠穆沁旗| 永川市| 乐至县| 都兰县| 乌兰县| 冷水江市| 乌拉特前旗| 余姚市| 哈巴河县| 横峰县| 酉阳| 高要市| 清河县| 开平市| 司法| 邵东县| 马公市| 汤原县| 梅州市| 广西| 蚌埠市| 滕州市| 丰台区| 马尔康县| 儋州市|