基于改進(jìn) YOLOv8的電梯內(nèi)電動(dòng)車識(shí)別方法研究

2024-08-28 00:00:00路成龍馮月貴慶光蔚

機(jī)械制造與自動(dòng)化 2024年4期

摘要：針對(duì)電梯內(nèi)電動(dòng)車識(shí)別存在效率低下、精度不佳的問(wèn)題，提出一種結(jié)合AUGMIX圖像增強(qiáng)技術(shù)和改進(jìn)YOLOv8模型的電動(dòng)車識(shí)別方法。將變形卷積層和動(dòng)態(tài)稀疏注意力機(jī)制融入YOLOv8，識(shí)別更精確和高效。實(shí)驗(yàn)結(jié)果表明：改進(jìn)后算法模型的精確率、召回率和平均精度均值分別達(dá)到了94.5%、93%和82.4%，電動(dòng)車識(shí)別準(zhǔn)確率達(dá)到了95.8%，為電梯內(nèi)電動(dòng)車智能識(shí)別提供了理論基礎(chǔ)。

關(guān)鍵詞：電動(dòng)車識(shí)別；AUGMIX；YOLOv8；變形卷積層；動(dòng)態(tài)稀疏注意力機(jī)制

中圖分類號(hào)：TP183 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1671-5276（2024）04-0219-05

Research on Identification Method of Electric Vehicles in Elevators Based on Improved YOLOv8

LU Chenglong，F(xiàn)ENG Yuegui，QING Guangwei

（Nanjing Special Equipment Safety Supervision Inspection and Research Institute， Nanjing 210002， China）

Abstract：A new electric vehicle identification method combining AUGMIX and improved YOLOv8 model is proposed to address the issues of low efficiency and poor accuracy in identifying electric vehicles in elevators. The YOLOv8 model incorporates DCNv3 and BRA to identify electric vehicles with better accuracy and efficiency. The experimental results show that the precision， recall， and mean average precision of the improved algorithm model reach 94.5%， 93%， and 82.4% respectively. And the accuracy of electric vehicle identification reaches 95.8%， providing a theoretical basis for intelligent recognition of electric vehicles in elevators.

Keywords：machine vision; AUGMIX; YOLOv8; DCNv3; Bi-level routing attention

0 引言

隨著我國(guó)城市化的快速推進(jìn)，商場(chǎng)、居民樓及城市軌道交通等場(chǎng)所都安裝了電梯，在帶來(lái)了極大乘坐便利的同時(shí)，也存在著重大安全隱患。電動(dòng)車進(jìn)入電梯轎廂，不僅占用了乘客乘用空間，而且一旦發(fā)生自燃會(huì)產(chǎn)生大量的火焰和高溫有毒氣體，短時(shí)間內(nèi)充滿整個(gè)轎廂，造成人員疏散和逃生困難。此外，電動(dòng)車進(jìn)出轎廂如果操作不當(dāng)，很容易使層轎門碰撞脫軌或者轎廂撞擊變形，造成安全隱患且縮短了電梯的使用壽命^[1]。因此，電動(dòng)車駛?cè)腚娞蒉I廂存在很大的安全隱患。

目前電梯內(nèi)電動(dòng)車識(shí)別手段主要采用3種方式：人工監(jiān)控識(shí)別、物理阻車和視覺(jué)識(shí)別^[2]。人工監(jiān)控識(shí)別是物業(yè)人員通過(guò)攝像頭監(jiān)控轎廂內(nèi)乘客情況，當(dāng)發(fā)現(xiàn)有電動(dòng)車進(jìn)入轎廂時(shí)通過(guò)語(yǔ)音提醒電動(dòng)車退出轎廂。物理阻車是在轎廂入口和轎廂內(nèi)壁設(shè)置阻攔欄桿。視覺(jué)識(shí)別是通過(guò)轎廂內(nèi)攝像頭采集、分析視頻數(shù)據(jù)，通過(guò)計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)行識(shí)別。人工監(jiān)控識(shí)別對(duì)人力和物力消耗較大，需要相關(guān)人員不間斷監(jiān)控，效率低下且無(wú)法及時(shí)制止電動(dòng)車駛?cè)朕I廂的行為。物理阻攔方式在阻攔電動(dòng)車的同時(shí)也限制了輪椅、兒童車等工具的駛?cè)?，在人流量較大的場(chǎng)所容易產(chǎn)生人員絆倒、摔倒和踩踏事故。視覺(jué)識(shí)別是基于機(jī)器視覺(jué)系統(tǒng)的電動(dòng)車識(shí)別系統(tǒng)，根據(jù)攝像頭數(shù)據(jù)信息進(jìn)行識(shí)別，采集電動(dòng)車圖像信息，進(jìn)行算法匹配來(lái)實(shí)現(xiàn)電動(dòng)車識(shí)別^[3]，具有精度高、響應(yīng)迅速的優(yōu)點(diǎn)，具有廣闊的應(yīng)用前景。

1 整體框架設(shè)計(jì)

基于AUGMIX和改進(jìn)YOLOv8的電梯內(nèi)電動(dòng)車識(shí)別方法，通過(guò)在轎廂內(nèi)安裝或共用現(xiàn)有監(jiān)控?cái)z像頭采集轎廂內(nèi)行人、電動(dòng)車、自行車等圖像信息，進(jìn)行算法匹配來(lái)實(shí)現(xiàn)電動(dòng)車識(shí)別。通過(guò)AUGMIX技術(shù)為電梯轎廂中的電動(dòng)車識(shí)別引入增強(qiáng)的圖像數(shù)據(jù)集，提高了模型的魯棒性，并通過(guò)適應(yīng)不同情況的變化，顯著降低了過(guò)擬合的可能^[4]。YOLOv8算法的端到端識(shí)別方法與DCNv3的變形卷積層和動(dòng)態(tài)稀疏注意力機(jī)制相結(jié)合，優(yōu)化了對(duì)電梯轎廂內(nèi)電動(dòng)車形狀和結(jié)構(gòu)的適應(yīng)性，為轎廂式電梯電動(dòng)車識(shí)別提供了實(shí)時(shí)、精準(zhǔn)且計(jì)算效率高的識(shí)別解決方案。整體框架設(shè)計(jì)圖如圖1所示。

2 算法設(shè)計(jì)

2.1 AUGMIX圖像增強(qiáng)算法

AUGMIX結(jié)合多種不同的圖像增強(qiáng)技術(shù)來(lái)生成新的訓(xùn)練樣本，提高模型在面對(duì)自然界圖像分布中共同變形時(shí)的泛化能力，從而增加模型訓(xùn)練數(shù)據(jù)的多樣性。在AUGMIX中，模型不僅在原始圖像上訓(xùn)練，而且還要在增強(qiáng)后的圖像上進(jìn)行訓(xùn)練。這些增強(qiáng)后的圖像是通過(guò)對(duì)原始圖像應(yīng)用一系列隨機(jī)選擇的圖像處理操作（稱為“增強(qiáng)操作”）生成的。然后，這些增強(qiáng)操作生成的圖像以一定方式與原始圖像混合，形成最終的訓(xùn)練樣本。

AUGMIX的關(guān)鍵步驟可以概括為以下幾點(diǎn)。

1）選擇原始圖像x，進(jìn)行k個(gè)增強(qiáng)操作，每個(gè)增強(qiáng)操作表示為o_pk。這些操作是針對(duì)圖像的特異性變化，例如旋轉(zhuǎn)、剪切、顏色變換等，本技術(shù)中僅對(duì)電動(dòng)車識(shí)別率進(jìn)行改進(jìn)。

2）將這些操作應(yīng)用于原始圖像x，生成一組增強(qiáng)圖像{x₁，x₂，…，x_k}。每個(gè)增強(qiáng)圖像x_i是通過(guò)將相應(yīng)的增強(qiáng)操作o_pi應(yīng)用于原始圖像x得到的，即x_i=o_pi（x）。

3）將這些增強(qiáng)圖像線性混合，生成最終的訓(xùn)練樣本。這個(gè)混合過(guò)程可以表示為以下公式：

式中（w₀，w₁，…，w_k）是混合權(quán)重，它們是隨機(jī)抽取的，滿足∑ki=0w_i=1。

混合后的圖像x′將作為新的訓(xùn)練樣本。通過(guò)這種方式，AUGMIX可以在訓(xùn)練過(guò)程中引入大量的圖像變化，從而提高模型的泛化能力。

2.2 改進(jìn)的YOLOv8算法介紹

YOLOv8是一種高效的單步目標(biāo)識(shí)別模型，可以實(shí)現(xiàn)復(fù)雜的目標(biāo)識(shí)別以及定位功能，對(duì)圖像框中的多個(gè)目標(biāo)進(jìn)行標(biāo)注，得到識(shí)別結(jié)果^[5]。相較于兩步式識(shí)別方法，YOLOv8則通過(guò)神經(jīng)網(wǎng)絡(luò)一次性提取圖像的特征圖，基于此直接推斷錨框的位置與類別。相較于兩步法，單步識(shí)別流程的速度更快，特別是在需要快速響應(yīng)的實(shí)時(shí)應(yīng)用中更顯優(yōu)勢(shì)。

本文基于YOLOv8的改進(jìn)模型針對(duì)電梯轎廂內(nèi)電動(dòng)車識(shí)別任務(wù)進(jìn)行了針對(duì)性改進(jìn)，改進(jìn)模型通過(guò)應(yīng)用AUGMIX圖像增強(qiáng)技術(shù)提升模型泛化能力，采用端到端的檢測(cè)方法簡(jiǎn)化系統(tǒng)設(shè)計(jì)并提高識(shí)別效率，實(shí)施多尺度檢測(cè)策略以增強(qiáng)對(duì)不同大小目標(biāo)的魯棒性。同時(shí)，集成DCNv3算子優(yōu)化了模型對(duì)目標(biāo)形狀的自適應(yīng)能力，而動(dòng)態(tài)稀疏注意力機(jī)制則降低了計(jì)算復(fù)雜性，使得改進(jìn)后的YOLOv8不僅識(shí)別準(zhǔn)確，而且適應(yīng)實(shí)時(shí)性和資源受限的應(yīng)用環(huán)境，為電梯轎廂中電動(dòng)車的精確識(shí)別提供了有效的技術(shù)支持。改進(jìn)的YOLOv8算法架構(gòu)圖如圖2所示。

1）結(jié)合C2f和可變性卷積網(wǎng)絡(luò)的C2f_DCNv3模塊

YOLOv8相較于同系列的其他算法，在主干網(wǎng)絡(luò)結(jié)構(gòu)中采用了C2f（cross stagepartial network bottleneck with 2 convolutions）模塊，該模塊能夠有效提高網(wǎng)絡(luò)計(jì)算速度同時(shí)降低計(jì)算復(fù)雜度。DCNs（deformable convolutional networks）是卷積神經(jīng)網(wǎng)絡(luò)（CNNs）的擴(kuò)展，引入了可變形卷積層，使得網(wǎng)絡(luò)能夠更好地適應(yīng)圖像中的幾何和形狀變化^[6]。這種類型的網(wǎng)絡(luò)特別適用于處理圖像中存在的非剛性變形，如姿態(tài)變化、視角變換或物體內(nèi)部的變形等。采用最新的DCNv3對(duì)C2f模塊進(jìn)行擴(kuò)展，得到C2f_DCNv3模塊，能夠自適應(yīng)地調(diào)整感受野大小，從而更好地符合目標(biāo)對(duì)象的形狀和結(jié)構(gòu)變化，C2f-DCNv3模塊網(wǎng)格結(jié)構(gòu)如圖3所示。

通過(guò)引入共享投射權(quán)重的策略，將與位置無(wú)關(guān)的權(quán)重代替獨(dú)立的投射權(quán)重，從而有效減少參數(shù)和內(nèi)存復(fù)雜度。此外，采用了多組機(jī)制，將空間聚合過(guò)程劃分為不同組，每組具有獨(dú)立的采樣偏移量，以提高特征的多樣性。為緩解模型容量擴(kuò)大時(shí)的不穩(wěn)定問(wèn)題，采用了逐采樣點(diǎn)的Softmax歸一化作為歸一化模式，這不僅提升大規(guī)模模型的訓(xùn)練穩(wěn)定性，還構(gòu)建了所有采樣點(diǎn)之間的連接關(guān)系。這些改進(jìn)旨在提高模型效率、降低參數(shù)量、增強(qiáng)特征的多樣性，并改善模型訓(xùn)練的魯棒性，其公式如下所示。

式中：G為聚合組總數(shù)；對(duì)于第g個(gè)組，w_g∈R^C^×C^′表示與位置無(wú)關(guān)的投影權(quán)重，其中C′=C/G表示組維度；m_gk∈R表示第g個(gè)組中第k個(gè)采樣點(diǎn)的調(diào)制標(biāo)量，由沿k維的Softmax函數(shù)歸一化；x_g∈R^C^′×H^×W表示切片后的輸入特征圖；Δp_gk為第g組網(wǎng)絡(luò)采樣位置p_k對(duì)應(yīng)的偏移量。

2）動(dòng)態(tài)稀疏注意力

動(dòng)態(tài)稀疏注意力機(jī)制作為一種新型注意力機(jī)制，通過(guò)兩個(gè)層次實(shí)現(xiàn)輸入的動(dòng)態(tài)稀疏化處理，這樣不僅能過(guò)濾掉粗糙區(qū)域大部分不相關(guān)交互信息，加強(qiáng)有效信息間交互，減弱無(wú)效信息間干擾，而且針對(duì)細(xì)粒度的注意力應(yīng)用于路由區(qū)域的聯(lián)合之中，能夠獲取更多有效特征信息。在大幅降低了模型的計(jì)算復(fù)雜度的同時(shí)保持了高水平的性能。相對(duì)于其他注意力機(jī)制，動(dòng)態(tài)稀疏注意力機(jī)制能夠更靈活地調(diào)整注意力分布，從而更適應(yīng)不同尺度和復(fù)雜的目標(biāo)識(shí)別，在小目標(biāo)捕捉中精準(zhǔn)度更高。動(dòng)態(tài)稀疏注意力機(jī)制作用過(guò)程如圖4所示，圖中g(shù)ather表示基于模型子集的收集/聚集操作，mm表示矩陣乘法（matrix multiptication）。

給定一個(gè)二維輸入特征映X∈R^H^×W^×C，首先將其劃分為S×S個(gè)非重疊區(qū)域，使得每個(gè)區(qū)域包含HW/S²個(gè)特征向量。這一步通過(guò)reshape X變?yōu)閄∈R^S2^×HWS2^×C來(lái)完成。再經(jīng)過(guò)線性映射得到Q、K、V張量：

Q=X^rW^q，K=X^rW^k，V=X^rW^v（3）

然后，通過(guò)有向圖來(lái)對(duì)區(qū)域到區(qū)域的注意力關(guān)系進(jìn)行關(guān)聯(lián)。具體來(lái)說(shuō)，首先通過(guò)分別在Q和K上應(yīng)用每個(gè)區(qū)域平均值來(lái)導(dǎo)出區(qū)域級(jí)Q^r、K^r∈R^S2^×C。其次，通過(guò)Q^r和轉(zhuǎn)置K^r之間的矩陣乘法推導(dǎo)出區(qū)域到區(qū)域親和度圖的鄰接矩陣A^r∈R^S2^×S2：

A^r=Q^r（K^r）^T（4）

鄰接矩陣A^r中的條目衡量?jī)蓚€(gè)區(qū)域在語(yǔ)義上的相關(guān)性。接下來(lái)執(zhí)行的核心步驟是通過(guò)為每個(gè)區(qū)域只保留前k個(gè)關(guān)系最密切的區(qū)域。I^r∈N^S2^×k為一個(gè)路由索引矩陣，具有逐行topk算子：

I^r=topkIndex（A^r）（5）

第i行I^r包含第i個(gè)區(qū)域的k個(gè)最相關(guān)區(qū)域的索引。

有了區(qū)域到區(qū)域路由索引矩陣I^r，在粗粒度過(guò)濾了最不相關(guān)的令牌，可以應(yīng)用細(xì)粒度的令牌到令牌關(guān)注。對(duì)于區(qū)域i中的每個(gè)Q，它將關(guān)注以I^r_（i，1），I^r_（i，2），…，I^r_（i，k）為索引的k個(gè)最關(guān)注的路由區(qū)域，并gather這k個(gè)區(qū)域中所有K和V。因此首先收集K、V張量：

K^g=gather（K，I^r）， V^g=gather（V，I^r）（6）

式中K^g、V^g∈R^S2^×HWS2^×C。將注意力應(yīng)用于收集到的K^g，V^g：

O=Attention（Q，K^g，V^g）+LCE（V）（7）

引入了一個(gè)局部上下文增強(qiáng)項(xiàng)LCE（V）。函數(shù)LCE（V）使用深度卷積進(jìn)行參數(shù)化。

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集介紹

數(shù)據(jù)集在南京某小區(qū)進(jìn)行，采集周期覆蓋了春夏秋冬四個(gè)季節(jié)，以確保數(shù)據(jù)具有時(shí)間上的多樣性。此外，考慮到電梯的使用高峰期和非高峰期，在工作日和周末的不同時(shí)間段進(jìn)行了采集，以確保獲得充分的數(shù)據(jù)集，反映出電梯內(nèi)電動(dòng)車出現(xiàn)的各種情況。然后，將收集到的圖片利用AUGMIX圖像增強(qiáng)，共得到9 000張高分辨率照片，部分?jǐn)?shù)據(jù)集如圖5所示。

模型訓(xùn)練期間，模型的迭代曲線和準(zhǔn)確性評(píng)估將會(huì)通過(guò)數(shù)據(jù)可視化工具進(jìn)行監(jiān)控，確保訓(xùn)練的有效進(jìn)展。測(cè)試結(jié)果通過(guò)混淆矩陣和識(shí)別效果圖來(lái)展示，從而對(duì)模型在實(shí)際應(yīng)用中的表現(xiàn)給予直觀的評(píng)價(jià)。圖6為本文的數(shù)據(jù)長(zhǎng)寬比分析圖。

3.2 模型測(cè)試評(píng)估與分析

AUGMIX-YOLOv8-org為本文提出的將AUGMIX與改進(jìn)的YOLOv8相結(jié)合的預(yù)測(cè)模型。利用改進(jìn)后的算法模型對(duì)數(shù)據(jù)集進(jìn)行測(cè)試，將數(shù)據(jù)集按8∶1∶1的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集進(jìn)行實(shí)驗(yàn)。迭代次數(shù)200，初始學(xué)習(xí)率設(shè)置為0.001，優(yōu)化器采用Adam，動(dòng)量參數(shù)值為0.8，置信度閾值為0.5，模型的訓(xùn)練結(jié)果及迭代曲線如圖7所示。實(shí)驗(yàn)選取平均精度均值（mAP）、準(zhǔn)確率（precision）、召回率（recall）及單項(xiàng)識(shí)別準(zhǔn)確率作為評(píng)價(jià)指標(biāo)，其照片中包括電動(dòng)車、乘客、自行車，試驗(yàn)測(cè)試結(jié)果混淆矩陣如圖8所示。

對(duì)電動(dòng)車、乘客和自行車的電梯轎廂識(shí)別準(zhǔn)確率進(jìn)行對(duì)比，圖9為實(shí)驗(yàn)各項(xiàng)評(píng)價(jià)指標(biāo)對(duì)比圖。由圖9可知，AUGMIX-YOLOv8-org模型準(zhǔn)確率達(dá)到了94.5%，召回率達(dá)到了93%，平均精度均值達(dá)到82.4%，相比原始的YOLOv8模型分別提升了2.5、5.0和2.3個(gè)百分點(diǎn)。在具體的識(shí)別任務(wù)中，電動(dòng)車、乘客和自行車的識(shí)別準(zhǔn)確率，AUGMIX-YOLOv8-org分別實(shí)現(xiàn)了95.8%、95.2%和65.6%的高水平，與原始YOLOv8模型的91.7%、91.2%和50.8%相比，有顯著的性能提升。這不僅凸顯了AUGMIX技術(shù)在提升模型對(duì)復(fù)雜場(chǎng)景下目標(biāo)識(shí)別能力的有效性，也說(shuō)明了AUGMIX-YOLOv8-org模型在實(shí)際應(yīng)用中對(duì)于確保電梯安全運(yùn)行的潛在價(jià)值。新算法模型識(shí)別結(jié)果如圖10所示。

4 結(jié)語(yǔ)

針對(duì)電梯內(nèi)電動(dòng)車識(shí)別存在精度不佳的問(wèn)題，基于YOLOv8算法模型提出改進(jìn)方案。數(shù)據(jù)預(yù)處理階段，利用AUGMIX圖像增強(qiáng)方法引入多樣化的圖像變換，提高了模型的泛化性能，減少了過(guò)擬合的風(fēng)險(xiǎn)，為模型的魯棒性訓(xùn)練提供了有力支持。其次，通過(guò)將可變性卷積網(wǎng)絡(luò)算子（DCNv3）和動(dòng)態(tài)稀疏注意力融入YOLOv8模型，進(jìn)一步提升了識(shí)別性能。改進(jìn)后算法模型的精確率、召回率和平均精度均值分別達(dá)到了94.5%、93%和82.4%，電動(dòng)車識(shí)別準(zhǔn)確率達(dá)到了95.8%，為電梯內(nèi)電動(dòng)車智能識(shí)別提供了理論基礎(chǔ)。算法模型仍有改進(jìn)空間，未來(lái)將考慮在保證精度的前提下，輕量化算法模型，提高識(shí)別速度和泛化能力，使算法模型更好地勝任電梯內(nèi)電動(dòng)車識(shí)別任務(wù)。

參考文獻(xiàn)：

[1] 周永強(qiáng)，王萬(wàn)軍，楊浩，等. 基于圖像識(shí)別與信息融合的電梯智能阻車系統(tǒng)研究[J]. 機(jī)電工程技術(shù)，2023，52（9）：141-144.

[2] 李信芳，李艷. 淺析電梯智能阻車系統(tǒng)的加裝屬性[J]. 中國(guó)特種設(shè)備安全，2022，38（9）：46-48，57.

[3] 馬子喻. 基于神經(jīng)網(wǎng)絡(luò)與證據(jù)理論的電動(dòng)車進(jìn)入轎廂識(shí)別研究[D]. 鄭州：鄭州大學(xué)，2021.

[4] 王佳寧. 面向自動(dòng)駕駛的圖像與點(diǎn)云融合及實(shí)時(shí)性研究[D]. 哈爾濱：哈爾濱工業(yè)大學(xué)，2021.

[5] 于飛，徐斌，王榮浩，等. 基于改進(jìn)YOLOv8的旋轉(zhuǎn)鏈板檢測(cè)算法[J]. 制造業(yè)自動(dòng)化，2023，45（9）：212-216，220.

[6] 劉奇，趙麗霞，鄭曙光，等. 基于DYOLO神經(jīng)網(wǎng)絡(luò)的超聲圖像腎臟檢測(cè)[J]. 計(jì)算機(jī)工程，2021，47（7）：307-313.

收稿日期：2024-02-26

機(jī)械制造與自動(dòng)化2024年4期

機(jī)械制造與自動(dòng)化的其它文章: 重載鐵路貨車機(jī)械零件與踏面損傷圖像檢測(cè)方法; 反應(yīng)堆內(nèi)置式控制棒滾動(dòng)軸承磨損壽命的自動(dòng)預(yù)測(cè); 考慮城市交通環(huán)境的多模式自適應(yīng)巡航控制策略; 自動(dòng)駕駛仿真測(cè)試場(chǎng)景庫(kù)體系建設(shè)方法綜述; 基于X射線無(wú)損探傷的輸電線路耐張線夾缺陷檢測(cè); “Λ”型凸臺(tái)對(duì)低隔道亞聲速S彎進(jìn)氣道的流場(chǎng)控制研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于改進(jìn) YOLOv8的電梯內(nèi)電動(dòng)車識(shí)別方法研究