楊登杰 葉愛芬 袁舸凡 郭熔 王環(huán)
摘要:具有自主工作能力的超市取貨機器人能夠大大降低人工成本使其得到廣泛應(yīng)用,對超市取貨機器人的目標檢測策略進行持續(xù)的優(yōu)化改進具有重要的現(xiàn)實意義。針對超市取貨機器人目標檢測策略存在泛化性、效率低的問題,提出了基于MobileNetV3-YOLOv4超市取貨機器人目標檢測策略的設(shè)計。該策略中將根據(jù)檢測商品的特征有針對性地構(gòu)建數(shù)據(jù)集,并且輕量化改進YOLOv4的主干特征網(wǎng)絡(luò),將原來的YOLOv4的CSPDarknet53主干特征網(wǎng)絡(luò)用輕量級網(wǎng)絡(luò)MobileNetV3替換,最終提高 YOLOv4算法的訓(xùn)練速度、檢測精度以及網(wǎng)絡(luò)模型的泛化能力。最終場地測試結(jié)果表明,上述控制策略在提升超市取貨機器人泛化性和魯棒性,同時提高了執(zhí)行效率。
關(guān)鍵詞:MobileNetV3-YOLOv4;CSPDarknet53主干網(wǎng)絡(luò);余弦退火衰減;魯棒性;泛化能力
中圖分類號:O246;TP311.1? ? ?文獻標識碼:A
文章編號:1009-3044(2022)30-0018-05
開放科學(xué)(資源服務(wù))標識碼(OSID):
當前,人工智能、深度學(xué)習(xí)在目標檢測[1-3] 、機器人控制等領(lǐng)域得到廣泛應(yīng)用,這些成功應(yīng)用得益于芯片技術(shù)、計算機算力和系統(tǒng)優(yōu)化技術(shù)的持續(xù)進步和發(fā)展。為了降低人工成本支出,超市取貨機器人在超市的卸貨、補貨、取貨等方面應(yīng)用廣泛。超市中商品種類繁多,如何對商品進行快速的目標檢測識別直接影響著整個超市的運行效率。為提高目標檢測算法的運行效率,當前的研究工作集中于形態(tài)學(xué)圖像處理與卷積神經(jīng)網(wǎng)絡(luò)(CNN ,Convolution Neural Network)兩個方面進行相關(guān)的研究。文獻[4]中提出一種基于圖像特征匹配的超市貨物檢測方法,該方法的優(yōu)點是算法穩(wěn)定、具有很強的可行性,缺點是算法適用范圍窄,特征匹配較慢,受光線強弱和商品識別角度影響,會導(dǎo)致識別結(jié)果不準確。
在 CNN 方面,劉永豪[5]提出的一種基于Faster R-CNN和 SSD在貨架商品檢測上的實際項目中的改善。
由邊緣檢測算法例如Canny得到結(jié)果然后將結(jié)果分層分割,獲得分開的各個商品圖像元素,對于這些元素使用Faster R-CNN和SSD兩種檢測模型對上述圖像元素進行最后的檢測。在實際應(yīng)用中,對紅色藍色方塊圖像進行識別測試,該改進有效地提高了商品上的檢測準確率,該方法識別精度和準確度較高,缺點在于訓(xùn)練時間長,且識別較久。目前計算機視覺通常趨向于更廣、更復(fù)雜,深度更深的網(wǎng)絡(luò)[6-8]。訓(xùn)練更大的網(wǎng)絡(luò)或?qū)⒍鄠€模型組合在一起就能得到更好的網(wǎng)絡(luò),比如YOLOv4[2-9] [10-11] 目標檢測算法在速度和精度方面均表現(xiàn)優(yōu)異,但YOLOv4的主干網(wǎng)絡(luò)使用全關(guān)聯(lián)的神經(jīng)網(wǎng)絡(luò)的方式提取特征,網(wǎng)絡(luò)結(jié)構(gòu)煩瑣、參數(shù)量冗余,因此一般選擇處理能力較強的計算機對運行該算法來達到預(yù)期的效果。針對上述問題,本文提出了基于MobileNetV3-YOLOv4超市取貨機器人目標檢測策略的設(shè)計[12]。為了解決上述提及的缺點與問題,降低識別算法的硬件需求,兼顧圖像識別的準確度與速度,該策略用MobileNet輕量級網(wǎng)絡(luò)替換原 YOLOv4的CSPDarknet53[13]主干網(wǎng)絡(luò),以便獲取MobileNetV3-YOLOv4 模型,大大降低了目標檢測網(wǎng)絡(luò)的參數(shù)量,在保證識別精度的前提下進一步提升了檢測速度。
1 MobileNet模型優(yōu)化
MobileNet模型由谷歌開發(fā),這款模型針對的對象是手機等嵌入式設(shè)備。這是一款輕量級的神經(jīng)網(wǎng)絡(luò),它里面最核心和最新穎的就是使用了可離散的深度卷積的方式取代如圖1所示標準卷積[14]。
深度可分離卷積涵蓋兩個部分:深度卷積和逐點卷積,此兩部分如圖2所示,其根據(jù)輸入通道數(shù)目的不同而采用不同的卷積核進行卷積運算,最后結(jié)果的通道的調(diào)整是通過單位為1的卷積核進行處理。
這里將卷積核拆分成單通道形式,在不改變輸入特征圖像的深度的條件下,所有通道都進行卷積,得到的輸出特征圖與輸入特征圖通道數(shù)相同。深度卷積如圖3所示,輸入為12×12×3,通過5×5×3的深度卷積處理,最后得到8×8×3的輸出特征圖流程圖如下。
在圖3的流程里,最終將特征圖處理為8[×]8[×]3的卷積核,然后作為輸入并使用256個大小為1[×]1[×]3的卷積核對其進行卷積,得到最終的輸出特征圖,逐點卷積如圖4所示。
標準卷積與深度可分離卷積的過程對比后得出:深度可分離卷積的過程中使用的參數(shù)很大程度上減少了,使得運算量也減輕了很多,節(jié)約了處理器的算力,將卷積乘法變成加法來實現(xiàn)相同的效果。本文MobileNet綜合了深度分離卷積操作、同時兼顧逆殘差結(jié)構(gòu)和采用h-swish函數(shù)代替swish[15]函數(shù)等。不同點是用h-swishj替換swish激活函數(shù)后,不僅減少了運算量,并提高圖像識別能力。h-swish公式如下(1):
[h-swish[x]=xReLU6(x+3)6]? ? ? ? ? (1)
這里的MobileNetV3采取一個矩陣大小為9的標準卷積核用于特征提取,使用最大池化層[16]獲得了最后的分類結(jié)果。MobileNetV3 包括兩種結(jié)構(gòu),分別是Large結(jié)構(gòu)和Small結(jié)構(gòu),本文選擇如下表1所示的MobileNetV3的Large 結(jié)構(gòu)。為完成超市商品的識別功能,設(shè)待識別的圖像大小設(shè)置為 416×416。
Input表示特征層在處理過程中的尺寸變化;
Operator表示特征層在處理過程前即將通過block結(jié)構(gòu),在改進型的網(wǎng)絡(luò)處理過程中使用了大量的bneck結(jié)構(gòu)。
Exp size表示特征層經(jīng)過bneck結(jié)構(gòu)后的通道數(shù)目。out也表示特征層經(jīng)過bneck結(jié)構(gòu)后的通道數(shù)目。
SE表示注意力機制是否在這一層被引入。
NL為激活函數(shù)種類,h-swish簡化成HS表示,RELU由RE表示。
s表示經(jīng)過block結(jié)構(gòu)所用的步長。
2 改進型MobileNetV3-YOLOv4框架方案設(shè)計和功能實現(xiàn)
2.1 MobileNetV3-YOLOv4整體框架
改進型MobileNetV3-YOLOv4整體算法結(jié)構(gòu)如圖5所示 。
YOLOv4是一個單階段目標檢測算法,網(wǎng)絡(luò)結(jié)構(gòu)包括CSPDarknet53 、PAnet [17]和YOLOhead三個部分 ,其可檢測目標并對目標進行分類, YOLO4算法框架流程圖如圖6所示。
MobileNetV3-YOLOv4用 MobilenetV3 替換YOLOv4網(wǎng)絡(luò)結(jié)構(gòu)中的 CSPDarknet53網(wǎng)絡(luò),其結(jié)構(gòu)如圖7所示。SPP金字塔模塊分別使用尺寸為 13 × 13、9 × 9、5 × 5的卷積核對上面的輸出特征進行卷積,輸出的新的特征層包含3個處理后的結(jié)果,這個流程提高網(wǎng)絡(luò)的深度。PANet 模塊是對改進后的MobileNetV3 主干網(wǎng)絡(luò)的特征提取的結(jié)果分別進行了上下采樣。經(jīng)過不同層池化的自適應(yīng)處理,在下采樣中,使得該網(wǎng)絡(luò)的特征網(wǎng)格與特征層融合,并把結(jié)果傳入預(yù)測模塊進行反饋和分類。預(yù)測返回值通過 PANet結(jié)構(gòu)后輸出結(jié)果為 3 個大小分別為 52 × 52、26 × 26、13 × 13的特征層。
2.2 預(yù)測模塊改進
IoU就是所說的交并比,是目標檢測中最常用的指標,anchor-based的方法用來評估輸出框和ground-truth的長度。
[IOU=|A∩B||A∪B|]? ? ? ? ? ? ? ? ? ? (2)
但Iou Loss存在兩個缺點,一是無法反映重合度(圖8 IOU=0):即假設(shè)兩個框沒有重疊部分,根據(jù)定義,IoU=0,所以這并不能反映兩個框之間的間距,如圖8 IOU=0。同時因為loss=0,無梯度回傳,不能模型訓(xùn)練。二是無法區(qū)分兩者相交的情況(圖9 IOU=0.28):兩種情況IoU的值即覆蓋率都相等,但很明顯狀態(tài)2回歸的效果較好,狀態(tài)1回歸效果較差。
針對以上兩種情況,本文用 CIoU Loss 取代 Iou Loss,真實框與預(yù)測框的重疊率、尺度等因子作為權(quán)重,讓預(yù)測框穩(wěn)定,避免了IoU中出現(xiàn)的不穩(wěn)定情況, CIoU Loss如圖10所示。在預(yù)測框和真實框最外層外接一個最小的矩形,用c表示圖中外接框的對角線的距離,這個距離就能衡量兩個框的距離;同時求出預(yù)測框和真實框的中心點的歐式距離d,這歐式距離就能衡量兩者的相交情況。
CIOU公式如下(3):
[CIOU=IOU-ρ2(b,bgt)c2-αν]? ? ? ? ? ? ? ?(3)
公式中,在度量長寬比的相似度的變量使用v表示,如圖10中在表示黃色矩形框的中心點和紫色矩形框的中心點時分別使用[b,bgt]表示,紫色矩形框和黃色矩形框所包含的最小矩形的對角線距離使用字母c表示。α表示權(quán)重量,其公式如下(4)(5):
[α=υ1-IOU+υ]? ? ? ? ? ? ? ? ? ?(4)
[υ=4π2(arctanwgthgt-arctanwh)2]? ? ? ? ? ?(5)
完整的 CIOU 損失函數(shù)定義如(6):
[LossCIOU=1-IOU+ρ2(b,bgt)c2+αυ]? ? ? ?(6)
2.3采用Mish激活函數(shù)
Mish[18]是一個平坦光滑曲線,這樣的激活函數(shù)可以通過更優(yōu)質(zhì)的圖像信息深入神經(jīng)網(wǎng)絡(luò),獲得更好的識別準確性;Mish具有無上界的特性,它的好處是能夠避免導(dǎo)致訓(xùn)練速度急劇下降的梯度飽和進而加快訓(xùn)練過程。同時Mish是有遞增也有遞減的函數(shù),這種性質(zhì)使其在小于零時不會有截斷點,使較小的負梯度進入神經(jīng)網(wǎng)絡(luò),能夠使網(wǎng)絡(luò)梯度流更加穩(wěn)定。Mish具有較好的泛化和識別精度的有效優(yōu)化能力,可以提高結(jié)果的質(zhì)量。
Mish函數(shù)如公式(7):
[fx=x*tanh (?x)]? ? ? ? ? ? ? (7)
softplus函數(shù)如公式(8):
[(?x=ln(1+ex)]? ? ? ? ? ? ? ? ? (8)
ReLU、tanh、softplus、Mish激活函數(shù)如圖11所示。
3 實驗方法及結(jié)果分析
3.1測試準備
本文所用材料都在實驗室模擬超市貨框環(huán)境下拍攝,不同商品混合并列擺放,商品包含:雪花罐、特侖蘇、紅牛罐、AD鈣瓶、網(wǎng)球、紅色方塊、藍色方塊、可口可樂罐、雪碧罐、王老吉罐十種商品。每張照片六類商品分上下三個并排擺放。拍攝設(shè)備使用蘋果手機然后批量轉(zhuǎn)換為jpg格式,拍攝距離在20~30cm之間,分辨率為3 024×4 032,拍攝角度為正面拍攝,數(shù)據(jù)集最終添加200張網(wǎng)絡(luò)圖片作為訓(xùn)練集,所以訓(xùn)練集1400張,驗證集400張,測試集400張,總共2200張數(shù)據(jù)集。訓(xùn)練前需要先對圖片進行標注,標注時用矩形框標注,這個流程使用LabelImg可視化圖片標注工具。
環(huán)境內(nèi)容為torch 為1.2.0版,torchvision 為0.4.0版,scipy為 1.2.1版,numpy為 1.17.0版,matplotlib為 3.1.2版,opencv_python 為4.1.2.30版,tqdm 為4.60.0版,Pillow為 8.2.0版,h5py為 2.10.0版,同時安裝Anaconda方便環(huán)境管理,可以同時在一個電腦上安裝多種環(huán)境。
3.2測試結(jié)果分析
在模擬場地的目標檢測中,漏檢的目標商品個數(shù)用FN(False Negatives)表示,正確檢測到的目標商品的數(shù)量使用TP(True Positives)表示, 錯誤檢測到的目標商品的數(shù)量用FP(False Positives)表示,測試圖片400張。Recall和Precision的定義如式(9)與式(10)所示,在模擬超市環(huán)境下所得實驗結(jié)果如下表2所示。
[Precision=TPTP+FP]? ? ? ? ? ? ? ? ? ? (9)
[Recall=TPTP+FN]? ? ? ? ? ? ? ? ? ? ? ? ?(10)
在測試集上的檢測結(jié)果如圖12所示,目標商品被預(yù)測框標注,并顯示對應(yīng)的商品名稱與置信度。最終得出檢測準確率為 0.992,召回值為 0.997,平均每張檢測完畢消耗時間0.8s。
為了驗證本方案的有效性,分別將數(shù)據(jù)集在YOLOv4主干提取網(wǎng)絡(luò)為MobileNetV3和CSPDarknet53上進行訓(xùn)練,每訓(xùn)練出一層就記錄下該層的損失量,如圖13所示,是所記錄的網(wǎng)絡(luò)的損失函數(shù)曲線。兩者驗證誤差收斂速度很快,但本文改進后的算法較改進前的算法在參數(shù)解凍前和解凍后訓(xùn)練一層所消耗時間都有較大改善,MobileNetV3-YOLOv4 在參數(shù)解凍前訓(xùn)練完成一層所消耗時間約 5min20s,解凍后所消耗時間約為 6min45s;YOLOv4 參數(shù)解凍前訓(xùn)練完成一層所消耗時間約為13min58s,解凍后訓(xùn)練文訓(xùn)練完一層所消耗時間約為 32min49s。
4 結(jié)論
本文在YOLOv4 目標檢測網(wǎng)絡(luò)的基礎(chǔ)上改進后,獲得 MobileNetV3-YOLOv4模型。在模擬超市環(huán)境下進行目標檢測來驗證該網(wǎng)絡(luò)模型的有效性,最終在模擬環(huán)境下進行目標檢測實驗,結(jié)果表明改進后的模型識別速度在改進前提升了約 21%,同時改進后的網(wǎng)絡(luò)數(shù)據(jù)集總量降為原來的 1/5,簡化了參數(shù)的復(fù)雜程度。但局限于商品種類不是很多,并存在漏檢。為進一步增強模型的泛化能力,我們后續(xù)會嘗試使用更多商品種類和拍攝角度進行訓(xùn)練和改進。
參考文獻:
[1] Liu W,Anguelov D,Erhan D,et al.SSD:single shot MultiBox detector[C]//Computer Vision–ECCV 2016,2016.
[2] Tian Y N,Yang G D,Wang Z,et al.Apple detection during different growth stages in orchards using the improved YOLO-V3 model[J].Computers and Electronics in Agriculture,2019,157:417-426.
[3] 李鵬飛,劉瑤,李珣,等.YOLO9000模型的車輛多目標視頻檢測系統(tǒng)研究[J].計算機測量與控制,2019,27(8):21-24,29.
[4] 趙瑩.基于圖像特征匹配的商品識別算法[D].上海:上海電機學(xué)院電子信息學(xué)院,2014.
[5] 劉永豪.基于深度學(xué)習(xí)的貨架商品檢測技術(shù)研究[D].杭州:浙江大學(xué) ,2017.
[6] Russakovsky O,Deng J,Su H,et al.ImageNet large scale visual recognition challenge[J].International Journal of Computer Vision,2015,115(3):211-252.
[7] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 2, 4.
[8] C. Szegedy, S. Ioffe, and V. Vanhoucke. Inception-v4,inception-resnet and the impact of residual connections on learning. CoRR, abs/1602.07261, 2016. 2.
[9] BOCHKOVSKIY A,WANG C Y,LIAO H Y. Yolov4:optimal speedand accuracy of object detection[DB/OL]. https://arXiv:2004.10934.
[10] 胡丹丹,張莉莎,張忠婷.基于改進YOLOv3和立體視覺的園區(qū)障礙物檢測方法[J].計算機測量與控制,2021,29(9):54-60.
[11] 王林,劉盼.基于卷積神經(jīng)網(wǎng)絡(luò)的行人目標檢測系統(tǒng)設(shè)計[J].計算機測量與控制,2020,28(7):64-68,96.
[12] Howard A,Sandler M,Chen B,et al.Searching for MobileNetV3[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul,Korea (South).IEEE,:1314-1324.
[13] Wang C Y,Mark Liao H Y,Wu Y H,et al.CSPNet:a new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).Seattle,WA,USA.IEEE,:1571-1580.
[14] HOWARD A G,ZHU M,CHEN B,et al. Mobilenets:efficient con?volutional neural networks for mobile vision applications[DB/OL].https://arxiv.org/abs/1704.04861.
[15] Ramachandran P , Zoph B , Le Q V.Searching for Activation Functions[Z].2017.
[16] He K M,Zhang X Y,Ren S Q,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.
[17] Liu S,Qi L,Qin H F,et al.Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,UT,USA.IEEE,:8759-8768.
[18] Misra D.Mish:A Self Regularized Non-Monotonic Neural Activation Function[Z].2019.
【通聯(lián)編輯:梁書】