摘 要:針對(duì)復(fù)雜場(chǎng)景中機(jī)器人的無(wú)序抓取需要,提出一種兩階段的抓取檢測(cè)算法。改進(jìn)YOLOv5的網(wǎng)絡(luò)模型,在多尺度特征融合上將淺層位置信息和深層語(yǔ)義信息進(jìn)行注意力融合,提高多尺度目標(biāo)的檢測(cè)能力;將排斥因子引入損失函數(shù)中,提高了模型在遮擋環(huán)境下的魯棒性;在目標(biāo)檢測(cè)后對(duì)抓取目標(biāo)邊界框進(jìn)行裁切處理,避免了抓取檢測(cè)過(guò)程中其余目標(biāo)的干擾;改進(jìn)抓取檢測(cè)算法,引入CSP結(jié)構(gòu)和注意力機(jī)制,提高了模型的特征提取能力。在真實(shí)環(huán)境下針對(duì)隨意擺放的多目標(biāo)遮擋物體進(jìn)行抓取實(shí)驗(yàn),結(jié)果表明:機(jī)器人抓取成功率為95%。
關(guān)鍵詞:調(diào)壓閥;目標(biāo)檢測(cè)算法;輕量化;重參數(shù)化;特征融合
中圖分類號(hào):TP391.41" 文獻(xiàn)標(biāo)志碼:A" 文章編號(hào):1671-5276(2024)05-0218-06
A Two-stage Grasp Detection Algorithm Based on Improved YOLOv5
Abstract:A two-stage grasp detection algorithm is proposed for the disorderly grasping needs of robots in complex scenes. The network model of YOLOv5 is improved by attention fusion of shallow location information and deep semantic information on multi-scale feature fusion to improve the detection of multi-scale targets. The rejection factor is introduced into the loss function to enhance the robustness of the model in occlusion environment. The grasp target bounding box is cropped after the target detection to avoid the interference from the rest of the targets during the grasp detection process. The grasp detection algorithm is improved by introducing the CSP structure and attention mechanism to improve the feature extraction ability of the model. In grasping multi-target obscured objects randomly placed in a real environment, the results show that the robot has a 95% success rate.
Keywords:pressure regulating valve;target detection algorithm;lightweight;re-parameterization;feature fusion
0 引言
伴隨著人工智能的快速崛起,智能制造業(yè)中機(jī)器人的應(yīng)用深度和廣度得到了顯著提升。機(jī)械手抓取作為智能機(jī)器人最重要的技能之一,被廣泛應(yīng)用在工業(yè)領(lǐng)域中替代人工進(jìn)行工件抓取分類、產(chǎn)品包裝等工作[1]。目前,在復(fù)雜環(huán)境下的多目標(biāo)抓取檢測(cè)仍具有較大挑戰(zhàn),獲取更高精度的抓取姿態(tài)成為了抓取控制領(lǐng)域的研究熱點(diǎn)[2]。
近年來(lái),基于深度學(xué)習(xí)的經(jīng)驗(yàn)法抓取取得了一定的研究成果。LENZ等[3]首次采用滑動(dòng)窗口檢測(cè)框架搭建神經(jīng)網(wǎng)絡(luò),達(dá)到了73.9%的準(zhǔn)確率,但是其模型計(jì)算量過(guò)大,無(wú)法進(jìn)行實(shí)時(shí)檢測(cè);REDMON等[4]舍棄滑動(dòng)窗口的檢測(cè)方法,利用AlexNet網(wǎng)絡(luò)直接回歸獲得檢測(cè)結(jié)果,達(dá)到了88%的準(zhǔn)確率,且可以實(shí)時(shí)運(yùn)行;MORRISON等[5]借鑒語(yǔ)義分割的算法思想,提出了基于像素點(diǎn)檢測(cè)的輕量化抓取模型GGCNN,模型運(yùn)行速度快,但準(zhǔn)確率不高;KUMRA等[6]在其基礎(chǔ)上將殘差模塊添加到特征提取骨干網(wǎng)絡(luò),以RGB-D融合圖像作為輸入,提高了模型的準(zhǔn)確率;張志康等[7]提出了基于語(yǔ)義分割分階段特征融合的抓取檢測(cè)算法,具有較高的檢測(cè)精度,但網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜;金歡[8]采用級(jí)聯(lián)式的網(wǎng)絡(luò)結(jié)構(gòu),將原始圖像先分割后檢測(cè),實(shí)現(xiàn)了多目標(biāo)抓取檢測(cè)。
綜上所述,已知的抓取檢測(cè)算法僅利用特征提取網(wǎng)絡(luò)中的最后一層輸出特征圖進(jìn)行特征預(yù)測(cè),對(duì)于尺寸多變、形狀不同、姿態(tài)未知的目標(biāo),往往傾向于生成大目標(biāo)的抓取框,而對(duì)小目標(biāo)的檢測(cè)性能較差,同時(shí)大部分的抓取模型為單目標(biāo)場(chǎng)景抓取,沒(méi)有考慮實(shí)際工業(yè)環(huán)境中背景復(fù)雜、目標(biāo)間存在相互遮擋等問(wèn)題。針對(duì)以上問(wèn)題,本文提出了一種兩階段的抓取檢測(cè)算法。
1 兩階段抓取檢測(cè)算法
為了滿足抓取檢測(cè)中無(wú)序抓取的任務(wù)需求,除了生成最優(yōu)的抓取檢測(cè)框外,還需要識(shí)別出目標(biāo)種類,本文通過(guò)設(shè)計(jì)并聯(lián)式的兩階段抓取檢測(cè)算法,實(shí)現(xiàn)在復(fù)雜環(huán)境中雜亂物體的抓取。整個(gè)抓取檢測(cè)流程如圖1所示。
2 目標(biāo)檢測(cè)網(wǎng)絡(luò)
YOLOv5在目標(biāo)檢測(cè)領(lǐng)域具有了較好的檢測(cè)精度和檢測(cè)效率,其網(wǎng)絡(luò)框架如圖2所示。但是在實(shí)際應(yīng)用環(huán)境中,機(jī)器人檢測(cè)的目標(biāo)多樣復(fù)雜、抓取環(huán)境雜亂、物體密集堆疊。針對(duì)以上問(wèn)題,本文在數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)結(jié)構(gòu)以及損失函數(shù)部分做出改進(jìn)。
2.1 數(shù)據(jù)預(yù)處理
在訓(xùn)練的過(guò)程中,通過(guò)模擬物體遮擋,可以提高模型被遮擋時(shí)的抗干擾性,同時(shí)對(duì)于整體數(shù)據(jù)集而言是一種正則化處理方式,避免了網(wǎng)絡(luò)過(guò)擬合,對(duì)模型的學(xué)習(xí)能力有所提升。
本文采用多種數(shù)據(jù)增強(qiáng)方法來(lái)模擬物體遮擋的效果,具體效果如圖3所示。Cutout和Random erasing均通過(guò)在圖像中隨機(jī)裁切一個(gè)矩形區(qū)域,前者直接在此區(qū)域內(nèi)填充0,后者賦值隨機(jī)像素值;Hide-and-Seek 為解決弱監(jiān)督問(wèn)題中目標(biāo)定位的精度問(wèn)題,采用隨機(jī)裁切若干個(gè)區(qū)域,從而讓模型學(xué)習(xí)物體的全局信息;GridMask在 HaS的基礎(chǔ)上采用了等間隔裁切區(qū)域的方式,并且對(duì)該區(qū)域?qū)崿F(xiàn)一定的旋轉(zhuǎn)。
2.2 網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化
在卷積神經(jīng)網(wǎng)絡(luò)中,通過(guò)上下采樣可以獲得不同尺寸的特征圖。低緯特征圖能夠包含目標(biāo)物體的空間特征信息,有利于確定目標(biāo)的空間位置,而高緯特征圖包含更豐富的語(yǔ)義特征信息,具有圖像的概括能力,有利于分類任務(wù)的完成。
原有的YOLOv5采用SPP(空間金字塔池化)來(lái)獲取不同感受野的大小,采用統(tǒng)一步長(zhǎng),不同大小卷積核對(duì)輸入特征圖進(jìn)行卷積操作,沒(méi)有綜合局部信息與全面信息的語(yǔ)義關(guān)系。本文結(jié)合深度可分離卷積實(shí)現(xiàn)ASPP(空洞空間金字塔池化),降低參數(shù)計(jì)算量,無(wú)需通過(guò)減小圖片和多個(gè)卷積核串聯(lián)來(lái)增加感受野。如圖4所示, 第1個(gè)分支采用1×1卷積,保留輸入特征的感受野;中間3個(gè)分支分別采用擴(kuò)張系數(shù)為1、3、5的空洞卷積,獲得不同大小的感受野;第5個(gè)分支采用全局池化得到全局感受野;最后將各個(gè)特征輸出Concat拼接后經(jīng)過(guò)一個(gè)1×1卷積,實(shí)現(xiàn)多尺度特征提取。經(jīng)過(guò)ASPP后的多尺度特征信息包含了大量的冗余信息,可通過(guò)添加注意力機(jī)制提高其特征提取效率。
YOLOv5原有的FPN+PAN在多尺度特征融合上對(duì)不同的輸入特征圖采用了平等的處理方式,而不同尺寸的特征圖擁有不同的信息密度,在特征融合過(guò)程中所提供的有效特征是不相等的。為了提高多尺度融合中特征復(fù)用效率,本文采用BiFPN[9](加權(quán)雙向特征金字塔網(wǎng)絡(luò)),在不同尺度的特征通道上引入了可學(xué)習(xí)的權(quán)重,重復(fù)利用自頂向下和自下而上的多尺度特征融合,充分利用不同分辨率中的特征信息。
CBAM[10]作為混合注意力機(jī)制,包含兩個(gè)獨(dú)立的子模塊:通道注意力模塊(channel attention module,CAM)和空間注意力模塊(spatial attention module,SAM),分別將注意力映射到特征圖的通道和空間兩個(gè)維度,實(shí)現(xiàn)自適應(yīng)特征提取,其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
本文將CBAM嵌入到ASPP和CSP模塊后, 在特征融合之前,對(duì)特征圖進(jìn)行加權(quán)處理,提升關(guān)鍵特征,并抑制無(wú)關(guān)特征,使得網(wǎng)絡(luò)能將重要信息加以融合。這樣不僅使融合后的特征圖包含更有效的目標(biāo)信息,提升遮擋目標(biāo)的定位精度,還達(dá)到降低模型的計(jì)算量,提升檢測(cè)速度的目的。
2.3 損失函數(shù)改進(jìn)
為了提高模型的遮擋檢測(cè)性能,本文在CIoU的基礎(chǔ)上引入新的損失函數(shù)Repulsion loss[11],通過(guò)調(diào)整目標(biāo)預(yù)測(cè)框與真實(shí)框、重疊目標(biāo)預(yù)測(cè)框和真實(shí)框之間的關(guān)系,盡可能讓預(yù)測(cè)框靠近真實(shí)框,遠(yuǎn)離其他目標(biāo)框,降低NMS對(duì)閾值的敏感度。Repulsion loss損失函數(shù)如下所示。
L=LAttr+α×LRepGT+β×LRepBox(1)
式中:LAttr表示目標(biāo)預(yù)測(cè)框與真實(shí)框之間的損失,本文采用CIoU替換原有的SmoothL1損失;LRepGT表示目標(biāo)預(yù)測(cè)框與周圍其他目標(biāo)真實(shí)框之間的損失;LRepBox表示目標(biāo)預(yù)測(cè)框與周圍其他目標(biāo)預(yù)測(cè)框之間的距離;α、β為權(quán)重調(diào)節(jié)系數(shù)。
LRepGT是所有正樣本預(yù)測(cè)框與其最大CIoU值的真實(shí)框的IoG均值,公式如下所示。
式中:G表示真實(shí)框;g為所有真實(shí)框的集合;P表示預(yù)測(cè)框;p為IoU大于閾值的正樣本預(yù)測(cè)框的集合;BP是根據(jù)預(yù)測(cè)框P調(diào)整后獲得;GPRep是目標(biāo)預(yù)測(cè)框p除與之匹配的最大CIoU值的真實(shí)框;GPAttr是與目標(biāo)預(yù)測(cè)框p相對(duì)應(yīng)具有最大CIoU值的真實(shí)框。
LRepBox作為相鄰但不同目標(biāo)預(yù)測(cè)框之間的排斥項(xiàng),使得預(yù)測(cè)框和周圍的其他預(yù)測(cè)框盡可能遠(yuǎn)離,公式如下所示。
3 抓取檢測(cè)網(wǎng)絡(luò)
GR-ConvNet是基于抓取點(diǎn)的抓取位姿檢測(cè)算法模型。通過(guò)RGB-D的像素點(diǎn)信息預(yù)測(cè)出抓取目標(biāo)的最佳抓取姿態(tài)以及每一個(gè)抓取點(diǎn)的質(zhì)量分?jǐn)?shù),其網(wǎng)絡(luò)模型如圖6所示。
該算法主要應(yīng)用于單目標(biāo)的抓取位姿檢測(cè),無(wú)法對(duì)目標(biāo)對(duì)象進(jìn)行分類處理,抓取受到環(huán)境干擾大,同時(shí)在多尺度檢測(cè)上容易忽視小目標(biāo)的抓取。針對(duì)以上問(wèn)題,本文在數(shù)據(jù)預(yù)處理和網(wǎng)絡(luò)結(jié)構(gòu)部分做出改進(jìn)。
3.1 數(shù)據(jù)預(yù)處理
在多目標(biāo)復(fù)雜場(chǎng)景以及目標(biāo)之間存在堆疊時(shí),輸入圖片中的背景和其他物體所包含的像素信息對(duì)GR-ConvNet算法具有一定的干擾性,主要是由于檢測(cè)過(guò)程中只生成一個(gè)最佳的抓取框,抓取框選取的是全局圖像中抓取置信度最高的點(diǎn),而部分噪聲點(diǎn)會(huì)干擾抓取框的選取,導(dǎo)致誤檢現(xiàn)象的發(fā)生。本文采用目標(biāo)檢測(cè)算法對(duì)抓取檢測(cè)輸入的圖像進(jìn)行預(yù)處理,只保留目標(biāo)物體的邊界框,將其余部分填充0。
3.2 模型結(jié)構(gòu)優(yōu)化
針對(duì)原有模型中的殘差模塊,本文引進(jìn)注意力機(jī)制CBAM,如圖7所示,嵌入在殘差模塊中的BN層后,提高模型的特征提取能力。同時(shí)借鑒CSP模塊對(duì)其進(jìn)行優(yōu)化,通過(guò)采用CSP模塊將輸入特征分為兩個(gè)分支使得通道數(shù)減半,其中一部分通過(guò)5個(gè)改進(jìn)的殘差模塊后與另一部分進(jìn)行通道相加,減少了計(jì)算量;在梯度反向傳播過(guò)程中,同一個(gè)梯度在不同的模塊中被反復(fù)計(jì)算,會(huì)導(dǎo)致大量的梯度冗余,通過(guò)對(duì)特征通道的裁剪,使得梯度在不同的分支中獨(dú)自進(jìn)行梯度回傳,沒(méi)有重復(fù)計(jì)算,有效地降低了梯度冗余,提高了模型的運(yùn)行速度。
4 實(shí)驗(yàn)及結(jié)果分析
4.1 目標(biāo)檢測(cè)
本實(shí)驗(yàn)采用自制工件數(shù)據(jù)集進(jìn)行模型訓(xùn)練,如圖8所示,對(duì)自動(dòng)化裝備生產(chǎn)中所需的氣動(dòng)工件采用Kinect V2深度相機(jī)采集。一共選取4種工件,采集了1 200張圖像,以VOC格式對(duì)其進(jìn)行標(biāo)注,按照8∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
為充分驗(yàn)證模型改進(jìn)的有效性,設(shè)置消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)探究不同改進(jìn)策略對(duì)檢測(cè)算法的性能影響。本文采用mAP(均值平均精度)和FPS(幀率)作為評(píng)價(jià)指標(biāo),表示檢測(cè)算法對(duì)目標(biāo)的平均檢測(cè)精度和速度。
消融實(shí)驗(yàn)如表1所示,A表示替換ASPP模塊后模型在不增加計(jì)算量的前提下,擴(kuò)大了感受野,增強(qiáng)了模型識(shí)別不同尺寸目標(biāo)的能力,檢測(cè)速度和檢測(cè)精度均有所提升;B表示增加注意力機(jī)制CBAM,加強(qiáng)了目標(biāo)對(duì)象的關(guān)注度,有效降低了背景的干擾,增強(qiáng)了模型的魯棒性,提高了模型的檢測(cè)精度;C表示在特征融合階段采用了BiFPN,在不同深度的特征圖中采用不同的權(quán)重進(jìn)行特征裁切,檢測(cè)速度有小幅度降低但精度有所提升;D表示在損失函數(shù)中引入排斥因子,使得模型在復(fù)雜環(huán)境中對(duì)遮擋物體的檢測(cè)能力和精度得到了提升。相比原有模型,改進(jìn)后的YOLOV5檢測(cè)算法mAP提高了4.3個(gè)百分點(diǎn),而檢測(cè)速度基本沒(méi)有受到影響。
為探究改進(jìn)算法在各類別檢測(cè)上的影響,本文將原算法A與改進(jìn)算法B進(jìn)行類別性能測(cè)試實(shí)驗(yàn),如表2所示。
由表2可知,改進(jìn)模型在準(zhǔn)確率、召回率和平均精度上均有所提升。在多目標(biāo)遮擋環(huán)境下,流量控制器的模型較小,且表面特征不明顯,部分特征與壓力傳感器相似,當(dāng)遮擋情況嚴(yán)重時(shí)便會(huì)導(dǎo)致誤檢或漏檢,而改進(jìn)后的模型顯著提高了對(duì)流量控制器的特征提取能力以及遮擋情況下的召回率。
將改進(jìn)后的YOLOv5算法與目前主流的目標(biāo)檢測(cè)算法進(jìn)行性能對(duì)比(表3),檢測(cè)速度和檢測(cè)精度均有了提升。在背景環(huán)境復(fù)雜、檢測(cè)目標(biāo)存在遮擋的情況下依然可以識(shí)別出目標(biāo)并精準(zhǔn)定位,減少了漏檢、誤檢的概率。
4.2 抓取位姿檢測(cè)
由于cornell數(shù)據(jù)集全部為單目標(biāo)場(chǎng)景,缺少多目標(biāo)堆疊場(chǎng)景下的數(shù)據(jù)集,本文選用cornell數(shù)據(jù)集和自制單目標(biāo)工件數(shù)據(jù)集作為訓(xùn)練集和驗(yàn)證集,自制多目標(biāo)工件數(shù)據(jù)集作為測(cè)試集,驗(yàn)證不同遮擋程度下抓取檢測(cè)算法的性能。
測(cè)試數(shù)據(jù)集首先通過(guò)目標(biāo)檢測(cè)算法進(jìn)行圖像預(yù)處理,裁切出抓取目標(biāo)區(qū)域并將其余背景部分進(jìn)行填0處理,再輸入到抓取位姿檢測(cè)模型中。不同的檢測(cè)算法實(shí)驗(yàn)結(jié)果如表4所示。
由表4可知,在抓取位姿檢測(cè)模型中,采用輕量化設(shè)計(jì)的GGCNN在檢測(cè)速度上優(yōu)勢(shì)較大,但是檢測(cè)準(zhǔn)確率較低,通過(guò)將彩色圖像和深度圖像融合進(jìn)行多模態(tài)輸入,模型的檢測(cè)精度有所提升;本文改進(jìn)的GR-ConvNet采用RGB-D圖像作為輸入,引入CSP模塊和CBAM注意力機(jī)制對(duì)殘差結(jié)構(gòu)進(jìn)行優(yōu)化,減少了梯度冗余,提高了模型的特征提取能力,解決了模型推理速度和檢測(cè)精度不平衡的問(wèn)題,在增加少量推理時(shí)間前提下獲取了較高的準(zhǔn)確率,相比原有模型提高了9.1個(gè)百分點(diǎn)。
4.3 真實(shí)機(jī)械臂抓取實(shí)驗(yàn)
本文采用UR5機(jī)械臂、Robotiq機(jī)械夾爪和Kinect V2深度相機(jī)搭建抓取實(shí)驗(yàn)平臺(tái),采用眼在手外的方式固定相機(jī),如圖9所示。
實(shí)驗(yàn)采用多目標(biāo)場(chǎng)景,在平臺(tái)上隨機(jī)擺放工件,部分工件之間存在遮擋現(xiàn)象,重復(fù)實(shí)驗(yàn)50次,以實(shí)際抓取的成功率作為評(píng)價(jià)指標(biāo)。抓取效果如表5所示。
由表5可知,本文提出的雙階段抓取檢測(cè)算法在遮擋條件下具有較高的抓取成功率,通過(guò)目標(biāo)檢測(cè)算法獲取遮擋目標(biāo)的局部信息,提高了模型的抗干擾性,但依然存在檢測(cè)失敗和抓取失敗的案例。高度遮擋環(huán)境下,目標(biāo)間重疊面積過(guò)高,導(dǎo)致檢測(cè)對(duì)象的特征不明顯,對(duì)后續(xù)的抓取檢測(cè)也有著較大的挑戰(zhàn)。分氣排模型較大且形狀簡(jiǎn)單,在抓取過(guò)程中具有最佳的抓取表現(xiàn);壓力傳感器由于其表面存在金屬光澤,在圖像中有效像素較少,抓取成功率相比其他種類較低;背壓閥的最佳抓取位姿較少且表面光滑,使用二指夾爪在抓取過(guò)程中容易脫落導(dǎo)致抓取失敗。
5 結(jié)語(yǔ)
為實(shí)現(xiàn)工業(yè)環(huán)境中工件無(wú)序分揀,針對(duì)環(huán)境中背景復(fù)雜和目標(biāo)間存在堆疊,難以實(shí)現(xiàn)高效分類抓取的問(wèn)題,提出了一種兩階段抓取檢測(cè)算法對(duì)工件進(jìn)行抓取位姿估計(jì)。在第一階段采用了目標(biāo)檢測(cè)算法,通過(guò)修改網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù),增強(qiáng)了對(duì)遮擋目標(biāo)的檢測(cè)能力,在多目標(biāo)密集遮擋環(huán)境下獲得了良好的性能,降低了模型漏檢、誤檢的概率。第二階段中,算法利用第一階段生成的目標(biāo)檢測(cè)結(jié)果,對(duì)最佳抓取范圍進(jìn)行裁切,抑制甚至消除了環(huán)境背景對(duì)檢測(cè)的干擾,再對(duì)目標(biāo)物體進(jìn)行細(xì)粒度的姿態(tài)估計(jì)和抓取框生成,實(shí)現(xiàn)了最佳的抓取效果。該算法在實(shí)際的機(jī)器人抓取場(chǎng)景中得到了廣泛應(yīng)用和驗(yàn)證,具有較強(qiáng)的通用性和魯棒性,能夠適應(yīng)各種不同形態(tài)和大小的物體,并實(shí)現(xiàn)高效、精確的抓取操作。今后將進(jìn)一步研究多個(gè)目標(biāo)之間的順序抓取問(wèn)題以及被遮擋物體的信息補(bǔ)全,進(jìn)一步提升抓取成功率。
參考文獻(xiàn):
[1] 陳苗苗,葉文華,馬庭田,等. 不規(guī)則金屬物料的抓取位姿實(shí)時(shí)檢測(cè)方法研究[J]. 機(jī)械制造與自動(dòng)化,2022,51(1):177-180,191.
[2] DU GG,WANG K,LIAN S G,et al. Vision-based robotic grasping from object localization,object pose estimation to grasp estimation for parallel grippers:a review[J]. Artificial Intelligence Review,2021,54(3):1677-1734.
[3] LENZ I,LEE H,SAXENA A. Deep learning for detecting robotic grasps[J]. The International Journal of Robotics Research,2015,34(4/5):705-724.
[4] REDMON J,ANGELOVA A. Real-time grasp detection using convolutional neural networks[C]//2015 IEEE International Conference on Robotics and Automation. Seattle,WA,USA: IEEE,2015:1316-1322.
[5] MORRISON D,CORKE P,LEITNER J. Learning robust,real-time,reactive robotic grasping[J]. The International Journal of Robotics Research,2020,39(2/3):183-201.
[6] KUMRA S,JOSHI S,SAHIN F. Antipodal robotic grasping using generative residual convolutional neural network[C]//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems. Las Vegas,NV,USA: IEEE,2021:9626-9633.
[7] 張志康,魏赟. 基于語(yǔ)義分割的兩階段抓取檢測(cè)算法[J/OL]. 計(jì)算機(jī)集成制造系統(tǒng).(2022-05-11)[2022-12-11]. http:/lkns.cnki.net/kcms/detail/11.5946.TP.20220517.1009.008.html.
[8] 金歡. 基于卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器人抓取檢測(cè)研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2019.
[9] TAN MX,PANG R M,LE Q V. EfficientDet:scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,WA,USA: IEEE,2020:10778-10787.
[10] WOO S,PARK J,LEE J Y,et al. CBAM:convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham:Springer International Publishing,2018:3-19.
[11] WANG X L,XIAO T T,JIANG Y N,et al. Repulsion loss:detecting pedestrians in a crowd[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA: IEEE,2018:7774-7783.