李樂陽, 張維忠
(青島大學(xué)a.計(jì)算機(jī)科學(xué)技術(shù)學(xué)院, 山東 青島 266071; b. 威海創(chuàng)新研究院, 山東 威海 264200)
近年來,電商平臺帶動了快遞行業(yè)的高速發(fā)展,傳統(tǒng)的包裹分離逐漸從人力分揀過渡到使用智能算法自動化處理,不僅提高了物流效率,還減少了人力資源的需求,降低了成本。在包裹分離領(lǐng)域,德國西門子公司設(shè)計(jì)了單件分離系統(tǒng)[1],該系統(tǒng)由包裹檢測模塊和傳送帶控制模塊組成,采用基于視覺的包裹檢測方法,計(jì)算包裹在傳送帶上的位置,通過啟動傳送帶進(jìn)行分離,可方便地應(yīng)用于自動化包裹分揀生產(chǎn)線上,但實(shí)時性較差,不能滿足實(shí)際應(yīng)用的需求。楊賽[2]參照西門子系統(tǒng),利用RGB-D相機(jī),使用連通區(qū)域標(biāo)記法對深度圖像進(jìn)行包裹分割,此方法效率較高,但錯誤分割的概率較大;??低曢_發(fā)了基于RGB-D相機(jī)與深度學(xué)習(xí)技術(shù)的包裹單件分離設(shè)備,將包裹定位分割算法整合到相機(jī)內(nèi)部,完成包裹定位與分割的計(jì)算過程,但存在單個相機(jī)成本較高、分離不理想的情況。隨著深度學(xué)習(xí)的發(fā)展,目標(biāo)檢測模型性能不斷提高,包裹分離相關(guān)技術(shù)擁有更高的準(zhǔn)確性和實(shí)時性。K.HE等人[3-4]提出兩階段目標(biāo)檢測算法,準(zhǔn)確性較高但是需要大量的計(jì)算資源;J.REDMON等人[5-7]及A.BOCHKOVSKIY等人[8-9]提出單階段目標(biāo)檢測算法;H.LAW等人[10-11]提出的無錨點(diǎn)檢測方法,實(shí)時性較好但是準(zhǔn)確性相對較低;N.CARION等人[12]提出基于Transformer[13]的檢測算法,引入注意力機(jī)制來提高檢測準(zhǔn)確率,但訓(xùn)練難度大,推理速度慢,不能同時兼顧實(shí)時性和準(zhǔn)確性方面?;诖?本文利用某郵區(qū)中心局收集的包裹數(shù)據(jù),自建數(shù)據(jù)集,提出基于YOLO v5s算法改進(jìn)的包裹檢測模型,將RepVGG模塊融入特征提取網(wǎng)絡(luò),降低網(wǎng)絡(luò)參數(shù)的計(jì)算量,將損失函數(shù)CIOU優(yōu)化為SIOU,使其具有更高的實(shí)時性和準(zhǔn)確率,可檢測各類形狀的包裹并給出位置信息,適應(yīng)不同場景變化。
YOLO v5采用新的架構(gòu)CSPNet[14],該架構(gòu)采用了一種新的跨階段局部連接方式,減少了計(jì)算量和內(nèi)存使用,從而加速模型的訓(xùn)練和推理過程。其次,YOLO v5引入了PANet[15]特征融合技術(shù),有效地融合了不同尺度的特征圖,31該技術(shù)可自適應(yīng)地選擇不同尺度的特征圖,并將它們?nèi)诤铣山y(tǒng)一的特征表示,提高了模型對小目標(biāo)的檢測能力。因此,YOLO v5具有更高的檢測精度和更快的檢測速度,適應(yīng)于多種目標(biāo)檢測領(lǐng)域。
YOLO v5根據(jù)CSP模塊參數(shù)量配置,分為5個版本,區(qū)別在于網(wǎng)絡(luò)規(guī)模和參數(shù)量的差異??紤]到網(wǎng)絡(luò)規(guī)模、訓(xùn)練時長及準(zhǔn)確率等因素,本文選擇了輕量級的YOLO v5s進(jìn)行改進(jìn)。通過調(diào)整了特征提取網(wǎng)絡(luò)的3×3卷積結(jié)構(gòu),引入RepVGG(Re-param VGG)[16]模塊,將CIOU[17]替換為SIOU[18],提高包裹檢測的準(zhǔn)確性和穩(wěn)定性。改進(jìn)的YOLO v5s網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 改進(jìn)的YOLO v5s網(wǎng)絡(luò)結(jié)構(gòu)
RepVGG重參數(shù)化思想是通過使用簡單、可重復(fù)的卷積構(gòu)建網(wǎng)絡(luò),本文將RepVGG模塊融合到Y(jié)OLO v5s骨干網(wǎng)絡(luò),替換原有的3×3卷積,RepVGG結(jié)構(gòu)如圖2所示。訓(xùn)練時,RepVGG使用多分支模型,增加模型的表征能力,圖2(a)是進(jìn)行下采樣(stride=2)時的結(jié)構(gòu),其中并行了一個卷積核大小為3×3的主分支和一個卷積核大小為1×1的shortcut分支,在推理時轉(zhuǎn)化為單路模型,即圖2(b),從而以更高的速度進(jìn)行推理,同時節(jié)省內(nèi)存。RepVGG具有可分離的卷積結(jié)構(gòu),它可以輕松部署到移動設(shè)備等資源受限的環(huán)境,適應(yīng)性更廣。
圖2 RepVGG結(jié)構(gòu)
通常目標(biāo)檢測網(wǎng)絡(luò)的Loss由分類損失、置信度損失和定位損失3部分組成。本文目標(biāo)檢測僅為包裹,為單目標(biāo)檢測,并無類別損失,檢測任務(wù)的Loss由包裹框損失和置信度損失組成。
第1部分為包裹框損失,記為Lossobj,損失函數(shù)為二元交叉熵(binary cross entropy,BCE),計(jì)算公式為
Lossobj=-(zlog(sigmoid(x))+(1-z)log(sigmoid(1-x)))
(1)
其中,x為網(wǎng)絡(luò)的預(yù)測值,使用Sigmoid函數(shù)將實(shí)數(shù)x映射到0到1之間的范圍,反應(yīng)當(dāng)前類別概率;z為真實(shí)的標(biāo)注信息,取值為0或1。
第2部分為反應(yīng)邊界框準(zhǔn)確度的損失,記為Lossbox。由于需要對包裹位置進(jìn)行準(zhǔn)確定位,預(yù)測框要盡可能貼合真實(shí)邊界,本文使用的邊界框損失函數(shù)為SIOU,它引入真實(shí)框和預(yù)測框之間的向量角度,有助于提高包裹檢測的準(zhǔn)確性和穩(wěn)定性,且計(jì)算速度較快。SIOU具體包含4部分,主要包括
1) 角度損失(angle cost),角度損失示意圖如圖3所示。其式為
(2)
圖3 角度損失示意圖
2) 距離損失(distance cost),距離損失示意圖如圖4所示。
距離損失表示為
(3)
3) 形狀損失(shape cost)定義為
(4)
4) IOU損失表示為
(5)
綜上所述,SIOU損失函數(shù)公式為
(6)
本文網(wǎng)絡(luò)訓(xùn)練環(huán)境為Windows操作系統(tǒng),Intel UGD Graphics 750、64GB內(nèi)存,顯卡為Tesla V100-PCIE顯存16GB,深度學(xué)習(xí)部分使用PyTorch框架。
為了快速檢測和定位快遞包裹,需要構(gòu)建數(shù)據(jù)集。本文通過在某郵局中心局拍攝采集的方式構(gòu)建數(shù)據(jù)集,自建數(shù)據(jù)集如圖5所示。數(shù)據(jù)集共有10 000張左右圖像,其中70%作為訓(xùn)練集,15%作為驗(yàn)證集,15%作為測試集。為了降低誤檢率,在測試集中加入了部分負(fù)樣本,利用標(biāo)注工具make-sense手工標(biāo)注目標(biāo)。
為了使訓(xùn)練模型具有最優(yōu)檢測效果,參考YOLO v5官方推薦權(quán)重參數(shù)及具體實(shí)驗(yàn),進(jìn)行適當(dāng)調(diào)整后,模型訓(xùn)練參數(shù)如表1所示。
表1 模型訓(xùn)練參數(shù)
在自建數(shù)據(jù)集上對改進(jìn)的YOLO v5s的進(jìn)行實(shí)驗(yàn)分析,不同方法的準(zhǔn)確率與召回率如表2所示,其中,方法1為將骨干網(wǎng)絡(luò)部分的3×3卷積調(diào)整為RepVGG模塊,方法2是在方法1的基礎(chǔ)上將CIOU替換為SIOU。由表2實(shí)驗(yàn)結(jié)果可知,與方法2相比,改進(jìn)的YOLO v5s的準(zhǔn)確率提高5.1%,召回率提高6.0%。
表2 不同方法的準(zhǔn)確率與召回率
根據(jù)訓(xùn)練日志繪制的模型邊界框損失函數(shù)值變化曲線,損失值變化過程如圖6所示。由圖6可以看出,在進(jìn)行到100次左右,改進(jìn)前后的YOLO v5s算法的損失值函數(shù)整體趨于平穩(wěn),模型收斂。改進(jìn)后的YOLO v5s損失函數(shù)值低于原模型,穩(wěn)定在0.016 7左右,最低值達(dá)0.016 2。
完成模型訓(xùn)練后,將YOLO v3、Faster-RCNN、YOLO v5s作為對比模型,在測試集上采用準(zhǔn)確率Precision、召回率Recall及每秒浮點(diǎn)運(yùn)算數(shù)FPS作為評定指標(biāo)進(jìn)行綜合測試。其中準(zhǔn)確率和召回率計(jì)算公式為
(7)
(8)
其中,TP是被正確檢測的正例,表示預(yù)測有包裹,實(shí)際有包裹;TN是被正確檢測的反例,表示預(yù)測無包裹,實(shí)際無包裹;FN為被錯誤檢測的反例,表示預(yù)測無包裹,實(shí)際有包裹;FP是被錯誤檢測的正例,表示預(yù)測有包裹,實(shí)際無包裹。對比試驗(yàn)結(jié)果如表3所示,包裹檢測示意圖如圖7所示。
表3 對比試驗(yàn)結(jié)果
圖7 包裹檢測示意圖
由表3可以看出,Faster-RCNN由于采用2個階段的檢測流程,需要進(jìn)行候選區(qū)域的生成、再分類和邊界框回歸等一系列計(jì)算,雖然準(zhǔn)確率和召回率略高于YOLO v3,但是其推理速度較慢,綜合性能均低于YOLO v5s及改進(jìn)的YOLO v5s算法。與YOLO v3和YOLO v5s相比,改進(jìn)的YOLO v5s算法準(zhǔn)確率分別提高了7.9%和5.1%,召回率分別提高了6.4%和6.0%。在檢測速度方面,改進(jìn)的YOLO v5s算法比Faster-RCNN快了8.8倍,比YOLO v3快2.9倍,比YOLO v5s快1.6倍。因此,改進(jìn)的YOLO v5s算法表現(xiàn)較優(yōu)越,在較高的檢測速度下,準(zhǔn)確率較高。改進(jìn)的YOLO v5s算法能夠更好更快的完成包裹檢測及定位的任務(wù),可適應(yīng)工業(yè)快遞傳送流水線上對包裹分揀的需求,為制定包裹分離策略起到重要支撐作用。
本文從包裹單件分離的實(shí)際問題出發(fā),分析了目前各種包裹單件分離技術(shù)的優(yōu)缺點(diǎn),提出了使用目標(biāo)檢測模型YOLO v5s算法進(jìn)行包裹的識別檢測,并進(jìn)行改進(jìn)。該算法在特征提取網(wǎng)絡(luò)融合RepVGG模塊,能夠在保持網(wǎng)絡(luò)性能的同時減少參數(shù)量;通過使用損失函數(shù)SIOU,提高了算法的準(zhǔn)確度和穩(wěn)定性。通過比較,改進(jìn)的模型具有較高的準(zhǔn)確率和較快的檢測速度,能夠滿足當(dāng)前包裹檢測任務(wù)的準(zhǔn)確性和實(shí)時性需求。該算法可用于零售業(yè)及倉儲管理等領(lǐng)域,優(yōu)化倉儲管理、包裹分揀和交付流程,也可推廣至對目標(biāo)檢測算法有高效準(zhǔn)確要求的領(lǐng)域,如安全監(jiān)控、智能機(jī)器人自動化等。下一步將完善數(shù)據(jù)集,進(jìn)一步優(yōu)化特征提取網(wǎng)絡(luò),提升網(wǎng)絡(luò)在更加復(fù)雜的場景下的檢測準(zhǔn)確率,并且將算法使用TensorRT框架進(jìn)行優(yōu)化加快推理速度,以便部署在嵌入式開發(fā)板上。