侯燦陽(yáng),朱北辰,吳 清
(華東理工大學(xué) 機(jī)械與動(dòng)力工程學(xué)院, 上海 201424)
皮革的缺陷檢測(cè)直接影響產(chǎn)品的質(zhì)量,為滿足日益增長(zhǎng)的客戶需求,確保皮革的生產(chǎn)質(zhì)量的重要性日益凸顯。皮革的種類繁多,缺陷的大小和外觀更是呈現(xiàn)出各種變化,這給目標(biāo)檢測(cè)任務(wù)帶來(lái)了許多困難。目標(biāo)檢測(cè)算法的發(fā)展大致分為2個(gè)階段,即傳統(tǒng)的目標(biāo)檢測(cè)方法和基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法。第一階段的研究主要集中在2000年前后,其間提出的方法大多基于滑動(dòng)窗口和傳統(tǒng)的特征工程,代表性成果有AdaBoost檢測(cè)器[1]、Viola-Jones檢測(cè)器[2]、HOG+SVM檢測(cè)器[3]、DPM檢測(cè)器[4]。這些檢測(cè)器在過去常被用于行人檢測(cè),并取得了不錯(cuò)的效果,因此具有一定的參考價(jià)值。
隨著深度學(xué)習(xí)方法的不斷發(fā)展與完善,國(guó)內(nèi)外運(yùn)用深度學(xué)習(xí)的方法進(jìn)行缺陷檢測(cè)的研究[5-7]也有所增加。由于缺乏皮革缺陷方面的數(shù)據(jù)庫(kù),這方面的應(yīng)用一直受到限制。Liong等[8]基于Mask R-CNN的方法,通過機(jī)械臂控制高清攝像頭實(shí)現(xiàn)自動(dòng)化缺陷檢測(cè)。該方法通過修改RPN(Region Proposal Network)的錨框尺寸使得網(wǎng)絡(luò)更適合檢測(cè)皮革的微小缺陷。然而該方法只針對(duì)孔洞這種單一缺陷,應(yīng)用范圍受到較大的限制。鄧杰航等[9]在ResNet50的基礎(chǔ)上進(jìn)行參數(shù)優(yōu)化。殘差結(jié)構(gòu)能夠很好地克服梯度消失和梯度爆炸的問題,使得更深的神經(jīng)網(wǎng)絡(luò)成為可能。然而該方法的檢測(cè)準(zhǔn)確率最終只達(dá)到92.34%,對(duì)于工業(yè)生產(chǎn)該精度仍需提高。丁彩紅等[10]提出以CNN為主、顯著性特征為輔的組合檢測(cè)方法。圖像先經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè),再通過顯著性特征進(jìn)行驗(yàn)證,以此提高線狀缺陷的預(yù)測(cè)準(zhǔn)確率。然而他們的方法最終只達(dá)到3.4 s/幀的預(yù)測(cè)速率,相比傳統(tǒng)算法雖然有顯著提高,但仍難以滿足工業(yè)需求。Nguyen等[11]研究指出,YOLO系列算法具有不亞于RetinaNet和Faster-RCNN的預(yù)測(cè)精度,且預(yù)測(cè)速度顯著高于這兩種方法,在速度和精度方面表現(xiàn)更加均衡。YOLOv5作為目前YOLO系列算法的前沿成果,可以較好地代表基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法。
本研究基于YOLOv5算法提出一種新的皮革缺陷檢測(cè)方法,并與傳統(tǒng)目標(biāo)檢測(cè)算法和其他深度學(xué)習(xí)算法進(jìn)行比較。為提高算法的檢測(cè)效果,在預(yù)訓(xùn)練后嘗試不同的微調(diào)方案,對(duì)比不同微調(diào)方案對(duì)檢測(cè)精度的影響。在測(cè)試階段采用集成學(xué)習(xí)和測(cè)試時(shí)增強(qiáng)的方法,分別檢驗(yàn)了集成學(xué)習(xí)和測(cè)試時(shí)增強(qiáng)的效果并嘗試將兩種方法結(jié)合使用,最終獲得了檢測(cè)性能優(yōu)越的模型。該模型可以滿足工業(yè)生產(chǎn)過程中的精度要求,同時(shí)檢測(cè)速度顯著高于傳統(tǒng)方法。
Dollar等[12]研究發(fā)現(xiàn),在假陽(yáng)率相等的條件下,HOG+SVM檢測(cè)器和DPM檢測(cè)器的漏檢率相比Viola-Jones檢測(cè)器有顯著降低。因此本研究嘗試使用HOG+SVM的方法進(jìn)行皮革缺陷檢測(cè),以檢驗(yàn)傳統(tǒng)目標(biāo)檢測(cè)方法對(duì)皮革缺陷的檢測(cè)效果。首先采用HOG算法提取特征,然后將HOG算法提取出的梯度方向分布特征用于支持向量機(jī)的訓(xùn)練,最后將訓(xùn)練出的模型用于皮革缺陷檢測(cè)。檢測(cè)過程中,通過縮放滑窗實(shí)現(xiàn)對(duì)多尺度特征的識(shí)別。值得一提的是,HOG算法將整張圖片均分為若干個(gè)大小相同的單元格,一定數(shù)量的單元格又組成一個(gè)區(qū)塊,HOG算法通過計(jì)算每個(gè)單元格內(nèi)的梯度方向分布,并在區(qū)塊內(nèi)進(jìn)行歸一化來(lái)減小光照變化等外界因素對(duì)檢測(cè)效果的影響。
與傳統(tǒng)的two-stage算法不同,YOLO算法無(wú)需生成候選區(qū),而是將輸入圖像均分為若干個(gè)網(wǎng)格,每個(gè)網(wǎng)格中包含一定數(shù)量的邊界框(bounding box, bbox)。通過對(duì)每個(gè)bbox進(jìn)行檢測(cè),得到每個(gè)種類的置信度(Confidence)和bbox的位置、尺寸,從而實(shí)現(xiàn)單步檢測(cè),加快預(yù)測(cè)速度。
Confidence=Pr(Classi|Object)×Pr(Object)×IOU
(1)
YOLOv5系列提供4種網(wǎng)絡(luò)模型(YOLOv5s,YOLOv5m,YOLOv5l,YOLOv5x),這4種網(wǎng)絡(luò)模型的架構(gòu)基本相同,區(qū)別在于模型深度及卷積核的個(gè)數(shù)。
YOLOv5的基本網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。在骨干網(wǎng)絡(luò)中,由空間金字塔池化結(jié)構(gòu)[13]改進(jìn)而來(lái)的SPPF(spatial pyramid pooling fast)結(jié)構(gòu)將輸入的特征圖分成4個(gè)部分,其中3個(gè)部分經(jīng)過5×5的卷積核進(jìn)行池化,最后將所有特征圖進(jìn)行拼接,從而融合不同尺度特征圖的信息。兩種Bottleneck模型分別被用于骨干網(wǎng)絡(luò)和頸部網(wǎng)絡(luò),區(qū)別主要在于殘差結(jié)構(gòu)的使用。骨干網(wǎng)絡(luò)中的BottleNeckCSP模塊借鑒于CSP網(wǎng)絡(luò)[14],主要由BottleNeck模塊組成,在特征提取中發(fā)揮關(guān)鍵作用。如圖1所示,骨干網(wǎng)絡(luò)中的Bottleneck模塊是一種殘差網(wǎng)絡(luò)結(jié)構(gòu),輸入特征圖尺寸等于輸出特征圖尺寸,這種結(jié)構(gòu)使得網(wǎng)絡(luò)深度得以增加,從而在保持網(wǎng)絡(luò)輕量化的前提下提取更多特征。此外,BottleNeck在卷積層間穿插使用批歸一化方法,以此加快網(wǎng)絡(luò)訓(xùn)練速度[15]。
為實(shí)現(xiàn)特征融合,YOLOv5在頸部網(wǎng)絡(luò)中借鑒了特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN)[16]和路徑聚合網(wǎng)絡(luò)(path aggregation network,PAN)[17],并且把PAN結(jié)構(gòu)中的捷徑操作修改為連接操作。FPN和PAN結(jié)構(gòu)形成互補(bǔ),融合淺層特征圖和深層特征圖的信息,從而提升多尺度特征檢測(cè)的性能。
遷移學(xué)習(xí)的基本思想是將在源域中學(xué)到的知識(shí)經(jīng)過微調(diào)后用于目標(biāo)域。唐李文等[18]和Christopher等[19]利用遷移學(xué)習(xí)的方法縮短了訓(xùn)練時(shí)間,同時(shí)提高了模型的預(yù)測(cè)精度。COCO(common objects in context)數(shù)據(jù)集[20]具有豐富的特征,因此常常作為遷移學(xué)習(xí)中的源域。Hou等[21]將COCO數(shù)據(jù)集的預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)用于人-物交互檢測(cè)的訓(xùn)練過程中,有效提高了模型的檢測(cè)精度。鑒于皮革缺陷數(shù)據(jù)有限,本研究提出一種基于遷移學(xué)習(xí)的方法,并將COCO數(shù)據(jù)集的預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)用于目標(biāo)域訓(xùn)練。
將特定層的梯度設(shè)置為0從而凍結(jié)特定層的參數(shù),并微調(diào)其他層參數(shù)的方法被廣泛應(yīng)用于遷移學(xué)習(xí)。通過微調(diào)可將從源域中學(xué)習(xí)到的知識(shí)轉(zhuǎn)化為適用于目標(biāo)域的知識(shí)。趙章焰等[22]關(guān)于起重機(jī)類型識(shí)別的研究表明,微調(diào)可以對(duì)模型的性能產(chǎn)生顯著的影響。為了獲得更好的模型性能,分別采用top-k和標(biāo)準(zhǔn)微調(diào)(standard fine-tuning)[23]策略對(duì)YOLOv5m的預(yù)訓(xùn)練模型進(jìn)行微調(diào)試驗(yàn)。在top-k策略中,預(yù)訓(xùn)練模型的前k層參數(shù)被凍結(jié),其他參數(shù)得到微調(diào);而在標(biāo)準(zhǔn)微調(diào)策略中,則對(duì)所有層的所有參數(shù)都進(jìn)行微調(diào)。
為進(jìn)一步提高預(yù)測(cè)性能,本研究還采用了集成學(xué)習(xí)的方法。集成學(xué)習(xí)的基本思想是通過合成多個(gè)基學(xué)習(xí)器[24]來(lái)產(chǎn)生最終的預(yù)測(cè)結(jié)果。龔安等[25]利用集成學(xué)習(xí)的方法將ImageNet上預(yù)訓(xùn)練的多個(gè)神經(jīng)網(wǎng)絡(luò)模型結(jié)合,在皮膚鏡圖像分類領(lǐng)域獲得較好的分類效果。本研究將經(jīng)過預(yù)訓(xùn)練和微調(diào)后的3種模型框架(YOLOv5s、YOLOv5m、YOLOv5l)作為基學(xué)習(xí)器,最后通過非極大值抑制(non-max suppression,NMS)的方法將各基學(xué)習(xí)器的預(yù)測(cè)結(jié)果進(jìn)行合并從而得到最終的檢測(cè)結(jié)果。非極大值抑制的方法通過拋棄置信度較低、交并比較高的bbox來(lái)消除多余的bbox。
受數(shù)據(jù)擴(kuò)增方法的啟發(fā),測(cè)試時(shí)增強(qiáng)(test-time augmentation, TTA)通過在預(yù)測(cè)時(shí)對(duì)原始圖像進(jìn)行裁剪、旋轉(zhuǎn)、縮放等若干種變換,再將這些圖像分別進(jìn)行預(yù)測(cè)后得到的結(jié)果進(jìn)行合并,從而得到最后的預(yù)測(cè)結(jié)果。Wang等[26]提出一種描述測(cè)試時(shí)增強(qiáng)的理論公式,并通過試驗(yàn)證明TTA有助于消除過度自信的錯(cuò)誤預(yù)測(cè)。Moshkov等[27]運(yùn)用鏡像和旋轉(zhuǎn)兩種變化評(píng)估了TTA方法在熒光顯微鏡數(shù)據(jù)集和組織病理學(xué)圖像數(shù)據(jù)集上的表現(xiàn)。其試驗(yàn)結(jié)果表明,TTA方法在大多數(shù)情況下能夠提高分割精度,特別是在訓(xùn)練樣本較少的時(shí)候。因此,TTA對(duì)于皮革缺陷檢測(cè)任務(wù)具有一定的參考價(jià)值。本研究采用水平鏡像和尺寸縮放對(duì)測(cè)試集進(jìn)行TTA處理。擴(kuò)增后的圖像經(jīng)YOLO網(wǎng)絡(luò)預(yù)測(cè)后恢復(fù)到原本的尺寸并將預(yù)測(cè)結(jié)果融合,最后通過NMS剔除多余bbox,產(chǎn)生最終結(jié)果。
考慮到樣本數(shù)量較少,劃分后的數(shù)據(jù)集可能難以代表全體樣本,易產(chǎn)生過擬合的問題,本研究采用K折交叉驗(yàn)證的方法對(duì)數(shù)據(jù)集進(jìn)行劃分。在K折交叉驗(yàn)證中,數(shù)據(jù)集被劃分為K個(gè)大小相等的部分。隨后執(zhí)行K次訓(xùn)練和測(cè)試,在每次迭代中部分?jǐn)?shù)據(jù)集用于測(cè)試,其他K-1部分?jǐn)?shù)據(jù)被用于訓(xùn)練。最終,對(duì)K次預(yù)測(cè)的結(jié)果取平均作為最終的預(yù)測(cè)結(jié)果。交叉驗(yàn)證的方法能夠很好地評(píng)估檢測(cè)器的泛化能力。在本研究中,數(shù)據(jù)集被等量劃分為5份(K=5),以實(shí)現(xiàn)交叉驗(yàn)證。圖2為數(shù)據(jù)集的劃分方法。此外,為提高預(yù)測(cè)性能,本研究通過平移、旋轉(zhuǎn)、灰度變換等55種方式對(duì)訓(xùn)練集進(jìn)行數(shù)據(jù)擴(kuò)增,最終將訓(xùn)練集擴(kuò)充至2 970張圖片。圖3展示了本研究提出的改進(jìn)方法。
圖3 改進(jìn)方法Fig.3 Improved method
軟件配置為Win10操作系統(tǒng)。顯卡驅(qū)動(dòng)為NVIDIA Tesla P100-PCIE(16281 MIB);深度學(xué)習(xí)框架采用PyTorch-1.7.1;使用Labelimg作為標(biāo)注工具。
2.2.1 皮革缺陷數(shù)據(jù)集
皮革缺陷數(shù)據(jù)集[28]包括89張含有缺陷的皮革圖像以及600張不含缺陷的皮革圖像,圖像大小均為1 024×1 024。數(shù)據(jù)集中包含5種主要缺陷,分別是劃痕、孔洞、色雜、膠黏和褶皺。89張包含缺陷的圖片按6∶2∶2的比例劃分到訓(xùn)練集、驗(yàn)證集和測(cè)試集中,然后對(duì)訓(xùn)練集的圖片進(jìn)行數(shù)據(jù)擴(kuò)增。此外,訓(xùn)練集中加入了一些不含缺陷的皮革圖像,作為背景圖片以提高訓(xùn)練表現(xiàn),降低假陽(yáng)率。圖4為這個(gè)數(shù)據(jù)集中具有代表性的幾張圖片。
圖4 皮革缺陷數(shù)據(jù)集中的部分圖片F(xiàn)ig.4 Some pictures in leather defect dataset
2.2.2 COCO數(shù)據(jù)集
COCO數(shù)據(jù)集[20]是由Microsoft提供的一個(gè)大規(guī)模對(duì)象檢測(cè)、分割數(shù)據(jù)集。該數(shù)據(jù)集包含80種不同的物體,由32.8萬(wàn)張圖片組成。
準(zhǔn)確率(precision,P)、召回率(recall,R)、全類平均精度(mean average precision,mAP)、F1值等指標(biāo)常常用于評(píng)估目標(biāo)檢測(cè)算法的性能??紤]到實(shí)際生產(chǎn)要求,采用P、R、mAP50作為評(píng)估標(biāo)準(zhǔn)。
(2)
式中:TP為被準(zhǔn)確預(yù)測(cè)為含有相應(yīng)缺陷的樣本數(shù),FP則為被錯(cuò)誤預(yù)測(cè)為含有相應(yīng)缺陷的樣本數(shù)。
(3)
式中:FN為被錯(cuò)誤預(yù)測(cè)為不含相應(yīng)缺陷的樣本數(shù)。
(4)
式中:P(R)為R的函數(shù)。幾何意義為當(dāng)NMS閾值為50%時(shí),P(R)曲線下覆蓋的面積。
2.4.1 HOG+SVM的檢測(cè)效果
部分準(zhǔn)確檢測(cè)結(jié)果如圖5所示,可見傳統(tǒng)的方法有時(shí)也能精確地定位缺陷。但在大多數(shù)情況下傳統(tǒng)方法的表現(xiàn)并不好。如圖6所示,傳統(tǒng)方法在檢測(cè)出缺陷的同時(shí),常常也將沒有缺陷的部位標(biāo)記為缺陷。然而嘗試通過提高分類器的閾值來(lái)降低假陽(yáng)率時(shí),又常常出現(xiàn)漏檢的問題(見圖7)。此外,由于HOG特征提取算法在預(yù)處理時(shí)對(duì)圖像進(jìn)行了灰度化處理,導(dǎo)致檢測(cè)器對(duì)于雜色缺陷的分辨能力較差(見圖8)。除了上述問題,傳統(tǒng)的HOG+SVM方法對(duì)大尺度缺陷的檢測(cè)效果同樣較差。例如,有時(shí)邊界框沒有包含整個(gè)缺陷,有時(shí)邊界框又比實(shí)際缺陷大得多(見圖9)。HOG算法提取的是檢測(cè)區(qū)域內(nèi)梯度的方向分布特征,這類特征主要反映目標(biāo)邊緣的取向信息。由于行人在圖片中往往是以直立的形式出現(xiàn),在豎直方向上具有較為獨(dú)特的邊緣特征,因此這類傳統(tǒng)的目標(biāo)檢測(cè)算法多用于行人檢測(cè)任務(wù)。然而皮革缺陷不同于行人,多數(shù)皮革缺陷的邊緣沒有明顯的取向規(guī)律,并且皮革缺陷的形式復(fù)雜多變,因此將傳統(tǒng)的目標(biāo)檢測(cè)算法運(yùn)用于皮革缺陷檢測(cè)時(shí)難以取得良好的效果,最終檢測(cè)精度和召回率均不足50%。此外,傳統(tǒng)方法的檢測(cè)速率僅為27.5 s/幀,無(wú)法滿足實(shí)際生產(chǎn)要求。
圖5 精確的預(yù)測(cè)結(jié)果示例Fig.5 Samples of correct detection results
圖6 假陽(yáng)問題示例Fig.6 Samples of false positive detection
圖7 漏檢問題示例Fig.7 Samples of false negative detection
圖8 部分色雜缺陷檢測(cè)結(jié)果Fig.8 Some detection results of color defect
圖9 部分褶皺缺陷檢測(cè)結(jié)果Fig.9 Some detection results of wrinkle defect
2.4.2 遷移學(xué)習(xí)+微調(diào)
以YOLOv5m為試驗(yàn)?zāi)P?以不進(jìn)行遷移學(xué)習(xí)得到的檢測(cè)結(jié)果(scratch-m)為對(duì)照,采用top-2、top-4和標(biāo)準(zhǔn)微調(diào)策略分別進(jìn)行微調(diào),觀察不同微調(diào)策略的效果,試驗(yàn)結(jié)果如表1所示。由表1可看出,標(biāo)準(zhǔn)微調(diào)和top-4策略都可以提高模型的預(yù)測(cè)能力,而top-2策略的表現(xiàn)較差。top-4策略可得到較高的精度,但召回率和mAP50均不如標(biāo)準(zhǔn)微調(diào)的測(cè)試結(jié)果。由此可見,重復(fù)利用從其他領(lǐng)域?qū)W習(xí)到的低層特征未必能夠提高模型性能?;诖嗽囼?yàn)結(jié)果,將在接下來(lái)的集成學(xué)習(xí)中采用標(biāo)準(zhǔn)微調(diào)的方法對(duì)所有基學(xué)習(xí)器進(jìn)行微調(diào)。
表1 不同微調(diào)策略對(duì)比
2.4.3 集成學(xué)習(xí)
將3種經(jīng)過遷移學(xué)習(xí)、微調(diào)后的基學(xué)習(xí)器進(jìn)行組合,測(cè)試各種組合的預(yù)測(cè)性能,結(jié)果見表2(表中,s、m、l分別表示YOLOv5s、YOLOv5m、YOLOv5l,下同)。試驗(yàn)中,以不進(jìn)行集成學(xué)習(xí)的YOLOv5l模型為對(duì)照組(scratch-l),來(lái)驗(yàn)證其他集成方法的效果。從表2可以看出,不同的集成學(xué)習(xí)方案總體上都能提高模型性能,其中YOLOv5s+YOLOv5m+YOLOv5l集成模型在所有選定的性能指標(biāo)上都顯著優(yōu)于對(duì)照組。但考慮到部分方案的推理時(shí)間過長(zhǎng),且YOLOv5s+YOLOv5l集成模型以及YOLOv5s+YOLOv5m集成模型在各方面表現(xiàn)更加均衡,最終選擇YOLOv5s+YOLOv5l模型作為集成學(xué)習(xí)方案。
表2 不同集成學(xué)習(xí)策略效果比較Table 2 Comparison of different ensemble method
2.4.4 測(cè)試時(shí)增強(qiáng)
對(duì)比YOLOv5的3種模型架構(gòu)(YOLOv5s、YOLOv5m、YOLOv5l)在使用測(cè)試時(shí)增強(qiáng)前后的表現(xiàn),試驗(yàn)結(jié)果如表3所示。由表3可知,在大多數(shù)情況下,運(yùn)用TTA的方法能夠提高精度、召回率和mAP50等性能指標(biāo),尤其是mAP50。
表3 測(cè)試時(shí)增強(qiáng)前后性能比較Table 3 Performance comparison before and after TTA %
2.4.5 集成學(xué)習(xí)與測(cè)試時(shí)增強(qiáng)并用
檢驗(yàn)測(cè)試時(shí)增強(qiáng)和集成學(xué)習(xí)并用的效果,并結(jié)合所有試驗(yàn)結(jié)果選出綜合性能最優(yōu)的模型。試驗(yàn)結(jié)果如表4所示。結(jié)合表2~4可知,雖然單獨(dú)采用TTA策略和單獨(dú)采用集成學(xué)習(xí)策略時(shí)模型的性能都有所改善,但將兩者結(jié)合使用時(shí)卻無(wú)法產(chǎn)生更好的結(jié)果。在Moshkov等[27]的研究中也出現(xiàn)了部分樣本的預(yù)測(cè)精度在采用TTA方法后有所下降的現(xiàn)象。這表明測(cè)試時(shí)增強(qiáng)可能將一些正確的預(yù)測(cè)變?yōu)殄e(cuò)誤的結(jié)果。此外,TTA的方法顯著降低了預(yù)測(cè)速度,因此并不適用于工業(yè)應(yīng)用。結(jié)合上述所有試驗(yàn)結(jié)果,選擇預(yù)訓(xùn)練和標(biāo)準(zhǔn)微調(diào)后的YOLOv5s+YOLOv5l集成模型作為最優(yōu)模型。
表4 TTA+集成學(xué)習(xí)效果Table 4 Effectiveness of TTA+ensemble
2.4.6 檢測(cè)效果
圖10展示了本文方法(最優(yōu)模型)對(duì)部分缺陷試樣的檢測(cè)效果。表5為本文方法與其他深度學(xué)習(xí)算法的性能比較。由表5可知,本文算法在精度、召回率和平均精度方面相比RetinaNet和YOLOv5l均有顯著提高,檢測(cè)速度則是略低于YOLOv5l。此外,相比RetinaNet,本文方法能將每幀預(yù)測(cè)時(shí)間縮短約14 ms。
表5 本文方法與其他深度學(xué)習(xí)算法比較Table 5 Comparison with other deep learning algorithms
針對(duì)傳統(tǒng)皮革缺陷檢測(cè)方法檢測(cè)速度低、小樣本下泛化能力差的缺點(diǎn),基于YOLOv5算法提出了一種結(jié)合遷移學(xué)習(xí)和集成學(xué)習(xí)的皮革缺陷檢測(cè)方法。試驗(yàn)結(jié)果表明:基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法相比傳統(tǒng)方法在檢測(cè)精度和速度方面均具有顯著優(yōu)勢(shì)。遷移學(xué)習(xí)、集成學(xué)習(xí)、測(cè)試時(shí)增強(qiáng)對(duì)于模型的預(yù)測(cè)表現(xiàn)均有顯著提升作用。標(biāo)準(zhǔn)微調(diào)相比其他微調(diào)策略能夠達(dá)到更優(yōu)越的性能,YOLOv5s+YOLOv5l的集成策略能夠在速度和精度間取得較為均衡的表現(xiàn)。由于集成學(xué)習(xí)與測(cè)試時(shí)增強(qiáng)的組合并不能提升模型預(yù)測(cè)精度,并且測(cè)試時(shí)增強(qiáng)的引入增加了預(yù)測(cè)時(shí)間,因此拋棄了測(cè)試時(shí)增強(qiáng)的方法。本研究提出的方法不僅能達(dá)到96.58%的檢測(cè)精度,而且在預(yù)測(cè)速度上優(yōu)于傳統(tǒng)算法,每幀預(yù)測(cè)時(shí)間低至24 ms,可滿足工業(yè)生產(chǎn)的要求。由于所采用的皮革數(shù)據(jù)集并不能很好地涵蓋實(shí)際中可能出現(xiàn)的各種缺陷,因此進(jìn)一步獲取大量、具有多樣性的樣本是推廣應(yīng)用的重點(diǎn)。