国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于PPYOLOE的師生互助訓練半監(jiān)督目標檢測網(wǎng)絡

2024-03-29 02:27張國山魏金滿
關鍵詞:圖像增強標簽損失

張國山,魏金滿

基于PPYOLOE的師生互助訓練半監(jiān)督目標檢測網(wǎng)絡

張國山,魏金滿

(天津大學電氣自動化與信息工程學院,天津 300072)

隨著深度學習技術的發(fā)展,基于卷積神經(jīng)網(wǎng)絡的目標檢測技術成為當前計算機視覺領域的研究熱點之一.目前主流的目標檢測算法依賴于監(jiān)督學習方式,需要在大量有標注圖像數(shù)據(jù)上訓練網(wǎng)絡,然而,無標簽的數(shù)據(jù)易于獲取,而有標簽的數(shù)據(jù)收集起來通常很困難,標注也耗時和耗力.為了解決數(shù)據(jù)標注難以獲取的問題,提出了教師學生互助訓練的半監(jiān)督目標檢測(PPYOLOE-SSOD)算法.首先,同時訓練一個學生模型和逐漸改進的教師模型,使用教師模型篩選高質量偽標簽,將偽標簽作為未標注圖像的回歸目標,指導學生模型訓練,挖掘未標注圖像的知識信息,為了減小參數(shù)傳遞的不穩(wěn)定性,每次迭代學生模型使用指數(shù)移動平均方法更新教師模型參數(shù);此外,引入不同種類的半監(jiān)督數(shù)據(jù)增強方法來增強網(wǎng)絡的抗干擾能力;最后,針對無標注數(shù)據(jù)的學習,新增無監(jiān)督學習分支,使用密集學習方式對模型預測得到的特征進行處理,通過對教師模型預測的分類特征排序,自動選擇高質量特征作為教師模型生成的偽標簽,從而避免了繁瑣的偽標簽后處理,提升網(wǎng)絡的精度和訓練速度.在MS COCO 數(shù)據(jù)集上,通過使用半監(jiān)督學習方法,PPYOLOE 在1%、5%、10%的標注數(shù)據(jù)集上分別得到了1.4%、1.6%、2.1%的精度提升.與其他半監(jiān)督目標檢測算法比較,PPYOLOE-SSOD算法的精度達到最優(yōu).代碼已開源在https://github.com/wjm202/ PPYYOLOE-SSOD.

半監(jiān)督學習;目標檢測;PPYOLOE;師生互助訓練

目前使用全監(jiān)督學習方法的目標檢測[1-3]技術已經(jīng)發(fā)展到瓶頸,僅使用有標注數(shù)據(jù)集難以使檢測模型性能得到進一步提升,同時在部分下游任務的訓練中,存在實例級數(shù)據(jù)標注難以獲取的問題,因此使用有標注數(shù)據(jù)和無標注數(shù)據(jù)相結合的半監(jiān)督學習方法[4-6]得到了廣泛關注.當前的半監(jiān)督學習方法主要分為以下3步:①使用有標注數(shù)據(jù)訓練一個基線教師模型;②使用基線教師模型對無標注數(shù)據(jù)進行預測;③將無標注數(shù)據(jù)預測后的結果送入學生模型進行訓練.

與知識蒸餾[7]不同,半監(jiān)督學習的教師學生模型均采用相同的模型結構.半監(jiān)督學習常用的訓練方法大致可以分為兩類:一類是一致性正則化,該方法通過對未標記的圖像施加不同的擾動來構建正則化損失,鼓勵對同一圖像的不同擾動來產(chǎn)生類似的預測,其中擾動包括模型級擾動[8]、圖像增強[9-12]和對抗性訓練[13];另一類是自我訓練,又名偽標記方法,教師模型使用弱圖像增強數(shù)據(jù)為預測結果打上偽標簽,而利用強圖像增強的數(shù)據(jù)送給學生模型訓練,然后與已標記的數(shù)據(jù)聯(lián)合訓練模型.在偽標記方法中,偽標簽通常使用基于置信度的閾值過濾處理,教師模型只能保留具有高置信度的圖像作為偽標簽.

近年來應用有標數(shù)據(jù)和無標數(shù)據(jù)訓練網(wǎng)絡的半監(jiān)督學習取得了重要進展,但是大部分研究都聚焦于圖像分類任務,對于需要大量注釋的目標檢測任務少有涉及.文獻[14]作為半監(jiān)督目標檢測的最先一批的算法,它首先通過預先訓練好的模型生成偽標簽,然后將它們反饋給網(wǎng)絡,并通過調整損失函數(shù)比重進行模型微調.文獻[15]為未標記的數(shù)據(jù)引入了更復雜的增強功能,包括Mix-up和Mosiac.目前的這些半監(jiān)督目標檢測方法,均是在Faster-RCNN[16]進行的實驗,目前尚無在YOLO[17]系列的目標檢測模型上相關的半監(jiān)督目標檢測工作.相比Faster-RCNN,YOLO系列模型兼具速度快和精度高的優(yōu)點,最新推出的YOLO系列模型PPYOLOE,在MS COCO[18]數(shù)據(jù)集中已經(jīng)接近目前基于CNN[19]的目標檢測算法的最高精度,因此將半監(jiān)督學習應用到YOLO系列模型中,將可能突破模型精度提升的瓶頸,考慮到YOLO模型的復雜結構,將半監(jiān)督學習方法應用到YOLO系列不是一件簡單的工作.

本文采用師生互助訓練方式,設計了在線偽標簽更新的半監(jiān)督學習框架PPYOLOE-SSOD,在該框架中教師能夠實時向學生模型傳遞偽標簽,并進行教師模型參數(shù)的實時更新,提高了模型的訓練速度和精度;此外,本文改進了無監(jiān)督分支的偽標簽策略,在分類分支引入質量焦點損失(quality focal loss)[20],并在回歸分支引入分布焦點損失(distribution focal loss)[21],使用更適合于YOLO系列無錨框密集檢測器的密集偽標簽方案,避免了冗余的后處理,使訓練速度和精度得到提升;之后,本文為半監(jiān)督目標檢測框架設計了多種強數(shù)據(jù)增強和弱數(shù)據(jù)增強,通過對輸入圖像施加不同程度的擾動,降低網(wǎng)絡過擬合到少量標注數(shù)據(jù)的風險.在MS COCO數(shù)據(jù)集上的實驗表明,在1%、5%、10%的標注數(shù)據(jù)上精度分別能夠提升1.4%、1.6%、2.1%,充分證明了本文方法的有效性.

1?相關工作

1.1?YOLO系列目標檢測

單級目標探測器由于其優(yōu)異的速度和精度的權衡而在實時應用中非常流行.在單級探測器中,最突出的體系結構是YOLO系列[22-24].YOLO目標檢測算法的核心在于模型的體積小,計算速度快.它可以通過神經(jīng)網(wǎng)絡直接輸出邊界框的位置和類別.自YOLO模型提出以來,YOLO系列標檢測器在網(wǎng)絡結構、標簽分配等方面都發(fā)生了巨大的變化.YOLO系列檢測器通常由兩部分組成:一個是提取特征的主干網(wǎng)絡,即基礎網(wǎng)絡,一般在ImageNet數(shù)據(jù)集上進行預訓練;另一個是預測對象類別和邊界框的頭部.近幾年,頸部被構建在主干與頭部之間,用于匯集不同的特征圖.以往的YOLO模型以基于錨定的方式分配地面真值框(GTbox).然而,錨框機制引入了許多超參數(shù),并依賴于手工設計,基于上述原因,PP-YOLOv2[25]中引入了無錨框方法.此外為了得到全局最優(yōu)的分配策略,YOLOX[26]引入了先進的動態(tài)標簽分配方法SIMOTA,以提高標簽匹配的準確度,在精度方面顯著優(yōu)于YOLOv5[27].

1.2?半監(jiān)督目標檢測

2?本文算法

圖1展示了本文的半監(jiān)督算法結構,本文使用的半監(jiān)督算法框架總共包含兩個PPYOLOE模型,分別被稱作學生模型和教師模型.在訓練過程中有標注圖像和經(jīng)過強圖像增強的未標注圖像被送入學生模型中,經(jīng)過弱圖像增強的未標注圖像被送入教師模型中,將教師模型的預測結果作為偽標簽來指導學生模型訓練.學生模型通過標記圖像和未標記圖像的檢測損失來學習.學生模型參數(shù)通過指數(shù)移動平均方法(EMA)[32]對教師模型的參數(shù)進行更新.損失函數(shù)的計算為

圖1? PPYOLOE-SSOD半監(jiān)督檢測算法流程

教師模型在訓練過程中只進行偽標簽推理,不進行梯度反向傳播,EMA參數(shù)更新為

2.1?PPYOLOE介紹

本文的半監(jiān)督目標檢測算法所選用的基準模型是PPYOLOE的s版本,其網(wǎng)絡結構如圖2所示. PPYOLOE在速度和準確性權衡方面優(yōu)于YOLOv5和YOLOX.在640×640的分辨率下,PPYOLOE-s的mAP=43.7,F(xiàn)PS=208.3.在特征提取網(wǎng)絡部分其保持著優(yōu)越的泛化能力和訓練速度,設計了CSPRepResNet作為主干網(wǎng)絡,頸部網(wǎng)絡也采用了新設計的CSPPAN,通過神經(jīng)網(wǎng)絡寬度乘法和深度乘法靈活地配置模型的大?。甈PYOLOE的頭部網(wǎng)絡可以認為是任務相關的自回歸模塊,由于分類和回歸需要關注的高層語義特征不同,PPOYOLOE將輸入的特征解碼成回歸任務和分類任務相關的特征,使用ESE模塊替換TOOD[33]中的層注意力模塊,將分類分支的對齊簡化,將回歸分支的損失函數(shù)替換為分布焦點損失,以TOOD中的頭部網(wǎng)絡為基礎去掉冗余的卷積,引入解耦特征結構和通道層的自注意力機制,來提取更加細致的特征.

圖2?PPYOLOE算法結構

2.2?無監(jiān)督標簽匹配策略:密集偽標簽

以往的目標檢測算法選擇教師模型預測的分類分數(shù)大于指定分類分數(shù)閾值的預測框作為偽標簽,并經(jīng)過非極大值抑制處理(NMS)后送入學生模型進行損失計算,然而這種方法不僅對模型的非極大值抑制參數(shù)的選擇有苛刻的要求,還會造成一定的監(jiān)督信息損失.如圖3所示,本文對訓練集上的圖像進行了偽標簽的可視化,通過修改密集偽標簽的學習區(qū)域,可以通過選擇額外的樣本來很容易地實現(xiàn)硬負挖掘,綠色點表示地面真值框的特征點分布,紅色點和藍色點分別表示采用NMS 和密集偽標簽的方式特征點分布.經(jīng)過NMS后大部分特征點被過濾掉,造成了一定量的監(jiān)督信息損失,而密集偽標簽很好地保留了物體的關鍵信息.

與經(jīng)過NMS選取的硬標簽不同,密集偽標簽的分類分數(shù)表示連續(xù)值(值在0~1之間),由于PPYOLOE所使用的分類損失函數(shù)變焦點損失(varifocal loss)只能處理離散的二進制值(0或1),本文改進了質量焦點損失作為無監(jiān)督部分的分類損失函數(shù),其計算式為

圖3 使用NMS閾值過濾的偽標簽選擇策略與密集偽標簽選擇策略對比

步驟1 統(tǒng)計最后一層特征層的特征點數(shù),=××(和表示特征層的長和寬,表示訓練批次).

步驟2 選取前×作為保留的特征點數(shù)量.

步驟3 根據(jù)個特征點所預測的訓練集類別中的最大值進行排序,選擇分類分數(shù)最大的前×個特征點作為計算無監(jiān)督損失值的特征點.

步驟4 根據(jù)前×個特征點的索引值選擇對應的方框和分類分數(shù).

步驟5 計算無監(jiān)督部分的分類損失和回歸損失,分類損失函數(shù)和回歸損失函數(shù)以及額外的分布焦點損失函數(shù)的表示分別為

2.3?圖像增強策略

在引入未標注數(shù)據(jù)學習時,由于缺乏監(jiān)督信息,這些未標注數(shù)據(jù)很容易關注模型的訓練偏離的有效目標,由于模型的學習能力本身較強,從而導致模型在半監(jiān)督學習中過擬合大量的未標注數(shù)據(jù),并且由于YOLO系列模型缺乏二級檢測器對預測框的二次處理,本文重新設計了PPYOLOE的圖像增強策略.

本文對教師模型和學生模型分別使用不同強度的圖像增強,具體地,對教師模型的輸入采用弱圖像增強(圖像旋轉、圖像縮放等),保證偽標簽的質量;而對學生的輸入,采用強圖像增強(高斯噪聲、顏色抖動、隨機擦除和灰度變換等),增加學生模型的訓練難度,防止過擬合.在訓練過程中所使用的圖像增強效果如圖4所示,圖4(a)表示沒經(jīng)過圖像增強的圖像(原圖),圖4(b)、(c)、(d)、(e)分別表示經(jīng)過高斯噪聲、顏色抖動、隨機擦除和灰度變換后的圖像.

(a)原圖 (b)高斯噪聲 (c)顏色抖動 (d)隨機擦除 (e)灰度變換

圖4?教師模型所使用的強數(shù)據(jù)增強

Fig. 4?Strong data augmentations used in the teacher model

2.4?實時更新偽標簽和模型參數(shù)的方法

如圖5(a)所示,在以往的半監(jiān)督圖像分類方法中通常用有標注數(shù)據(jù)訓練一個教師模型;生成偽標簽,將無標注數(shù)據(jù)輸入進教師網(wǎng)絡中,得到的目標框預測結果,將這些目標框預測結果作為偽標簽存儲在偽標簽庫中,待所有的未標記圖像均被打上偽標簽后使用這些偽標簽重新載入到數(shù)據(jù)加載器中進行模型的無監(jiān)督訓練.然而這種方法無法做到隨著訓練進程實時更新偽標簽,導致在模型的性能有所提高時,下一個迭代的偽標簽的質量沒能做到及時更新,因此本文重新設計半監(jiān)督算法的偽標簽標注流程,如圖5(b)所示,本文新建立了用于半監(jiān)督兩種數(shù)據(jù)加載器,一種是用于傳遞監(jiān)督數(shù)據(jù)的加載器,另一種是無監(jiān)督數(shù)據(jù)加載器.無監(jiān)督數(shù)據(jù)加載器在每個迭代分別向教師模型和學生模型送入同一未標記圖像,并在該迭代直接對教師的偽標記計算損失值,更新學生參數(shù),之后教師模型的參數(shù)會通過EMA方式同步得到更新,使教師模型下一迭代得到的偽標簽有更高的質量.

(a)離線更新偽標簽和模型參數(shù)方法

(b)實時更新偽標簽和模型參數(shù)方法

圖5?偽標簽更新方法比較

Fig.5?Comparison of pseudo label update methods

3?實驗結果與分析

3.1?實驗數(shù)據(jù)集

本文在目標檢測公開數(shù)據(jù)集MS COCO和PASCAL VOC數(shù)據(jù)集上驗證所提方法的有效性,MS COCO數(shù)據(jù)集包含 80個目標類別,它包含約115000 張訓練圖像、5000張驗證圖像本文使用訓練集(train2017)訓練,使用驗證集(val2017)進行評估.PASCAL VOC數(shù)據(jù)集則使用VOC07 test數(shù)據(jù)集評估.在目標檢測中,因為有物體定位框,圖像分類中的精度并不適用,本文使用均值平均精度(mean of average precision,mAP)作為評價指標,均值平均精度表示所有類別的平均精度求和除以所有類別.

3.2?實施細節(jié)

本文代碼使用PPYOLOE在obj365數(shù)據(jù)集上的預訓練,用8張23G P40顯卡訓練模型在前80批次進行全監(jiān)督訓練,在這個訓練過程中,不使用無標注數(shù)據(jù),學習策略使用動量=0.9和權重衰減系數(shù)=0.0005的隨機梯度下降(SGD),基礎學習率為0.01,使用余弦學習速率調度,總時間段為80批次,預熱階段為3批次,在預熱階段使用ATSSAssigner靜態(tài)匹配策略,在預熱階段后,使用TaskAlignedAssigner動態(tài)策略,總批次為64.在經(jīng)過80批次的全監(jiān)督訓練后,開啟半監(jiān)督訓練,對學生模型和教師模型分別載入全監(jiān)督階段訓練好的權重參數(shù),在此過程中向學生模型送入有標注數(shù)據(jù)以及經(jīng)過強圖像增強的未標注數(shù)據(jù),向教師模型送入經(jīng)過弱圖像增強的未標注數(shù)據(jù),在半監(jiān)督訓練過程持續(xù)80批次,使用TaskAlignedAssigner動態(tài)策略基本學習率為0.01,無監(jiān)督部分的總批次為128,有監(jiān)督部分的總批次同樣為128.無監(jiān)督部分和有監(jiān)督部分權重為1∶1,無監(jiān)督部分的分類損失、回歸損失和DFL損失比為1.0∶2.5∶0.5.

3.3?方法有效性驗證

本文方法和PPYOLOE-s的全監(jiān)督訓練結果以及其他半監(jiān)督目標檢測算法在MS COCO數(shù)據(jù)集和PASCAL VOC數(shù)據(jù)集上進行了比較.遵循STAC的有效性驗證方式,使用MS COCO數(shù)據(jù)集的訓練集train2017中的1%、5%和10%的圖像采樣作為標記的訓練數(shù)據(jù),以train2017剩余的未采樣圖像作為未標記訓練數(shù)據(jù).對于所有比例的標注數(shù)據(jù)集,STAC隨機抽取5個不同的數(shù)據(jù)組,得到的最終的性能指標是這5個數(shù)據(jù)組上的平均值.實驗結果如表1所示,在使用1%、5%和10%的訓練集數(shù)據(jù)作為有標記數(shù)據(jù)集進行半監(jiān)督訓練,PPYOLOE模型精度mAP分別提升了1.4%、1.6%、2.1%.使用PASCAL VOC數(shù)據(jù)集的VOC07數(shù)據(jù)集作為有標注數(shù)據(jù),VOC12作為無標注數(shù)據(jù),實驗結果如表2所示.在半監(jiān)督訓練中,PPYOLOE模型精度mAP提升了5.3%.

3.4?消融實驗

所有消融實驗均是在訓練集的10%作為有標注數(shù)據(jù)其余作為無標注數(shù)據(jù)的設置下進行的,本文對所使用的無監(jiān)督學習密集偽偽標簽選擇策略與其他半監(jiān)督目標檢測算法中的硬標簽選擇策略非極大值抑制進行了比較,使用密集偽標簽選擇策略相比于硬標簽選擇策略,mAP提升了0.4%,訓練速度由平均訓練2.4張/s,提升至平均訓練3.1張/s.

表1 PPYOLOE-SSOD在MS COCO數(shù)據(jù)集半監(jiān)督訓練精度提升效果

Tab.1 PPYOLOE-SSOD accuracy improvement effect in MS COCO

表2 PPYOLOE-SSOD在PASCAL VOC數(shù)據(jù)集的半監(jiān)督訓練精度

Tab.2 Semi-supervised training accuracies of PPYOLOE-SSOD in the PASCAL VOC dataset

表3?特征點選擇區(qū)域對比實驗

Tab.3 Comparison experiment of feature point selection area

表4?半監(jiān)督訓練中使用的強圖像增強

Tab.4 Strong image enhancement used in semi-supervised training

表5?EMA權重更新參數(shù)對比實驗

Tab.5 Comparison experiment of EMA weighting pa-rameter update

3.5?實驗結果可視化

為了充分驗證密集偽標簽策略的有效性,本文對PPYOLOE-SSOD模型的頭部分類分數(shù)預測結果進行了可視化,如圖6所示,分類得分高的區(qū)域均準確地對應在了需要檢測的物體目標上.

(a)第3特征層(b)第4特征層(c)第5特征層

與監(jiān)督基線相比,本文方法的可視化檢測結果如圖7所示,圖7(a)、(b)分別表示使用半監(jiān)督方法前后的檢測效果,可以觀察到使用本文提出的半監(jiān)督方法后,模型能夠檢測出大部分漏檢物體,檢測精度提高.訓練過程的損失曲線如圖8所示.在訓練的早期階段,網(wǎng)絡的精度不足,難以獲得高質量的偽標簽.半監(jiān)督模型的損失大部分由有標注數(shù)據(jù)獲得,隨著模型精度的提升,有監(jiān)督部分損失逐漸減小,更多高質量的偽標簽參與訓練,導致模型的損失上升,隨著半監(jiān)督訓練趨于飽和,模型總體的損失曲線下降,并趨于平穩(wěn).

(a)PPYOLOE-s預測結果 (b)PPYOLOE-SSOD預測結果

圖7?模型預測結果可視化展示

Fig.7?Visual display of model prediction results

圖8?損失變化曲線

4?結?語

本文針對全監(jiān)督學習的模型精度難以提升以及數(shù)據(jù)集注釋難以獲取的問題,提出了一種新型的基于YOLO系列的半監(jiān)督目標檢測方法(PPYOLOE-SSOD).該方法利用教師學生互助訓練方式挖掘未標注數(shù)據(jù)的知識信息,并通過密集學習的偽標簽選擇策略,使模型避免了硬標簽依賴于非極大值抑制等冗余后處理的困擾,并改進了模型的圖像增強方法和訓練流程,使模型的訓練速度和最終精度得到了進一步提升,本文在MS COCO公開數(shù)據(jù)集上比對了本文算法與監(jiān)督基線算法和其他半監(jiān)督檢測算法的檢測性能,并通過對比實驗驗證了本文算法的有效性,明顯優(yōu)于其他半監(jiān)督目標檢測算法.

[1] Deng J,Xuan X J,Wang W F,et al. A review of re-search on object detection based on deep learning [C]//Journal of Physics Conference Series. Kunming,China,2020:12028-12067.

[2] Park H J,Kang J W,Kim B G. SSFPN:Scale se-quence(S2)feature-based feature pyramid network for object detection[J]. Sensors,2023,23(9):4432-4440.

[3] Carion N,Massa F,Synnaeve G,et al. End-to-end object detection with transformers[C]//Computer Vision-ECCV 2020:16th European Conference. Glasgow,UK,2020:213-229.

[4] Sohn K,Berthelot D,Carlini N,et al. Fixmatch:Simplifying semi-supervised learning with consistency and confidence[C]//Advances in Neural Information Processing Systems. Beijing,China,2020:596-608.

[5] Zhou H Y,Ge Z,Liu S T,et al. Dense teacher:Dense pseudo-labels for semi-supervised object detec-tion[C]//Computer Vision-ECCV 2022:17th European Conference. Tel Aviv,Israel,2022:35-50.

[6] Zang Y H,Zhou K Y,Huang C,et al. Semi-supervised and long-tailed object detection with CascadeMatch[J]. International Journal of Computer Vision,2023,131(3):1-15.

[7] Chen G B,Choi W G,Yu X,et al. Learning efficient object detection models with knowledge distilla-tion[C]//Advances in Neural Information Processing Systems. Long Beach,USA,2017:1010-1022.

[8] Berthelot D,Carlini N,Goodfellow I,et al. Mixmatch:A holistic approach to semi-supervised learning[C]//Advances in Neural Information Processing Systems. Vancouver,Canada,2019:980-994.

[9] Zhang X F,Dai L W. Image enhancement based on rough set and fractional order differentiator[J]. Fractal and Fractional,2022,6(4):214-215.

[10] Yan H,Zhang J X,Zhang X F. Injected infrared and visible image fusion via L1decomposition model and guided filtering[J]. IEEE Transactions on Computational Imaging,2022,8(3):162-173.

[11] Zhang X F,Liu R,Ren J X,et al. Adaptive fractional image enhancement algorithm based on rough set and particle swarm optimization[J]. Fractal and Fractional,2022,6(2):100-101.

[12] Shorten C,Khoshgoftaar T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data,2019,6(1):1-48.

[13] Din N U,Javed K,Bae S,et al. A novel GAN-based network for unmasking of masked face[J]. IEEE Access,2020,8:44276-44287.

[14] Sohn K,Zhang Z,Li C L,et al. A simple semi-supervised learning framework for object detection [EB/OL]. https://arxiv.org/abs/2005.04757,2020-05-10.

[15] Zhou Q,Yu C H,Wang Z B,et al. Instant-teaching:An end-to-end semi-supervised object detection frame-work[C]//2021 IEEE/CVF Conference on Computer Vi-sion and Pattern Recognition. Kuala Lumpur,Malaysia,2021:4081-4090.

[16] Ren S Q,He K M,Girshick R,et al. Faster R-CNN:Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems. Montreal,Canada,2015:28-36.

[17] Redmon J,Divvala S,Girshick R,et al. You only look once:Unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Rec-ognition. Las Vegas,USA,2016:779-788.

[18] Lin T Y,Maire M,Belongie S,et al. Microsoft coco:Common objects in context[C]//Computer Vi-sion-ECCV 2014:13th European Conference. Zurich,Switzerland,2014:740-755.

[19] Neelapu R,Devi G L,Rao K S. Deep learning based conventional neural network architecture for medical im-age classification[J]. Traitement Du Signal,2018,35(2):169.

[20] Li X,Wang W H,Wu L J,et al. Generalized focal loss:Learning qualified and distributed bounding boxes for dense object detection[C]//Advances in Neural In-formation Processing Systems. Beijing,China,2020:21002-21012.

[21] Li X,Wang W H,Hu X L,et al. Generalized focal loss v2:Learning reliable localization quality estimation for dense object detection[C]//2021 IEEE/CVF Confer-ence on Computer Vision and Pattern Recognition. Kuala Lumpur,Malaysia,2021:11632-11641.

[22] Li C Y,Li L L,Jiang H L,et al. YOLOv6:A single-stage object detection framework for industrial applica-tions[EB/OL]. https://arxiv.org/abs/2209.02976,2022-09-07.

[23] Wang C Y,Bochkovskiy A,Liao H Y M. YOLOv7:Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[EB/OL]. https://arxiv.org/abs/ 2209.02976,2022-07-06.

[24] Xu S L,Wang X X,Lü W Y,et al. PP-YOLOE:An evolved version of YOLO[EB/OL]. https://arxiv.org/abs/ 2203.16250,2022-03-30.

[25] Huang X,Wang X X,Lü W Y,et al. PP-YOLOv2:A practical object detector[EB/OL]. https://arxiv.org/abs/ 2104.10419,2021-04-21.

[26] Ge Z,Liu S T,Wang F,et al. Yolox:Exceeding yolo series in 2021[EB/OL]. https://arxiv.org/abs/2107. 08430,2021-07-18.

[27] Wu T H,Wang T W,Liu Y Q. Real-time vehicle and distance detection based on improved YOLOv5 net-work[C]//2021 3rd World Symposium on Artificial Intel-ligence. Guangzhou,China,2021:24-28.

[28] Liu Y C,Ma C Y,He Z,et al. Unbiased teacher for semi-supervised object detection[EB/OL]. https://arxiv. org/abs/2102.09480,2021-02-18.

[29] Xu M D,Zhang Z,Hu H,et al. End-to-end semi-supervised object detection with soft teacher[C]//2021 IEEE/CVF International Conference on Computer Vision. Kuala Lumpur,Malaysia,2021:3060-3069.

[30] Zhang F Y,Pan T X,Wang B. Semi-supervised object detection with adaptive class-rebalancing self-training [C]//2022 AAAI Conference on Artificial Intelligence. Vancouver,Canada,2022:3252-3261.

[31] Chen B B,Chen W J,Yang S C,et al. Label matching semi-supervised object detection[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans,USA,2022:14381-14390.

[32] Tarvainen A,Valpola H. Mean teachers are better role models:Weight-averaged consistency targets improve semi-supervised deep learning results[C]//Advances in Neural Information Processing Systems. Long Beach,USA,2017:30-40.

[33] Feng C J,Zhong Y J,Gao Y,et al. TOOD:Task-aligned one-stage object detection[C]//2021 IEEE/CVF International Conference on Computer Vision. Kuala Lumpur,Malaysia,2021:3490-3499.

[34] Li G,Li X,Wang Y J,et al. DTG-SSOD:Dense teacher guidance for semi-supervised object detection[EB/OL]. https://arxiv.org/abs/2209.02976,2022-07-06.

[35] Li G,Li X,Wang Y J,et al. Pseco:Pseudo labeling and consistency training for semi-supervised object de-tection[EB/OL]. http://arxiv.org/abs/2203.16317v1,2022-07-22.

Teacher-Student Mutual Training for Semi-Supervised Object DetectionBased on PPYOLOE

Zhang Guoshan,Wei Jinman

(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)

With the continuous advancements in deep learning,object-detection technology based on convolutional neural network has become a research hotspot in the field of computer vision. Currently,mainstream object-detection algorithms rely on supervised learning and training models on extensive labeled data. However,unlabeled data are easy to obtain,while labeled data are usually challenging,time-consuming,and labor-intensive to collect. This study proposed a semi-supervised object-detection(PPYOLOE-SSOD)algorithmbased on teacher-student mutual training to easily obtain data annotations. First,the student and gradually improved teacher models were trained simultaneously. The teacher model was then used to filter high-quality pseudo labels,which guided students during model training and extracted information from unlabeled images. Further,the exponential average method was used in each iteration to update the teacher model parameters to reduce the instability of parameter transfer. In addition,different data-augmentation methods were introduced to enhance the anti-interference ability of the network. Finally,the unsupervised learning branch was added for the learning of unlabeled data,and the features predicted by the model were processed using an intensive learning method. By sorting the classification features predicted by the teacher model,high-quality features were automatically selected as the pseudo labels generated by the teacher model,thus avoiding the tedious post-processing of pseudo labels and improving the accuracy and training speed of the network. On the MS COCO dataset,the accuracy of the PPYOLOE is improved by 1.4%,1.6%,and 2.1% on 1%,5%,and 10% labeled datasets,respectively,using the semi-supervised learning method. Compared with other SSOD algorithms,PPYOLOE-SSOD achieves the highest accuracy. The source code is at https://github.com/ wjm202/PPYYOLOE-SSOD.

semi-supervised learning;object detection;PPYOLOE;teacher-student mutual training

TP391.4

A

0493-2137(2024)04-0415-09

10.11784/tdxbz202302035

2023-02-22;

2023-06-23.

張國山(1961—??),男,博士,教授.

張國山,zhanggs@tju.edu.cn.

國家自然科學基金資助項目(62073237).

the National Natural Science Foundation of China(No.62073237).

(責任編輯:孫立華)

猜你喜歡
圖像增強標簽損失
圖像增強技術在超跨聲葉柵紋影試驗中的應用
胖胖損失了多少元
水下視覺SLAM圖像增強研究
虛擬內窺鏡圖像增強膝關節(jié)鏡手術導航系統(tǒng)
玉米抽穗前倒伏怎么辦?怎么減少損失?
無懼標簽 Alfa Romeo Giulia 200HP
不害怕撕掉標簽的人,都活出了真正的漂亮
基于圖像增強的無人機偵察圖像去霧方法
標簽化傷害了誰
一般自由碰撞的最大動能損失