劉月峰 劉 博 暴 祥 劉好峰 王 越
(內(nèi)蒙古科技大學(xué)信息工程學(xué)院, 包頭 014010)
隨著經(jīng)濟(jì)的發(fā)展和社會(huì)的進(jìn)步,消費(fèi)者對(duì)于牛肉的品質(zhì)、奶牛的奶質(zhì)有著更高的要求,奶牛養(yǎng)殖場(chǎng)需要向大規(guī)模、科學(xué)綠色養(yǎng)殖的方向發(fā)展[1-2]。自然場(chǎng)景下奶牛身份識(shí)別和跟蹤系統(tǒng)是奶牛養(yǎng)殖場(chǎng)智能化管理的重要內(nèi)容[3-6]。對(duì)于需要著重關(guān)注的奶牛個(gè)體,例如剛治愈的奶牛、行為不正常的奶牛等,需要進(jìn)行單目標(biāo)跟蹤,并且可以為接下來奶牛多目標(biāo)跟蹤奠定基礎(chǔ)。單目標(biāo)跟蹤技術(shù)是近年來熱門的研究工作,主要研究方向?yàn)榛谙嚓P(guān)濾波的方法[7]和基于Siamese FC[8-10]的孿生網(wǎng)絡(luò)方法。基于Siamese FC的孿生網(wǎng)絡(luò)方法由模板分支和搜索分支組成,模板由第1幀得到的Anchor獲得,推理階段將模板圖像在搜索圖像中進(jìn)行局部搜索,類似于局部單次檢測(cè)框架?;趯\生網(wǎng)絡(luò)的方法分為Anchor-base方案和Anchor-free方案。Anchor-base方案大多基于多尺度測(cè)試,預(yù)設(shè)一定數(shù)目的Anchor在網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,而Anchor-free方案大多通過分類和回歸直接對(duì)目標(biāo)進(jìn)行跟蹤,獲取其位置和預(yù)測(cè)框。LI等[11]提出了區(qū)域特征提取網(wǎng)絡(luò)(Siamese region proposal network,Siamese-RPN),它由特征提取的子網(wǎng)絡(luò)和包括分類回歸分支的區(qū)域提議子網(wǎng)絡(luò)構(gòu)成,在當(dāng)時(shí)公開數(shù)據(jù)集上取得了領(lǐng)先的跟蹤性能指標(biāo)。LI等[12]隨后又將Resnet深層網(wǎng)絡(luò)作為孿生網(wǎng)絡(luò)特征提取網(wǎng)絡(luò)逐層聚合,證明了先前由于深層網(wǎng)絡(luò)存在padding的原因破壞了跟蹤平移不變性的要求導(dǎo)致跟蹤失敗,并加入深度交叉相關(guān)實(shí)現(xiàn)模板特征與搜索圖之間的特征匹配,進(jìn)一步提升了跟蹤性能。ZHANG等[13]提出了一種Anchor-free的方案預(yù)測(cè)目標(biāo)的位置和大小,引入特征對(duì)比模塊,從預(yù)測(cè)的邊框中學(xué)習(xí)對(duì)象感知特征,進(jìn)一步幫助跟蹤器對(duì)目標(biāo)和背景進(jìn)行分類。GUO等[14]使用逐像素卷積代替分離通道卷積,并加入Center-ness中心懲罰項(xiàng)進(jìn)行跟蹤,取得了較高的性能評(píng)估指標(biāo)。CHEN等[15]使用Resnet50作為骨干網(wǎng)絡(luò),去掉了最后兩個(gè)卷積塊的降采樣操作,采用不同的擴(kuò)張率提高模型的感受野,用分類模塊和回歸模塊組成自適應(yīng)頭部,超過了當(dāng)時(shí)所有跟蹤器的跟蹤效果。為了解決背景干擾大、分類和回歸樣本不匹配的問題,FENG等[16]設(shè)計(jì)了基于排序的優(yōu)化損失函數(shù),包括分類和回歸排名損失函數(shù),進(jìn)一步加強(qiáng)了跟蹤的性能。上述方法采取的特征提取網(wǎng)絡(luò)大多基于Resnet50網(wǎng)絡(luò)進(jìn)行改進(jìn),包含較大的參數(shù)量,選取一種輕量化模型提取特征是本文研究的重點(diǎn)。
傳統(tǒng)正負(fù)樣本選取策略[14-16]將視頻數(shù)據(jù)前后相鄰幀圖像隨機(jī)抽取1幅作為正樣本,其他視頻段中隨機(jī)抽取1幅作為負(fù)樣本輸入模型訓(xùn)練,將圖像數(shù)據(jù)經(jīng)過翻轉(zhuǎn)、平移、亮度變換等數(shù)據(jù)增強(qiáng)處理后輸入訓(xùn)練。go-turn[17]方法根據(jù)目標(biāo)運(yùn)動(dòng)軌跡設(shè)計(jì)出一種運(yùn)動(dòng)增廣策略,正負(fù)樣本靠近目標(biāo)真實(shí)框中心分布密集,向四周發(fā)散分布。這兩種選取策略對(duì)于幀速率高、視頻流穩(wěn)定的攝像頭效果明顯,然而若出現(xiàn)丟幀或目標(biāo)相鄰幀位移較大的情況,這兩種策略效果較差,故設(shè)計(jì)合適的正負(fù)樣本選取策略直接決定了本文跟蹤器性能。
通用跟蹤器[15-16]正負(fù)樣本點(diǎn)劃分區(qū)域方法各異,主要包括根據(jù)真實(shí)框(ground-truth)作為劃分依據(jù)和根據(jù)真實(shí)框設(shè)計(jì)橢圓作為劃分依據(jù)的方法。前者將真實(shí)框內(nèi)部作為正樣本點(diǎn)選取區(qū)域,外部作為負(fù)樣本點(diǎn)選取區(qū)域,由于大部分物體真實(shí)框邊界存在大量背景干擾,若將背景作為正樣本傳入網(wǎng)絡(luò)則會(huì)增大模型學(xué)習(xí)難度。后者結(jié)合通用跟蹤對(duì)象外形特征,設(shè)計(jì)兩個(gè)橢圓作為樣本點(diǎn)代選區(qū)域,增加無關(guān)樣本點(diǎn)的選取,巧妙地將物體邊緣較難學(xué)習(xí)位置忽略,提升了跟蹤精度。
現(xiàn)有跟蹤器方法使用的特征提取網(wǎng)絡(luò)大多基于淺層網(wǎng)絡(luò)Alexnet和深層網(wǎng)絡(luò)Resnet系列網(wǎng)絡(luò),Alexnet網(wǎng)絡(luò)參數(shù)少但特征提取能力較差,Resnet網(wǎng)絡(luò)有較強(qiáng)的特征提取能力卻包含大量的冗余參數(shù)。Mobileone網(wǎng)絡(luò)基于MobileNet網(wǎng)絡(luò)[18]改進(jìn),是一種輕量型架構(gòu),它的特點(diǎn)是低參數(shù)量、高效率完成深度學(xué)習(xí)任務(wù),合并冗余參數(shù)的設(shè)計(jì)壓縮了網(wǎng)絡(luò)結(jié)構(gòu),大大提升了推理速度,是一種十分適用于部署移植的網(wǎng)絡(luò)架構(gòu)[19-20]。
本文旨在研究一種適合在自然場(chǎng)景下部署的奶牛單目標(biāo)跟蹤器,“自然場(chǎng)景”即飼養(yǎng)奶牛的牛舍場(chǎng)景,其中包含奶牛間遮擋、牛舍欄桿遮擋、晝夜光線變化以及復(fù)雜的背景噪聲等實(shí)際飼養(yǎng)場(chǎng)景。為提升數(shù)據(jù)樣本采集多樣性,還加入公開數(shù)據(jù)集的奶牛數(shù)據(jù),并提高正樣本質(zhì)量來增強(qiáng)模型學(xué)習(xí)能力,最后將跟蹤器輕量化壓縮。
本文首先將獲取到的視頻轉(zhuǎn)換為圖像數(shù)據(jù)后制作單目標(biāo)跟蹤數(shù)據(jù)集,并加入部分公開數(shù)據(jù)集中“?!?、“馬”的跟蹤數(shù)據(jù),進(jìn)行多數(shù)據(jù)集聯(lián)合訓(xùn)練。首先進(jìn)行正負(fù)樣本的選取,結(jié)合傳統(tǒng)方法和go-turn方法,將圖像相鄰n幀隨機(jī)抽取2幅圖像作為正樣本,從其他視頻序列隨機(jī)抽取6幅圖像作為負(fù)樣本;接著進(jìn)行樣本預(yù)處理工作,將2幅正樣本采用shiftbox-remo的數(shù)據(jù)增強(qiáng)方式,每幅圖像隨機(jī)增強(qiáng)11次,均勻正樣本的分布,增加樣本多樣性,共組成24對(duì)正樣本對(duì),6對(duì)負(fù)樣本對(duì),并進(jìn)行一定概率的遮擋、亮度變換、翻轉(zhuǎn)操作;然后傳入改進(jìn)后的backbone特征提取網(wǎng)絡(luò)Mobileone-remo,將Mobileone中步長(stride)為2的雙、三支結(jié)構(gòu)重參數(shù)化為單支結(jié)構(gòu),處理速度更快、參數(shù)量更少;預(yù)設(shè)2組自適應(yīng)權(quán)重,將1/8、1/16、1/32尺度下的特征層進(jìn)行融合,一組用于回歸分支,一組用于分類分支;再采用分離通道卷積的方式傳給分類分支和回歸分支;最后模型通過分類損失、回歸損失、中心排序損失(Center-rank loss)聯(lián)合優(yōu)化網(wǎng)絡(luò)參數(shù),完成奶牛單目標(biāo)跟蹤器的設(shè)計(jì)工作,本文具體研究方案流程圖如圖1所示,跟蹤器Siamese-remo網(wǎng)絡(luò)模型如圖2所示。
圖2 Siamese-remo網(wǎng)絡(luò)模型示意圖Fig.2 Schematic of Siamese-remo network model
1.2.1數(shù)據(jù)材料獲取
本文使用的數(shù)據(jù)集由兩部分構(gòu)成,一部分為2020年內(nèi)蒙古自治區(qū)包頭市某奶牛養(yǎng)殖場(chǎng)采集到的52頭奶牛視頻。視頻共2 596段,每段60 min,視頻格式為MPEG4,視頻幀高度為1 080像素,寬度為1 920像素,碼率為1 639 kb/s,傳輸速率為60 f/s。另一部分為公開數(shù)據(jù)集中牛類、馬類視頻和圖像。由于牛和馬的體型相似,且為了增添訓(xùn)練樣本的多樣性,本文擴(kuò)充一定規(guī)模的數(shù)據(jù),將搜集到的公開數(shù)據(jù)集中牛類、馬類的單目標(biāo)跟蹤視頻、圖像加入訓(xùn)練集。
1.2.2數(shù)據(jù)集構(gòu)建
本文結(jié)合自然場(chǎng)景下奶牛養(yǎng)殖場(chǎng)的視頻圖像,制作了符合單目標(biāo)跟蹤的數(shù)據(jù)集。由于奶牛在養(yǎng)殖場(chǎng)中行動(dòng)緩慢,且處于進(jìn)食狀態(tài)的奶牛位置變化較小,故首先將奶牛處于進(jìn)食狀態(tài)的視頻去除,僅保留奶牛處于移動(dòng)狀態(tài)的視頻圖像;由于奶牛在牛場(chǎng)移動(dòng)緩慢,故將原視頻每10幀抽取1幀圖像;然后本文使用Labelme軟件進(jìn)行數(shù)據(jù)標(biāo)注,將每段視頻中每頭奶牛的行動(dòng)軌跡標(biāo)注信息放在一個(gè)路徑下,最終得到63段視頻,1 890段奶牛跟蹤序列;最后將數(shù)據(jù)文件進(jìn)行裁剪和統(tǒng)一圖像大小,整理成與GOT10K格式相同的數(shù)據(jù)形式,即以真實(shí)框中心坐標(biāo)為中點(diǎn),經(jīng)過設(shè)計(jì)好的長寬計(jì)算方式裁剪出大小為127像素的圖像作為模板圖像,大小為511像素的圖像作為搜索圖像,若裁剪窗口超出圖像范圍,則用平均RGB值進(jìn)行填充,如圖3所示。
由于從自然場(chǎng)景下獲得的上述數(shù)據(jù)規(guī)模較小,難以完成單目標(biāo)跟蹤的要求,故本文選擇將DET[21]、COCO[22]、GOT10K[23]、VID[21]、YTB[24]、LASOT[25]公開數(shù)據(jù)集中標(biāo)注為“?!焙汀榜R”類的數(shù)據(jù)加入到訓(xùn)練集,模型根據(jù)不同數(shù)據(jù)集保存圖像的方式分別讀取到跟蹤序列的真實(shí)框。
1.3.1正負(fù)樣本選取策略
本文的正負(fù)樣本選取策略通過結(jié)合Siamban方法[15]和go-turn方法[17]來增加網(wǎng)絡(luò)泛化性能。孿生網(wǎng)絡(luò)訓(xùn)練樣本分為2個(gè)分支:模板分支和搜索分支,從數(shù)據(jù)集中隨機(jī)抽取1幅模板圖像,首先從其所在視頻跟蹤序列對(duì)應(yīng)幀前后frame-range幀中隨機(jī)抽取2幅圖像,每幅圖像進(jìn)行12次shiftbox-remo圖像增廣操作后得到一組正樣本隊(duì)列;然后從其所在不同視頻跟蹤序列幀中隨機(jī)取6幅圖像,進(jìn)行shiftbox-remo圖像增廣操作后作為負(fù)樣本,即1幅模板圖像對(duì)應(yīng)24幅正樣本,6幅負(fù)樣本。
模板幀圖像對(duì)應(yīng)的正樣本搜索圖像區(qū)域中,根據(jù)圖像中真實(shí)框劃分區(qū)域,分為正樣本點(diǎn)、負(fù)樣本點(diǎn)和無關(guān)樣本點(diǎn),分別記為1、0、-1,如圖4所示,中間小矩形面積包含的樣本點(diǎn)為正樣本點(diǎn),大矩形外側(cè)的樣本點(diǎn)為負(fù)樣本點(diǎn),2個(gè)矩形中間部分為無關(guān)樣本點(diǎn),設(shè)計(jì)無關(guān)樣本點(diǎn)的目的是圖像中真實(shí)框邊緣樣本包含較多復(fù)雜背景噪聲干擾,且理論上邊緣信息網(wǎng)絡(luò)較難學(xué)習(xí),故將其設(shè)置為無關(guān)樣本不參與損失計(jì)算。經(jīng)過實(shí)驗(yàn)對(duì)比論證,奶牛單目標(biāo)跟蹤模型設(shè)計(jì)2個(gè)正方形區(qū)域劃分正負(fù)樣本點(diǎn)邊界效果最佳,正樣本取正樣本區(qū)域內(nèi)所有正樣本點(diǎn)計(jì)算損失,負(fù)樣本隨機(jī)取3倍正樣本數(shù)的負(fù)樣本點(diǎn)計(jì)算損失。
圖4 正負(fù)樣本點(diǎn)選取策略示意圖Fig.4 Schematic of positive and negative sample point selection strategy
1.3.2正負(fù)樣本預(yù)處理
根據(jù)1.3.1節(jié)的描述,數(shù)據(jù)集包含尺寸為127像素×127像素的原始模板圖像和尺寸為 511像素×511像素的原始搜索圖像,本文根據(jù)原始模板圖像,在搜索圖中裁剪出相應(yīng)像素的搜索圖。首先以搜索圖中真實(shí)框?yàn)榛鶞?zhǔn),假設(shè)真實(shí)框?qū)捀叻謩e為w、h,裁剪出的搜索圖寬wcrop、高h(yuǎn)crop分別為w+0.5(w+h)、h+0.5(w+h),為了增加泛化性能,對(duì)寬高進(jìn)行小幅度形變處理。
自然場(chǎng)景下奶牛單目標(biāo)跟蹤受遮擋因素影響嚴(yán)重,為了解決這個(gè)問題,本文首先對(duì)裁剪框位置進(jìn)行隨機(jī)選取,模擬出奶牛部分區(qū)域未受遮擋時(shí)的真實(shí)場(chǎng)景,實(shí)現(xiàn)跟蹤框“局部—整體”的跟蹤能力。采用shiftbox-remo的裁剪方式,假設(shè)真實(shí)框左上角、右下角坐標(biāo)分別為(x1,y1)、(x2,y2),裁剪框左側(cè)可選擇區(qū)域即(x1-wcrop,x2),裁剪框上側(cè)可選擇區(qū)域即(y1-hcrop,y2),若超出圖像邊界,則將坐標(biāo)極值設(shè)為邊界坐標(biāo),裁剪框位置范圍如圖5所示,正方形為原始搜索圖,紅色框?yàn)檎鎸?shí)框,虛線框?yàn)椴眉艨?A、B、C、D為裁剪框移動(dòng)范圍極限位置,本文為了提升正樣本質(zhì)量,選擇將裁剪框與真實(shí)框之間的交并比Iou>0.3的圖像作為搜索圖像,最終將裁剪后的圖像統(tǒng)一尺寸為160像素×160像素的搜索圖。
圖5 shiftbox-remo裁剪方式示意圖Fig.5 Schematic of shiftbox-remo cropping method
為了進(jìn)一步解決遮擋問題對(duì)跟蹤模型的影響,設(shè)計(jì)了適用于上述裁剪方式的正樣本區(qū)域選取方式,如圖6所示,圖6a為裁剪框位置和原正負(fù)樣本點(diǎn)選取區(qū)域示意圖,回歸分支正負(fù)樣本點(diǎn)選取區(qū)域如黃色矩形所示,圖6b為分類分支正負(fù)樣本點(diǎn)選取區(qū)域隨真實(shí)框更新示意圖,紅色區(qū)域?yàn)椴眉艨蛭恢?。根?jù)1.2.2節(jié)正負(fù)樣本點(diǎn)選取策略,兩個(gè)黃色矩形中間部分樣本點(diǎn)將作為無關(guān)樣本忽略,然而經(jīng)過裁剪、resize操作后僅存在無關(guān)樣本和負(fù)樣本傳入網(wǎng)絡(luò),無法學(xué)習(xí)到遮擋情況下局部正樣本信息,這與本文實(shí)現(xiàn)“部分—整體”的跟蹤目標(biāo)相悖,故將分類分支中物體真實(shí)框坐標(biāo)隨著圖像裁剪操作而更新位置,這樣可以提升正樣本多樣性并提升其質(zhì)量;回歸分支仍保留裁剪操作之前的坐標(biāo),這樣可以使網(wǎng)絡(luò)具有預(yù)測(cè)“部分—整體”的能力,而并非僅可以預(yù)測(cè)局部位置。
圖6 正負(fù)樣本點(diǎn)劃分區(qū)域示意圖Fig.6 Schematics of dividing positive and negative sample points into regions
考慮到自然場(chǎng)景下晝夜變換亮度不同,且數(shù)據(jù)集光線較暗,本文對(duì)圖像亮度進(jìn)行數(shù)據(jù)增廣,提升模型在夜間的跟蹤能力,本文對(duì)模板圖像和搜索圖像進(jìn)行了一定程度的翻轉(zhuǎn)、旋轉(zhuǎn)、隨機(jī)擦除等數(shù)據(jù)增強(qiáng)方式,提升了模型泛化能力。
1.3.3特征提取網(wǎng)絡(luò)——Mobileone-remo
Mobileone網(wǎng)絡(luò)是一個(gè)輕量化的深層網(wǎng)絡(luò)模型,相較于Resnet系列網(wǎng)絡(luò)等深層網(wǎng)絡(luò)模型,具有簡單、高效、即插即用的特點(diǎn)。如圖7所示,為了進(jìn)一步壓縮網(wǎng)絡(luò)模型結(jié)構(gòu),并盡可能減小深層網(wǎng)絡(luò)中padding對(duì)于平移不變性的影響,類比于Siamese RPN++模型對(duì)Resnet50網(wǎng)絡(luò)的處理[12],本文將Mobileone中stride為2的3×3卷積padding設(shè)置為0,由于scale分支、3×3卷積分支、skip分支尺度不同無法相加,故將3個(gè)分支進(jìn)行重參數(shù)化操作。對(duì)于僅有scale分支和skip分支的結(jié)構(gòu)塊,實(shí)驗(yàn)發(fā)現(xiàn)將其重參數(shù)化后并不會(huì)影響跟蹤性能,反而可以進(jìn)一步壓縮模型,減少運(yùn)算成本,故對(duì)Mobileone-remo同樣進(jìn)行重參數(shù)化操作。
圖7 基線模型Mobileone與本文模型Mobileone-remo的結(jié)構(gòu)圖Fig.7 Baseline model Mobileone and model Mobileone-remo
1.3.4多尺度預(yù)測(cè)
深層網(wǎng)絡(luò)不同層可以提取到圖像不同尺度的信息,較淺層可以獲得圖像高分辨率信息,例如顏色、位置,而較深層可以提取到圖像豐富的語義信息,跟蹤任務(wù)需要計(jì)算出跟蹤位置和跟蹤對(duì)象,故采取多尺度特征自適應(yīng)融合方式訓(xùn)練網(wǎng)絡(luò)。首先預(yù)設(shè)兩組訓(xùn)練權(quán)重Wi和W′i(i=0,1,2),分別與1/8、1/16、1/32尺度特征相乘,一組用于分類分支訓(xùn)練,一組用于回歸分支訓(xùn)練,由深層網(wǎng)絡(luò)不同層提取圖像信息特點(diǎn)可知分類分支深層網(wǎng)絡(luò)權(quán)重占比較大,回歸分支淺層網(wǎng)絡(luò)權(quán)重占比較大。
1.3.5多功能特征頭
Siamese-remo將模板圖像和搜索圖像融合后的特征進(jìn)行分離通道卷積,包含兩個(gè)功能頭進(jìn)行跟蹤,一個(gè)用于分類,一個(gè)用于回歸。考慮到模板幀在圖像預(yù)處理階段會(huì)將一定范圍背景裁剪保留,本文經(jīng)過仿真統(tǒng)計(jì)出中心9×9區(qū)域數(shù)據(jù)仍可以捕捉到完整的跟蹤模板信息,故卷積前會(huì)對(duì)模板幀特征進(jìn)行中心裁剪[12,15],以真實(shí)框中點(diǎn)為中心裁剪大小為9×9的區(qū)域,然后輸入分離通道卷積網(wǎng)絡(luò),如圖8所示。在分類分支中,本文將圖像信息分為前景和背景,故輸出通道數(shù)為2;在回歸分支中,回歸信息為訓(xùn)練樣本點(diǎn)與真實(shí)框4條邊的距離,分別記為L、R、T、B,故輸出通道數(shù)為4。
圖8 分離通道卷積和多功能頭示意圖Fig.8 Depth-with cross correlation and multifunctional head
1.3.6損失函數(shù)
本文在分類分支使用cross entropy loss計(jì)算;在回歸分支使用IOU loss計(jì)算;兩種損失函數(shù)權(quán)重組合自適應(yīng)調(diào)優(yōu),聯(lián)合優(yōu)化訓(xùn)練網(wǎng)絡(luò)。Loss計(jì)算公式為
Loss=αLoss1+βLoss2
(1)
其中
(2)
(3)
式中α、β——網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)權(quán)重,初始值取1
Loss1——cross entropy loss
Loss2——IOU loss
N——標(biāo)簽樣本總數(shù)
y(i)——樣本為正樣本的標(biāo)簽
1-y(i)——樣本為負(fù)樣本的標(biāo)簽
A——預(yù)測(cè)框B——真實(shí)框
本文創(chuàng)新性地設(shè)計(jì)了一種基于真實(shí)框中心點(diǎn)位置距離的排序損失——Center-rank loss。考慮到本文研究對(duì)象為奶牛,目標(biāo)一定會(huì)占據(jù)真實(shí)框中心點(diǎn)附近大面積區(qū)域,故根據(jù)坐標(biāo)位置對(duì)目標(biāo)的分類、回歸得分進(jìn)行排序,靠近目標(biāo)中心的樣本點(diǎn)置信度高于較遠(yuǎn)位置的樣本點(diǎn)置信度;同理,越靠近目標(biāo)中心的樣本點(diǎn)IOU高于較遠(yuǎn)位置的樣本點(diǎn)IOU。由于正樣本點(diǎn)數(shù)量過多導(dǎo)致排序訓(xùn)練時(shí)間過長,且這種強(qiáng)制排名可能帶來某些樣本點(diǎn)排序的不合理性,本文選擇距中心位置一定區(qū)域范圍內(nèi),隨機(jī)選n個(gè)樣本點(diǎn)進(jìn)行排序,可以在一定程度上提高模型預(yù)測(cè)能力。假設(shè)正樣本i,j∈Apos,Center-rank loss的計(jì)算公式為
(4)
式中di——正樣本i與真實(shí)框中心點(diǎn)的距離
dj——正樣本j與真實(shí)框中心點(diǎn)的距離
pi——正樣本i的前景置信度
pj——正樣本j的前景置信度
γ——超參數(shù)控制損失值
總損失函數(shù)為
Lossall=Loss+Losscenter-rank
(5)
最終本文Center-rank loss正樣本點(diǎn)選取范圍為原正樣本選取區(qū)域的1/4,選取點(diǎn)數(shù)為15。
本實(shí)驗(yàn)操作系統(tǒng)為Ubuntu 18.04,CPU 為 AMD EPYC 7543 32-Core Processor,主頻3 400 MHz,GPU為NVIDIA GeForce GTX 3090×4,運(yùn)行內(nèi)存為24 GB。奶牛身份跟蹤模型訓(xùn)練共20個(gè)訓(xùn)練周期,對(duì)于維度為(N,C,H,W)的特征向量采用dropout方法防止過擬合,概率參數(shù)設(shè)為0.3對(duì)通道維度C進(jìn)行凍結(jié)操作,并對(duì)H×W維度也按照類似dropout方式進(jìn)行參數(shù)為0.05概率的凍結(jié),以模擬出某些非全局特性,使模型學(xué)習(xí)到一定程度的局部特征。初始學(xué)習(xí)率為0.001,經(jīng)5個(gè)訓(xùn)練周期的學(xué)習(xí)率預(yù)熱達(dá)到0.005,backbone權(quán)重衰減系數(shù)為0.001,全局權(quán)重衰減系數(shù)為0.000 5,batch_size設(shè)置為4,num_workers設(shè)置為16,預(yù)訓(xùn)練模型使用ImageNet訓(xùn)練網(wǎng)絡(luò)模型。
現(xiàn)有的用于單目標(biāo)跟蹤評(píng)價(jià)的指標(biāo)有準(zhǔn)確率(Accuracy)、魯棒性(Robustness)、期望平均重合度(EAO)、查準(zhǔn)率(Precision)、成功率(Success plot)等。魯棒性是體現(xiàn)跟蹤器穩(wěn)定性的指標(biāo),數(shù)值越大穩(wěn)定性越差,定義為每個(gè)視頻序列上跟蹤失敗的視頻幀占總幀數(shù)的比例,平均魯棒性即所有視頻序列平均跟蹤失敗比例。
EAO結(jié)合跟蹤器平均重合度和魯棒性,是一個(gè)更全面的單目標(biāo)跟蹤性能評(píng)價(jià)指標(biāo),EAO數(shù)值越大跟蹤性能越好。查準(zhǔn)率為預(yù)測(cè)框中心點(diǎn)位置與真實(shí)框中心點(diǎn)歐氏距離小于一定閾值的視頻幀百分比,以像素為單位,根據(jù)不同的閾值得到不同的百分比,該評(píng)估指標(biāo)可以反映目標(biāo)位置的準(zhǔn)確性,但是無法反映目標(biāo)大小與尺度變化。成功率含義為重合率得分,即IOU超過設(shè)定閾值即為跟蹤成功的幀。
本文提出的單目標(biāo)跟蹤模型在奶牛測(cè)試集中準(zhǔn)確率達(dá)到59.4%,魯棒性達(dá)到0.172,EAO達(dá)到0.475,查準(zhǔn)率為63.1%,成功率為52.1%,模型參數(shù)量達(dá)到2.7×106,在大幅縮小模型規(guī)模的前提下保持了較高的精度。本文還對(duì)模型在其他場(chǎng)景下的跟蹤結(jié)果進(jìn)行實(shí)驗(yàn),驗(yàn)證模型的泛化能力,由于公開數(shù)據(jù)集中奶牛單目標(biāo)跟蹤數(shù)據(jù)遮擋情況較少且光線較亮,跟蹤效果更優(yōu),結(jié)果準(zhǔn)確率達(dá)到62.1%,魯棒性達(dá)到0.162,EAO達(dá)到0.512,查準(zhǔn)率為67.4%,成功率為54.4%。跟蹤結(jié)果如圖9所示,其中包含本文數(shù)據(jù)集場(chǎng)景和其他場(chǎng)景的可視化跟蹤效果。為了更好地對(duì)比本文模型的優(yōu)勢(shì),本文對(duì)比現(xiàn)在較為流行的一些單目標(biāo)跟蹤器訓(xùn)練本數(shù)據(jù)集的結(jié)果,采用相同的參數(shù)調(diào)優(yōu)策略,盡可能達(dá)到該研究方法的最優(yōu)結(jié)果,EAO值如表1所示,各跟蹤器在本文測(cè)試集的查準(zhǔn)率和成功率指標(biāo)如圖10所示。
表1 不同跟蹤器跟蹤性能EAO結(jié)果比較Tab.1 Comparison of tracking performance EAO results of different trackers
圖9 奶牛跟蹤模型結(jié)果可視化效果圖Fig.9 Visualizations of dairy cow tracking model results
圖10 不同跟蹤器的成功率和查準(zhǔn)率結(jié)果對(duì)比Fig.10 Comparison of success plot and precision plot results of different trackers
從圖9可以看出,本文模型對(duì)于解決目標(biāo)受復(fù)雜背景因素影響、遮擋因素影響等問題具有較好的處理能力。從表1可以看出,僅有SiamFC和SiamRPN模型采用淺層網(wǎng)絡(luò)Alexnet作為特征提取網(wǎng)絡(luò),而其余模型所采用特征提取網(wǎng)絡(luò)皆為Resnet50框架。本文選用改進(jìn)的Mobileone超輕量化模型提取特征,在參數(shù)量較大縮減的情況下,通過上文的改進(jìn)策略,Siamese-remo超出了大部分Resnet50模型的EAO,較性能最高的模型相比EAO僅落后2.1%,參數(shù)量卻大大縮減。在對(duì)成功率和查準(zhǔn)率的結(jié)果比較中(圖10),本文模型較最優(yōu)模型低1.1個(gè)百分點(diǎn)和5.2個(gè)百分點(diǎn),進(jìn)一步證明了本文模型的有效性。
2.4.1正負(fù)樣本選取及預(yù)處理策略實(shí)驗(yàn)
基線模型采用隨機(jī)抽幀的方式從相鄰幀抽取正樣本,對(duì)圖像不進(jìn)行預(yù)處理;go-turn方法采用運(yùn)動(dòng)裁剪方式,模擬物體運(yùn)動(dòng)軌跡,對(duì)搜索圖像隨機(jī)裁剪,重復(fù)11次,構(gòu)成12對(duì)正樣本對(duì);本文結(jié)合基線模型和go-turn模型樣本選取方法,抽取2幅正樣本,隨機(jī)進(jìn)行11次shiftbox-remo裁剪方式,構(gòu)成24對(duì)正樣本對(duì)。本文還對(duì)模板圖像裁剪大小、形狀進(jìn)行對(duì)比,假設(shè)真實(shí)框?qū)捀叻謩e為w、h,裁剪中心為真實(shí)框中點(diǎn),超出位置根據(jù)RGB均勻填充。裁剪方式共分為4種:①將h、w放大兩倍,然后統(tǒng)一到160像素×160像素。②將h、w分別放大至h+0.5(h+w)、w+0.5(h+w),并比較h+0.5(h+w)與w+0.5(h+w)像素,選擇數(shù)值大的值裁剪正方形區(qū)域,并統(tǒng)一至160像素×160像素。③在原圖直接裁剪160像素×160像素大小區(qū)域。④本文方法將h、w分別放大至h+0.5(h+w)、w+0.5(h+w),然后統(tǒng)一到160像素×160像素。實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同正負(fù)樣本選取及預(yù)處理策略的EAO比較Tab.2 EAO comparison of experimental results for different positive and negative sample selection and preprocessing strategies
由表2可得,對(duì)于寬高比例較大的奶牛目標(biāo),裁剪方式①會(huì)進(jìn)行較大的形變處理,影響實(shí)驗(yàn)結(jié)果;裁剪方式②、③對(duì)目標(biāo)沒有形變處理,導(dǎo)致泛化性能較差,而本文方法對(duì)奶牛目標(biāo)進(jìn)行基于寬、高的形變,形變尺度比例適中,取得了最優(yōu)效果。本文模擬了10 000幅圖像通過3種裁剪方式的真實(shí)框中心點(diǎn)位置,如圖11所示,可以看出基線模型沒有對(duì)裁剪位置平移,故中心點(diǎn)位置全部落到中央;使用運(yùn)動(dòng)增廣方式對(duì)裁剪框位置進(jìn)行處理,模擬物體運(yùn)動(dòng)方向,但數(shù)據(jù)預(yù)處理后樣本分布范圍較小,泛化能力較差;使用本文的裁剪方式物體可以均勻分布在圖像各區(qū)域位置,由于需要保證裁剪框與真實(shí)框之間IOU大于0.3,故中心點(diǎn)落在圖像角落區(qū)域的概率逐漸降低,實(shí)驗(yàn)結(jié)果證明使用本文裁剪方法跟蹤效果最佳。
圖11 經(jīng)圖像裁剪后真實(shí)框中心點(diǎn)位置仿真結(jié)果示意圖Fig.11 Schematics of simulation results of ground truth center point position after image cropping
2.4.2正負(fù)樣本點(diǎn)劃分方式及選取策略實(shí)驗(yàn)
實(shí)驗(yàn)對(duì)比采用圖12a的正負(fù)樣本劃分方式,對(duì)比不同負(fù)樣本點(diǎn)數(shù)目對(duì)跟蹤結(jié)果的影響,包括隨機(jī)取24個(gè)正樣本點(diǎn),隨機(jī)取72個(gè)負(fù)樣本點(diǎn);取全部正樣本點(diǎn),取全部負(fù)樣本點(diǎn);取全部正樣本點(diǎn),隨機(jī)取正樣本點(diǎn)3倍數(shù)目負(fù)樣本點(diǎn);隨機(jī)取24個(gè)正樣本點(diǎn),取全部負(fù)樣本點(diǎn)。還對(duì)比3種正負(fù)樣本點(diǎn)劃分方式的有效性,分別為橢圓、圓、矩形,并且對(duì)于是否添加無關(guān)樣本進(jìn)行研究,對(duì)比實(shí)驗(yàn)如圖13所示。 圖13 中,p為正樣本,n為負(fù)樣本,i為無關(guān)樣本,r為矩形,c為圓形,e為橢圓形,all p為全部正樣本,all n為全部負(fù)樣本,3num(p)n為3倍正樣本數(shù)目的負(fù)樣本數(shù)。
圖13 正負(fù)樣本點(diǎn)選取區(qū)域劃分方式及樣本點(diǎn)選取數(shù)目實(shí)驗(yàn)結(jié)果Fig.13 Experimental results on division of positive and negative sample point selection regions and number of sample points selected
實(shí)驗(yàn)證明,由于本文跟蹤器為特定類別實(shí)例跟蹤,對(duì)于奶牛個(gè)體,外觀更接近于矩形,橢圓和圓形會(huì)將奶牛邊緣位置部分特征點(diǎn)定義為負(fù)樣本點(diǎn)進(jìn)行學(xué)習(xí),影響跟蹤器的準(zhǔn)確性。在是否加入無關(guān)樣本的實(shí)驗(yàn)中,加入無關(guān)樣本的跟蹤器EAO比不加無關(guān)樣本的跟蹤器EAO高1.3%,因?yàn)闊o關(guān)樣本的存在將物體邊緣難以學(xué)習(xí)到的樣本忽略,這樣可以提升正樣本數(shù)據(jù)的質(zhì)量,并且可以減少由于邊緣背景噪聲帶來的影響。根據(jù)圖13可知,正樣本點(diǎn)全部選取,隨機(jī)選取正樣本數(shù)量3倍的負(fù)樣本效果最佳,并且結(jié)合測(cè)試結(jié)果可知正樣本數(shù)量越多對(duì)于跟蹤器的學(xué)習(xí)效果越好。由于自然場(chǎng)景下背景復(fù)雜,負(fù)樣本如果全部選取會(huì)在一定程度對(duì)邊緣位置正樣本有抑制作用,小概率情況下將導(dǎo)致跟蹤過程預(yù)測(cè)框略小。
2.4.3特征提取網(wǎng)絡(luò)及多尺度預(yù)測(cè)實(shí)驗(yàn)
本文對(duì)不同模型特征提取網(wǎng)絡(luò)backbone進(jìn)行比較,包括Alexnet、Resnet18、Resnet34、Resnet50、MobilenetV1、MobilenetV2、Mobileone、Mobileone-remo,利用本文制作的數(shù)據(jù)集分別訓(xùn)練上述模型,實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同模型跟蹤性能Tab.3 Results of tracking performance indicators for different models
從表3可以發(fā)現(xiàn),由于淺層網(wǎng)絡(luò)無法獲得深層網(wǎng)絡(luò)的語義信息,相較深層網(wǎng)絡(luò)回歸準(zhǔn)確率較差;而深層網(wǎng)絡(luò)中Resnet系列網(wǎng)絡(luò)精度明顯高于輕量化網(wǎng)絡(luò)模型,但網(wǎng)絡(luò)模型包括大量參數(shù),參數(shù)量為輕量化網(wǎng)絡(luò)模型的10~30倍;相較于其他深層輕量化網(wǎng)絡(luò)模型,Mobileone-remo具有跟蹤準(zhǔn)確率更高,參數(shù)量更少的優(yōu)點(diǎn),在Mobileone的基礎(chǔ)上縮小一半的參數(shù)量,由于對(duì)步長為2的Padding置零,可以盡可能減小對(duì)跟蹤模型平移不變性的破壞,故跟蹤性能有所提升。
為了探究多尺度特征對(duì)跟蹤模型的影響,以及采用兩套初始化權(quán)重分別對(duì)分類回歸進(jìn)行訓(xùn)練的作用,設(shè)計(jì)相關(guān)消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。
表4 消融實(shí)驗(yàn)結(jié)果Tab.4 Ablation experiment resultts
實(shí)驗(yàn)結(jié)果表明,經(jīng)過對(duì)多尺度特征進(jìn)行融合,效果明顯優(yōu)于僅使用單一尺度特征跟蹤,淺層網(wǎng)絡(luò)提取到高分辨率特征和深層網(wǎng)絡(luò)提取到的語義信息共同對(duì)跟蹤網(wǎng)絡(luò)起作用,故采用3種尺度特征自適應(yīng)融合效果最佳?,F(xiàn)有孿生網(wǎng)絡(luò)跟蹤器對(duì)于分類分支和回歸分支采用相同的權(quán)重參數(shù)進(jìn)行訓(xùn)練,并不能很好地利用多尺度特征完成不同任務(wù)的優(yōu)勢(shì),本文采用不同初始化參數(shù)單獨(dú)訓(xùn)練分類和回歸,網(wǎng)絡(luò)自適應(yīng)訓(xùn)練后打印權(quán)重信息發(fā)現(xiàn),在回歸任務(wù)上深層網(wǎng)絡(luò)權(quán)重占比較高,在分類任務(wù)上淺層網(wǎng)絡(luò)權(quán)重占比較高,實(shí)驗(yàn)結(jié)果證明該方法對(duì)跟蹤性能有一定程度的提升。
2.4.4不同損失函數(shù)實(shí)驗(yàn)
本文比較了不同損失函數(shù)訓(xùn)練對(duì)跟蹤性能的影響,僅對(duì)算法損失函數(shù)部分進(jìn)行改動(dòng),實(shí)驗(yàn)數(shù)據(jù)、模型以及訓(xùn)練方法不變。SiamBAN模型[15]使用二元交叉熵?fù)p失函數(shù)用于分類,使用IOU損失用于回歸,按兩者所占比重1∶1進(jìn)行權(quán)重計(jì)算,記為type 1,實(shí)驗(yàn)結(jié)果如圖14所示;本文采用了基于樣本點(diǎn)與真實(shí)框中心點(diǎn)距離進(jìn)行分類回歸排序,記為type 2;Siamese-CAR模型[14]在分類分支中加入center-ness并用于分類損失,記為type 3;回歸模型計(jì)算真實(shí)框坐標(biāo)(x1,y1,x2,y2)替代L、R、T、B,使用L1損失,記為 type 4;根據(jù)Siamese-Mask模型[26]加入二值分割分支損失函數(shù),記為 type 5;根據(jù)Siamese-RBO模型[16]在分類分支加入了基于IOU和置信度的動(dòng)態(tài)排名損失,記為type 6。
圖14 6種不同損失函數(shù)跟蹤結(jié)果Fig.14 Tracking results of six different loss function
通過圖14可以看出,本文提出的基于中心位置的排序損失評(píng)估結(jié)果僅次于基于IOU和置信度動(dòng)態(tài)排序的損失評(píng)估指標(biāo)。結(jié)合圖15可視化分類效果,分析可得加入Rank-remo loss后,由于分類得分排序受距離影響,分類響應(yīng)在目標(biāo)中心至邊緣區(qū)間有一定梯度的緩慢下降;而原始損失函數(shù)由于沒有距離的影響,分類響應(yīng)僅在目標(biāo)邊緣突然下降,與距離無關(guān)。本文選取分類得分最高值點(diǎn)進(jìn)行回歸訓(xùn)練,選取到的最高值點(diǎn)距離目標(biāo)中心越近,則越有利于目標(biāo)回歸學(xué)習(xí),而原始方式選取到分類得分最高值點(diǎn)位置區(qū)域更大,當(dāng)選取到樣本點(diǎn)接近目標(biāo)邊緣位置時(shí)會(huì)影響回歸效果,故說明在解決跟蹤問題的過程中,基于樣本點(diǎn)與真實(shí)框中心點(diǎn)距離對(duì)其分類和回歸結(jié)果進(jìn)行重新排序是有效果的?;贗OU和置信度動(dòng)態(tài)排序的方法,需要根據(jù)樣本點(diǎn)置信度排名調(diào)整IOU排名,根據(jù)樣本點(diǎn)IOU排名調(diào)整置信度排名,這種動(dòng)態(tài)算法無疑需要更大的計(jì)算量,嚴(yán)重影響了訓(xùn)練時(shí)間,這與本文設(shè)計(jì)網(wǎng)絡(luò)算法的初衷相違背,故設(shè)計(jì)統(tǒng)一排序標(biāo)準(zhǔn)——按與真實(shí)框中心點(diǎn)的距離進(jìn)行排序,有效地降低了算法復(fù)雜度,減少了一半的訓(xùn)練時(shí)間,且跟蹤性能也取得了較好的結(jié)果。
圖15 Rank-remo loss與原始損失函數(shù)分類計(jì)算結(jié)果可視化示意圖Fig.15 Visualization diagram of Rank-remo loss and original loss function classification calculation results
2.4.5數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)
本文數(shù)據(jù)為自然場(chǎng)景下的奶牛圖像,存在大量遮擋、光線變換等場(chǎng)景,為了擴(kuò)充樣本多樣性,本文進(jìn)行了尺度變換(SCALE)、灰度變換(GRAY)、模糊處理(BLUR)、翻轉(zhuǎn)(FLIP)、隨機(jī)擦除(ERASE)等數(shù)據(jù)增強(qiáng)工作,有效提升了模型性能,實(shí)驗(yàn)結(jié)果如表5所示,經(jīng)實(shí)驗(yàn)對(duì)比各數(shù)據(jù)增強(qiáng)操作得出最優(yōu)超參數(shù),并設(shè)置數(shù)據(jù)增強(qiáng)概率SCALE為0.5, GRAY為0.4, BLUR為0.2, FLIP為0.5, ERASE為0.5。
表5 數(shù)據(jù)增強(qiáng)結(jié)果Tab.5 Results of data enhancement
從表5可以看出,經(jīng)過采用5種常見的數(shù)據(jù)增強(qiáng)工作,實(shí)驗(yàn)EAO提升0.022,加入灰度和隨機(jī)擦除方式的效果最為明顯,這是由于本文實(shí)驗(yàn)數(shù)據(jù)集背景為牛舍,夜間光線較暗,加入灰度增廣來豐富數(shù)據(jù)多樣性,對(duì)于解決夜間跟蹤“誤跟”、“漏跟”問題效果明顯。而牛舍中存在大量遮擋場(chǎng)景,加入隨機(jī)擦除的方式也有利于模型的性能提升。
2.4.6其它實(shí)驗(yàn)
本文對(duì)推理階段模板幀是否更新進(jìn)行比較,在模板幀更新模型中,將前一幀作為后一幀跟蹤模型的模板圖像進(jìn)行處理[27]。實(shí)驗(yàn)發(fā)現(xiàn),模板幀更新會(huì)導(dǎo)致跟蹤失敗,實(shí)驗(yàn)結(jié)果較差,模型跟蹤失敗后也缺乏糾錯(cuò)能力,當(dāng)預(yù)測(cè)框位置準(zhǔn)確率較低時(shí),會(huì)影響模板幀更新后質(zhì)量,導(dǎo)致跟蹤失敗。還比較了不同預(yù)訓(xùn)練模型對(duì)實(shí)驗(yàn)的影響,分別包括使用ImageNet[28]預(yù)訓(xùn)練模型、通用多類別跟蹤數(shù)據(jù)集預(yù)訓(xùn)練模型、奶牛目標(biāo)檢測(cè)數(shù)據(jù)預(yù)訓(xùn)練模型等,比較發(fā)現(xiàn)使用ImageNet預(yù)訓(xùn)練模型效果較好。
提出了一種自然場(chǎng)景下奶牛單目標(biāo)跟蹤模型,基于傳統(tǒng)孿生網(wǎng)絡(luò)算法,設(shè)計(jì)了一種新型的正負(fù)樣本選取策略,提升了模型樣本的多樣性,并進(jìn)行shiftbox-remo數(shù)據(jù)增強(qiáng)處理,提升正樣本采集質(zhì)量。然后使用改進(jìn)后的Mobileone-remo網(wǎng)絡(luò)提取特征,融合1/8、1/16、1/32尺度特征,并分別輸入分類分支和回歸分支,采用超輕量化模型提取到高質(zhì)量特征。最后加入了中心點(diǎn)排序損失函數(shù)進(jìn)行訓(xùn)練,根據(jù)樣本點(diǎn)與真實(shí)框中心點(diǎn)距離優(yōu)化模型參數(shù)。實(shí)驗(yàn)證明,本文提出的跟蹤器在奶牛測(cè)試數(shù)據(jù)集的EAO評(píng)估指標(biāo)達(dá)到0.475,模型參數(shù)量縮小至1/20,節(jié)省了計(jì)算資源,提高了計(jì)算效率,驗(yàn)證了本文方法的有效性,為奶牛身份識(shí)別與目標(biāo)跟蹤系統(tǒng)的研究提供了技術(shù)支持。