陳正斌,葉東毅,朱彩霞,廖建坤
1(福州大學 數(shù)學與計算機科學學院,福州 350108)
2(中國移動通信集團 福建有限公司漳州分公司,漳州 363000)
隨著在限制環(huán)境下目標識別算法在識別精度和實時性方面已經(jīng)接近實用性,研究人員越來越關注對非限制環(huán)境下的目標進行準確、實時的識別.特別是針對自然場景中不同尺度和類型的目標進行準確并實時的識別是最具挑戰(zhàn)性的任務[1].
移動通信鐵塔作為移動通信網(wǎng)絡建設中的基礎設施,架設在環(huán)境極為復雜的自然場景中,為了滿足不同場景下的信號需求,移動通信鐵塔還具有多種不同的設備類型.因此,為了實現(xiàn)準確、實時的對移動通信鐵塔目標識別,其難點主要體現(xiàn)在以下幾個方面:(1)移動通信鐵塔包含6大類,并且有的類與類之間的差別極小;(2)不同設備類型之間的尺度差別很大;(3)目標鐵塔的周圍還存在強遮擋、背景干擾等問題;(4)采集的圖像還存在光照變化、分辨率不統(tǒng)一等問題.由于背景復雜、周圍物體遮擋、光照變化等因素引起的干擾導致在復雜環(huán)境下的目標識別問題更具有很大的挑戰(zhàn)性[2].
近年來,深度學習在計算機視覺中得到了顯著的發(fā)展,特別是在目標識別方面[3].其主要的方法可以分為兩類.一類是基于候選區(qū)域的目標識別算法.首先使用區(qū)域推薦產(chǎn)生候選目標區(qū)域,隨后使用卷積神經(jīng)網(wǎng)絡進行分類、回歸處理;雖然其精度較高但實時性較差,難以滿足實時性需求的應用.其中具有代表性的算法有R-CNN[4],Fast R-CNN[5],Faster R-CNN[6],Mask RCNN[7]等.另一類是基于回歸方法的目標識別算法,將識別問題作為一個回歸問題處理,直接預測目標位置和類別.這類方法具有較快的識別速度,但相對而言精度偏低,具有代表性的算法有 YOLO[8]、SSD[9]、YOLOv2[10]、YOLOv3[11]等.
YOLOv3在各個領域應用時相對R-CNN具有更好的泛化性,基于YOLOv3的目標檢測方法被迅速推廣應用到各個領域,如視頻監(jiān)控、零件檢測、交通監(jiān)控等.Qu等人[12]在YOLOv3的基礎上,結合圖像增強技術,提出了一種用于行人檢測的方法.Song等人[13]提出了將YOLOv3算法應用于列車軌道表面的小目標缺陷檢測.Bilel等人[14]利用無人飛行器采集的車輛圖像對Faster R-CNN和YOLOv3算法進行比較,得出YOLOv3在靈敏度和處理時間方面優(yōu)于Faster R-CNN的結論.
YOLOv3利用深度殘差網(wǎng)絡提取圖像特征,并實現(xiàn)多尺度預測,獲得了目前最好的識別精度與速度的平衡,但是YOLOv3提取特征獲得的最小特征圖尺寸為13×13,相對于SSD中的1×1仍然偏大,造成YOLOv3對于中等或較大尺度的物體識別效果不好,會產(chǎn)生誤檢、漏檢或重復檢測的問題.因此,本文對YOLOv3進行改進,提出了針對自然場景中中等或較大尺寸的目標識別方法CDSP-YOLO.該方法對YOLOv3進行以下兩大改進:(1)設計了使用隨機空間采樣池化(S3Pool[15])的特征提取網(wǎng)絡DSP (DarkNet based on S3Pool),以減少因下采樣而導致特征圖空間信息的丟失.(2)對YOLOv3的多尺度識別策略進行改進,增強方法對中等或較大尺寸的目標識別效果,同時增加錨點框的數(shù)量,以提高目標識別的召回率.此外,針對非限制自然場景中目標識別任務存在光照變化等原因而造成的誤檢或漏檢的問題,采用限制對比度直方圖均衡化(CLAHE)進行圖像增強預處理.最后使用自行設計并標注的移動通信鐵塔數(shù)據(jù)集對CDSP-YOLO方法進行性能評估,實驗結果表明本文提出的方法在非限制自然場景中對中等或較大尺寸的目標識別上能夠取得較好的效果:準確率達97%,召回率達80%.
在感興趣目標識別的方面,近年來得到了飛速的發(fā)展,在精確性和實時性上都有了大幅度的提升,主要原因除了GPU計算能力的提升之外,深度卷積神經(jīng)網(wǎng)絡的引入也使得該領域取得了重大突破[16].深度學習目標識別算法已經(jīng)廣泛地應用于各個目標識別領域,同時針對特定問題的改進算法也不斷提出,并取得顯著的效果.以下將簡要介紹利用深度卷積神經(jīng)網(wǎng)絡進行自然場景中中等或較大尺寸目標檢測的最新研究.
基于候選區(qū)域的目標識別算法首先在圖像中產(chǎn)生候選框,然后對候選框中的目標進行分類.Cai等人[17]針對街道環(huán)境中的目標識別任務,對Faster R-CNN進行適應性的結構微調,使其對街道環(huán)境中的目標識別任務可以獲得較好的效果.但是該算法對于具有圖像背景干擾及周圍物體遮擋的目標識別效果不佳.Weidong Min等人[18]提出一種改進的ViBe算法,用于多個目標的魯棒性與準確性識別.該算法采用良好的后處理方法抑制動態(tài)噪聲,同時使用兩個分類器進一步解決無法識別具有遮擋和干擾目標的問題,但是實驗中對比的方法不是目前最好的方法,不能完全說明該方法的優(yōu)越性.Cao等人[19]提出具有知識引導訓練和預測感興趣區(qū)域的快速深度神經(jīng)網(wǎng)絡,在顯著降低整體計算復雜度的同時提高目標識別性能,與傳統(tǒng)SSD算法相比,該算法的檢測速度顯著提高,但是檢測精度卻沒有明顯提升.
基于回歸問題的目標識別算法使用端到端的神經(jīng)網(wǎng)絡,直接預測圖像中目標的位置和類別,獲得了目前最好的識別精度與速度的平衡.針對不同場景下的任務需求,基于YOLOv3算法提出了許多改進方法.文獻[12–14]已經(jīng)表明基于改進YOLOv3的目標識別算法,對于特定場景下的小目標識別能夠取得較好的效果,但是對于非限制自然場景中中等或較大尺寸的目標識別任務存在的背景干擾和周圍物體遮擋的問題,現(xiàn)有改進算法的識別性能仍然有待提升.
YOLO目標識別算法的核心思想是將目標識別問題轉化成一個回歸問題,實現(xiàn)了僅用一個深度卷積網(wǎng)絡,同時在保證準確率較高的前提下實現(xiàn)快速的目標識別[20].
YOLOv3在YOLOv2的基礎上進行了一些適應性的改進,包括多尺度識別、多標簽分類等,并使用基于ResNet網(wǎng)絡改進的 DarkNet-53 網(wǎng)絡作為特征提取器,使YOLO系列方法不擅長識別小物體的缺陷得到了改善.YOLOv3也因此成為目前為止最優(yōu)秀的目標識別算法之一.如圖1為DarkNet-53特征提取器的網(wǎng)絡結構.
圖1 YOLOv3算法的DarkNet-53網(wǎng)絡結構
YOLOv3首先將原始圖片縮放到416×416的大小,使用了類似 FPN 網(wǎng)絡[21]的尺度金字塔結構.其中的DarkNet-53特征提取網(wǎng)絡將原始圖像按照特征圖的尺度大小劃分為S×S個等大的單元格,對應的3個尺度的特征圖大小為 13×13、26×26、52×52.接著采用淺層次特征和深層次特征的融合獲得更具有鑒別性的深層特征.最后在回歸預測部分每一個單元格借助3個錨點框(anchor box)預測 3個邊框.如圖2所示為其中一個網(wǎng)格預測的邊框示意圖.
YOLOv3在每一個單元格上會為每一個邊框預測4個值,即邊框左上角坐標(x,y)與目標的寬和高(w,h),記為若目標中心在單元格中相對于圖像左上角有偏移并且錨點框具有寬度和高度(Pw,Ph),則修正后的邊框為:
其中,錨點框的選擇采用維度聚類的方法,傳統(tǒng)的聚類算法包括層次聚類和k均值聚類,以及基于模型的方法[22].而在YOLOv3中利用K-means聚類算法對訓練集中目標邊框的尺寸進行聚類,獲取最佳錨點框的尺寸,從而能夠預測出更加準確的目標邊框.其中的Kmeans聚類算法的距離度量為:
其中,box指 數(shù)據(jù)集中邊框尺寸樣本,centroid指類簇中心尺寸.
YOLOv3使用邏輯回歸預測錨點框中包含物體的概率.如果錨點框與真實目標邊框的重疊率大于任何其他錨點框,則這個錨點框的概率為 1;如果錨點框與真實目標的邊框的重疊率大于 0.5,但又不是最大的,則忽略這個預測.YOLOv3 在訓練時僅對一個物體分配一個錨點框.如果錨點框中沒有包含被認為的物體,則使其在損失函數(shù)中不起作用.YOLOv3 在訓練過程中使用二元交叉熵損失和邏輯回歸來進行類別預測,這種方式使得 YOLOv3 可以對一個目標進行多標簽分類.
圖2 YOLOv3在13×13的單元格中的預測邊框示意圖
卷積神經(jīng)網(wǎng)絡(CNN)中的特征池化層主要用于減少參數(shù)計算數(shù)量,保持尺度的不變性,并增加特征圖的感受野大小[23].在中規(guī)模的網(wǎng)絡,例如:VGG[24]和GoogLeNet[25]中使用最大或者平均池化的方式;而在大規(guī)模的網(wǎng)絡,例如:ResNet[26]和DenseNet[27],使用帶步長的卷積方式進行特征圖的壓縮.由于以上的方式,僅從某個鄰域內通過線性的方式下采樣成一個點,而沒有更多的考慮特征圖的空間關系,使得網(wǎng)絡在前向傳播時丟失更多的信息.在文獻[15]中Zhai等人提出了隨機空間采樣池化(S3Pool).該算法先使用步長為1的最大池化方式,得到一張與原特征圖尺寸相同的特征圖;然后將特征圖劃分成邊長為g的網(wǎng)格,再使用隨機選擇行列的方式確定池化窗口選擇的點進行特征圖的下采樣.如圖3為使用池化窗口為2、步長為2、網(wǎng)格大小為2的S3Pool過程.
S3Pool通過將池化過程分解為兩個步驟來擴展標準最大池:使用步幅1進行最大池化和使用非確定性的空間下采樣,即從特征映射中隨機采樣行和列.實際上,S3Pool在每個池化階段隱式地增加了訓練數(shù)據(jù),這使得學習模型具有更強的泛化能力.并且與帶步長的卷積相比,S3Pool不會引入任何附加參數(shù),并且可以插入任何現(xiàn)有的池層.如表1為文獻[15]中利用兩種流行的圖像分類基準評估S3Pool :CIFAR-10和CIFAR-100.文獻[15]選用兩個目前通用的深度神經(jīng)網(wǎng)絡架構,即NIN[28]和ResNet.對比兩個架構中使用步長為2的卷積核(Pool-2)和S3Pool的下采樣方法對于算法性能的影響.實驗結果表明S3Pool的隨機性使得模型具有更好的泛化性.同時相比于使用帶步長的卷積方式,S3Pool不會增加任何參數(shù),能夠使得模型更易于訓練.
圖3 使用窗口為2、步長為2、網(wǎng)格大小為2的S3Pool過程
表1 S3Pool與Pool-2在CIFAR-10和CIFAR-100的對比
針對現(xiàn)有的目標識別算法對非限制自然場景中中等或較大尺寸目標識別中無法取得較好性能的問題,本文對YOLOv3算法在網(wǎng)絡結構和多尺度識別策略上進行改進,提出了使用CLAHE圖像增強預處理的CDSP-YOLO目標識別方法.
YOLOv3中Redmon等人借鑒了ResNet提出DarkNet-53特征提取網(wǎng)絡.雖然DarkNet-53利用殘差網(wǎng)絡結構使得網(wǎng)絡的訓練難度得到降低,并使用了大量的 1×1 卷積核與使用3×3大小步長為 2 的卷積核替代最大池化減少網(wǎng)絡總體的參數(shù)數(shù)量,但是由于通過帶步長卷積的下采樣方式仍是局部鄰域的線性計算,沒有考慮鄰域之間的空間關系,因此該方法同樣不能有效的解決因最大池化而導致特征圖空間信息丟失的問題,同時帶步長的卷積會使得網(wǎng)絡的參數(shù)增加,導致訓練復雜、并且減慢識別速度.
本文的任務在于完成非限制自然場景中中等或較大尺寸的目標識別.使用在非限制自然場景下采集的移動通信鐵塔圖像作為算法性能的評估.由于自然場景下的移動通信鐵塔圖像存在背景復雜、光照變化和周圍物體遮擋等的問題,直接采用YOLOv3無法有效的解決上述問題,因此,本文提出了DSP (DarkNet based on S3Pool)特征提取網(wǎng)絡.DSP采用隨機空間采樣池化(S3Pool)的方法對特征圖進行下采樣.該方法首先使用步長為1的最大池化方法,保留特征圖之間更多
的空間關系,再使用隨機采樣的方式,在每個2×2的區(qū)域內進行采樣,最后輸出下采樣之后的特征圖.本文的DSP特征提取網(wǎng)絡將DarkNet-53中卷積核大小為3×3、步長為2的卷積層替換成S3Pool下采樣層,起到最大概率保留特征圖空間信息的作用.如圖4為改進后的DSP特征提取網(wǎng)絡.
圖4 改進后的DSP特征提取網(wǎng)絡
YOLOv3 中,引入 FPN網(wǎng)絡,同時利用低層特征的高分辨率和高層特征的高語義信息,并通過上采樣融合不同層的特征,在3個不同尺度的特征層上識別物體.如圖5為移動通信鐵塔圖像在13×13、26×26、52×52的3個尺度層下的感受野圖示,在移動通信鐵塔目標較大的情況下,在52×52的尺度層輸出特征圖的感受野對應目標的部分極小.此時使用錨點框進行預測鐵塔目標邊框將很難保證錨點框對于大目標的覆蓋率.同時,如圖6所示移動通信鐵塔圖像中的鐵塔目標大多數(shù)為大目標的情況,本文對YOLOv3中的尺度識別模塊進行改進,將原有的 3個尺度識別修改為2個尺度識別,在較小特征圖給大目標分配更為準確的錨點框.
本文將YOLOv3的3個尺度修改為2個尺度后,需要對錨點框進行重新確定.通過權衡平均交并比與錨點框的數(shù)量(如圖7)的關系,取16個錨點框,分別為:(12,46)、(16,111)、(22,76)、(39,72)、(22,166)、(30,113)、(75,79)、(33,198)、(49,148)、(40,282)、(57,327)、(291,53)、(64,205)、(94,294)、(135,154)、(194,310).在每個尺度上的每一個單元格借助8個錨點框預測8個目標邊框.
基于以上提出的改進思路,如圖8中給出了本文提出的改進后的DSP-YOLO (DarkNet based on S3Pool-YOLO)網(wǎng)絡結構.網(wǎng)絡的輸入為416×416的待識別圖像,經(jīng)過DSP特征提取,再利用多尺度識別,最后輸出2個尺度的識別結果,分別為13×13×88、26×26×88,其中的88維通道表示使用8個錨點框預測8個目標邊框的信息,每個預測邊框信息具體包括邊框坐標(x,y)、大小(w,h)、置信度(C)及所屬6個類別的概率( C1,C2,C3,C4,C5,C6).
圖5 移動通信鐵塔圖像在3個尺度層下的感受野圖示
圖6 數(shù)據(jù)集中邊框高度的分布情況
圖7 錨點框與數(shù)據(jù)集邊框平均交并比的關系圖
由于非限制自然場景中的圖像在采集過程中存在光線不足或者光照不均勻等的現(xiàn)象,該現(xiàn)象可能導致圖像質量下降.因此,采用傳統(tǒng)的YOLOv3算法無法很好適用于該場景下的移動通信鐵塔目標識別問題.
為了克服以上提及的問題,本文提出了CDSPYOLO目標識別方法.該方法采用了對自適應直方圖均衡化算法(AHE)[29]改進的限制對比度直方圖均衡化的圖像增強預處理算法(CLAHE).其中CLAHE圖像增強預處理算法的主要步驟為:
(1)首先將圖像的顏色空間由RGB轉為HSV.
(2)然后將圖像分塊,并對每個分塊在HSV顏色空間中的V(亮度)分量進行直方圖均衡化的操作,該操作將直方圖中超過閾值的灰度級像素剪切均分給每個灰度級.
(3)最后將V分量和原先的H、S分量拼接再轉到RGB顏色空間得到增強后的圖像.
通過CLAHE預處理后可以減小光照對圖像質量的影響,同時由于提升了對比度還會增加了樣本圖像光照的多樣性.在訓練和測試的過程中對圖像進行增強預處理,提高移動通信鐵塔圖像質量,從而提高模型識別的準確率和召回率.如圖9為CDSP-YOLO目標識別方法流程圖.
為了驗證DSP-YOLO算法的在識別非限制自然場景中中等或較大尺寸目標的可行性以及采用基于CLAHE圖像增強預處理的CDSP-YOLO方法進行目標識別的有效性.本文在中國移動集團福建有限公司漳州分公司提供圖像構造的數(shù)據(jù)集上,通過對比實驗的方法,將YOLOv3、DSP-YOLO和CDSP-YOLO方法應用于移動通信鐵塔目標的識別.實驗服務器的配置參數(shù)如下:Intel(R)Xeon(R)CPU E5-2620 v4 @ 2.10 GHz處理器、128 GB內存、16 GB NVIDIA Tesla P100 GPU、Ubuntu 16.04.3操作系統(tǒng).
圖9 CDSP-YOLO目標識別方法流程圖
實驗主要分為兩個部分:第一,通過實驗結果定量評估YOLOv3、DSP-YOLO和CDSP-YOLO方法對于中等或較大尺寸的移動通信鐵塔目標識別的效果,驗證CDSP-YOLO方法的有效性.第二,通過實驗結果定性的評估YOLOv3、DSP-YOLO和CDSP-YOLO方法在自然場景中對不同類別的移動通信鐵塔的識別能力,驗證CDSP-YOLO方法具有良好的魯棒性.
本次實驗規(guī)定當模型預測的目標邊框與手工標注的邊框 IOU ≥ 0.5 時,則認為移動通信鐵塔目標識別正確,否則錯誤.實驗選取準確率P(Precision)、召回率R(Recall)和平均交并比mIOU作為評價指標.
準確率:
召回率:
其中,TP為 真正例,FP為假正例,FN為假負例.
本文中提到的移動通信鐵塔目標識別的原始實驗數(shù)據(jù)由中國移動集團福建有限公司漳州分公司提供,實驗數(shù)據(jù)包含6個類別共240張圖像.
由于原始移動通信鐵塔圖像數(shù)據(jù)數(shù)量較少,本文采取了3種策略對數(shù)據(jù)進行擴增[30],分別為:(1)隨機圖像平移:將圖像在水平或者垂直方向上進行平移–0.2倍~0.2倍.(2)隨機圖像縮放:對圖像進行隨機的縮小或者放大0.2倍.(3)隨機圖像鏡像翻轉:將圖像進行隨機的翻轉,得到鏡像圖像.通過以上的數(shù)據(jù)擴增方法,本文得到6691張圖像用于后續(xù)的工作.如圖10為中國移動集團福建有限公司漳州分公司提供給的移動通信鐵塔目標數(shù)據(jù)集擴增后的部分數(shù)據(jù)展示.
將本文提出的基于CLAHE圖像增強預處理的CDSP-YOLO與未采用圖像增強處理的DSP-YOLO及YOLOv3進行比較,對比實驗結果如表2所示.表中的數(shù)據(jù)是在500個樣本的測試集上獲得,其中對網(wǎng)絡結構和多尺度改進的DSP-YOLO算法得到了91%的準確率和77%的召回率,相比于YOLOv3分別提升了11%和20%.更進一步的是,在使用了基于CLAHE圖像增強預處理的CDSP-YOLO相比于未使用圖像增強預處理的DSP-YOLO在準確率和召回率又提高了6%和3%,最終取得97%的準確率和80%的召回率.
圖10 移動通信鐵塔目標識別數(shù)據(jù)集展示
表2 實驗結果對比
為了更直觀的展示實驗的對比效果,如圖11展示了YOLOv3、DSP-YOLO和CDSP-YOLO對中等或較大尺寸的移動通信鐵塔測試集中6個類別的不同場景圖像的識別結果.實驗主要從目標強遮擋、光照變化、圖像對比度低、圖像模糊和多目標識別等方面對3個方法進行全面的對比.由圖11的對比實驗結果可知,直接使用YOLOv3算法進行移動通信鐵塔目標識別存在漏檢和識別錯誤的問題.而使用適應性的DSPYOLO算法在一定程度上能克服YOLOv3算法出現(xiàn)的漏檢問題,但對于圖像中出現(xiàn)光照變化、對比度低和模糊的現(xiàn)象,直接使用DSP-YOLO算法進行目標識別也很難有好效果.由圖11中第3列的CDSP-YOLO方法識別結果可知,使用CLAHE圖像增強預處理方法可以很好的避免圖像中出現(xiàn)光照變化、對比度低和模糊的現(xiàn)象對于目標識別的影響.實驗對比結果表明本文提出的CDSP-YOLO目標識別方法對于自然場景下的移動通信鐵塔目標識別具有良好的魯棒性.
圖11(a)、圖11(b)、圖11(c)3個對比圖存在強遮擋、對比度低和光照變化的問題,僅有CDSP-YOLO方法可以全部識別移動通信鐵塔目標.YOLOv3算法相比于DSP-YOLO算法在特征圖的下采樣過程中丟失的空間信息更多,而導致在存在上述問題的圖像中無法有效地將移動通信鐵塔目標識別.而DSP-YOLO算法雖然能夠識別出一些鐵塔目標,但是與CDSPYOLO方法相比存在置信度較低的問題,如圖11(c)中DSP-YOLO算法識別的置信度為0.75,而CDSPYOLO方法識別的置信度高達0.94.綜上,CDSPYOLO目標識別方法在場景復雜的移動通信鐵塔目標識別上具有較好的識別效果.
圖11(d)、圖11(e)、圖11(f)3個對比圖為多目標識別問題,同時場景中仍存在遮擋、對比度低和圖像模糊的問題,同樣僅有CDSP-YOLO算法可以識別出所有的移動通信鐵塔目標.YOLOv3算法不僅存在漏檢的問題,而且在移動通信鐵塔目標類別較為相似的情況下還存在識別錯誤的問題,主要原因是YOLOv3的特征提取網(wǎng)絡的對特征圖空間信息的保留能力不足,同時由于沒有對多尺度做適應性改進,每個尺度采用3個錨點框無法取得較好的覆蓋率從而導致識別的召回率低,因此YOLOv3算法無法直接應用于自然場景中中等或較大尺寸的目標識別任務中.而直接使用DSP-YOLO算法對于場景存在背景干擾、遮擋和光照變化的多目標識別仍存在少數(shù)的漏檢情況,主要還是因為上述自然場景過于復雜引起.所以采用基于CLAHE圖像增強預處理的方法能夠有效的提高DSP-YOLO的識別召回率和準確率.
本文基于YOLOv3對網(wǎng)絡結構和多尺度識別進行改進,提出了一種針對非限制自然場景中中等或較大尺寸的目標識別方法,并自行設計標注了一個移動通信鐵塔目標的數(shù)據(jù)集,用于方法性能的評估.實驗結果表明,本文提出的CDSP-YOLO目標識別方法對自然場景中中等或較大尺寸的目標具有良好的魯棒性,識別的準確率達97%,召回率達80%.
圖11 YOLOv3、DSP-YOLO、CDSP-YOLO對比實驗結果