鄭雅羽 王濟(jì)浩 馮 杰
(*浙江工業(yè)大學(xué)信息工程學(xué)院 杭州 310023)(**浙江理工大學(xué)信息學(xué)院 杭州 310018)
在步行道上占道停車的行為增加了行人因繞行而被迫進(jìn)入非機(jī)動車道乃至機(jī)動車道進(jìn)而引起交通事故的可能性。城市管理部門常通過固定監(jiān)控設(shè)備攝像[1]和執(zhí)法人員巡檢來整治違停現(xiàn)象。但由于監(jiān)控攝像設(shè)備的視角固定,容易存在監(jiān)控盲區(qū)、易被人為干擾與躲避,而執(zhí)法人員巡檢存在效率低的問題。隨著類似谷歌眼鏡等智能可穿戴移動設(shè)備的快速發(fā)展,可提高巡檢時采集相應(yīng)場景圖片的效率。開發(fā)和推廣應(yīng)用移動設(shè)備采集的圖像并自動進(jìn)行違停識別的技術(shù)可加強(qiáng)對違停行為的監(jiān)管。
移動設(shè)備采集到的圖像往往由于步行道的寬窄不一、拍攝時因?yàn)樾羞M(jìn)方向的變化導(dǎo)致拍攝視角差異較大,使得不同圖像中車輛尺度差別大、包含的背景信息復(fù)雜,只采集到車頭或車尾等局部信息的特點(diǎn)。使用傳統(tǒng)的圖像檢測方法[2]進(jìn)行違停車輛的自動識別主要有以下2個難點(diǎn):一是傳統(tǒng)方法提取的特征是基于車輛完整出現(xiàn)的前提,因此對圖像中只含局部信息的車輛難以有效檢出;二是不同于固定監(jiān)控設(shè)備可預(yù)先設(shè)置步行道的可停區(qū)域,由于圖片是移動采集的,步行道的可停區(qū)域會隨時變化,因此需要對圖片中的可停區(qū)域也能實(shí)現(xiàn)自動識別,但由于拍攝視角、車位線磨損、光照影響、可停區(qū)域被車輛大面積遮擋形變等原因造成檢測困難。
針對以上2個難點(diǎn),可以利用近年來興起的深度學(xué)習(xí)領(lǐng)域中的目標(biāo)檢測網(wǎng)絡(luò)來提高檢出率[3]。目標(biāo)檢測網(wǎng)絡(luò)主要分為一步法(YOLO[4]系列為代表)和兩步法(R-CNN[5]系列),本文出于精度和后期多分類的需求選取兩步法進(jìn)行研究。Girshick等人[5]提出的R-CNN方法,實(shí)現(xiàn)了以CNN進(jìn)行目標(biāo)檢測。R-CNN在VOC數(shù)據(jù)集上達(dá)到了53.7%的準(zhǔn)確率,相較于傳統(tǒng)方法平均35%的準(zhǔn)確率有了較大的提升,但R-CNN的模型復(fù)雜度較高。SPP-net[6]通過空間金字塔池化加速了提取特征的速度,而后的Fast R-CNN[7]、Faster R-CNN[8]在精度和檢測速度有效提升且實(shí)現(xiàn)了端對端的CNN目標(biāo)檢測模型。
但在遭遇檢測效果不佳的情況下,僅依靠檢測網(wǎng)絡(luò)輸出的包圍框坐標(biāo)與類別難以分析出原因,其給出的矩形包圍框在面對形狀不規(guī)則物體時也難以直觀體現(xiàn)出對目標(biāo)物體的檢出效果。Mask R-CNN[9]是在Faster R-CNN基礎(chǔ)上結(jié)合FCN[10]支路提出的實(shí)例分割模型,可以實(shí)現(xiàn)在輸出物體包圍框與類別置信度的同時增加框內(nèi)目標(biāo)物體的輪廓掩碼信息,使得對物體檢測的精準(zhǔn)度有了額外的評價指標(biāo)。此外,可停區(qū)域的特征不如車輛特征明顯,其一般由車位線框定,但由于車位線內(nèi)的區(qū)域與車位線外的區(qū)域存在高度相似的原因,當(dāng)可停區(qū)域存在車位線磨損、光照影響、遮擋變形等情況時,會使包圍框和輪廓掩碼與真值相差過大,進(jìn)而影響檢出車輛的進(jìn)一步違停判定。因此需要改進(jìn)實(shí)例分割網(wǎng)絡(luò)在保證定位準(zhǔn)確度的前提下加強(qiáng)可停區(qū)域的特征信息。
本文以識別步行道上違停車輛為目標(biāo),通過改進(jìn)實(shí)例分割網(wǎng)絡(luò)結(jié)合連通區(qū)域融合的方法提升車輛與可停區(qū)域的檢測效果。在模型檢測的基礎(chǔ)上,本文設(shè)計違停判定算法以檢測違停車輛。
根據(jù)檢測任務(wù)的需求,本文提出的檢測步行道上違停車輛的算法框架如圖1所示。首先將圖片輸入到對Mask R-CNN改進(jìn)后的網(wǎng)絡(luò),通過遷移學(xué)習(xí)得到輸入圖片中車輛與可停區(qū)域的精準(zhǔn)的實(shí)例分割結(jié)果。步行道上的可停區(qū)域往往是由多個緊密相連車位組成的整體區(qū)域,而由于實(shí)例分割網(wǎng)絡(luò)具有分割相同類別不同個體的特性使得完整的可停區(qū)域被分割成重疊的單個車位的包圍框與輪廓掩碼,破壞了可停區(qū)域的完整性,因此本文設(shè)計了連通區(qū)域的融合方法改善實(shí)例分割網(wǎng)絡(luò)對可停區(qū)域的分割。最后根據(jù)處理后的結(jié)果設(shè)計了一種違停判定方法來有效識別違停車輛。
圖1 整體框架圖
實(shí)例分割網(wǎng)絡(luò)Mask R-CNN在實(shí)例檢測與分割等任務(wù)中獲得了較好的性能,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。對于輸入圖片,首先進(jìn)入基礎(chǔ)網(wǎng)絡(luò)提取特征,為了更好地提取特征Mask R-CNN引入了特征金字塔結(jié)構(gòu)(feature pyramid network, FPN)[11]。將FPN處理后產(chǎn)生的多層特征圖送入?yún)^(qū)域提議網(wǎng)絡(luò)(region proposal network,RPN)得到可能包含物體的前景提議框,ROI(region of interest) Align層根據(jù)FPN產(chǎn)生的特征圖將前景提議框映射成固定尺寸的特征向量。
圖2 Mask R-CNN結(jié)構(gòu)
產(chǎn)生的提議框特征向量最后復(fù)用于經(jīng)過FCN支路得到分割圖與經(jīng)過卷積全連接支路得到相應(yīng)類別與包圍框的坐標(biāo)。
由于本文的連通區(qū)域融合與違停判定依賴實(shí)例分割網(wǎng)絡(luò)結(jié)果的準(zhǔn)確性,而網(wǎng)絡(luò)對于車輛等物體的強(qiáng)特征性較為敏感,在遇到可停區(qū)域中車位線內(nèi)外存在高度相似的特征時,可能出現(xiàn)檢測失準(zhǔn)的情況。用原始的Mask R-CNN網(wǎng)絡(luò)訓(xùn)練后的檢測效果如圖3所示 ,通過包圍框輔助以輪廓掩碼的主觀結(jié)果可以發(fā)現(xiàn)網(wǎng)絡(luò)對于車輛的檢測效果較為精準(zhǔn),但可停區(qū)域的包圍框與掩碼存在偏大的現(xiàn)象,這將直接導(dǎo)致在后續(xù)進(jìn)行違停判定時易產(chǎn)生誤判現(xiàn)象。由于Mask R-CNN網(wǎng)絡(luò)會大量復(fù)用基礎(chǔ)網(wǎng)絡(luò)中的特征信息輸出最終的檢測與分割結(jié)果,因此特征信息的完整尤為重要,本文為了加強(qiáng)基礎(chǔ)網(wǎng)絡(luò)的特征信息提出了一種低代價的改進(jìn)方法。
圖3 可停區(qū)域檢測失準(zhǔn)
有別于Faster R-CNN中基礎(chǔ)網(wǎng)絡(luò)得到單一尺寸的特征圖,Mask R-CNN算法在基礎(chǔ)網(wǎng)絡(luò)中引入FPN得到不同尺寸的特征圖,解決了多尺度檢測的問題?;A(chǔ)網(wǎng)絡(luò)具體結(jié)構(gòu)如圖4所示,輸入圖片經(jīng)過左側(cè)的ResNet[12]中不同殘差塊得到C2~C5特征層,右側(cè)特征金字塔FPN結(jié)構(gòu)中主要包含2個結(jié)構(gòu):(1)橫向連接,使用1×1卷積提取ResNet中的特征層信息并將通道數(shù)統(tǒng)一成256。(2)自上而下,將含有整體抽象信息的上層特征圖做2倍上采樣,然后與下一層經(jīng)過橫向連接的特征相加得到M2~M5,使得含有定位信息的下層特征圖能額外擁有整體抽象信息,并將相加過后的特征層經(jīng)過3×3卷積得到P2~P5,使得在不改變特征圖尺寸的情況下提高感受野(receptive field)。
圖4 基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)
Mask R-CNN的基礎(chǔ)網(wǎng)絡(luò)中的FPN結(jié)構(gòu)將上層信息通過上采樣的方式傳遞給下層,雖然使得下層信息更加豐富,但上層含有的定位信息并沒有得到加強(qiáng),特別是輸入圖片經(jīng)過ResNet中C2~C5共計101層后會損失過多殘差網(wǎng)絡(luò)提取到的下層的定位信息。基于以上不足,本文提出了一種改進(jìn)的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)以改善特征信息的傳遞,具體的連接方式如圖5所示,在保持原有的橫向連接與自上而下的結(jié)構(gòu)的基礎(chǔ)上,額外增加了一種自下而上的連接。
圖5 改進(jìn)的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)
圖片輸入到改進(jìn)后的網(wǎng)絡(luò)中,首先經(jīng)過ResNet,其卷積核與步長的選取遵循ResNet網(wǎng)絡(luò)的設(shè)計,C2~C5的特征層的選取也與基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)中的ResNet相同。在得到C2~C5特征層后,使用基礎(chǔ)網(wǎng)絡(luò)中相同的FPN網(wǎng)絡(luò)中的橫向連接與自下而上的連接得到M2~M5層,對于M5層首先將位于該層之下的M4~M2層做相應(yīng)2、4、8倍的下采樣,將各層與M5層進(jìn)行尺寸對齊,之后通過稠密連接[13]與M5層相加后通過3×3卷積得到P5層,M4與M3的修改機(jī)制同上。通過稠密連接的方式使得上層快速獲得下層的定位信息,這一過程中只包含不到10層,但能有效加強(qiáng)上層的定位信息,使得網(wǎng)絡(luò)對大物體的定位更加精準(zhǔn)。
本文所使用的模型為多任務(wù)模型,其整體損失函數(shù)為
L=Lcls+Lbox+Lp+Lmask
(1)
其中,Lcls為檢測類別的損失,Lbox為檢測包圍框坐標(biāo)的回歸損失,Lmask為包圍框內(nèi)分割損失,Lp為RPN網(wǎng)絡(luò)的損失。其中Lcls、Lbox、Lp三者均與Faster R-CNN的損失函數(shù)相同,這里不做詳細(xì)介紹。對于Lmask損失,由于在訓(xùn)練時,網(wǎng)絡(luò)會得到固定數(shù)目為n的提議框,在經(jīng)過FCN分割后會得到n個28×28特征向量,其中每一個元素均為0~1的概率值,對于單個元素,分類的交叉熵表示如式(2)所示:
(2)
(3)
Lmask的損失函數(shù)為各類別交叉熵和的平均,考慮到本文模型的類別數(shù)較小,將n從原有的200減少為100以減少模型過多的參數(shù)。
深度學(xué)習(xí)模型與傳統(tǒng)分類器的顯著區(qū)別之一是前者需要海量含有真值標(biāo)簽的樣本,而獲得這些樣本以及標(biāo)注工作往往成本巨大。遷移學(xué)習(xí)(transfer learning)借助通用數(shù)據(jù)集上訓(xùn)練完成的模型得到圖像特征的先驗(yàn)知識,例如,模型具有幫助識別邊緣、紋理、形狀和物體組成的能力,因此遷移學(xué)習(xí)不受傳統(tǒng)的數(shù)據(jù)同分布假設(shè)的限制,在開始新任務(wù)時只需在該模型上進(jìn)一步訓(xùn)練而無需從零開始訓(xùn)練參數(shù)。
本文借助于遷移學(xué)習(xí)中的微調(diào)(fine tuning)方法修改模型。(1)獲得源數(shù)據(jù)集上訓(xùn)練完成的源模型。(2)根據(jù)目標(biāo)數(shù)據(jù)集得到目標(biāo)模型,在訓(xùn)練開始前復(fù)制源模型上除輸出層外的所有模型設(shè)計及參數(shù)。(3)為目標(biāo)模型添加輸出大小為目標(biāo)任務(wù)所需分類個數(shù)的輸出層,并隨機(jī)初始化該輸出層參數(shù)。(4)在目標(biāo)數(shù)據(jù)集上訓(xùn)練目標(biāo)模型,其中輸出層從頭開始訓(xùn)練,其余層的參數(shù)都是基于源模型的參數(shù)微調(diào)得到的。
圖像的二維性、拍攝視角、車位線緊密相連等原因使得步行道上的停車區(qū)域在采集圖像中存在形變、被遮擋的可能,造成可停區(qū)域的面積大小、區(qū)域輪廓不存在統(tǒng)一的實(shí)例特征,因此模型輸出的可停區(qū)域包圍框存在分割相連通區(qū)域的問題,這易造成同一塊連通的可停區(qū)域具有多個包圍框的現(xiàn)象。實(shí)例分割輸出包圍框前使用非極大值抑制(non-maximum suppression,NMS)[14]來移除同一實(shí)例重疊的包圍框,框與框之間的重疊率使用IOU(intersection over union)來計算。由于NMS 方法是基于重疊包圍框之間的面積、長寬比近似的假設(shè),因此當(dāng)2個包圍框之間面積與長寬比差異較大時,NMS并不能有效抑制重疊的包圍框,例如大包圍框中包含小包圍框,這在對可停區(qū)域的檢測中大概率出現(xiàn)。
基于以上的不足,本文在第2節(jié)得到的模型基礎(chǔ)上提出了一種連通區(qū)域的融合方法來加強(qiáng)后處理。假設(shè)實(shí)例分割得到的可停區(qū)域包圍框?yàn)閍和b,且存在相交的矩形區(qū)域記為Iab,該區(qū)域中屬于框a和b的可停區(qū)域掩碼分別記為ma和mb,根據(jù)Iab中存在的掩碼來判定包圍框之間是否存在相連通的區(qū)域,其判定如式(4)所示:
(4)
其中,area(ma)和area(mb)代表Iab中屬于包圍框a和b的掩碼面積,其掩碼交集如圖6所示,計算區(qū)域內(nèi)相應(yīng)掩碼的交并比M,當(dāng)M大于閾值θ時,則判定包圍框a和b存在相連通的區(qū)域,將實(shí)例分割結(jié)果中的分割掩碼做相并操作進(jìn)行融合,其融合后的包圍框?yàn)檠诖a區(qū)域的外接矩形框,其相應(yīng)的置信度選取融合前掩碼面積最大的包圍框置信度。當(dāng)存在2個以上的可停區(qū)域包圍框時,按照上述連通檢測方法構(gòu)造圖,使用深度優(yōu)先搜索策略得到相連通的包圍框,重復(fù)上述的融合方法。由于計算交并比限制在包圍框的相交區(qū)域,且基于掩碼的疊加程度來衡量是否相連通,相比傳統(tǒng)的NMS檢測方法,上述方法一方面縮小了搜尋區(qū)域,另一方面基于輪廓掩碼的交并比對于物體重疊的判定相較于包圍框會更加精確。
圖6 可停區(qū)域掩碼交集
為了將合規(guī)停放車輛與違停車輛區(qū)分開來,需要進(jìn)一步將違停與非違停的車輛標(biāo)記,具體流程如圖7所示,首先借助改進(jìn)后的網(wǎng)絡(luò)與融合方法得到的車輛與可停區(qū)域的檢測結(jié)果判定是否檢測到車輛,若車輛不存在,則無需進(jìn)行違停判定;若車輛存在,則進(jìn)一步判定是否存在可停區(qū)域。若不存在可停區(qū)域,則將檢測到的車輛標(biāo)記為違停車輛;若存在可停區(qū)域,需要進(jìn)一步計算車輛包圍框Bc與可停區(qū)域包圍框Bp的重疊率a與相對位置關(guān)系,對于重疊率a的計算如式(5)和(6)所示。
a=max(ap,ac)
(5)
(6)
對于檢測結(jié)果包含2種情況:(1)當(dāng)可停區(qū)域大面積被遮擋時其包圍框面積較小,計算Bc與Bp的相交矩形區(qū)域面積與Bp面積的比率ap;(2)當(dāng)可停區(qū)域包圍框面積較大時,車輛包圍框面積相對較小,計算Bc與Bp的相交矩形區(qū)域面積與Bc面積的比率ac。重疊率a為ap與ac中的較大值。當(dāng)a大于閾值t時認(rèn)為車輛與可停區(qū)域可能存在空間上的重疊關(guān)系,同時根據(jù)先驗(yàn)知識,若為合規(guī)停車則該車必定在可停區(qū)域的上方,空間位置關(guān)系可以用包圍框中心點(diǎn)的縱坐標(biāo)y來表示,當(dāng)滿足以上2種情況時,則判定該車為合規(guī)停放車輛,若不滿足則判定為違停車輛。
圖7 違停判定步驟
由于步行道上的違停車輛數(shù)據(jù)集較為特殊,網(wǎng)上沒有相應(yīng)公開的數(shù)據(jù)集,因此需要自建數(shù)據(jù)集與其標(biāo)注信息。本文的實(shí)驗(yàn)數(shù)據(jù)集采集于杭州市城區(qū)某步行道,數(shù)據(jù)集包括607張車輛停放于步行道的圖片,尺寸統(tǒng)一為3 264×2 448像素。每張圖片均含有待分類的目標(biāo),并且通過標(biāo)注軟件描繪關(guān)鍵點(diǎn)構(gòu)建多邊形對相應(yīng)車輛與可停區(qū)域進(jìn)行人工標(biāo)注獲得所需的標(biāo)注信息。同時,為了驗(yàn)證改進(jìn)模型的效果,本文使用COCO2017數(shù)據(jù)集[15]進(jìn)行對比實(shí)驗(yàn)。
由于原始城區(qū)步行道數(shù)據(jù)集的數(shù)量并不能完全擬合模型,數(shù)據(jù)量不足時易發(fā)生過擬合現(xiàn)象。因此,本文在原數(shù)據(jù)集的基礎(chǔ)上對圖片進(jìn)行隨機(jī)改變,產(chǎn)生相似但又不同的圖片以達(dá)到擴(kuò)充數(shù)據(jù)集的目的。擴(kuò)充后的數(shù)據(jù)集能有效防止過擬合現(xiàn)象,同時隨機(jī)改變樣本能減少模型對某些屬性的依賴,從而提高模型的泛化能力。
考慮到變換后的圖像應(yīng)當(dāng)盡可能與真實(shí)采集到的圖像相類似,本文使用了隨機(jī)水平翻轉(zhuǎn)、小比例縮放與旋轉(zhuǎn)、顏色空間抖動以減少模型對于顏色空間、目標(biāo)物體所處位置的依賴。隨機(jī)疊加以上幾種變換后得到的數(shù)據(jù)集圖片能使原始數(shù)據(jù)集規(guī)模提高2~4倍。在對圖片做各種變換的同時,每張圖片的標(biāo)注信息也做相同的變換,從而避免大量的標(biāo)注操作。
在評價指標(biāo)方面,相較于VOC數(shù)據(jù)集的評價指標(biāo)[16],COCO官方提供的標(biāo)準(zhǔn)評價指標(biāo)更為嚴(yán)格與全面。因此,后文基于COCO評價指標(biāo)進(jìn)行實(shí)例分割結(jié)果的分析。
COCO評價指標(biāo)是基于不同IOU閾值下的計算每個類別在不同查全率(recall)下查準(zhǔn)率(precision)的平均值,稱為平均準(zhǔn)確率(average precision,AP)。對于綜合所有類別的AP結(jié)果,使用mAP(mean average precision)進(jìn)行定量分析。AP與 mAP的計算如式(7)和(8)所示:
(7)
(8)
其中,P為查準(zhǔn)率,R為查全率,N為模型需要分類的類別總數(shù),P(R)為查全率為R時的查準(zhǔn)率,AP(n)為類n對應(yīng)的AP值。P和R的計算如式(9)和(10)所示:
(9)
(10)
其中,TP表示預(yù)測正例正確,F(xiàn)P表示預(yù)測正例錯誤,F(xiàn)N表示預(yù)測負(fù)例錯誤。COCO評價指標(biāo)中的默認(rèn)AP為mAP,為避免歧義,后續(xù)統(tǒng)一使用mAP來表示模型的性能。
實(shí)驗(yàn)所用服務(wù)器搭載Ubuntu16.04操作系統(tǒng),16 G內(nèi)存,Intel(R) Core(TM) i7-7800X處理器,主頻為3.5 GHz,Nvidia GeForce GTX 1080 Ti顯卡。
首先,為驗(yàn)證針對基礎(chǔ)網(wǎng)絡(luò)進(jìn)行修改具有一定的通用性,本文以未修改的Mask R-CNN作為比較對象,在COCO2017數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),比較最后評價指標(biāo)的差異。數(shù)據(jù)集所帶標(biāo)注含有80類不同物體的信息。2個網(wǎng)絡(luò)所含有的特征提取網(wǎng)絡(luò)均為ResNet101,加載相同的預(yù)訓(xùn)練參數(shù),動量參數(shù)設(shè)置為0.9,權(quán)值衰減設(shè)置為1e-4,學(xué)習(xí)率設(shè)置為1e-3,batch-size設(shè)置為1。通過遷移學(xué)習(xí)微調(diào)ResNet、RPN、掩碼與分類的輸出層,訓(xùn)練周期個數(shù)為25個,保存最優(yōu)模型。從驗(yàn)證集中隨機(jī)抽取500張作為測試集,在COCO數(shù)據(jù)集上訓(xùn)練2個模型,最終得到的結(jié)果如表1所示。
表1 基礎(chǔ)網(wǎng)絡(luò)修改在COCO數(shù)據(jù)集上的影響
表1中mAP50指的是在IOU=0.5時,計算掩碼的mAP值,其中mAP是mAP50,mAP55,mAP60,…,mAP95的平均值。表1中mAPbb指的是在IOU=0.5時,計算包圍框的mAP值,計算均值方法同上。由表1可知,相較于Mask R-CNN,COCO數(shù)據(jù)集上基礎(chǔ)網(wǎng)絡(luò)修改后的模型在掩碼以及包圍框的mAP評價指標(biāo)精度上分別提升了0.3與0.5。由于COCO數(shù)據(jù)集中的物體類別大多具有強(qiáng)特征性,不存在像可停區(qū)域類別的物體,因此提升效果不顯著。
為驗(yàn)證模型對數(shù)據(jù)集中車輛與可停區(qū)域的檢測分割效果,本文從607張原始圖片中隨機(jī)挑選70張作為測試集,剩下的圖片進(jìn)行數(shù)據(jù)增強(qiáng)最終得到1 396張圖片作為訓(xùn)練集。由于類別數(shù)為2,因此將原始Mask R-CNN中掩碼與分類的輸出層中的類別數(shù)由80改為2,考慮到類別數(shù)量少,將特征提取網(wǎng)絡(luò)ResNet101改為ResNet50來降低模型復(fù)雜度防止過擬合,其中判定連通域融合的閾值θ設(shè)為0.2,違停判定的閾值t設(shè)為0.2。訓(xùn)練機(jī)制同上,在此基礎(chǔ)上使用本文提出的方法進(jìn)行實(shí)驗(yàn),并將經(jīng)過遷移學(xué)習(xí)后的Mask R-CNN模型參數(shù)作為比較對象,最終得到的結(jié)果如表2所示。
表2 遷移學(xué)習(xí)后的Mask R-CNN與本文方法的對比
由表2可知,單獨(dú)使用基礎(chǔ)網(wǎng)絡(luò)的修改對于步行道數(shù)據(jù)集在掩碼以及包圍框的mAP評價指標(biāo)上分別提升了2.1與1.8;單獨(dú)使用連通區(qū)域融合的后處理方法在指標(biāo)上提升了0.8與1.5;疊加使用2種方法最終提升了3.5與4.2。以上的實(shí)驗(yàn)結(jié)果表明,本文提出的修改基礎(chǔ)網(wǎng)絡(luò)與連通區(qū)域融合方法使得Mask R-CNN的輸出結(jié)果更為精準(zhǔn),且疊加使用能使精度進(jìn)一步提升。
分析實(shí)例分割網(wǎng)絡(luò)得到的車輛與可停區(qū)域的檢測分割結(jié)果可以驗(yàn)證本文所提出的違停判定方法的有效性。經(jīng)統(tǒng)計,在70張測試圖片中步行道上停放的車輛數(shù)目為123輛,其中42輛車疑似違停。本文統(tǒng)計包圍框在IOU=0.5時,車輛與違停車輛的2項(xiàng)檢測指標(biāo)即查全率與查準(zhǔn)率,使用遷移學(xué)習(xí)得到的Mask-R-CNN模型參數(shù)作為基準(zhǔn)進(jìn)行對比實(shí)驗(yàn),最終結(jié)果如表3、4所示。
表3 車輛的查全率與查準(zhǔn)率
表4 違停車輛的查全率與查準(zhǔn)率
根據(jù)表3的數(shù)據(jù)可知,遷移學(xué)習(xí)后的Mask R-CNN模型對于車輛的識別性能較強(qiáng),在該模型的基礎(chǔ)上使用本文方法使得車輛的查準(zhǔn)率與查全率相較于原有模型有略微的提升。由表4可得,僅依靠遷移學(xué)習(xí)后訓(xùn)練得到的Mask R-CNN模型結(jié)合違停判定方法對于違停車輛的檢測結(jié)果較差,而使用本文算法后違停車輛的查全率與查準(zhǔn)率均有顯著提升,分別達(dá)到了90.5%與80.8%,其中違停車輛的查準(zhǔn)率提高6.4%,查全率提高21.4%,提升效果明顯。以上結(jié)果表明,對于基礎(chǔ)網(wǎng)絡(luò)的修改與連通區(qū)域融合方法有助于改進(jìn)違停檢測精度,改進(jìn)后的精度基本滿足違停檢測任務(wù)。
圖8為測試集中的部分圖片的主觀視覺效果,第1行為原始圖片,第2行為僅使用遷移學(xué)習(xí)的Mask R-CNN模型的輸出結(jié)果,car代表車輛,parking代表可停區(qū)域,每個包圍框都包含有相應(yīng)的置信度與框內(nèi)的分割掩碼。第3行為使用本文方法的輸出結(jié)果,V_car代表合規(guī)停放的車輛,F(xiàn)_car代表違停車輛,parking代表可停區(qū)域。觀察對比圖可以發(fā)現(xiàn),使用本文算法有效地減少了實(shí)例分割網(wǎng)絡(luò)的誤識別概率。以從左往右第2列圖片為例,未改進(jìn)的Mask R-CNN網(wǎng)絡(luò)出現(xiàn)了可停區(qū)域誤識別,進(jìn)而會影響最后的違停判定結(jié)果,而本文提出的檢測方法對可停區(qū)域的識別與分割更為精準(zhǔn)。第1、3、4列圖片對重疊連通的可停區(qū)域進(jìn)行了有效的融合,且正確區(qū)分了合規(guī)車輛與違停車輛。如第5列圖所示為誤識別情況,本文的模型假定原始圖片均采集于步行道,針對停放于步行道上的車輛進(jìn)行違停與否的自動化檢測。但第5組圖中的背景并不全為步行道,存在另外2輛疑似違停車輛,違反了本文的假定。因而,雖然模型檢出了近處的合規(guī)車輛,但由于模型統(tǒng)一檢測具有車輛特征的對象導(dǎo)致遠(yuǎn)處背景的違停車輛同樣被識別,由此干擾了識別結(jié)果并產(chǎn)生了誤判。
表5是基于服務(wù)器上的圖形處理單元(GPU)對本文提出的方法進(jìn)行實(shí)驗(yàn)對比,統(tǒng)計了測試集中單張圖片的平均運(yùn)行耗時。根據(jù)表5的數(shù)據(jù)可得,Mask R-CNN處理單張圖片平均耗時1 050 ms,僅修改基礎(chǔ)網(wǎng)絡(luò)增加運(yùn)行耗時53 ms,僅使用連通區(qū)域融合方法增加運(yùn)行耗時69 ms,使用違停判定增加運(yùn)行耗時31 ms。當(dāng)修改基礎(chǔ)網(wǎng)絡(luò)疊加連通區(qū)域融合方法后增加運(yùn)行耗時110 ms。結(jié)合表2數(shù)據(jù)可以發(fā)現(xiàn),在原有模型運(yùn)行耗時增加10.5%的低代價下,可使掩碼與包圍框的mAP最高提升3.5與4.2。結(jié)合表4,在原有模型的基礎(chǔ)上使用違停判定方法可進(jìn)一步檢測出違停車輛,最后通過疊加基礎(chǔ)網(wǎng)絡(luò)的修改與連通區(qū)域融合的方法,使得違停車輛的查全率與查準(zhǔn)率分別提升21.4%與6.4%,總耗時為1 185 ms,相比最初的Mask R-CNN檢測僅增加了12.8%。
圖8 主觀檢測結(jié)果
表5 單張圖片的運(yùn)行耗時
本文針對步行道上違法占道停車現(xiàn)象提出了基于改進(jìn)實(shí)例分割網(wǎng)絡(luò)的步行道違停車輛檢測算法。本文通過對原有的Mask R-CNN網(wǎng)絡(luò)進(jìn)行基礎(chǔ)網(wǎng)絡(luò)改進(jìn)顯著強(qiáng)化了特征信息的提取過程,通過針對檢測任務(wù)進(jìn)行遷移學(xué)習(xí)有效加速了模型訓(xùn)練,通過設(shè)計連通區(qū)域融合的方法明顯改善了停車區(qū)域識別不佳的情況,減少了識別不全與重疊現(xiàn)象。為了合理區(qū)分合規(guī)車輛與違停車輛,本文利用前述步驟得到的結(jié)果,設(shè)計了一種區(qū)分算法,其最終對于違停車輛的查全率與查準(zhǔn)率高達(dá)90.5%與80.8%,且檢測的圖片中包含包圍框、置信度、類別信息與分割掩碼等更為豐富的輸出信息。
進(jìn)一步分析實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),由于最終檢測效果較依賴于實(shí)例分割模型的輸出,因而當(dāng)實(shí)例分割模型輸出出現(xiàn)錯誤時,將會影響違停車輛的準(zhǔn)確識別。因此,如何進(jìn)一步改進(jìn)實(shí)例分割網(wǎng)絡(luò)、設(shè)計更多相關(guān)類別以幫助減少違停車輛的誤識別、進(jìn)一步減小算法的復(fù)雜度是今后的研究重點(diǎn)。