国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)YOLO算法的密集人群場(chǎng)景下的行人檢測(cè)

2019-10-31 07:00:03祝慶發(fā)陳永生郭玉臣
電腦知識(shí)與技術(shù) 2019年22期
關(guān)鍵詞:損失函數(shù)網(wǎng)絡(luò)結(jié)構(gòu)

祝慶發(fā) 陳永生 郭玉臣

摘要:針對(duì)現(xiàn)有的行人檢測(cè)算法在密集人群場(chǎng)景下,準(zhǔn)確率不高的問題,并結(jié)合上海地鐵中特有的人群密集場(chǎng)景,本文利用YOLO目標(biāo)檢測(cè)算法,提出了在密集人群場(chǎng)景下的改進(jìn)的YOLO行人檢測(cè)算法。算法主要針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)進(jìn)行改進(jìn),并在人工標(biāo)注的實(shí)際場(chǎng)景下的行人數(shù)據(jù)集上進(jìn)行訓(xùn)練與測(cè)試。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法較YOLO目標(biāo)檢測(cè)算法在實(shí)際場(chǎng)景下的準(zhǔn)確率有明顯提高。

關(guān)鍵詞:密集人群;YOLO;行人檢測(cè);網(wǎng)絡(luò)結(jié)構(gòu);損失函數(shù)

中圖分類號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2019)22-0175-02

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

近幾年來,隨著深度學(xué)習(xí)的飛速發(fā)展[1]以及城市軌道交通的發(fā)展[2],為密集人群場(chǎng)景下的行人檢測(cè)[3]提供了技術(shù)和數(shù)據(jù)支持。在密集人群場(chǎng)景下,因?yàn)樾腥嗣芏雀咭约靶腥伺c行人之間的相互遮擋較為嚴(yán)重,使得當(dāng)前最優(yōu)的目標(biāo)檢測(cè)算法在密集人群場(chǎng)景下的檢測(cè)效果不佳。針對(duì)密集人群場(chǎng)景下行人檢測(cè)存在的問題并結(jié)合上海地鐵監(jiān)控系統(tǒng)的實(shí)際情況,本文提出基于改進(jìn)YOLO[4]算法的密集人群場(chǎng)景下的行人檢測(cè)算法。該算法主要針對(duì)特征提取網(wǎng)絡(luò)和損失函數(shù)兩方面進(jìn)行改進(jìn),較原算法(YOLO)提高了在密集人群場(chǎng)景下檢測(cè)的準(zhǔn)確率。

1 YOLO算法

1.1 網(wǎng)絡(luò)結(jié)構(gòu)

YOLO目標(biāo)檢測(cè)算法總體使用卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn),并在Pascal VOC檢測(cè)數(shù)據(jù)集[5]上進(jìn)行評(píng)估。網(wǎng)絡(luò)的初始卷積層從圖像中提取特征,而全連接層預(yù)測(cè)輸出概率和坐標(biāo)。網(wǎng)絡(luò)架構(gòu)受到GoogLeNet圖像分類模型的啟發(fā)[6]。網(wǎng)絡(luò)有24個(gè)卷積層,后面是2個(gè)全連接層。網(wǎng)絡(luò)只使用1×1降維層,后面是3×3卷積層,該設(shè)計(jì)與文獻(xiàn)[7]中的結(jié)構(gòu)類似,而不是像GoogLeNet一樣使用Inception模塊。完整的網(wǎng)絡(luò)如圖1所示。

1.2 損失函數(shù)

YOLO的損失函數(shù)中邊界框x和y坐標(biāo)參數(shù)化為特定網(wǎng)格單元位置的偏移量,所以它們的值在0和1之間,這樣設(shè)置方便網(wǎng)絡(luò)的優(yōu)化。同樣的,損失函數(shù)使用了平方和誤差,因?yàn)楹苋菀走M(jìn)行優(yōu)化,但是這并不完全符合最大化平均精度的目標(biāo)。分類誤差與定位誤差的權(quán)重是一樣的,這并不理想。因?yàn)椋诿繌垐D像中,許多網(wǎng)格單元不包含任何對(duì)象。如果不假思索地將這些單元格的“置信度”分?jǐn)?shù)推向零,通常壓倒了包含目標(biāo)的單元格的梯度。這可能導(dǎo)致模型不穩(wěn)定,從而導(dǎo)致訓(xùn)練早期發(fā)散。為了改善這一點(diǎn),損失函數(shù)增加了邊界框坐標(biāo)預(yù)測(cè)損失,并減少了不包含目標(biāo)邊界框的置信度預(yù)測(cè)損失。YOLO使用兩個(gè)參數(shù)λcoord和λnoobj來完成這個(gè)工作。并根據(jù)經(jīng)驗(yàn)設(shè)置λcoord=5和λnoobj=.5。

YOLO每個(gè)網(wǎng)格單元預(yù)測(cè)多個(gè)邊界框。在訓(xùn)練時(shí),每個(gè)目標(biāo)只需要一個(gè)邊界框預(yù)測(cè)器來負(fù)責(zé)。指定一個(gè)預(yù)測(cè)器“負(fù)責(zé)”根據(jù)哪個(gè)預(yù)測(cè)與真實(shí)值之間具有當(dāng)前最高的IOU來預(yù)測(cè)目標(biāo)。這導(dǎo)致邊界框預(yù)測(cè)器之間的專業(yè)化。每個(gè)預(yù)測(cè)器可以更好地預(yù)測(cè)特定大小,方向角,或目標(biāo)的類別,從而改善整體召回率。

其中S 代表最終特征圖的網(wǎng)格尺寸; B 代表每個(gè)網(wǎng)格的預(yù)測(cè)框個(gè)數(shù);( x ,y )代表代表框的中心坐標(biāo); c 代表框的置信度 (confidence); 代表目標(biāo)是否出現(xiàn)在網(wǎng)格單元i中,代表網(wǎng)格單元i中的第j個(gè)邊界框預(yù)測(cè)器“負(fù)責(zé)”該預(yù)測(cè)。

2數(shù)據(jù)集

由于國(guó)內(nèi)外沒有開源的密集人群場(chǎng)景下的行人檢測(cè)數(shù)據(jù)集,同時(shí)考慮到算法的實(shí)際應(yīng)用場(chǎng)景較為特殊,本文采用的數(shù)據(jù)集,是在算法實(shí)際應(yīng)用場(chǎng)景下采集的視頻圖像,進(jìn)行手工標(biāo)注而來。圖片大小歸一化到416X416,訓(xùn)練數(shù)據(jù)1000張,測(cè)試數(shù)據(jù)300張。

考慮到密集場(chǎng)景下人群遮擋較為嚴(yán)重,標(biāo)注框只包含行人的頭部和肩部,而不是包含整個(gè)行人。因?yàn)槊芗巳簣?chǎng)景下只能看到行人的頭部和肩部,這樣有利于提高算法檢測(cè)的準(zhǔn)確率。同時(shí),為了簡(jiǎn)化算法,提高算法的檢測(cè)速度,標(biāo)注框根據(jù)實(shí)際情況,采用了三個(gè)固定大小的尺寸,分別為70X70,55X55和30X30。三個(gè)尺寸的標(biāo)注框可以合適的標(biāo)注變化不大的行人的頭部和肩部。

3改進(jìn)的YOLO算法

3.1 網(wǎng)絡(luò)結(jié)構(gòu)

改進(jìn)的YOLO算法的網(wǎng)絡(luò)結(jié)構(gòu)借鑒YOLOv3算法[8],其中特征提取網(wǎng)絡(luò)為62層的ResNet[9],結(jié)構(gòu)如圖3所示。相比YOLO算法的24層,改進(jìn)的YOLO算法網(wǎng)絡(luò)更加深,這樣有利于特征的提取與語(yǔ)義表達(dá)。同時(shí)引入了特征金字塔結(jié)構(gòu),這樣有利于提高檢測(cè)效果。網(wǎng)絡(luò)使用步長(zhǎng)為2的卷積層代替池化層。算法在實(shí)驗(yàn)中采用416X416尺寸的輸入圖片,特征提取網(wǎng)絡(luò)最后一層的尺寸為 13X13。

3.2 多尺度預(yù)測(cè)

改進(jìn)的YOLO算法采用了anchor[10]的設(shè)計(jì)方式,并利用網(wǎng)絡(luò)第62,53和36層輸出的feature map進(jìn)行多尺度預(yù)測(cè)。因?yàn)樗惴ㄓ?xùn)練采用的數(shù)據(jù)集的ground truth僅有三個(gè)尺寸,恰好可以設(shè)計(jì)三個(gè)不同預(yù)測(cè)層的bounding box的大小為70X70,55X55和30X30。

3.3 損失函數(shù)

改進(jìn)的YOLO算法采用了專有的數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試,并且因?yàn)閎ounding box的大小與ground truth剛好相等,所以改進(jìn)的YOLO算法不需要計(jì)算bounding box和ground truth之間的長(zhǎng)寬誤差,所以損失函數(shù)的表達(dá)式為如圖4所示。

4實(shí)驗(yàn)

4.1實(shí)驗(yàn)參數(shù)

本文實(shí)驗(yàn)代碼采用開源的輕量級(jí)深度學(xué)習(xí)框架Darknet[11]編寫,軟硬件相關(guān)配置參數(shù)如表1所示。

4.2 實(shí)驗(yàn)結(jié)果分析

本文算法檢測(cè)目標(biāo)為單一目標(biāo),算法的衡量指標(biāo)以行人檢測(cè)的準(zhǔn)確率為準(zhǔn),實(shí)驗(yàn)結(jié)果對(duì)比的基線為原始的YOLO算法;參考對(duì)比實(shí)驗(yàn)為,在本實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行訓(xùn)練的修改相應(yīng)參數(shù)的YOLO算法,并將其命名為:重新訓(xùn)練的YOLO算法。對(duì)比結(jié)果如表2所示。

從表2可以看出使用實(shí)驗(yàn)中的數(shù)據(jù)集對(duì)YOLO算法進(jìn)行重新訓(xùn)練可以小幅提高檢測(cè)的準(zhǔn)確率,從中可以看出使用特定的數(shù)據(jù)集對(duì)特定的問題的檢測(cè)效果會(huì)比使用通用數(shù)據(jù)集的算法的檢測(cè)準(zhǔn)確率要高。改進(jìn)的YOLO算法的準(zhǔn)確率較其他兩個(gè)實(shí)驗(yàn)有大幅提升,從中可以看出越深層的神經(jīng)網(wǎng)絡(luò),檢測(cè)的效果也越好。 5結(jié)論

本文針對(duì)上海地鐵獨(dú)特的密集人群場(chǎng)景,對(duì)YOLO目標(biāo)檢測(cè)算法進(jìn)行改進(jìn),提高了算法的準(zhǔn)確率。通過對(duì)YOLO算法進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)的改進(jìn)可以看出,增加網(wǎng)絡(luò)的深度可以提高現(xiàn)有檢測(cè)算法的準(zhǔn)確率。但從算法最后的準(zhǔn)確率可以看出僅僅增加網(wǎng)絡(luò)的深度對(duì)算法檢測(cè)的準(zhǔn)確率的提高是有限的,人群嚴(yán)重遮擋的情況,仍然沒有很好的提高準(zhǔn)確率的解決方法。后續(xù)仍然需要針對(duì)密集人群場(chǎng)景下的行人檢測(cè)做進(jìn)一步的理論分析和實(shí)際測(cè)試。

參考文獻(xiàn):

[1] 侯宇青陽(yáng),全吉成,王宏偉.深度學(xué)習(xí)發(fā)展綜述[J].艦船電子工程,2017,37(4):5-9+111.

[2] 劉小明出席中國(guó)國(guó)際鐵路與城市軌道交通大會(huì)指出:開放合作創(chuàng)新引領(lǐng) 推進(jìn)城市軌道交通高質(zhì)量發(fā)展[J].交通企業(yè)管理,2018(6):23.

[3] Sabzmeydani P,Mori G.Detecting pedestrians by learning shapeletfeatures [C] . Computer Vision and Pattern Recognition,2007.CVPR07.IEEE Conference on.IEEE2007:1-8.

[4] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real time object detection [C]// Computer Vision and Pattern Recognition. 2016: 779-788.

[5] M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision, 111(1):98–136, Jan. 2015. 2

[6] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. CoRR, abs/1409.4842, 2014. 2

[7] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013. 2

[8] Redmon J,F(xiàn)arhadi A. YOLOv3: An Incremental Improvement [C]//IEEE Conference on Computer Vision and Pattern Recognition. 2018.

[9] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learn- ing for image recognition. In Proceedings of the IEEE con- ference on computer vision and pattern recognition, pages 770–778, 2016.

[10] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.- Y. Fu, and A. C. Berg. Ssd: Single shot multibox detector. In European conference on computer vision, pages 21–37. Springer, 2016.

[11] Redmon J. Darknet: Open Source Neural Networks in C [DB/OL]. [2017-10-25]. http://pjreddie. com/darknet/.

【通聯(lián)編輯:唐一東】

猜你喜歡
損失函數(shù)網(wǎng)絡(luò)結(jié)構(gòu)
基于改進(jìn)SIFT特征和神經(jīng)網(wǎng)絡(luò)結(jié)合的場(chǎng)景識(shí)別
軟件工程(2019年5期)2019-07-03 02:31:14
氣候變化對(duì)中國(guó)主要糧食作物單產(chǎn)影響的文獻(xiàn)計(jì)量Meta分析
考慮應(yīng)急時(shí)間和未滿足需求量的應(yīng)急物資多階段分配模型
基于深度學(xué)習(xí)的人臉屬性聯(lián)合估計(jì)
基于福利損失函數(shù)的人民幣匯率制度選擇
基于福利損失函數(shù)的人民幣匯率制度選擇
大型火力發(fā)電廠煙氣脫硫控制網(wǎng)絡(luò)結(jié)構(gòu)漸變趨勢(shì)
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)維對(duì)于創(chuàng)新績(jī)效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實(shí)證分析
郴州市| 林周县| 凭祥市| 高雄市| 肇源县| 攀枝花市| 靖州| 定边县| 仙游县| 定襄县| 离岛区| 蓬溪县| 新乐市| 鄂州市| 青川县| 电白县| 留坝县| 和平区| 都安| 沛县| 托里县| 山西省| 佛教| 巴塘县| 湘潭县| 扎鲁特旗| 基隆市| 神农架林区| 尤溪县| 浦县| 望奎县| 元阳县| 当涂县| 威远县| 凤庆县| 吐鲁番市| 东宁县| 宝山区| 乐清市| 东辽县| 娱乐|