国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

卷積神經(jīng)網(wǎng)絡(luò)在實(shí)時(shí)檢測(cè)領(lǐng)域的研究

2022-06-11 11:32:36高新怡陳琦陳冠宇楊靜怡張坤坤蔡華蕊
軟件工程 2022年6期
關(guān)鍵詞:目標(biāo)檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)圖像識(shí)別

高新怡 陳琦 陳冠宇 楊靜怡 張坤坤 蔡華蕊

摘? 要:提出輕量模型Mini Net用于實(shí)時(shí)檢測(cè),并保證其準(zhǔn)確度。Mini Lower利用Group卷積與通道合并提取低階特微,Mini Higher利用可分離的Depthwise卷積提取高階特微。Mini模塊實(shí)現(xiàn)的高效卷積使其大幅減少了參數(shù)量與計(jì)算量,并且在空間維度上引入更多層次所帶來(lái)的非線性,可提升模塊的提取能力。另外,在模型中利用更精細(xì)的特微搭配多尺度預(yù)測(cè)改善小目標(biāo)檢測(cè)?;谝幌盗械南趯?shí)驗(yàn)驗(yàn)證Mini模塊設(shè)計(jì)的有效性,并透過(guò)對(duì)照實(shí)驗(yàn)結(jié)果證實(shí)Mini Net模型的實(shí)時(shí)性優(yōu)于全卷積模型,在參數(shù)量?jī)H有0.92×106的情況下,能夠有效地提取目標(biāo)特微。

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);輕量模型;目標(biāo)檢測(cè);圖像識(shí)別

中圖分類(lèi)號(hào):TP311? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

Research on Convolutional Neural Networks in Real-time Detection

GAO Xinyi, CHEN Qi, CHEN Guanyu, YANG Jingyi, ZHANG Kunkun,CAI Huarui

Abstract: This paper proposes a lightweight model Mini Net for real-time detection and its accuracy is guaranteed. Mini Lower uses Group convolution and channel merging to extract low-order micros, while Mini Higher uses separable Depthwise convolutions to extract high-order micros. The efficient convolution implemented by the Mini module greatly reduces the amount of parameters and computation, and the nonlinearity brought by more layers in the space dimension is introduced, which can improve the extracting ability of the module. In addition, a combination of a finer micro and multi-scale prediction is used in the model to improve small object detection. Based on a series of ablation experiments, the effectiveness of the Mini module design is verified, and the comparative experimental results very that the real-time performance of the Mini Net model is better than that of the full convolution model. When the parameter amount is only 0.92×106, the target micro can be extracted effectively.

Keywords: convolutional neural network; lightweight model; object detection; image recognition

1? ?引言(Introduction)

從信息化軟件到電子商務(wù),然后到高速發(fā)展的互聯(lián)網(wǎng)時(shí)代,再到今天的云計(jì)算、大數(shù)據(jù),電子信息滲透到我們生活、工作的方方面面。在互聯(lián)網(wǎng)的驅(qū)動(dòng)下,人們更清晰地認(rèn)識(shí)并使用數(shù)據(jù),不僅僅是數(shù)據(jù)統(tǒng)計(jì)、分析,我們還強(qiáng)調(diào)數(shù)據(jù)挖掘、預(yù)測(cè)。機(jī)器學(xué)習(xí)就是對(duì)計(jì)算機(jī)一部分?jǐn)?shù)據(jù)進(jìn)行學(xué)習(xí),再對(duì)另外一些數(shù)據(jù)進(jìn)行預(yù)測(cè)、判斷。如今的機(jī)器視覺(jué)已逐漸成為多數(shù)學(xué)者的主要研究?jī)?nèi)容,并且滲透到我們生活的各個(gè)領(lǐng)域,如圖像分類(lèi)、目標(biāo)定位、目標(biāo)檢測(cè)等。其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的設(shè)計(jì)與研究顯得尤為重要。

為了提高普通神經(jīng)網(wǎng)絡(luò)系統(tǒng)的效率及準(zhǔn)確度,本文提出輕量模型用于實(shí)時(shí)檢測(cè),并通過(guò)一系列消融實(shí)驗(yàn)驗(yàn)證模型設(shè)計(jì)的有效性。

2? ?研究背景(Research background)

2.1? ?研究現(xiàn)狀

經(jīng)典的Le Net誕生于1998 年。隨后CNN的鋒芒開(kāi)始被SVM等手工設(shè)計(jì)的特征蓋過(guò)。隨著ReLU和Dropout的提出,以及GPU和大數(shù)據(jù)帶來(lái)的歷史機(jī)遇,CNN在2012 年迎來(lái)了歷史突破——Alex Net[1]。

此后,Deep Learning不斷發(fā)展,ImageNet大規(guī)模網(wǎng)絡(luò)視覺(jué)識(shí)別挑戰(zhàn)賽(ILSVRC)每年都會(huì)被Deep Learning刷榜。如圖1所示,隨著該模型被研究得越來(lái)越深入,top-5的錯(cuò)誤率也越來(lái)越低,到2017 年,降到了2.25%附近。同樣,在ImageNet數(shù)據(jù)集合上,人眼的辨識(shí)錯(cuò)誤率大概為5.1%,換言之,目前的Deep Learning模型的識(shí)別能力已經(jīng)超過(guò)了人眼[2]。而如圖1所示的模型代表,也是Deep Learning視覺(jué)發(fā)展的里程碑式代表。

CNN主要的經(jīng)典結(jié)構(gòu)包括Le Net、Alex Net、ZF Net、VGG、NIN、Google Net[3]、Res Net、SE Net等,它們是最古老的CNN模型。1985 年,Rumelhart和Hinton等人提出了BP神經(jīng)網(wǎng)絡(luò)算法,使得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練變得簡(jiǎn)單可行。目前,Deep Learning雖然還是比Cortes和Vapnic的Support-Vector Networks稍落后一點(diǎn),不過(guò)其發(fā)展前景非常可觀。

2.2? ?研究目的與意義

如今很多裝置、設(shè)備都注重系統(tǒng)能否實(shí)時(shí)響應(yīng),相應(yīng)地,系統(tǒng)響應(yīng)及時(shí)意味著系統(tǒng)的有效性好。當(dāng)前,許多研究好模型的重心都在建立好模型的訓(xùn)練上,從宏觀角度看,顯然花大部分時(shí)間在訓(xùn)練上,系統(tǒng)的效率就成了問(wèn)題;從微觀角度看,卷積本身的冗余性有待提高。本文著重研究輕量模型,從本質(zhì)上分析卷積參數(shù)的有效性,進(jìn)一步提高系統(tǒng)的效率。

3? ?卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network)

3.1? ?神經(jīng)網(wǎng)絡(luò)

起源于1943 年的M-P神經(jīng)網(wǎng)絡(luò)是廣泛應(yīng)用于機(jī)器學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò),是按照生物神經(jīng)元的結(jié)構(gòu)和工作原理構(gòu)造出來(lái)的一個(gè)抽象和簡(jiǎn)化的模型。其每個(gè)神經(jīng)元都是一個(gè)多輸入單輸出的信息處理單元,且神經(jīng)元輸入與輸出之間存在由于突觸延遲所導(dǎo)致的固定的時(shí)滯。而現(xiàn)存的神經(jīng)網(wǎng)絡(luò)是由大量的神經(jīng)元相互連接構(gòu)成的一種具有學(xué)習(xí)能力的自適應(yīng)系統(tǒng)。

3.1.1? ?感知器

在人工神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元具備激勵(lì)特性和感知特性。與神經(jīng)系統(tǒng)相似,基于Frank Rosenblatt提出的感知器由式(1)所確定, 維輸入與權(quán)重進(jìn)行相乘、求和運(yùn)算,再加一個(gè)可調(diào)偏置,通過(guò)激勵(lì)函數(shù)映射后,得到輸出。

(1)

單層感知器可視為最簡(jiǎn)單的前向神經(jīng)網(wǎng)絡(luò),由輸入層、輸出層和一組可訓(xùn)練的權(quán)重參數(shù)組成,如圖2所示。多層感知器由輸入層、輸出層和隱含層所構(gòu)成,具有非線性特性,有效地解決了單層感知器難以處理線性不可分的問(wèn)題,其結(jié)構(gòu)如圖3所示。

3.1.2? ?BP神經(jīng)網(wǎng)絡(luò)

BP算法是一種監(jiān)督學(xué)習(xí)算法[4],通常情況下被用來(lái)訓(xùn)練多層感知機(jī),將數(shù)據(jù)輸入多層感知網(wǎng)絡(luò)中,通過(guò)前向傳播到隱含層,直至輸出層后,找到實(shí)際值與理論值之間的偏差函數(shù),根據(jù)梯度下降法進(jìn)行反向傳播;再由更新的權(quán)重來(lái)最小化偏差函數(shù)得到偏差的極小值,使得模型的數(shù)據(jù)盡可能地?cái)M合真實(shí)值。算法實(shí)際的誤差值取決于訓(xùn)練時(shí)的權(quán)重參數(shù),訓(xùn)練開(kāi)始前會(huì)隨機(jī)分配初始權(quán)重,通過(guò)多次有效的反向傳播后得到一組最小化誤差的權(quán)重值。由于初始權(quán)重值是系統(tǒng)隨機(jī)分配的,也存在一定的誤差,需要多次擬合找最優(yōu)。

每個(gè)神經(jīng)元的輸出為式(2), 個(gè)輸入,與權(quán)重進(jìn)行相乘、求和運(yùn)算后得到,通過(guò)激勵(lì)函數(shù)映射得到輸出。

(2)

權(quán)重更新為式(3),權(quán)重調(diào)整為式(4)。

(3)

(4)

其中,為偏差函數(shù)。

由鏈?zhǔn)椒▌t求得偏導(dǎo)數(shù)為式(5),進(jìn)而求得神經(jīng)元。若神經(jīng)元位于輸出層,此時(shí)輸出與預(yù)測(cè)值相等,可通過(guò)直接進(jìn)行求偏運(yùn)算得到;若神經(jīng)元位于隱含層,則必須進(jìn)行遞歸運(yùn)算。

(5)

其中,

3.2? ?卷積

隨著神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,在自適應(yīng)學(xué)習(xí)系統(tǒng)的基礎(chǔ)上,使用梯度下降法實(shí)現(xiàn)的多層次神經(jīng)網(wǎng)絡(luò)能夠有效地解決系統(tǒng)處理非線性的問(wèn)題。神經(jīng)元早期所采用的是全連接方式對(duì)數(shù)據(jù)進(jìn)行擬合,在處理高像素圖像時(shí),模型容易出現(xiàn)過(guò)擬合的狀況。

3.2.1? ?卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)利用局部感知視野、權(quán)值共享與空間或者時(shí)間的下采樣實(shí)現(xiàn)平移、縮放和形變的不變性[5],進(jìn)一步改善全連接網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的缺陷。

為了進(jìn)行高層次的特微提取,利用輸入圖像拓?fù)浣Y(jié)構(gòu)的方式,使得卷積核提取到局部特微,再通過(guò)逐步濾波的結(jié)合,得到高層次特微。特微圖中的神經(jīng)元是由上一層的一組局部神經(jīng)元與單一卷積核進(jìn)行卷積所得到的。

將單個(gè)卷積核設(shè)置為一組權(quán)重和一個(gè)可選擇的偏置,卷積核可以在不同的區(qū)域內(nèi)檢測(cè)到相同的特微,再進(jìn)行相乘、求和運(yùn)算后,得到一個(gè)平面特微圖。而特微圖的所有神經(jīng)元共享權(quán)重,進(jìn)而降低特微圖的復(fù)雜度。

計(jì)算出的特微圖通過(guò)卷積層與下采樣層進(jìn)行交替搭建,進(jìn)而降低特微圖的空間分辨率,最后在網(wǎng)絡(luò)末端結(jié)合全連接層與分頻器輸出預(yù)測(cè)結(jié)果。

3.2.2? ?串聯(lián)式與并聯(lián)式

(1)串聯(lián)式

由于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在擬合復(fù)雜度較高的非線性數(shù)據(jù)時(shí)會(huì)加大下一層的計(jì)算負(fù)擔(dān),故提出串聯(lián)式系統(tǒng)簡(jiǎn)化計(jì)算,即串聯(lián)多的3×3卷積與最大池化層組合來(lái)推展模型層數(shù),進(jìn)而大幅度提升模型的識(shí)別能力。

(2)并聯(lián)式

如果數(shù)據(jù)集的分布可由相對(duì)稀疏的網(wǎng)絡(luò)進(jìn)行擬合,可分析某些激活值的相關(guān)性,將相關(guān)性高的神經(jīng)元聚合連接在一起,從而減輕過(guò)擬合和降低卷積參數(shù)的計(jì)算量。

在高層特微空間中,彼此之間的距離相對(duì)較遠(yuǎn),所以使用到大尺寸的卷積核數(shù)量相對(duì)較多,難以避免計(jì)算量的增多。因此,在3×3、5×5卷積前與3×3池化,在其后加入能進(jìn)行通道交互且減少數(shù)據(jù)計(jì)算量的1×1卷積。此模型在實(shí)現(xiàn)提取高層特微的同時(shí),還能夠控制其空間、時(shí)間復(fù)雜度處于合理的范圍并具有一定的準(zhǔn)確性。模型如圖4所示。

3.2.3? ?殘差

殘差模塊如圖5所示,通過(guò)捷徑方式連接到原始輸入層,得到殘差函數(shù)表達(dá)式,再通過(guò)元素層級(jí)的加法得到,并經(jīng)過(guò)激勵(lì)函數(shù)映射得到相應(yīng)的輸出值。引入殘差函數(shù)映射能夠在分支突出微小變化,使得權(quán)重對(duì)分支變化更加敏感,從而降低模型的訓(xùn)練難度。

3.3? ?輕量卷積

為了解決系統(tǒng)的效率問(wèn)題,引入輕量卷積。輕量模型主要是模型的卷積層進(jìn)行組合與設(shè)計(jì)。通常情況下,在卷積層引入與傳統(tǒng)卷積不同的Group卷積和Depthwise卷積。

3.3.1? ?Group卷積

傳統(tǒng)的卷積是對(duì)上一層所有特微通道進(jìn)行卷積處理,如圖6所示。而Group卷積是先將特微通道進(jìn)行分組,使其在不同的GPU上進(jìn)行運(yùn)算,不同的卷積核對(duì)各自上一層分組后的通道進(jìn)行處理,如圖7所示。

此處以上一層特微通道數(shù)為,經(jīng)過(guò)本層卷積核操作后,輸出通道為為例。使用寬為、高為的一般卷積核,那么,它的單一卷積核尺寸為:;忽略偏置參數(shù),該層參數(shù)量為:;若使用等高等寬的Group卷積核,將上一層通道分為組,參數(shù)量為:。相比于一般的卷積核,Group卷積的參數(shù)量為原來(lái)的 倍。

3.3.2? ?Depthwise 卷積

Depthwise卷積模型如圖8所示,若上一層特微通道數(shù)為,且用等高等寬的Depthwise卷積核,那么其單一卷積核尺寸僅為,該層參數(shù)量也僅為,參數(shù)量大幅度降低。

3.4? ?目標(biāo)檢測(cè)

3.4.1? ?Two Stages算法

Two Stages的主要算法為R-CNN,將檢測(cè)問(wèn)題轉(zhuǎn)化為分類(lèi)問(wèn)題,使用選擇性階層分組方式對(duì)候選區(qū)域進(jìn)行提取,通過(guò)圖像分割算法得到多區(qū)域,根據(jù)相似度逐層合并得到多個(gè)候選框,再對(duì)每個(gè)候選框縮放到固定尺寸,輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特微提取,再送入SVM進(jìn)行分類(lèi),得到準(zhǔn)確位置。

FAST-R-CNN[6]改進(jìn)了R-CNN的缺點(diǎn),將原始圖像一次性輸入卷積神經(jīng)網(wǎng)絡(luò),并將最后獲得的特微送入池化層提取到相應(yīng)的特微區(qū)域,并將候選框?qū)崿F(xiàn)最大池化,輸出固定尺寸的特微圖,解決了全連接層需要固定輸入,縮放特微區(qū)域?qū)е率д娴膯?wèn)題。

使用選擇性搜索提取候選區(qū)域會(huì)占用很多檢測(cè)時(shí)間,將候選區(qū)域提取到卷積神經(jīng)網(wǎng)絡(luò)中,引入?yún)^(qū)域生成網(wǎng)絡(luò)RPN,將卷積層輸出的特微圖進(jìn)行類(lèi)別和背景判斷,根據(jù)所獲得的候選框?qū)?yīng)之前卷積網(wǎng)絡(luò)輸出的特微圖,將其輸入池化層中,再分別送入softmax分類(lèi)器和校正邊界回篩器中,獲得最終的預(yù)測(cè)結(jié)果。

3.4.2? ?One Stage算法

目標(biāo)檢測(cè)[7]中的One Stage算法是直接回歸物體的類(lèi)別概率和位置坐標(biāo)值,比階層分組提取特微方法預(yù)先提取候選框的控制更加快速,可以實(shí)現(xiàn)即時(shí)檢測(cè)。One Stage算法中有代表性的是YOLO系列算法,整體為單一管道,直接從單張圖像回歸出邊界框的類(lèi)別和準(zhǔn)確位置。其優(yōu)點(diǎn)是檢測(cè)速度快,便于訓(xùn)練,且準(zhǔn)確度高于R-CNN系列。

YOLOv3將原始圖片縮放為,并將其輸入單一網(wǎng)絡(luò)中,經(jīng)過(guò)卷積層與池化層的處理,將特微圖分成的單元格,且每個(gè)單元格預(yù)測(cè)個(gè)邊界框,每個(gè)邊界框預(yù)測(cè)個(gè)值,包含框的相對(duì)中心坐標(biāo)、相對(duì)偏移寬高、置信度分?jǐn)?shù)為以及個(gè)類(lèi)別條件概率。表示相對(duì)單元格偏移。

在測(cè)試時(shí),如式(6)所示,將預(yù)測(cè)框的類(lèi)別條件概率與置信度分?jǐn)?shù)相乘后,得到特定類(lèi)別置信度分?jǐn)?shù),并根據(jù)所有預(yù)測(cè)框的特定類(lèi)別置信度分?jǐn)?shù)進(jìn)行過(guò)濾和非極大值抑制消除,從而得到最終預(yù)測(cè)結(jié)果。

(6)

式(6)中,含有目標(biāo)也就是其中心點(diǎn)落入該單元格,;不含目標(biāo),。表示真實(shí)框與預(yù)測(cè)框的面積比。

為了避免訓(xùn)練不穩(wěn)定引起所需收斂時(shí)間過(guò)長(zhǎng)的問(wèn)題,YOLOv2和YOLOv3將中心坐標(biāo)采用對(duì)應(yīng)于單元格左上角的相對(duì)位置,求出Sigmoid函數(shù),使得中心坐標(biāo)能夠落在單元格內(nèi)。如圖9所示,特微圖的寬為、高為,邊界框的寬為、高為,邊界框中心坐標(biāo)為,偏移寬高為,單元格距離左上角特微圖的距離為,可以通過(guò)式(7)和式(8)定下,進(jìn)而得到預(yù)測(cè)框的中心坐標(biāo)在特微上的準(zhǔn)確位置。

(7)

(8)

4? ?Mini Net 模型(Mini net model)

本研究基于Mini卷積模塊的設(shè)計(jì),在高層與低層分別采用不同性質(zhì)的卷積模塊進(jìn)行特微的提取,通過(guò)減少模型的參數(shù)量和計(jì)算量實(shí)現(xiàn)即時(shí)檢測(cè),并保證一定的準(zhǔn)確性。

4.1? ?檢測(cè)系統(tǒng)

對(duì)Mini Net模型的檢測(cè)流程圖如圖10所示,將原始圖片經(jīng)縮放轉(zhuǎn)換為固定尺寸輸入系統(tǒng)中,經(jīng)過(guò)Mini Net模型處理后,直接輸出目標(biāo)的確切位置,采用單一管道的系統(tǒng)模式提升檢測(cè)效率。此處輸入的圖片均為彩色RGB數(shù)據(jù),并不對(duì)原始圖像進(jìn)行灰度處理降維。

4.1.1? ?系統(tǒng)流程

Mini Net檢測(cè)系統(tǒng)分為訓(xùn)練階段和測(cè)試階段,訓(xùn)練階段如圖11(a)所示,建立Mini Net網(wǎng)絡(luò)并對(duì)權(quán)重進(jìn)行初始化,將訓(xùn)練集縮放完的圖片輸入網(wǎng)絡(luò)進(jìn)行前向傳播,計(jì)算出偏差函數(shù),再通過(guò)梯度下降法進(jìn)行反向傳播調(diào)整權(quán)重值,經(jīng)過(guò)多次訓(xùn)練,最終得到特微圖的權(quán)重參數(shù)。測(cè)試階段如圖11(b)所示,建立Mini Net網(wǎng)絡(luò),將最佳權(quán)重輸入網(wǎng)絡(luò)中,將縮放后的圖像輸入網(wǎng)絡(luò)進(jìn)行前向傳播進(jìn)而實(shí)現(xiàn)多尺度預(yù)測(cè),再利用NMS過(guò)濾得到最后的檢測(cè)結(jié)果。

4.1.2? ?輸入前處理

首先,計(jì)算出模型輸入尺寸與原始尺寸的寬高比,并取最小值作為縮放比例,為了避免縮放后的邊界大于原圖邊界裁剪到原始圖像,再將原始圖像乘以縮放比例得到新的尺寸。由于輸入圖像的寬和高皆為416,但是原始圖像的寬高比不一定是1∶1,故采用等比例縮放圖像,放置到寬高皆為416且RGB規(guī)定為(128,128,128)的灰度底片上。為了在訓(xùn)練過(guò)程中不出現(xiàn)重疊效果,選擇中間值128作為底色進(jìn)行訓(xùn)練。

4.1.3? ?模型架構(gòu)

Mini Net模型是在高低階段分別采用不同的卷積模塊組合成的,在模型低層階段采用Mini Lower模塊來(lái)提取低階特微,在高層階段采用Mini Higher模塊來(lái)提取高階特微,最后搭配兩個(gè)尺寸輸出預(yù)測(cè),整體框架如圖12所示。

4.2? ?運(yùn)作模式

Mini Net模型的運(yùn)作模式是基于One Stage算法的YOLOv3,將整個(gè)任務(wù)視為回歸問(wèn)題,不需要預(yù)先提取候選框,而是直接將圖片輸入神經(jīng)網(wǎng)絡(luò)中進(jìn)行處理,將特微圖分割成單元格的形式,在特微空間上進(jìn)行全局的目標(biāo)檢測(cè)??紤]到輕量模型的計(jì)算量問(wèn)題,此處將采用YOLOv3-tiny的兩個(gè)尺度進(jìn)行輸出預(yù)測(cè),并且借鑒YOLOv3先驗(yàn)框的偏置回歸控制,將其分割在兩個(gè)尺度上進(jìn)行訓(xùn)練和測(cè)試。

4.2.1? ?訓(xùn)練階段

Mini Net模型采用監(jiān)督學(xué)習(xí)進(jìn)行模式訓(xùn)練,包含兩個(gè)輸入和,計(jì)算偏差函數(shù)的輸出端,第一個(gè)輸入為圖片中目標(biāo)對(duì)應(yīng)的真實(shí)框G的標(biāo)記值,為縮放后圖片的RGB值。

(1)輸入端

訓(xùn)練集的每一個(gè)目標(biāo)對(duì)應(yīng)的真實(shí)框都包含五個(gè)標(biāo)記值,分別為:邊界左上角坐標(biāo)、右下角坐標(biāo)、所屬類(lèi)別。先將真實(shí)框標(biāo)記值進(jìn)行轉(zhuǎn)換:,,,,再將真實(shí)框轉(zhuǎn)化后的標(biāo)記值進(jìn)行歸一化處理,如式(9)所示:

(9)

格式轉(zhuǎn)換完成后,將每個(gè)真實(shí)框G對(duì)應(yīng)到先驗(yàn)框A上,從而決定先驗(yàn)框的訓(xùn)練順序。

(2)輸入端

縮放后的原始圖像在模型訓(xùn)練前,先將RGB歸一化為[0,1],有助于訓(xùn)練的穩(wěn)定,再將歸一化的數(shù)據(jù)輸入Mini Net網(wǎng)絡(luò)中,經(jīng)前向傳播后輸出,最終兩個(gè)卷積層分別輸

出不同尺寸的特微圖。小尺度輸出的張量形狀為:[,13,13,

18],大尺度輸出的張量形狀為:[,26,26,18],18表示輸出三個(gè)預(yù)測(cè)框,且每個(gè)預(yù)測(cè)框預(yù)測(cè)六個(gè)值。

(3)輸出端

整個(gè)系統(tǒng)的輸出端為損失層,損失層接收兩個(gè)輸入,分別為實(shí)際標(biāo)記值和模型預(yù)測(cè)值,再通過(guò)偏差函數(shù)計(jì)算出兩者的誤差值,經(jīng)過(guò)多次訓(xùn)練,尋找最合適的權(quán)重參數(shù)。在損失函數(shù)計(jì)算前,需進(jìn)行維度轉(zhuǎn)換,如表1所示。

此處采用交叉熵作為偏差函數(shù),用概率形式表示交叉熵的值,因?yàn)閾p失層的真實(shí)值和預(yù)測(cè)值皆為六個(gè)項(xiàng)目,故采用多任務(wù)訓(xùn)練模式。

4.2.2? ?測(cè)試階段

Mini Net測(cè)試階段由訓(xùn)練階段取得的權(quán)重進(jìn)行運(yùn)算,先將原始圖片縮放到模型所需要的尺寸,將RGB進(jìn)行歸一化處理并進(jìn)行前向傳播,輸出不同尺寸的預(yù)測(cè)結(jié)果,將置信度分?jǐn)?shù)和條件概率相乘,得到特定置信度分?jǐn)?shù),將置信度分?jǐn)?shù)的預(yù)測(cè)框過(guò)濾掉,再對(duì)過(guò)濾后的圖片進(jìn)行NMS處理消除重疊框,直至處理完所有預(yù)測(cè)框,得到預(yù)測(cè)結(jié)果。

4.3? ?Mini 模塊設(shè)計(jì)

此處根據(jù)不同階段提取的特微特性設(shè)計(jì)不同形式的輕量模型,分別為基于低層次提取的基本特微Mini Lower和基于高層次提取的高階特微Mini Higher,再將二者進(jìn)行組合得到輕量模型Mini Net。

4.3.1? ?Mini Lower模塊

Mini Lower模塊主要利用Group卷積,其不同組的卷積核分別作用于分組后的特微圖上。首先,對(duì)輸入模塊的特微采用1×1卷積進(jìn)行信息融合,并將卷積數(shù)量定為輸入特微通道數(shù)量的一半,從而可以實(shí)現(xiàn)特微交互,并能降低參數(shù)計(jì)算量;接著對(duì)處理完的特微進(jìn)行Group卷積運(yùn)算,考慮到過(guò)多分組會(huì)導(dǎo)致特微破碎化,所以只分為兩組,并進(jìn)行3×3卷積操作,卷積核的數(shù)量取決于合并后的輸出通道數(shù)。此處采用通道層級(jí)的合并策略,一方面可以大幅減少參數(shù)量,另一方面也減少了卷積帶來(lái)的不必要的參數(shù)計(jì)算量。

4.3.2? ?Mini Higher模塊

Mini Higher模塊主要利用Depthwise卷積,每個(gè)卷積核各自操作所對(duì)應(yīng)的單一特微通道,并分別使用單一卷積核進(jìn)行運(yùn)算處理。使用Depthwise卷積能夠大大減少計(jì)算量。基于Mini Lower在模塊前端引入1×1卷積搭配池化層與激勵(lì)函數(shù)所帶來(lái)的效率,故此處也使用1×1的卷積組合,并將卷積核數(shù)量設(shè)為來(lái)降低參數(shù)的計(jì)算量,接著進(jìn)行Depthwise卷積,最后1×1卷積相當(dāng)于是對(duì)Depthwise卷積輸出的特微進(jìn)行融合,以此擬合目標(biāo)特微所需的位置。

4.4? ?檢測(cè)模型

4.4.1? ?YOLOv3-tiny模型

圖片輸入模型經(jīng)3×3卷積核處理后,利用2×2最大池化降低特微圖尺寸搭配3×3卷積增加通道數(shù),經(jīng)過(guò)五次基本特微后,特微通道數(shù)增加至512;接著采用3×3卷積搭配1×1卷積提取高階特微,此階段3×3卷積核的數(shù)目較多,用以提取更多特性的高階特微,其后利用1×1卷積來(lái)降低通道數(shù)量;輸出端采用3×3卷積提取表達(dá)性特微,搭配1×1卷積輸出結(jié)果。

4.4.2? ?Mini Net模型

圖片輸入模型后,先對(duì)輸入圖片的上邊界和左邊界填0處理,使得特微圖的寬和高均降至原來(lái)的一半;接著使用五個(gè)Mini Lower模塊提取基本特微,并加倍特微通道,穿插四個(gè)池化層來(lái)降低特微圖的尺寸,該階段操作完之后,特微圖的尺寸降為13×13,通道數(shù)增加至512;對(duì)于高階特微采用Mini Higher進(jìn)行提取;最終兩個(gè)尺度的輸出端采用1×1卷積進(jìn)行預(yù)測(cè)。

5? ?實(shí)驗(yàn)結(jié)果(Experimental result)

5.1? ?開(kāi)發(fā)環(huán)境介紹

此研究在中央處理器上執(zhí)行所有操作,沒(méi)有使用具有大量平行運(yùn)算能力的圓形處理器,用Python完成即時(shí)檢測(cè)系統(tǒng)的設(shè)計(jì),神經(jīng)網(wǎng)絡(luò)的搭建基于TensorFlow和聚類(lèi)算法Keras,數(shù)據(jù)集均采用WIDER FACE對(duì)模型進(jìn)行監(jiān)督學(xué)習(xí)評(píng)估,沒(méi)有使用另外的數(shù)據(jù)集。

5.2? ?數(shù)據(jù)的預(yù)處理

5.2.1? ?WIDER FACE

數(shù)據(jù)集為WIDER的子集,所有圖片通過(guò)Google和Bing等搜索得到[8],進(jìn)行類(lèi)別處理,刪除相似度較高的圖片保證樣本的豐富性。如圖13所示為攜帶多樣屬性的大規(guī)模數(shù)據(jù),可充分保證正負(fù)樣本,不需要額外的數(shù)據(jù)集。

5.2.2? ?數(shù)據(jù)集預(yù)處理

訓(xùn)練集本身的特性將影響模型的泛化能力,需要對(duì)數(shù)據(jù)集進(jìn)行過(guò)濾和篩選,保證數(shù)據(jù)集內(nèi)的數(shù)據(jù)真實(shí)有效。

5.2.3? ?過(guò)濾和篩選

首先,針對(duì)有問(wèn)題的數(shù)據(jù)進(jìn)行篩選,刪除十個(gè)標(biāo)記值為0的不符圖片,并剔除寬或高的邊界框。如表2所示為對(duì)數(shù)據(jù)集與驗(yàn)證集進(jìn)行初步處理。

5.2.4? ?統(tǒng)計(jì)與聚類(lèi)

先統(tǒng)計(jì)訓(xùn)練集的邊界框,并聚類(lèi)出實(shí)驗(yàn)所需要的六個(gè)先驗(yàn)框,通過(guò)使用K-means的歐式距離函數(shù)計(jì)算出所有數(shù)據(jù)點(diǎn)與各個(gè)群集中心的距離。為了減小統(tǒng)計(jì)和聚類(lèi)引起的誤差,對(duì)初始值的選取是從所有數(shù)據(jù)點(diǎn)中挑選六個(gè)點(diǎn),而非隨機(jī)的任意值。

5.3? ?訓(xùn)練方法

基于Mini卷積模塊的有效設(shè)計(jì),使得模型在整體訓(xùn)練的過(guò)程中更加穩(wěn)定,因此在檢測(cè)數(shù)據(jù)集上訓(xùn)練檢測(cè)模型。在數(shù)據(jù)集上采用多階段訓(xùn)練策略,在特定階段搭配超參數(shù)調(diào)整,從而提高模型的訓(xùn)練效率和檢測(cè)的準(zhǔn)確性。

5.3.1? ?超參數(shù)與優(yōu)化器

此研究對(duì)于周期的確定不采用預(yù)先固定,而是在遍歷整個(gè)訓(xùn)練集的每個(gè)周期之后,利用周期更新權(quán)重值,在驗(yàn)證集上計(jì)算平均誤差,從而判斷訓(xùn)練效果。常見(jiàn)的批次數(shù)量的設(shè)定方式有BGD、SGD和MBGD。BGD方式是將所有樣本輸入網(wǎng)絡(luò)中,將樣本全部遍歷一遍得到更新后的權(quán)重,此方法的計(jì)算量過(guò)于龐大,收斂速度非常慢;SGD方式的每一次訓(xùn)練僅選取一個(gè)樣本輸入網(wǎng)絡(luò)中,避免了大量的計(jì)算,模型通常遍歷少數(shù)樣本就可以收斂;MBGD方式每次訓(xùn)練選取一個(gè)批次的個(gè)樣本輸入網(wǎng)絡(luò),把整體數(shù)據(jù)分為若干批次,再?zèng)Q定該批次權(quán)重更新的梯度方向,這樣的數(shù)據(jù)既穩(wěn)定,又不會(huì)造成計(jì)算量大的問(wèn)題。權(quán)重更新的有效性將影響模型的數(shù)據(jù)擬合能力,非線性高的權(quán)重將會(huì)調(diào)整更多來(lái)擬合每一個(gè)數(shù)據(jù)點(diǎn),但是這樣容易出現(xiàn)過(guò)擬合的情況,如圖14所示。

優(yōu)化器采用MBGD搭配L2進(jìn)行權(quán)重更新,再搭配具有Momentum動(dòng)量特性與RMS自適應(yīng)監(jiān)督學(xué)習(xí)的Adam作為優(yōu)化器。

5.3.2? ?數(shù)據(jù)增強(qiáng)

此處對(duì)于不同訓(xùn)練階段采用不同的處理策略。數(shù)據(jù)增強(qiáng)相當(dāng)于增加更多樣化的數(shù)據(jù)量,因此可以避免過(guò)擬合,提高檢測(cè)準(zhǔn)確度。多尺度縮放分為三步:第一步,在有效的范圍內(nèi)隨機(jī)生成新的寬高比,這樣不會(huì)導(dǎo)致檢測(cè)圖像與原始圖像的比例相差太大;第二步,獲取隨機(jī)縮放值,以避免縮放比例過(guò)大或過(guò)小導(dǎo)致輸入尺寸的邊界裁剪掉過(guò)多的原始數(shù)據(jù);第三步,設(shè)置的信箱模式,找到底片最合適的位置。

5.4? ?實(shí)驗(yàn)結(jié)果分析

首先,為了說(shuō)明Mini Lower的有效性,將Mini Lower與其他模塊進(jìn)行對(duì)照實(shí)驗(yàn),并探討模型在合并更加精細(xì)的特微后,是否能夠改善整體的檢測(cè)效果,最后對(duì)Mini Net與YOLOv3-tiny進(jìn)行評(píng)估比較。此策略將帶來(lái)更好的檢測(cè)性能。

采用Mini Lower模塊設(shè)計(jì)的Mini Net能夠更加準(zhǔn)確及時(shí)地進(jìn)行檢測(cè)。以下按照表3來(lái)設(shè)計(jì)對(duì)照實(shí)驗(yàn),Mini Net-A組無(wú)殘差分支,故卷積核的數(shù)量增加;Mini Net-B組將Mini Lower模塊后的通道合并改為殘差模塊中的元素相加形式;Mini Net-C組保證合并后的通道數(shù)為384,而非Mini Net中的416通道。實(shí)驗(yàn)結(jié)果如表4所示。

6? 結(jié)論(Conclusion)

對(duì)于輕量模型Mini Net,在參數(shù)量?jī)H有0.92×106的情況下,能夠有效地提取目標(biāo)特微。由于卷積本身有冗余問(wèn)題,相較于全卷積使用大量的參數(shù)學(xué)習(xí)特微,根據(jù)低階特微和高階特微分別設(shè)計(jì)的Mini Lower和Mini Higher能夠更準(zhǔn)確地學(xué)習(xí)特微。在卷積模塊中增加任何操作都會(huì)增加模型的計(jì)算量,進(jìn)而影響檢測(cè)速度。輕量模型將批標(biāo)準(zhǔn)化層和激勵(lì)函數(shù)都設(shè)計(jì)在模塊前端,在數(shù)據(jù)堆疊的過(guò)程中,特微的交互作用使得數(shù)據(jù)在各個(gè)部分間共享,從而減少了不必要的數(shù)據(jù)計(jì)算。

本文提出多階段的訓(xùn)練策略,第一階段使得收斂快速而穩(wěn)定,第二階段和第三階段改善系統(tǒng)出現(xiàn)過(guò)擬合的問(wèn)題,利用更精細(xì)的特微來(lái)改善小目標(biāo)的檢測(cè)。

參考文獻(xiàn)(References)

[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 6(60):84-90.

[2] RUSSAKOVSKY O, DENG J, SU H, et al. TmageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(03):221-252.

[3] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// CVPR. 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015:1-9.

[4] 劉品.BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化研究及應(yīng)用[D].北京:中國(guó)地質(zhì)大學(xué),2016.

[5] 陳灝然.基于卷積神經(jīng)網(wǎng)絡(luò)的小目標(biāo)檢測(cè)算法研究[D].無(wú)錫:江南大學(xué),2021.

[6] GIRSHICK R. Fast R-CNN[C]// ICCV. Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015:1440-1448.

[7] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// CVPR. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu HI, USA: IEEE, 2017:936-944.

[8] YANG S, LUO P, LOY C C, et al. WIDER FACE: A face detection benchmark[C]// CVPR. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. LasVegas, USA: IEEE, 2016:5525-5533.

作者簡(jiǎn)介:

高新怡(2001-),女,本科生.研究領(lǐng)域:自動(dòng)化.

陳? 琦(1970-),女,博士,副教授.研究領(lǐng)域:控制理論與應(yīng)用.

陳冠宇(2001-),男,本科生.研究領(lǐng)域:計(jì)算機(jī)科學(xué)與技術(shù).

楊靜怡(2001-),女,本科生.研究領(lǐng)域:自動(dòng)化.

張坤坤(2001-),女,本科生.研究領(lǐng)域:自動(dòng)化.

蔡華蕊(2000-),女,本科生.研究領(lǐng)域:通信工程.

猜你喜歡
目標(biāo)檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)圖像識(shí)別
基于Resnet-50的貓狗圖像識(shí)別
電子制作(2019年16期)2019-09-27 09:34:50
高速公路圖像識(shí)別技術(shù)應(yīng)用探討
圖像識(shí)別在物聯(lián)網(wǎng)上的應(yīng)用
電子制作(2018年19期)2018-11-14 02:37:04
圖像識(shí)別在水質(zhì)檢測(cè)中的應(yīng)用
電子制作(2018年14期)2018-08-21 01:38:16
視頻中目標(biāo)檢測(cè)算法研究
軟件(2016年4期)2017-01-20 09:38:03
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測(cè)方法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
禹州市| 灵璧县| 繁峙县| 许昌县| 平南县| 扎囊县| 即墨市| 兴仁县| 陆川县| 昌吉市| 大港区| 黔西县| 梨树县| 金堂县| 维西| 浏阳市| 阳曲县| 莱州市| 科尔| 灵丘县| 宁城县| 霍城县| 杭锦旗| 桃园县| 临潭县| 西安市| 喀喇| 增城市| 晋江市| 赞皇县| 湟源县| 金门县| 陆川县| 宣化县| 凤山县| 福州市| 库伦旗| 会昌县| 长汀县| 津南区| 永仁县|