黃明珠,黃文清
(浙江理工大學(xué) 信息學(xué)院,杭州 310018)
隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,該領(lǐng)域中的目標(biāo)檢測技術(shù)越來越多地應(yīng)用于實(shí)際生活中.Logo作為一種識(shí)別和傳達(dá)信息的視覺圖形,是人們?cè)陂L期生活和實(shí)踐中形成的視覺化表達(dá)方式.不管是商品還是企業(yè)或是政府部門等,都有專屬的標(biāo)志Logo.Logo的檢測有巨大的應(yīng)用前景,是計(jì)算機(jī)視覺中的重要任務(wù).目前對(duì)于Logo檢測的研究已有不少[1],例如文獻(xiàn)[2]中基于SIFT特征進(jìn)行匹配的方法來檢索帶有特定Logo的圖像.文獻(xiàn)[3]首次提出了基于全局不變特征的Logo檢測與識(shí)別算法.以及基于前面的成果,文獻(xiàn)[4]嘗試?yán)靡恍┘s束條件,如圓和點(diǎn)或是圓和線的關(guān)系等,并且利用其中的文字信息進(jìn)行更為精確的識(shí)別.以及文獻(xiàn)[5]所做的主要針對(duì)文本圖片中Logo目標(biāo)的檢測研究.
Logo檢測任務(wù)可看成是具一般性的目標(biāo)檢測任務(wù).在卷積神經(jīng)網(wǎng)絡(luò)(CNN)廣泛應(yīng)用于物體檢測以前,以往的方法通常是通過人工選定特征描述符的傳統(tǒng)檢測手段,這些方法有很多的局限性,在實(shí)際中得不到很好的應(yīng)用.并且這類傳統(tǒng)的檢測方法已達(dá)到了瓶頸.然而隨著卷積網(wǎng)絡(luò)在目標(biāo)檢測技術(shù)方面的發(fā)展,各類研究成果被不斷提出.如文獻(xiàn)[6]中的R-CNN采用選擇性搜索來查找包含高概率對(duì)象的預(yù)測框,使用卷積層提取每個(gè)預(yù)測框的高維特征,由支持向量機(jī)(SVM)確定目標(biāo)類別.但R-CNN中因?yàn)槊總€(gè)預(yù)測框都有一些重疊,存在大量重復(fù)計(jì)算的缺點(diǎn).為了緩解這個(gè)問題,文獻(xiàn)[7]提出Fast R-CNN網(wǎng)絡(luò),通過引入一個(gè)感興趣區(qū)域池化層(ROI Pooling)來共享特征的計(jì)算.該網(wǎng)絡(luò)使用整個(gè)圖像作為輸入來提取全局特征圖,然后感興趣區(qū)域池化層從它們中提取每個(gè)預(yù)測框的固定長度特征.然而,Fast R-CNN因采用選擇性搜索導(dǎo)致過程分離,限制了檢測速度進(jìn)一步提升.因此,文獻(xiàn)[8]提出了區(qū)域提名網(wǎng)絡(luò)(RPN)以進(jìn)一步提高檢測速度,相應(yīng)的方法稱為Faster R-CNN.雖然RPN依賴于幾百個(gè)預(yù)測框就能達(dá)到和Fast R-CNN上千個(gè)預(yù)測框相同的檢測效果.但是在分辨率低的目標(biāo)的檢測效果上,Faster R-CNN相較于Fast R-CNN是有所下降的.但是Faster R-CNN在檢測精度和檢測速度上取得了一個(gè)很好的平衡.此外,在上述的檢測方法中都應(yīng)用了邊框回歸方法以提高檢測精度[6-8].
除了上面提到的方法之外,還有一類目標(biāo)檢測方法不采用區(qū)域提名方法尋找預(yù)測框.如文獻(xiàn)[9]中提到的YOLO網(wǎng)絡(luò),它們的特點(diǎn)是直接從整個(gè)特征圖上選取預(yù)測框和預(yù)測概率.并且它在檢測時(shí)加入全局上下文信息,很少在背景類的分類中出錯(cuò),并具有良好的泛化能力.但是,YOLO對(duì)物體的比例非常敏感.它通過在每個(gè)單元格上滑動(dòng)來預(yù)測目標(biāo)框.如果單元格太小,則無法提高速度;如果單元格太大,則難以檢測到物體.為了解決這些弱點(diǎn),文獻(xiàn)[10]中提到的SSD網(wǎng)絡(luò)在每層卷積之后添加了池化操作,逐層遞減特征尺度以形成特征圖金字塔.然后,在每層特征圖上的單元格滑窗提取預(yù)測框.這不僅改善了YOLO在預(yù)測框選擇上的限制,還保證了速度.
目前,已提出的各類方法基本上都偏適用于中大型目標(biāo)的檢測,小目標(biāo)的檢測效果并不理想,這里提到的小目標(biāo)指的是分辨率低的目標(biāo).小目標(biāo)在圖像中往往占據(jù)很小的一部分,通過卷積之后它的特征會(huì)變得更小,特征的分辨率也就更低.這樣的目標(biāo)特征不明顯而難以正確檢測,而相比之下中大型的目標(biāo)卷積后的高分辨率的特征更加明顯所以好檢測.雖然不少學(xué)者針對(duì)小目標(biāo)檢測性能的改善要求,已提出相應(yīng)的解決辦法[11-13].但這些方法基本上都是通過獲取多尺度特征來改善小物體的檢測性能.這類方法不僅大大降低了檢測速度,而且不能保證提取的特征足以有效檢測小物體.
說完,他拿開手,繼續(xù)往前走。我傻傻地站在那里,還沒回過神來,甚至還能感受到他的手掌貼在我腹部的感覺。這感覺好奇怪,我不得不停下來喘l21氣,才能繼續(xù)練習(xí)。
為此,我們提出一種設(shè)想: 如果能基于現(xiàn)有的對(duì)中大型目標(biāo)已達(dá)到良好檢測效果的網(wǎng)絡(luò)框架,通過改進(jìn),使其能將小目標(biāo)的特征映射成具有相似特征分布的高分辨率的大目標(biāo)的特征,那么就能提升Logo的檢測性能.基于這一考慮,本文針對(duì)現(xiàn)有的各類方法的分析結(jié)果和Logo目標(biāo)的特點(diǎn),選取Faster R-CNN作為改進(jìn)框架.Faster R-CNN對(duì)中大型的目標(biāo)具有良好的檢測效果,但對(duì)小目標(biāo)的檢測效果不佳[14,15].我們將生成對(duì)抗模型應(yīng)用到Faster R-CNN的網(wǎng)絡(luò)架構(gòu)中,通過對(duì)抗訓(xùn)練方式,使網(wǎng)絡(luò)具備將低分辨率的特征圖映射到高分辨率的特征圖的能力,從而提高整個(gè)網(wǎng)絡(luò)的檢測性能.
富集技術(shù)與便攜式鎢絲電熱原子吸收光譜儀聯(lián)用研究………………………溫曉東,陳路瓊,雷自榮,楊盛春(43)
Faster R-CNN是經(jīng)過R-CNN和Fast R-CNN的積淀,由Ross B.Girshick在2016年提出的.它在Fast RCNN的基礎(chǔ)上引入?yún)^(qū)域提名網(wǎng)絡(luò)(RPN)來提取預(yù)測框,解決了采用選擇性搜索導(dǎo)致的過程分離問題,并通過交替訓(xùn)練使RPN和Fast R-CNN網(wǎng)絡(luò)共享參數(shù).因此在結(jié)構(gòu)上,Faster R-CNN已經(jīng)將特征提取、預(yù)測框提取、邊框回歸(bounding box regression)、分類都整合在了一個(gè)網(wǎng)絡(luò)中,使得綜合性能有較大提高,尤其在檢測速度方面.Faster R-CNN網(wǎng)絡(luò)流程圖如圖1所示.
Faster R-CNN的結(jié)構(gòu)主要包含卷積/池化、RPN網(wǎng)絡(luò)、感興趣區(qū)域池化層和分類器.首先由卷積/池化部分提取圖片的特征圖,接著由RPN網(wǎng)絡(luò)提取候選框,然后將候選框和特征圖輸入感興趣區(qū)域池化層提取各侯選框的特征,最后由分類器實(shí)現(xiàn)目標(biāo)識(shí)別與定位.
圖1 經(jīng)典的Faster R-CNN的檢測流程圖
為了盡可能保證使用大數(shù)據(jù)量的原始圖片進(jìn)行訓(xùn)練,本文的原始圖像來源于Flickrlogos-32和BelgaLogos數(shù)據(jù)集,它們都是互聯(lián)網(wǎng)上公開的數(shù)據(jù)集資源.
RPN網(wǎng)絡(luò)的提出雖然幫助Faster R-CNN加快了速度,但是由于RPN只依賴幾百個(gè)預(yù)測框選取目標(biāo)位置,在目標(biāo)的召回率上必定有所下降.并且RPN網(wǎng)絡(luò)的窗口類型有限難以滿足多種尺度目標(biāo)的檢測需求.鑒于目前大部分?jǐn)?shù)據(jù)集中的目標(biāo)尺度適中,小型目標(biāo)偏少,所以Faster R-CNN在窗口的設(shè)置上偏于適應(yīng)中大型目標(biāo)的檢測,對(duì)于小目標(biāo)的檢測效果并不理想.
生成對(duì)抗網(wǎng)絡(luò)(GANs)[16]是用于學(xué)習(xí)生成模型的框架,由Ian Goodfellow于2014年首次提出.它并不一定要以卷積網(wǎng)絡(luò)構(gòu)成,但已提出的各種用途的生成對(duì)抗網(wǎng)絡(luò)基本上都是卷積網(wǎng)絡(luò).Mathieu等人[17]和Dentonet等人[18]采用了GANs實(shí)現(xiàn)圖像生成.在文獻(xiàn)[19]和文獻(xiàn)[20]中,GANs是分別用于學(xué)習(xí)從一個(gè)流形到另一個(gè)流形的風(fēng)格轉(zhuǎn)移和修復(fù)的映射.除此之外,使用GANs進(jìn)行無監(jiān)督表征學(xué)習(xí)在文獻(xiàn)[21]中被提出.文獻(xiàn)[22]中提出將GANs應(yīng)用到超分辨圖像.
一對(duì)戀人去登記結(jié)婚?!白鲞^婚前檢查嗎?”“查過了,他房子、車子都全了?!薄拔沂钦f去醫(yī)院?!迸嗄昴樇t了,小聲回答:“查了,是個(gè)男孩?!?/p>
圖2 生成對(duì)抗網(wǎng)絡(luò)流程圖
對(duì)抗網(wǎng)絡(luò)中,生成器以Faster R-CNN的第一層卷積輸出的特征作為輸入,然后進(jìn)行3×3的卷積和1×1的卷積處理.這兩次卷積處理的主要目的是為了與感知網(wǎng)絡(luò)五層3×3的卷積的最終輸出的256個(gè)特征通道保持一致.五個(gè)殘差塊依次連接作為生成器的主干部分,用于學(xué)習(xí)低分辨目標(biāo)特征和高分辨目標(biāo)率特征的的特征偏差,再與下層的Faster R-CNN中的五層卷積得到的特征按像素相加得到高分辨率的特征.每個(gè)殘差塊都是由3×3的卷積層,批量規(guī)范化層以及ReLU激活函數(shù)層組成.判別器的輸入包括生成的高分辨目標(biāo)特征和真實(shí)的高分辨目標(biāo)特征兩類,生成的高分辨目標(biāo)特征作為負(fù)樣本,真實(shí)的高分辨率目標(biāo)特征作為正樣本,通過為兩種樣本安排不同的標(biāo)記幫助判別器學(xué)習(xí)區(qū)分真?zhèn)螖?shù)據(jù).
本文基于Faster R-CNN網(wǎng)絡(luò)對(duì)中大型目標(biāo)已有良好的檢測效果而對(duì)小目標(biāo)的檢測效果不佳的情況,根據(jù)生成對(duì)抗網(wǎng)絡(luò)可生成高分辨率圖像的特性,提出了一種新的檢測器.網(wǎng)絡(luò)的具體結(jié)構(gòu)如圖3所示,整個(gè)網(wǎng)絡(luò)可以分成兩個(gè)子網(wǎng)絡(luò).上層子網(wǎng)絡(luò)是由生成器和判別器組成的對(duì)抗網(wǎng)絡(luò),用于為低分辨率目標(biāo)生成適當(dāng)?shù)奶卣髌?下層子網(wǎng)絡(luò)是由Faster R-CNN框架構(gòu)成的感知網(wǎng)絡(luò),用于目標(biāo)分類和回歸.
圖3 改進(jìn)的Faster R-CNN網(wǎng)絡(luò)框架圖
感知網(wǎng)絡(luò)結(jié)構(gòu)采用的是Faster R-CNN的檢測框架,以五層卷積進(jìn)行特征提取.RPN網(wǎng)絡(luò)在特征圖上選取預(yù)測框后會(huì)送入檢測器做進(jìn)一步的分類和回歸.
整個(gè)網(wǎng)絡(luò)的訓(xùn)練過程是不斷交替的迭代過程.每次迭代的訓(xùn)練過程如圖4所示,可分為如下三步:
1)訓(xùn)練RPN網(wǎng)絡(luò)提取目標(biāo)預(yù)測框.
2)訓(xùn)練判別器和檢測器: 用高分辨的圖像訓(xùn)練感知網(wǎng)絡(luò)和判別器,判別器利用判別損失Ldis反向調(diào)參判別網(wǎng)絡(luò),感知網(wǎng)絡(luò)利用感知損失Lp反向調(diào)參感知網(wǎng)絡(luò),相應(yīng)的損失表達(dá)式將在下面具體介紹.
3)判別器參數(shù)保持不變,訓(xùn)練生成器和檢測器: 用低分辨率的圖像一起訓(xùn)練生成器和感知網(wǎng)絡(luò),生成器會(huì)為低分辨率的目標(biāo)生成合適的特征偏差,與感知網(wǎng)絡(luò)卷積后的目標(biāo)特征按像素級(jí)相加得到生成的高分辨率的目標(biāo)特征,送入判別器和檢測器.此時(shí)因?yàn)樯善骱团袆e器的訓(xùn)練過程是相互對(duì)抗的,為了提高生成器的生成能力,判別網(wǎng)絡(luò)不做反向調(diào)參.我們利用生成損失Lg和感知損失Lp一起監(jiān)督整個(gè)高分辨率特征生成過程,相應(yīng)的損失函數(shù)為L=w1Lg+w2Lc.其中,w1,w2是兩個(gè)權(quán)重.在這里我們將它們?cè)O(shè)置為1.
在使用數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)前,為了順利訓(xùn)練生成對(duì)抗網(wǎng)絡(luò),本文先對(duì)數(shù)據(jù)集進(jìn)行了相應(yīng)的預(yù)處理.預(yù)處理的步驟為: 首先,選取兩個(gè)數(shù)據(jù)集中目標(biāo)尺寸大于64×64的圖片作為高分辨訓(xùn)練樣本;接著,通過下采樣使其尺寸小于32×32,作為低分辨訓(xùn)練樣本.測試樣本從兩個(gè)數(shù)據(jù)集中隨機(jī)選取并不做預(yù)處理.
對(duì)于生成器,我們的目標(biāo)是訓(xùn)練一個(gè)生成函數(shù)G將fs轉(zhuǎn)換成fl來欺騙判別器D.這里fl和fs分別表示高分辨率的目標(biāo)特征和相對(duì)應(yīng)的低分辨率的目標(biāo)特征.然而,生成器可能很難從fs中包含的有限信息中學(xué)習(xí)直接生成高分辨率的特征.因此,從感知網(wǎng)絡(luò)的低層卷積中引入特征f到生成網(wǎng)絡(luò)中來學(xué)習(xí)高分辨率特征和相對(duì)應(yīng)的低分辨特征之間的特征偏差,通過和Faster R-CNN卷積后的特征做像素級(jí)的疊加生成最終的高分辨特征.在本文的設(shè)計(jì)中,我們的目標(biāo)是改善小目標(biāo)的檢測性能,所以只需為低分辨率的目標(biāo)特征做高分辨率特征映射.對(duì)于高分辨率目標(biāo)我們需要生成器生成的特征偏差為零.因此,相應(yīng)的生成損失函數(shù)定義如下:
“昆北”陰平聲字“家”的唱調(diào)(《紫釵記·折柳》【寄生草】“可笑自家”,761),該單字唱調(diào)的過腔是。其中的即第一節(jié)級(jí)音性過腔,即第二節(jié)主調(diào)性過腔,由此構(gòu)成的也是“級(jí)音+主調(diào)”兩節(jié)型過腔。
(3)所有收集的網(wǎng)絡(luò)與訪談資料均轉(zhuǎn)換成文本,對(duì)其進(jìn)行詳細(xì)閱讀、提煉與分析,最終分類和歸納為4個(gè)方面:管理體制變革、行業(yè)規(guī)范推進(jìn)、產(chǎn)品創(chuàng)新與產(chǎn)業(yè)融合,并且從這4個(gè)方面進(jìn)行對(duì)比與探討。
圖4 改進(jìn)的Faster R-CNN的訓(xùn)練流程圖
訓(xùn)練結(jié)束時(shí),每個(gè)訓(xùn)練預(yù)測框都被標(biāo)記一個(gè)真值類別和真值框的目標(biāo)位置.
當(dāng)對(duì)抗訓(xùn)練達(dá)到平衡時(shí),即判別網(wǎng)絡(luò)無法區(qū)分輸入是真實(shí)特征圖還是生成特征圖時(shí),此時(shí)的生成器已經(jīng)可以為低分辨率的小目標(biāo)生成以假亂真的高分辨特征,生成器的訓(xùn)練可以停止.
在感知網(wǎng)絡(luò)訓(xùn)練過程中,從特征圖提取的每個(gè)預(yù)測框被送入檢測器,得到兩類輸出.第一個(gè)輸出層由softmax回歸計(jì)算n+1個(gè)類中每個(gè)預(yù)測框的概率p=(p0,p1,…,pn).第二個(gè)輸出層計(jì)算預(yù)測框坐標(biāo)rn=(rnx,rny,rnw,rnh).然后,使用公式(3)定義的多任務(wù)損失函數(shù)Lp對(duì)預(yù)測框的類型和坐標(biāo)進(jìn)行回歸計(jì)算,同時(shí)計(jì)算得到預(yù)測框的坐標(biāo)偏移.
生成對(duì)抗網(wǎng)絡(luò)是由競爭的兩個(gè)神經(jīng)網(wǎng)絡(luò)模型組成.一個(gè)將噪聲作為輸入并生成樣本,所以稱為生成器,用G來表示.另一個(gè)模型稱為判別器,用D來表示.它的輸入有兩種,一種是生成器生成的樣本,另一種是訓(xùn)練數(shù)據(jù)中的真實(shí)樣本.生成器的目的是生成能欺騙判別器的樣本,判別器的目的的是能夠區(qū)分樣本是生成的還是真實(shí)的樣本.這兩個(gè)網(wǎng)絡(luò)的訓(xùn)練過程是對(duì)抗學(xué)習(xí),并且兩個(gè)網(wǎng)絡(luò)同時(shí)訓(xùn)練,最后當(dāng)生成器和判別器的損失函數(shù)達(dá)到一個(gè)平衡(納什平衡)時(shí),即G可以生成足以“以假亂真”的樣本G(z).對(duì)于D來說,它難以判定G生成的圖片究竟是不是真實(shí)的,因此D(G(z))=0.5.生成對(duì)抗網(wǎng)絡(luò)模型的流程圖如圖2所示.
其中,Lcls(p,g)=-logpg是真實(shí)類別g的對(duì)數(shù)損失.Lloc是邊界回歸損失函數(shù),定義如下:
其中,SL1是平滑損失函數(shù),定義如下.
對(duì)于判別器,對(duì)于輸入的真實(shí)的高分辨率特征和生成的高分辨率特征,需要通過判別損失來反向調(diào)參,使判別器通過訓(xùn)練對(duì)于輸入的真?zhèn)螖?shù)據(jù)學(xué)習(xí)區(qū)分.顯然當(dāng)Ldis足夠小時(shí),判別器將能夠區(qū)分所生成的特征與真實(shí)的特征之間的差異.最后,判別損失可以描述為:
⑤建立防患于未然思想 。從醫(yī)療機(jī)構(gòu)和衛(wèi)生行業(yè)來看,公眾輿論事件具有較大的影響,甚至?xí)?yán)重影響醫(yī)院的未來生存和發(fā)展。由此可見,醫(yī)院的高層領(lǐng)導(dǎo)需高度關(guān)注負(fù)面輿情和輿論危機(jī),建立監(jiān)測和處理輿情的機(jī)制流程,對(duì)潛在的輿論隱患進(jìn)行有效防控。認(rèn)真落實(shí)新聞發(fā)言人制度,從制度層面上防止發(fā)生輿論引導(dǎo)的失誤。通常事件發(fā)生后需在最短時(shí)間內(nèi)進(jìn)行處理,同時(shí)啟動(dòng)我院的新聞發(fā)言人制度,多方面考慮輿論情關(guān)注焦點(diǎn)和方向,公布事件真相,避免負(fù)面效應(yīng)擴(kuò)散。在全院建立輿情無小事理念,把傳統(tǒng)媒體和自媒體并重利用,根據(jù)不同需要綜合利用。
RPN網(wǎng)絡(luò)是Faster R-CNN的核心部分,類似于以往目標(biāo)檢測中的選擇性搜索的作用,通過卷積神經(jīng)網(wǎng)絡(luò)來選取候選框.由于圖片中的目標(biāo)的尺度和寬高比不一,需要多種類型的窗口.因此,RPN采用anchor機(jī)制,即設(shè)定一個(gè)基準(zhǔn)窗口大小,按照(8,16,32)三種倍數(shù)和(0.5,1,2)三種比例得到9種尺度的窗口.通過在輸入的特征圖上滑動(dòng)窗口,即可得到關(guān)于這張圖片的目標(biāo)預(yù)測框.RPN網(wǎng)絡(luò)的輸出是一個(gè)包含二類分類和邊框回歸的多任務(wù)模型.二類分類通過Softmax輸出預(yù)測框?qū)儆谇熬邦愡€是背景類,邊框回歸則是用于計(jì)算預(yù)測框的偏移量,以便獲得更加準(zhǔn)確的定位.最后,綜合預(yù)測框的概率和偏移量,運(yùn)用非極大值抑制(NMS)去除太小和超出邊界的預(yù)測框,然后將預(yù)測框送入完全連接層做進(jìn)一步的分類和邊框回歸.
第二階段為依賴階段,企業(yè)己建立較完整的安全條件和紀(jì)律約束,員工需要遵守安全規(guī)范要求,安全管理不只是安全管理人員的職責(zé),其它員工也有義務(wù)參與。
交替訓(xùn)練過程中,生成器不斷學(xué)習(xí)為低分辨的目標(biāo)特征生成合適的特征偏差,判別器不斷學(xué)習(xí)區(qū)分生成的高分辨率特征和真實(shí)的高分辨率特征.通過迭代訓(xùn)練會(huì)不斷加強(qiáng)生成器和判別器的能力,從而提高低分辨率的小目標(biāo)的檢測準(zhǔn)確率.
本研究采用綜合心理護(hù)理方法,在以人為本護(hù)理理念指導(dǎo)下,充分了解患者需求和存在的問題,為其提供心理護(hù)理,干預(yù)人員與患者建立互信平等的朋友關(guān)系,為實(shí)施心理護(hù)理奠定基礎(chǔ)。
1.2.2 水資源供給 河套灌區(qū)水資源的供給渠道主要有引黃河水、地表水、地下水和中水回用。2016年河套灌區(qū)供水總量為44.871億m3,其中引黃水量為39.374億m3,占供水總量的87.75%;本地地表水、地下水、中水回用分別為0.148,5.185,0.164億m3(圖2)。
按照上述步驟,獲得訓(xùn)練樣本7532張,測試集4000張.然后,按照Pascal VOC 2007的數(shù)據(jù)格式對(duì)獲取的訓(xùn)練樣本數(shù)據(jù)集和測試集進(jìn)行相應(yīng)的轉(zhuǎn)換工作.
因?yàn)長ogo的種類眾多,并且獲取的每種類別擁有的圖片量不一,有的數(shù)量太少不足以用來進(jìn)行更進(jìn)一步的細(xì)化分類訓(xùn)練.因此,所有本文的Logo目標(biāo)檢測只做兩類分類和定位,并不對(duì)Logo再細(xì)致分類.
對(duì)于Logo檢測,先采用ImageNet大型分類數(shù)據(jù)集對(duì)基礎(chǔ)網(wǎng)絡(luò)做預(yù)訓(xùn)練,獲得五層卷積的參數(shù)初始化.除此之外,網(wǎng)絡(luò)中添加其它結(jié)構(gòu)均采用“Xavier”[23]進(jìn)行參數(shù)初始化.
整個(gè)網(wǎng)絡(luò)使用隨機(jī)梯度下降(SGD)訓(xùn)練,動(dòng)量為0.9,權(quán)重衰減量為0.0005;殘差塊的數(shù)量設(shè)置為5.在訓(xùn)練期間,25%的樣本是前景,剩下的是背景.預(yù)測框與真值框的交并比(IOU)至少0.5.
本文方法的測試是在NVIDIA GeForce GTX 1070 GPU和Caffe平臺(tái)上實(shí)現(xiàn)的.表1顯示了本文的方法與其他方法在Logo檢測上的平均準(zhǔn)確率和召回率的比較.從數(shù)據(jù)中,我們可以明顯看出,改進(jìn)的方法在檢測性能方面優(yōu)于Faster R-CNN,說明了我們的改進(jìn)發(fā)揮了作用,并且因?yàn)镕ast R-CNN在候選框選取數(shù)量遠(yuǎn)遠(yuǎn)多于Faster R-CNN,所以在小物體的檢測方面召回率要優(yōu)于Faster R-CNN.然而,在Logo的檢測上,我們的方法依賴于更少的預(yù)測框在小物體的檢測效果上已經(jīng)超過了Fast R-CNN,說明了本文提出的方法在小目標(biāo)的檢測上有優(yōu)勢.
表1 本文方法與Fast R-CNN和Faster R-CNN在Logo測試集上的檢測性能比較(%)
為了分析不同尺度下三種方法的性能,我們將目標(biāo)劃分為兩種類型的尺度: 像素小于32×32小目標(biāo)和像素大于32×32的中大型目標(biāo).通過Accuracy-Recall曲線比較它們?cè)贚ogo數(shù)據(jù)集上的檢測性能,如圖5所示.總的來說,我們的方法優(yōu)于其他方法,特別是在小物體的檢測中,證明了我們方法的有效性.如圖5(a)所示,Fast R-CNN在小目標(biāo)檢測中優(yōu)于Faster R-CNN.然而,當(dāng)將GAN引入Faster R-CNN時(shí),改進(jìn)的Faster R-CNN比Fast R-CNN方法獲得更好的性能.它證明了生成器為小目標(biāo)創(chuàng)造了適當(dāng)?shù)钠?使小目標(biāo)的特征與大目標(biāo)的特征相似,從而獲得了良好的性能.對(duì)于大中型物體檢測,圖5中所示的三種方法略有不同.客觀地說,Fast R-CNN的性能比其他兩種方法弱.在測試中型和大型物體時(shí),Faster R-CNN稍微弱于我們的改進(jìn)方法.為了更直觀顯示我們的檢測效果,我們隨機(jī)選取了幾張三種方法在Logo數(shù)據(jù)集上的檢測效果圖,如圖6所示.圖6中子圖(a)、(b)、(c)分別代表的是Fast R-CNN、Faster R-CNN和改進(jìn)的方法的檢測效果圖.從圖中可以看出,相比于前兩種方法,改進(jìn)的方法在定位和分類概率上都更加準(zhǔn)確.
圖5 改進(jìn)方法與Fast R-CNN和Faster R-CNN的Accuracy-Recall曲線圖
本文將GAN引入Faster R-CNN框架.我們使用生成網(wǎng)絡(luò)生成一個(gè)特征偏差,使小目標(biāo)的特征類似于大目標(biāo)的特征,從而欺騙了判別器.通過這種策略,與Faster R-CNN相比,我們的方法有效地提高了小目標(biāo)的檢測性能.盡管我們的方法使用Logo數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,但是該方法的應(yīng)用不只限于Logo的檢測,而且還可以用于其他情況下的小目標(biāo)檢測.當(dāng)然,我們需要改進(jìn)的地方還有很多.兩種模型的組合使網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜,訓(xùn)練還需要分兩個(gè)階段完成,訓(xùn)練時(shí)間和計(jì)算量的增加是不可避免的.
圖6 改進(jìn)的方法與Fast R-CNN和Faster R-CNN在測試集的檢測效果圖