程忠梅 李偉 熊竹 羅蓮 陳文
關(guān)鍵詞:深度學(xué)習(xí);Faster R-CNN;目標(biāo)檢測(cè);可視化預(yù)測(cè)
1引言
隨著社會(huì)經(jīng)濟(jì)的發(fā)展,圖像信息成為與人們生活密切相關(guān)的重要數(shù)據(jù),利用計(jì)算機(jī)來迅速地實(shí)現(xiàn)圖像分類和目標(biāo)檢測(cè),已成為當(dāng)前圖像處理最迫切的需求。目標(biāo)檢測(cè)是深度學(xué)習(xí)的一個(gè)重要應(yīng)用,要求從圖片背景中分離出感興趣的目標(biāo)。相較于龐大的圖像數(shù)據(jù)信息的產(chǎn)生,圖像分類和目標(biāo)識(shí)別的速度、準(zhǔn)確率也在快速提升。此前的研究證明,在大數(shù)據(jù)集上進(jìn)行訓(xùn)練可以獲得一個(gè)小數(shù)據(jù)集的實(shí)質(zhì)性改進(jìn)。一般來說,這些超大規(guī)模的數(shù)據(jù)集可以使局部識(shí)別性能大幅度提高[1]。隨著數(shù)據(jù)越來越大,要求也會(huì)越來越高,也需要更加快速和精準(zhǔn)的識(shí)別方法[2]。目前,最常用的圖像目標(biāo)檢測(cè)的三個(gè)模型分別是Faster R-CNN.SSD和YOLO。所以,在本項(xiàng)目中基于深度學(xué)習(xí)的Faster R-CNN算法對(duì)圖像目標(biāo)進(jìn)行識(shí)別,采用一個(gè)統(tǒng)一的系統(tǒng)來實(shí)現(xiàn)對(duì)圖像分類、目標(biāo)檢測(cè)型和人臉分類三個(gè)不同的模型的統(tǒng)一管理,實(shí)現(xiàn)對(duì)圖像目標(biāo)的可視化預(yù)測(cè)。
2目標(biāo)檢測(cè)方法
深度學(xué)習(xí)目標(biāo)檢測(cè)方法主要分為兩階段目標(biāo)檢測(cè)算法和一階段目標(biāo)檢測(cè)算法。兩階段目標(biāo)檢測(cè)算法常見的方法有R-CNN,F(xiàn)ast R-CNN和Faster R-CNN等,它需要生成一系列作為樣本的候選框,然后通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。一階段目標(biāo)檢測(cè)算法常見的方法有YOLO,SSD等,它不需要產(chǎn)生候選框,而是直接將目標(biāo)框定位的問題轉(zhuǎn)化為回歸問題來處理。其中,這兩類方法各有優(yōu)缺點(diǎn),兩階段目標(biāo)檢測(cè)算法在檢測(cè)準(zhǔn)確率和定位精度上占優(yōu),而一階段目標(biāo)檢測(cè)算法在速度上占優(yōu)。本系統(tǒng)選擇使用Faster R-CNN模型,來設(shè)計(jì)和實(shí)現(xiàn)圖像目標(biāo)檢測(cè)系統(tǒng)。
在做圖像分類任務(wù)時(shí),通常要先使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,再用這些特征預(yù)測(cè)分類概率[3]。通過對(duì)整張圖像特征提取,將目標(biāo)檢測(cè)任務(wù)進(jìn)行拆分。在圖像上生成一系列可能包含物體的候選區(qū)域,把候選區(qū)域都當(dāng)作一幅圖像來看待,然后使用分類模型對(duì)它們進(jìn)行分類和判斷其所屬類別,從而實(shí)現(xiàn)目標(biāo)檢測(cè)任務(wù)。
Fast R-CNN在候選區(qū)域選擇上使用SelectiveSearch方法,它是整個(gè)流程中的時(shí)間消耗瓶頸,無法用GPU硬件與網(wǎng)絡(luò)進(jìn)行加速[4]。而Faster R-CNN在Fast-RCNN的基礎(chǔ)上做了重大的創(chuàng)新改進(jìn)[5]:(1)在Region Proposal階段提出了使用RPN來代替SelectiveSearch;(2)使用了錨框。
Faster R-CNN基本結(jié)構(gòu)如圖1所示。(1)需要輸入測(cè)試圖像;(2)將整張圖片輸入CNN來提取圖像特征;(3)采用RPN生成一堆Anchor box,對(duì)其進(jìn)行裁剪過濾后,通過softmax判斷anchors屬于前景或者后景;同時(shí)bounding box regression修正anchor box來形成較精確的proposal;(4)把建議窗口映射到CNN的最后一層卷積feature map上;(5)通過RoI pooling層,讓每個(gè)RoI生成固定尺寸的feature map;(6)利用Softmax Loss和Smooth Ll Loss對(duì)分類概率和邊框回歸進(jìn)行聯(lián)合訓(xùn)練。
3系統(tǒng)設(shè)計(jì)
系統(tǒng)設(shè)計(jì)的目的是針對(duì)圖像識(shí)別算法在進(jìn)行圖像檢測(cè)時(shí)都會(huì)遇到圖像顯著性特征保留不完整的問題,基于深度學(xué)習(xí)的快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Fast R-CNN)框架,對(duì)深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域中的不同處理方法及模型的發(fā)展進(jìn)行研究,從而得到相應(yīng)的目標(biāo)檢測(cè)模型。同時(shí),針對(duì)不同的數(shù)據(jù)集都需要訓(xùn)練一個(gè)模型,根據(jù)任務(wù)是針對(duì)圖像分類模型或目標(biāo)檢測(cè)模型,每次都需要重新寫一次代碼來對(duì)不同的任務(wù)、不同的模型進(jìn)行推理預(yù)測(cè),針對(duì)該問題,需要采用一個(gè)統(tǒng)一的系統(tǒng)來實(shí)現(xiàn)不同任務(wù)、不同模型的統(tǒng)一管理,以實(shí)現(xiàn)對(duì)推理模型的可視化預(yù)測(cè),系統(tǒng)功能如圖2所示。因此,在使用的過程,把部署模型存放在對(duì)應(yīng)的任務(wù)模型默認(rèn)目錄即可,分別是圖像分類模型、目標(biāo)檢測(cè)模型和人臉分類模型。
在做圖像分類任務(wù)時(shí),首先使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,然后利用特征來預(yù)測(cè)分類的概率。根據(jù)訓(xùn)練樣本標(biāo)簽建立起分類損失函數(shù),最后開啟端到端的訓(xùn)練,流程如圖3所示。結(jié)合圖片分類任務(wù)取得的成功經(jīng)驗(yàn),可以將目標(biāo)檢測(cè)任務(wù)進(jìn)行拆分?;谏疃葘W(xué)習(xí)的Fast R-CNN模型,在輸入圖片上生成一系列可能包含物體的候選區(qū)域,然后可以把每個(gè)候選區(qū)域單獨(dú)當(dāng)成一幅圖像,使用圖像分類模型對(duì)它進(jìn)行分類.判斷它屬于哪個(gè)類別或者背景,從而實(shí)現(xiàn)目標(biāo)檢測(cè)任務(wù),如圖det-model(目標(biāo)檢測(cè)模型)。
系統(tǒng)的UI設(shè)計(jì)使用的是Qt Designer。系統(tǒng)界面組成有:(1)兩個(gè)標(biāo)簽QLabel,用來顯示源圖像和預(yù)測(cè)結(jié)果后的目的圖像。為了讓界面能夠自適應(yīng)縮放,在適當(dāng)?shù)臅r(shí)候使用Horizontal Spacer和Vertical Spacer來撐起組件。(2)-個(gè)可編輯的文本框QTextEdit,用來存放文本信息。(3)數(shù)據(jù)源區(qū)由單選按鈕和錄像機(jī)的相關(guān)信息組成。(4)功能區(qū)包括圖像縮放、任務(wù)模型、預(yù)覽/預(yù)測(cè)、拍照、錄像、關(guān)閉等功能選項(xiàng)。系統(tǒng)的兩個(gè)資源文件包括:用來檢測(cè)人臉的OpenCV人臉級(jí)聯(lián)分類器xml文件,文件比較小,所以當(dāng)成資源文件打包,運(yùn)行程序時(shí)自動(dòng)釋放資源文件:程序啟動(dòng)的畫面圖像文件,用來讀取資源圖像。系統(tǒng)實(shí)現(xiàn)的關(guān)鍵代碼如下。
if self.isimg:
4系統(tǒng)實(shí)現(xiàn)
軟件開發(fā)環(huán)境使用Windows10系統(tǒng),在學(xué)習(xí)人工智能深度學(xué)習(xí)時(shí),因?yàn)榻?jīng)常需要訓(xùn)練模型,需要很強(qiáng)大的計(jì)算能力,這時(shí)僅依靠CPU是遠(yuǎn)遠(yuǎn)不夠的[6]。因此,在Windowsl0系統(tǒng)下安裝和配置好基于CUDA架構(gòu)的GPU編程環(huán)境,將在很大程度上提高實(shí)驗(yàn)效率。同時(shí),開發(fā)環(huán)境選用VScode環(huán)境,編程語言為Python。深度學(xué)習(xí)框架有Pytorch和Tensorflow等,選用百度的PaddlePaddle飛槳框架,讓用戶更加方便快速地使用GPU來加速訓(xùn)練模型。安裝飛槳后,還需要安裝PaddleX。PaddleX是飛槳全流程開發(fā)工具,用戶可以十分方便地使用它。
深度學(xué)習(xí)是一個(gè)非常耗時(shí)的過程,隨著圖像數(shù)據(jù)集的增多,搭建一個(gè)性能良好的實(shí)驗(yàn)環(huán)境對(duì)提升學(xué)習(xí)效率很有幫助,系統(tǒng)選擇的硬件配置如表1所列。訓(xùn)練用時(shí)大約28 min(GPU環(huán)境),訓(xùn)練最后一輪的mAP達(dá)到86%以上,表明訓(xùn)練的效果較好。通過調(diào)整訓(xùn)練參數(shù),還可以提高mAP的值。
系統(tǒng)對(duì)圖像目標(biāo)識(shí)別中要應(yīng)用的函數(shù)和方法進(jìn)行了實(shí)現(xiàn)。cls-model(圖像分類模型)的結(jié)果如圖4所示,它利用計(jì)算機(jī)對(duì)圖像進(jìn)行相應(yīng)的定量分析,把圖像或圖像中的每個(gè)元素或區(qū)域劃分為多個(gè)類別中的某一種,以代替人的視覺判讀。而det-model(目標(biāo)檢測(cè)模型)的結(jié)果如圖5所示,它的主要作用是讓計(jì)算機(jī)可以自動(dòng)識(shí)別圖片和視頻幀中所有目標(biāo)的類別,并在該目標(biāo)周圍繪制邊界框,標(biāo)示出目標(biāo)所在圖片中的位置。測(cè)試結(jié)果顯示,預(yù)測(cè)結(jié)果的準(zhǔn)確率較高,達(dá)到了預(yù)期目標(biāo)檢測(cè)的效果。
5結(jié)束語
本文圍繞圖像目標(biāo)檢測(cè)中存在的問題,對(duì)深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域中的不同處理方法及模型的發(fā)展進(jìn)行研究?;谏疃葘W(xué)習(xí)的快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)框架,使用相應(yīng)的目標(biāo)檢測(cè)模型,以及采用一個(gè)統(tǒng)一的系統(tǒng)來實(shí)現(xiàn)不同任務(wù)和不同模型的統(tǒng)一管理,實(shí)現(xiàn)對(duì)推理模型的可視化預(yù)測(cè)。系統(tǒng)測(cè)試結(jié)果表明,基于深度學(xué)習(xí)的圖像目標(biāo)檢測(cè),可以從輸入的圖像或視頻判斷是否包含物體,并對(duì)檢測(cè)到的物體進(jìn)行分類和定位,在該目標(biāo)周圍繪制邊界框和標(biāo)示出每個(gè)目標(biāo)的位置,在眾多的實(shí)際應(yīng)用場(chǎng)景中擁有很高的應(yīng)用價(jià)值[7]。未來研究將完善深度學(xué)習(xí)的圖像數(shù)據(jù)訓(xùn)練集和驗(yàn)證集,以進(jìn)一步提高圖像目標(biāo)檢測(cè)與識(shí)別的準(zhǔn)確率。