基于深度學(xué)習(xí)的圖像目標(biāo)檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2023-03-05 08:21程忠梅李偉熊竹羅蓮陳文

計(jì)算機(jī)應(yīng)用文摘·觸控 2023年4期

程忠梅李偉熊竹羅蓮陳文

關(guān)鍵詞：深度學(xué)習(xí)；Faster R-CNN；目標(biāo)檢測(cè)；可視化預(yù)測(cè)

1引言

隨著社會(huì)經(jīng)濟(jì)的發(fā)展，圖像信息成為與人們生活密切相關(guān)的重要數(shù)據(jù)，利用計(jì)算機(jī)來迅速地實(shí)現(xiàn)圖像分類和目標(biāo)檢測(cè)，已成為當(dāng)前圖像處理最迫切的需求。目標(biāo)檢測(cè)是深度學(xué)習(xí)的一個(gè)重要應(yīng)用，要求從圖片背景中分離出感興趣的目標(biāo)。相較于龐大的圖像數(shù)據(jù)信息的產(chǎn)生，圖像分類和目標(biāo)識(shí)別的速度、準(zhǔn)確率也在快速提升。此前的研究證明，在大數(shù)據(jù)集上進(jìn)行訓(xùn)練可以獲得一個(gè)小數(shù)據(jù)集的實(shí)質(zhì)性改進(jìn)。一般來說，這些超大規(guī)模的數(shù)據(jù)集可以使局部識(shí)別性能大幅度提高[1]。隨著數(shù)據(jù)越來越大，要求也會(huì)越來越高，也需要更加快速和精準(zhǔn)的識(shí)別方法[2]。目前，最常用的圖像目標(biāo)檢測(cè)的三個(gè)模型分別是Faster R-CNN．SSD和YOLO。所以，在本項(xiàng)目中基于深度學(xué)習(xí)的Faster R-CNN算法對(duì)圖像目標(biāo)進(jìn)行識(shí)別，采用一個(gè)統(tǒng)一的系統(tǒng)來實(shí)現(xiàn)對(duì)圖像分類、目標(biāo)檢測(cè)型和人臉分類三個(gè)不同的模型的統(tǒng)一管理，實(shí)現(xiàn)對(duì)圖像目標(biāo)的可視化預(yù)測(cè)。

2目標(biāo)檢測(cè)方法

深度學(xué)習(xí)目標(biāo)檢測(cè)方法主要分為兩階段目標(biāo)檢測(cè)算法和一階段目標(biāo)檢測(cè)算法。兩階段目標(biāo)檢測(cè)算法常見的方法有R-CNN，F(xiàn)ast R-CNN和Faster R-CNN等，它需要生成一系列作為樣本的候選框，然后通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。一階段目標(biāo)檢測(cè)算法常見的方法有YOLO，SSD等，它不需要產(chǎn)生候選框，而是直接將目標(biāo)框定位的問題轉(zhuǎn)化為回歸問題來處理。其中，這兩類方法各有優(yōu)缺點(diǎn)，兩階段目標(biāo)檢測(cè)算法在檢測(cè)準(zhǔn)確率和定位精度上占優(yōu)，而一階段目標(biāo)檢測(cè)算法在速度上占優(yōu)。本系統(tǒng)選擇使用Faster R-CNN模型，來設(shè)計(jì)和實(shí)現(xiàn)圖像目標(biāo)檢測(cè)系統(tǒng)。

在做圖像分類任務(wù)時(shí)，通常要先使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征，再用這些特征預(yù)測(cè)分類概率[3]。通過對(duì)整張圖像特征提取，將目標(biāo)檢測(cè)任務(wù)進(jìn)行拆分。在圖像上生成一系列可能包含物體的候選區(qū)域，把候選區(qū)域都當(dāng)作一幅圖像來看待，然后使用分類模型對(duì)它們進(jìn)行分類和判斷其所屬類別，從而實(shí)現(xiàn)目標(biāo)檢測(cè)任務(wù)。

Fast R-CNN在候選區(qū)域選擇上使用SelectiveSearch方法，它是整個(gè)流程中的時(shí)間消耗瓶頸，無法用GPU硬件與網(wǎng)絡(luò)進(jìn)行加速[4]。而Faster R-CNN在Fast-RCNN的基礎(chǔ)上做了重大的創(chuàng)新改進(jìn)[5]：（1）在Region Proposal階段提出了使用RPN來代替SelectiveSearch;（2）使用了錨框。

Faster R-CNN基本結(jié)構(gòu)如圖1所示。（1）需要輸入測(cè)試圖像；（2）將整張圖片輸入CNN來提取圖像特征；（3）采用RPN生成一堆Anchor box，對(duì)其進(jìn)行裁剪過濾后，通過softmax判斷anchors屬于前景或者后景；同時(shí)bounding box regression修正anchor box來形成較精確的proposal；（4）把建議窗口映射到CNN的最后一層卷積feature map上；（5）通過RoI pooling層，讓每個(gè)RoI生成固定尺寸的feature map；（6）利用Softmax Loss和Smooth Ll Loss對(duì)分類概率和邊框回歸進(jìn)行聯(lián)合訓(xùn)練。

3系統(tǒng)設(shè)計(jì)

系統(tǒng)設(shè)計(jì)的目的是針對(duì)圖像識(shí)別算法在進(jìn)行圖像檢測(cè)時(shí)都會(huì)遇到圖像顯著性特征保留不完整的問題，基于深度學(xué)習(xí)的快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（Fast R-CNN）框架，對(duì)深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域中的不同處理方法及模型的發(fā)展進(jìn)行研究，從而得到相應(yīng)的目標(biāo)檢測(cè)模型。同時(shí)，針對(duì)不同的數(shù)據(jù)集都需要訓(xùn)練一個(gè)模型，根據(jù)任務(wù)是針對(duì)圖像分類模型或目標(biāo)檢測(cè)模型，每次都需要重新寫一次代碼來對(duì)不同的任務(wù)、不同的模型進(jìn)行推理預(yù)測(cè)，針對(duì)該問題，需要采用一個(gè)統(tǒng)一的系統(tǒng)來實(shí)現(xiàn)不同任務(wù)、不同模型的統(tǒng)一管理，以實(shí)現(xiàn)對(duì)推理模型的可視化預(yù)測(cè)，系統(tǒng)功能如圖2所示。因此，在使用的過程，把部署模型存放在對(duì)應(yīng)的任務(wù)模型默認(rèn)目錄即可，分別是圖像分類模型、目標(biāo)檢測(cè)模型和人臉分類模型。

在做圖像分類任務(wù)時(shí)，首先使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征，然后利用特征來預(yù)測(cè)分類的概率。根據(jù)訓(xùn)練樣本標(biāo)簽建立起分類損失函數(shù)，最后開啟端到端的訓(xùn)練，流程如圖3所示。結(jié)合圖片分類任務(wù)取得的成功經(jīng)驗(yàn)，可以將目標(biāo)檢測(cè)任務(wù)進(jìn)行拆分?；谏疃葘W(xué)習(xí)的Fast R-CNN模型，在輸入圖片上生成一系列可能包含物體的候選區(qū)域，然后可以把每個(gè)候選區(qū)域單獨(dú)當(dāng)成一幅圖像，使用圖像分類模型對(duì)它進(jìn)行分類．判斷它屬于哪個(gè)類別或者背景，從而實(shí)現(xiàn)目標(biāo)檢測(cè)任務(wù)，如圖det-model（目標(biāo)檢測(cè)模型）。

系統(tǒng)的UI設(shè)計(jì)使用的是Qt Designer。系統(tǒng)界面組成有：（1）兩個(gè)標(biāo)簽QLabel，用來顯示源圖像和預(yù)測(cè)結(jié)果后的目的圖像。為了讓界面能夠自適應(yīng)縮放，在適當(dāng)?shù)臅r(shí)候使用Horizontal Spacer和Vertical Spacer來撐起組件。（2）-個(gè)可編輯的文本框QTextEdit，用來存放文本信息。（3）數(shù)據(jù)源區(qū)由單選按鈕和錄像機(jī)的相關(guān)信息組成。（4）功能區(qū)包括圖像縮放、任務(wù)模型、預(yù)覽／預(yù)測(cè)、拍照、錄像、關(guān)閉等功能選項(xiàng)。系統(tǒng)的兩個(gè)資源文件包括：用來檢測(cè)人臉的OpenCV人臉級(jí)聯(lián)分類器xml文件，文件比較小，所以當(dāng)成資源文件打包，運(yùn)行程序時(shí)自動(dòng)釋放資源文件：程序啟動(dòng)的畫面圖像文件，用來讀取資源圖像。系統(tǒng)實(shí)現(xiàn)的關(guān)鍵代碼如下。

if self.isimg：

4系統(tǒng)實(shí)現(xiàn)

軟件開發(fā)環(huán)境使用Windows10系統(tǒng)，在學(xué)習(xí)人工智能深度學(xué)習(xí)時(shí)，因?yàn)榻?jīng)常需要訓(xùn)練模型，需要很強(qiáng)大的計(jì)算能力，這時(shí)僅依靠CPU是遠(yuǎn)遠(yuǎn)不夠的[6]。因此，在Windowsl0系統(tǒng)下安裝和配置好基于CUDA架構(gòu)的GPU編程環(huán)境，將在很大程度上提高實(shí)驗(yàn)效率。同時(shí)，開發(fā)環(huán)境選用VScode環(huán)境，編程語言為Python。深度學(xué)習(xí)框架有Pytorch和Tensorflow等，選用百度的PaddlePaddle飛槳框架，讓用戶更加方便快速地使用GPU來加速訓(xùn)練模型。安裝飛槳后，還需要安裝PaddleX。PaddleX是飛槳全流程開發(fā)工具，用戶可以十分方便地使用它。

深度學(xué)習(xí)是一個(gè)非常耗時(shí)的過程，隨著圖像數(shù)據(jù)集的增多，搭建一個(gè)性能良好的實(shí)驗(yàn)環(huán)境對(duì)提升學(xué)習(xí)效率很有幫助，系統(tǒng)選擇的硬件配置如表1所列。訓(xùn)練用時(shí)大約28 min（GPU環(huán)境），訓(xùn)練最后一輪的mAP達(dá)到86%以上，表明訓(xùn)練的效果較好。通過調(diào)整訓(xùn)練參數(shù)，還可以提高mAP的值。

系統(tǒng)對(duì)圖像目標(biāo)識(shí)別中要應(yīng)用的函數(shù)和方法進(jìn)行了實(shí)現(xiàn)。cls-model（圖像分類模型）的結(jié)果如圖4所示，它利用計(jì)算機(jī)對(duì)圖像進(jìn)行相應(yīng)的定量分析，把圖像或圖像中的每個(gè)元素或區(qū)域劃分為多個(gè)類別中的某一種，以代替人的視覺判讀。而det-model（目標(biāo)檢測(cè)模型）的結(jié)果如圖5所示，它的主要作用是讓計(jì)算機(jī)可以自動(dòng)識(shí)別圖片和視頻幀中所有目標(biāo)的類別，并在該目標(biāo)周圍繪制邊界框，標(biāo)示出目標(biāo)所在圖片中的位置。測(cè)試結(jié)果顯示，預(yù)測(cè)結(jié)果的準(zhǔn)確率較高，達(dá)到了預(yù)期目標(biāo)檢測(cè)的效果。

5結(jié)束語

本文圍繞圖像目標(biāo)檢測(cè)中存在的問題，對(duì)深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域中的不同處理方法及模型的發(fā)展進(jìn)行研究?；谏疃葘W(xué)習(xí)的快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)框架，使用相應(yīng)的目標(biāo)檢測(cè)模型，以及采用一個(gè)統(tǒng)一的系統(tǒng)來實(shí)現(xiàn)不同任務(wù)和不同模型的統(tǒng)一管理，實(shí)現(xiàn)對(duì)推理模型的可視化預(yù)測(cè)。系統(tǒng)測(cè)試結(jié)果表明，基于深度學(xué)習(xí)的圖像目標(biāo)檢測(cè)，可以從輸入的圖像或視頻判斷是否包含物體，并對(duì)檢測(cè)到的物體進(jìn)行分類和定位，在該目標(biāo)周圍繪制邊界框和標(biāo)示出每個(gè)目標(biāo)的位置，在眾多的實(shí)際應(yīng)用場(chǎng)景中擁有很高的應(yīng)用價(jià)值[7]。未來研究將完善深度學(xué)習(xí)的圖像數(shù)據(jù)訓(xùn)練集和驗(yàn)證集，以進(jìn)一步提高圖像目標(biāo)檢測(cè)與識(shí)別的準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學(xué)習(xí)的圖像目標(biāo)檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)