国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學習的多目標識別在移動智能體中的應用?

2020-07-13 12:48:14陳浩劉鎮(zhèn)
計算機與數(shù)字工程 2020年5期
關鍵詞:候選框節(jié)點模塊

陳浩 劉鎮(zhèn)

(江蘇科技大學計算機學院 鎮(zhèn)江 212000)

1 引言

在計算機視覺研究領域中多目標識別技術一直是一個熱門研究方向。在現(xiàn)有的目標檢測技術方面如人臉檢測、行人檢測等已經(jīng)有了非常成熟的應用方案。傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡的目標檢測技術都會使用到滑動窗口,例如R-CNN、Fast-RCNN、Faster-RCNN方法[1~3]。但這些方法難以滿足基于視頻的移動智能體的多目標實時檢測。由于滑動窗口弱實時性的缺點,研究者又提出了基于感興趣區(qū)域(Region of Interesting)的區(qū)域提名算法[4]。并且由于CNN在困難的識別任務中表現(xiàn)出的卓越性能,因此常被應用在檢測任務的FE和CV階段。雖然相比于滑動窗口法,基于該方法的視頻實時檢測速度大幅度提升。但目前性能最好的Faster R-CNN算法的檢測速度也僅達到5f/s,仍然不能夠滿足移動智能體的實時性需求。

直到 YOLO、SSD[5~7]的提出從另一個思維角度解決了候選區(qū)域選擇的問題,從此目標檢測的精確度和速度進入一個新的不同高度的研究領域。本文根據(jù)卷積神經(jīng)網(wǎng)絡在計算機視覺領域的研究,對部署在輕量級移動智能體上的YOLO網(wǎng)絡結構進行優(yōu)化,在實施環(huán)境中對該優(yōu)化方法進行真實測試,測驗結果表明優(yōu)化后的YOLO網(wǎng)絡結構在移動智能體多目標識別方面能夠提供較高的檢測準確度且檢測計算速度保證了在輕量級移動智能體端的實時性要求。

移動智能體的目標識別對準確率和實時性都有較高要求。而現(xiàn)有檢測方法大多數(shù)都是基于圖片的目標檢測,雖然能夠保證準確率,但檢測速度達不到視頻檢測的需求。由于YOLO算法具有強實時性和高準確率,因此運YOLO算法能夠解決實時性問題[8]。

2 識別方法

基于YOLO網(wǎng)絡的檢測方法將候選框提取、特征提取、目標分類、目標定位統(tǒng)一于一個神經(jīng)網(wǎng)絡中。神經(jīng)網(wǎng)絡[9]直接從圖像中提取候選區(qū)域,通過整幅圖像特征來預測行人位置和概率。將行人檢測問題轉化為回歸問題,真正實現(xiàn)端到端的檢測。

本文中的多目標識別主要是對移動智能體運動過程中采集的實時視頻,首先進行候選框提取,判斷其中是否包含障礙物,若有則給出目標位置。實際上,大部分的初始候選框中并不包含障礙物,如果對每個初始候選框都直接預測目標的概率,會大大增加網(wǎng)絡學習的難度。在本文的識別方法中,將多目標識別分為3個過程,即初始候選框的提取、待測目標檢測、目標障礙物檢測與定位。在待測目標檢測的過程中,將部分無障礙物體預測框的置信度置為0,以降低網(wǎng)絡學習的難度。

2.1 初始候選框的提取

將輸入的圖像劃分為N×N個單元格,每個單元格給定M個不同規(guī)格的初始候選框,預測候選框經(jīng)由卷積層網(wǎng)絡提取出來,每幅圖像候選框數(shù)量為N×N×M 。

2.2 待測目標檢測

首先對候選框進行目標檢測,如式(1),預測每個候選框的中存在待判別目標的置信度Conf(target),將不存在目標物的候選框置信度置為0。

P(target)表示是否有目標物落入候選框對應的單元格中。如式(2),若有目標,則單元格對應的候選框的目標置信度為Conf(target)=;否則,認定候選框中沒有目標障礙物,即Conf(target)=0。

2.3 目標障礙物檢測與定位

對存在目標障礙物的候選框進行目標判別,設預測目標物是某一類障礙物的條件概率為P(class|target),則候選框中包含該類障礙物的置信度Conf 如式(4):

對每個候選框預測其中包含該類障礙物的概率以及邊框的位置,則每個候選框的預測值如式(5):

其中X、Y為預測框中心相對于單元格邊界的偏移,W、H為預測框寬高相對于整幅圖像之比。實際訓練過程中,W和H的值使用圖像的寬度和高度進行歸一化到[0,1]區(qū)間內。對于輸入的每幅圖片,最終網(wǎng)絡輸出為向量如式(6):

3 改進網(wǎng)絡架構

3.1 架構改進分析

由于考慮到實際移動智能體的拍攝角度以及應用場景,經(jīng)過分析與觀察,橫向的小目標的精確識別至關重要,需要確保不能漏檢,否則會出現(xiàn)行動判斷錯誤的風險。在經(jīng)典的YOLO檢測方法中,圖像被分成S×S的等密度單元格。候選框在橫向和縱向上同等密度分布,對橫向小目標進行檢測時,漏檢率較高。實際上,在移動過程中對障礙物的檢測一定要對橫向可能存在的障礙物進行準確檢測,而且具有橫向類別分布密度大,但縱向類別分布密度小的特征。

針對這一問題,本文網(wǎng)絡以YOLO網(wǎng)絡為原型,經(jīng)過改進去掉全連接層,采用卷積層來預測目標框的偏移和置信度。對特征圖中的每個位置預測這些偏移和置信度,以得到目標的概率和位置。并且提出在網(wǎng)絡中增加一個Recombine層,重組特征圖,為提高對小目標的檢測,融合多級特征圖,讓不同細粒度的特征參與目標檢測。并在原有網(wǎng)絡架構基礎上增加候選框在橫向的密度,同時也減少了縱向候選框密度,構成改進后的YOLO網(wǎng)絡(如圖1所示)。

圖1 改進后的網(wǎng)絡架構圖

3.2 最優(yōu)初始候選框

由于在訓練網(wǎng)絡時,需要對初始候選框的初始規(guī)格及數(shù)量進行預設。隨著迭代次數(shù)的不斷增加,網(wǎng)絡學習到目標特征,預測框參數(shù)不斷調整,最終接近真實框。為加快訓練收斂速度,提高目標識別的位置精度,本文采用K-means算法進行聚類[10~11],得到與圖像中待測目標邊界最相近的初始候選框參數(shù)。

定義box[i]表示聚類得到的預測框i的規(guī)格,Truth[j]表示樣本j中目標物定位框規(guī)格,如式(7),其中,i為聚類的類別數(shù),j為樣本集數(shù)量。規(guī)格在數(shù)值上表示為一組數(shù)值(預測框寬/圖像寬,預測框高/圖像高):

K-means算法是很典型的基于距離的聚類算法,該方法采用歐式距離衡量兩點之間的距離。本文對候選框寬高與單元格寬高之比進行聚類。預測框和真實框的交并比是反映預測框與真實框差異的重要指標,IOU值越大,表明兩者差異越小。聚類的目標函數(shù)如式(8):

3.3 網(wǎng)絡訓練

網(wǎng)絡訓練以神經(jīng)網(wǎng)絡框架 Keras[12~13]為基礎,以改進后的YOLO網(wǎng)絡結構為模型,訓練多目標識別深度學習模型。對于深度學習而言[14~17],在訓練過程中,為防止欠擬合,不僅僅需要大量的數(shù)據(jù)集做支撐,而且也需要保證數(shù)據(jù)集具有代表性,再經(jīng)過反復訓練后求解出合理的網(wǎng)絡權重,再經(jīng)過測試集來驗證訓練模型的準確度。本文根據(jù)實際平臺環(huán)境以Microsoft-COCO數(shù)據(jù)集作為訓練和測試數(shù)據(jù)集。Microsoft-COCO是一個大型的、豐富的物體檢測數(shù)據(jù)集,該數(shù)據(jù)集包含330K圖像、80個對象類別、每幅圖像有5個標簽、25萬個關鍵點。

4 系統(tǒng)節(jié)點交互機制

4.1 ROS機器人操作系統(tǒng)

ROS(機器人操作系統(tǒng))是一種分布式處理框架[18~20]。這使可執(zhí)行文件能單獨設計,并且在運行時松散耦合。這些過程可以封裝到數(shù)據(jù)包和堆棧中,以便于共享和分發(fā)。ROS還支持代碼庫的聯(lián)合系統(tǒng)。使得協(xié)作亦能被分發(fā)。這種從文件系統(tǒng)級別到社區(qū)一級的設計讓獨立地決定發(fā)展和實施工作成為可能。ROS的運行架構是一種使用ROS通信節(jié)點實現(xiàn)節(jié)點間P2P的松耦合的網(wǎng)絡連接的處理架構,它執(zhí)行若干種類型的通訊,包括基于服務的同步RPC(遠程過程調用)通訊、基于Topic的異步數(shù)據(jù)流通訊,還有參數(shù)服務器上的數(shù)據(jù)存儲。ROS的這種分布式的消息分發(fā)架構很好地解決了本文中各個節(jié)點模塊之間數(shù)據(jù)交互的問題,不僅達到了模塊間的相互通信,而且可以認為監(jiān)視各個節(jié)點的運行狀態(tài),可以輕松獲得各個節(jié)點發(fā)布的及時數(shù)據(jù),安全性和可改進性大大提高。

4.1.1 Topic機制模型

如圖2所示,節(jié)點與節(jié)點之間的連接是直接的,控制器僅僅提供了查詢信息,類似一個DNS服務器。Listener節(jié)點訂閱一個Topic將會要求建立一個與已發(fā)布的Talker節(jié)點的連接,并且將會在同意連接協(xié)議的基礎上建立該連接。

圖2 ROS消息發(fā)布與訂閱模型圖

Topic以一種發(fā)布/訂閱的方式傳遞,一個節(jié)點可以在一個給定的Topic中發(fā)布消息,一個節(jié)點針對某個Topic關注與訂閱特定類型的數(shù)據(jù),可能同時有多個節(jié)點發(fā)布或者訂閱同一個Topic的消息,如圖3所示,用于實現(xiàn)數(shù)據(jù)的實時共享。

圖3 多節(jié)點Topic模型圖

4.1.2 Service機制模型

如圖4所示,基于Topic的發(fā)布/訂閱模型是很靈活的通訊模式,但是它廣播式的路徑規(guī)劃對于可以簡化節(jié)點設計的同步傳輸模式并不適合。在ROS中,還有一種Service通信模型,用一個字符串和一對嚴格規(guī)范的消息定義:一個用于請求,一個用于回應。類似于web服務器。

圖4 ROS服務請求與相應模型

4.2 系統(tǒng)節(jié)點交互設計

本文中整個移動智能體的通信與數(shù)據(jù)交互系統(tǒng)采用ROS,如圖5所示,系統(tǒng)分為視頻采集模塊、預處理模塊、目標識別與推理模塊、綜合分析與處理模塊、移動控制模塊、數(shù)據(jù)監(jiān)測模塊。各個模塊中又分為小的節(jié)點,多節(jié)點之間需要共享的數(shù)據(jù)采用ROS-Topic機制進行數(shù)據(jù)交互,而對于需要進行點對點特殊數(shù)據(jù)交互的節(jié)點之間采用ROS-Service機制進行數(shù)據(jù)交互。

圖5 系統(tǒng)模塊節(jié)點交互圖

視頻采集模塊:通過移動智能體端搭載的攝像頭進行移動過程中的實時視頻采集,由于對視頻清晰度要求不高,而且為了保證多目標識別的實時性要求,適當對分辨率進行了調整,滿足后續(xù)處理要求。

孩子的個性不同,所處的年齡階段不同,對父母的需求不同,良好親子關系的格式也會有所不同。良好的親子關系表現(xiàn)為依戀不依賴,理性不冷漠。父母需要很好地回應并引導孩子,使親子之間和而不同,保持一種有彈性的融洽關系。

預處理模塊:該模塊主要對采集來的視頻幀進行處理,主要為了滿足目標識別與推理模塊對圖像輸入尺寸的要求。

目標識別與推理模塊:本文中優(yōu)化后的YOLO網(wǎng)絡模型,通過大量數(shù)據(jù)集的訓練,具備識別多種目標障礙物的能力,準確度與識別速度經(jīng)過測試均達到移動端的實時識別需求。通過與預處理的視頻幀輸入訓練好的網(wǎng)絡后,對目標進行識別標注,將視頻數(shù)據(jù)、目標類別、目標位置等信息以Topic發(fā)布者方式共享數(shù)據(jù)。

綜合分析與處理模塊:首先,該模塊以Topic訂閱者的方式獲取目標類別與位置信息,經(jīng)過路徑算法實時計算分析,以Topic服務者方式給出移動智能體的運動建議數(shù)據(jù),數(shù)據(jù)包含角速度、線速度、傳感器數(shù)據(jù)等。

移動控制模塊:通過ROS請求綜合分析與處理模塊,以角速度、線速度、傳感器數(shù)據(jù)等變量獲取對應服務數(shù)據(jù),將數(shù)據(jù)信息轉換為移動控制平臺個傳感器的執(zhí)行數(shù)據(jù),并且由傳感器獲取的現(xiàn)場數(shù)據(jù)以及運行數(shù)據(jù)通過Topic發(fā)布,供數(shù)據(jù)監(jiān)視模塊訂閱。

數(shù)據(jù)監(jiān)測模塊:該模塊主要在遠程對視頻及數(shù)據(jù)進行監(jiān)控,該模塊可以獲取所有節(jié)點的數(shù)據(jù),對整個系統(tǒng)進行數(shù)據(jù)記錄與分析,對系統(tǒng)性能檢測以及改進有重要意義,也可以通過發(fā)布Topic命令直接對其他模塊節(jié)點進行控制。

5 實驗結果及分析

5.1 最優(yōu)初始候選框數(shù)量驗證

為了選取最優(yōu)的初始候選框數(shù)量,驗證其對多目標識別深度學習模型的影響,以Microsoft-COCO數(shù)據(jù)集作為訓練和測試數(shù)據(jù),用改進后的網(wǎng)絡訓練深度學習模型。以Precision-Recall曲線作為最終評估指標,得到最優(yōu)初始候選框數(shù)量。

確保每次實驗因素只有初始候選框的數(shù)量不同,每組實驗均采用改進后的YOLO網(wǎng)絡訓練識別器,訓練測試數(shù)據(jù)均采用Microsoft-COCO數(shù)據(jù)集。

聚類類別數(shù)量B分別設置為4、5、6、7四種規(guī)格。

圖6 候選框數(shù)量Precision-Recall曲線圖

測試結果如圖所示,以類別平均準確率作為縱坐標,以查全率做為橫坐標。評估每組實驗的有效性。由圖6結果可以看出在Microsoft-COCO數(shù)據(jù)集的基礎上初始候選框B=5時,訓練得到的識別器的識別效果最好。

5.2 改進后網(wǎng)絡效果驗證

圖7 改進后的YOLO網(wǎng)絡對比

本文中對YOLO網(wǎng)絡進行改進,增加了橫向候選框密度,為驗證其有效性,以Microsoft-COCO數(shù)據(jù)集為實驗數(shù)據(jù),對修改前后的網(wǎng)絡結構所訓練出來的識別模型進行分析比較。由圖7得出,改進后的網(wǎng)絡在相同數(shù)據(jù)集條件下訓練出的識別器表現(xiàn)出相對較好的效果。

5.3 實驗結果

5.3.1 實驗平臺

硬件平臺:

Intel(R)Core(TM)CPU 3.4GHz

NVIDIA Tesla k40c GPU計算卡

NVIDIA Jetson TX1 GPU開發(fā)平臺

Arduino Mega2560主控開發(fā)板

軟件環(huán)境:

Ubuntu 14.04

CUDA 8.0

OpenCV

TensorFlow

5.3.2 實際效果

由圖8看出,在測試和實際應用中均實現(xiàn)了穩(wěn)定的多目標識別功能,對于小目標識別也有良好的效果。但由于移動端GPU性能的問題,導致處理視頻幀率偏低,經(jīng)過分析,將視頻采集模塊的攝像頭分辨率調低至480*320,并將整個網(wǎng)絡的輸入圖像大小調節(jié)為320*320,同樣的對于320*320的輸入圖像尺寸進行針對訓練,最終基本滿足實時性要求。

圖8 測試及實際效果圖

6 結語

本文結合實際應用中存在的問題,分析移動智能體在多目標識別方面的需求,對YOLO網(wǎng)絡模型進行改進,以確保提高橫向小目標的識別率,避免因為小目標的漏檢造成后續(xù)流程的錯誤。并且針對開發(fā)平臺上識別器的效率進行優(yōu)化,經(jīng)過實驗分析,改進后的整體系統(tǒng)基本達到識別的實時性和精確性要求。

猜你喜歡
候選框節(jié)點模塊
CM節(jié)點控制在船舶上的應用
重定位非極大值抑制算法
28通道收發(fā)處理模塊設計
“選修3—3”模塊的復習備考
面向自然場景文本檢測的改進NMS算法
Analysis of the characteristics of electronic equipment usage distance for common users
基于Soft-NMS的候選框去冗余加速器設計*
基于AutoCAD的門窗節(jié)點圖快速構建
一種針對特定目標的提議算法
選修6 第三模塊 International Relationships
昭苏县| 陵水| 曲水县| 祁门县| 合阳县| 西林县| 吉隆县| 兴安县| 泗阳县| 航空| 东方市| 开原市| 柘城县| 四平市| 胶南市| 长武县| 顺平县| 临汾市| 娄底市| 临澧县| 沅陵县| 巴东县| 岳阳县| 张家界市| 汉川市| 宜兴市| 张北县| 纳雍县| 青冈县| 大姚县| 龙海市| 汉源县| 江阴市| 阿图什市| 桑植县| 泸西县| 开原市| 株洲县| 雅江县| 绥德县| 嘉义市|