国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于YOLOv3與ResNet50的攝影機器人人臉識別跟蹤系統(tǒng)

2020-04-23 11:18凱,祖莉,歐
計算機與現(xiàn)代化 2020年4期
關(guān)鍵詞:集上人臉人臉識別

陳 凱,祖 莉,歐 屹

(南京理工大學(xué)機械工程學(xué)院,江蘇 南京 210094)

0 引 言

虛擬演播室是近年來迅速發(fā)展起來的一種獨特的電視節(jié)目制作技術(shù),它的實質(zhì)是將計算機制作的虛擬三維場景與攝像機現(xiàn)場拍攝的人物活動圖像進行數(shù)字化的實時合成,使人物與虛擬背景能夠同步變化,基于此能夠以最小成本開發(fā)出各種拍攝環(huán)境,從而滿足觀眾的視覺要求[1]。

人臉識別技術(shù)隨著機器視覺理論的完善、計算機性能的提升,也同樣在近些年迅速發(fā)展,并在某些領(lǐng)域已有較為廣泛的應(yīng)用。而將人臉識別技術(shù)與虛擬演播室技術(shù)相結(jié)合,提出一種能夠?qū)θ四樧詣幼R別并進行追蹤的攝影機器人,這將徹底解放攝影師,且攝影機器人的鏡頭跟蹤相比于攝影師具備更高的畫面與速度穩(wěn)定性。同時,人臉識別技術(shù)將使得攝影機器人在面臨多個人時,仍然具備對所需目標(biāo)跟蹤的能力,使得在單攝像機的情況下仍然能完成直播任務(wù)。

目前,傳統(tǒng)的人臉識別算法有幾何特征分析法(Geometry Feature Analysis)、特征臉(Eigenface)、彈性匹配(Elastic Matching)、局部特征分析(Local Feature Analysis)等[2],這些算法利用SIFT、HOG、LBP等描述子來表征人臉進而進行人臉識別[3-5]。然而,在虛擬演播室內(nèi),光照條件復(fù)雜,加上主持人工作時必要的移動與頭部的一定角度轉(zhuǎn)動,會出現(xiàn)部分人臉遮擋和陰影的情況。此時,傳統(tǒng)算法精度大大降低,攝影機器人將出現(xiàn)目標(biāo)丟失或預(yù)測錯誤的情況,從而影響攝影機器人的正常工作。

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),它的神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的神經(jīng)元,并保存了問題的空間結(jié)構(gòu),在計算機視覺領(lǐng)域具有出色的表現(xiàn)[6]。它隨著層數(shù)的加深,層所提取的特征將越來越抽象。更高的層激活包含關(guān)于特定輸入的信息越來越少,而關(guān)于目標(biāo)的信息越來越多,根據(jù)這些信息神經(jīng)網(wǎng)絡(luò)完成對目標(biāo)的識別[7]。

然而,在虛擬演播室內(nèi),人臉識別神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要主持人與其他人物的大量圖片,更關(guān)鍵的是,除主持人固定外,其他人物都具有很高的流動性,需要完成的人臉識別任務(wù)其實能夠抽象為測試集,即為開放集的識別任務(wù)。而對于開放集的人臉識別任務(wù),被測試的人臉身份通常并不包含在訓(xùn)練集中,這使得識別任務(wù)更具挑戰(zhàn)性。開放集人臉識別本質(zhì)上是一個距離學(xué)習(xí)的問題,而解決這個問題最關(guān)鍵的是使得模型能夠?qū)W習(xí)到具有較大區(qū)別性的邊緣特征[8]。Wen等[9]提出了一種用于深度人臉識別的有判別力的特征學(xué)習(xí)方法,通過構(gòu)造損失函數(shù)提高類間區(qū)分,增加類內(nèi)緊湊性;Liu等[10]提出了A-Softmax損失使得模型學(xué)習(xí)到的特征最大類內(nèi)距離小于最小類間距離,增強特征在開放集上的區(qū)別能力;Deng等[11]提出了一種累積角邊緣損失并在許多人臉識別標(biāo)準上獲得最佳成績。這些學(xué)者通過對損失函數(shù)的研究,大大推進了在開放集上人臉識別精度的提升。此外,GoogLeNet與ResNet等框架的提出[12-13],進一步探索了深度學(xué)習(xí)網(wǎng)絡(luò)框架走向更深的可能,為人臉識別的高精度實現(xiàn)提供了更加優(yōu)秀的實現(xiàn)框架。

基于前人的以上研究,本文提出一個攝影機器人的人臉識別系統(tǒng),利用CASIA-FaceV5與PubFig數(shù)據(jù)集構(gòu)建主持人的正負樣本集,大大提高了在開放集上的模型訓(xùn)練的樣本量,同時構(gòu)建二分類模型,基于ResNet50網(wǎng)絡(luò)完成聯(lián)合監(jiān)督模型的訓(xùn)練,在不增加模型復(fù)雜度的情況下,使得模型充分學(xué)習(xí)開放集上的特征;通過快速目標(biāo)檢測算法YOLOv3檢測鏡頭內(nèi)人臉,并輸入人臉識別預(yù)測模型進行人臉識別;返回目標(biāo)人臉坐標(biāo),通過云臺控制實現(xiàn)目標(biāo)人臉的實時跟蹤。

1 數(shù)據(jù)的獲取與預(yù)處理

在虛擬演播室下,攝影機器人的人臉識別主要分為2個部分:人臉檢測與人臉識別。本文提出的算法通過YOLOv3算法完成人臉檢測,構(gòu)建ResNet50聯(lián)合監(jiān)督模型實現(xiàn)人臉識別。其中,YOLOv3人臉檢測模型在Wider-Face數(shù)據(jù)集上完成訓(xùn)練,而人臉識別模型的訓(xùn)練需要基于特定的主持人目標(biāo)。基于預(yù)訓(xùn)練的Siamese網(wǎng)絡(luò)即可通過One-Shot學(xué)習(xí)使得模型學(xué)習(xí)到主持人的判別性特征[14]。但是,為使得模型在開放集上也能擁有優(yōu)異的識別能力,本文構(gòu)造ResNet50聯(lián)合監(jiān)督模型,并在主持人樣本集上完成訓(xùn)練。本章主要介紹人臉識別模塊訓(xùn)練集的采集與預(yù)處理。

1.1 主持人圖片采集

深度模型的訓(xùn)練需要大量數(shù)據(jù),且數(shù)據(jù)不能具備較大的相似性。本文中,主持人的圖片采集采用視頻采集的方法,在多個場景每0.2 s對視頻中主持人臉進行采集。同時,考慮到虛擬演播室內(nèi)光照的復(fù)雜條件,每次采集主持人臉的同時對圖片的對比度與亮度進行隨機調(diào)整,如圖1所示。主持人樣本集共采集6000幅圖片,這里需要指出的是,為防止模型訓(xùn)練在某些特征上的權(quán)重過大(例如眼鏡的特征),在樣本集的采集中應(yīng)該存在部分沒有佩戴眼鏡的照片,以防止模型對目標(biāo)的識別過分依賴眼鏡這種外部特征。

圖1 主持人樣本采集

1.2 樣本集構(gòu)造

本文將主持人的人臉識別轉(zhuǎn)化為二分類問題,構(gòu)建主持人臉集為正樣本集,嘉賓人臉集為負樣本集,通過0、1標(biāo)簽完成對模型的監(jiān)督,簡化模型訓(xùn)練,如圖2所示。

圖2 模型訓(xùn)練過程

圖2中,負樣本嘉賓的數(shù)據(jù)由于流動性大,不易收集。本文利用哥倫比亞大學(xué)公眾人物臉部數(shù)據(jù)庫(Public Figures Face Database, PubFig)[15]與亞洲人臉數(shù)據(jù)集(CASIA-FaceV5)進行負樣本提取。PubFig數(shù)據(jù)集包含200位公眾人物共58797幅圖片,CASIA-FaceV5數(shù)據(jù)集包含500個人的2500幅亞洲人臉圖片。2個數(shù)據(jù)集共取6000幅圖片構(gòu)成負樣本集,如圖3所示,最大化豐富負樣本集上樣本量,提升模型訓(xùn)練效果。

(a) Public Figures Face Database

(b) CASIA-FaceV5

1.3 數(shù)據(jù)預(yù)處理

人臉圖像若不經(jīng)預(yù)處理直接輸入模型進行訓(xùn)練,一些不相關(guān)數(shù)據(jù)或噪音會對網(wǎng)絡(luò)訓(xùn)練造成消極影響,可能導(dǎo)致網(wǎng)絡(luò)不收斂。因此還需要對人臉圖像進行人臉對齊與歸一化等處理,增強圖像中的人臉信息[16]。

本文通過dlib庫提取人臉眼眶特征點,并據(jù)此求得左右眼中心位置(xl,yl)(xr,yr),如圖4(a)所示。根據(jù)兩眼中心位置,確定圖片偏轉(zhuǎn)角度α,計算公式如下:

(1)

利用仿射變換旋轉(zhuǎn)圖片,完成圖片歸一化處理,轉(zhuǎn)換公式如下:

(2)

最終,完成樣本集中樣本圖片的歸一化處理,歸一化前后樣本圖片如圖4所示。

(a) 歸一化前 (b) 歸一化后

2 算法實現(xiàn)

2.1 基于YOLOv3人臉檢測

YOLO(You Only Look Once)是現(xiàn)如今最先進的目標(biāo)檢測算法之一[17]。YOLO識別速度快、精度高,且其端對端的訓(xùn)練方式與預(yù)測手段使其具備較高的靈活性,適用于實際工程應(yīng)用。YOLOv3是YOLO的最新版本,DarkNet-53網(wǎng)絡(luò)結(jié)構(gòu)在保證YOLO檢測實時性的同時,通過加深網(wǎng)絡(luò)結(jié)構(gòu)進一步提高了YOLOv3的識別精度[18]。本文以YOLOv3作為人臉檢測模塊的基本框架,并基于Wider-Face數(shù)據(jù)集完成模型訓(xùn)練。

本文采用的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。輸入圖片首先經(jīng)過一個沒有全連接層的DarkNet-53網(wǎng)絡(luò),對輸入圖片進行特征提取。然后對特征圖分別進行2次上采樣與張量拼接,最終得到3個不同尺度上的輸出y1、y2、y3。利用多尺度對不同尺寸的目標(biāo)進行人臉檢測,即使目標(biāo)人臉很小也能成功檢測,提高了預(yù)測精度。

圖5 YOLOv3網(wǎng)絡(luò)框架

本文對邊界框的預(yù)測采用維度聚類設(shè)定模板框,通過網(wǎng)絡(luò)預(yù)測相關(guān)變量(tx,ty,tw,th),則邊界框中心點坐標(biāo)與邊界框的寬與高分別為:

(3)

其中,(cx,cy)為網(wǎng)格偏移圖片左上角的位置坐標(biāo),pw、ph為模板框的寬與高,如圖6所示。

圖6 YOLOv3邊界框預(yù)測

邊界框預(yù)測在訓(xùn)練期間采用平方和誤差損失進行監(jiān)督訓(xùn)練。輸出邊界框后,采用Logistic回歸對框內(nèi)部分進行目標(biāo)性打分,根據(jù)分值選取得分最高的模板框進行預(yù)測,節(jié)省計算時間。

模型在Wider-Face數(shù)據(jù)集完成訓(xùn)練,訓(xùn)練過程中目標(biāo)類別、置信度與目標(biāo)位置中心坐標(biāo)采用均二值交叉熵(binary_crossentropy)進行監(jiān)督,計算公式如下:

(4)

2.2 基于ResNet50的聯(lián)合監(jiān)督模型

基于YOLOv3完成人臉檢測后,需要進行人臉識別確定目標(biāo)人臉身份,即目標(biāo)是主持人還是非主持人。由于在實際工程中,并非每個人臉都能出現(xiàn)在訓(xùn)練集中,即攝影機器人的人臉識別是一個開放集上的人臉識別問題,其本質(zhì)為度量學(xué)習(xí)。本文以ResNet50為基本框架并對其進行改進,采用Softmax損失與中心損失(Center Loss)對訓(xùn)練過程進行聯(lián)合監(jiān)督,使得模型的識別具備較高類間可分性與類內(nèi)緊湊性。

Softmax損失如公式(5)所示:

(5)

其中,xi∈Rd表示第i個深度特征,屬于第yi個類別。Wj∈Rd表示最后一層全連接層的權(quán)重W∈Rd×n的第j列,b∈Rn表示偏置項。m與n分別表示最小批量與類別個數(shù)。在Softmax損失函數(shù)監(jiān)督下,學(xué)習(xí)到的特征可分,但是仍會表現(xiàn)出較大的類內(nèi)差異。而通過定義一個中心損失函數(shù),在保持不同特征可分離的同時最小化類內(nèi)變化,從而提升類間可分性。定義中心損失函數(shù)如下:

(6)

其中,cyi表示深度特征的第yi個類別中心,它隨著深度特征的變化而更新。然而,如果考慮整個訓(xùn)練集在每次迭代中更新特征中心,這將增加大量計算且不易實現(xiàn)。本文基于小批量執(zhí)行中心特征的更新,在每次迭代中,中心特征由相應(yīng)類的深度特征平均值計算得到。此外,為避免少數(shù)錯誤樣本導(dǎo)致的中心特征波動,設(shè)定標(biāo)量α控制其學(xué)習(xí)率。綜合中心損失與Softmax函數(shù)可得總的損失函數(shù)如公式(7)所示:

L=LS+λLC

(7)

其中,標(biāo)量λ(0<λ<1)表示中心損失參數(shù),用來調(diào)節(jié)2種損失函數(shù)在總的損失函數(shù)中所占權(quán)重。如果僅使用Softmax損失函數(shù)監(jiān)督訓(xùn)練,則深度學(xué)習(xí)得到的特征將包含大量的類內(nèi)變化;若僅使用中心損失監(jiān)督訓(xùn)練,所學(xué)到的特征與中心將退化為0[9]。因此,將兩者結(jié)合共同完成對神經(jīng)網(wǎng)絡(luò)的監(jiān)督訓(xùn)練是非常必要的,尤其是對于開放集上的人臉識別問題。

本文在ResNet50基本框架下,對結(jié)構(gòu)進行改進,并通過Softmax損失與中心損失聯(lián)合監(jiān)督完成訓(xùn)練,如圖7所示。為提高識別速度,改進ResNet50輸入結(jié)構(gòu)為(64,64,3),保留ResNet50卷積層所獲得圖像特征,外接3個全連接層,通過訓(xùn)練全連接層的參數(shù)完成主持人與非主持人的目標(biāo)識別。

圖7 基于ResNet50的聯(lián)合監(jiān)督模型

2.3 模型改進

ResNet50通過殘差連接構(gòu)造出深度神經(jīng)網(wǎng)絡(luò),能夠避免深度連接導(dǎo)致的梯度消失與梯度爆炸。批標(biāo)準化(Batch Normalization)是另一種有助于梯度傳播的層類型,它在訓(xùn)練過程中內(nèi)部保存已讀取每批數(shù)據(jù)均值和方差的指數(shù)移動平均值,使得即使在訓(xùn)練過程中均值和方差隨時間發(fā)生變化,依然可以適應(yīng)性地將特征數(shù)據(jù)標(biāo)準化[19]。本文利用批標(biāo)準化對全連接層的特征進行標(biāo)準化處理,進一步改進模型結(jié)構(gòu),如圖8所示。

圖8 批標(biāo)準化

網(wǎng)絡(luò)結(jié)構(gòu)基于Python的Tensorflow庫實現(xiàn),正負樣本集各有5000個樣本,驗證集有2000個樣本。訓(xùn)練過程中,為防止過擬合,本文采用L2正則化與數(shù)據(jù)增強[20]。數(shù)據(jù)增強主要采用圖像翻轉(zhuǎn)、裁剪、縮放與添加噪聲等方式,效果如圖9所示。通過大量實驗,本文確定最佳batch為64,每次訓(xùn)練為10個epoch。

(a) 原圖 (b) 添加高斯噪聲 (c) 翻轉(zhuǎn) (d) 放大+翻轉(zhuǎn) (e) 縮小圖9 樣本數(shù)據(jù)增強

3 實驗與結(jié)果分析

3.1 實驗配置

本實驗中硬件配置為GTX-1080Ti GPU,軟件配置為Tensorflow深度學(xué)習(xí)框架和CUDA9.2GPU并行計算庫。

3.2 算法實現(xiàn)與評估

第2章中,完成了人臉檢測與識別模型的搭建與訓(xùn)練,模型在2000個樣本的測試集上預(yù)測精度達到99.95%。但是,在實際的拍攝過程中,由于光照環(huán)境的不同,實際精度與測試集精度存在必然差異。將人臉識別網(wǎng)絡(luò)嵌入YOLOv3,通過攝像機對主持人目標(biāo)進行實時識別,結(jié)果如圖10所示。

圖10 YOLOv3+ResNet50人臉識別

觀察圖10可以發(fā)現(xiàn),主持人臉在一定角度內(nèi)轉(zhuǎn)動時,該算法仍能有較好的識別性能。為排除識別網(wǎng)絡(luò)可能學(xué)到的眼鏡的外部特征,在不佩戴眼鏡的情況下進行測試,可以發(fā)現(xiàn)識別網(wǎng)絡(luò)仍能對主持人正確識別。當(dāng)對人臉有較大面積遮擋或人臉有大角度轉(zhuǎn)移時,YOLOv3正確檢測到了人臉,但是ResNet50人臉識別網(wǎng)絡(luò)沒有正確識別,即此時一些作為識別依據(jù)的關(guān)鍵特征被遮擋,這也從側(cè)面驗證了網(wǎng)絡(luò)學(xué)習(xí)到了有效特征。為進一步對該算法進行評估,利用HOG+SVM進行人臉檢測[21],并同樣以本文建立的ResNet50人臉識別網(wǎng)絡(luò)進行主持人面部識別,結(jié)果如圖11所示。

圖11 HOG+SVM人臉檢測+ResNet50人臉識別

由圖11可以發(fā)現(xiàn),以HOG+SVM人臉檢測為基礎(chǔ)的ResNet50人臉識別,大體能實現(xiàn)主持人的面部識別;但當(dāng)主持人面部具有部分遮擋,輕微轉(zhuǎn)動時,HOG+SVM并沒有正確檢測到人臉,即沒有給識別網(wǎng)絡(luò)提供人臉圖片,預(yù)測失??;由于虛擬演播室內(nèi)人臉識別可以抽象為開放集上的人臉識別,故這里選擇一位沒有出現(xiàn)在訓(xùn)練集的嘉賓進行預(yù)測,可以發(fā)現(xiàn)本文構(gòu)建的人臉識別模型在開放集上測試同樣有較好的預(yù)測精度。

基于OpenFace[22]的人臉識別開源項目face_recognition通過預(yù)訓(xùn)練的網(wǎng)絡(luò)生成人臉128個測量值,并基于此外接一個簡單的SVM分類器實現(xiàn)One-Shot學(xué)習(xí)的人臉識別,結(jié)果如圖12所示。

圖12 face_recognition人臉識別

觀察圖12可得,face_recognition具備較好的人臉識別能力且在人臉具有一定角度轉(zhuǎn)動時,仍具備較魯棒的識別性能。但是,當(dāng)選擇一位沒有在訓(xùn)練集中出現(xiàn)的嘉賓進行判斷時,該算法沒能正確識別??梢园l(fā)現(xiàn),face_recognition雖然能夠通過一幅主持人照片使得模型學(xué)習(xí)到辨別人臉的能力,但是當(dāng)對不屬于訓(xùn)練集中的人臉進行判別時,模型預(yù)測精度不高。

在虛擬演播室內(nèi),為實時地對目標(biāo)進行跟蹤,攝影機器人對人臉的識別通常需要更低的時間成本。通過比較上文所提的3種算法處理一幀圖片的時間成本來對它們進行進一步的比較分析,如圖13所示。

(a) YOLOv3人臉檢測+ResNet50人臉識別

(b) HOG+SVM人臉檢測+ResNet50人臉識別

(c) 基于face_recognition人臉檢測和人臉識別圖13 各算法人臉識別時間成本比較

分析圖13可以發(fā)現(xiàn),本文提出的YOLOv3+ResNet50算法能夠在GTX-1080Ti GPU上達到17 fps的識別速度,其中,ResNet50識別網(wǎng)絡(luò)的時間成本僅為YOLOv3人臉檢測的四分之一,整個識別過程的時間成本能夠基本滿足攝影機器人的實時性要求;HOG+SVM+ResNet50算法在GTX-1080Ti GPU上達到14 fps的識別速度,前者比它識別速度快20%;face_recognition同樣采用HOG特征進行人臉檢測,并通過生成嵌入特征進行人臉識別,計算時間相對較長。綜合比較可以發(fā)現(xiàn),本文所提算法具有相對較低的計算時間。為進一步加快整個算法的識別速度,可以將人臉檢測與人臉識別分別置于2個GPU上計算。

通過本節(jié)對3種算法精度與速度的比較,可以發(fā)現(xiàn),YOLOv3+ResNet50有著能夠滿足攝影機器人拍攝條件的識別精度與實時性要求,且在開放集上測試仍具有較高的魯棒性。

4 攝影機器人目標(biāo)跟蹤系統(tǒng)

4.1 攝影機器人

攝影機器人由攝影機、云臺、升降系統(tǒng)、控制系統(tǒng)與移動底盤組成,如圖14所示。

圖14 攝影機器人

攝影機器人對主持人的目標(biāo)跟蹤主要由小云臺實現(xiàn)。小云臺主要由外觀殼體、相機支撐結(jié)構(gòu)與減速器組成,如圖15所示。殼體與升降系統(tǒng)相連,控制攝影機在水平方向轉(zhuǎn)動;相機支撐結(jié)構(gòu)直接與相機固連,控制攝影機在垂直方向轉(zhuǎn)動。殼體與相機支撐結(jié)構(gòu)分別由2個電機控制,上位機通過串口對電機發(fā)送指令實現(xiàn)小云臺的水平與垂直方向的運動。

圖15 小云臺結(jié)構(gòu)

4.2 目標(biāo)跟蹤控制算法

在對主持人進行跟蹤時,小云臺通過人臉識別模型返回的二維坐標(biāo),控制自身運動調(diào)整姿態(tài)實現(xiàn)目標(biāo)跟蹤。首先,在視頻流采集圖片的中心,預(yù)設(shè)一個36×36大小的區(qū)域。在經(jīng)過本文人臉識別算法確定主持人位置后,返回主持人人臉的中心點坐標(biāo),并對該點位置進行判別,若處于預(yù)設(shè)區(qū)域內(nèi),則攝影機器人位姿不做調(diào)整;若主持人臉超出預(yù)設(shè)區(qū)域,則根據(jù)超出預(yù)設(shè)區(qū)域的方位對小云臺運動方向進行判斷,控制云臺進行位姿調(diào)整,直至主持人臉重新返回預(yù)設(shè)區(qū)域。控制算法流程如圖16所示。

圖16 目標(biāo)跟蹤控制算法流程圖

4.3 算法實現(xiàn)

基于第3章的人臉識別算法與本章的控制運動算法,在攝影機器人上實現(xiàn)對主持人的實時目標(biāo)跟蹤。實驗中,嘉賓與主持人同時存在,如圖17所示。

圖17 算法實現(xiàn)

圖17中,虛線框為后期方便觀察所添加的,代表實驗過程中預(yù)設(shè)區(qū)域范圍。實驗中,為避免因主持人移動太快或突然變向?qū)е聰z影機器人出現(xiàn)跟蹤目標(biāo)丟失的情況,本文設(shè)定云臺速度調(diào)節(jié)頻率與算法識別頻率一致。從圖17中可以發(fā)現(xiàn),當(dāng)攝影機器人在主持人與嘉賓中識別主持人后,對主持人位置坐標(biāo)進行判斷,不在預(yù)設(shè)區(qū)域時,攝影機器人先對支撐結(jié)構(gòu)進行調(diào)整,即使得主持人臉在垂直方向居中;再進行殼體姿態(tài)調(diào)節(jié),使得主持人臉?biāo)椒较蚓又?,最終使得主持人臉進入預(yù)設(shè)區(qū)域內(nèi),攝影機器人完成目標(biāo)跟蹤。實驗中,攝影機器人能夠準確地排除嘉賓的干擾,正確定位主持人,并在主持人工作中可能需要的動作下仍能具備較高的魯棒性。在實驗過程中,云臺的目標(biāo)跟蹤有著基本可靠的精度與實時性,基本能夠滿足虛擬演播室下的拍攝要求。

5 結(jié)束語

本文介紹了一種基于YOLOv3與ResNet50的攝影機器人人臉識別跟蹤系統(tǒng),在PubFig與CASIA-FaceV5數(shù)據(jù)集上構(gòu)建主持人樣本集,針對虛擬演播室下人臉識別開放集問題,在ResNet50基礎(chǔ)上構(gòu)建深度殘差網(wǎng)絡(luò)模型并完成聯(lián)合監(jiān)督訓(xùn)練,最終通過實驗驗證了該系統(tǒng)在虛擬演播室下對人臉識別跟蹤的魯棒性、準確性與實時性,擴展了攝影機器人在虛擬演播室下的應(yīng)用前景。后續(xù)研究中,將繼續(xù)針對在虛擬演播室下開放集人臉識別的問題,通過改進網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)進一步提高攝影機器人在開放集上的識別精度。同時,也會在控制算法上做進一步探索,使得整個攝影機器人的多個自由度共同參與對主持人的人臉跟蹤,整個系統(tǒng)功能更加可靠完備并能實際應(yīng)用于各類主持節(jié)目。

猜你喜歡
集上人臉人臉識別
人臉識別 等
有特點的人臉
一起學(xué)畫人臉
Cookie-Cutter集上的Gibbs測度
揭開人臉識別的神秘面紗
鏈完備偏序集上廣義向量均衡問題解映射的保序性
人臉識別技術(shù)的基本原理與應(yīng)用
R語言在統(tǒng)計學(xué)教學(xué)中的運用
三國漫——人臉解鎖
人臉識別在高校安全防范中的應(yīng)用