国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的手分割算法研究

2019-07-01 02:35向杰卜巍鄔向前
智能計算機與應(yīng)用 2019年3期
關(guān)鍵詞:注意力機制深度學(xué)習(xí)

向杰 卜巍 鄔向前

摘 要:第一視角的人手分割在人機交互、虛擬現(xiàn)實方面具有非常重要的應(yīng)用價值,但是由于圖像中人手區(qū)域占比較大,精確的人手分割仍然是一個很具有挑戰(zhàn)性的問題。本文提出一種基于深度學(xué)習(xí)的手部分割算法,利用卷積神經(jīng)網(wǎng)絡(luò)強大的特征提取能力提取人手圖像的特征,模仿人類視覺注意力機制提出Attention模塊為特征圖中的不同區(qū)域賦予更具辨別性的權(quán)值,同時為了能有效地提取不同尺度物體的特征,設(shè)計空洞卷積DCB模塊在同一尺度大小的特征圖上提取不同尺度特征。在3個人手?jǐn)?shù)據(jù)集上的實驗結(jié)果表明本文提出的算法能夠有效地分割出手部區(qū)域并超越了其它的算法,達到了最優(yōu)的分割效果。

關(guān)鍵詞: 手部分割;深度學(xué)習(xí);注意力機制;空洞卷積

文章編號: 2095-2163(2019)03-0247-09 中圖分類號: TP391 文獻標(biāo)志碼: A

0 引 言

Google Class、GoPro和Narrative Clip等可穿戴設(shè)備的日益普及,使得計算機視覺中以自我為中心的第一視角研究成為一個快速增長的領(lǐng)域??纱┐髟O(shè)備產(chǎn)生大量的數(shù)據(jù),這使得自動分析其記錄的內(nèi)容(例如,瀏覽、搜索和可視化)、描述生活記錄中的事件、識別日常生活活動等成為一種需要。在以自我為中心的第一視角視頻中,大部分的工作都涉及到理解相機佩戴者的活動和行為。在本文中,研究關(guān)注的是以自我為中心的第一視角視頻中一個非常關(guān)鍵的實體:手。在人們的日常生活中,手是無處不在的。手的姿勢和配置告訴人們計劃做什么或者人們注意到了什么。因此,手的檢測、分割和跟蹤是以自我為中心的視覺中的基本問題,在機器人、人機交互、計算機視覺、增強現(xiàn)實等領(lǐng)域有著廣泛的應(yīng)用。在以自我為中心的視頻中提取手部區(qū)域是理解精細(xì)運動的關(guān)鍵一步,例如手-對象操作和手眼協(xié)調(diào)。

本文著重在現(xiàn)實的日常環(huán)境中解決以自我為中心的第一視角的視頻中像素級手分割的任務(wù)。大量的研究在第三視角或監(jiān)控視頻中解決了這個問題,然而,在第一視角視頻中,對這個問題的研究相對較少。本文計劃通過設(shè)計基于深度學(xué)習(xí)的語義分割算法對第一視角視頻中的手進行分割。

本次研究基于Bambach等人[1]提出的Egohands數(shù)據(jù)集,該數(shù)據(jù)集對2個有交互動作的參與者的手進行了像素級的標(biāo)注。據(jù)分析所知,該數(shù)據(jù)集是唯一的聚焦于人與人之間交互動作的、第一視角的、并具有像素級標(biāo)注的人手?jǐn)?shù)據(jù)集,故而本文將基于該數(shù)據(jù)集來驗證所提出的語義分割算法。同樣,文中也將在GTEA[2]數(shù)據(jù)集及其最新擴展的EGTEA數(shù)據(jù)集上驗證了本文提出的算法。

本文的主要貢獻總結(jié)如下:

(1)提出了一個針對手分割的基于深度學(xué)習(xí)的語義分割算法,利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)強大的自動提取特征的能力來自動提取手部特征,從而能夠端到端地訓(xùn)練語義分割網(wǎng)絡(luò)。

(2)模仿人類視覺機制,提出了Attention網(wǎng)絡(luò)模塊,增強對手分割貢獻大的特征的權(quán)重,減小貢獻小的特征的權(quán)重,使得網(wǎng)絡(luò)更具有特征辨別性。

(3)提出空洞卷積DCB模塊,在同一尺度的特征圖上提取不同尺度的特征,對不同大小的圖片中的目標(biāo)、即手的分割更加精確。

(4)提出的針對手分割的語義分割算法在3個數(shù)據(jù)集,即Egohands、GTEA和EGTEA上取得了超越先前算法的效果,獲得了當(dāng)前最優(yōu)的分割效果。

1 相關(guān)工作

目前已有一些基于以自我為中心的第一視角的手分割研究。Ren等人[3]以及Fathi等人[4]提出一種查找手部區(qū)域具有不規(guī)則光流模式的方法來分割手,研究中假設(shè)在日常生活中以自我為中心的第一視角視頻中,當(dāng)人與人或其它對象交互時,背景為靜態(tài)的,具有規(guī)則的光流模式,手作為前景區(qū)域具有動態(tài)的不規(guī)則的光流模式,利用手部區(qū)域不規(guī)則的光流模式來進行手分割。Li等人[5]假設(shè)視頻中沒有人的交互動作存在,認(rèn)為視頻中的所有手都屬于以自我為中心的觀看者,提出一種利用場景級特征探針為每個環(huán)境選擇最佳局部顏色特征的光照感知方法來進行手分割。然而這種假設(shè)并不能概括生活中所有的人手活動。Lee等人[6]提出一種在第一視角的視頻中檢測分割交互中的手的方法,同時也提出了一種概率圖模型,利用空間排列來消除手部類型的歧義,即區(qū)分是觀察者的手、還是交互者的手。然而,此類方法只考慮了實驗室條件下的交互動作,對于具有復(fù)雜背景情形下的交互動作卻并未納入研究范疇。

更加接近本文工作的研究是Bambach等人[1]提出的,即提出了一種基于膚色檢測的方法,該方法首先生成一組可能包含手區(qū)域的包圍框,然后使用CNN檢測識別手,最后使用GrabCut[7]方法對其進行分割,Aisha等人[8]微調(diào)當(dāng)下最好的基于自然圖像的語義分割網(wǎng)絡(luò)RefineNet[9]用于手分割,獲得了目前最優(yōu)的結(jié)果。

除了基于第一視角的手分割外,基于第三視角的手檢測分割也已可見到相應(yīng)的研究。比如,Mittal等人[10]利用可變形部件模型DPM[11]和基于膚色的啟發(fā)式先驗進行手的定位檢測。Zimmermann等人[12]基于單張RGB圖像進行手的檢測和姿勢估計。

2 算法設(shè)計研究

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文把手部區(qū)域分割視為一個語義分割問題,也就是像素級別的分割,是一個密集預(yù)測的問題,目標(biāo)是將屬于手部區(qū)域的像素和屬于背景的像素分離開來,即判定圖片中每一個像素是屬于手部區(qū)域、還是非手部區(qū)域。

本文針對手部區(qū)域分割設(shè)計的語義分割網(wǎng)絡(luò)如圖1所示。該網(wǎng)絡(luò)由3部分組成:主干網(wǎng)絡(luò)(Backbone),空洞卷積模塊(Dilated Convolutional Block,DCB),空間通道壓縮擴張(Spatial Channel Squeeze-and-Excitation,SCSE)模塊。文中,將對此做出如下研究分述。

2.2 主干網(wǎng)絡(luò)

研究采用的主干網(wǎng)絡(luò)是38層的Wide ResNet[13]。Wide ResNet由7個Block組成。其中,第1個Block單元由卷積核為3×3的卷積層組成,第2~5個Block由殘差單元(Residual Unit,RU)組成,殘差單元由2個級聯(lián)的3×3卷積層構(gòu)成,并按照ResNet的殘差結(jié)構(gòu)添加跳躍連接(Skip Connection)來學(xué)習(xí)殘差映射。網(wǎng)絡(luò)的最后2個Block6、Block7由級聯(lián)的卷積核,分別為1×1、3×3、1×1的卷積層構(gòu)成,目的是減少網(wǎng)絡(luò)參數(shù)量。Wide ResNet采用網(wǎng)絡(luò)加寬,即增加每一層網(wǎng)絡(luò)的特征通道的方式來提高網(wǎng)絡(luò)性能,在圖像分類上獲得了很好的性能,并且參數(shù)量也穩(wěn)定地控制在合理的范圍內(nèi)。除此之外,在語義分割任務(wù)上將38層的Wide ResNet改變?yōu)槿矸eCNN也獲得了很好的結(jié)果。

2.3 DCB模塊

DCB模塊的作用是多尺度提取特征圖的語義特征。深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)通過組合低層特征形成更加抽象的高層特征表示全局屬性或目標(biāo)類別,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。網(wǎng)絡(luò)低層學(xué)習(xí)到的一般是物體的角點、邊緣、局部輪廓等特征,網(wǎng)絡(luò)高層學(xué)習(xí)到的一般是物體的抽象的表示,因此,結(jié)合網(wǎng)絡(luò)低層特征和高層特征或者在同一特征圖尺度上獲取不同尺度的特征對于提高網(wǎng)絡(luò)對不同大小的圖片中的目標(biāo)、即手的的分割更加精確。

研究提出針對語義分割的空洞卷積模塊(Dilated Convolutional Block,DCB),一個在同一尺度的特征圖上提取不同尺度特征的多分支卷積模塊。DCB的內(nèi)部結(jié)構(gòu)可分為2個組件:多分支卷積層以及隨后的空洞卷積層。其中,多分支卷積層由5個子分支組成,分別是Global Pooling分支、1×1卷積分支,1×3和3×1分支、1×5和5×1卷積分支、1×7和7×1卷積分支,除Global Pooling分支外,其余4個分支其后都級聯(lián)一個不同比率的空洞卷積層,本文選擇的空洞卷積層的比率分別是1、12、24、36。DCB模塊能夠有效地提高特征提取的效率,針對同一尺度的特征圖,不同大小的卷積核可以多尺度地提取物體特征,空洞卷積可以有效增大卷積核感受野,這對于語義分割任務(wù)十分重要。

2.4 SCSE模塊

研究提出的SCSE模塊,又可以稱為空間通道Attention模塊,如圖2所示。空間通道壓縮擴張模塊由空間Attention子模塊和通道Attention子模塊構(gòu)成,分別對應(yīng)圖2中的2個分支。對于空間Attention模塊,使用卷積核大小為1×1,步長為1的卷積層與輸入的大小為H×W×C的特征圖進行卷積操作,輸出大小為H×W×1的特征圖,將特征圖通道方向壓縮為一維,再將輸出的特征圖經(jīng)過Sigmoid層使得特征圖的激活值范圍為[0,1],最后將輸出的特征圖與原輸入特征圖做點乘得到大小為H×W×C的特征圖,空間Attention為特征圖中空間位置的不同點重新賦予了不同的權(quán)重值,使得目標(biāo)相關(guān)的空間位置點得到更大的權(quán)值,減小不相關(guān)的空間位置點的權(quán)重。對于通道Attention模塊,將輸入的大小為H×W×C的輸入特征圖首先通過全局池化(Global Pooling)層獲得大小為1×1×C的特征圖,將特征圖的空間方向、即長度方向和寬度方向壓縮為一維,接著通過第一層全連接(FC)層將特征圖變?yōu)?×1×(C/r)大小,其中r為縮放參數(shù),本文選擇的參數(shù)r值為8,然后通過第二層FC層將特征圖恢復(fù)到1×1×C大小,并經(jīng)過Sigmoid層使得特征圖的激活值范圍為[0,1],最后將輸出的特征圖與原輸入特征圖做點乘得到大小為H×W×C的特征圖,通道Attention通過參數(shù)來為每個特征通道生成權(quán)重,其中參數(shù)被學(xué)習(xí)用來顯式地建模特征通道間的相關(guān)性,將經(jīng)過Sigmoid層輸出的權(quán)重與原輸入特征圖相乘可以看作是對特征圖不同通道的重新賦權(quán),使得目標(biāo)相關(guān)的通道權(quán)重得以提升,不相關(guān)的通道權(quán)重得以抑制。

根據(jù)空間Attention子模塊和通道Attention子模塊的不同組合方式,本文還提出了2種形式的SCSE模塊,依次命名為通道優(yōu)先空間通道壓縮擴張(Channel first Spatial Channel Squeeze-and-Excitation,CSCSE)模塊和空間優(yōu)先空間通道壓縮擴張(Spatial first Spatial Channel Squeeze-and-Excitation,SSCSE)模塊,分別如圖3和圖4所示。

3 網(wǎng)絡(luò)訓(xùn)練和測試

本次研究的任務(wù)是訓(xùn)練一個CNN語義分割模型,該模型可以自動地在一張人手圖片中分割出人手區(qū)域的mask圖像。

相比于圖像識別只需要圖像級別的類別標(biāo)簽即可,語義分割任務(wù)則需要精細(xì)的像素級標(biāo)注的mask圖像作為標(biāo)簽,而標(biāo)記圖像的mask標(biāo)簽,往往耗時耗力,因此,在語義分割任務(wù)中,有標(biāo)簽的標(biāo)注好的圖像數(shù)量很少。為了能夠較好地訓(xùn)練語義分割網(wǎng)絡(luò),數(shù)據(jù)增強操作必不可少,并且一般采用在ImageNet[14]圖像識別數(shù)據(jù)集上預(yù)訓(xùn)練的模型參數(shù)作為主干網(wǎng)絡(luò)的初始化參數(shù)。ImageNet是一個大規(guī)模的圖像分類數(shù)據(jù)庫,包含著數(shù)目可觀的帶有圖像類別標(biāo)簽的自然圖像,深度學(xué)習(xí)圖像分類網(wǎng)絡(luò)往往在ImageNet上訓(xùn)練測試,因為ImageNet數(shù)據(jù)庫數(shù)據(jù)采集自自然環(huán)境,圖像覆蓋面廣且類別寬泛,能夠有效地驗證分類模型是否性能良好。目前,各個常見的深度神經(jīng)網(wǎng)絡(luò)模型都有基于ImageNet預(yù)訓(xùn)練的模型。

圖像分類網(wǎng)絡(luò)最后的網(wǎng)絡(luò)層一般是用于分類的全連接FC層,全連接層的權(quán)重矩陣是固定的,即每一層特征圖(feature map)的輸入必須是固定大?。磁c權(quán)重矩陣正好可以相乘的大小),所以網(wǎng)絡(luò)最開始的輸入圖片尺寸必須固定,才能保證傳送到全連接層的特征圖的大小與全連接層的權(quán)重矩陣相匹配。全連接層可以看作是卷積核完全覆蓋特征圖的特殊的卷積層。目前的語義分割網(wǎng)絡(luò)都是基于全卷積神經(jīng)網(wǎng)絡(luò)FCN,即網(wǎng)絡(luò)中不存在全連接層,F(xiàn)CN可以接受不同大小的圖片作為輸入。

研究將在ImageNet上預(yù)訓(xùn)練的用于圖像分類的Wide ResNet作為語義分割網(wǎng)絡(luò)的主干網(wǎng)絡(luò),首先需要將其轉(zhuǎn)換為全卷積神經(jīng)網(wǎng)絡(luò):將全局池化層(Global Pooling)和最后一層用于分類的全連接層去掉。語義分割的目的是要密集預(yù)測圖片中每一個像素點所屬類別,為了盡可能多地捕獲特征圖中的低層局部信息和高層語義信息,本文將圖像的下采樣次數(shù)設(shè)定為3次,即經(jīng)過主干網(wǎng)絡(luò)輸出的特征圖大小是原輸入圖片的1/8大小。同時,為了使卷積核能夠有效獲取更大范圍特征,本文采用空洞卷積的方法來擴大卷積核的感受野,其中,主干網(wǎng)絡(luò)第5、第6、第7個Block分別使用比率為2、4、8的空洞卷積來擴大卷積核的感受野。

在測試階段,給定一個未知測試圖片,經(jīng)過訓(xùn)練好的語義分割網(wǎng)絡(luò),分割出圖片中的人手區(qū)域mask。

4 實驗

研究擬在3個數(shù)據(jù)集,諸如EgoHands數(shù)據(jù)集、Georgia Tech Egocentric Activity(GTEA)數(shù)據(jù)集和Extended Georgia Tech Egocentric Activity(EGTEA)數(shù)據(jù)集上分別進行語義分割網(wǎng)絡(luò)的訓(xùn)練、驗證和測試。

本節(jié)首先介紹使用的3個數(shù)據(jù)集,并詳細(xì)解讀了數(shù)據(jù)集的構(gòu)成和訓(xùn)練、驗證、測試數(shù)據(jù)集的劃分,接著探究了本文使用的評測標(biāo)準(zhǔn),最后則剖析論述了各個數(shù)據(jù)集的訓(xùn)練過程和測試結(jié)果。對此可做闡釋分述如下。

4.1 數(shù)據(jù)集介紹

(1)EgoHands數(shù)據(jù)集。EgoHands數(shù)據(jù)集是一個收錄人與人之間交互動作的數(shù)據(jù)集,包含48個使用Google Class記錄的視頻片斷,每一個視頻片段記錄2個演示者玩拼圖(puzzle)、拼卡片(cards)、玩層疊游戲(jenga)或者下國際象棋(chess)的手部交互動作,這些視頻數(shù)據(jù)是在辦公室、庭院和臥室三種不同的環(huán)境下拍攝。數(shù)據(jù)集里面匯集了超過15 000個人手實例,每一個視頻包含100張手工精細(xì)標(biāo)注的人手區(qū)域mask圖片,一共有4 800張標(biāo)注的人手mask圖片。發(fā)布該數(shù)據(jù)集的作者按照75%、8%、17%的比例將4 800張圖片劃分為訓(xùn)練集、驗證集和測試集。本文也遵循這一劃分比例。

(2)GTEA數(shù)據(jù)集。GTEA數(shù)據(jù)集采集了記錄日常生活中的7種活動的視頻,視頻采集在同一環(huán)境條件下進行,沒有記錄人與人之間的交互動作,在靜態(tài)光照條件下采集數(shù)據(jù)集。分割數(shù)據(jù)集涉及到人體的手及手臂區(qū)域,一共包含663張人工精細(xì)標(biāo)注的圖片數(shù)據(jù)。本文根據(jù)數(shù)據(jù)集作者的數(shù)據(jù)集進行劃分,將數(shù)據(jù)集中的367張圖片作為訓(xùn)練集、92張圖片作為驗證集、204張圖片作為測試集。

(3)EGTEA數(shù)據(jù)集。EGTEA數(shù)據(jù)集是GTEA數(shù)據(jù)集的最新擴增版本,包含28 h的烹飪視頻片段,數(shù)據(jù)集還提供了相關(guān)視頻片段的音頻、人體動作標(biāo)注和跟蹤信息用于其它視覺任務(wù)。數(shù)據(jù)集精細(xì)標(biāo)注了13 847張人手的mask圖片,共包含15 176個人手實例。由于數(shù)據(jù)集作者未能提供關(guān)于人手分割圖片數(shù)據(jù)集的訓(xùn)練、驗證、測試數(shù)據(jù)劃分。本文按照約7:1:2的比例劃分帶標(biāo)簽的手部圖像數(shù)據(jù)集為訓(xùn)練集、驗證集和測試集,其中,訓(xùn)練集為7 906張圖片,驗證集為1 844張圖片,測試集為4 097張圖片。

4.2 評測標(biāo)準(zhǔn)

語義分割中通常使用許多標(biāo)準(zhǔn)來衡量算法的性能。為了便于解釋,假設(shè)如下共有k+1個類別(從L0到Lk其中包含一個背景類),pii表示本屬于i類且預(yù)測為i類的像素數(shù)量,即真正預(yù)測正確的像素數(shù)量;pij表示本屬于i類但被預(yù)測為j類的像素數(shù)量,即假正;pji表示本屬于j類但被預(yù)測為i類的像素數(shù)量,即假負(fù)。二分類分割常用的評測標(biāo)準(zhǔn)可綜合表述如下。

(1)平均交并比(mean Intersection over Union, mIOU):語義分割的標(biāo)準(zhǔn)度量。計算2個集合的交集和并集之比,這2個集合為真實值(ground truth,標(biāo)簽值)和預(yù)測值(predicted segmentation)。在每個類上計算IOU,再取平均值。研究推得數(shù)學(xué)定義公式如下:

(2)平均召回率(mean Recall,mRec):預(yù)測像素為i類且原像素屬于i類的像素數(shù)量與所有原像素為i類的像素數(shù)量的比值,其中,原像素為i類的像素包括預(yù)測為i類且原像素屬于i類和本屬于i類但被預(yù)測為j類的像素。研究推得數(shù)學(xué)定義公式如下:

(3)平均精確率(mean Precision,mPrec):預(yù)測像素為i類且原像素為i類的像素數(shù)量與所有預(yù)測為i類的像素數(shù)量的比值,其中,原像素為i類的像素包括預(yù)測為i類且原像素屬于i類和本屬于j類但被預(yù)測為i類的像素。研究推得數(shù)學(xué)定義公式如下:

(4)像素精度(Pixel Accuracy, PA):標(biāo)記正確的像素占總像素的比例。研究推得數(shù)學(xué)定義公式如下:

在二分類分割問題中,上述4種評測標(biāo)準(zhǔn)都能有效地評測算法的性能。本文的手分割是一個二分類分割任務(wù),因此,研究即將以上述4種評測標(biāo)準(zhǔn)用于算法性能的研究考證。

4.3 實驗與結(jié)果分析

針對前文探討論述的4個數(shù)據(jù)集,本節(jié)將分別給出其實驗結(jié)果及結(jié)果分析,詳情參見如下。

(1) EgoHands數(shù)據(jù)集。研究中根據(jù)EgoHands數(shù)據(jù)集作者的數(shù)據(jù)劃分來訓(xùn)練驗證模型,并在測試集上測試模型。為了驗證設(shè)計的3種Attention結(jié)構(gòu),本節(jié)分別訓(xùn)練不包含Attention(noAttention)結(jié)構(gòu)和包含3種不同Attention(CSCSE、SSCSE、SCSE)結(jié)構(gòu)的模型,并分別測試其模型效果,給出各評測指標(biāo)的定量評測結(jié)果。同時,與前人在EgoHands數(shù)據(jù)集上的分割結(jié)果在各個評測指標(biāo)上進行了對比,最終對比結(jié)果見表1。

從表1可以看出,分割模型中有Attention結(jié)構(gòu)比沒有Attention結(jié)構(gòu)好,其中,具有SCSE結(jié)構(gòu)的Attention模塊在各個評測指標(biāo)上都獲得了最好的性能。因此,在下文的其它數(shù)據(jù)集的實驗中,模型都使用具有SCSE結(jié)構(gòu)的Attention模塊。部分EgoHands數(shù)據(jù)集測試集可視化結(jié)果如圖5所示。

(2) GTEA數(shù)據(jù)集。研究中按照數(shù)據(jù)集作者的數(shù)據(jù)集劃分方式劃分訓(xùn)練集、驗證集和測試集合,在訓(xùn)練集上訓(xùn)練模型,而每訓(xùn)練達到一個epoch后則在驗證集上驗證模型,最后,用最終訓(xùn)練完成的模型在測試集上測試模型。與Aisha等人在GTEA數(shù)據(jù)集上的算法性能進行比較,實驗結(jié)果見表2。

從表2可以看出,本文提出的分割算法在各個性能的對照上都較Aisha等人的算法好,部分GTEA數(shù)據(jù)集測試集可視化結(jié)果如圖6所示。

(3)EGTEA數(shù)據(jù)集??紤]到該數(shù)據(jù)集是GTEA數(shù)據(jù)集的最新擴增版本,而做此研究時仍尚未有基于該數(shù)據(jù)集的研究結(jié)果可供對比,因此研究中按照上文所述EGTEA數(shù)據(jù)集的數(shù)據(jù)劃分方法劃分訓(xùn)練集、驗證集和測試集,并列出本文算法在該數(shù)據(jù)集上各個評測指標(biāo)的結(jié)果,具體見表3。

從表3可以看出,本文提出的分割算法在各個評測指標(biāo)上都獲得了較好的結(jié)果。部分EGTEA數(shù)據(jù)集測試集可視化結(jié)果如圖7所示。

5 結(jié)束語

本文將對以自我為中心的第一視角視頻中的手分割視為一個語義分割任務(wù),設(shè)計了一個基于深度學(xué)習(xí)的針對手分割的語義分割網(wǎng)絡(luò)。在該網(wǎng)絡(luò)中,研究提出DCB模塊,該模塊能夠在相當(dāng)程度上提升特征提取的效率,針對同一尺度的特征圖,不同大小的卷積核可以多尺度地提取物體特征,同時空洞卷積可以有效增大卷積核感受野,能夠較為成功地提取到圖像中不同大小的目標(biāo)、即手的特征。另外,研究模仿人類視覺注意力機制提出Attention模塊,在特征圖空間和通道方向上分別計算各激活值的概率分布,并與原特征圖相乘,為特征圖的激活值重新賦權(quán),使得目標(biāo)相關(guān)的特征權(quán)重得以提升,不相關(guān)的特征權(quán)重得以抑制。進一步地,研究還在EgoHands、GTEA和EGTEA這3個相關(guān)數(shù)據(jù)集上分別進行訓(xùn)練測試,獲得了當(dāng)前最優(yōu)的結(jié)果,從各個數(shù)據(jù)集的測試集結(jié)果可以看出,本文提出的語義分割算法可以很好地實現(xiàn)手分割。

參考文獻

[1] BAMBACH S, LEE S, CRANDALL D J, et al. Lending a hand: Detecting hands and recognizing activities in complex egocentric interactions[C]// IEEE International Conference on Computer Vision. Santiago, Chile:IEEE, 2015:1949-1957.

[2] LI Yin, YE Zhefan, REHG J M, et al. Delving into egocentric actions[C]// IEEE International Conference on Computer Vision and Pattern Recognition. Portland,? OR, USA:IEEE,2015: 287-295.

[3] REN Xiaofeng, MALIK J. Tracking as repeated figure/ground segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2007. CVPR '07. Minneapolis, Minnesota, USA:IEEE, 2007:1-8.

[4] FATHI A, REN Xiaofeng, REHG J M. Learning to recognize objects in egocentric activities[C]// IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI:IEEE Computer Society, 2011:3281-3288.

[5] LI Cheng, KITANI K M. Pixel-level hand detection in egocentric videos[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, Oregon, USA: IEEE, 2013:3570-3577.

[6] LEE S, BAMBACH S, CRANDALL D J, et al. This hand is my hand: A probabilistic approach to hand disambiguation in egocentric video[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Columbus, OH, USA:IEEE, 2014:557-564.

[7] TANG M, GORELICK L, VEKSLER O, et al. GrabCut in one cut[C]// IEEE International Conference on Computer Vision. Washington, DC, USA:IEEE, 2013:1769-1776.

[8] AISHA U, BORJI A. Analysis of hand segmentation in the wild[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2018). Salt Lake City, UT:IEEE, 2018:1-10.

[9] LIN Guosheng,MILAN A, SHEN Chunhua, et al. Refinenet: Multi-path refinement networks with identity mappings for high-resolution semantic segmentation[J]. arXiv preprint arXiv:1611.06612, 2016.

[10]MITTAL A, ZISSERMAN A, TORR P. Hand detection using multiple proposals[C]// British Machine Vision Conference.Dundee:University of Dundee, 2011:75.1-75.11.

[11]FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 32(9):1627-1645.

[12]ZIMMERMANN C, BROX T. Learning to estimate 3D hand pose from single RGB images[J]. arXiv preprint arXiv:1705.01389v3,2017.

[13]WU Zifeng, SHEN Chunhua, HENGEL A V D. Wider or deeper: Revisiting the ResNet model for visual recognition[J]. arXiv preprint arXiv:1611.10080,2016.

[14]RUSSAKOVSKY O, DENG Jia, SU Hao, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3):211-252.

猜你喜歡
注意力機制深度學(xué)習(xí)
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
InsunKBQA:一個基于知識庫的問答系統(tǒng)
有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望