国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖像增強和深層CNN學習的交互行為識別*

2019-05-31 03:19:32徐鵬程劉本永
通信技術 2019年3期
關鍵詞:圖像增強參量卷積

徐鵬程 ,劉本永

(1.貴州大學 大數據與信息工程學院,貴州 貴陽 550025;2.貴州大學 智能信息處理研究所,貴州 貴陽 550025)

0 引 言

行為識別是計算機視覺領域的一個研究熱點。與圖像分類相似,行為識別的目的是在一組圖像序列或者視頻中,讓機器自動識別出未知行為的類別。行為識別在公共安全、遠程醫(yī)療和虛擬現實等領域有著廣泛的應用價值。Aggarwal等人[1]根據行為的復雜度把行為分為身體局部動作、簡單行為、交互行為和人群行為。交互行為是較復雜的行為,近年來,研究人員提出了許多交互行為識別方法,主要有兩種:一種是提取簡單特征,用傳統(tǒng)分類器分類(以下簡稱“簡單特征法”),另一種是基于CNN識別。

簡單特征法在小樣本條件下表現出良好的分類性能。2010年韓磊等人[2]提出一種基于時空單詞的雙人交互行為識別算法,該算法從視頻中提取時空興趣點,并將聚類生成的時空碼本分配給視頻中各個人物。2014年Kong等人[3]提出用語義描述子對交互行為分類,該算法將交互行為分成多個部位的動作描述,通過多個部位的動作描述組合來表示某種交互行為。2015年Alazrai等人[4]提出基于解剖平面的交互行為識別算法,該算法用一種新穎的視角不變運動姿態(tài)幾何描述符作為交互行為的表示。2017年Li等人[5]提出基于深度序列多特征融合的交互行為識別的算法,該算法對深度圖像稀疏提取關鍵幀,然后融合輪廓特征和動作特征。雖然簡單特征法在某些情況下能很好識別交互行為,但是常見的視頻片段中人物做出的行為常常伴隨遮擋、復雜背景和鏡頭抖動等問題,簡單特征法不能很好解決這些問題。在大樣本條件下,利用CNN可以較好的解決這些問題。

在視頻圖像處理領域,CNN主要用于圖像分類,近幾年ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC 2010~2017)[6]產生了很多優(yōu)秀的CNN模型,比如AlexNet[7]、VGGNet[8]、GoogLeNet[9]和 ResNet[10]等。目前可以通過微調(Fine-tuning)的方法將CNN模型應用到雙人交互行為識別研究上。早期基于CNN的交互行為識別主要使用淺層的CNN,各隱層之間都是基于全卷積計算,激活函數主要是sigmoid函數。這種方式往往需要設定過多的超參數,同時在做反向傳播運算時sigmoid函數計算容易出現梯度爆炸和梯度消失等問題,因此對識別效果不太理想。Zhao等人[11]通過提取密集光流,然后輸入到ResNet中訓練,接著將結果輸入到LSTM中訓練,取得了較好的分類效果。Feichtenhofer等人[12]提出一種基于VGG-m-2048和VGG16的時域空域雙CNN融合算法,在UCF101、hmdb51數據集上取得了很好的識別效果。

為了讓CNN模型更好的提取交互行為特征,本文提出一種將原始視頻幀進行圖像增強再利用VGG16模型進行訓練的算法。首先采用將原始數據集從RGB顏色空間轉換到HSV顏色空間,其次根據min-max規(guī)范化算法對HSV顏色空間中S和V通道拉伸(H通道不變),然后再將數據從HSV顏色空間映射到RGB顏色空間,最后將圖像增強后的數據輸入到VGG16模型中進行學習訓練。實驗選用BIT-Interaction[3]數據集對本文算法進行驗證,結果表明所探討算法在交互行為識別上是有效的。

1 HSV顏色空間圖像增強

圖像增強目的是為了突出圖像中不同物體特征之間的差異,通過一些方法有針對性地突出某些感興趣特征和削弱不必要特征。數字視頻由若干靜態(tài)圖像序列組成,根據人眼的視覺暫留原理,呈現出動態(tài)畫面。因此突出視頻中人物特征,只需對視頻每一幀做圖像增強即可。本文在數據預處理階段圖像增強流程如圖1所示,其中S、V參量歸一化是對S和V參量分別做min-max規(guī)范化處理[13]。

圖1 視頻幀圖像增強流程

1.1 顏色空間

顏色空間(又稱彩色模型)是在某些標準下用可以接受的方式方便對色彩加以說明的顏色表示域。本質上,顏色空間是坐標軸和子空間的說明,其中,位于系統(tǒng)中的每個顏色都是由單個點來表示。常見顏色空間有RGB、HSV、YUV、Lab等[14]。

1.1.1 RGB顏色空間

RGB顏色空間包含紅(R)、綠(G)、藍(B)三個顏色分量,故RGB顏色空間又稱三原色模式,大多數可見光都可以由三分量組合堆疊得到。當前主流的CRT顯示器和液晶顯示器大都采用RGB彩色模型。RGB顏色空間將每個分量分為256個灰度級并將其歸一化到0~1范圍內,其中灰度值越大表明顏色越深。

1.1.2 HSV顏色空間

HSV顏色空間是根據顏色特性而創(chuàng)建得來的,其符合人對顏色的直觀感受,HSV顏色空間有兩種模型,分別是倒六角錐模型和倒圓錐模型。

以倒圓錐模型為例,如圖2所示,HSV顏色空間三個參量表示色彩的三要素:色調(H)、飽和度(S)和明度(V)。色調是色彩最主要特征,是區(qū)分不同色彩的主要標準。模型橫切面角度表示H(0~360°)參量,不同角度表示不同色彩,例如0°對應紅色、120°對應綠色、240°對應藍色。飽和度表示色彩的鮮艷程度,圓錐中軸到圓錐母線的水平線段代表S參量,S(0~1)越大表示該色彩越鮮艷(越靠近圓錐邊緣)。明度表示色彩的明暗程度,圓錐中軸自下而上的垂直線段代表V參量,V(0~1)越大表示色彩越明亮。

圖2 HSV顏色空間的倒圓錐模型

1.2 顏色空間轉換關系

1.2.1 RGB轉換到HSV

對三個參量取值在[0,1]的RGB圖像,轉換到HSV顏色空間,H、S、V的計算過程如下:

1.2.2 HSV轉換到RGB

HSV顏色空間圖像映射到RGB顏色空間,RGB三個參量的計算過程如下:

1.3 增強算法

在圖像中,S和V參量的實際取值范圍往往比[0,1]小,這就造成了圖像中某些區(qū)域之間的對比度比較小。例如本文中圖像增強的目的是增強人體(圖中前景)特征,削弱背景特征。為了增大圖像中各部分S或V參量的差異,對圖像中各像素點S或V的實際取值范圍進行拉伸,保持H不變。原圖像像素點S或V值大的會更大,小的會更小。

min-max規(guī)范化(min-max normalization又稱min-max scaling)是將原數據的取值范圍縮放到[0,1]。HSV顏色空間圖像中S參量的min-max規(guī)范化過程如式(10):

其中,src(x,y)是原始圖像各像素點S參量值,max(src(x,y))和min (src(x,y))分別是原始圖像所有像素點S參量的最大值和最小值,dst(x,y)是各像素點S參量min-max規(guī)范化后的值。V參量的變換過程與S參量一致。

2 深層CNN

2.1 CNN

CNN結構主要包含:卷積層、激活函數、池化層、全連接層和soft-max層。卷積層的主要作用是提特征,淺層卷積層提取低級圖像特征,深層卷積層提取更抽象的特征。激活函數將卷積層的輸出結果做非線性映射處理,從而增加網絡的表達能力,常見的激活函數有sigmoid、tanh和ReLU[7]等。池化層在保留了上層特征圖主要特征的同時還減少了下層的參數,其主要有max pooling和average pooling兩種池化方式。全連接層把提取到的特征映射到樣本的標記空間,起到分類器的作用。soft-max層將最后一層全連接層的輸出結果映射到0~1范圍內,根據得分高低判別分類,soft-max層神經元數目取決于樣本的類別數。損失函數對權重(ω)和偏置(b)求偏導,根據BP算法更新ω和b,使損失函數值最優(yōu)。

2.2 VGG16

2014年牛津大學視覺幾何團隊(Visual Geometry Group)提出VGGNet,并在當年的ILSVRC獲得分類任務第二名和定位任務第一名。VGGNet在AlexNet基礎上發(fā)展而來,首次使用小卷積核、小池化核同時增加了網絡層數[8]。VGGNet主要有VGG16和VGG19兩種網絡模型,二者結構相同,但VGG19相比VGG16在圖像分類上的識別率上提升不明顯且增大了模型參數,為減小計算量,本文選用的網絡模型是VGG16。

VGG16結構如圖3所示,網絡一共16個卷積層(包含最后三層全連接層),5個池化層和一個soft-max層。模型輸入為224×224的三通道圖片。卷積層均為3×3的小卷積核,滑動步長為1。堆疊2個或3個3×3的卷積核計算效果等于1個5×5或7×7的卷積核, 但計算量大大降低并且經過多次非線性變換后模型對特征的學習能力更強。卷積層輸出結果輸入到ReLU激活函數中,ReLU相比sigmoid函數有計算量較小、減少梯度消失、稀疏網絡從而緩解出現過擬合現象等優(yōu)點。池化核(本文使用的是max pooling)大小為2×2,滑動步長為2,其對特征降維的同時保留了原始特征的屬性。最后是三個通道數分別為4 096、4 096和1 000的全連接層。soft-max層對ImageNet1000種類別分類。因本文使用的數據庫有8個類別動作,需要微調FC1000和soft-max層。

圖3 VGG16網絡結構

3 實驗結果與分析

為了對比本文方法和文獻[12]方法在交互行為識別上的實驗結果,本文選用的數據集是北京理工大學的交互行為數據集(BIT-Interaction)[3]。該數據集包含八類交互動作(Bend、Box、Handshake、Hifive、Hug、Kick、Pat、Push),每類動作包含50段短視頻。這些視頻均是在不同自然場景下拍攝的,鏡頭固定。我們對該數據集多次實驗取平均值,實驗分為3個split,其中括號里指擴充數據集的分組。split1:15~50(29~100)為訓練集,1~14(1~28)為驗證集,101~114(101~128)為測試集;split2:1~14 和 29~50(1~28 和 57~100)為訓練集,15~28(29~56)為驗證集,115~128(129~156)為測試集;split3:1~28 和 43~50(1~56 和 85~100)為訓練集,29~42(57~84)為驗證集,129~142(157~184)為測試集。

圖4 BIT-Interaction數據集

3.1 擴充數據集與圖像增強

原始數據集在視頻分幀后得到的圖片數量較少,原始視頻幀作為輸入進行CNN訓練容易出現過擬合問題。為解決上述問題,我們對數據集進行擴充。常見擴充數據集的方法有:翻轉、旋轉和拉伸等,本文采用鏡像翻轉和旋轉的方法對數據集擴充,擴充后數據集的訓練集和驗證集每類動作共包含100個的幀序列。

從數據集中任選三張圖片及對應圖像增強后的圖片如圖5所示。

圖5 原始視頻幀(第一列)與圖像增強幀(第二列)

從這兩列圖像中可以看出圖像增強后的圖像凸顯或保持了人物輪廓,豐富了人物的紋理信息,增大了人物與背景的對比度,同時背景的紋理信息有所減少,例如圖5(d)與圖5(c)相比遠處樹木和建筑信息較少,人物細節(jié)信息更突出。雖然原始圖像經過本文中的圖像增強算法后不能準確反映真實場景信息,但凸顯了人物(前景)特征,有益于接下來的CNN模型提取特征。

3.2 VGG16訓練與測試

CNN模型選用在ImageNet預訓練好的VGG16模型,針對現有分類問題進行微調(fine-tuning),原因是自己從頭開始訓練VGG16容易出現問題,fine-tuning初始化自己的網絡能使網絡較快收斂。把輸入圖片寬高隨機修剪為224×224,為提高內存利用率,batchsize設置為256。為了減小網絡收斂時在最優(yōu)值附近小幅度波動,而不設定固定學習率,采取隨著迭代次數增加逐漸減小學習率的方法,不同階段學習率分別設置為:10-2、10-3、10-4。表1是原始數據集、數據集擴充和圖像增強300次快拍訓練得到模型在測試集上的準確率與平均準確率結果。

表1 測試識別率和平均識別率 /(%)

如表1所示,三種數據集的平均識別率分別為25.40%、95.01%、97.70%??梢院苊黠@看出擴充數據后的識別準確率要遠遠好于原始數據集,原因是深層CNN訓練數據集過少容易出現過擬合現象。在數據集樣本足夠大的情況下,對數據集進行圖像增強操作的識別準確率均比未處理圖像的提升了2.69%,這說明原始數據在圖像增強后能夠更好地凸顯圖片中人物特征。

近幾年交互行為識別方法與本文方法識別準確率對比見表2,在數據集足夠大的情況下,利用深度學習研究雙人交互行為識別有很大的優(yōu)勢。另外,本文方法在數據預處理階段對輸入圖像做圖像增強處理進一步提高了識別準確率。

表2 幾種方法在BIT-Interaction數據集上的識別率

4 結 語

本文在數據預處理階段,為解決數據集不足的問題,對原始視頻幀鏡像翻轉和旋轉,提升了VGG16在BIT-Interaction數據集上的識別準確率。將RGB顏色空間映射到HSV顏色空間,對S和V參量分別做min-max 標準化處理,將所得結果映射到RGB顏色空間上作為CNN的輸入,進一步提升了識別準確率。本文使用在ImageNet訓練好的VGG16對本文需要解決的問題做fine-tuning,節(jié)省了對前期對網絡參數訓練的時間。

總體而言,深層CNN對雙人交互行為有著較高的識別準確率,但嚴重依賴數據集樣本數量。本文的在后續(xù)的工作中將適當減少網絡層數,優(yōu)化網絡參數,使其對原始視頻幀也有較高的識別率。

猜你喜歡
圖像增強參量卷積
基于3D-Winograd的快速卷積算法設計及FPGA實現
圖像增強技術在超跨聲葉柵紋影試驗中的應用
水下視覺SLAM圖像增強研究
虛擬內窺鏡圖像增強膝關節(jié)鏡手術導航系統(tǒng)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標跟蹤算法
基于圖像增強的無人機偵察圖像去霧方法
環(huán)形光的形成與參量的依賴關系
物理實驗(2015年9期)2015-02-28 17:36:51
含雙參量的p-拉普拉斯邊值問題的多重解
鎖定放大技術在參量接收陣中的應用
聲學技術(2014年2期)2014-06-21 06:59:14
冷水江市| 桐柏县| 余江县| 柳州市| 广丰县| 株洲市| 盐亭县| 峡江县| 辽宁省| 儋州市| 宜春市| 隆德县| 鹤岗市| 通道| 利川市| 红桥区| 资中县| 文成县| 西畴县| 元朗区| 古交市| 奉贤区| 奉化市| 托克托县| 东兰县| 富宁县| 云浮市| 安阳市| 景德镇市| 白山市| 车致| 呈贡县| 社旗县| 济南市| 卓资县| 江口县| 柳河县| 东阿县| 昭苏县| 定南县| 安丘市|