国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

DSconv-LSTM:面向邊緣環(huán)境的輕量化視頻行為識別模型

2021-02-24 02:29翟仲毅趙胤鐸
關(guān)鍵詞:預(yù)處理邊緣卷積

翟仲毅,趙胤鐸

(桂林電子科技大學廣西可信軟件重點實驗室,廣西 桂林 541004)

1 引言

隨著物聯(lián)網(wǎng)和邊緣計算技術(shù)的發(fā)展,許多嵌入式設(shè)備已經(jīng)具備了較強的計算能力。邊緣計算正在成為物聯(lián)網(wǎng)數(shù)據(jù)處理的重要組成部分。此外,隨著物聯(lián)網(wǎng)設(shè)備的激增,網(wǎng)絡(luò)邊緣會產(chǎn)生大規(guī)模的感知數(shù)據(jù)。在大數(shù)據(jù)技術(shù)的推動下,邊緣智能正在逐漸形成,即通過有效結(jié)合邊緣數(shù)據(jù)和AI 技術(shù)在本地完成計算并快速有效地提供智能服務(wù)[1]。在邊緣智能服務(wù)中,傳感器數(shù)據(jù)由本地負責收集和處理,從而減少了對網(wǎng)絡(luò)資源的需求。與云服務(wù)相比,邊緣智能服務(wù)可以提高物聯(lián)網(wǎng)環(huán)境下計算的實時性,避免浪費網(wǎng)絡(luò)帶寬資源。

智能攝像機是具有代表性的智能邊緣產(chǎn)品,能夠為智能家居、智能交通、智能監(jiān)控等領(lǐng)域提供視頻處理服務(wù)。智能攝像機服務(wù)通常需要從攝像機獲取實時視頻數(shù)據(jù),并進行一系列視頻幀處理操作,然后進行相應(yīng)的行為識別。這意味著攝像機需要為這些服務(wù)提供相應(yīng)的存儲和計算資源。由于智能攝像機的資源限制,較多的行為識別模型[2]-[3]很難在本地托管并進行行為識別。這是由于常見的行為識別模型通常采用重量級的深度學習模型,計算復(fù)雜度較高且規(guī)模大。為了將行為識別服務(wù)引入邊緣環(huán)境,通常需要降低學習模型的計算復(fù)雜度,從而減輕對本地設(shè)備的資源消耗。

本文提出了一種輕量級的學習模型,用于對邊緣視頻流中的目標行為進行識別。該動作識別模型主要基于DSconv-LSTM 和自注意機制(Self-attention Mechanism)。DSconv-LSTM 主要結(jié)合卷積LSTM(Conv-LSTM)和深度可分離卷積(Depthwise-Separable convolution,DSconv)進行設(shè)計。與Conv-LSTM[12]相比,DSconv-LSTM 采用了一系列輕量級學習單元,通過深度可分離卷積運算[15]處理LSTM 中四個門的時空數(shù)據(jù)流。

最后,在UCF-11[12]和Olympic-sports[13]兩個公共視頻數(shù)據(jù)集上進行了一系列實驗來評估DSconv-LSTM 的性能和效果。結(jié)果表明:DSconv-LSTM 能快速收斂到最優(yōu)模型,并保持較高的識別精度。與Conv-LSTM 相比,DSconv-LSTM 的模型規(guī)模減小了約三倍,推理時間縮短了約50%。

2 相關(guān)工作

行為識別是計算機視覺領(lǐng)域一項常見的研究內(nèi)容。隨著深度學習的快速發(fā)展,許多學者都在關(guān)注視頻行為的深層特征提取,以及行為分類模型和識別方法。雙流融合模型(Two-Stream Fusion,TSF)[2]就是一種動作識別框架。TSF結(jié)合時空網(wǎng)絡(luò),將RGB圖像和光流分別用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)進行空間和時間的建模,然后進行融合得到最終結(jié)果。雙流體系結(jié)構(gòu)具有較好的分類效果,后續(xù)有許多工作在此基礎(chǔ)上進行了相關(guān)的研究。Zheng等人[3]提出了一種用于視頻分類的混合深度學習模型,該模型首先使用卷積LSTM 提取空間特征和短時記憶特征,接著通過注意力機制賦予不同權(quán)重來區(qū)分不同時刻序列的重要性,最后采用雙向LSTM 提取周期特征。Wang 等人[4]提出了一種基于隨機抽樣方案的分類模型,稱為時間段網(wǎng)絡(luò)(Temporal Segment Network,TSN),通過對視頻端進行分段和隨機窗口采樣,降低了提取長程時間關(guān)系的計算量。為了進一步提高TSN 的性能,Zhou 等人[5]中提出了一種多尺度采樣和融合框架。

為了更直觀的捕獲視頻中的時空特征,基于3D卷積的行為分類模型被較多人研究。文獻[6]提出了一種基于3DCNN(3D Convolution,C3D)的分類模型,可以通過卷積操作對空間和時間進行建模。由于額外的核維數(shù),C3D 具有大量的參數(shù)和計算開銷。文獻[7]提出了一種膨脹3D 卷積(Inflated 3D ConvNet,I3D),通過在時域上進行額外的卷積運算,而不是直接使用3D 內(nèi)核,以減小網(wǎng)絡(luò)的規(guī)模。Fan 等人[8]提出了RubiksNet,通過一種3D 時空移位操作,減少了卷積計算次數(shù)。Dong 等人[9]提出了AR3D,通過構(gòu)建一種注意力殘差網(wǎng)絡(luò),減少了3D 卷積的計算量,提升了模型的性能。

鑒于光流和3D 卷積都需要較大的計算量,Lin 等人[10]提出了時間移位模型(Temporal shift module,TSM),通過將相鄰幀的特征值移位,交換不同時刻視頻幀之間的特征圖,實現(xiàn)時間特征的提取,進而可以使用2D 卷積來進行行為識別。相較于3D 卷積的模型,TSM 在推理速度和準確率方面都有顯著提升。Wang L 人[11]等提出了時間差分網(wǎng)絡(luò)(Temporal Difference Networks,TDN)模型,采用RGB 差分的方法融合時間特征,并通過2D卷積進行行為識別。

3 DSconv-LSTM

3.1 模型架構(gòu)設(shè)計

本小節(jié)主要利用DSconv-LSTM 和自注意力機制設(shè)計了一個行為識別模型。圖1 給出了分類模型的架構(gòu),主要包括:數(shù)據(jù)源模塊、RGB 視頻數(shù)據(jù)模塊和DSconv-LSTM 模塊三部分。數(shù)據(jù)源模塊負責獲取邊緣環(huán)境(如智慧家居、智慧交通等)下RGB 視頻信息,并進行視頻幀的預(yù)處理。RGB 幀模塊主要通過VGG-16[14]或VGG-19[15]進行特征提取。由于視頻是一種時空特征數(shù)據(jù),需要通過Dsconv-LSTM 模塊對時間進行建模,接著通過自注意力模塊提取特征映射,最后給出識別結(jié)果。

圖1 邊緣行為識別系統(tǒng)

3.2 Dsconv-LSTM 單元

DSconv-LSTM 單元將深度可分離卷積(DSconv)用于處理Conv-LSTM學習單元四個門的時空數(shù)據(jù)。

Dsconv 主要有Dconv 和Pconv 兩個子操作組成,如圖2所示。

圖2 DSconv結(jié)構(gòu)

DSconv 首先使用Dconv 進行空間建模,然后使用Pconv 進 行 時 間 建 模。Conv、Pconv、Dconv 和DSconv的數(shù)學公式分別如下:

在公式(1)、(2)、(3)和(4)中,W、W p和W d分別是Conv、Pconv 和Dconv 的卷積核。K,L和M分別代表卷積核的寬度,高度和卷積核個數(shù)。(i,j)是每次卷積操作的起始位置,x是輸入數(shù)據(jù),⊙表示矩陣對應(yīng)元素相乘。雖然DSconv 需要兩步來處理所有輸入數(shù)據(jù),但可以減少卷積的許多參數(shù)和計算。

DSconv-LSTM 學習單元也有四個門來處理數(shù)據(jù)輸入,這與Conv-LSTM 學習單元類似,如圖3 所示。DSconv-LSTM學習單元的數(shù)學表示如下:

圖3 DSconv-LSTM 學習單元

Dsconv-LSTM學習單元在t時刻的四個門分別

表示輸入門i(t),遺忘門f(t),輸出門o(t)以及輸入調(diào)整門。x(t),c(t)和h(t)分別表示t時刻的輸入數(shù)據(jù),細胞狀態(tài)和隱藏層狀態(tài)。Wx,i,Wx,f,Wx,o,Wx,c與Wh,i,Wh,o,Wh,c,Wh,f分別代表Dsconv 的i(t),f(t),o(t),關(guān)于x(t)和h(t)的卷積核。bi,b f,bo,分別表示i(t),f(t),o(t),的偏置。σ和tanh 分別表示Sigmoid激活函數(shù)和雙曲正切激活函數(shù)。最后,可以將多個DSconv-LSTM學習單元構(gòu)成單層或多層結(jié)構(gòu),其中單層結(jié)構(gòu)如圖3所示。

3.3 自注意力機制

在傳統(tǒng)結(jié)構(gòu)中,LSTM 輸出的最后一個特征映射會被用于數(shù)據(jù)處理的下一階段。然而,這種方法可能會丟失許多重要的特征圖,從而影響行為識別的準確性。這里采用自注意力機制來解決這個問題。自注意力機制可以提取DSconv-LSTM 輸出的特征映射中最重要的特征,數(shù)學表示如下:

其中,o(t)表示Dsconv-LSTM 學習單元在t時刻的輸出。Tanh(·)表示雙曲正切激活函數(shù)。自注意力機制首先通過公式(12)計算每個輸入u(t)的權(quán)重α(t)。exp(·)表示指數(shù)函數(shù)。o'表示自注意力,即權(quán)重α(t)和輸入u(t)之間的線性組合。

4 實驗

4.1 數(shù)據(jù)集和實驗環(huán)境

本節(jié)主要介紹用到的數(shù)據(jù)集和實驗環(huán)境。模型將通過UCF11和Olympic-sports兩個公開數(shù)據(jù)集進行訓練,如表1所示。實驗中,兩個數(shù)據(jù)集被隨機分為70%的訓練集和15%的測試集和15%的驗證集?;赥ensorflow構(gòu)建了DSconv-LSTM模型和Conv-LSTM模型,GPU采用了兩個16G內(nèi)存的Tesla P100-PCIE。

表1 UCF-11數(shù)據(jù)集和Olympic-sports數(shù)據(jù)集

4.2 模型參數(shù)設(shè)置

為了減少不同參數(shù)設(shè)置對結(jié)果的影響,實驗將兩個模型中除了卷積核之外的大多數(shù)參數(shù)都設(shè)置為相同的值,如表2所示。

表2 模型參數(shù)設(shè)置

在DSconv-LSTM 模型中,Dconv 和Pconv 卷積核分別設(shè)置為(3×3×4096)和(1×1×4096)。 在Conv-LSTM 模型中,Conv 的濾波器設(shè)置為(3×3×4096)。兩個模型的Dropout 和最大池的濾波器分別設(shè)置為0.5和(7×7×4096)。此外,模型的學習率、批大小和幀窗口大小分別設(shè)置為0.0001,6 和40。DSconv-LSTM 單元和Conv-LSTM 單元的個數(shù)都設(shè)置為1024。本實驗使用Vgg-16 和Vgg-19 從視頻中提取特征圖,以便觀測不同預(yù)處理方法的影響。

4.3 實驗結(jié)果與分析

實驗從性能和效果兩方面對模型進行了評價。其中,表3 展示了DSconv-LSTM 和Conv-LSTM 模型的大小,參數(shù)個數(shù)和推理時間。相比于Conv-LSTM,DSconv-LSTM 的模型大小和參數(shù)個數(shù)減少了約3倍,推理時間減少了約50%。

表3 模型性能的對比

圖4 展示了不同預(yù)處理方法和數(shù)據(jù)集下Conv-LSTM 模型和DSconv-LSTM 模型對于測試精度和訓練時間之間的關(guān)系。從圖4 可以看到,不同的預(yù)處理方法對模型訓練有一定影響,但DSconv-LSTM 模型在兩種條件下都波動較小,并可以快速收斂到最優(yōu)模型。此外,與Vgg-16 相比,Vgg-19 的特征提取對模型性能有更高的提升。表4 展示了兩種模型在不同預(yù)處理模型和數(shù)據(jù)集下行為識別的準確率。對于UCF-11 數(shù)據(jù)集和Vgg16 預(yù)處理模型,DSconv-LSTM 的識別準確率為92.5466%,與Conv-LSTM 模型相比,準確率高了0.1553%。對于UCF-11 數(shù)據(jù)集和Vgg-19 預(yù)處理模型,DSconv-LSTM 模型的最高測試精度為93.6335%,比Conv-LSTM 提高了1.2421%。對于Olympic-sports 數(shù)據(jù)集和Vgg16 預(yù)處理模型,DSconv-LSTM 模型的識別精度為63.1902%,比Conv-LSTM 提高1.227%。對于Olympic-sports 數(shù)據(jù)集和Vgg-19 預(yù)處理模型,DSconv-LSTM 模型的最高測試精度為71.7791%,比Conv-LSTM 模型提高了3.6809%。這表明DSconv-LSTM 模型識別精度仍保持了較高水平。

表4 識別效果評價

圖4 Conv-LSTM 和DSconv-LSTM 模型的準確性。

綜上可見,DSconv-LSTM 可以快速收斂到最優(yōu)模型,并保持較高的識別準確率。與Conv-LSTM 相比,DSconv-LSTM 的模型大小減少了約3 倍,推理時間減少了約50%。

5 結(jié)論

本文提出了一種基于DSconv-LSTM 的輕量級視頻行為識別模型,可以在邊緣設(shè)備上進行應(yīng)用。與Conv-LSTM 模型相比,DSconv-LSTM 不僅可以保證行為識別的準確性,并減小了尺寸和參數(shù)數(shù)量,而且可以快速收斂,降低模型訓練和推理的時間。該框架的不足之處是:預(yù)處理方法仍需要大量的時間和計算資源從視頻中提取特征圖。后續(xù)工作將關(guān)注預(yù)處理優(yōu)化技術(shù),進一步提高動作識別的實時性,以及減少資源消耗。

猜你喜歡
預(yù)處理邊緣卷積
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準確測定
KR預(yù)處理工藝參數(shù)對脫硫劑分散行為的影響
預(yù)處理對醫(yī)用外科口罩用熔噴布顆粒過濾性能的影響
手術(shù)器械預(yù)處理在手術(shù)室的應(yīng)用
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
一種并行不對稱空洞卷積模塊①
污泥預(yù)處理及其在硅酸鹽制品中的運用
一張圖看懂邊緣計算
在邊緣尋找自我