張德正 翁理國 夏旻 曹輝
摘 要:針對視頻幀預(yù)測中難以準確預(yù)測空間結(jié)構(gòu)信息細節(jié)的問題,通過對卷積長短時記憶(LSTM)神經(jīng)網(wǎng)絡(luò)的改進,提出了一種深度卷積長短時神經(jīng)網(wǎng)絡(luò)的方法。首先,將輸入序列圖像輸入到兩個不同通道的深度卷積LSTM網(wǎng)絡(luò)組成的編碼網(wǎng)絡(luò)中,由編碼網(wǎng)絡(luò)學(xué)習(xí)輸入序列圖像的位置信息變化特征和空間結(jié)構(gòu)信息變化特征;然后,將學(xué)習(xí)到的變化特征輸入到與編碼網(wǎng)絡(luò)通道數(shù)對應(yīng)的解碼網(wǎng)絡(luò)中,由解碼網(wǎng)絡(luò)輸出預(yù)測的下一張圖;最后,將這張圖輸入回解碼網(wǎng)絡(luò)中,預(yù)測接下來的一張圖,循環(huán)預(yù)先設(shè)定的次后輸出全部的預(yù)測圖。與卷積LSTM神經(jīng)網(wǎng)絡(luò)相比,在Moving-MNIST數(shù)據(jù)集上的實驗中,相同訓(xùn)練步數(shù)下所提方法不僅保留了位置信息預(yù)測準確的特點,而且空間結(jié)構(gòu)信息細節(jié)表征能力更強。同時,將卷積門控循環(huán)單元(GRU)神經(jīng)網(wǎng)絡(luò)的卷積層加深后,該方法在空間結(jié)構(gòu)信息細節(jié)表征上也取得了提升,檢驗了該方法思想的通用性。
關(guān)鍵詞:視頻幀預(yù)測;卷積神經(jīng)網(wǎng)絡(luò);長短時記憶神經(jīng)網(wǎng)絡(luò);編碼預(yù)測;卷積門控循環(huán)單元
中圖分類號: TP183? 文獻標志碼: A
文獻標志碼:A
Abstract: Concerning the difficulty in accurately predicting the spatial structure information details in video frame prediction, a method of deep convolutional Long Short Term Memory (LSTM) neural network was proposed by the improvement of the convolutional LSTM neural network. Firstly, the input sequence images were input into the coding network composed of two deep convolutional LSTM of different channels, and the position information change features and the spatial structure information change features of the input sequence images were learned by the coding network. Then, the learned change features were input into the decoding network corresponding to the coding network channel, and the next predicted picture was output by the decoding network. Finally, the picture was input back to the decoding network, and the next picture was predicted, and all the predicted pictures were output after the pre-set loop times. In the experiments on Moving-MNIST dataset, compared with the convolutional LSTM neural network, the proposed method preserved the accuracy of position information prediction, and had stronger spatial structure information detail representation ability with the same training steps. With the convolutional layer of the convolutional Gated Recurrent Unit (GRU) deepened, the method improved the details of the spatial structure information, verifying the versatility of the idea of the proposed method.
Key words: video frame prediction; Convolutional Neural Network (CNN); Long and Short-Term Memory (LSTM) neural network; encoding prediction; convolutional Gated Recurrent Unit (GRU)
0 引言
在近些年深度學(xué)習(xí)快速發(fā)展的背景下,多種以前難以很好解決的計算機視覺問題有了解決方案。視頻幀預(yù)測作為計算機視覺的難點問題,長期以來得不到很好的解決,也難以引起人們的重視,但是隨著無人駕駛技術(shù)的爆發(fā)式發(fā)展,對其的需求越來越迫切。原因是:研究人員看重視頻幀預(yù)測在無人駕駛過程中預(yù)測路面行人和車輛移動軌跡的能力。傳統(tǒng)的方法停留在車載雷達實時檢測車輛前方是否有障礙物,但不能預(yù)測t時刻后將與另一個移動物體路徑交匯發(fā)生碰撞,也就無法作出需要提前減速或者加速的判斷。這一能力對于危險情況有提前預(yù)防的作用,能夠顯著增強無人駕駛的安全性能。此外,視頻幀預(yù)測在夏季短時強降水的預(yù)測任務(wù)中也可以應(yīng)用。通過前一段時間雷達回波圖預(yù)測下一段時間雷達回波圖的可能情況,從而判斷接下來那些地方可能有強降水發(fā)生。視頻幀預(yù)測也為夏季多發(fā)的臺風(fēng)軌跡預(yù)測提供了一種方法。由于我國沿海大部分是季風(fēng)氣候,所以夏季東南沿海地區(qū)經(jīng)常受到臺風(fēng)的侵擾,良好地預(yù)測臺風(fēng)軌跡,對防災(zāi)減災(zāi)有重要意義。
目前,已經(jīng)被很好解決的識別、分類和目標檢測等問題的數(shù)據(jù)集都是靜態(tài)的圖片,即便是同一類別的兩張圖也不存在時空序列相關(guān)性。而視頻幀預(yù)測問題的前后兩幀甚至是間隔數(shù)幀依舊存在著很強的時空序列相關(guān)性。對于這類時空序列問題,近年來火熱的基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的AlexNet[1]、VGG(Visual Geometry Group)[2]、GoogLeNet[3]等算法都無法解決。主要原因是以上三種算法代表的卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點是對結(jié)構(gòu)表征能力很強,缺點是局限于靜態(tài)圖,無法建模動態(tài)圖的時空序列問題。如何建模時空序列問題,是一個比較基礎(chǔ)也比較重要的任務(wù)。起初研究人員注意力主要集中在人類動作預(yù)測方向,使用的方法大多基于統(tǒng)計學(xué)習(xí)和傳統(tǒng)的機器學(xué)習(xí)。Ryoo[4]把動作預(yù)測問題概率化,使用時空特征積分直方圖來建模特征分布與時間的變化關(guān)系。Zhu等[5]應(yīng)用條件隨機場提出了感知語法事件解析、推斷事件目標和預(yù)測可信動作的算法。Vondrick等[6]利用一種深度回歸網(wǎng)絡(luò)的方法來學(xué)習(xí)視頻表征,結(jié)合動作識別模型,能夠很好地根據(jù)靜態(tài)圖像來推測未來動作。除此之外,研究人員還進行了物體軌跡預(yù)測方向的研究。Kooij等[7]基于貝葉斯算法提出了動態(tài)貝葉斯網(wǎng)絡(luò),應(yīng)用于行人路徑預(yù)測。Walker等[8]的光流預(yù)測模型對靜態(tài)圖中的所有像素點進行光流標記,可以預(yù)測每一個像素的運動。Mottaghi等[9]使用兩個CNN和一個循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)來建模物體移動動態(tài),其結(jié)果表明可以從單個圖像中預(yù)測出物體的長期運動作為外力的反映。以上的運動預(yù)測模型多是從建模移動物體的運動軌跡出發(fā),能較好地預(yù)測物體的瞬時運動軌跡,但具有兩個缺點:一是不能預(yù)測多幀后物體準確位置;二是不能表征多幀后物體的結(jié)構(gòu)信息。
針對這兩個難解決的問題,本文在卷積長短時神經(jīng)網(wǎng)絡(luò)(Long and Short-Term Memory neural network, LSTM) [10]基礎(chǔ)上提出了深度卷積長短時神經(jīng)網(wǎng)絡(luò)模型,基于Moving-MNIST數(shù)據(jù)集的實驗表明,在多幀后的物體位置預(yù)測和物體結(jié)構(gòu)信息保留兩方面取得了更優(yōu)的效果。
1 卷積LSTM
1.1 循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)[11]的提出主要是為了解決自然語言處理領(lǐng)域的詞語長期依賴問題。該問題將一條語句甚至是段落轉(zhuǎn)化成詞向量,而語句中不同位置上的詞語存在高度相關(guān)性,體現(xiàn)在詞向量上就是不同元素間存在相關(guān)性,這就是序列問題。循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。在左邊部分中,x是神經(jīng)網(wǎng)絡(luò)的輸入;U是輸入層到隱藏層之間的權(quán)重矩陣;w是記憶單元到隱藏層之間的權(quán)重矩陣;V是隱藏層到輸出層之間的權(quán)重矩陣;s是隱藏層的輸出,同時也是要保存到記憶單元中,并與下一時刻的x一起作為輸入;O是神經(jīng)網(wǎng)絡(luò)的輸出。圖的右邊是展開結(jié)構(gòu)。循環(huán)神經(jīng)網(wǎng)絡(luò)接受多個獨立的輸入,并且最終輸出多個結(jié)果。將循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與一般的全連接神經(jīng)網(wǎng)絡(luò)比較,會發(fā)現(xiàn)循環(huán)神經(jīng)網(wǎng)絡(luò)只是多了一個記憶單元s,而這個記憶單元就是循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)鍵所在。t時刻的神經(jīng)元接受t時刻的輸入xt,并且在給出輸出之前參考上一時刻的記憶單元st-1,同樣的t時刻的神經(jīng)元也會留下該時刻的記憶單元st,用于下一個時刻的輸出參考。實際的效果就是將不同時刻狀態(tài)聯(lián)系到一起,建模了時間的相關(guān)性。
在后來的神經(jīng)網(wǎng)絡(luò)發(fā)展中,為了解決一些實際的問題,例如:文本情感分析[12]、語音識別等[13],研究人員提出了基于原始循環(huán)神經(jīng)網(wǎng)絡(luò)的變體,例如為了解決多輸入單分類的問題提出多輸入單輸出的循環(huán)神經(jīng)網(wǎng)絡(luò)。原始的循環(huán)神經(jīng)網(wǎng)絡(luò)還要求輸入與輸出長度對應(yīng),但在機器翻譯中源語言與目標語言的句子往往并沒有相同的長度,這時可采用輸入與輸出不等長(N vs M) 模型,這種結(jié)構(gòu)又稱為“編碼解碼”(Encoder-Decoder) 模型,也稱序列到序列(Seq2Seq)模型[14],是從自編碼器發(fā)展而來的。在諸多變種中,長短時神經(jīng)網(wǎng)絡(luò)(LSTM)模型由于能更好地處理長期依賴和訓(xùn)練時的梯度爆炸問題[15],所以經(jīng)常被使用。
1.2 卷積LSTM
卷積LSTM的提出是為了解決臨近降水預(yù)測問題,該問題的數(shù)據(jù)是雷達回波序列圖,有很強的時空相關(guān)特性。Shi等[16]在結(jié)合了LSTM的序列處理能力和CNN的空間特征表達能力后,提出了能夠解決時空序列預(yù)測問題的卷積LSTM模型。與各種循環(huán)神經(jīng)網(wǎng)絡(luò)不同的是:通過對輸入序列圖像使用卷積操作獲取圖像特征,在循環(huán)神經(jīng)網(wǎng)絡(luò)應(yīng)用于翻譯等任務(wù)時獲取的都是一維的詞向量輸入;而這里獲取的是二維的圖像輸入,也可以根據(jù)任務(wù)不同輸入三通道的彩色圖像,這時就變成了三維輸入。在視頻幀預(yù)測任務(wù)中,將單通道的64×64的數(shù)字序列圖像作為輸入。如圖2所示,卷積LSTM模型與LSTM模型具有同樣的三個門控制單元和一個隱藏層,分別是:輸入門it、遺忘門ft、輸出門ot和隱藏層ht。最大的不同是在當前時刻的輸入與隱層結(jié)合后進行了單層卷積計算,這個不同點是提取空間結(jié)構(gòu)信息的關(guān)鍵。
2 深度卷積LSTM
在深層卷積可以提取更抽象特征的思想啟發(fā)下,本文提出了深度卷積LSTM模型,卷積層的具體分布上不是簡單地加深而是參考了GoogLeNet中讓網(wǎng)絡(luò)變寬的方法[17-18],目的是解決普通卷積LSTM在預(yù)測多幀時結(jié)構(gòu)信息模糊的問題。具體操作是將輸入與隱層結(jié)合后的單層卷積加深,并且將不同層的卷積結(jié)果傳遞給不同的門控單元,卷積層之間用relu函數(shù)激活,結(jié)構(gòu)如圖3所示。
4 仿真實驗及分析
4.1 對比實驗
為了進一步對深度卷積LSTM模型有直觀了解,在Moving-MNIST數(shù)據(jù)集上比較改進的深度卷積LSTM網(wǎng)絡(luò)與普通卷積LSTM網(wǎng)絡(luò)。在測試了添加不同卷積層后,得到如下結(jié)論:
1)深度卷積LSTM在處理時空相關(guān)方面優(yōu)于卷積LSTM。
2)深度卷積LSTM對圖片結(jié)構(gòu)信息表征能力更強,細節(jié)信息可以傳遞到更深層預(yù)測。
對比用的兩個網(wǎng)絡(luò)都借用tensorflow框架,使用python語言編寫,運行在單塊NVIDIA TITAN X顯卡上。具體操作:將前10幀圖像作為輸入,通過使用反向傳播和最小化均方差損失來訓(xùn)練模型,學(xué)習(xí)率設(shè)置為10E-3。首先,使用普通卷積LSMT算法在訓(xùn)練后預(yù)測數(shù)字9和8的運動情況,結(jié)果如圖8(a)所示:第一行是輸入的前10幀圖像,第二行是真實的后10幀圖像,第三行是預(yù)測出的后10幀圖像;再與原算法對比使用改進的深度卷積LSTM網(wǎng)絡(luò)預(yù)測構(gòu)造比較復(fù)雜的9和8兩個數(shù)字的運動圖,結(jié)果如圖8(b)所示:第一行是輸入的前10幀圖像,第二行是真實的后10幀圖像,第三行是預(yù)測出的后10幀圖像。
通過觀察預(yù)測的結(jié)果圖8可以發(fā)現(xiàn),單層卷積LSTM網(wǎng)絡(luò)在預(yù)測時的表現(xiàn)很差,只有前邊兩幀圖像還能分辨出是數(shù)字9和8,到最后一幀圖片結(jié)構(gòu)信息完全丟失只剩模糊的像素點;反觀深度卷積LSMT網(wǎng)絡(luò)的預(yù)測結(jié)果,前邊的七幀都能較好地保持圖像的結(jié)構(gòu)信息,能分辨出是數(shù)字9和8,最后一幀的結(jié)構(gòu)信息也很模糊但還是有一些輪廓信息。也可以發(fā)現(xiàn),雖然原算法預(yù)測出的圖像結(jié)構(gòu)信息較差,但在位置信息預(yù)測上比較準確,這個優(yōu)點在改進的深度卷積LSTM上依然得到了保留,對于位置的預(yù)測還是一樣地準確。
4.2 算法通用性實驗
進一步討論加深卷積層的算法思想是否可以拓展到其他相關(guān)的序列預(yù)測算法上,實現(xiàn)性能的提升。為此,選擇同樣是由循環(huán)神經(jīng)網(wǎng)絡(luò)演變來的卷積門控循環(huán)單元(Gated Recurrent Unit, GRU)算法進行驗證。GRU是新一代的循環(huán)神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)上去掉了細胞狀態(tài),使用隱藏狀態(tài)來進行信息的傳遞,整體和LSTM非常相似。改進思路與深度卷積LSTM一樣,將卷積GRU的一層卷積加深為五層,卷積層之間用如圖10所示的relu激活函數(shù),有三點好處:1)防止梯度爆炸。2)計算速度快,只需要判斷是否大于0。3)收斂速度大于sigmoid和tanh。
4.3 任務(wù)通用性實驗
為了測試算法在不同類型圖像上的表現(xiàn),選取了阿里巴巴天池大數(shù)據(jù)比賽上的部分珠三角地區(qū)降水雷達回波數(shù)據(jù)集。結(jié)合深度卷積LSMT網(wǎng)絡(luò)的要求,對數(shù)據(jù)集中的61張降水回波圖按順序間隔兩張?zhí)舫鲆粡?,做出了輸?0張、輸出10張的序列圖。經(jīng)過訓(xùn)練后測試結(jié)果如圖13所示。從預(yù)測結(jié)果圖13來看,深度卷積LSMT對深黑色的降水區(qū)域預(yù)測更準確,重合更大,尤其從前邊的三張預(yù)測圖對比看出:原來的卷積LSMT網(wǎng)絡(luò)預(yù)測圖的左下角黑色降水區(qū)域偏差較大。原因還是因為卷積LSMT的單層卷積在訓(xùn)練時對圖像的深層特征學(xué)習(xí)不夠,相反深度卷積LSMT的五層卷積更能挖掘到圖像變化的深層特征。
同樣地在測試集上對比深度卷積LSMT網(wǎng)絡(luò)和卷積LSMT網(wǎng)絡(luò)的結(jié)構(gòu)相似度。深度卷積LSTM網(wǎng)絡(luò)在100個序列的測試集上取得了0.68的平均結(jié)構(gòu)相似度,卷積LSMT網(wǎng)絡(luò)的結(jié)構(gòu)相似度為0.62,結(jié)構(gòu)相似度提升了約9.7%。對比兩個數(shù)據(jù)集結(jié)果發(fā)現(xiàn),不論是否改進,算法整體的結(jié)構(gòu)相似度都比Moving-MNIST數(shù)據(jù)集表現(xiàn)好;區(qū)別在于雷達回波數(shù)據(jù)集中的圖像中雨云的結(jié)構(gòu)不是固定的,而Moving-MNIST數(shù)據(jù)集中的移動數(shù)字結(jié)構(gòu)是固定的,所以固定的結(jié)構(gòu)預(yù)測難度更大。此外,在Moving-MNIST數(shù)據(jù)集上深度卷積LSMT網(wǎng)絡(luò)在結(jié)構(gòu)相似度上提升了14.58%,而雷達回波圖上才提升了9.7%。這和雨云的運動高度相關(guān),數(shù)字圖僅僅是有方向性的運動,而雨云不僅運動還可能降水消失,具有突變性,所以提升難度更大。綜合表現(xiàn)來看,深度卷積LSMT對圖像的空間結(jié)構(gòu)信息預(yù)測更準確,但在圖片信息出現(xiàn)突變的情況中提升效果會下降。
5 結(jié)語
通過對卷積LSTM網(wǎng)絡(luò)的加深和不同卷積層與不同門控單元的結(jié)合,深度卷積LSTM模型成功增強了模型在時空序列預(yù)測問題中的空間結(jié)構(gòu)信息表征能力,在圖像細節(jié)的表達能力上明顯優(yōu)于原模型;在位置預(yù)測上,依然繼承了卷積LSTM算法的精準度;并且加深的算法思想在同樣可以作序列預(yù)測的卷積GRU模型上驗證了,加深卷積層來提升空間結(jié)構(gòu)信息表征能力的想法是有效的、可行的。但是從序列預(yù)測的結(jié)果圖來看,經(jīng)過深度卷積加深的網(wǎng)絡(luò)依然很難將清晰的結(jié)構(gòu)信息保留到7幀之后。分析原因,首先最小化均方差作為損失函數(shù),會使得在反向傳播后修正像素點值時過分追求均值最小,將誤差均值化從而導(dǎo)致了模糊;其次,序列預(yù)測的過程中是利用前一張的預(yù)測結(jié)果預(yù)測下一張,誤差會累計。這兩方面還有很大的優(yōu)化空間,未來將作進一步的研究。
參考文獻 (References)
[1] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. North Miami Beach, FL: Curran Associates Inc., 2012: 1097-1105.
[2] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2018-10-15]. https://arxiv.org/pdf/1409.1556.pdf.
[3] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE, 2015: 1-9.
[4] RYOO M S. Human activity prediction: early recognition of ongoing activities from streaming videos [C]// Proceedings of the 2011 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2011: 1036-1043.
[5] ZHU S, JIA Y, PEI M. Parsing video events with goal inference and intent prediction [C]// Proceedings of the 2011 International Conference on Computer Vision. Piscataway, NJ: IEEE, 2011: 487-494.
[6] VONDRICK C, PIRSIAVASH H, TORRALBA A. Anticipating visual representations from unlabeled video [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 98-106.
[7] KOOIJ J F P, SCHNEIDER N, FLOHR F,et al. Context-based pedestrian path prediction [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8694. Berlin: Springer, 2014: 618-633.
[8] WALKER J, GUPTA A, HEBERT M. Dense optical flow prediction from a static image [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 2443-2451.
[9] MOTTAGHI R, RASTEGARI M, GUPTA A, et al. “What happens if…” learning to predict the effect of forces in images [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9908. Berlin: Springer, 2016: 269-285.
[10] HOCHREITER S, SCHMIDHUBER J. Long short-term memory [J]. Neural Computation, 1997, 9(8): 1735-1780.
[11] ELMAN J L. Distributed representations, simple recurrent net-works, and grammatical structure [J]. Machine Learning, 1991, 7(2/3): 195-225.
[12] 李洋,董紅斌.基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J].計算機應(yīng)用,2018,38(11):3075-3080.(LI Y, DONG H B. Text sentiment analysis based on feature fusion of convolution neural network and bidirectional long short-term memory network [J]. Journal of Computer Applications, 2018, 38(11): 3075-3080.)
[13] 姚煜,RYAD C.基于雙向長短時記憶聯(lián)結(jié)時序分類和加權(quán)有限狀態(tài)轉(zhuǎn)換器的端到端中文語音識別系統(tǒng)[J].計算機應(yīng)用,2018,38(9):2495-2499.(YAO W, RYAD C. End-to-end Chinese speech recognition system based on bidirectional long-term memory-timed timing classification and weighted finite state converter [J]. Journal of Computer Applications, 2018, 38(9): 2495-2499.)
[14] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [C]// Proceedings of the 2014 Neural Information Processing Systems Conference. Cambridge, MA: MIT Press, 2014: 3104-3112.
[15] BENGIO Y, SIMARD P, FRASCONI P. Learning long-term dependencies with gradient descent is difficult [J]. IEEE Transactions on Neural Networks, 1994, 5(2): 157-166.
[16] SHI X J, CHEN Z R, WANG H, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting [C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 802-810.
[17] MOLLAHOSSEINI A, CHAN D, MAHOOR M H. Going deeper in facial expression recognition using deep neural networks [C]// Proceedings of the 2016 IEEE Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE, 2016: 1-10.
[18] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]// Proceedings of the 32nd International Conference on International Conference on Machine Learning. Cambridge, MA: MIT Press, 2015: 448-486.
[19] LESHNO M, LIN V Y, PINKUS A, et al. Original contribution: multilayer feedforward networks with a nonpolynomial activation function can approximate any function [J]. Neural Networks, 1991, 6(6): 861-867.