張圓圓,黃宜軍,王躍飛
(1.欽州學(xué)院 機械與船舶海洋工程學(xué)院,廣西 欽州 535011; 2.欽州市物聯(lián)網(wǎng)先進(jìn)技術(shù)重點實驗室, 廣西 欽州 535011)(*通信作者電子郵箱742036673@qq.com)
隨著互聯(lián)網(wǎng)及大數(shù)據(jù)多媒體的高速發(fā)展,社會生產(chǎn)中產(chǎn)生了海量的視頻數(shù)據(jù),同時也對這些信息的應(yīng)用提出了更多的需求。如何高效檢索視頻內(nèi)容并標(biāo)注,已然成為大數(shù)據(jù)、機器視覺及多媒體應(yīng)用領(lǐng)域研究的熱點。如室內(nèi)場景下在監(jiān)控視頻中進(jìn)行關(guān)鍵物體的檢測和跟蹤目前仍然需要依賴人工的輔助。同時,近年來虛擬現(xiàn)實技術(shù)也在快速發(fā)展,在應(yīng)用中虛擬場景以及物體的編輯處理也是一個亟需解決的問題。
如圖1所示,視頻語義標(biāo)注能夠標(biāo)識出圖像中的每個個體及其形狀和位置等信息。通過對視頻的自動化處理,得到每一幀的語義標(biāo)注圖,是物體檢測、跟蹤、場景分割、紋理結(jié)構(gòu)分析等諸多計算機視覺領(lǐng)域中需要處理的關(guān)鍵步驟[1-3]。研究這些視頻的幀級語義信息,具有重要的研究意義。
圖1 紋理圖像及其語義標(biāo)注圖Fig. 1 Texture image and its semantic annotation map
基于機器學(xué)習(xí)的標(biāo)注是通過對部分視頻進(jìn)行手工標(biāo)注所得數(shù)據(jù)(訓(xùn)練樣本)進(jìn)行學(xué)習(xí),建立語義概念的模型,再將該模型進(jìn)行推廣,用以完成其他視頻的標(biāo)注。國內(nèi)外學(xué)者將圖像處理、機器學(xué)習(xí)等技術(shù)結(jié)合起來進(jìn)行視頻信息標(biāo)注。文獻(xiàn)[4]采用貝葉斯分類器對醫(yī)療視頻的語義概念進(jìn)行分類,該標(biāo)注概念統(tǒng)計模型往往需要建立在很大的訓(xùn)練集之上,以保證其具有良好的推廣性能,但獲取訓(xùn)練集需要大量的人工勞動;另一方面,如何利用樣本數(shù)據(jù)提高分類器性能仍是當(dāng)前的技術(shù)難題。
文獻(xiàn)[5]使用自適應(yīng)支持向量機進(jìn)行跨域視頻概念檢測,使得視頻分類器具備自適應(yīng)能力。該方法在數(shù)據(jù)量不大、實時性要求不高的情況下,能取得不錯的效果,但有限的資源庫無法支持大規(guī)模的運算。文獻(xiàn)[6]提出一種基于Spark的視頻標(biāo)注方法,利用強計算能力,通過顏色、紋理、分形三重特征表征一類實體,進(jìn)而采用元學(xué)習(xí)策略進(jìn)行訓(xùn)練及預(yù)測。相對于傳統(tǒng)方法,該標(biāo)注法在標(biāo)注效率上有很大提高。文獻(xiàn)[7] 基于自然圖像和視頻數(shù)據(jù)場景復(fù)雜及目標(biāo)先驗獲取困難的問題,對語義可挖掘性及區(qū)域可判別性展開了深入的研究,然而由于圖像視頻內(nèi)容的多義性、訓(xùn)練數(shù)據(jù)集的復(fù)雜性,使得視頻語義標(biāo)注受到巨大的挑戰(zhàn)。
另一方面,紐約大學(xué)的Yann LeCun 團(tuán)隊圍繞深度學(xué)習(xí)的研究,在場景標(biāo)注方面也有許多進(jìn)展。微軟研究院團(tuán)隊也應(yīng)用隨機森林的模型對場景標(biāo)注問題進(jìn)行了探索。但這些圖像場景標(biāo)注研究的是二維圖像。
針對室內(nèi)場景視頻的三維圖像標(biāo)注問題,本文提出了一種基于紋理信息的語義標(biāo)注信息學(xué)習(xí)法。其中視頻關(guān)鍵幀的精確標(biāo)注由人工提供,通過利用視頻的時間相關(guān)性,采用光流方法,得到關(guān)鍵幀與非關(guān)鍵幀間的運動信息,求解出非關(guān)鍵幀。然后,將關(guān)鍵幀上的語義標(biāo)注信息映射到非關(guān)鍵幀上。同時,語義標(biāo)注信息與非關(guān)鍵幀圖像的紋理信息存在相似性,進(jìn)而構(gòu)建能量方程約束非關(guān)鍵幀。最后,通過圖割的方法來求解能量方程的最小化解,得到的解即為非關(guān)鍵幀的標(biāo)注結(jié)果。該方法提高了室內(nèi)場景視頻語義信息的標(biāo)注精度和效率,能夠用于室內(nèi)場景視頻語義標(biāo)注信息的生成[8]。
在視頻語義信息的弱監(jiān)督方法中:對于視頻中在相鄰幀存在劇烈變化或者具有場景代表性的關(guān)鍵幀,需要人工提供精確的標(biāo)注;而對于其余非關(guān)鍵幀,則需要通過視頻的時間與空間相關(guān)性,按照非關(guān)鍵幀“學(xué)習(xí)”語義標(biāo)注的方式原理來獲取,目前一般有運動估計方法和機器學(xué)習(xí)方法這兩類。
該方法通過尋找兩幅圖像之間的運動向量,使得非關(guān)鍵幀利用關(guān)鍵幀的標(biāo)注信息和運動向量得到自身的語義標(biāo)注[9]。其中運動估計可以通過基于像素匹配的直接估計法和基于特征點匹配的間接估計法得到。對于直接的運動估計,目前有基于塊匹配的算法和光流法。然而運動估計法存在兩個問題:首先,在實際應(yīng)用中,由于存在幀間的遮擋以及圖像部分內(nèi)容缺乏紋理信息,該方法不能獲取非關(guān)鍵幀中各點與關(guān)鍵幀的對應(yīng)關(guān)系;同時,隨著幀間時間間隔的增加,非關(guān)鍵幀與關(guān)鍵幀之間的相同部分會變少[10]。因此,通過運動估計得到的標(biāo)注準(zhǔn)確率會逐漸降低。上述問題制約了運動估計方法在長時間序列上的語義信息學(xué)習(xí)的應(yīng)用。
在機器學(xué)習(xí)領(lǐng)域中,語義信息生成法在視頻的語義標(biāo)注學(xué)習(xí)中受到廣泛的研究。在該領(lǐng)域中,作為訓(xùn)練得到的圖片來產(chǎn)生模型,然后進(jìn)行物體識別,再對相似問題進(jìn)行處理。Badrinarayanan等[10]提出了基于概率圖模型的方法。該模型中包含圖像層、標(biāo)注層以及隱含層。文中假設(shè),該模型屬于隱馬爾可夫模型,即每一個像素點的標(biāo)注與且僅與當(dāng)前點的紋理信息和前一個像素點的標(biāo)注與紋理相關(guān)。文中模型使用關(guān)鍵幀語義標(biāo)注,采用期望最大化(Exception Maximum, EM)算法進(jìn)行了訓(xùn)練。Bai等[11]將視頻序列看作一個空間-時間的三維立方,然后采用基于最短路徑的距離的方法來學(xué)習(xí)語義標(biāo)注。其他學(xué)習(xí)方法還包括基于超像素、時域樹結(jié)構(gòu)和局部化隨機森林的機器學(xué)習(xí)方法[12-13]。
上述方法中非關(guān)鍵幀的語義信息僅依賴于由訓(xùn)練得到的模型,而忽略了視頻中存在的時間相關(guān)性,它得到的各個幀的語義標(biāo)注是相互獨立而非關(guān)聯(lián)的,從而影響了語義標(biāo)注結(jié)果的準(zhǔn)確率。Chen等[8]提出了綜合運動信息、機器學(xué)習(xí)模型的學(xué)習(xí)方法,該方法充分利用了視頻中的時間與空間相關(guān)性,相比于其他方法,該方法得到了更高的標(biāo)注準(zhǔn)確率。
如前文所述,基于機器學(xué)習(xí)的方法依賴于大量的已標(biāo)注數(shù)據(jù),而在視頻語義信息學(xué)習(xí)問題中,人工只能提供少量的標(biāo)注。同時,基于機器學(xué)習(xí)的方法的標(biāo)注預(yù)測準(zhǔn)確率依賴于對未知標(biāo)注的分布估計,但在各類自然視頻中很難得到一種分布模型能有效描述所有視頻的語義標(biāo)注分布[10]。上述兩點制約了基于模型的機器學(xué)習(xí)方法的應(yīng)用。
本文所研究的的弱監(jiān)督學(xué)習(xí)是通過已知數(shù)據(jù)和其一一對應(yīng)的弱標(biāo)簽,訓(xùn)練一個智能算法,將輸入數(shù)據(jù)映射到一組更強標(biāo)簽的過程。是指利用Image-level的標(biāo)注信息,通過弱監(jiān)督方式學(xué)出一個模型,該模型可以預(yù)測出圖像的語義標(biāo)注結(jié)果。根據(jù)所標(biāo)注概念在視頻結(jié)構(gòu)上的不同層次,可將視頻標(biāo)注劃分為下面三種:關(guān)鍵幀(非關(guān)鍵幀)圖像層標(biāo)注、視頻類型層標(biāo)注和圖像中的物體層標(biāo)注。紋理是物體表面固有的一種特性,它具有區(qū)域特性和旋轉(zhuǎn)不變性,反映了不同對象之間的區(qū)分,所以紋理信息也是圖像的主要提取特征。
本文是基于圖片紋理信息的視頻弱監(jiān)督語義信息學(xué)習(xí),研究方案如下:首先,由人工進(jìn)行關(guān)鍵幀(相鄰視頻幀中有代表性的幀或是存在劇烈變化的幀)的選擇并進(jìn)行精確的語義標(biāo)注;接下來,通過光流法與關(guān)鍵幀進(jìn)行運動估計,得到視頻中每一非關(guān)鍵幀的信息,再利用關(guān)鍵幀的語義標(biāo)注生成非關(guān)鍵幀的初始化語義標(biāo)注;然后,結(jié)合初始化標(biāo)注以及非關(guān)鍵幀的紋理圖片信息的約束,生成最終的語義標(biāo)注結(jié)果。在針對視頻中每一非關(guān)鍵幀應(yīng)用該算法后,即可得到視頻的語義標(biāo)注信息。非關(guān)鍵幀的語義標(biāo)注信息的生成過程如圖2所示。
在此過程中需要兩幀之間的運動信息以及非關(guān)鍵幀的紋理信息。非關(guān)鍵幀最終的語義標(biāo)注結(jié)果,既需要與通過運動信息得到的初始化語義標(biāo)注相符,也需要與紋理圖片一致。通過求解兩個一致來約束得到更加準(zhǔn)確、高效的語義標(biāo)注。紋理一致性反映在:紋理圖片的平坦區(qū)域,應(yīng)該是同一個物體語義標(biāo)注;而在紋理圖片的邊界周圍,可以存在不同的物體語義標(biāo)注。本文將非關(guān)鍵幀的語義標(biāo)注生成問題形式轉(zhuǎn)為最優(yōu)化問題,構(gòu)建了一個符合上述問題特性的能量方程。
該最優(yōu)化問題即是非線性約束優(yōu)化,在原有目標(biāo)函數(shù)中加上一個障礙函數(shù),從而得到一個增廣目標(biāo)函數(shù),罰函數(shù)的功能是對非可行點或企圖穿越邊界而逃離可行域的點賦予一個極大的值,將約束最優(yōu)化問題轉(zhuǎn)化為求該方程的最小化求解,即得到非關(guān)鍵幀的語義標(biāo)注結(jié)果。
圖2 非關(guān)鍵幀語義標(biāo)注學(xué)習(xí)算法框架Fig. 2 Framework of non-key frame semantic annotation learning
本文所構(gòu)建的能量方程如式(1):
(1)
其中:LE表示能量方程的解(即非關(guān)鍵幀的語義標(biāo)注);變量u表示能量方程求解過程中的中間解;Ls表示通過運動信息得到的非關(guān)鍵幀初始化語義標(biāo)注;求解的能量方程中數(shù)據(jù)項D約束了能量方程的解與初始化語義標(biāo)注的一致性;平滑項S約束了解與紋理圖片的一致性;α作為平衡數(shù)據(jù)項與平滑項間權(quán)重的參數(shù)。
數(shù)據(jù)項D約束了能量方程的解與初始化語義標(biāo)注的一致性,其形式化表示如下:
(2)
式中:符號x即表示非關(guān)鍵幀中每一個像素點的坐標(biāo);W代表一個權(quán)重矩陣,表示非關(guān)鍵幀中任一個位置得到的初始化語義標(biāo)注的置信度,其取值為0或1,其中0代表該位置的初始化語義標(biāo)注不可信,而1則表示可信。通過權(quán)重矩陣W,數(shù)據(jù)項能更好地約束初始化語義標(biāo)注與最終解的一致性。本文中數(shù)據(jù)項的積分空間是非關(guān)鍵幀的全部空間。
δ是一個二元函數(shù),當(dāng)函數(shù)中兩個形式參數(shù)值不等時函數(shù)返回1,否則返回0,其形式化表達(dá)如下:
(3)
文獻(xiàn)[14]中提出了一種目前最優(yōu)的基于圖片金字塔技術(shù)的光流算法。即首先滿足三個條件的假設(shè):同一點隨著時間的變化,其亮度不會發(fā)生改變,用于得到光流法基本方程亮度恒定;小運動假設(shè),時間的變化不會引起位置的劇烈變化,這樣在本文的實現(xiàn)中灰度才能對位置求偏導(dǎo);空間一致假設(shè),一個場景上鄰近的點投影到圖像上也是鄰近點,且鄰近點速度一致。其次,采用最小二乘法求解兩個未知方程。本文使用了文獻(xiàn)[14]中的光流方法得到非關(guān)鍵幀與關(guān)鍵幀間的運動信息,并最終得到了非關(guān)鍵幀的初始化語義標(biāo)注。當(dāng)非關(guān)鍵幀中的某一點存在初始化語義標(biāo)注信息時,則權(quán)重矩陣W的相應(yīng)位置置為1,否則置為0。因此,本文中的數(shù)據(jù)項通過給予能量方程的解與運動信息得到的初始化語義標(biāo)注,如果不一致,就得到懲罰的方式,約束了能量方程解與初始化語義標(biāo)注的一致性。
平滑項用于約束能量方程的解與紋理信息的一致性。參照圖1可以發(fā)現(xiàn),紋理一致性體現(xiàn)在如下兩個方面:紋理平滑區(qū)域代表其中的像素點間相關(guān)性高,因此應(yīng)具有同一種語義標(biāo)注;紋理邊界區(qū)域,邊界兩邊的像素點間相關(guān)性較低,往往可以被標(biāo)注為不同的語義信息。
本文中平滑項的形式化表示如下:
(4)
式中:N表示非關(guān)鍵幀中所有相鄰像素的像素對集合,在本文中相鄰像素定義為8鄰域點的集合;邊界因子B{x,y}表達(dá)了像素對中的x與y兩個像素間的相關(guān)程度。
一般情況下,紋理圖像中平滑區(qū)域的像素點間的值(灰度值或者RGB值)相似度較高;而邊界兩邊的像素點間值差異較高。在平滑項的表示中,平滑區(qū)域的像素點間邊界因子B{x,y}應(yīng)得到非零的正值。因此當(dāng)像素點間的語義標(biāo)注不同時,能量方程會給予懲罰;而像素點間的語義標(biāo)注相同則不會受到影響。邊界區(qū)域的像素點間的邊界因子B{x,y}應(yīng)趨近于零。當(dāng)邊界兩邊的像素點被標(biāo)注為不同語義信息時,能量方程不會給予懲罰。
本文引入了非同向擴散因子來表示邊界因子B{x,y}。通過非同向擴散因子,平滑項約束了紋理圖片平滑區(qū)域的語義標(biāo)注一致性和邊界區(qū)域的語義標(biāo)注信息可變性,最終約束了能量方程的解與紋理圖片信息的一致性。 非同向擴散因子的形式化表示如下:
B=exp(-β|▽IH|γ)nnT+n⊥n⊥T
(5)
式中:▽IH表示紋理圖片的顏色梯度;n表示紋理的顏色梯度的正規(guī)化方向,并有n=▽IH/|▽IH|;n⊥是紋理顏色梯度的法向量;因子β和γ用于平衡擴散強度和邊緣銳度。
通過對式(5)所定義的非同向擴散因子的分析,在紋理圖片像素值梯度較小的地方,得到的擴散系數(shù)較大;而紋理梯度較大的地方,得到的擴散系數(shù)會趨近于零。
參照2.1~2.2節(jié)關(guān)于能量方程數(shù)據(jù)項與平滑項的定義,本文所構(gòu)建的非關(guān)鍵幀語義信息學(xué)習(xí)能量方程最終形式化如下:
(6)
最小化該能量方程式(6)所得到的解,即最小化了能量方程中數(shù)據(jù)項與平滑項引入的懲罰。因此該能量方程約束了解與非關(guān)鍵幀通過運動信息得到的初始化語義標(biāo)注和圖片紋理信息的一致性。
本文中的非關(guān)鍵幀語義標(biāo)注問題可以被建模為馬爾可夫隨機場,相對應(yīng)的能量方程最小化問題可以視為馬爾可夫隨機場下的離散能量最優(yōu)化問題。圖割方法被廣泛用于該問題的求解并取得了較好的效果[15]。圖割方法的求解思路是,對能量方程建模一個與其數(shù)據(jù)項和平滑項一一對應(yīng)的流量圖,保證流量圖的最小割是能量方程的最小解。文獻(xiàn)[16]論證了如式(6)所示的能量方程可以通過圖割方法求解的數(shù)學(xué)原理。而多標(biāo)注情景下的流量圖構(gòu)建方法與最優(yōu)化求解方法在文獻(xiàn)[17]中有詳細(xì)的論證。在本文方法的實現(xiàn)中,使用了文獻(xiàn)[17]所提到的最優(yōu)化方法,該方法提供了通過定義數(shù)據(jù)損失和平滑損失構(gòu)建流量圖的接口和求解最小割的接口。本文將式(6)所定義的數(shù)據(jù)項和平滑項分別映射為流量圖構(gòu)建接口中的數(shù)據(jù)損失和平滑損失,最終通過求解流量圖最小割接口得到非關(guān)鍵幀語義標(biāo)注的解。
本文選取了紐約大學(xué)提供的室內(nèi)場景數(shù)據(jù)集以驗證本文方法的性能。該數(shù)據(jù)集擁有采集于各種室內(nèi)場景的視頻,同時包含了豐富的室內(nèi)常見物體[18]。然而,該數(shù)據(jù)集的視頻中只存在少量的圖片進(jìn)行過人工語義信息標(biāo)注。為評測本文提出的方法,本文利用了Massachusetts Institute of Technology提供的公開數(shù)據(jù)標(biāo)注工具LabelMe Online進(jìn)一步標(biāo)注了從數(shù)據(jù)集中選擇的視頻序列。標(biāo)注過程參照了紐約大學(xué)數(shù)據(jù)集中已存在的標(biāo)注結(jié)果,人工標(biāo)注所生成的基準(zhǔn)數(shù)據(jù)用于本文所提出方法的評測。
本文選取了3個視頻序列LivingRoom、StudyRoom以及ComputerLab進(jìn)行非關(guān)鍵幀語義信息學(xué)習(xí)算法的評測。在每一個視頻序列中,第1幀由人工提供了精準(zhǔn)的語義標(biāo)注信息。然后通過標(biāo)注學(xué)習(xí)算法生成第2至30幀的語義信息。本文所提出的方法、Chen等[8]提出的綜合運動信息與機器學(xué)習(xí)模型的基準(zhǔn)方法,以及單純的運動估計算法在實驗序列上的標(biāo)注學(xué)習(xí)準(zhǔn)確率如圖3所示。由圖3可以看出,相比于基準(zhǔn)方法,本文所提出的方法能夠得到更高的準(zhǔn)確率,同時語義標(biāo)注學(xué)習(xí)準(zhǔn)確率隨著幀數(shù)的增加能保持穩(wěn)定。
圖3 不同標(biāo)注學(xué)習(xí)算法準(zhǔn)確率比較Fig. 3 Accuracy comparison of different annotation learning algorithms
不同室內(nèi)場景下,語義標(biāo)注學(xué)習(xí)算法的標(biāo)注視覺效果分別如圖4(a)、4(b)所示。
由圖4可以看出,由于運動信息存在缺失,基于運動估計的學(xué)習(xí)算法會產(chǎn)生缺少標(biāo)注結(jié)果的“黑洞”。相比于基準(zhǔn)方法[8],本文方法的標(biāo)注結(jié)果與人工語義標(biāo)注結(jié)果保持一致。在視覺效果圖中可以看到,本文方法的學(xué)習(xí)結(jié)果保持了平滑區(qū)域語義標(biāo)注一致,以及與紋理圖片一致的邊界,且效果更好。
圖4 不同標(biāo)注學(xué)習(xí)算法視覺效果比較Fig. 4 Visual effect comparison of different annotation learning algorithms
本文提出的室內(nèi)場景視頻語義信息弱監(jiān)督學(xué)習(xí)方法是由人工選取并給定少量關(guān)鍵幀的語義標(biāo)注信息,利用圖像金字塔技術(shù)的光流算法得到非關(guān)鍵幀的紋理信息,將關(guān)鍵幀的語義標(biāo)注傳遞到所有非關(guān)鍵幀,從而學(xué)習(xí)到整個視頻序列的語義標(biāo)注。本文通過多種實際室內(nèi)場景中的視頻數(shù)據(jù)進(jìn)行實驗、測試并與當(dāng)前通用的方法進(jìn)行了對比。實驗結(jié)果表明本文的非關(guān)鍵幀語義標(biāo)注學(xué)習(xí)算法具有更高的標(biāo)注準(zhǔn)確率和較好的視覺效果。