程 俊,吉 祥,馬云峰,張喜龍,戴永恒
(中國電子科學(xué)研究院,北京 100041)
互聯(lián)網(wǎng)和智能終端的飛速發(fā)展,使得互聯(lián)網(wǎng)上的視頻數(shù)量急劇增長[1-3],視頻廣告作為與商業(yè)直接相關(guān)的數(shù)據(jù)近年來發(fā)展迅速,其制作數(shù)量與日俱增,各大廠商花費巨資打造視頻廣告,以提高品牌的影響力和產(chǎn)品的銷售額,廣告視頻的表現(xiàn)力強,會迅速給觀眾留下深刻的印象,提升產(chǎn)品的知名度,給廠家?guī)碡S厚的利潤,反之,對產(chǎn)品的銷售提升則沒有太多幫助。
視頻廣告的表現(xiàn)力識別目前尚未得到深入的研究,視頻廣告表現(xiàn)力通常取決于廣告的構(gòu)思和設(shè)計,憑借主觀經(jīng)驗決定,缺少客觀的、定量的分析,而視頻的顏色等視覺特征和視頻廣告中的音頻特征等往往可以客觀反映視頻本身的表現(xiàn)力,因此,本文采用視頻廣告自身的視音頻特征定量的分析視頻廣告的表現(xiàn)力。
本文的利用視頻本身具有的視音頻特征來識別視頻的表現(xiàn)力,具體流程如圖1所示:首先,收集視頻廣告作為數(shù)據(jù)庫,將這些視頻的點擊率和上傳時長進行處理得到視頻表現(xiàn)力的真值,把這些視頻分為訓(xùn)練集和測試集;其次,提取視頻的視覺特征和音頻特征;第三,融合訓(xùn)練視頻的視音頻特征和真值進行SVM訓(xùn)練,得到訓(xùn)練模型;最后,利用訓(xùn)練好的模型預(yù)測測試樣本的視頻表現(xiàn)力,將預(yù)測得到的視頻表現(xiàn)力與真值進行比較,得到視頻廣告識別準確率。本文的實驗結(jié)果表明,視頻廣告自身的特征可以對視頻廣告的表現(xiàn)力進行定量的識別,多種特征的融合識別率要高于單獨使用一種特征。
圖1 本文的視頻廣告表現(xiàn)力識別流程
我們選擇了103個視頻廣告作為實驗數(shù)據(jù)庫,這些視頻包括汽車廣告、食品廣告、飲料廣告、首飾廣告、酒類廣告和公益廣告等多個種類。其中50個視頻作為訓(xùn)練樣本,構(gòu)成訓(xùn)練集,其余53個作為測試樣本,構(gòu)成測試集。同時我們采集了每個視頻截止到某一天的訪問量和上傳時長,將每天的平均訪問量作為該廣告視頻表現(xiàn)力的指標,將大于110次點擊率/天指標的視頻廣告標簽置為1,表示視頻的表現(xiàn)力較高,將小于等于110次點擊率/天指標的視頻廣告標簽置為-1,表示視頻的表現(xiàn)力較低。
本文對視頻廣告庫中視頻的視覺特征進行了提取,這些特征包括BoW特征、GIST特征、顏色矩特征和顏色直方圖特征。
BoW特征[4]:BoW特征全稱為Bag of Words(詞袋)模型,是目前應(yīng)用最廣泛的視覺特征之一,本文采用基于SIFT(尺度不變特征變換)[5]算子的BoW特征, SIFT特征由David Lowe在1999年提出,該特征為圖像中的興趣點,在圖像縮放和旋轉(zhuǎn)時候具有不變性,另外,對光照和噪聲等也具有相當?shù)聂敯粜?,所以在計算機視覺中應(yīng)用廣泛。在提取SIFT特征時候,第一,對圖像進行高斯平滑濾波,高斯核寬參數(shù)為0.5,對濾波得到的圖像進行卷積,得到圖像金字塔,其次,對金字塔進行差分,得到圖像顯著點,并將其周圍區(qū)域稱為顯著區(qū)域,由此我們可以得到一系列的顯著點。第三,將圖像顯著點的顯著區(qū)域按照主方向和垂直方向分成16個區(qū)域,在每個區(qū)域中統(tǒng)計方向直方圖,將每個方向直方圖的數(shù)值量化到0到255之間,這樣就得到一個SIFT描述向量。然后,利用K-means算法對所有視頻的SIFT特征進行聚類,統(tǒng)計每個圖像擁有的SIFT特征屬于每個類別個數(shù),將這些個數(shù)排列為一個向量作為該BoW特征。
GIST特征[6-7]:GIST特征是圖像的全局描述特征,他可以表示圖像的一些重要統(tǒng)計信息。該特征可以編碼圖像中垂直和水平線條的數(shù)量和強度,這些信息可以用于圖像匹配中,一般是通過在幾個不同方向和尺度上的對圖像卷積一個定向濾波器實現(xiàn)。此處的定向濾波器可以使Gabor濾波器。我們按照[5-6]中的方法提取每個視頻中圖像的GIST特征,然后對這些特征在所有圖像上進行平均得到該視頻的GIST特征。
Color moment:顏色是彩色圖像最重要的特征之一,Color moment不需要顏色空間量化,是一種簡單有效的顏色表示方法, 由于顏色分布信息主要集中在低階矩中,所以我們采用顏色的一階矩(mean)、二階矩(variance)來表示該特征。
顏色直方圖特征:提取視頻中每幀圖像RGB三通道上的顏色信息,然后將三個通道顏色信息向量首尾串聯(lián)起來得到該幀的直方圖向量,視頻的顏色直方圖特征為所有幀的顏色直方圖向量平均值。
視頻中也包含音頻信息,為了提取音頻特征,我們首先將視頻轉(zhuǎn)化為音頻格式的文件,然后利用MIR工具箱[8]對音頻文件提取了音頻特征。這些音頻特征可以表示音頻文件中的節(jié)奏、音調(diào)、音量、音色等信息。
在獲得視頻的視覺和音頻特征后,將這些特征的首尾相接,作為融合后的視音頻特征用于視頻表現(xiàn)力訓(xùn)練中。首先利用訓(xùn)練集中視頻的視音頻特征和真值標簽輸入到SVM中訓(xùn)練分類器,然后將測試集中視頻的視音頻特征輸入到訓(xùn)練好的模型中,得到預(yù)測標簽,將預(yù)測得到的標簽與測試視頻的真值對比,計算得到準確率。
本文中,總共103個視頻廣告參與了實驗,這些視頻包括酒類廣告、汽車廣告、食品廣告、飲料廣告、公益廣告等種類,其中,50個視頻為訓(xùn)練集,53個視頻為測試視頻。實驗分為兩個階段,第一個階段是訓(xùn)練階段,利用SVM對訓(xùn)練視頻的視音頻特征和視頻表現(xiàn)力標簽進行訓(xùn)練,得到分類模型,SVM采用LibSVM[9]程序進行測試。第二個階段是測試階段,利用訓(xùn)練好的SVM模型對測試視頻的視音頻特征進行分類,得到測試視頻的預(yù)測標簽,將預(yù)測標簽和測試視頻的真值進行比較,獲得視頻表現(xiàn)力的識別準確率,融合視音頻特征的識別準確率如表1所示。同時,為了對比融合結(jié)果,分別單獨采用Bow特征、GIST特征、顏色矩特征、顏色直方圖特征、音頻特征進行了SVM訓(xùn)練和測試,得到每種特征的識別準確率,如表1中所示,結(jié)果表明,融合視音頻特征進行視頻廣告表現(xiàn)力識別的準確率要高于單獨使用一種特征,同時也表明,計算機利用視頻廣告自身的特征可以很好的廣告的表現(xiàn)力進行識別。
表1 融合視音頻特征的視頻廣告表現(xiàn)力識別
本文提出了一種新穎的融合視覺和音頻特征進行視頻廣告表現(xiàn)力識別的方法,該算法模型經(jīng)過視音頻特征和表現(xiàn)力標簽的訓(xùn)練后,可以很好的對測試廣告視頻的表現(xiàn)力進行預(yù)測,為廣告視頻表現(xiàn)力的識別提供了定量、客觀的方法,同時,多種視音頻特征融合識別可以從不同方面描述視頻廣告的表現(xiàn)力,得到了比單獨使用一種特征更高的識別率。