張馨文,劉 靜,周 葉
(湖北廣播電視臺,湖北 武漢 430000)
由于網(wǎng)絡視頻越來越多,信息傳播速度越來越快,渠道越來越廣。信息生產(chǎn)者和傳播者無處不在,普通用戶通過搜索獲得大量的網(wǎng)絡視頻,往往會無所適從。網(wǎng)絡視頻的視覺相似性檢測錯誤和文本信息的數(shù)據(jù)稀疏性問題,都是基于海量網(wǎng)絡視頻突發(fā)事件挖掘的難題。這要求人們提出一種有效的跨媒體信息融合模型,利用視覺近似關鍵幀集合來豐富文本信息,同時利用文本信息在視頻中體現(xiàn)的高級語義關聯(lián),從而降低視覺近似關鍵幀檢測錯誤的概率,以改善網(wǎng)絡視頻事件的挖掘效果。
綜上所述,網(wǎng)絡視頻的突發(fā)事件挖掘研究雖然面臨許多挑戰(zhàn),但是該研究可以改善搜索引擎的反饋效果,幫助普通用戶迅速把握突發(fā)事件發(fā)展脈絡,不再需要消耗大量精力和時間。
本文提出了跨媒體協(xié)同優(yōu)化的事件挖掘研究框架,并進行了詳細的展示。事件挖掘研究框架主要包括網(wǎng)絡視頻數(shù)據(jù)的預處理、網(wǎng)絡視頻文本信息與視覺信息的協(xié)同優(yōu)化、多重對應分析和事件挖掘等基本步驟。基于此,本設計提出了模型評估的方法,將其作為實驗效果驗證的標準。
網(wǎng)絡視頻文本信息與視覺信息的協(xié)同優(yōu)化主要包括三個步驟,首先統(tǒng)計單詞在NDK 中分布情況,然后挖掘NDK 的高級語義關聯(lián),最后根據(jù)NDK 之間的相關性來豐富稀疏的文本信息[1]。值得注意的是,本設計用線條建立起了單詞與單詞、單詞與NDK、NDK 與NDK 之間的連接,線條越粗,相關性越強。
如表1 所示,研究網(wǎng)絡視頻,可以從文本和視覺兩個方面出發(fā)。其中視覺信息是內(nèi)容相關的視覺近似關鍵幀組成的NDK 集合,文本信息是從視頻的標題和標簽中提取的單詞。所有的特性組合成一個矩陣,NDKs作為行,單詞和事件標簽作為變量的類列,由于同義性、多語性和表達習慣等原因,有些詞即使使用頻率不高,也可能發(fā)揮重要作用。因此,本文使用TFIDF(NTij) 來計算單詞在NDK 中的分布。這個指示矩陣可以在一個2d表NT(NDKs vs 單詞)中表示,其中,NT 中的每個元素NTij定義為:
表1 單詞在NDK 中的分布情況統(tǒng)計
光照、鏡頭、視頻編輯以及視覺相似性檢測算法等因素,容易造成視頻的視覺信息中一些視覺上相似的視覺近似關鍵幀被分到不同的NDK 中。另外,視頻拍攝者不同的拍攝手法和展示方式會導致實際上表現(xiàn)的是同一個內(nèi)容的視覺近似關鍵幀被聚成不同的NDK[2]。如表2 所示,從NDKu和NDKv對應的單詞集中都包含了“Opening and“song”,兩個NDK 描述的主題都是“北京奧運會開幕式歌曲”,但是NDKu中對應的單詞是Opening,Song,Music 等,而NDKv對應的單詞是Opening,Song,Olympic 等,描述“北京奧運會開幕式歌曲”的單詞如Music 和Olympic 被分散到不同的NDK之間,導致單個NDK 對應的文本信息中單詞的分布呈現(xiàn)很大的稀疏性。
表2 NT 計算后每個NDK 中單詞的分布情況
每一個NDK 對應的文本描述為若干個單詞組成的單詞集合T,可用公式2 表示如下:
其中ti表示第i個單詞,TNDKu表示NDKu對應的單詞集合,NTNDKu,t表示分布在NDKu對應的單詞的TFIDF值,每一個NDK 對應的單詞分布具有明顯的稀疏性。但是,這些視覺上相似的或者內(nèi)容上相關的NDK 之間都具有相同的文本描述,即存在著豐富的語義相關性。如表2 中所示NDKu對應的單詞集TNDKu={t1,t2,t4},NDKv對應的單詞集TNDKv={t1,t2,t3} 兩個NDK 都有相同的文本描述,即t1和t2。這意味著在文本信息層面NDKu和NDKv存在語義相關性。本文通過建立跨媒體融合模型,利用這種語義相關性,挖掘NDK 的視覺相關性,將錯誤分配到不同NDK 中的在視覺上相似關鍵幀以及表現(xiàn)形式不同,內(nèi)容相同的NDK 重新聚在一起。
利用NDK 之間的語義關聯(lián),結(jié)合NDK 對應單詞集的各個單詞分布的TFIDF 值NT,可以計算出NDK 之間的相似度,從而找到被錯誤分配到不同NDK 中的關鍵幀和表現(xiàn)內(nèi)容相同、表現(xiàn)形式不同的NDK,形成視覺上相關的新的NDK 集合[3]。
綜上所述,本文提出了基于跨媒體協(xié)同優(yōu)化的網(wǎng)絡視頻事件挖掘研究的整體框架。本文介紹了在獲取大量網(wǎng)絡視頻數(shù)據(jù)之后,在文本信息方面進行規(guī)范化,中文分詞和去停詞的預處理,同時通過鏡頭檢測、提取視覺近似關鍵幀,形成視覺近似關鍵幀集合為代表的視覺信息。針對文本信息少、噪聲多,視覺相似性檢測不準確的問題,本文利用網(wǎng)絡視頻文本信息與視覺信息協(xié)同優(yōu)化的算法加強視頻的語義關聯(lián)。此外,視覺近似關鍵幀結(jié)合也可以在一定程度上豐富文本信息。然后,利用多重對應分析和事件挖掘方法發(fā)現(xiàn)熱點話題所包含的視頻。