查日盼 彭太樂
摘要:針對(duì)視頻分類準(zhǔn)確率低的難題,文中提出一種改進(jìn)的K-Means算法,并以此算法為分類器來(lái)實(shí)現(xiàn)視頻分類。首先提取視頻的顏色特征、SIFT特征及紋理特征;改進(jìn)傳統(tǒng)的K-Means聚類算法,以標(biāo)簽視頻樣本形成初始聚類值,進(jìn)一步優(yōu)化距離函數(shù),實(shí)現(xiàn)視頻分類。通過(guò)實(shí)驗(yàn)表明:該文提出的分類算法具有較高的分類準(zhǔn)確率。
關(guān)鍵詞:鏡頭;K-Means聚類;視頻分類
視頻是重要的多媒體數(shù)據(jù)表達(dá)形式之一,也是移動(dòng)通信平臺(tái)、互聯(lián)網(wǎng)絡(luò)中主要的數(shù)據(jù)存在形式之一。隨著網(wǎng)絡(luò)技術(shù)的高速發(fā)展,網(wǎng)絡(luò)視頻的數(shù)量呈爆炸式急劇增長(zhǎng),同時(shí)產(chǎn)生了大量的視頻應(yīng)用,如視頻分類、視頻索引、視頻搜索等應(yīng)用。視頻是一類結(jié)構(gòu)復(fù)雜、數(shù)據(jù)量龐大的多模態(tài)數(shù)據(jù)。從語(yǔ)義角度出發(fā),同一領(lǐng)域的視頻之間總有一定的關(guān)聯(lián)。領(lǐng)域?qū)<依靡曨l的多種屬性來(lái)建立視頻之間的關(guān)聯(lián),這對(duì)于視頻分類、索引是非常重要的,對(duì)視頻數(shù)據(jù)過(guò)濾和視頻檢索等應(yīng)用也具有重要意義。
視頻是具有多種視覺特征的多媒體數(shù)據(jù),許多視頻還具有音頻特征、文本特征等。利用視頻的視覺特征來(lái)實(shí)現(xiàn)視頻分類是常見的視頻分類方法。很多文獻(xiàn)利用視頻的一種或多種視覺特征來(lái)實(shí)現(xiàn)視頻分類。比如文獻(xiàn)中,孟麗等人基于直方圖差分法實(shí)現(xiàn)了視頻分類方法。文獻(xiàn)中,Huang等人提出一種以文本特征實(shí)現(xiàn)視頻分類的算法。由于視頻視覺特征的多樣性,利用一種視覺特征進(jìn)行分類往往得不到較好的分類效果。很多文獻(xiàn)利用多種視覺特征及音頻特征實(shí)現(xiàn)視頻分類,收到了較好的分類效果。Yang等人從視頻的視覺特征、語(yǔ)義特征、音頻特征及附加文本等進(jìn)行分類,提出利用多模態(tài)分類效果優(yōu)于單模態(tài)分類效果。也有很多文獻(xiàn)從改進(jìn)分類器出發(fā),也提高了分類效果。比如YUAN等人利用決策樹實(shí)現(xiàn)了視頻分類,朱映映等人提出以詞袋模型實(shí)現(xiàn)體育視頻分類。
綜合利用視頻的多種物理特征,可以有效地提高視頻分類準(zhǔn)確度。本文在提取視頻的顏色特征,SIFT特征、紋理特征的基礎(chǔ)上,以改進(jìn)的K-Means聚類算法為分類器對(duì)視頻進(jìn)行分類。算法過(guò)程:對(duì)于給定的視頻Video,首先提取其顏色特征及SIFT特征;改進(jìn)分類器,最后實(shí)現(xiàn)視頻分類。