国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)新聞視頻自動(dòng)分類與主題跟蹤技術(shù)

2012-07-18 06:15:44翰,
關(guān)鍵詞:語義聚類自動(dòng)

陳 翰, 霍 華

(河南科技大學(xué) 電子信息工程學(xué)院,河南 洛陽 471003)

網(wǎng)絡(luò)新聞視頻自動(dòng)分類與主題跟蹤技術(shù)

陳 翰, 霍 華

(河南科技大學(xué) 電子信息工程學(xué)院,河南 洛陽 471003)

新聞視頻的自動(dòng)分類和主題跟蹤是網(wǎng)絡(luò)環(huán)境下多媒體技術(shù)的一個(gè)難題。文章從分析新聞視頻的關(guān)鍵語義入手,提出了一種基于分層條件隨機(jī)場的視頻自動(dòng)分類方法,通過融合文本和視覺底層特征實(shí)現(xiàn)新聞視頻自動(dòng)分類,然后利用增量k-means方法實(shí)現(xiàn)同主題視頻跟蹤,對優(yōu)酷網(wǎng)上7種典型類型的新聞視頻進(jìn)行了實(shí)驗(yàn),驗(yàn)證了該方法的有效性。

新聞視頻;語義分析;主題檢測與跟蹤;條件隨機(jī)場

隨著多媒體技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,新聞視頻的制作和傳播也變得越來越容易,已經(jīng)成為人們獲取信息的重要途徑。新聞視頻作為一種重要的信息媒體,在國家政治、經(jīng)濟(jì)、文化及生活等領(lǐng)域發(fā)揮著重要作用。除了電視臺(tái)提供的專業(yè)新聞節(jié)目,YouTube、優(yōu)酷等視頻網(wǎng)站以及手機(jī)等智能終端的使用,使人們能夠隨時(shí)隨地分享個(gè)人用戶提供的新聞視頻。新聞視頻具有非結(jié)構(gòu)化和信息量巨大等特點(diǎn),因此如何從海量視頻數(shù)據(jù)中找到感興趣的信息,并對相同主題的視頻進(jìn)行跟蹤和研究是一項(xiàng)非常困難又有意義的工作。

在網(wǎng)絡(luò)環(huán)境下,獲取新聞視頻信息的主要途徑有2種,一種是通過網(wǎng)站推薦,另一種是自動(dòng)搜索。網(wǎng)站推薦需要網(wǎng)絡(luò)編輯對相關(guān)視頻進(jìn)行手動(dòng)標(biāo)注和分類,然后根據(jù)上傳時(shí)間、類型、關(guān)注度等對用戶進(jìn)行推薦。自動(dòng)搜索是根據(jù)用戶提供的關(guān)鍵信息,在海量數(shù)據(jù)庫檢索用戶感興趣的視頻,常用方法有基于文本和內(nèi)容的檢索方法[1]。

文本是一種常用的高層語義表示形式,利用文本進(jìn)行新聞視頻檢索,需要事先進(jìn)行人工標(biāo)注,工作量巨大,不同人員對視頻的理解差異較大,因此很難準(zhǔn)確表達(dá)視頻語義?;趦?nèi)容的檢索方法利用視頻的底層特征進(jìn)行視頻語義表示,仍然存在著底層特征多樣化、查詢實(shí)例難以確定、與實(shí)際語義理解差異大等缺點(diǎn)。

面對海量網(wǎng)絡(luò)新聞視頻數(shù)據(jù),如果能根據(jù)視頻內(nèi)容進(jìn)行分類和標(biāo)注,實(shí)現(xiàn)視頻自動(dòng)上傳,將大大減少網(wǎng)絡(luò)編輯的工作量。如果對同一主題的新聞事件進(jìn)行檢測,將新來的視頻歸入不同的事件簇,不但提高了對信息的組織和管理效率,還有利于用戶對相關(guān)事件的發(fā)展歷程及未來趨勢進(jìn)行研究和分析。本文從新聞視頻的關(guān)鍵語義提取和分析入手,提出了基于條件隨機(jī)場的新聞視頻自動(dòng)分類方法和基于增量k-means的新聞主題跟蹤方法,以實(shí)現(xiàn)新聞視頻的語義提取、自動(dòng)分類、自動(dòng)推薦和知識(shí)挖掘等。

1 新聞視頻的語義分析框架

1.1 新聞視頻的結(jié)構(gòu)特征

新聞視頻是典型的非結(jié)構(gòu)化的數(shù)據(jù),在物理上可以看成是特定制式下的幀序列。如果通過處理所有的幀來分析視頻,其計(jì)算量非常巨大,不利于快速理解視頻語義內(nèi)容。因此,可以利用視頻幀之間的冗余性,對視頻幀序列進(jìn)行劃分,以形成語義內(nèi)容的結(jié)構(gòu)單元。新聞視頻結(jié)構(gòu)特征分析是進(jìn)行新聞?wù)Z義檢測的基礎(chǔ)和前提,新聞視頻的結(jié)構(gòu)特征按照從細(xì)到粗的順序可以劃分為幀、鏡頭、場景和視頻[2]。其中,幀是為了保持視頻連貫的靜止圖像,各幀之間具有較大的冗余性。鏡頭是攝像機(jī)的一次基本操作單元,缺乏高層語義信息。場景是一系列鏡頭的組合,描述了故事高層語義的情節(jié)或事件,是視頻的基本語義概念。視頻是一個(gè)語義內(nèi)容的完整描述,能夠表現(xiàn)新聞故事的所有內(nèi)容和特征。對于新聞視頻結(jié)構(gòu)的研究,常用的方法有基于閾值的鏡頭探測、基于顏色特征的關(guān)鍵幀提取、基于聚類的場景檢測、基于模板的播音員鏡頭探測等。

1.2 新聞視頻的關(guān)鍵語義

目前,國內(nèi)外主要是利用視頻的結(jié)構(gòu)分析及底層視覺特征進(jìn)行視頻內(nèi)容分析與檢索,研究內(nèi)容主要集中在場景分割、字幕探測、關(guān)鍵幀提取、底層視覺特征提取與理解等技術(shù)[2-3]。單純地利用視頻結(jié)構(gòu)和底層視覺特征很難全面描述視頻的語義內(nèi)容,更不能滿足語義層次的檢索和分類要求,因此,研究人員又轉(zhuǎn)向綜合利用語音、字幕及圖像等多模態(tài)融合分析的方法進(jìn)行視頻語義理解。例如,文獻(xiàn)[2]提出了一種融合視頻特征的新聞報(bào)道語義表示方法,利用報(bào)道特征的語義類進(jìn)行事件檢測和聚類。文獻(xiàn)[4]提出了一種基于本體的視頻內(nèi)容分析和概念識(shí)別方法,并用于視頻等多媒體內(nèi)容的檢索。文獻(xiàn)[5]通過事先定義的語義概念集合設(shè)計(jì)了一種基于概念驅(qū)動(dòng)的視頻檢索方法,將查詢內(nèi)容與模態(tài)之間的關(guān)系分解為更易于計(jì)算的查詢內(nèi)容與概念以及概念與模態(tài)之間的語義關(guān)系。美國國家標(biāo)準(zhǔn)技術(shù)研究所(NIST)組織的視頻檢索國際評(píng)測TRECVID也致力于視頻的語義提取、基于內(nèi)容的檢索等研究,其中,TRECVID2005的主題是新聞視頻的特征提取和檢索。MPEG-4和 MPEG-7也提供了視頻和圖像語義描述的概念。

新聞的關(guān)鍵要素是時(shí)間、地點(diǎn)、人物和事件,這些是構(gòu)成完整新聞視頻單元的基礎(chǔ),也是理解新聞事件的關(guān)鍵。在新聞視頻自動(dòng)分類和主題跟蹤時(shí),可以將視頻底層特征所包含的語義內(nèi)容對應(yīng)到其關(guān)鍵要素中,這樣更有利于對視頻的理解和分析。新聞視頻單元的關(guān)鍵語義表示為:{Time,Location,Character,Event,Scene}。其中,Time表示新聞事件發(fā)生的時(shí)間;Location表示事件發(fā)生的地點(diǎn);Character表示新聞事件涉及的人物和組織等;Event表示新聞事件的關(guān)鍵描述;Scene表示新聞視頻中出現(xiàn)的場景。假設(shè)這5個(gè)語義類相互獨(dú)立,每個(gè)語義類用不同詞語空間中的詞語列表和場景的底層視覺特征來表示。

1.3 語義分析框架

(1)進(jìn)行視頻的結(jié)構(gòu)化處理,探測新聞視頻包含的鏡頭和關(guān)鍵幀,定位圖像字幕位置,分離視頻中的音頻流。

(2)通過提取圖像的底層特征(顏色直方圖、紋理、邊緣、形狀等),識(shí)別字幕和語音,抽取視頻關(guān)鍵語義的詞語列表,建立視頻關(guān)鍵語義類。

(3)根據(jù)新聞視頻的關(guān)鍵語義要素,進(jìn)行網(wǎng)絡(luò)新聞視頻的自動(dòng)分類、相同主題視頻的聚類和跟蹤、新聞事件發(fā)展趨勢和內(nèi)在聯(lián)系的知識(shí)挖掘等。新聞?wù)Z義分析的總體框架如圖1所示。

圖1 新聞視頻語義分析框架

2 網(wǎng)絡(luò)新聞視頻的自動(dòng)分類

2.1 條件隨機(jī)場

新聞視頻的圖像、聲音、文本等特征對分類性能的影響差異很大,總體來說,圖像處理復(fù)雜費(fèi)時(shí),圖像理解的難度很大,音頻特征的分類效果很不理想,文本分類技術(shù)取得了很多研究成果,具備了實(shí)用水平。目前多特征融合分類方法通常采用統(tǒng)一模式處理不同模態(tài)特征[6],因而分類準(zhǔn)確率和可靠性不能達(dá)到用戶要求。針對多模態(tài)異構(gòu)數(shù)據(jù)對分類性能的影響,文獻(xiàn)[7]提出了以視覺和文本特征為主的視頻語義分析框架。本文新聞視頻的關(guān)鍵語義充分考慮了以上問題,將視頻數(shù)據(jù)抽象為更利于分類的圖像和文本特征,采用基于條件隨機(jī)場的融合策略進(jìn)行視頻自動(dòng)分類。

條件隨機(jī)場(CRF)是一個(gè)用于標(biāo)注和切分序列數(shù)據(jù)的無向圖模型,對給出的觀察序列定義一個(gè)條件對數(shù)線性概率分布。CRF是一種判別式模型,與隱馬爾可夫隨機(jī)場等模型相比,可以減少數(shù)據(jù)概率分布的假設(shè)。另外,CRF可以選擇上文相關(guān)特征,以序列化形式進(jìn)行全局參數(shù)優(yōu)化和解碼,解決了其他判別式模型難以避免的標(biāo)記偏置問題。CRF常用于文本標(biāo)注等多種應(yīng)用場景,2003年被文獻(xiàn)[8]引入自然圖像分類等計(jì)算機(jī)視覺應(yīng)用中。隨后,文獻(xiàn)[9]利用樹狀判別式隨機(jī)場進(jìn)行原始網(wǎng)絡(luò)視頻分類。文獻(xiàn)[10]利用基于多分叉融合策略的多概念判別式隨機(jī)場(MDRF)進(jìn)行新聞視頻語義提取。

2.2 分層CRF融合策略

好的特征是進(jìn)行分類識(shí)別的關(guān)鍵,新聞視頻關(guān)鍵語義主要包含文本和圖像特征。文本特征包含于關(guān)鍵語義的前4項(xiàng),主要是通過字幕和語音識(shí)別得到的時(shí)間、地點(diǎn)、人物和事件的關(guān)鍵詞和文本描述。視覺特征主要是關(guān)鍵幀的顏色直方圖、顏色矩、邊緣和SIFT特征。

將隱條件隨機(jī)場[11]和判別式隨機(jī)場模型[8]進(jìn)行擴(kuò)展,形成分層CRF模型來融合這2種類型的特征進(jìn)行視頻分類。分層條件隨機(jī)場模型由觀察層、隱狀態(tài)層和真實(shí)標(biāo)簽層組成。假定X={X1,X2,…,Xm}為視頻關(guān)鍵語義的觀察集,Xi為一個(gè)局部觀察值;L={L1,L2,…,Ln}為視頻類型的真實(shí)標(biāo)簽集合,Lj為標(biāo)簽可能的取值變量;H={H1,H2,…,Hm}為隱狀態(tài)層,它的元素與觀察層中的元素一一對應(yīng)。對于觀察序列X,視頻類型的條件概率可以表示為:

其中,Z(X)為歸一化函數(shù);E(L,H,X)為隨機(jī)場的能量函數(shù);α、β、γ為分層 CRF的參數(shù);f1、f2和f3為依賴于不同層上變量的特征函數(shù),其數(shù)值由各特征的概率分布模型決定。

對于給定的新聞視頻和訓(xùn)練得到的模型參數(shù)α、β、γ,在真實(shí)標(biāo)簽層上的模型推斷為:

3 新聞視頻的主題跟蹤

新聞視頻的主題檢測和跟蹤是指在沒有人工干預(yù)的情況下,從新聞視頻的多模態(tài)高維特征中發(fā)現(xiàn)其隱含的低維語義主題,并對相同主題的新聞視頻進(jìn)行聚類和關(guān)聯(lián),為分析新聞事件的過程及趨勢等知識(shí)挖掘任務(wù)提供有益的幫助。有多種方法在新聞主題跟蹤中被嘗試,如k均值法、決策樹方法、HMM方法等。

文獻(xiàn)[12]提出了一種基于多翼Harmoniums模型的新聞視頻語義主題挖掘方法,通過隱含主題與觀測輸入數(shù)據(jù)間的雙向依存關(guān)系,擴(kuò)展和改善了先前的基于2層的隨機(jī)場模型。

由于網(wǎng)絡(luò)數(shù)據(jù)總是處于動(dòng)態(tài)增長過程中,新聞事件的聚類數(shù)量也不能事先確定,故采用增量k-means方法進(jìn)行新聞視頻主題聚類。2個(gè)視頻的相似度可以表示為:

其中,S表示新聞事件A和B之間的相似度;wk為各語義類的權(quán)重;Sk(A,B)表示第k個(gè)語義類之間的相似度。

在聚類過程中,選擇單個(gè)事件到同主題聚類集合的平均距離來度量。增量k-means方法首先確定聚類的初始簇,其次根據(jù)隸屬度函數(shù)對新事件判斷是否合并到已有聚類還是用作新聚類的種子,然后用迭代算法更新并改進(jìn)聚類結(jié)果。

4 實(shí)驗(yàn)與分析

本文算法采用VC2008和OpenCV2.0實(shí)現(xiàn)。利用優(yōu)酷網(wǎng)[13]的新聞資訊進(jìn)行實(shí)驗(yàn),視頻數(shù)量為551個(gè),總時(shí)長約10.5h,類型包括時(shí)政、財(cái)經(jīng)、科技、社會(huì)、軍事、體育及娛樂等7大類,見表1所列。視頻選擇時(shí),在現(xiàn)有網(wǎng)站分類基礎(chǔ)上又進(jìn)行了人工干預(yù),還通過關(guān)聯(lián)推薦——“大家都在看”來擴(kuò)展同類數(shù)據(jù)。隨機(jī)選擇每一類數(shù)據(jù)的50%作為訓(xùn)練樣本,剩余的作為測試樣本。實(shí)驗(yàn)數(shù)據(jù)中,5條“神州九號(hào)發(fā)射”和8條“敘利亞局勢”分別作為軍事、科技類視頻進(jìn)行同主題跟蹤實(shí)驗(yàn)。

表1 實(shí)驗(yàn)用到的新聞視頻信息

衡量網(wǎng)絡(luò)視頻自動(dòng)分類和主題跟蹤效果的參數(shù)都是查全率和查準(zhǔn)率。在視頻分類方面,將本文分層CRF方法和常用的SVM分類方法進(jìn)行了對比實(shí)驗(yàn),其結(jié)果見表2所列。對“神州九號(hào)發(fā)射”相關(guān)視頻主題跟蹤的查全率和查準(zhǔn)率達(dá)到100%,“敘利亞局勢”相關(guān)視頻正確識(shí)別出7條,且準(zhǔn)確聚類為同一主題。實(shí)驗(yàn)結(jié)果表明,本文分層CRF方法充分融合了視頻的文本和視覺特征,其分類性能優(yōu)于SVM等常規(guī)方法,能夠?qū)崿F(xiàn)網(wǎng)絡(luò)新聞視頻的自動(dòng)分類和主題跟蹤。

表2 網(wǎng)絡(luò)新聞視頻分類結(jié)果 %

5 結(jié)束語

針對日益增長的網(wǎng)絡(luò)新聞視頻,本文根據(jù)視頻的關(guān)鍵語義分析,提出了基于分層條件隨機(jī)場的自動(dòng)分類方法,并利用k-means方法進(jìn)行主題跟蹤,為網(wǎng)絡(luò)新聞視頻信息的高效管理和利用提供了有效工具,能夠?qū)崿F(xiàn)視頻的自動(dòng)分類上傳、按主題查找等功能。本文方法在大量實(shí)際數(shù)據(jù)上進(jìn)行了驗(yàn)證,表現(xiàn)出較好的分類性能和跟蹤效果。本文只對幾種典型的視頻類型進(jìn)行了實(shí)驗(yàn),未來需要在大數(shù)據(jù)集上對更多的網(wǎng)絡(luò)視頻類型進(jìn)行研究,同時(shí)還需要分析和優(yōu)化模型參數(shù),以實(shí)現(xiàn)更好的分類效果。下一步還準(zhǔn)備利用機(jī)器學(xué)習(xí)方法進(jìn)行新聞視頻語義挖掘,實(shí)現(xiàn)突發(fā)事件預(yù)警、熱點(diǎn)事件趨勢預(yù)測等。

[1]魏 維,游 靜,劉鳳玉,等.語義視頻檢索綜述[J].計(jì)算機(jī)科學(xué),2006,33(2):1-7.

[2]凌 堅(jiān).新聞視頻主題識(shí)別和跟蹤的研究[D].杭州:浙江大學(xué),2007.

[3]曹建榮,蔡安妮.基于支持向量機(jī)的視頻關(guān)鍵幀語義提取[J].北京郵電大學(xué)學(xué)報(bào),2006,29(2):123-126.

[4]Carbonaro A.Ontology-based video retrieval in a semanticbased learning environment[J].Journal of E-Learning and Knowledge Society,2008,4(3):203-212.

[5]Wei X Y,Jiang Y G,Ngo C W.Concept-driven multi-modality fusion for video search[J].IEEE Transactions on Circuits and Systems for Video Technology,2011,21(1):62-73.

[6]Lin W H,Hauptmann A.News video classification using SVM-based multimodal classifiers and combination strategies[C]//Proceedings of 10th ACM International Conference on Multimedia.Juan-les-Pins,F(xiàn)rance:ACM,2002:323-326.

[7]Karray H,Ammar A,Alimi A.A semantic and personalized framework for news video retrieval based on textual and visual transcripts[J].Journal of Decision Systems,2011,20(4):467-490.

[8]Kumar S,Hebert M.Discriminative random fields:a discriminative framework for contextual interaction in classification[C]//Ninth IEEE International Conference on Computer Vision,Vol 2,2003:1150-1157.

[9]Wang Z S,Zhao M,Song Y,et al.YouTubeCat:Learning to categorize wild web videos[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR),June 2010:879-886.

[10]Hauptmann A G,Chen M Y,Christel M,et al.A multipronged approach to improving semantic extraction of news video[J].Journal of Signal Processing Systems,2010,58(3):373-385.

[11]Quattoni A,Wang S,Morency L,et al.Hidden-state conditional random fields[J].IEEE Transactions on Pattern A-nalysis and Machine Intelligence,2007,29 (10):1848-1852.

[12]徐新文,李國輝,付暢儉.基于MWH模型的新聞視頻語義挖掘[J].計(jì)算機(jī)工程,2009,35(17):219-222.

Automatic categorization and topic tracking techniques for Web news videos

CHEN Han, HUO Hua
(School of Electronic Information Engineering,Henan University of Science and Technology,Luoyang 471003,China)

Automatic categorization and topic tracking of Web news videos are a challenging task.Critical semantic elements are extracted for news videos analysis.An automatic news video classification method based on hierarchical conditional random field is proposed to fuse multimode features of text and vision.Then an incrementalk-means clustering method is designed to track the videos with the same topic.Extensive experiments on seven most frequent categories in Youku Website show the effectiveness of the proposed method for categorizing and tracking Web news videos.

news video;semantic analysis;topic detection and tracking;conditional random field

TP391.4

A

1003-5060(2012)11-1488-04

10.3969/j.issn.1003-5060.2012.11.012

2012-09-08

河南省國際合作計(jì)劃資助項(xiàng)目(104300510063)

陳 翰(1987-),男,河南無極人,河南科技大學(xué)碩士生;

霍 華(1968-),男,河南蘭考人,博士,河南科技大學(xué)副教授,碩士生導(dǎo)師.

(責(zé)任編輯 呂 杰)

猜你喜歡
語義聚類自動(dòng)
自動(dòng)捕盜機(jī)
語言與語義
基于STM32的自動(dòng)喂養(yǎng)機(jī)控制系統(tǒng)
電子測試(2018年10期)2018-06-26 05:53:36
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
關(guān)于自動(dòng)駕駛
汽車博覽(2016年9期)2016-10-18 13:05:41
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
基于改進(jìn)的遺傳算法的模糊聚類算法
Stefan Greiner:我們?yōu)槭裁葱枰詣?dòng)駕駛?
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
認(rèn)知范疇模糊與語義模糊
天水市| 大足县| 清原| 山西省| 前郭尔| 措美县| 安泽县| 若羌县| 阳山县| 吉安市| 邢台县| 江孜县| 中西区| 合阳县| 鸡泽县| 称多县| 三都| 万盛区| 从江县| 龙里县| 高安市| 高雄市| 安陆市| 衡水市| 射洪县| 禹城市| 乾安县| 年辖:市辖区| 重庆市| 台州市| 绥德县| 宁津县| 长寿区| 禄劝| 乐安县| 溆浦县| 东乡族自治县| 京山县| 阜新市| 藁城市| 平谷区|