對比內(nèi)嵌字幕進(jìn)行視頻去重

2015-04-10 18:25蔣宗禮袁圓

計算技術(shù)與自動化 2015年1期

蔣宗禮　袁圓

摘要：現(xiàn)有的視頻去重技術(shù)多樣，但字幕這一與視頻內(nèi)容能高度匹配的重要信息并未被考慮到其中。提出一種針對含內(nèi)嵌字幕視頻進(jìn)行去重的方法，并在三大視頻網(wǎng)頁中得到了該方法的再去重效果。首先將相應(yīng)網(wǎng)頁視頻中的字幕經(jīng)過OTC處理將其文檔化，再規(guī)范文檔，最后設(shè)定一個界值，對網(wǎng)頁進(jìn)行去重篩選。類比于網(wǎng)頁文本的去重方法，基于文本內(nèi)容的去重工作可以大大改善去重的效果，考慮到視頻中人物對話內(nèi)容的唯一性，我們可以根據(jù)視頻字幕內(nèi)容來進(jìn)行去重，從而得到更為精準(zhǔn)的視頻去重結(jié)果。

關(guān)鍵詞：網(wǎng)頁視頻；內(nèi)嵌字幕；去重；LCS

中圖分類號：TP391 文獻(xiàn)標(biāo)識碼：A

Abstract：Even there are many ways to remove duplicate web videos， the subtitleinfo which can highly matchas with the contents of video still cannot be taken into account to the removal process. This paper put forward a method by using contrast with embedded subtitles in video to delete the duplicate web videos， and presented the effect of reremove duplicates by this method in three big web video page.The subtitles in web video need documentation through OTC processing and specification document again，and set an boundary value through experiment， so that the duplicate web video can be filtrated. simihar to the duplicate removing method， in web page next this method can greatly improve the effect of duplicate removing，Considering the uniqueness of dialogue contents in the video，we can use the contents of the video subtitles to do duplicate removing，and to get more accurate video search results in search engine. The target of this study is duplicate removing work of the web video with hard subtitles， which is belong to webbased content to the duplicate removing study， used to remove the duplicate web video pages and improve the user experience.

Key words：web video； embedded subtitles； remove duplicate； LCS

1 引言

在互聯(lián)網(wǎng)中，網(wǎng)頁內(nèi)容的大量重復(fù)，對搜索引擎來說，這些重復(fù)使得用戶體驗太差，因此，需要“去重”[1]。

在以UGC（User Generated Content）業(yè)務(wù)為主的視頻網(wǎng)站中，每天都有大量的視頻被上傳[2]。用戶上傳的視頻有數(shù)量大、重復(fù)視頻多的特點，特別是一些熱點視頻會同時有多個用戶上傳。這樣會導(dǎo)致搜索或者推薦結(jié)果中出現(xiàn)大量重復(fù)視頻。如何識別出這些相同內(nèi)容的視頻，為用戶提供更好的搜索和推薦體驗，是一個需要解決的問題?，F(xiàn)在識別相同視頻的方法很多，通常的方法有：視頻文件md5值去重，每個視頻文件里都保存有一個md5值，可以認(rèn)為是這個視頻文件的基因；根據(jù)視頻的文本信息（指生成標(biāo)題、描述和標(biāo)簽等）進(jìn)行去重，用戶在上傳視頻時會生成標(biāo)題、描述和標(biāo)簽等文本信息，根據(jù)這些文本信息進(jìn)行相同視頻的去重；根據(jù)視頻時長進(jìn)行分類，在進(jìn)行相同視頻的去重的算法中可以先根據(jù)視頻時長對全量視頻進(jìn)行分類，然后根據(jù)視頻文本信息計算文本距離，在每個分類中應(yīng)用視頻文本信息距離進(jìn)行迭代就成為可能；根據(jù)圖像或者視頻內(nèi)容進(jìn)行去重（關(guān)鍵幀的圖像匹配），根據(jù)文本信息進(jìn)行去重的劣勢是過度依靠文本信息，而視頻內(nèi)容畢竟不能完全用文本來衡量。[3]如果一個視頻的文本信息過少的話，去重的結(jié)果是不可靠的，所以根本的解決問題的方法是依賴視頻內(nèi)容進(jìn)行去重，視頻本質(zhì)上是一幀一幀的圖像組成的，所以可以把這個問題簡化為關(guān)鍵幀的圖像匹配問題，著名UGC視頻網(wǎng)站Youtube就是采用了這種方法進(jìn)行視頻去重?；蛘吒纱嗪喕稽c，根據(jù)視頻的縮略圖進(jìn)行圖像匹配估計也會達(dá)到很好的效果[4]。

本文研究的對象是含有內(nèi)嵌字幕的視頻，具有內(nèi)嵌字幕文本信息這一重要因素，與視頻內(nèi)容具有高度匹配性，于是提出了一種基于內(nèi)嵌字幕的視頻去重途徑，屬于文本信息去重法。分別依據(jù)生成的標(biāo)題、生成的標(biāo)簽、描述，內(nèi)嵌字幕，對已有的搜索視頻結(jié)果進(jìn)行再次去重，觀察其再去重率效果。

2 去重標(biāo)準(zhǔn)設(shè)定

同一段視頻的字幕是根據(jù)視頻內(nèi)容而來，具有相同內(nèi)容視頻的內(nèi)嵌字幕，從理論上來說應(yīng)該完全一致，即去重標(biāo)準(zhǔn)應(yīng)定為100%。但是，由于提取內(nèi)嵌字幕時采用的是光學(xué)OTC的方法，在不同視頻分辨率的時候提取出來的內(nèi)嵌字幕有所偏差，即使是兩個相同內(nèi)容的視頻，提取出來的字幕也會不同，于是需要允許一定的偏差。

由圖可看出，基于內(nèi)嵌字幕的再去重明顯優(yōu)于基于文件標(biāo)題特征進(jìn)行再去重的方法，這是因為每一個視頻的內(nèi)嵌字幕都具有唯一性，而視頻的標(biāo)題、標(biāo)簽、描述是在視頻上傳時用戶可以隨意賦予的，故而并不一定與視頻內(nèi)容相符。

5 結(jié)束語

本文針對含有內(nèi)嵌字幕的視頻，提出一種基于內(nèi)嵌字幕內(nèi)容的去重算法。實驗表明，該方法去重較基于文件標(biāo)題特征的方法效果更佳。通過提取視頻網(wǎng)頁的內(nèi)嵌字幕，在去重過程中加入適用于本研究的動態(tài)LCS算法，由實驗結(jié)果可知，依據(jù)內(nèi)嵌字幕對網(wǎng)絡(luò)視頻去重確實較為精準(zhǔn)，從而可大量節(jié)約結(jié)點存儲資源，采用此方法進(jìn)行視頻去重具有很大的現(xiàn)實意義。然而，本文并未對如何使大量人工標(biāo)注過程實現(xiàn)自動化進(jìn)行研究討論，可在今后的研究工作中進(jìn)一步研究實現(xiàn)。參考文獻(xiàn)

[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心. 中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R]. 2008年1月. 39-40頁.

[2] Ming Zhao；Yagnik，J.；Adam，H.；Bau，D. Large scale learning and recognition of faces inweb videos. Automatic Face & Gesture Recognition， 2008. FG '08[J].8th IEEE International Conference on DOI：10.1109/AFGR.2008.4813381. Publication Year： 2008， Page（s）： 1-7.

[3] Xiao Wu；ChongWah Ngo；Hauptmann，A.G.；HungKhoon Tan. RealTime NearDuplicate Elimination for Web VideoSearch With Content and Context. Multimedia[J].IEEE Transactions on Volume：11，Issue： 2 DOI：10.1109/TMM.2008.2009673. Publication Year： 2009， Page（s）： 196-207.

[4] Chengde Zhang；Xiao Wu；MeiLing Shyu；Qiang Peng. Adaptive association rule mining for web videoevent classification. Information Reuse and Integration （IRI）[J].2013 IEEE 14th International Conference on DOI：10.1109/IRI.2013.6642526. Publication Year： 2013， Page（s）： 618-625.

[5] 于海英. 字符串相似度度量中LCS和GST算法比較[J].電子科技， 2011，24（3）：101-103.

[6] 盛驟，謝式千，潘承毅.概率論與數(shù)理統(tǒng)計[M].北京：高等教育出版社.2001年12月第3版：294-312.

[7] 王曉東. 計算機(jī)算法設(shè)計與分析[M]. 北京：電子工業(yè)出版社， 2001.

[8] Rubi， R.D.；Arockiam， L. Positional_LCS： A position based algorithm to find Longest Common Subsequence （LCS） in Sequence Database （SDB）. Computational Intelligence & Computing Research （ICCIC）[J].2012 IEEE International Conference on DOI： 10.1109/ICCIC.2012.6510271. Publication Year： 2012， Page（s）：1-4.

[9] Wei Liu， Ling Chen， Lingjun Zou. A parallel LCS algorithm for biosequences alignment. InfoScale '07： Proceedings of the 2nd international conference on Scalable information systems[J].Publisher：ICST （Institute for Computer Sciences， Social-Informatics and Telecommunications Engineering）. June 2007.

[10]Heba AlShaek Salem， Maryam Nuser， Izzat Alsmadi. Similarity evaluation of DNA sequences based on nucleotides similarity[J].ICICS '12： Proceedings of the 3rd International Conference on Information and Communication Systems. Publisher： ACM. April 2012.

[11]申曉. 如何編程實現(xiàn)快速LCS算法[J].電腦編程技巧與維護(hù)，2012，（11）：91-92.

[12]胡婕，業(yè)寧，羅曉波，等. 多序列的近似LCS改進(jìn)算法[J].計算機(jī)工程，2011，37（2）：166-168.

[13]Jeffrey E.F. 精通正則表達(dá)式，余晟，譯[M]. 北京：電子工業(yè)出版社，2007.

[14]郭牧怡，劉萍，譚健龍，等. 基于文件標(biāo)題特征的網(wǎng)絡(luò)視頻去重研究[J]. 計算機(jī)工程，2010，36（9）：227-229.

計算技術(shù)與自動化2015年1期

計算技術(shù)與自動化的其它文章: 基于橢圓盤極點配置的執(zhí)行器冗余度分析; 飛機(jī)顫振模態(tài)參數(shù)辨識試驗的快速濾波算法; 基于時頻域指標(biāo)的控制系統(tǒng)演化校正; 執(zhí)行器飽和的線性連續(xù)系統(tǒng)的鎮(zhèn)定; 基于RBF神經(jīng)網(wǎng)絡(luò)的鋼構(gòu)件質(zhì)量追溯系統(tǒng)研究; PMU最優(yōu)配置及其在艦船電力系統(tǒng)中應(yīng)用研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

對比內(nèi)嵌字幕進(jìn)行視頻去重