国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于邊緣特征的視頻字幕定位及字幕追蹤方法

2019-01-22 06:54趙義武張曉東李慧瑩
現(xiàn)代計(jì)算機(jī) 2018年35期
關(guān)鍵詞:字幕灰度邊緣

趙義武,張曉東,李慧瑩

(1.長(zhǎng)春理工大學(xué)空間光電技術(shù)研究所,長(zhǎng)春 130022;2.長(zhǎng)春理工大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長(zhǎng)春130022;3.上海海事大學(xué)信息工程學(xué)院,上海 201306)

0 引言

隨著互聯(lián)網(wǎng)服務(wù)的快速發(fā)展,視頻傳播已相當(dāng)便利,每分鐘都有數(shù)百小時(shí)的視頻內(nèi)容被上傳到視頻服務(wù)網(wǎng)站。目前視頻檢索主要使用標(biāo)簽標(biāo)題匹配關(guān)鍵字等方式[1],檢索方式相對(duì)單一,視頻標(biāo)題對(duì)視頻內(nèi)容的反映也不夠細(xì)致,為此,根據(jù)視頻字幕內(nèi)容進(jìn)行檢索可以作為補(bǔ)充方法之一。當(dāng)前視頻傳播全球化已經(jīng)成為趨勢(shì),人們可以方便地觀看到不同國(guó)家用戶(hù)上傳的優(yōu)秀視頻,但因此也可能會(huì)遇到文字不通的情形,所以實(shí)現(xiàn)對(duì)視頻字幕的自動(dòng)翻譯可大幅提升觀看體驗(yàn)。

視頻字幕分為軟字幕和硬字幕,軟字幕即外掛字幕,是與視頻內(nèi)容分開(kāi)的單獨(dú)文件,該類(lèi)型的字幕無(wú)需從視頻中提取,可直接對(duì)其文本做內(nèi)容分析。在視頻制作過(guò)程中,為了有更好的兼容性,往往將視頻字幕內(nèi)嵌在視頻中,再去傳播,用戶(hù)看到的字幕多數(shù)時(shí)候也都為該類(lèi)型字幕,稱(chēng)為硬字幕。硬字幕如同水印一樣與視頻畫(huà)面相結(jié)合,無(wú)法簡(jiǎn)單分離,不能直接對(duì)其做內(nèi)容分析。硬字幕需要經(jīng)過(guò)字幕提取與識(shí)別,轉(zhuǎn)換成文本形式的字幕之后,才可實(shí)現(xiàn)檢索和翻譯等后續(xù)功能。本文討論的視頻字幕均為硬字幕,對(duì)其提取過(guò)程中的字幕定位和字幕追蹤方法做詳細(xì)地研究。

1 字幕定位

視頻字幕往往只占據(jù)了視頻畫(huà)面的一小部分,畫(huà)面的大部分都是與字幕無(wú)關(guān)的視頻背景,本文不對(duì)背景中可能包含的場(chǎng)景文本[2]做分析,所以該背景區(qū)域可被視為干擾區(qū)域。字幕定位[3]即是準(zhǔn)確找出包含字幕的區(qū)域,并將字幕之外的干擾區(qū)域全部標(biāo)記刪除。

本文提出基于圖像的邊緣特征[4],統(tǒng)計(jì)邊緣圖像跳變次數(shù)的字幕定位方法。

1.1 算法設(shè)計(jì)

(1)由于視頻字幕在畫(huà)面中停留時(shí)間往往在1秒以上,每秒視頻又包含24幀或更多幀,所以無(wú)需對(duì)視頻每一幀都做處理,每4幀選取1幀做處理不會(huì)遺漏任何一條字幕,后續(xù)所有步驟均不再包含被剔除的視頻幀,可大幅減少運(yùn)算量。

(2)將篩選得到的視頻幀做灰度化處理,得到的灰度圖像由于存在復(fù)雜的背景,無(wú)法避免產(chǎn)生大量的噪聲,為防止噪聲對(duì)字幕定位產(chǎn)生干擾,需要再對(duì)灰度圖像進(jìn)行去噪處理,以提高對(duì)圖像邊緣的檢測(cè)效果。在此階段,對(duì)灰度圖像添加強(qiáng)度為0.01的椒鹽噪聲,再使用大小為3×3的方形窗口對(duì)圖像進(jìn)行中值濾波。采用中值濾波不僅能夠覆蓋大部分的噪聲區(qū)域以消除干擾的噪聲點(diǎn),也可以較好地保護(hù)圖像邊緣信息[5]的特征。

(3)利用Sobel邊緣檢測(cè)算子對(duì)灰度圖像進(jìn)行邊緣特征提取,得到邊緣二值圖像。

(4)對(duì)篩選過(guò)的每一幀的邊緣二值圖像中的每一行(列)進(jìn)行掃描,統(tǒng)計(jì)各行(列)的跳變次數(shù)(像素值由0變?yōu)?或者由1變?yōu)?均計(jì)一次跳變),得到邊緣圖的行區(qū)域(列區(qū)域)的跳變次數(shù)分布。

(5)將每一幀同行(列)的跳變次數(shù)做加和運(yùn)算,得到關(guān)于整段視頻的行區(qū)域(列區(qū)域)的跳變次數(shù)分布。后續(xù)步驟全部使用所得到的整段視頻的行區(qū)域(列區(qū)域)的跳變次數(shù)分布。

(6)找出整段視頻跳變次數(shù)最大所在行和最大所在列的交點(diǎn),將該交點(diǎn)作為字幕區(qū)域的中心點(diǎn)。

(7)從中心點(diǎn)向上掃描,若連續(xù)5行的行跳變次數(shù)均小于最大行跳變次數(shù)的0.5倍,則停止掃描,并記該行為字幕區(qū)域的上邊界。同理從中心點(diǎn)向下掃描,找到字幕區(qū)域的下邊界。

(8)從中心點(diǎn)向左掃描,若連續(xù)5列的列跳變次數(shù)均小于最大列跳變次數(shù)的0.2倍,則停止掃描,并記該列為字幕區(qū)域的左邊界。同理從中心點(diǎn)向右掃描,找到字幕區(qū)域的右邊界。至此,得到字幕區(qū)域的上下左右四個(gè)邊界,完成字幕定位步驟。

1.2 算法分析

該算法得到的字幕區(qū)域是應(yīng)用于整段視頻的字幕區(qū)域,是一個(gè)固定的窗口,適用于字幕出現(xiàn)區(qū)域相對(duì)穩(wěn)定的視頻。在視頻時(shí)長(zhǎng)越長(zhǎng),字幕條數(shù)越多的情況下,由于包含了更多的字幕邊緣信息,該字幕定位方法得到的效果會(huì)越好。

圖1所示為未經(jīng)過(guò)字幕定位的灰度圖像。

圖1 未經(jīng)過(guò)字幕定位

圖2所示為選取的三條經(jīng)過(guò)字幕定位的圖像。

圖2 經(jīng)過(guò)字幕定位

2 字幕追蹤

每一條相同的字幕會(huì)出現(xiàn)在若干幀畫(huà)面當(dāng)中,對(duì)每一幀經(jīng)過(guò)字幕定位之后的畫(huà)面都做文本識(shí)別處理不僅會(huì)浪費(fèi)大量運(yùn)算時(shí)間,而且無(wú)法避免同一條字幕出現(xiàn)不同種的識(shí)別結(jié)果。按照字幕出現(xiàn)狀態(tài),視頻的每一幀可以分為無(wú)字幕和有字幕兩種[6],如果有字幕出現(xiàn),則需要進(jìn)一步判斷該畫(huà)面和上一幀畫(huà)面是否包含的是同一條字幕。字幕追蹤主要完成對(duì)每一幀畫(huà)面的歸類(lèi),判斷該視頻幀屬于哪一種字幕狀態(tài),便于后續(xù)對(duì)包含相同字幕的畫(huà)面只做一次文本識(shí)別。

本文提出利用相鄰若干幀邊緣圖像,對(duì)比重疊度的字幕追蹤方法。

2.1 算法設(shè)計(jì)

取經(jīng)過(guò)邊緣提取和字幕定位之后的每一幀圖像,該圖像是只包含字幕區(qū)域的二值圖像。由于視頻末尾1秒鐘通常情況下不會(huì)有新字幕出現(xiàn),所以放棄對(duì)末尾4幀的字幕追蹤,只對(duì)從第1幀開(kāi)始,到倒數(shù)第5幀結(jié)束的所有視頻幀做字幕追蹤。

(1)將所有視頻幀賦初始編號(hào)值為0,用0表示該幀無(wú)字幕出現(xiàn)。使用i記錄當(dāng)前操作的幀的序號(hào),使用j來(lái)記錄當(dāng)前已經(jīng)出現(xiàn)的字幕條數(shù),使用temp來(lái)記錄該次運(yùn)算中出現(xiàn)的字幕是否為新字幕,設(shè)i,j,temp的初始值均為0。

(2)取第i幀和其后4幀的圖像,由于所取圖像全部是二值圖像,所以可以做矩陣加和運(yùn)算,得到新矩陣,該新矩陣中的每個(gè)元素值最大為5,最小為0。

(3)如果該5幀包含相同字幕,其邊緣圖像會(huì)有大量完全重疊交織的地方,在新矩陣中體現(xiàn)為等于5的元素值數(shù)量占比會(huì)較大。如果該5幀中包含不同字幕,或者不包含字幕,那么該5幀的邊緣圖像完全重疊部分較少,在新矩陣中體現(xiàn)為等于3和等于4的元素值數(shù)量占比會(huì)較大。用x記新矩陣中等于5的元素值的數(shù)量,用y記新矩陣中等于3和等于4的元素值的數(shù)量之和。

(4)比較x和y,若x大于y,則認(rèn)為該5幀中均包含相同的字幕,轉(zhuǎn)到步驟(5),若x不大于y,則認(rèn)為該5幀中并非均包含相同字幕,轉(zhuǎn)到步驟(6)。

(5)若當(dāng)前temp等于0,則j加1,若當(dāng)前temp等于1,則j不變。將第i幀和其后4幀的編號(hào)值均改寫(xiě)為 j,令temp的值等于 1,轉(zhuǎn)到步驟(7)。

(6)不改變?nèi)魏我曨l幀的編號(hào)值,只令temp的值等于 0,轉(zhuǎn)到步驟(7)。

(7)令i加1,如果i等于倒數(shù)第4幀的序號(hào)值,則字幕追蹤全部完成,否則轉(zhuǎn)到步驟(2)。

完成字幕追蹤后,每一幀都被賦予了一個(gè)編號(hào)值,該編號(hào)值代表了字幕狀態(tài),編號(hào)值等于0表示該幀無(wú)字幕,編號(hào)值相同的幀代表字幕也相同,編號(hào)值的數(shù)值代表該條字幕是整段視頻的第幾條字幕。

2.2 算法分析

該算法要求一條字幕至少出現(xiàn)在20幀的畫(huà)面中,且對(duì)字幕文本區(qū)域較大且邊緣輪廓較明顯的視頻幀圖像具有較好的字幕追蹤效果。如果一條字幕出現(xiàn)在少于20幀的畫(huà)面中,由于其存在時(shí)間過(guò)短,則有可能該條字幕為特殊符號(hào)或語(yǔ)氣詞,該算法則會(huì)忽略該條字幕。

3 實(shí)驗(yàn)結(jié)果

字幕提取的前期處理步驟包含字幕定位與字幕追蹤,在字幕追蹤完成之后,所有視頻幀均已經(jīng)標(biāo)記出字幕所在區(qū)域,并且已經(jīng)按照相同字幕分為一類(lèi)的規(guī)則進(jìn)行了分類(lèi),之后只需在每一類(lèi)中選取一幀圖像做字幕識(shí)別[7],即可完成所有的字幕文本轉(zhuǎn)化。

3.1 實(shí)驗(yàn)數(shù)據(jù)

選取10段時(shí)長(zhǎng)在40秒左右的電影視頻,對(duì)其做字幕定位與字幕追蹤實(shí)驗(yàn),主要記錄字幕定位階段是否能將字幕區(qū)域完整標(biāo)識(shí),以及字幕追蹤階段能否準(zhǔn)確將每一幀圖像進(jìn)行歸類(lèi)。實(shí)驗(yàn)結(jié)果如表1所示。

表1中“字幕追蹤誤認(rèn)字幕”表示字幕追蹤過(guò)程誤將無(wú)字幕的視頻幀判斷為存在字幕。

02號(hào)和06號(hào)視頻均由于最后一條字幕出現(xiàn)時(shí)間少于1秒,導(dǎo)致字幕追蹤沒(méi)有成功識(shí)別出該條字幕。

07號(hào)視頻由于邊緣信息明顯且背景相對(duì)固定,導(dǎo)致字幕追蹤誤將無(wú)字幕的視頻幀判斷為了存在字幕,如圖3所示。

表1 實(shí)驗(yàn)數(shù)據(jù)

圖3 誤識(shí)為包含字幕的追蹤結(jié)果

05號(hào)視頻由于整段視頻字幕左側(cè)的邊緣信息較少,導(dǎo)致一些最左側(cè)的漢字沒(méi)有被完全劃分進(jìn)來(lái),出現(xiàn)了字幕定位不準(zhǔn)的情況,如圖4所示。

圖4 不完整的字幕定位區(qū)域

3.2 結(jié)果分析

基于邊緣特征的字幕定位,由于字幕是橫向排列的原因,對(duì)于字幕上下邊界的定位非常準(zhǔn)確,相比之下對(duì)于左右邊界的定位可能會(huì)稍微出現(xiàn)偏差。字幕追蹤對(duì)視頻中間出現(xiàn)的字幕基本可以做到精確分類(lèi),但是對(duì)最后一秒出現(xiàn)的新字幕的檢測(cè)還有待完善。

猜你喜歡
字幕灰度邊緣
采用改進(jìn)導(dǎo)重法的拓?fù)浣Y(jié)構(gòu)灰度單元過(guò)濾技術(shù)
天津港智慧工作平臺(tái)灰度發(fā)布系統(tǒng)和流程設(shè)計(jì)
Bp-MRI灰度直方圖在鑒別移行帶前列腺癌與良性前列腺增生中的應(yīng)用價(jià)值
Arduino小車(chē)巡線程序的灰度閾值優(yōu)化方案
電視劇字幕也應(yīng)精益求精
一張圖看懂邊緣計(jì)算
簡(jiǎn)單快捷提取視頻文件中的字幕
整合適應(yīng)選擇度下的動(dòng)畫(huà)電影字幕翻譯——以《冰河世紀(jì)》的字幕漢譯為例
論紀(jì)錄片的字幕翻譯策略
在邊緣尋找自我
阿鲁科尔沁旗| 屯留县| 丹江口市| 永康市| 铜陵市| 多伦县| 故城县| 花垣县| 兴和县| 独山县| 灵石县| 界首市| 大竹县| 华阴市| 建平县| 新邵县| 永兴县| 临夏市| 城步| 裕民县| 思南县| 栾川县| 滕州市| 介休市| 米脂县| 偃师市| 隆化县| 来宾市| 文水县| 中江县| 延庆县| 无棣县| 精河县| 泸溪县| 米泉市| 依兰县| 大港区| 建昌县| 长海县| 邢台县| 澄江县|