朱桂斌,鐘劉翔
?
基于視頻文字識(shí)別的跑步成績(jī)自動(dòng)測(cè)量系統(tǒng)研究*
朱桂斌,鐘劉翔
(陸軍工程大學(xué)通信士官學(xué)校,重慶 400035)
目前,對(duì)于體育考核中跑步成績(jī)的測(cè)量仍采用人工計(jì)時(shí)的方法,其結(jié)果不夠客觀、準(zhǔn)確。針對(duì)這些問(wèn)題,以機(jī)器視覺(jué)分析技術(shù)為核心,通過(guò)采集現(xiàn)場(chǎng)的視頻,實(shí)時(shí)識(shí)別參考人員的號(hào)牌,自動(dòng)記錄參考人員的圈數(shù)、用時(shí)和最終成績(jī),以提高考核手段的科學(xué)性和客觀性。
自然場(chǎng)景;文字檢測(cè);文字識(shí)別;背景檢測(cè)
隨著配備數(shù)碼相機(jī)的移動(dòng)電話終端的廣泛使用,視頻和圖像的采集更加方便。目前,網(wǎng)絡(luò)上有大量的視頻素材都是用消費(fèi)級(jí)終端在沒(méi)有嚴(yán)格光照、拍攝角度等條件拍攝的。這些視頻中的文字為后續(xù)的視頻分析和數(shù)據(jù)挖掘提供了可靠的信息來(lái)源。從自然場(chǎng)景中提取并識(shí)別文字在行人再識(shí)別、盲人輔助系統(tǒng)以及視頻字幕提取等領(lǐng)域應(yīng)用廣泛,成為計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)研究熱點(diǎn)[1-8]。
在體育比賽或體能考核中經(jīng)常需要對(duì)人員進(jìn)行自動(dòng)識(shí)別,這是一個(gè)典型的行人再識(shí)別問(wèn)題[1]。對(duì)運(yùn)動(dòng)員進(jìn)行識(shí)別有2種方法,即人臉識(shí)別或號(hào)碼識(shí)別。在拍攝場(chǎng)地,通常人員較多,采用人臉識(shí)別需要檢測(cè)和跟蹤識(shí)別的對(duì)象較多,對(duì)運(yùn)算能力的要求較高。號(hào)碼識(shí)別相對(duì)人臉識(shí)別運(yùn)算復(fù)雜度較低,便于在低成本的終端上實(shí)現(xiàn)。以此為基礎(chǔ)實(shí)現(xiàn)的運(yùn)動(dòng)成績(jī)自動(dòng)測(cè)量系統(tǒng)相對(duì)于人臉識(shí)別來(lái)說(shuō)精度更高。
基于傳統(tǒng)OCR技術(shù)的文字檢測(cè)與識(shí)別效果已基本滿足要求,但是自然場(chǎng)景文字檢測(cè)與識(shí)別仍然有許多問(wèn)題,特別是對(duì)運(yùn)動(dòng)目標(biāo)的文字識(shí)別尤其突出。主要原因有:①自然場(chǎng)景中通常含有許多干擾圖案,比如樹(shù)干、柵欄和標(biāo)志等;②自然場(chǎng)景圖像中文字的大小、方向、顏色各不相同;③拍攝的圖像會(huì)因運(yùn)動(dòng)員的快速運(yùn)動(dòng)或聚焦位置固定而變模糊,尤其是在拍攝分辨率較低時(shí)更加嚴(yán)重;④人員跑動(dòng)時(shí)身體姿勢(shì)和方向的變化甚至手臂的遮擋,將導(dǎo)致號(hào)碼區(qū)域的正確檢測(cè)和識(shí)別困難[1]。
自然場(chǎng)景文字識(shí)別包含2個(gè)過(guò)程,即文字檢測(cè)和文字識(shí)別。文字檢測(cè)的作用是從圖像中檢測(cè)文字的存在與否,并確定文字區(qū)域的邊框。文字識(shí)別可完成圖像信息到文字信息的映射。文本檢測(cè)和文本定位從本質(zhì)上來(lái)說(shuō)都屬于有監(jiān)督的分類問(wèn)題,區(qū)別在于類別的數(shù)量不同。分類問(wèn)題通常由2個(gè)步驟組成,即特征提取和識(shí)別。常用特征包括邊緣特征、筆畫特征、結(jié)構(gòu)特征等,特征通常由人工設(shè)計(jì)。常用的分類器包括隨機(jī)森林、SVM和ANN等。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,有許多基于深度網(wǎng)絡(luò)的研究工作獲得了較大的進(jìn)步[6,8]?;谏疃染W(wǎng)絡(luò)的文本定位和識(shí)別技術(shù)通過(guò)對(duì)樣本的學(xué)習(xí),自動(dòng)完成特征的提取和識(shí)別工作,性能較好。尤其是近年來(lái)由統(tǒng)一的深度網(wǎng)絡(luò)框架完成定位和識(shí)別2個(gè)任務(wù),性能得到進(jìn)一步提高。
傳統(tǒng)的人工特征提取方法計(jì)算量一般較小,但性能有待提高;基于深度網(wǎng)絡(luò)的文本識(shí)別技術(shù)性能較好,但計(jì)算量較大,一般不容易在便攜式終端上實(shí)現(xiàn)。本文研究的內(nèi)容結(jié)合了兩者的優(yōu)點(diǎn),傳統(tǒng)的方法完成文本的粗定位,保證系統(tǒng)有高的召回率(Recall);用CNN實(shí)現(xiàn)定位后文本的識(shí)別,確保系統(tǒng)有較高的準(zhǔn)確率(Precision)。
本文研究?jī)?nèi)容總體方案包含文本區(qū)域檢測(cè)和號(hào)碼識(shí)別兩大部分,各部分又各自包括3個(gè)模塊。
文本檢測(cè)方案包括的文本區(qū)域定位、SVM訓(xùn)練和文本區(qū)域定位判斷3個(gè)部分,具體內(nèi)容如圖1所示。
文字區(qū)域定位的主要作用是盡可能可靠地檢測(cè)出文字所在的區(qū)域。該系統(tǒng)設(shè)計(jì)有2個(gè)功能:①在構(gòu)造訓(xùn)練數(shù)據(jù)集時(shí),可以輔助人工實(shí)現(xiàn)文字區(qū)域的預(yù)選;②在實(shí)際檢測(cè)時(shí)可以為后續(xù)的識(shí)別模塊提供處理對(duì)象。
通過(guò)文字區(qū)域定位可以獲得大量圖像塊,對(duì)這些圖像塊進(jìn)行人工判別與標(biāo)注,可以作為訓(xùn)練集的一部分。用這些訓(xùn)練集中的數(shù)據(jù)對(duì)SVM模型進(jìn)行訓(xùn)練,可以得到SVM模型。本文研究?jī)?nèi)容經(jīng)過(guò)實(shí)際調(diào)試后,選用高斯核函數(shù)的SVM。對(duì)于實(shí)際的文本檢測(cè)任務(wù),用變尺度的滑動(dòng)窗口遍歷所有可能的位置,并對(duì)窗口內(nèi)圖像經(jīng)特征提取后送入訓(xùn)練好的SVM模型判斷,得到大部分可能是文字區(qū)域的圖像塊。為了確保系統(tǒng)有較高的召回率,檢測(cè)的圖像塊中可能包含非文字區(qū)域,該部分區(qū)域通過(guò)后續(xù)的文字識(shí)別模塊識(shí)別并剔除。
文字識(shí)別部分包括字符分割、ANN訓(xùn)練和字符識(shí)別3個(gè)部分,具體如圖2所示。
圖2 號(hào)碼識(shí)別方案
在文字識(shí)別過(guò)程中,首先對(duì)文字區(qū)域檢測(cè)獲得的圖像塊進(jìn)行二值化,分割出文字前景和背景部分,然后經(jīng)過(guò)方向投影極值檢測(cè)的方法獲得只包含1個(gè)字符的圖像塊,對(duì)這些圖像塊進(jìn)行人工判別與標(biāo)注,可作為訓(xùn)練集的一部分。用這些訓(xùn)練數(shù)據(jù)對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,可以得到用于文字識(shí)別的DNN模型。在最終的文字識(shí)別中,可以將得到的字符圖像塊輸入訓(xùn)練好的DNN,就可以得到每個(gè)圖像中的具體字符,如圖2中輸出了的“33”。以上是本文研究的整體方案,在實(shí)現(xiàn)過(guò)程中還有許多具體方法,以下介紹其中的關(guān)鍵技術(shù)。
實(shí)際拍攝的圖像有時(shí)會(huì)因運(yùn)動(dòng)員的快速運(yùn)動(dòng)或聚焦位置固定而變模糊,尤其是在拍攝分辨率較低時(shí)情況更嚴(yán)重。另外,運(yùn)動(dòng)員跑動(dòng)時(shí)身體姿勢(shì)和方向的變化甚至手臂的遮擋都會(huì)對(duì)拍攝圖像質(zhì)量造成很大的影響。為提高后續(xù)文本區(qū)域檢測(cè)和識(shí)別的準(zhǔn)確率,必須對(duì)視頻圖像進(jìn)行預(yù)處理,提高視頻圖像的質(zhì)量。本文采用文獻(xiàn)[10]的方法改善拍攝視頻質(zhì)量。
由于現(xiàn)場(chǎng)有許多干擾圖像,比如標(biāo)語(yǔ)、彩旗等常含有文字,為了提高運(yùn)動(dòng)員號(hào)碼牌識(shí)別的準(zhǔn)確性,必須將這些包含干擾文字的區(qū)域?yàn)V除。本文采用結(jié)合運(yùn)動(dòng)估計(jì)的模糊最大類間方差的圖像分割算法[11]分割前景和背景,過(guò)濾干擾區(qū)域。同時(shí),采用此方法對(duì)文字的前景和背景進(jìn)行分割,以供后續(xù)的識(shí)別任務(wù)。
系統(tǒng)實(shí)時(shí)性問(wèn)題的解決可從3個(gè)方面實(shí)現(xiàn):①用文獻(xiàn)[12]的方法對(duì)視頻中已經(jīng)識(shí)別的號(hào)碼進(jìn)行跟蹤,對(duì)新出現(xiàn)的號(hào)碼進(jìn)行識(shí)別,降低了系統(tǒng)的計(jì)算復(fù)雜度;②對(duì)SVM和ANN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,減少其中冗余的層次和節(jié)點(diǎn);③具體實(shí)現(xiàn)上,盡可能利用多核CPU的并行能力,利用多線程技術(shù),實(shí)現(xiàn)流水線操作。
復(fù)雜背景下的文s本檢測(cè)和文字識(shí)別技術(shù)是本文研究的主要內(nèi)容,其核心內(nèi)容是SVM模型和ANN模型的結(jié)構(gòu)以及訓(xùn)練。目前,深度神經(jīng)網(wǎng)絡(luò)進(jìn)展迅速,其典型的網(wǎng)絡(luò)結(jié)構(gòu)和預(yù)先訓(xùn)練模型均已開(kāi)源。本文模型訓(xùn)練時(shí)在此基礎(chǔ)上,利用遷移學(xué)習(xí)方法進(jìn)一步對(duì)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)進(jìn)行調(diào)優(yōu)。
網(wǎng)絡(luò)訓(xùn)練的另一大問(wèn)題就是數(shù)據(jù)集。本文的訓(xùn)練數(shù)據(jù)集一部分來(lái)自于本校體能訓(xùn)練和考核的現(xiàn)場(chǎng)錄像;另一部分來(lái)自于各類運(yùn)動(dòng)競(jìng)賽視頻,可以滿足模型的訓(xùn)練要求。測(cè)試數(shù)據(jù)集全部來(lái)自于本校體能考核視頻。
本文提出了利用機(jī)器視覺(jué)和深度學(xué)習(xí)的技術(shù)實(shí)現(xiàn)跑步成績(jī)自動(dòng)測(cè)量系統(tǒng)。系統(tǒng)利用運(yùn)動(dòng)信息進(jìn)行圖像融合,實(shí)現(xiàn)號(hào)碼圖像的增強(qiáng)與重構(gòu),提高了圖像的分辨率、號(hào)碼分割效果、識(shí)別率。通過(guò)SVM實(shí)現(xiàn)復(fù)雜背景下文本區(qū)域檢測(cè),利用深度網(wǎng)絡(luò)實(shí)現(xiàn)變形字符識(shí)別,并實(shí)現(xiàn)了在低運(yùn)算能力終端上的實(shí)時(shí)識(shí)別。
本項(xiàng)目的硬件成本較低,目前,全國(guó)中小學(xué)的體能考核甚至運(yùn)動(dòng)會(huì)還沒(méi)有采用這一方案實(shí)現(xiàn)成績(jī)的自動(dòng)測(cè)量。全國(guó)中學(xué)有60 000多所,普通高校有2 000多所,而體能考核的自動(dòng)化是一個(gè)大的趨勢(shì),本項(xiàng)目有廣闊的市場(chǎng)和較高的推廣價(jià)值。
[1]趙麗科,鄭順義,馬浩,等.田徑運(yùn)動(dòng)員號(hào)碼牌圖像的號(hào)碼識(shí)別[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(03):64-77,86.
[2]哈恩楠,吉立新,高超.基于對(duì)象建議算法的自然場(chǎng)景文本檢測(cè)[J].計(jì)算機(jī)應(yīng)用研究,2018(02):624-627,636.
[3]唐有寶,卜巍,鄔向前.多層次MSER自然場(chǎng)景文本檢測(cè)[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2016(06):1134-1140.
[4]易堯華,申春輝,劉菊華,等.結(jié)合MSCRs與MSERs的自然場(chǎng)景文本檢測(cè)[J].中國(guó)圖象圖形學(xué)報(bào),2017(02):154-160.
[5]王夢(mèng)迪,張友梅,常發(fā)亮.基于邊緣檢測(cè)和特征融合的自然場(chǎng)景文本定位[J].計(jì)算機(jī)科學(xué),2017(09):300-303,314.
[6]Xinyu. Zhou,Cong Yao,He Wen,et al.“EAST:An Efficient and Accurate Scene Text Detector”[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),Honolulu,Hawaii,USA,2017:2642-2651.
[7]S. Lee,C. Koch,J. Lee,et al. Yuille,“AdaBoost for Text Detection in Natural Scene”[C]//2011 International Conference on Document Analysis and Recognition(ICDAR),Beijing,China,2011:429-434.
[8]王林,張曉鋒.卷積深度置信網(wǎng)絡(luò)的場(chǎng)景文本檢測(cè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018(06):231-235.
[9]張日升,朱桂斌,張燕琴.基于卷積神經(jīng)網(wǎng)絡(luò)的衛(wèi)星遙感圖像區(qū)域識(shí)別[J].信息技術(shù),2017(11):83-86.
[10]戚曹,朱桂斌,陽(yáng)溢,等.基于局部自相似性的視頻圖像超分辨率算法[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,(05):692-699.
[11]曾偉,袁寶峰,朱桂斌.基于模糊最大類間方差的圖像分割算法[J].實(shí)驗(yàn)科學(xué)與技術(shù),2008(06):22-24,31.
[12]曾偉,朱桂斌,李瑤.基于Kalman點(diǎn)匹配估計(jì)的運(yùn)動(dòng)目標(biāo)跟蹤[J].計(jì)算機(jī)應(yīng)用,2009(06):1677-1682.
TH744.5
A
10.15913/j.cnki.kjycx.2018.22.045
2095-6835(2018)22-0045-03
本文獲陸軍工程大學(xué)通信士官學(xué)校科研項(xiàng)目(編號(hào):TZ-CQTY-Y-C-2017-035),重慶市社會(huì)事業(yè)與民生保障科技創(chuàng)新專項(xiàng)(cstc2017shmsA00003)資助
朱桂斌(1972—),男,河北涿鹿人,教授,2004年畢業(yè)于重慶大學(xué)(博士),主要從事圖像分析和識(shí)別方面的研究。
〔編輯:張思楠〕