胡 輝 胡 松 陳 伽 蔡映雪 陳 軍 蔡昭權(quán) 惠州學(xué)院
?
自然場(chǎng)景文本信息提取關(guān)鍵技術(shù)探究
胡 輝 胡 松 陳 伽 蔡映雪 陳 軍 蔡昭權(quán) 惠州學(xué)院
(11JXZ012,14JXN065),廣東省自然科學(xué)基金項(xiàng)目(S2013010013432,S2013010015940),廣東省教育廳項(xiàng)目(2013LYM00874),廣東省高校優(yōu)秀青年創(chuàng)新人才培養(yǎng)計(jì)劃資助項(xiàng)目(2013LYM_0087),惠州市科技計(jì)劃項(xiàng)目(2013B020015008,2014B020004026,2014B050013016,2014B020004023,2015B010002002)
【文章摘要】
【關(guān)鍵詞】
自然場(chǎng)景;文本信息;圖像分割;特征提取
視覺(jué)是人們感知世界客觀事物最為重要的一個(gè)手段,圖像是人類視覺(jué)的輸入的基礎(chǔ),也是對(duì)自然場(chǎng)景的描述,其可以采集自然環(huán)境的各類型信息。圖像中的問(wèn)題是自然場(chǎng)景的描述信息,也是自然場(chǎng)景的重要內(nèi)容,可以為人們快速定位信息提供強(qiáng)大的線索,比如商店招牌、導(dǎo)航招牌、交通指示牌、大型建筑物廣告文字等,這些文字都具有較為明確的含義,也是自然場(chǎng)景信息的重要的表現(xiàn)形式[1]。據(jù)統(tǒng)計(jì),文本信息對(duì)于人們具有更加明顯的吸引能力,因此利用先進(jìn)的圖像處理技術(shù)識(shí)別文字內(nèi)容,具有重要的作用和意義。隨著大數(shù)據(jù)、云計(jì)算、圖形處理技術(shù)的快速發(fā)展,識(shí)別自然場(chǎng)景圖像中的文本信息已經(jīng)成為需對(duì)學(xué)者研究的熱點(diǎn)。目前,資產(chǎn)場(chǎng)景文本信息提取具有以下幾個(gè)方面的應(yīng)用。
(1)車牌識(shí)別。目前,各個(gè)交通卡口都設(shè)置了測(cè)速儀和攝像機(jī),卡口車流量非常大,為了能夠快速定位每一輛車,判斷車輛是否違法,提高車牌檢索、判別的速度和準(zhǔn)確度,以便能夠更好的保證車輛遵守交通秩序,進(jìn)一步提高智能交通應(yīng)用成效[2]。
(2)提高圖片檢索效率。目前,google、百度等瀏覽器已經(jīng)提供了圖片檢索功能,用戶輸入相關(guān)的圖片之后,系統(tǒng)自動(dòng)識(shí)別圖片中的文本信息,并且在網(wǎng)絡(luò)上檢索類似的圖片信息,并且輸出檢索結(jié)果到網(wǎng)頁(yè)上[3]。
(3)為工業(yè)生產(chǎn)提供幫助。工業(yè)生產(chǎn)過(guò)程中,可以利用文本信息識(shí)別技術(shù)提升圖像檢測(cè)效率,進(jìn)一步提高工業(yè)生產(chǎn)精細(xì)化、智能化和共享化[4]。
目前,自然場(chǎng)景文本信息提取已經(jīng)引入了許多先進(jìn)的技術(shù),包括支持向量機(jī)、 BP神經(jīng)網(wǎng)絡(luò)、近鄰傳播、遺傳算法、 K均值等算法,進(jìn)一步提高了自然場(chǎng)景文本信息提取的精準(zhǔn)程度。論文結(jié)合筆者多年的研究經(jīng)驗(yàn),詳細(xì)地分析了自然場(chǎng)景文本信息提取的關(guān)鍵技術(shù),這些技術(shù)主要包括形態(tài)學(xué)處理、文本圖像分割、文本信息特征提取等,以便為自然場(chǎng)景文本信息處理提供參考,改進(jìn)文本信息識(shí)別準(zhǔn)確度和效率。
1.1形態(tài)學(xué)處理
形態(tài)學(xué)以數(shù)學(xué)形態(tài)學(xué)為基本原理,將自然場(chǎng)景圖像中的文字形態(tài)作為研究和描述的對(duì)象,并且能夠?qū)⑾嚓P(guān)的文字結(jié)構(gòu)和特征之間的關(guān)系,包括各類元素之間的關(guān)系和區(qū)域之間的關(guān)系等[8]。一般情況下,形態(tài)學(xué)圖像處理可以計(jì)算文字邊緣的鄰域信息,并且能夠?qū)⑧徲蛐畔⒔Y(jié)構(gòu)化,將每一個(gè)鄰域結(jié)構(gòu)化元素和相關(guān)的區(qū)域進(jìn)行有效計(jì)算,并且將運(yùn)算結(jié)果作為一種輸出圖像,能夠進(jìn)行有效的計(jì)算[5]。二值圖像是指像素點(diǎn)僅僅取值0或1的兩種灰度級(jí)的圖像,灰度圖像經(jīng)過(guò)閾值判決之后,可以將一幅灰度圖像轉(zhuǎn)換為二值圖像,并且能夠?qū)⒋罅康墓铝⒃肼朁c(diǎn)、區(qū)域空洞和連接間斷等節(jié)能型去除干擾,并且能夠獲取更好的物體形態(tài)[9]。
開(kāi)運(yùn)算在實(shí)際的應(yīng)用過(guò)程中,結(jié)構(gòu)元素B對(duì)集合A的開(kāi)運(yùn)算分為兩個(gè)步驟,分別是先用結(jié)構(gòu)元素對(duì)圖像的集合A進(jìn)行有效的腐蝕,接著再使用結(jié)構(gòu)元素B對(duì)腐蝕之后的結(jié)果進(jìn)行膨脹運(yùn)算。
1.2連通分量處理
二值圖像經(jīng)過(guò)實(shí)施開(kāi)運(yùn)算之后,接著需要對(duì)圖像的連通分量進(jìn)行有效的分析,可以提取出圖像中的結(jié)構(gòu)化物體[6]。連通的定義如下:假設(shè)在二值圖像中,如果兩個(gè)像素的灰度值是相等的,并且能夠滿足一定的規(guī)定條件,則表示兩個(gè)元素是連通的。在連通分量分析過(guò)程中,灰度值為1的像素表示需要等待提取的像素,則與該像素相鄰的像素還能夠滿足兩種鄰接方式,分別是四鄰接和八鄰接。四鄰接表示水平方向的像素和垂直方向的像素都相鄰,八鄰接表示水平方向、垂直方向和對(duì)角方向上的像素均為相鄰的像素。
1.3文本圖像分割技術(shù)
1.3.1灰度閾值分割
1.3.2邊緣檢測(cè)方法
邊緣檢測(cè)的主要目的是為了提取圖像中不聯(lián)系的特征內(nèi)容,根據(jù)閉合的邊緣確定相關(guān)的區(qū)域。邊緣檢測(cè)算法不需要逐個(gè)分割圖像的像素,更加適用于大圖像的分割[8]。常用的邊緣檢測(cè)算子較多,這些算子可以與圖像卷積,定位圖像邊緣的位置和方向。一階邊緣檢測(cè)算子主要包括Roberts算子和Sobel邊緣算子,具體的一階邊緣檢測(cè)算子方法詳細(xì)描述如下。Roberts算子可以利用局部差分算子尋找火焰視頻圖形邊緣,采用的理論公式如式2所示。
其中,f(x,y)表示一個(gè)具有整數(shù)像素坐標(biāo)的輸入圖像,平方根運(yùn)算可以模擬人類視覺(jué)系統(tǒng)發(fā)現(xiàn)火焰視頻圖像邊緣的整個(gè)過(guò)程。Roberts算子可以實(shí)現(xiàn)較為準(zhǔn)確的邊緣定位,但是其對(duì)于噪聲數(shù)據(jù)非常敏感,因此Roberts算子對(duì)于具有較為明顯邊緣、噪聲數(shù)據(jù)非常少的圖形進(jìn)行定位具有良好的效果。
Sobel邊緣檢測(cè)算子可以采用一個(gè)3×3的矩陣進(jìn)行描述,可以分別從水平、垂直兩個(gè)方向?qū)D像進(jìn)行卷積操作,計(jì)算出水平、垂直兩個(gè)方向的亮度差的近似值,比如可以使用矩陣A表示原始的圖像內(nèi)容,Gx表示垂直方向邊緣檢測(cè)的圖形,Gy表示水平方向橫向邊緣檢測(cè)圖像[9]。
二階邊緣檢測(cè)檢測(cè)算子最具代表性的是拉普拉斯算子。拉普拉斯算子是一個(gè)線性的、移不變算子,其可以對(duì)二維函數(shù)進(jìn)行二階導(dǎo)數(shù)運(yùn)算,假設(shè)f (x,y)表示一個(gè)在圖像中的位置(x,y),則拉普拉斯算子可以描述為公式(3)。
拉普拉斯算子(Laplace)充分的利用二階導(dǎo)數(shù)具有各向同性的性質(zhì),并且拉普拉斯算子與坐標(biāo)軸的方向是相互獨(dú)立的,坐標(biāo)軸旋轉(zhuǎn)之后梯度結(jié)果保持不變。圖像經(jīng)過(guò)二階微分之后,可以在文字圖像邊緣處產(chǎn)生一個(gè)較為尖銳的零交叉點(diǎn),根據(jù)這個(gè)零交叉點(diǎn)判斷圖像的邊緣信息,拉普拉斯算子的模板如圖1所示。
圖1 Laplace算子的模板
圖像的文字邊緣檢測(cè)是為了能夠在圖像中尋找到具有局部最大梯度值的像素點(diǎn),因此文字圖形邊緣檢測(cè)過(guò)程中必須能夠有效濾除噪聲、盡量精確定位邊緣位置[10]。Canny算子是高斯函數(shù)的一階導(dǎo)數(shù),其可以對(duì)信噪比和定位乘積進(jìn)行最優(yōu)化逼近,具體的Canny算子的檢測(cè)步驟如下所述。
第一步:使用高斯濾波器對(duì)文字圖像進(jìn)行平滑操作,消除噪聲數(shù)據(jù);
第二步:使用一階偏導(dǎo)數(shù)實(shí)施有限差分,計(jì)算文字梯度的幅值和方向;
第三步:對(duì)文字梯度幅值實(shí)施調(diào)整,使用非極大值進(jìn)行抑制操作;
第四步:使用雙閾值算法檢測(cè)和連接圖像文字的邊緣。
Canny算子文字圖像特征檢測(cè)算法具有以下三個(gè)方面的優(yōu)點(diǎn):一是具有較低的誤碼率,可以準(zhǔn)確的判斷文字特征邊緣點(diǎn);二是具有較高的特征定位精度,能夠精確的把文字邊緣點(diǎn)定位在灰度編號(hào)最大的像素之上;三是能夠抑制虛假邊緣點(diǎn)。
1.4特征提取技術(shù)
1.4.1幅度特征
在圖像特征中,圖像的文字幅度度量是一種較為關(guān)鍵的特征。文字幅度度量可以有效的測(cè)量圖像點(diǎn)或及其鄰區(qū)做出關(guān)鍵的測(cè)量[11]。在算法執(zhí)行過(guò)程中,可以從某些線性或非線性的變換過(guò)程中構(gòu)成了新的圖像文字幅度的空間,也可以直接從圖像的灰度等級(jí)求取圖像的文字幅度特征,以便能夠分離目標(biāo)物的描述,具有十分重要的作用。
1.4.2線條或角點(diǎn)的特征
對(duì)于一幅文字圖像來(lái)講,文字線條的軌跡特征可以有效的描述圖像中的文字的凸凹狀態(tài),數(shù)學(xué)上被稱為圖像的線條的法向量。通常情況下,圖像的文字幅度是由低到高、再?gòu)母叩降桶l(fā)生極大的變化的,因此可以使用不同的峰值檢測(cè)出圖像的文字線條,提取圖像的線條或角點(diǎn)之后,既可以按照相似的比例壓縮圖像的大小,減低數(shù)據(jù)存儲(chǔ)的信息量,并且可以對(duì)圖像進(jìn)行有效的推理、描述和識(shí)別[12]。
1.4.3灰度邊緣特征
數(shù)字圖像文字特征處理過(guò)程中,由于圖像文字具有不連續(xù)性,灰度或紋理通常會(huì)發(fā)生改變等現(xiàn)象,因此圖像文字的特征可以有效的描述圖像中包含的各種字體,但是大范圍的不連續(xù)性容易給圖像文字造成邊界,因此如果圖像文字幅度水平具有不連續(xù)性,很容易稱為圖像的局部邊緣,一個(gè)比較理想的邊緣檢測(cè)器需要能夠檢測(cè)出圖像中目標(biāo)物體的各類邊緣,同時(shí)還能夠確定斜坡的位置。
隨著多媒體技術(shù)的快速發(fā)展和改進(jìn),圖像處理已經(jīng)得到了廣泛普及和使用,有效提升了工業(yè)生產(chǎn)、安防監(jiān)控、圖像檢索效率。自然場(chǎng)景文本信息提取可以與當(dāng)前實(shí)際應(yīng)用相互結(jié)合,比如車牌識(shí)別等,采用先進(jìn)的形態(tài)學(xué)處理、連通分類處理、灰度閾值分割、文字邊緣檢測(cè)、幅度特征、線條或角點(diǎn)特征、灰度邊緣特征等處理模式進(jìn)一步識(shí)別自然場(chǎng)景中的文本信息。
【參考文獻(xiàn)】
[1] 彭浩,陳繼鋒,劉瓊,等.一種面向聚焦爬蟲(chóng)的自然場(chǎng)景文本定位技術(shù)[J].小型微型計(jì)算機(jī)系統(tǒng),2014,24(9):2014-2018.
[2] 劉新瀚,錢侃,王宇飛,等.自然場(chǎng)景下基于連通域檢測(cè)的文字識(shí)別算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,21(5):41-45.
[3] 黃曉明,高陳強(qiáng),田陽(yáng)陽(yáng).自然場(chǎng)景文本區(qū)域定位[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2015,27(5):700-705.
[4] 楊彬,夏思宇.自然場(chǎng)景多方向文本檢測(cè)方法[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2015,22(S1):228-232.
[5] 陳梓洋,王宇飛,錢侃,等.自然場(chǎng)景下基于區(qū)域檢測(cè)的文字識(shí)別算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,18(7):230-233.
[6] 王瑾.基于局部顯著文字型區(qū)域的場(chǎng)景文本提取算法[J].太原師范學(xué)院學(xué)報(bào):自然科學(xué)版,2014,16(4):33-39.
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和進(jìn)步,多媒體應(yīng)用技術(shù)得到迅速改進(jìn)和提升,取得了顯著的成效。自然場(chǎng)景文本信息提取是多媒體處理的關(guān)鍵技術(shù),目前已經(jīng)誕生了形態(tài)學(xué)、聯(lián)通分類、文本圖像分割、文本特征提取等多種技術(shù),有效提升了自然場(chǎng)景文本信息提取的成效,進(jìn)一步改進(jìn)了自然場(chǎng)景文本信息檢索的準(zhǔn)確度。
【作者簡(jiǎn)介】
胡輝(1979-),女,江蘇鹽城,碩士,惠州學(xué)院,講師,研究方向?yàn)橛?jì)算機(jī)軟件