国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于掃描圈的字符識(shí)別方法

2012-09-29 03:19宋賢霞李玉琴
自動(dòng)化與信息工程 2012年5期
關(guān)鍵詞:弧段特征向量字符

宋賢霞 李玉琴

(1.甘肅中醫(yī)學(xué)院 2.蘭州理工大學(xué))

0 引言

公式廣泛存在于各類文獻(xiàn)資料中,當(dāng)對(duì)這些文獻(xiàn)進(jìn)行數(shù)字化時(shí),其中的公式只能按照?qǐng)D像格式使用,不能加以識(shí)別分析,也不能依據(jù)公式對(duì)文章進(jìn)行檢索。當(dāng)需要驗(yàn)證或重用這些公式時(shí),只能使用專門的排版軟件進(jìn)行重新輸入,因此找到一種簡(jiǎn)單有效的方法將文獻(xiàn)中的公式轉(zhuǎn)化為可編輯的文本公式是非常必要的[1-2]。

在實(shí)際應(yīng)用中,數(shù)學(xué)公式一般是由英文字符、阿拉伯?dāng)?shù)字、特殊符號(hào)及希臘字母組成的,因此要正確識(shí)別數(shù)學(xué)公式首先要識(shí)別這些組成元素[3-5]。本文所做的關(guān)于掃描圈的識(shí)別就是針對(duì)每一個(gè)單獨(dú)字符進(jìn)行識(shí)別,本文以印刷體的英文小寫字母為例對(duì)掃描圈識(shí)別的方法進(jìn)行闡述[6]。

1 掃描圈提取

1.1 掃描圈概念

英文字符在外觀上是由一些曲線組成的,任何一個(gè)連筆符號(hào)都可以看成是由一個(gè)外圈和若干個(gè)內(nèi)圈組合而成,如a是由一個(gè)內(nèi)圈和一個(gè)外圈組合而成的;c則是由一個(gè)外圈形成的。用不同的數(shù)字代表上下左右四個(gè)方向,并且用它們的組合代表左上、左下、右上、右下四個(gè)方向(如圖1所示)。通過(guò)掃描搜索,每一個(gè)幾何圈都可以一一對(duì)應(yīng)于由這四種符號(hào)構(gòu)成的數(shù)字串,這個(gè)數(shù)字串簡(jiǎn)稱為掃描圈。

圖1 掃描圈的數(shù)字串表示

1.2 掃描圈提取

掃描圈的提取是按照相對(duì)坐標(biāo)和鄰點(diǎn)搜索實(shí)現(xiàn)的,在掃描開始之前需要給出一個(gè)初始中心點(diǎn),即掃描初點(diǎn)。尋找掃描初點(diǎn)的過(guò)程有兩種方式:一種是按照行掃描的方式以搜索到的第一個(gè)黑色點(diǎn)作為掃描初點(diǎn);另一種是按照列掃描的方式搜索掃描初點(diǎn)。本文采用的是行掃描的方式。

找到掃描初點(diǎn)之后,將其作為當(dāng)前中心點(diǎn),按照逆時(shí)針的方向搜索它的八個(gè)領(lǐng)域點(diǎn),應(yīng)當(dāng)注意此時(shí)它的鄰點(diǎn)中有四個(gè)方向的點(diǎn)已經(jīng)在行掃描的過(guò)程中被考察過(guò),且都不為黑點(diǎn),因此,此時(shí)只要搜索它另外四個(gè)方向上的鄰點(diǎn)(01、00、30、11)。若在搜索過(guò)程中得到一個(gè)黑色新鄰點(diǎn),定義這個(gè)首次出現(xiàn)的黑色新鄰點(diǎn)為下一個(gè)中心點(diǎn),然后按照逆時(shí)針?lè)较蛞郧爸行狞c(diǎn)的下一個(gè)點(diǎn)為起始點(diǎn),在8個(gè)方向中搜索新的中心點(diǎn),這樣就形成了幾何圈的掃描過(guò)程;若在掃描過(guò)程中未在掃描初點(diǎn)的鄰域中找到黑色新鄰點(diǎn),表明此掃描初點(diǎn)為一個(gè)孤立的像素點(diǎn),將其視為無(wú)效點(diǎn)清除,并尋找新的掃描初點(diǎn)。表1對(duì)遵循以上規(guī)律得到的掃描圈結(jié)果進(jìn)行了舉例說(shuō)明。

表1 掃描圈結(jié)果舉例

按照上述方法,對(duì)每一個(gè)英文小寫字母都可以得到若干個(gè)四進(jìn)制的字符串,如果依照點(diǎn)的絕對(duì)坐標(biāo)的單調(diào)性,可以將幾何圈分成若干個(gè)單調(diào)弧,在四進(jìn)制的字符串中便能得到單調(diào)段的個(gè)數(shù)及序數(shù)穩(wěn)定性,即同一符號(hào)在一定范圍內(nèi)的放大和縮小格式具有相同的單調(diào)段個(gè)數(shù)及序數(shù)。一個(gè)計(jì)算機(jī)符號(hào)實(shí)際上是幾何符號(hào)的有限剖分,符號(hào)識(shí)別就是研究幾何符號(hào)的剖分不變性,知道了剖分不變性便可以得到計(jì)算機(jī)符號(hào)的不依賴于硬件的抽象碼。

1.3 掃描圈提取過(guò)程中的特殊處理

為防止在掃描圈提取過(guò)程中由于筆畫過(guò)細(xì)而造成損失單調(diào)段及影響序數(shù)的情況,在掃描圈提取過(guò)程中如果出現(xiàn)相反的方向就進(jìn)行加寬處理,即在掃描圈中多加入一個(gè)與這兩個(gè)方向按逆時(shí)針的垂直方向上的像素點(diǎn),表2對(duì)進(jìn)行了加寬處理的筆畫作了舉例說(shuō)明。

從表2的處理中可以看出,掃描圈是一個(gè)很長(zhǎng)的數(shù)字串,包含多個(gè)相同的碼字連續(xù)出現(xiàn)的子段,它們實(shí)際上就是一個(gè)個(gè)的單調(diào)弧。為在不損失圖像筆畫信息的前提下盡可能的壓縮掃描圈的長(zhǎng)度,提出掃描核的提取方法。

表2 對(duì)掃描圈進(jìn)行加寬處理

2 掃描核及特征提取

2.1 掃描核

在幾何相似變換下,即適當(dāng)?shù)膸缀畏糯蠡蚩s小,同一個(gè)幾何圈的掃描圈是不同的,但具有內(nèi)在的結(jié)構(gòu)不變性,提取這些結(jié)構(gòu)不變量是結(jié)構(gòu)識(shí)別的關(guān)鍵。

掃描圈是由數(shù)字0、1、2、3的組合構(gòu)成的數(shù)字串,不同的組合表示不同的方向,如果掃描圈cod為:{i、j}={0、1},{1、2},{2、3},{3、0},則稱 cod由數(shù)字{i、j}構(gòu)成的極大段為掃描弧。這里的極大段是指不含相反方向數(shù)字的極大弧段。

每一個(gè)掃描圈都可以看作是掃描弧的有序組合,如果用cod[ i ]來(lái)表示一個(gè)掃描弧,那么掃描圈cod可以分解為弧段的表示:

cod=cod[1]cod[2]cod[3] ……cod[n],n稱為弧段的個(gè)數(shù),這是一個(gè)相似不變量,當(dāng)對(duì)字符進(jìn)行適當(dāng)?shù)姆糯蠛涂s小后,n均不會(huì)改變。

每一個(gè)弧段中由于其不含相反方向的數(shù)字,所以可以對(duì)弧段進(jìn)行壓縮,例如弧段 2222121212222222可以壓縮為12,這樣每一個(gè)掃描圈便可壓縮為掃描基的表示,將其稱之為掃描核。

一般,掃描圈在其長(zhǎng)度得到大幅度縮減的基礎(chǔ)上仍保留著掃描弧個(gè)數(shù)、方向等重要形態(tài)信息。下面對(duì)字符的特征提取就是在掃描核的基礎(chǔ)上進(jìn)行的。

2.2 特征代碼庫(kù)的建立

經(jīng)過(guò)壓縮之后很長(zhǎng)的掃描圈變成了由掃描基表示的較短的掃描核,掃描核所攜帶的筆畫走向信息與掃描圈是相同的,每一個(gè)掃描基就表示一種筆畫的走向。由于英文字符在結(jié)構(gòu)上具有不變性,因此任一字符在某一方向上的筆畫總數(shù)是不變的,即每一個(gè)掃描基在掃描核中的總數(shù)是不會(huì)變的,根據(jù)這一特性對(duì)于每一個(gè)英文字符,首先提取它的掃描核,然后數(shù)出其中每一個(gè)掃描基的個(gè)數(shù),用它們組成一個(gè)長(zhǎng)度為4的特征向量,表3是對(duì)一部分字符特征向量的舉例說(shuō)明。

表3 字符特征向量舉例

對(duì)于26個(gè)英文小寫字母,按照上述方法分別計(jì)算它們的特征向量并保存在計(jì)算機(jī)中作為匹配的模板。

3 模板匹配

對(duì)于輸入的單個(gè)字符,按照前面的方法提取它的特征向量,將其與所有模板逐個(gè)進(jìn)行比較,計(jì)算它們之間的距離

對(duì)于距離D,設(shè)定了一個(gè)閥值,當(dāng)D大于該閥值時(shí),中斷與該模板的比較,并進(jìn)行與下一個(gè)模板的比較。當(dāng)所有的模板都比較完之后,找出其中距離最短的模板,則識(shí)別結(jié)果為該模板對(duì)應(yīng)的英文字符,若所有的距離都超過(guò)了閥值,則認(rèn)為該字符無(wú)法識(shí)別。

4 結(jié)束語(yǔ)

文中所設(shè)計(jì)的方法主要是針對(duì)印刷體的英文小寫字母,對(duì)于不同字體的英文小寫字母,它們的像素點(diǎn)位置略有差別,這種差別將影響字符的識(shí)別率。因此,為了提高字符的識(shí)別率需要針對(duì)每一種字體分別提取它們的特征代碼庫(kù)。這樣每一個(gè)英文小寫字母所對(duì)應(yīng)的特征代碼就不止一個(gè),在模板匹配過(guò)程中需要與這些不同的特征代碼進(jìn)行比較。

[1] 程值軍.基于掃描表方法和命令串方法的數(shù)學(xué)公式識(shí)別與文本轉(zhuǎn)化的理論研究[D].蘭州大學(xué),2007.

[2] 龐東虎,金偉杰.英文字符特征提取系統(tǒng)[J].計(jì)算機(jī)仿真,2007,24(12):208-210.

[3] 黃炯生,黃敏琪.基于模型匹配法的字符識(shí)別[J].中國(guó)科技信息,2008(8):92-94.

[4] 藍(lán)章禮.基于中心與圓周的英文字符識(shí)別方法研究[J].計(jì)算機(jī)科學(xué)學(xué)報(bào),2007,34(4):241-242.

[5] 黃敏,龍輝敏,楊曦,等.一種典型的英文字符識(shí)別算法[J].電子儀器儀表用戶,2000,7(4):17-21.

[6] 王萍,劉恒,狄光敏.基于簡(jiǎn)約碼特性樹的字母和數(shù)字識(shí)別[J].天津大學(xué)學(xué)報(bào), 2008,41(6):668-672.

猜你喜歡
弧段特征向量字符
基于改進(jìn)弧段切點(diǎn)弦的多橢圓檢測(cè)
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
鋼絲繩支撐波狀擋邊帶式輸送機(jī)物料通過(guò)支座的軌跡研究
克羅內(nèi)克積的特征向量
論高級(jí)用字階段漢字系統(tǒng)選擇字符的幾個(gè)原則
基于橢圓檢測(cè)的充電口識(shí)別
電弧增材制造過(guò)程的外形控制優(yōu)化
字符代表幾
一種USB接口字符液晶控制器設(shè)計(jì)
圖片輕松變身ASCⅡ藝術(shù)畫
建平县| 岚皋县| 霍州市| 石狮市| 揭西县| 金山区| 巨鹿县| 秭归县| 固阳县| 安仁县| 滦平县| 盐津县| 东乡| 巴彦县| 栖霞市| 旺苍县| 巴南区| 泰顺县| 胶南市| 洞口县| 靖安县| 瑞昌市| 伊金霍洛旗| 莲花县| 同江市| 唐山市| 志丹县| 乌兰县| 边坝县| 会昌县| 肃宁县| 蒙山县| 晋城| 邵阳市| 奉贤区| 揭东县| 阳原县| 大安市| 庆安县| 密山市| 和林格尔县|