国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

脫機(jī)手寫維吾爾文單詞的過拆分方法

2018-07-12 10:42瑪伊萊·艾力瑪依拉·依布拉音地里木拉提·吐爾遜艾斯卡爾·艾木都拉
電腦知識(shí)與技術(shù) 2018年12期
關(guān)鍵詞:投影

瑪伊萊·艾力 瑪依拉·依布拉音 地里木拉提·吐爾遜 艾斯卡爾·艾木都拉

摘要:脫機(jī)手寫體維吾爾文切分是脫機(jī)手寫體維吾爾文識(shí)別的基礎(chǔ),切分準(zhǔn)確率直接影響識(shí)別的正確率,該問題的研究對(duì)提高識(shí)別的系統(tǒng)性能具有重要的意義。提出了一種脫機(jī)手寫維吾爾文單過切分方法。該方法的基本過程是通過確定單詞的主筆劃找到單詞的基線,再根據(jù)基線以上的部分過拆分單詞,對(duì)該方案進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該文切分方案具有有效性和可行性。

關(guān)鍵詞: 脫機(jī)手寫;維吾爾文;過切分;投影;基線檢測(cè)

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)12-0271-03

Abstract:Off-line handwriting Uyghur word segmentation is the basis of offl-ine Uyghur handwriting recognition. The segmentation accuracy directly affects the accuracy of recognition. The research on this issue is of great significance to improve the recognition system performance. An off-line handwritten Uyghur single-pass segmentation method is proposed. The basic process of this method is to find the baseline of the word by determining the main stroke of the word, then to split the word according to the part above the baseline, and the experiment is carried out. The experimental results show that the proposed scheme is effective and feasible.

Key words:Off-line handwriting; Uyghur; over segmentation; projection; Baseline detection;

1 引言

維吾爾文的歷史悠久,在中國的西北地區(qū),廣泛地被維吾爾族使用?;诰S吾爾文的文字處理系統(tǒng)與輸入方法的研究,在我國研究較少,同時(shí)起步也比較晚,現(xiàn)存的研究文獻(xiàn)中,研究最多的就是鍵盤編碼輸入方式[1],關(guān)于識(shí)別方面的研究相對(duì)較少。關(guān)于維吾爾文字的識(shí)別技術(shù),尤其是印刷體字符的研究,研究比較成熟的代表是清華大學(xué)與新疆大學(xué)[2-4]。與其他語言文字相比,維吾爾文在書寫規(guī)則,字母結(jié)構(gòu)、書寫習(xí)慣等方面更為復(fù)雜,難度較大,尤其是手寫體識(shí)別,由于硬件因素的影響,對(duì)于脫機(jī)手寫單詞識(shí)別更少?;诖耍疚闹饕难芯繉?duì)象是脫機(jī)手寫維吾爾文字符切分技術(shù)的。單詞的識(shí)別主要分為兩種,一種是基于分割的方法,第一種是整體性識(shí)別的方法。如果是通過分析字母的形狀特征對(duì)字母進(jìn)行識(shí)別,然后再對(duì)整個(gè)單詞進(jìn)行識(shí)別,則說明采用的是基于分割的方法;如果是通過單詞的整體數(shù)字特征入手,再采用整體的模式對(duì)單詞進(jìn)行識(shí)別,則說明采用的是整體性識(shí)別方法。在維吾爾文中,如果是采用整體性識(shí)別的方法對(duì)其識(shí)別,是行不通的,因?yàn)檫@種語言的單詞數(shù)量特別龐大,因此只能采用基于分割的方法。在單詞圖像中,單詞中的字符切分是相對(duì)比較重要的一步,它是字符切分、單詞識(shí)別等技術(shù)的基礎(chǔ)。要進(jìn)行正確地識(shí)別就要進(jìn)行正確的區(qū)分,如果切分不當(dāng)就容易造成識(shí)別錯(cuò)誤,對(duì)于這種問題是不能忽視的。在維吾爾文的脫機(jī)手寫中,兩個(gè)因素給單詞切分帶來了較大的困難,第一個(gè)因素是手寫的隨意性,第二個(gè)因素是單詞圖像中字符的唯一性。

維吾爾文字書寫時(shí)字母連續(xù)流暢,自右向左書寫。維吾爾文與漢文有較大的不同,維吾爾文的一個(gè)詞是由一個(gè)或多個(gè)字母組成的。根據(jù)維吾爾文的書寫規(guī)則,,這些字母可能前后相連形成一個(gè)或幾個(gè)連體字母段或稱連體段。不管是維吾爾文的手寫體,還是維吾爾文的印刷體,在連體字母段中,所有的字母都是沿著一條水平線相連的,這條水平線叫基線。一個(gè)單詞包含一個(gè)或多個(gè)連體段。每個(gè)連體段也是由一組字母,或一個(gè)字母組成。

2 預(yù)處理

以采集到的單詞圖像為基本對(duì)象,對(duì)其進(jìn)行相應(yīng)的處理,這種處理就叫預(yù)處理。預(yù)處理的目的有兩個(gè),一個(gè)是減少噪聲的影響,另一個(gè)是減少外界干擾,預(yù)處理的主要作用是對(duì)手寫單詞存在的變形進(jìn)行矯正。預(yù)處理在所有的步驟中是不能缺少的關(guān)鍵性步驟,它是字符分割的基礎(chǔ)與前提。主要內(nèi)容包括圖像二值化,傾斜矯正等。

2.1 二值化

在本方案中,實(shí)驗(yàn)的樣本圖像采用的是黑白圖像,白色的是背景,黑色的是字體。如果從數(shù)字圖像的像素值上對(duì)其分析,圖中像素的灰度值從0到255均有分布,在圖像上都有細(xì)微的表現(xiàn),灰度差異較小的是字符像素點(diǎn)與背景像素點(diǎn),在單詞中,骨架部分呈現(xiàn)的是黑色,邊緣部分呈現(xiàn)的是灰色。本文投影切分算法的實(shí)現(xiàn)就是要利用顏色差異,所以分割之前需要對(duì)圖像進(jìn)行二值化處理。充分結(jié)合最大類間方差法[5]可以找到圖片的一個(gè)合適的閾值。對(duì)這個(gè)閾值加以利用,就可以更容易(與人為設(shè)定相比)地把一張灰度圖像轉(zhuǎn)換為二值圖像。最大類間方差法(otsu)的公式推導(dǎo):記[T]為前景與背景的分割閾值,前景點(diǎn)數(shù)占圖像比例用[w0]表示,平均灰度用[u0]表示;背景點(diǎn)數(shù)占圖像比例用w1表示,平均灰度用u1表示。則圖像的總平均灰度,可以采用公式(1)對(duì)其表示;前景和背景圖象的方差,則可以采用公式(2)對(duì)其表示:

在上述公式中,當(dāng)方差最大時(shí),就可以將其認(rèn)定為此時(shí)前景與背景差異最大,換句話說,就是此時(shí)的灰度是最佳閾值。

2.2 傾斜矯正

對(duì)于文字,在手寫的過程中,出現(xiàn)一定程度的傾斜是很正常的。但文字的傾斜卻會(huì)對(duì)方向特征、投影直方圖等文字特征的正確抽取造成一定程度的影響,倘若傾斜程度過大,還會(huì)導(dǎo)致字符上下交錯(cuò),這必然會(huì)加大字符分割與識(shí)別的難度。由此可見,在對(duì)手寫文字進(jìn)行預(yù)處理的時(shí)候,務(wù)必對(duì)其進(jìn)行傾斜校正操作[6-8]。[Hough]變換是一種特別有效的檢測(cè)直線的算法,它以直角坐標(biāo)系中的目標(biāo)點(diǎn)位基本對(duì)象,再將這些點(diǎn)映射到極坐標(biāo)系中進(jìn)行累積,即先使直角坐標(biāo)系平面上任一直線上的所有點(diǎn)均累積到極坐標(biāo)系的同一點(diǎn)集中去,然后通過尋找極坐標(biāo)系中點(diǎn)集的峰值來發(fā)現(xiàn)較長的直線特征。對(duì)每一個(gè)像素點(diǎn)都進(jìn)行Hough變換,找出傾斜角度對(duì)此矯正單詞的傾斜角。

3 單詞的過拆分

本節(jié)介紹維吾爾文手寫單詞拆分,單詞拆分指的是把單詞所包含的字母拆分出來。本文用的是基于字符的拆分方法,流程圖如圖1所示:

從某種程度上來說,利用垂直投影算法確定文字的切分點(diǎn),會(huì)依賴于手寫文本的規(guī)范性,尤其是書寫的隨意性、多樣性等特點(diǎn)。由此可見,對(duì)于垂直投影確定的切分點(diǎn),印刷體文字就會(huì)比手寫文字更加準(zhǔn)確一些。正因?yàn)榭紤]到這樣的因素,故而在本文中,沒有直接對(duì)單詞圖像進(jìn)行垂直投影,而是提出了基于單詞基線的一種過拆分的方法,通過提取單詞基線以上的部分,對(duì)提取后的分段,進(jìn)行單詞拆分。

單詞的過切分算法如下:

(1) 對(duì)預(yù)處理后的手寫維吾爾文單詞圖像求基線具體公式如(3)所示:其中I(i,j)為單詞圖像中第i行、第j列的像素值,n為單詞圖像總列數(shù)。

得到水平投影的值后,再把sum中的最大值所在的像素行算出來,并將其確定為基線位置。

(2)從手寫單詞的基線部分開始往下置白,就是說單詞基線下的碎片部分變成背景,提取單詞基線以上的部分。

(3)對(duì)手寫單詞基線以上的部分進(jìn)行垂直投影。垂直投影也稱為列投影,那是因?yàn)樵诖怪蓖队坝?jì)算的是每列中,像素值為0的像素點(diǎn)的總數(shù)。垂直投影的算法是,按列來統(tǒng)計(jì)圖像中像素值為0的像素點(diǎn)的個(gè)數(shù)。單詞圖像的垂直投影如(4)所示:

4 實(shí)驗(yàn)結(jié)果及分析

本實(shí)驗(yàn)平臺(tái)采用頻率大小為[3.6GHz],內(nèi)存大小為[4G],實(shí)驗(yàn)運(yùn)行環(huán)境為專用數(shù)學(xué)軟件[MATLABR214a]。實(shí)驗(yàn)對(duì)象為不同的人按照平常的習(xí)慣不受任何限制的方式書寫的單詞圖像。實(shí)驗(yàn)結(jié)果如下圖所示:

由以上實(shí)驗(yàn)結(jié)果可以看出,用本文中提出的方法可以有效地把維吾爾文手寫單詞圖像分割成字母。在整個(gè)算法過程中,當(dāng)遇到(?????????????)等字母是出現(xiàn)錯(cuò)誤切分的情況。

5結(jié)論

本文以脫機(jī)手寫單詞為研究對(duì)象,利用維吾爾文單詞的結(jié)構(gòu)特征有效地將單詞切分成字母,同時(shí)還給出了階段性的算法描述和實(shí)驗(yàn)結(jié)論。未來工作對(duì)于出現(xiàn)錯(cuò)切分的情況再次做深入的研究。

參考文獻(xiàn):

[1] 萬芳. 聯(lián)機(jī)手寫維吾爾文字識(shí)別技術(shù)的研究與實(shí)現(xiàn)[D].新疆大學(xué),2007.

[2] 吳燕,袁保社. 聯(lián)機(jī)手寫維文字符切分算法研究[J]. 微計(jì)算機(jī)信息,2010,26(12):184-185+178.

[3] 陳卿,袁保社,李曉,任宏宇,張建華. 基于模板匹配的印刷維吾爾文字符識(shí)別研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(04):119-122.

[4] 曹志宏. 維吾爾文字聯(lián)機(jī)手寫體識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D].新疆大學(xué),2007.

[5] 擺雪剛. 脫機(jī)手寫維吾爾文本行傾斜校正技術(shù)研究[D].新疆大學(xué),2015

[6] 許亞美. 手寫維吾爾文字識(shí)別若干關(guān)鍵技術(shù)研究[D].西安電子科技大學(xué),2014.

[7] Zhu B, Shivram A, Govindaraju V, et al. Online Handwritten Cursive Word Recognition by Combining Segmentation-Free and Segmentation-Based Methods[C]// International Conference on Frontiers in Handwriting Recognition. IEEE, 2016:161-165

[8] Nakkach H, Hichri S, Haboubi S, et al. A Segmentation-Free Approach to Strokes Extraction from Online Isolated Arabic Handwritten Character[C]// International Conference on Advanced Technologies for Signal& Image Processing Atsip. 2016.

[9] 曹衛(wèi). 脫機(jī)手寫體漢字切分算法研究[D]. 中南民族大學(xué), 2012.

[10] 楊俠. 手寫體漢字分割的研究與應(yīng)用[D]. 山東師范大學(xué), 2012.

猜你喜歡
投影
全息? 全息投影? 傻傻分不清楚
投影向量問題
解變分不等式的一種二次投影算法
China e Iberoamérica
基于最大相關(guān)熵的簇稀疏仿射投影算法
色彩艷麗的高亮度入門4K投影 Acer(宏碁)H6810BD
求解變分不等式的一種雙投影算法
找投影
一種基于正交多項(xiàng)式展開的CT三維投影數(shù)據(jù)重建算法
基于OPED的有限角投影數(shù)據(jù)快速重建算法