公保杰 安見才讓
摘? 要: 印刷體藏文字符的準(zhǔn)確切分是識(shí)別的關(guān)鍵,由于藏文字符結(jié)構(gòu)的特殊性導(dǎo)致字符之間會(huì)出現(xiàn)重疊粘連的現(xiàn)象,使得切分很困難。文章提出多策略細(xì)化切分方法,首先用積分投影法實(shí)現(xiàn)行和單字的粗切分,再對(duì)重疊粘連的字符,根據(jù)連通域、藏文字符基線位置像素的統(tǒng)計(jì)、字符寬度等信息進(jìn)行細(xì)切分。實(shí)驗(yàn)表明,該切分方法提高了印刷體藏文字符切分的準(zhǔn)確率,為提高印刷體藏文的識(shí)別效率提供基礎(chǔ)。
關(guān)鍵詞: 印刷體藏文; 積分投影; 切分
中圖分類號(hào):TP319? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1006-8228(2019)09-24-03
Research on character segmentation method in recognition of printed Tibetan
Gong Baojie, Anjian Cairang
(College of Computer Science, Qinghai Nationalities University, Xining, Qinghai 810007, China)
Abstract: The accuracy of the segmentation is the key to identify printed Tibetan characters. Due to the particularity of Tibetan character structure that characters appear overlapping adhesion phenomenon in between, makes the segmentation difficult. This paper propose a multi-strategy refined segmentation method, which uses integral projection method for a coarse segmentation to separate the lines and words, then a fine segmentation is conducted to separate the overlapping conglutination characters according to the connected domain, and the information of Tibetan character baseline position pixel statistics and the character width. Experiment shows that this segmentation method improves the accuracy of printed Tibetan character segmentation, and provides a basis for improving the printed Tibetan recognition efficiency.
Key words: printed Tibetan; integral projection; segmentation
0 引言
相對(duì)于英、漢識(shí)別而言,藏文識(shí)別的研究起步較晚,識(shí)別水平也相對(duì)較低。藏文識(shí)別技術(shù)在很多方面可以借鑒英、漢文字識(shí)別的研究成果。目前最常用的藏文切分方法是積分投影法[5-6]和連通域搜索法[4],但在進(jìn)行單字符切分時(shí),這兩種方法不能很好的處理重疊粘連的情況。針對(duì)這種情況,本文提出了多策略細(xì)化切分方法。在初切分階段,通過垂直投影,得到粗切分結(jié)果,根據(jù)藏文字符寬度閾值判定粗切分結(jié)果中的重疊粘連段,然后對(duì)重疊粘連字符細(xì)化切分,針對(duì)不同重疊粘連段情況分別進(jìn)行連通域和基線空隙寬度信息來細(xì)化切分處理,以達(dá)到好的切分效果,大大提升最終的識(shí)別率。
1 藏文字符結(jié)構(gòu)及特征描述
藏文是一種以輔音字母為主要構(gòu)成部分的拼音文字,由30個(gè)輔音字母和4個(gè)元音字母組成。藏文是以音節(jié)為構(gòu)詞單位,音節(jié)拼寫的每一個(gè)橫向基本單位稱為一個(gè)字符?,F(xiàn)代藏文共有592個(gè)字符[2]。從文字識(shí)別的角度總結(jié)藏文的特點(diǎn)如下。
⑴ 藏文字符縱向疊加,從字符中切分單個(gè)字母非常困難,所以在藏文識(shí)別處理中通常選取字符為基本識(shí)別單位。
⑵ 藏文中字符相似的現(xiàn)象相當(dāng)普遍,在總共500多字符中,有37%的相似度。
⑶ 藏文字符高低不等,有很大的差別,但寬度上差別不大。
⑷ 基線是藏文字符的一個(gè)重要特征,兩個(gè)藏文字符基線之間有明顯空隙,基線上方只有元音符號(hào)和變音符號(hào)可以出現(xiàn)[3]。
⑸ 由于字符的字體大小、書寫風(fēng)格、圖像質(zhì)量等因素,會(huì)在圖像中出現(xiàn)字符的粘連問題。根據(jù)字符粘連的具體情況,可以將粘連分為以下三種類型。
① 簡(jiǎn)單粘連。指字符筆劃在某些點(diǎn)相互接觸有連接,但字符部件之間沒有重疊。
② 交錯(cuò)粘連。從直觀上看,這種粘連的兩個(gè)相鄰字符黑像素區(qū)沒有連接,字符的連通區(qū)沒有重疊,但字符在投影圖上會(huì)出現(xiàn)黑像素的重疊。這種粘連很難用投影方法找到切分路徑。
③ 復(fù)合粘連。這種粘連比較復(fù)雜,字符之間既存在簡(jiǎn)單粘連,同時(shí)又存在交錯(cuò)粘連情況,一般的垂直切分可能引起筆劃的嚴(yán)重變形。
2 印刷體藏文字符切分方法
印刷體識(shí)別過程中字符的切分是一個(gè)重要環(huán)節(jié),目前印刷體藏文最常用的切分方法是積分投影法,該方法可以很好的對(duì)藏文文本行進(jìn)行有效切分,但是在字符切分時(shí)不能對(duì)重疊粘連字符進(jìn)行有效處理,容易出現(xiàn)漏切分的現(xiàn)象。針對(duì)這種情況本文提出細(xì)化切分重疊粘連字符的方法,從而達(dá)到有效的切分效果。
2.1 行切分
印刷體藏文圖像進(jìn)行預(yù)處理之后得到的二值化圖像,對(duì)圖像中文字部分和空白間隙部分進(jìn)行像素積分投影,按從上到下的順序逐行進(jìn)行掃描,并同時(shí)計(jì)算當(dāng)前掃描行的像素值之和,空白間隙部分投影值為0,而文字行的投影值不為0,以求得圖像的水平投影,并根據(jù)水平投影值對(duì)文字行進(jìn)行切分。圖像f(i,j)的水平積分投影公式為:
[R(i)=j=1nf(i,j)]? ? ? (1)
當(dāng)滿足公式(2)時(shí),第i行為文本行的上界:
[Ri>q?Ri+1>q?????Ri+n-1>q]? ? ? ? ?(2)
當(dāng)滿足公式(3)時(shí),第i行為文本行的下界:
[Ri 2.2 字符切分 字符的切分采用垂直投影的方法,在行切分過程中記錄每一行文字的上下邊界分別為a、b,在a行與b行之間進(jìn)行垂直投影。雖然,字符之間會(huì)出現(xiàn)不同類型的重疊粘連情況,但是從整體來看其占的比例較小。因此根據(jù)上述方法先對(duì)文本圖像中的字符進(jìn)行粗切分,然后對(duì)重疊粘連字符進(jìn)行細(xì)化切分(2.3中將詳細(xì)描述),從而得到更好的切分效果。垂直投影的切分公式: [H(j)=j=a+1bg(i,j)]? ? ? ? (4) (1) 字符左邊界確定 對(duì)行切分已經(jīng)切割出來的文本行按照像素從左向右的順序進(jìn)行逐行搜索,有連續(xù)的n列滿足公式(5)時(shí),取第一個(gè)滿足上述條件的像素列j作為本行的一個(gè)字符的左邊界列 [Hj>p?Hj+1>p?????Hj+n-1>p]? ? ? ? ?(5) (2) 字符右邊界確定 對(duì)行切分已經(jīng)切割出來的文本行按照像素從左向右的順序進(jìn)行逐行搜索,有連續(xù)的m列滿足公式(6)時(shí),取第一個(gè)滿足上述條件的像素列j作為本行的一個(gè)字符的右邊界列。 [Hj 2.3 重疊粘連字符的切分 通過垂直積分投影,得到獨(dú)立的藏文字符和重疊粘連段。其中對(duì)重疊粘連段需要進(jìn)一步細(xì)化切分,根據(jù)對(duì)上述提到的不同類型重疊粘連類型的分析,可以總結(jié)出,針對(duì)重疊粘連類型采用不同的切分方法,復(fù)合粘連類型存在連通性,可通過搜索連通域來進(jìn)行切分,而其余類型由于無(wú)法采用連通域來切分,可利用藏文字符的寬度信息和基線特征來進(jìn)行切分。 ⑴ 連通域分析 盡管藏文字符會(huì)出現(xiàn)重疊粘連情況,但是經(jīng)過對(duì)不同粘連類型的分析,可以觀察到,交錯(cuò)粘連類型具有明顯的連通性,因此可采用連通域搜索法來實(shí)現(xiàn)切分。具體算法流程如下。 在二值化圖像中,背景區(qū)域像素值為0,文字區(qū)域像素值為1。圖像B(i,j)從左向右,從上向下進(jìn)行掃描。 Step1:掃描圖像,直到當(dāng)前像素點(diǎn)B(x,y)=1,作其為種子(像素位置),并賦予其一個(gè)標(biāo)簽T,然后將該種子相鄰的所有像素為1的都?jí)喝霔V小?/p> Step2:彈出棧頂像素,賦予其標(biāo)簽為T,然后再將與該棧頂像素相鄰的所有像素為1的都?jí)喝霔V小?/p> Step3:重復(fù)1步驟,直到棧為空。此時(shí),便找到了圖像B中的一個(gè)連通區(qū)域,然后對(duì)其進(jìn)行切分。 ⑵ 根據(jù)藏文字符寬度信息及基線特征進(jìn)行切分 對(duì)于上述重疊粘連類型中,簡(jiǎn)單粘連和復(fù)合粘連無(wú)法用連通域的方法進(jìn)行有效的切分,針對(duì)這種情況,可分析藏文字符其固有的特征,可得知,雖然藏文字符的高度起伏不定,但其寬度大小差別不大,而且兩個(gè)字符基線區(qū)域有明顯的空隙,粘連情況出現(xiàn)在基線的上下區(qū)域,基線之間的空隙就是兩字符的切分點(diǎn)。所以可根據(jù)藏文字符這固有的兩種特征信息,對(duì)簡(jiǎn)單粘連和復(fù)合粘連類型進(jìn)行切分,具體算法流程如下。 Step1:掃描圖像,求出其連通域,如果區(qū)域?qū)挾却笥谑孪仍O(shè)定的寬度閾值W則確定為簡(jiǎn)單粘連或復(fù)合粘連類型。 Step2:根據(jù)基線位置進(jìn)行圖像掃描,確定空隙區(qū)域:[G(i,j),(i=i+1,i+2,...i+n),(j=m)] Step3:通過寬度閾值W對(duì)確定切分點(diǎn)Q(n,m)。 Step4:如果Q(n,m)[∈] G(i,j),確定Q(n,m)為切分點(diǎn),對(duì)粘連段進(jìn)行切分。 3 實(shí)驗(yàn)結(jié)果與分析 為了進(jìn)一步驗(yàn)證本文提出印刷體藏文文檔切分方法的可行性和準(zhǔn)確性,本文對(duì)50幅文檔圖像,分別利用積分投影法、連通域搜索法和本文提出的切分方法進(jìn)行了切分測(cè)試,為了具體表明這三種切分方法的效率,本文從測(cè)試結(jié)果中隨機(jī)選出5幅圖片進(jìn)行分析,結(jié)果如表1所示。 通過觀察表1可以發(fā)現(xiàn),本文所采用的方法能較好地解決藏文字符粘連切分的問題。當(dāng)然,本文設(shè)計(jì)的方法也存在漏切分現(xiàn)象,通過分析,主要原因是噪點(diǎn)、復(fù)雜版面等因素的影響。所以需要進(jìn)一步解決和完善預(yù)處理過程。 4 結(jié)束語(yǔ) 本文討論了如何對(duì)二值化藏文文本圖像進(jìn)行行切分、字符切分、重疊粘連字符切分的問題。通過分析研究不同切分方法的優(yōu)缺點(diǎn),結(jié)合藏文自身的書寫與結(jié)構(gòu)特點(diǎn),提出采用積分投影法對(duì)印刷體藏文文本圖像進(jìn)行粗切分,以此得到獨(dú)立的字符和重疊粘連段,然后針對(duì)重疊粘連類型,采用連通域搜索法和藏文寬度、基線信息分別進(jìn)行切分。該方法較好的解決了切分重疊粘連字符這一難點(diǎn)問題。為提高印刷體藏文識(shí)別系統(tǒng)的識(shí)別率提供了基礎(chǔ)。 參考文獻(xiàn)(References): [1] 江荻.藏文識(shí)別原理與運(yùn)用[M].商務(wù)印書館,2012. [2] 丁曉青,王言偉.文字識(shí)別原理、方法和實(shí)踐[M].清華大學(xué)出版社,2017. [3] 劉芳.文字識(shí)別系統(tǒng)中藏文字符切分算法研究[D].西藏大學(xué),2011. [4] 歐珠,普次仁,大羅桑朗杰等.印刷體藏文文字識(shí)別技術(shù)研究[D].計(jì)算機(jī)工程與應(yīng)用,2009. 45(24). [5] 吳剛,德熙嘉措,黃鶴鳴.印刷體藏文識(shí)別技術(shù)[J].青海師范大學(xué)學(xué)報(bào),2006.1. [6] 王維蘭,丁小青.印刷體現(xiàn)代藏文識(shí)別研究[J].計(jì)算機(jī)工程,2003. [7] 王華,丁曉青.一種多字體印刷藏文字符的歸一化方法.計(jì)算機(jī)應(yīng)用研究,2004.21(6):41-43