張晶 李婷 許爽 王帆
【摘 要】本文依托滿文的特點(diǎn),根據(jù)滿文的音節(jié)特點(diǎn)和滿文單詞的拼寫(xiě)規(guī)則建立滿文字母樣本庫(kù)。經(jīng)過(guò)對(duì)樣本庫(kù)中滿文字母的黑色像素遍歷,繪出像素分布直方圖,定位字母基線,再通過(guò)上下基線拼接達(dá)到合成滿文單詞圖像的目的,實(shí)現(xiàn)單詞圖像合成,利用Matlab的GUI實(shí)現(xiàn)系統(tǒng)的可視化界面。
【關(guān)鍵詞】滿文單詞;合成;字母基線;圖像拼接
【Abstract】Relying on the characteristics of the Manchu words, the sample database of Manchu words is established based on its syllable characteristics and spelling rules. After traversing the black pixels of the Manchu words in the sample library, a pixel distribution histogram is drawn. After positioning the letter baseline, we stitch the upper and lower baseline to realize the word image synthesis, in order to achieve the purpose of synthesis Manchu word image. At last, Matlab GUI is used to implement the visualization interface.
【Key words】Manchu words; Synthesis; Letter baseline; Image Stitching
0 引言
作為統(tǒng)治了中國(guó)近三百年之久的清王朝,孕育了豐富多彩的滿族文化。滿族是一個(gè)擁有獨(dú)特文化的民族,不僅有自己的歷史文化、風(fēng)俗習(xí)慣,還有自己的語(yǔ)言和文字,現(xiàn)存的用滿文寫(xiě)成的浩如煙海的典籍和檔案文獻(xiàn),為我們留下了珍貴的文化遺產(chǎn)。隨著歷史進(jìn)程,滿文逐漸成為了一種歷史文字。時(shí)至今日,精通滿文的人已為數(shù)不多,滿族語(yǔ)言文字已瀕臨失傳,這就使得各個(gè)領(lǐng)域?qū)M文歷史資料和滿文信息化的的研究顯得十分困難。內(nèi)蒙古大學(xué)的魏宏喜,高光來(lái)[1]等人在蒙古文的識(shí)別和合成方法上,提出了Word Spotting的改進(jìn)技術(shù),而現(xiàn)有針對(duì)滿文文字的合成研究卻是非常少的。實(shí)現(xiàn)滿文文字字母樣本庫(kù)的建立和滿文單詞的合成,不僅有助于對(duì)滿文的學(xué)習(xí)和研究,也對(duì)我國(guó)其他少數(shù)民族語(yǔ)言文字處理的發(fā)展有借鑒作用。
1 滿文文字特點(diǎn)
滿文[2]是屬于阿爾泰語(yǔ)系的通古斯語(yǔ)族的一種古文字,在詞的構(gòu)造和拼寫(xiě)上與英語(yǔ)、漢語(yǔ)等語(yǔ)種有很大的差異。
1)滿文的基本字母由6個(gè)元音和36個(gè)輔音字母構(gòu)成,其中一個(gè)字母有最多8種的寫(xiě)法,且不同元音字母和輔音字母搭配在一起或字母在單詞中的位置不同都可能使其在書(shū)寫(xiě)上具有不同的形式。
2)在書(shū)寫(xiě)上滿文采用從上到下的書(shū)寫(xiě)順序,每個(gè)滿文單詞都是由一到多個(gè)滿文字母上下綴接而成。
3)與其他文字不同,滿文是由滿文字母通過(guò)主基線拼接而成,且字母之間無(wú)縫連接不存在空隙。
1.1 滿文的音節(jié)特點(diǎn)
滿文是一種音節(jié)型的拼音文字[3]。每一個(gè)字母都可以作為一個(gè)獨(dú)立的音節(jié)構(gòu)成單詞,雖然我們可以將滿文字母的所有音節(jié)劃分為元音音節(jié)和輔音音節(jié),但滿文卻不能被完全稱(chēng)為是一種音節(jié)型文字。實(shí)際上,滿文是以音節(jié)為單位,由字頭、字中和字尾上下綴接而成的。在首字頭形下綴接i、o、b、k、l、m、s、k、n、ng、r等11個(gè)音素,這樣形成的十一種音素字頭與首字頭共同構(gòu)成滿文的十二字頭。這十二字頭基本囊括了滿文的所有音節(jié),然后在對(duì)這些音節(jié)進(jìn)行聯(lián)綴拼接就構(gòu)成了滿文單詞。不同元音字母和輔音字母搭配在一起書(shū)寫(xiě),其書(shū)寫(xiě)形式也有很大差異。
1.2 滿文的拼寫(xiě)規(guī)則
滿文單詞的拼寫(xiě)是從上到下進(jìn)行的。滿文單詞由一到多個(gè)字母從上到下連續(xù)書(shū)寫(xiě)而成。由上文可知滿文有其獨(dú)有的音節(jié)特點(diǎn),其所對(duì)應(yīng)的字母形式也分為獨(dú)立字形、字頭形、字中形和字尾形。在滿文單詞中,字母出現(xiàn)在不同的位置會(huì)有不同的寫(xiě)法,每一個(gè)滿文單詞最多包含四種字母形式,稱(chēng)為獨(dú)立字形、字頭形、字中形和字尾形。在單詞拼寫(xiě)時(shí),除獨(dú)立字形外,字頭形、字中形和字尾形字都有固定的拼接規(guī)則,一般形式為1個(gè)字頭形+ n個(gè)字中形+ 1個(gè)字尾形(n大于0)的聯(lián)合體。
2 滿文單詞合成系統(tǒng)的設(shè)計(jì)
2.1 滿文字母庫(kù)的建立及預(yù)處理
從何榮偉[4]所編著的《滿語(yǔ)365句》金標(biāo)掃描版中摘選出滿文的標(biāo)準(zhǔn)的基本字母,并且根據(jù)滿文的音節(jié)特點(diǎn)和拼寫(xiě)特點(diǎn)將滿文字母預(yù)處理之后分類(lèi)處理,建立滿文字母的樣本庫(kù)。
為了使得到的圖像具有較高的質(zhì)量,將滿文字母圖片以高分辨率保存。得到統(tǒng)一字體的滿文單詞圖片,依據(jù)滿文單詞的拼音文字和拼寫(xiě)規(guī)則將滿文字母整理,使用截圖工具依據(jù)滿文字母的音節(jié)和字頭、字中、字尾圖片截取以高分辨率的PNG格式保存,建立圖片形式的滿文字母統(tǒng)一的樣本庫(kù),為了保證后續(xù)工作(如:遍歷像素點(diǎn)、圖像拼接等)的順利進(jìn)行,有必要對(duì)掃描圖像進(jìn)行有效的預(yù)處理,以減輕噪聲的干擾,提高圖像質(zhì)量。圖像的預(yù)處理步驟如圖2所示。
采用“閾值法”實(shí)現(xiàn)圖像的二值化處理。選取適當(dāng)閥值,將截取的灰度圖像通過(guò)二值處理得到仍然可以反映字母圖像的整體和局部特征的二值化圖像。
2.2 字母圖像的表示
如果直接在字母圖像的像素灰度值上進(jìn)行圖像匹配和特征提取通常是效果欠佳的。如何提取出有效的高層特征來(lái)表示字母圖像,以便采用更高效的圖像拼接算法,獲得更好的單詞合成結(jié)果也是應(yīng)當(dāng)關(guān)注的問(wèn)題。
由于以何種方式來(lái)表示滿文字母圖像與所要釆用的特征選擇和圖像拼接策略以及合成的準(zhǔn)確率是密切相關(guān)的,因此這兩個(gè)關(guān)鍵問(wèn)題需要整體看待。此處我們只對(duì)圖像的表示方法進(jìn)行歸類(lèi),不同的圖像表示方法有不同的圖像匹配策略。本文采用基于像素的表示方法對(duì)字母圖像進(jìn)行表示。
該方法直接將單詞圖像中每個(gè)像素的亮度或者方向梯度用來(lái)描述字母圖像。這種表示方法選取滿文單詞的基線作為特征,通過(guò)遍歷像素黑點(diǎn)得到結(jié)果直方圖,即可獲得字母圖像之間的匹配基線。
2.3 定位基線
每個(gè)滿文單詞可看成由一到多個(gè)滿文字母通過(guò)基線相連構(gòu)成,基線大多位于單詞中部,而且完全由密集的黑像素點(diǎn)構(gòu)成,如圖3所示。根據(jù)基線由密集的黑像素點(diǎn)所構(gòu)成的這一特點(diǎn),把滿文字母圖像看作一個(gè)隨機(jī)的二值圖像點(diǎn)陣[5],取點(diǎn)陣中每列黑像素?cái)?shù)總數(shù)為A:
對(duì)選中的其中一個(gè)滿文字母樣本例如音節(jié)ng的字尾形,如圖5所示,進(jìn)行黑色像素的遍歷,遍歷結(jié)果直方圖如圖6所示,在圖6的左圖中繪出在現(xiàn)有圖像像素的基礎(chǔ)上,樣本圖片的黑色像素分布情況,由圖中我們觀察到在位于圖片大約30(單位:像素)時(shí),黑色像素點(diǎn)明顯增多,由此,基線粗略位置即可得到。其次,在遍歷黑色像素的基礎(chǔ)上,記錄相鄰兩列黑像素的差值,得到的峰值和谷值即為圖6的右圖所示,由此,所得峰值為基線的最左側(cè),谷值即為基線的最右側(cè),至此,字母圖像的基線位置得以確定,由此類(lèi)推,每個(gè)滿文字母的基線位置都可以被定位。
2.4 圖片拼接合成實(shí)現(xiàn)
滿文至上而下書(shū)寫(xiě),同一個(gè)單詞中所有字母按出現(xiàn)的先后順序依據(jù)音節(jié)特點(diǎn),由字頭形式、字中形式和字尾形式從上至下依次拼接起來(lái)。
利用圖像拼接原理[6]合成單詞圖像[7]的時(shí)候,如下兩個(gè)條件必須同時(shí)滿足:(1)相鄰字母的基線必須左右邊界完全對(duì)齊;(2)相鄰字母按照基線位置無(wú)縫拼接,相鄰字母的基線在其上下邊界應(yīng)完全重合且無(wú)縫隙。
以下為本設(shè)計(jì)合成滿文單詞圖像的算法步驟。假設(shè)一個(gè)合成單詞圖像表示MW,它由3個(gè)字形圖像組成,并定義由前個(gè)字形圖像生成的中間結(jié)果表示為MWIR,則生成的算法如下:
2.5 系統(tǒng)GUI的設(shè)計(jì)
本文基于matlab實(shí)現(xiàn)將滿文字母圖像拼接合成滿文單詞圖像,并設(shè)計(jì)了GUI界面。本系統(tǒng)可以在界面的選擇字母按鍵面板中點(diǎn)擊選擇字頭、字中或字尾形,在彈出的文件夾中選取所要合成的滿文字頭、字中、字尾,通過(guò)點(diǎn)擊滿文合成按鍵,即可得到完整的滿文單詞。系統(tǒng)具有保存合成后的滿文單詞、輸入漢語(yǔ)顯示對(duì)應(yīng)的滿文句子等功能。滿文單詞合成系統(tǒng)界面如圖7所示。
3 結(jié)論
本文對(duì)滿文單詞合成系統(tǒng)關(guān)鍵技術(shù)進(jìn)行了研究。首先,確定了構(gòu)成滿文單詞的字形集,并根據(jù)字形出現(xiàn)在單詞中的位置,將它們分為:字頭字形、字中字形和字尾字形。然后,依據(jù)滿文單詞的拼寫(xiě)規(guī)則和書(shū)寫(xiě)特點(diǎn),對(duì)滿文字母樣本進(jìn)行黑色像素的遍歷定位基線,以對(duì)齊字形圖像基線實(shí)現(xiàn)拼接。本文利用matlab實(shí)現(xiàn)了該系統(tǒng),并設(shè)計(jì)了GUI界面使系統(tǒng)可視化。該系統(tǒng)為滿文信息平臺(tái)及滿文單詞檢索研究奠定了良好的基礎(chǔ),同時(shí)也對(duì)其他少數(shù)民族文字合成提供了參考,有助于我國(guó)少數(shù)民族語(yǔ)言文字處理的發(fā)展。
【參考文獻(xiàn)】
[1]魏宏喜,高光來(lái).蒙古文古籍圖像檢索技術(shù)研究[D].內(nèi)蒙古大學(xué),2012.
[2]屈六生.滿文教材[M].烏魯木齊:新疆人民出版社,1991.
[3]胡增益.新滿漢大詞典[M].烏魯木齊:新疆人民出版社,1994.
[4]何榮偉.滿語(yǔ)365句[M].沈陽(yáng):遼寧民族出版社,2009.
[5]李偉,高光來(lái),侯宏旭,李振宏.印刷體蒙古文字識(shí)別技術(shù)中切分方法的設(shè)計(jì)與實(shí)現(xiàn)[J].內(nèi)蒙古大學(xué)學(xué)報(bào),2003(3):1-5.
[6]Shi J, Malik J. Normalized cuts and image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 8(22): 888- 905.
[7]Regier T, Carlson L. Grounding spatial language inperception: an empirical and computational investigation[J]. Journal of Experimental Psychology: General, 2001, 130(2): 273-298.
[責(zé)任編輯:楊玉潔]