国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于拓?fù)涮卣鞯募{西東巴文象形文字輸入方法研究

2016-05-03 13:02王海燕王紅軍徐小力
中文信息學(xué)報(bào) 2016年4期
關(guān)鍵詞:東巴納西點(diǎn)數(shù)

王海燕,王紅軍,,徐小力

(1. 北京信息科技大學(xué) 機(jī)電學(xué)院,北京 100192;2. 北京信息科技大學(xué) 現(xiàn)代測(cè)控技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100192)

基于拓?fù)涮卣鞯募{西東巴文象形文字輸入方法研究

王海燕1,王紅軍1,2,徐小力2

(1. 北京信息科技大學(xué) 機(jī)電學(xué)院,北京 100192;2. 北京信息科技大學(xué) 現(xiàn)代測(cè)控技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100192)

納西東巴文字是一種比甲骨文還要原始的圖畫(huà)象形文字,該文針對(duì)大量納西經(jīng)典古籍資料需要錄入、整理、分析的需要,設(shè)計(jì)一種普通用戶即可使用的基于拓?fù)涮卣鞯妮斎敕椒āJ紫柔槍?duì)納西東巴象形文字的1 561個(gè)基本字形的五個(gè)拓?fù)涮卣?塊數(shù)、孔數(shù)、端點(diǎn)數(shù)、三叉點(diǎn)數(shù)和四叉點(diǎn)數(shù)進(jìn)行了統(tǒng)計(jì)和分析,然后基于Java程序結(jié)合TTF字庫(kù)文件進(jìn)行了測(cè)試,證明了該方法可行。統(tǒng)計(jì)結(jié)果表明,50%以上的納西東巴象形文字通過(guò)這五個(gè)特征可以唯一識(shí)別,80%以上的東巴文字通過(guò)該方法識(shí)別時(shí)重復(fù)數(shù)不高于4,人工輸入、識(shí)別的效率較高,為納西東巴象形文字的輸入方法提供一種新的思路。

納西;東巴;象形文字;輸入方法

1 引言

東巴文是一種兼?zhèn)浔硪夂捅硪舫煞值膱D畫(huà)象形文字,其文字形態(tài)十分原始,甚至比甲骨文的形態(tài)還要原始,屬于文字起源的早期形態(tài),是世界上極少數(shù)依舊活著的象形文字,被譽(yù)為文字的“活化石”[1],被國(guó)際學(xué)界認(rèn)為是當(dāng)今世界上唯一還在使用的象形文字[2]。之所以被稱為東巴文,是因?yàn)檫@是納西族特有的宗教-東巴教的東巴(智者的意思)們所使用的文字,至今仍被在世的東巴祭司使用,用來(lái)主持各種儀式、寫(xiě)信、記賬等。東巴們使用這種文字記錄的經(jīng)書(shū)稱為東巴經(jīng)(圖1),2003年納西族東巴經(jīng)典古籍被聯(lián)合國(guó)教科文組織列為“世界記憶遺產(chǎn)”(Memory of the World)。

東巴經(jīng)典古籍內(nèi)容涉及哲學(xué)、歷史、宗教、醫(yī)學(xué)、天文、地理、民俗、動(dòng)植物、軍事、文學(xué)和藝術(shù)等領(lǐng)域,堪稱納西族古代社會(huì)的百科全書(shū)[3-4]。但是東巴文一般不容易釋讀,一直被視為“天書(shū)”[5],目前只有該領(lǐng)域的專家學(xué)者和幾個(gè)已年逾古稀的老東巴祭司能釋讀。同時(shí),由于歷史原因,大多數(shù)東巴經(jīng)典原始手稿在一個(gè)世紀(jì)前甚至更早,就被世界上許多著名圖書(shū)館和博物館所收藏,其內(nèi)容又不被收藏者所了解。因此,針對(duì)東巴經(jīng)典古籍急需搶救的瀕危狀況,建立了國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目-“世界記憶遺產(chǎn)”東巴經(jīng)典傳承體系數(shù)字化國(guó)際共享平臺(tái)建設(shè)研究(項(xiàng)目號(hào): 12&ZD234),實(shí)現(xiàn)東巴文化資源的信息化傳播,并推動(dòng)?xùn)|巴傳統(tǒng)文化的保護(hù)與發(fā)展。

2 東巴經(jīng)典古籍的數(shù)字化

古籍?dāng)?shù)字化就是采用計(jì)算機(jī)技術(shù),對(duì)古籍文獻(xiàn)進(jìn)行加工、處理,制成古籍文獻(xiàn)書(shū)目數(shù)據(jù)庫(kù)和古籍全文數(shù)據(jù)庫(kù),用以揭示古籍文獻(xiàn)中所蘊(yùn)涵的極其豐富的信息資源,從而達(dá)到使用和保護(hù)古籍的目的[6]。從國(guó)內(nèi)外古籍?dāng)?shù)字化的實(shí)踐來(lái)看,民族古籍?dāng)?shù)字化涉及的技術(shù)領(lǐng)域非常廣泛, 包括三維建模、人工智能、聲頻、視頻技術(shù)、語(yǔ)言處理技術(shù)、光學(xué)字符識(shí)別等幾十種相關(guān)技術(shù)。劉洋等利用數(shù)字化技術(shù)中的虛擬技術(shù)較好地解決由于敦煌地域偏遠(yuǎn)所帶來(lái)的參觀不便,使人們可以免去長(zhǎng)途跋涉而欣賞到敦煌的精彩壁畫(huà)[7]。

本項(xiàng)目組第一子課題主要進(jìn)行東巴經(jīng)典的數(shù)字化信息采集與釋讀過(guò)程數(shù)字記錄,工作包括對(duì)國(guó)內(nèi)外收藏信息進(jìn)行匯集,召開(kāi)國(guó)際研討會(huì),與收藏機(jī)構(gòu)簽訂協(xié)議,實(shí)現(xiàn)無(wú)爭(zhēng)議共享,對(duì)國(guó)內(nèi)外藏品實(shí)施數(shù)據(jù)采集;按國(guó)際慣例對(duì)東巴祭司釋讀過(guò)程進(jìn)行現(xiàn)場(chǎng)記錄;本項(xiàng)目的第二子課題主要進(jìn)行東巴經(jīng)典象形文的釋讀、翻譯與編目整理的研究,通過(guò)開(kāi)展田野調(diào)查,進(jìn)行書(shū)目整理和編目;共同分析各國(guó)藏本的存量、來(lái)源、時(shí)間等;以學(xué)術(shù)成果為基礎(chǔ)進(jìn)行調(diào)研、分類與整理,對(duì)現(xiàn)存編目進(jìn)行審核、整理、修正與充實(shí)。

圖1 麗江市玉龍納西族自治縣魯?shù)猷l(xiāng)收集的用象形文字書(shū)寫(xiě)的古代東巴經(jīng)書(shū)

通過(guò)資料的整理與匯總,并借助計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)進(jìn)行存儲(chǔ),形成包括納西語(yǔ)、漢語(yǔ)、英語(yǔ)的多語(yǔ)語(yǔ)料庫(kù),為信息檢索和知識(shí)庫(kù)提供素材,為納西東巴文字庫(kù)的建立奠定了基礎(chǔ)。但是由于納西東巴象形文字只有極少數(shù)的人能夠辨識(shí), 很多原始資料的利

用效率太低,文字的辨識(shí)、整理工作非常困難,同時(shí)能兼具納西東巴文知識(shí)、現(xiàn)在漢語(yǔ)知識(shí)并熟練應(yīng)用計(jì)算機(jī)的人非常少,所以建立一種方便快捷的納西東巴象形文字的輸入法非常必要。

3 納西東巴象形文字拓?fù)涮卣鹘y(tǒng)計(jì)

通過(guò)在麗江研究院調(diào)研,目前應(yīng)用的納西東巴象形文輸入法主要有云龍公司的國(guó)際音標(biāo)輸入法和楊曉輝的電子?xùn)|巴輸入法。前者通過(guò)輸入國(guó)際音標(biāo),輸出對(duì)應(yīng)的納西文字,后者有兩種輸入形式: (1)通過(guò)輸入納西音標(biāo),輸出對(duì)應(yīng)的納西象形文字;(2)通過(guò)輸入漢字,輸出對(duì)應(yīng)的納西象形文字。 這三種方法需要用戶本身對(duì)納西文字比較熟悉,僅僅適用于納西東巴文專家,而對(duì)于國(guó)際共享平臺(tái)來(lái)說(shuō),不能滿足其他文字研究專家、社會(huì)研究專家、歷史研究專家以及一般用戶的需求,因此,需要開(kāi)發(fā)一種更加簡(jiǎn)易、容易理解及易于結(jié)合圖像處理的輸入方法。

3.1 拓?fù)涮卣鞯奶崛?/p>

納西象形文字是一種圖畫(huà)文字,不具備現(xiàn)代漢字那樣規(guī)范的筆畫(huà)和順序,跟甲骨文類似,表現(xiàn)出線條圖的特征,因此可以引用圖論中圖的概念,把納西象形文字抽象為圖論中的平面無(wú)向圖來(lái)處理,提取其拓?fù)涮卣髯鳛樽R(shí)別的依據(jù),初步提取的拓?fù)涮卣饔校?塊數(shù)、孔數(shù)、端點(diǎn)數(shù)、叉點(diǎn)數(shù)四種,說(shuō)明如下:

(1) 塊數(shù): 即圖論中的連通分支,即塊的個(gè)數(shù);

(2) 孔數(shù): 即圖論匯總的內(nèi)網(wǎng)孔數(shù);

(3) 端點(diǎn)數(shù): 即圖論中度數(shù)等于1的頂點(diǎn),對(duì)應(yīng)于字符中線條的末端;

(4) 叉點(diǎn)數(shù): 即圖論中度數(shù)大于2的頂點(diǎn),對(duì)應(yīng)于線條的交點(diǎn),包括三叉點(diǎn)、四叉點(diǎn)、五叉點(diǎn)等。因?yàn)槭窃囼?yàn)性的研究,故目前僅測(cè)試了三叉點(diǎn)和四叉點(diǎn)。

納西古籍中象形文字的變體較多,即同一個(gè)字有多種不同的書(shū)寫(xiě)形式,目前統(tǒng)計(jì)了1 561個(gè)基本字形的拓?fù)涮卣鳎瑫r(shí)為了簡(jiǎn)化輸入工作量,將以上四種特征數(shù)大于9的統(tǒng)一標(biāo)記為9,得到的統(tǒng)計(jì)特征如表1所示。

表1 納西象形文字基本字體拓?fù)涮卣鹘y(tǒng)計(jì)

3.2 識(shí)別統(tǒng)計(jì)

對(duì)納西象形文字的基本字體進(jìn)行拓?fù)涮卣鹘y(tǒng)計(jì)后,測(cè)試其識(shí)別效率,步驟如下。

(1) 單獨(dú)記錄所有的納西骨架字體中的特征數(shù),如: 塊數(shù),孔數(shù),端點(diǎn)個(gè)數(shù),三叉點(diǎn)數(shù),四叉點(diǎn)數(shù);

(2) 將特征數(shù)合成一個(gè)字符串,如E900的塊數(shù)目為1,空數(shù)為0,端點(diǎn)個(gè)數(shù)為2,三叉點(diǎn)和四叉點(diǎn)個(gè)數(shù)都為0,則合并字符串為: “10200”;

(3) 統(tǒng)計(jì)不同特征組合字符串的重復(fù)數(shù)量。比如統(tǒng)計(jì)特征字符串“10200”的個(gè)數(shù)為15,表明具有同樣特征的納西文字共有15個(gè);而符合特征字符串“59145”的納西文字僅有1個(gè)。

得到的識(shí)別統(tǒng)計(jì)表如表2所示, 得到的統(tǒng)計(jì)直方圖如圖2所示??梢钥闯觯幸话胍陨系臇|巴字通過(guò)五個(gè)拓?fù)涮卣骺梢晕ㄒ欢ㄎ?,?0%以上的東巴字通過(guò)這五個(gè)特征進(jìn)行定位時(shí)重復(fù)數(shù)僅有四個(gè),94.3%的東巴字用這五個(gè)特征數(shù)進(jìn)行定位時(shí)重復(fù)數(shù)不高于10。

表2 納西象形文字識(shí)別統(tǒng)計(jì)表

4 納西象形文字的顯示

得到納西象形文字的拓?fù)涮卣骱?,可以?xiě)入統(tǒng)計(jì)數(shù)據(jù)庫(kù),然后再結(jié)合字庫(kù)文件進(jìn)行顯示。曲線輪廓納西象形文字庫(kù)一般采用TrueType字庫(kù)結(jié)構(gòu),這種字庫(kù)文件由文件首、文件描述表、目錄表和描述表四大部分組成。文字讀取采用多級(jí)映射字庫(kù)訪問(wèn)機(jī)制,即當(dāng)用戶使用TTF (TrueType Font)納西文字時(shí),只需給出該納西文字的機(jī)內(nèi)碼,TTF解釋器便查找cmap表得到該納西文字在loca表中的文字字模序號(hào),再?gòu)膌oca表中獲得對(duì)應(yīng)納西文輪廓數(shù)據(jù)的存放地址,再?gòu)膅lyf中讀出輪廓數(shù)據(jù)。

因此,基于拓?fù)涮卣鞯募{西象形文字輸入方法可以總結(jié)為:

(1) 基礎(chǔ): 建立基于納西象形文字拓?fù)涮卣鞯慕y(tǒng)計(jì)數(shù)據(jù)庫(kù);

(3) 輸出: 通過(guò)客戶端讀取用戶的輸入,在數(shù)據(jù)庫(kù)查找匹配拓?fù)涮卣鞯募{西象形文字,然后輸出到客戶端;

(4) 選擇: 用戶根據(jù)需求確定需要輸出的納西象形文字。

圖3 從符合特征124**的11個(gè)選擇中確定“”

圖4 符合特征1240*的唯一納西象形文字“”

5 結(jié)論

納西東巴象形文字對(duì)于民族文化和人類文化的傳承有非常重要的作用,其輸入方法是國(guó)際共享平臺(tái)中非常關(guān)鍵的一步。因?yàn)闁|巴文字不為一般用戶所認(rèn)識(shí),目前只有該領(lǐng)域的為數(shù)不多的專家學(xué)者和幾個(gè)已年逾古稀的老東巴祭司能夠釋讀。針對(duì)大量

的東巴古籍需要進(jìn)行錄入、整理、統(tǒng)計(jì)分析的現(xiàn)狀,在音標(biāo)輸入法、對(duì)應(yīng)漢字輸入法之外設(shè)計(jì)一種新的輸入方法,即根據(jù)納西象形文字的拓?fù)涮卣鬟M(jìn)行識(shí)別,針對(duì)1 561個(gè)東巴象形文字的五個(gè)拓?fù)涮卣?塊數(shù)、孔數(shù)、端點(diǎn)數(shù)、三叉點(diǎn)數(shù)、四叉點(diǎn)數(shù))進(jìn)行統(tǒng)計(jì),然后結(jié)合TTF字庫(kù)文件利用Java程序進(jìn)行文字的錄入和顯示,為東巴象形文字的輸入提供一種新的思路。

東巴象形文字的變體較多,文章僅統(tǒng)計(jì)了基本字形,隨著研究的深入,需要增加更多擴(kuò)展字形的統(tǒng)計(jì)信息;同時(shí),對(duì)于拓?fù)涮卣鞯膬?yōu)化選擇及配置,需要進(jìn)一步的試驗(yàn),以提高輸入效率和識(shí)別效率。

致謝 感謝國(guó)家重大社科基金對(duì)于本研究的支持,感謝麗江東巴文化研究院對(duì)本研究工作的支持。

[1] 林向蕭. 關(guān)于“東巴文是什么文字”的再探討 [J]. 云南民族學(xué)院學(xué)報(bào), 2002, 19(5): 83-89.

[2] X L Xu, G X, H J Wang, et al. Construction of an International IT-Driven Sharing Platform for Inheriting and Communication of Dongba Manuscripts [J]. Applied Mechanics & Materials, 2014, 610: 760-763.

[3] 白庚勝. 白庚勝納西學(xué)論集 [M]. 北京: 民族出版社, 2008.

[4] Zheng Liping. The Living Hieroglyphs, The Picture and Characters of Naxi Dongba [J]. Art and Design, 2009, 12: 311-313.

[5] Nishida Tatsuo. The Living Hieroglyph-Naxi Nationality’s Culture [M]. Japan Public Books.1996.

[6] ?;萜? 張琳. 對(duì)我國(guó)古籍?dāng)?shù)字化相關(guān)問(wèn)題的研究 [J]. 當(dāng)代圖書(shū)館, 2006, 85(1): 39-42.

[7] Liu Yang, Lu Dongming, Diao Changyu, et al. Dunhuang 284 Cave Multimedia Integrated Virtual Exhibit [J]. Journal of Computer-aided Design & Computer Graphics, 2004, 16(11): 1528-1534.

Research on Input Method of Naxi Dongba Hieroglyphs Based on Topological Characteristics

WANG Haiyan1, WANG Hongjun1,2, XU Xiaoli2

(1. School of Electromechanical Engineering, Beijing Information Science and Technology University, Beijing 100192, China;2. Key Lab of Modern Measurement & Control Technology (BISTU), Ministry of Education,Beijing Information Science and Technology Univerity, Beijing 100192, China)

Naxi Dongba characters are a kind of pictographs that is even more primitive than Oracle pictographs. As there is a large number of ancient Naxi classical books are needed to be protected and input into the computer system, an input method based on the topological characteristics of Dongba characters is designed for ordinary users. Firstly, the five basic topological features including number of blocks, number of holes, end points counts, three-connection-points counts and four-connection-points counts of 1,561 Naxi Dongba characters are after statistics and recorded. After that, this method is tested by a Java-based program combined with TTF font file and it proves that the method is feasible. Statistics show that more than 50% of Dongba pictographs can be identified uniquely through these five characteristics and more than 80% of them can be identified by this method with no more than 4 repetitions. It provides a new way to input Naxi Dongba hieroglyphs with the manual input and with high efficiency of identification.

Naxi; Dongba; hieroglyphs; input method

王海燕(1979-),碩士,講師,主要研究領(lǐng)域?yàn)橄到y(tǒng)優(yōu)化、信息化。E-mail:asmylady@163.com王紅軍(1966-),博士,教授,主要研究領(lǐng)域?yàn)樾畔⒒?、故障診斷等。E-mail:wanghj86@163.com徐小力(1951-),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)楣鈾C(jī)電信息及數(shù)字化網(wǎng)絡(luò)化技術(shù)。E-mail:xuxiaoli@bistu.edu.cn

1003-0077(2016)04-0106-04

2014-02-17 定稿日期: 2015-06-09

國(guó)家社科基金(12&ZD234)

TP391

A

猜你喜歡
東巴納西點(diǎn)數(shù)
云南省檔案館館藏《東巴經(jīng)》
英國(guó)女子與兩只貓結(jié)婚10年:稱貓比男人好
祭風(fēng)
安納西
安納西
玉水有清音
納西魯丁的微笑
畫(huà)點(diǎn)數(shù)
多核并行的大點(diǎn)數(shù)FFT、IFFT設(shè)計(jì)
巧猜骰子