韋韌
?
方塊白文文獻數(shù)據(jù)庫
韋韌
(中國社會科學(xué)院民族學(xué)與人類學(xué)研究所,北京 100081)
白族是一個有著悠久歷史和豐富文化的少數(shù)民族。方塊白文是古代白族在長期使用漢語文的過程中,用來記錄廣泛使用的白語,仿照漢字創(chuàng)制的一種民族文字,是一種既借用漢字又自造拼合字的意音文字。針對方塊白文情況復(fù)雜、信息量大等問題,在充分吸收已有研究成果的基礎(chǔ)上,在普通語言學(xué)、普通文字學(xué)、比較文字學(xué)、漢字構(gòu)形學(xué)理論指導(dǎo)下,借鑒漢字整理的方法,設(shè)計和建立了方塊白文數(shù)據(jù)庫,并以方塊白文材料《云龍白曲殘本》為例,詳細介紹利用數(shù)據(jù)庫技術(shù)研究方塊白文的初步成果,以及方塊白文數(shù)據(jù)庫在中國少數(shù)民族語言文字研究創(chuàng)新中所起到的巨大作用。
方塊白文;數(shù)據(jù)庫;《云龍白曲殘本》;白族
白族是一個有著悠久歷史和豐富文化的少數(shù)民族。白族自稱“僰”“僰子”“僰尼”,均是“白人”之意。別稱比較多,不僅不同民族對白族稱呼不同,連同一個民族對分布在不同地區(qū)的白族也有不同的稱呼。納西族稱瀾滄江邊上的白族為“那馬”,稱大理和麗江的白族為“勒布”。傈僳族則稱怒江邊丘的白族為“勒墨”,稱大理白族為“臘本”。洱海地區(qū)及其附近漢族稱白族為“民家”。新中國成立后,1956-11,大理白族自治州建立時,根據(jù)廣大白族民族意愿,確定族名為“白族”。白族是我國西南山區(qū)人口較多的少數(shù)民族,根據(jù)2010年民族統(tǒng)計年鑒,全國白族總?cè)丝谟?90多萬人,主要聚居在云南省的大理白族自治州和昆明、楚雄、麗江等地州市,少數(shù)散居在貴州省畢節(jié)、六盤水、江陵等地市、湖南省張家界市及湖北省鶴峰縣。
方塊白文是古代白族在長期使用漢語文的過程中,用來記錄廣泛使用的白語,仿照漢字創(chuàng)制的一種民族文字,是一種既借用漢字又自造拼合字的意音文字。方塊白文的歷史文獻以碑刻、有字瓦片和經(jīng)卷的批注浮簽為主,近現(xiàn)代方塊白文文獻以祭文、白曲曲本、大本曲曲本為主。有部分碑刻內(nèi)容已被釋讀出來,但還有一些,由于年代太久遠,與現(xiàn)代白語差異巨大,還有待破譯。建立方塊白文數(shù)據(jù)庫,可以利用數(shù)據(jù)庫的優(yōu)勢,整理、分析方塊白文,破解存疑文獻。
我們已經(jīng)進入數(shù)字化時代,數(shù)字化技術(shù)的運用也早已成為科學(xué)研究的一個必要有效手段。早在20世紀90年代,漢語言研究就已開始使用數(shù)據(jù)庫技術(shù),有一部分少數(shù)民族語言研究也引入數(shù)據(jù)庫技術(shù),建立了一系列少數(shù)民族語言數(shù)據(jù)系統(tǒng)。方塊白文由于之前收集的材料較少,目前還沒有建立方塊白文材料數(shù)據(jù)庫,相比較其他少數(shù)民族的語言研究,稍顯滯后。因此,迅速建立一個方塊白文數(shù)據(jù)庫是非常有必要的,數(shù)據(jù)庫的建立既可以加大方塊白文材料的整理速度和準確度,又可以使方塊白文的資源共享,減少工作中的重復(fù)浪費,提高工作效率。開展方塊白文數(shù)據(jù)管理關(guān)鍵技術(shù)的研究,也為方塊白文語言數(shù)據(jù)和元數(shù)據(jù)存儲提供了堅實的技術(shù)基礎(chǔ),同時也是滿足少數(shù)民族語言信息快速檢索與少數(shù)民族語言研究的需要。研究開發(fā)方塊白文數(shù)據(jù)庫系統(tǒng)對搶救和挖掘白族非物質(zhì)文化遺產(chǎn)也具有非凡的意義。
語言學(xué)的材料一般都很龐大,信息多面,必須考慮采用有效的手段進行組織、存儲和管理,并在此基礎(chǔ)上能夠充分、有效地實現(xiàn)語言數(shù)據(jù)共享和數(shù)據(jù)發(fā)布。其中語言數(shù)據(jù)存儲是數(shù)據(jù)查詢檢索、管理、共享發(fā)布的基礎(chǔ),開展存儲構(gòu)建技術(shù)的研究,解決語言數(shù)據(jù)高效、安全存儲問題,為數(shù)據(jù)的有效集中、高效查詢、管理、快速傳輸提供基礎(chǔ),是迫切需要的。
在語言學(xué)的研究中常需要對數(shù)據(jù)進行索引、搜索、排序、抽取和分組等操作,數(shù)據(jù)庫在這些問題上都很容易實現(xiàn),并且能形成一個數(shù)據(jù)庫管理系統(tǒng)。因此,用數(shù)據(jù)庫進行方塊白文的處理是合適的。
數(shù)據(jù)庫的建設(shè)和方塊白文文字整理研究思路是相輔相成、互相促進的關(guān)系。在最初建立數(shù)據(jù)庫時,方塊白文文字整理研究思路還不明晰,數(shù)據(jù)庫的結(jié)構(gòu)也很簡單,只是根據(jù)材料來源的特點,設(shè)計了描述方塊白文形音義的幾個字段。在大量輸入和接觸方塊白文材料后,逐漸總結(jié)出方塊白文的特點,摸索出研究的一些規(guī)律,由于方塊白文字符的類型不同,各類型有自己的特點,需要分別建立數(shù)據(jù)表,設(shè)計能夠反映其特性的數(shù)據(jù)庫字段,以求盡量全面地描述出材料的不同信息。建立合成字數(shù)據(jù)庫又單獨增加了示音構(gòu)件、表義構(gòu)件、標示構(gòu)件3個字段。因此,數(shù)據(jù)庫是進行方塊白文文字整理研究的重要手段,研究方法的進展也必定會反映在數(shù)據(jù)庫上。
Oracle Database是關(guān)系數(shù)據(jù)庫的一種,支持關(guān)系對象模型的分布式,面向Internet計算,它提供安全的、開放的和科學(xué)的信息數(shù)據(jù)管理方法。由一個Oracle DB和一個Oracle Server實例組成保障了Oracle數(shù)據(jù)庫具有數(shù)據(jù)自治性并且能提供很好的數(shù)據(jù)存儲機制,方便了用戶的使用和操作,提高了信息管理的效率。Oracle數(shù)據(jù)庫是目前世界上使用最為廣泛的數(shù)據(jù)庫管理系統(tǒng),作為一個通用的數(shù)據(jù)庫系統(tǒng),它具有完整的數(shù)據(jù)管理功能;作為一個關(guān)系數(shù)據(jù)庫,它是一個完備關(guān)系的產(chǎn)品;作為分布式數(shù)據(jù)庫它實現(xiàn)了分布式處理功能。 Oracle還提供了豐富的數(shù)據(jù)類型,可以用準確的數(shù)據(jù)類型和合理的數(shù)據(jù)長度來定義數(shù)據(jù)類型,這樣不但可以降低數(shù)據(jù)冗余而節(jié)省系統(tǒng)存儲空間,還可以提高信息系統(tǒng)的檢索效率。
方塊白文情況較復(fù)雜,提供的信息涉及較多方面,設(shè)計和建立方塊白文數(shù)據(jù)庫是一項消耗巨大精力的工作。在具體操作過程中需要不斷地研究和解決問題,如果考慮不周到或有疏忽遺漏,會給后面的研究工作帶來不可預(yù)計的后果,因此,數(shù)據(jù)庫的建設(shè)既是基礎(chǔ)又是關(guān)鍵,是方塊白文文字整理研究的重要基礎(chǔ)。
數(shù)據(jù)庫的建設(shè)和方塊白文文字整理研究思路是相輔相成、互相促進的關(guān)系。
總體方法是根據(jù)方塊白文的不同類型和特點,分別建立結(jié)構(gòu)不同的數(shù)據(jù)表,盡量全面地反映各種方塊白文的不同信息,以達到分析每一個字形都可以調(diào)動多方面信息的效果。一個信息量充足完善的數(shù)據(jù)庫需要一個長期建立的過程,必須不斷地完善和補充數(shù)據(jù)庫。
數(shù)據(jù)庫建設(shè)主要分為4個階段,依次是數(shù)據(jù)庫結(jié)構(gòu)設(shè)計和建立、數(shù)據(jù)錄入、數(shù)據(jù)校對和數(shù)據(jù)整理。對方塊白文進行語言學(xué)的大量分析處理沒有先例,在進行方塊白文數(shù)據(jù)庫的建設(shè)時,是摸索前行的,4個階段交叉推進。比如錄入、校對數(shù)據(jù)時,需要不斷地驗證數(shù)據(jù)庫的結(jié)構(gòu)設(shè)計是否可以充分地展示材料各方面信息,并適當加以改進;同樣,在錄入和校對時也要根據(jù)碰到的新情況、新問題對數(shù)據(jù)的整理步驟和方法進行調(diào)整。需要說明的是,在數(shù)據(jù)錄入時,作者對方塊白文材料已有一些粗略的思考并進行一定的分析,但全面、細致的分析是在數(shù)據(jù)庫完全建立后才進行的。因此,建立方塊白文數(shù)據(jù)庫不是遵循一般數(shù)據(jù)庫建設(shè)的4個階段逐步計劃進行,而是基本按照4個階段建立數(shù)據(jù)庫的順序,但在4階段中不斷交叉互進。
數(shù)據(jù)庫建設(shè)步驟流程如圖1所示。
圖1 數(shù)據(jù)庫建設(shè)步驟流程圖
方塊白文到底有多少,目前尚不得而知。已發(fā)現(xiàn)的文獻多以文學(xué)作品形式存在,分布范圍廣,搜集和整理的工作較為艱巨。因此,為了盡快建立一個方塊白文樣本庫,選取的第一份材料一定是可以直接用于研究且學(xué)界認可的資料。
目前,已發(fā)現(xiàn)并整理的方塊白文文獻形式包括碑刻、大本曲、“吹吹腔”劇本、宗教經(jīng)文、祭文。選取的第一份建庫材料,《云龍白曲殘本》是中國科學(xué)院少數(shù)民族語言調(diào)查第三工作隊白語小組于1958年在云南省云龍縣寶豐鄉(xiāng)搜集而來,后由中國社會科學(xué)院民族學(xué)與人類學(xué)研究所研究員徐琳先生保存下來。現(xiàn)由美國馬里蘭州圣瑪利大學(xué)傅京起老師收藏。目前曲本已釋讀出版(見《中國白族白文文獻釋讀》),可以直接用于研究。曲本中的文字除使用白族一般運用的漢字音讀、訓(xùn)讀、借詞外,大量使用漢字或漢字部首構(gòu)造表音兼表意的合成字,合成字在整本曲本中出現(xiàn)較多,遠多于其他已釋讀方塊白文文獻。這些合成字是我們分析白文的重要基本材料,這也是選取《云龍白曲殘本》作為第一個建庫材料的重要原因。
在數(shù)字化《云龍白曲殘本》文獻原文時,基本采用紫光華宇拼音輸入法v6.7,遇到超出輸入法所支持的字符,使用逍遙筆手寫識別軟件和方正超大字符集。如果字符不在上述兩種輸入法所支持的字符集內(nèi),則使用Windows自帶的TrueType造字程序進行造字。
考慮到使用的廣泛性和通用性,論文作者在數(shù)字化材料時,將《中國白族白文文獻釋讀》中白曲的注音音標轉(zhuǎn)寫為潘悟云、李龍開發(fā)的云龍國際音標輸入法4.0版。
數(shù)據(jù)庫的一個顯著優(yōu)點在于能夠容納海量數(shù)據(jù),并方便管理。這一優(yōu)點體現(xiàn)在建庫者能夠建立關(guān)系清楚明晰的數(shù)據(jù)庫表。
2.2.1 建立語言材料元數(shù)據(jù)表
元數(shù)據(jù)是描述數(shù)據(jù)及其基本屬性的數(shù)據(jù),相當于所有數(shù)據(jù)的管理中心,為將來數(shù)據(jù)的使用和管理提供方便。
元數(shù)據(jù)表字段共6個,分別是材料名稱、對應(yīng)的漢字形字表表名、對應(yīng)的拼合漢字形字表表名、建庫時間、材料收集人和材料來源。
2.2.2 建立全字表
全字表字段共7個,分別是曲序號、句序、白字、音、義和句直譯。
2.2.3 建立圖文對照表
圖文對照表字段共2個,分別是字形和對應(yīng)的圖片。
2.2.4 建立漢字型方塊白文字表
漢字形方塊白文字表字段共13個,分別是曲序號、句序、字形、字形分析、構(gòu)形模式、聲、韻、調(diào)、對應(yīng)漢字、雙音詞義、句直譯和句意譯。
2.2.5 建立拼合漢字形方塊白文字表
拼合漢字形方塊白文字表字段共15個,分別是曲序號、句序、字形、聲、韻、調(diào)、對應(yīng)漢字、雙音詞義、字形分析、示音構(gòu)件、表義構(gòu)件、標示構(gòu)件、構(gòu)形模式和備注。
依據(jù)數(shù)據(jù)庫,統(tǒng)計得出作品總字數(shù)7 241字,使用的單字1 307個(包括異體字),其中,漢字字形的單字828個,拼合漢字的單字479個。數(shù)據(jù)庫條數(shù)共計2 815條,條數(shù)指的是每一個在《云龍白曲殘本》中以不同的形音義出現(xiàn)的字,我們都作為一條。比如“阿”在數(shù)據(jù)庫中以不同的音義出現(xiàn)了9次,在統(tǒng)計使用的單字時,算作1個方塊白文,數(shù)據(jù)庫中算作9個方塊白文。我們這樣處理就是要全面地反映方塊白文的面貌。只有這樣,才能全面考察方塊白文文字系統(tǒng),使研究結(jié)論更加準確。
依據(jù)方塊白文數(shù)據(jù)庫,借鑒現(xiàn)有漢字研究的理論方法,采用結(jié)構(gòu)功能分析法對方塊白文的字體類型進行分析,方塊白文分成借用字和自造拼合字兩種類型。借用字是白文借用漢字。以字符構(gòu)件具有的功能屬性,即白文字符與漢字字符的形音義對應(yīng)關(guān)系為標準,可分為全借字、音讀字、訓(xùn)讀字、記號字四類。自造拼合字是借用字進入白語言語音系統(tǒng)后,白族仿造漢字構(gòu)字原理創(chuàng)制。從字符功能角度看,分為7類:音義拼合字、會義拼合字、雙音拼合字、標音拼合字、標義拼合字、標示音義拼合字、記號拼合字。
本文介紹的是方塊白文原始語料數(shù)據(jù)庫的建設(shè),以這些原始語料數(shù)據(jù)庫作為方塊白文研究的基礎(chǔ),在對方塊白文進一步的分析研究中,會不斷生成新的數(shù)據(jù)庫表,可以用于各方面的研究。數(shù)據(jù)庫將形成方塊白文語料庫,并最終建立方塊白文研究系統(tǒng)。該系統(tǒng)將為白族語言研究提供堅實的服務(wù)基礎(chǔ),并為其他漢字系少數(shù)民族文字的數(shù)據(jù)庫建設(shè)提供相關(guān)的技術(shù)探索。作者對方塊白文的信息處理已經(jīng)解決了基本的編碼、造字、錄入、排版、部分史料數(shù)據(jù)庫建設(shè)方面的技術(shù)問題,但是與實際需求還有一定的距離。根據(jù)現(xiàn)有基礎(chǔ)和應(yīng)用需求,下一步應(yīng)該開展的工作包括:①盡快制訂方塊白文字符標準,把它納入國家和國際標準體系。②出版方塊白文字典和開發(fā)方塊白文和漢文翻譯系統(tǒng)。由于方塊白文字形復(fù)雜,各方言區(qū)和各個使用者書寫的方塊白文不統(tǒng)一,導(dǎo)致目前能夠閱讀方塊白文的人越來越少,方塊白文文獻的收集、整理任務(wù)越來越艱巨,因此,編輯方塊白文字典和研究開發(fā)方塊白文和漢文翻譯系統(tǒng)的工作迫在眉睫。
感謝傅京起教授提供原件資料,王鋒研究員提供白語方言調(diào)查詞表用于作者論文創(chuàng)作!
[1]徐琳,趙衍蓀.白語簡志[M].北京:民族出版社,1984.
[2]《中國少數(shù)民族語言簡志》編委會,《中國少數(shù)民族語言簡志叢書》修訂本編委會.中國少數(shù)民族語言簡志叢書修訂本·卷貳[M].北京:民族出版社,2009.
[3]張錫祿,甲斐勝二.中國白族白文文獻釋讀[M].桂林:廣西師范大學(xué)出版社,2011.
[4]王寧.漢字構(gòu)形學(xué)講座[M].臺北:三民書局,2013.
[5]宋繼華,王寧,胡佳佳.基于語料庫方法的數(shù)字化《說文》學(xué)研究環(huán)境的構(gòu)建[J].語言文字應(yīng)用,2007(01):132-138.
[6]李奕琳.借音壯字研究思路與數(shù)據(jù)庫建設(shè)[D].南寧:廣西大學(xué),2006.
[7]劉連芳,顧林,黃家裕,等.壯文與壯文信息處理[J].中文信息學(xué)報,2011,25(06):175-182.
[8]柳長青,杜建錄.網(wǎng)絡(luò)下的西夏文及西夏文獻處理研究[J].寧夏社會科學(xué),2008(05):113-115.
[9]王成平.彝語言語料資源數(shù)據(jù)庫的設(shè)計與共享的實現(xiàn)[J].中文信息學(xué)報,2016,30(01):129-132.
[10]劉連芳,海銀花,那順烏日圖,等.壯、蒙古、維、哈、柯、朝語信息處理研究進展[J].廣西科學(xué)院學(xué)報,2018年,34(01):18-26.
2095-6835(2019)01-0022-03
G250
A
10.15913/j.cnki.kjycx.2019.01.022
韋韌(1982—),女,博士,助理研究員,主要研究領(lǐng)域為民族語文信息化。
〔編輯:張思楠〕