黃 瓊,李生柱
(1.貴州師范學(xué)院文學(xué)與傳媒學(xué)院,貴州 貴陽(yáng) 550018;2. 貴州師范學(xué)院中國(guó)鄉(xiāng)土社會(huì)研究中心,貴州 貴陽(yáng) 550018)
隨著數(shù)字技術(shù)的不斷進(jìn)步,記錄文字的載體日新月異,“數(shù)字人文”(digital humanities)漸成學(xué)術(shù)熱點(diǎn),越來(lái)越多的先進(jìn)數(shù)字技術(shù)被應(yīng)用到人文社科領(lǐng)域。北京大學(xué)博雅講席教授鄧小南認(rèn)為,“‘?dāng)?shù)字人文’是數(shù)字化、智能化環(huán)境下多學(xué)科匯聚的學(xué)術(shù)增長(zhǎng)點(diǎn),為人文學(xué)科的發(fā)展提供了新方法,注入了新活力,也在某種程度上突破了傳統(tǒng)史學(xué)的格局,使一些有賴于大量數(shù)據(jù)處理的研究成為可能。”[1]11胡士潁亦強(qiáng)調(diào):“數(shù)字人文無(wú)論是從拓展人文社會(huì)科學(xué)研究的工具與方法意義上,還是從具有面向過(guò)去、未來(lái)的學(xué)科綜合意義上,都將對(duì)知識(shí)、思想乃至精神信仰產(chǎn)生革命性的影響?!盵1]12在民族古籍搜集整理領(lǐng)域,數(shù)字技術(shù)的革新亦帶來(lái)顛覆性的影響。
20世紀(jì)80年代以來(lái),國(guó)內(nèi)外古籍?dāng)?shù)字化工作有序展開(kāi)。2017年,我國(guó)初步建成了中華古籍資源庫(kù)。近幾年,流傳海外的漢文古籍文獻(xiàn)的數(shù)字化整理工作亦如火如荼地展開(kāi)。譬如,由美國(guó)哈佛大學(xué)燕京圖書(shū)館與中國(guó)國(guó)家圖書(shū)館合作完成的“哈佛大學(xué)哈佛燕京圖書(shū)館藏中文善本特藏資源庫(kù)”,對(duì)哈佛大學(xué)哈佛燕京圖書(shū)館館藏所有中文善本和齊如山專藏進(jìn)行數(shù)字化,完成中文善本古籍4210種51889卷的數(shù)字化拍照工作,并免費(fèi)向全球開(kāi)放,可謂成績(jī)斐然[2]。然而,相對(duì)而言,我國(guó)少數(shù)民族文獻(xiàn)的收集整理工作卻不盡人意,究其原因,或與相關(guān)技術(shù)設(shè)計(jì)與操作經(jīng)驗(yàn)的缺乏不無(wú)關(guān)系。
我國(guó)少數(shù)民族大多都有自己的語(yǔ)言,但是很少有自己的文字,即便有自己文字,其受眾范圍也十分有限。因此,歷代歷史文獻(xiàn)的傳承通常在本民族內(nèi)部的少數(shù)特定人員中進(jìn)行。以彝族為例,歷史上僅有畢摩世家掌握文字,而且畢摩記載的文字,其語(yǔ)音詞匯語(yǔ)法各方面與今天該民族日常生活中的口語(yǔ)已經(jīng)完全不同。概而言之,現(xiàn)存的古老文獻(xiàn),正是民族歷史的真實(shí)見(jiàn)證,是今人探索歷史的寶貴密碼。
目前對(duì)于沒(méi)有文字文獻(xiàn)記載的少數(shù)民族來(lái)說(shuō),記錄收集整理資料勢(shì)在必行,數(shù)字化進(jìn)程更多的重心應(yīng)放在當(dāng)代錄音錄像等影視影音資料上;而對(duì)于有自己文字文獻(xiàn)的少數(shù)民族而言,除了搶救性錄制影視影音資料外,更多工作重心應(yīng)放在文獻(xiàn)的數(shù)字化處理上。文獻(xiàn)的數(shù)字化,目前的工作大都只是對(duì)文獻(xiàn)的紙質(zhì)文本進(jìn)行簡(jiǎn)單的電腦錄入工作,即打字輸入。
但這種看似簡(jiǎn)單的電腦打字工作常常文不對(duì)版,錯(cuò)漏百出,不僅錯(cuò)別字現(xiàn)象嚴(yán)重,增字、減字、顛倒等現(xiàn)象更是居高不下。其中,人為粗心造成的錯(cuò)誤可以很容易得到修正,但技術(shù)層面造成的瓶頸卻不好突破。尤其在中文語(yǔ)料庫(kù)建設(shè)都相對(duì)滯后的當(dāng)下,面對(duì)不同的數(shù)據(jù)庫(kù)設(shè)計(jì)標(biāo)準(zhǔn)、目的等,計(jì)算機(jī)技術(shù)相對(duì)薄弱的文獻(xiàn)語(yǔ)言知識(shí)領(lǐng)域的專家與缺乏文獻(xiàn)語(yǔ)言專業(yè)知識(shí)的計(jì)算機(jī)技術(shù)領(lǐng)域?qū)<覂烧咧g尚且不能進(jìn)行完美的溝通合作,難已突破技術(shù)層面以及知識(shí)層面的重重難題,更遑論少數(shù)民族語(yǔ)料庫(kù)的建設(shè)。它不僅對(duì)于文獻(xiàn)語(yǔ)言知識(shí)領(lǐng)域?qū)<矣兄嗟囊?,?duì)于計(jì)算機(jī)專業(yè)技術(shù)領(lǐng)域?qū)<腋浅錆M挑戰(zhàn)。
客觀而言,當(dāng)下少數(shù)民族文獻(xiàn)文本錄入尚處于起步階段,數(shù)據(jù)庫(kù)的建設(shè)更是十分匱乏,不少?gòu)氖孪嚓P(guān)領(lǐng)域工作的編輯、學(xué)者感到困難重重,不知如何下手,更是不知如何自行設(shè)計(jì)乃至調(diào)試語(yǔ)料庫(kù),工作上還享受不到信息化時(shí)代的福利。
針對(duì)上述情況,本文基于語(yǔ)料庫(kù)的構(gòu)思設(shè)計(jì)、程序開(kāi)發(fā)等多層面考慮,以經(jīng)典古彝文《西南彝志》作為操作對(duì)象,實(shí)行實(shí)操講解,以期為學(xué)術(shù)研究、出版編輯等各行各業(yè)提供相關(guān)便利、參考和幫助。
語(yǔ)料庫(kù),簡(jiǎn)言之,就是一種研究資源云集的數(shù)據(jù)庫(kù),它具有巨大的價(jià)值和獨(dú)特的意義,具體從以下兩大方面得到體現(xiàn):一是數(shù)據(jù)庫(kù)的規(guī)模大小,以及容量數(shù)據(jù)的規(guī)模大小,也就是庫(kù)所儲(chǔ)藏的資源多少;二是某種額外附加值。這種額外附加值,可以說(shuō)是原有價(jià)值意義基礎(chǔ)上的增值,它是在數(shù)字化加工過(guò)程中,在對(duì)語(yǔ)料庫(kù)進(jìn)行多方面信息加工標(biāo)注過(guò)程中不自覺(jué)地產(chǎn)生。這種加工標(biāo)注豐富了相關(guān)信息含量,客觀上賦予了某種更能體現(xiàn)價(jià)值和意義的值。
數(shù)據(jù)庫(kù)建模的目的有兩個(gè):一個(gè)是可以為相關(guān)行業(yè)提供相應(yīng)紙質(zhì)文獻(xiàn)的電子版;第二個(gè)更為重要,它可以充分地展現(xiàn)出電腦技術(shù)的絕對(duì)優(yōu)勢(shì),百分之百窮盡式、絕無(wú)紕漏地顯示所需提取的所有例證。
總之,語(yǔ)料庫(kù)的設(shè)計(jì)與建模,不僅要受一定語(yǔ)言學(xué)理論的指導(dǎo),而且要滿足研究需求下所定的相關(guān)計(jì)算機(jī)運(yùn)行法則的要求,兩者同時(shí)滿足,才能在計(jì)算機(jī)指令下對(duì)電子文本準(zhǔn)確快速的規(guī)范處理。
因此,出于如上理論指導(dǎo)的思量,我們初步構(gòu)思設(shè)計(jì)了一般數(shù)據(jù)庫(kù)(文中會(huì)以《西南彝志》作為示范)的具體操作步驟,如圖1所示:
圖1 數(shù)據(jù)庫(kù)操作的基礎(chǔ)環(huán)節(jié)
圖1中,生語(yǔ)料庫(kù)是一切數(shù)據(jù)庫(kù)操作的基礎(chǔ)環(huán)節(jié)。它包括錄入、??焙蛣澐秩蟀鍓K。錄入,即對(duì)紙質(zhì)文本做最基本的數(shù)字化處理,使其變成最為原始的word文檔。而??眲t是錄入板塊之后的板塊。這一板塊決定文本質(zhì)量好壞,它不但包括紙質(zhì)文本善本的校勘選擇,而且包括錄入過(guò)程中針對(duì)紙本的互相對(duì)校。最后的劃分包含語(yǔ)料的大致分章節(jié)等具體出處問(wèn)題,它很大程度上影響著熟語(yǔ)料庫(kù)轉(zhuǎn)換的使用價(jià)值的實(shí)現(xiàn)。
值得一提的是,在全部的操作步驟中,最關(guān)鍵的部分是熟語(yǔ)料庫(kù)。如果說(shuō)生語(yǔ)料庫(kù)在很大層面上決定了數(shù)據(jù)庫(kù)的規(guī)模大小,那么熟語(yǔ)料庫(kù)則更大程度上決定著額外附加意義與價(jià)值能否實(shí)現(xiàn)。語(yǔ)料加工,即基于研究者某種研究目的考慮下,對(duì)語(yǔ)料進(jìn)行某種程度和角度的甄選補(bǔ)充。語(yǔ)料管理和語(yǔ)料檢索,即對(duì)語(yǔ)料的某種管理以及某類搜索查找,是某種數(shù)據(jù)匯總后的語(yǔ)料輸出。這一步驟更多的與用戶的操作應(yīng)用體驗(yàn)有關(guān)。
上述是對(duì)待文本數(shù)字化語(yǔ)料庫(kù)設(shè)計(jì)的普遍化指導(dǎo),也是每一部紙質(zhì)文本數(shù)字化過(guò)程中的必經(jīng)之路。下文將這一過(guò)程具象化,以《西南彝志》這一少數(shù)民族語(yǔ)言文獻(xiàn)為例來(lái)予以具體操作。
《西南彝志》,原名《哎哺啥額》,直譯為“影形氣態(tài)”,是一部“彝族古代社會(huì)的百科全書(shū)”,以古彝文書(shū)寫(xiě)記錄,既是彝族最古最全的一部百科全書(shū),也是至今保留的著名老彝文文獻(xiàn)。
全書(shū)以詩(shī)行體的形式進(jìn)行展現(xiàn),全文以五言為一行,也就是五個(gè)字為一行的五言敘事詩(shī)這種形式呈現(xiàn)。全書(shū)直到20世紀(jì)50年代才在貴州省畢節(jié)地區(qū)被發(fā)現(xiàn),距今不超過(guò)70年,它比較全面地記載了西南地區(qū)彝族的歷史、生活方方面面。據(jù)目前已經(jīng)出版的內(nèi)容資料來(lái)看,全書(shū)一共有三十七萬(wàn)多字,分為四百多篇有獨(dú)立小標(biāo)題的文章,文章長(zhǎng)短不一,記載的內(nèi)容有歷史、哲學(xué)、文學(xué)、社會(huì)。全書(shū)從希慕遮到水西安氏,共計(jì)一百一十六代父子的連名譜,作為主線,闡述了古代彝族遷徙、發(fā)展、分支、聯(lián)姻、祭祖等生活歷史經(jīng)濟(jì)社會(huì)百態(tài),并敘述了云南東北部,貴州西北部、西南部、中部,四川涼山等地彝族“烏蠻”“白蠻”各部的“什數(shù)君長(zhǎng)”父子連名譜及活動(dòng)史實(shí)。
綜上,《西南彝志》有兩大顯著特點(diǎn):其一,內(nèi)容繁多,數(shù)字化之后所帶來(lái)的便利顯而易見(jiàn);其二,原紙質(zhì)文本全部是純古彝文字體,而古彝文目前在市面上是沒(méi)有相應(yīng)成熟的字體庫(kù)的。這一情形下,工作的當(dāng)務(wù)之急是必須解決古彝文的錄入問(wèn)題。
針對(duì)這一問(wèn)題,我們采取了如下步驟來(lái)盡可能保存書(shū)本上的字體原貌。
首先,對(duì)書(shū)本紙張進(jìn)行掃描,后把掃描件保存為jpg,導(dǎo)入我們的Photoshop CS6中,如圖所示:
圖2 《西南彝志》部分掃描字體樣例
接下來(lái)要把文字和背景明顯地區(qū)分出來(lái),因此我們對(duì)圖片的文字顏色進(jìn)行加深,背景進(jìn)行減淡,選擇“圖像—調(diào)整—去色”。然后,調(diào)整顏色,選擇“圖像—調(diào)整—色階”,在彈出的編輯框里面,把亮部調(diào)更亮,暗部調(diào)更暗。其次,選擇“橡皮擦”對(duì)圖片里面多余的部分進(jìn)行清除。
而后,使用鍵盤(pán)快捷鍵進(jìn)行操作,先同時(shí)按下鍵盤(pán)的Ctrl+A,對(duì)圖片進(jìn)行全選,再同時(shí)按下鍵盤(pán)的Ctrl+C進(jìn)行復(fù)制。最后,來(lái)到通道面板,我們先新建一個(gè)通道,再點(diǎn)擊新建通道,然后同時(shí)按下鍵盤(pán)的Ctrl+V,進(jìn)行粘貼,將剛才的圖片已經(jīng)導(dǎo)入到新的通道中。
接下來(lái)在下拉菜單中依次選擇“圖像—調(diào)整—反相”,將文字和圖片的顏色對(duì)調(diào)。 這時(shí),再回到圖層編輯面板,去新建一個(gè)圖層,把背景略去填充為黑色,然后在下拉菜單中依次選擇“選擇—載入選區(qū)”。緊接著,在自動(dòng)彈出的編輯框里,將通道設(shè)置為剛才新建的通道。
再將截圖中所選的文字進(jìn)行顏色的填充,把自己需要的顏色填充到選區(qū)里面,即制作完成,如圖3所示。
圖3 樣例中所提取的單個(gè)彝文
此外,《西南彝志》,從嚴(yán)格意義上來(lái)說(shuō),與字典、詞典類不同,屬于文學(xué)類作品,它是按章節(jié)排列的,并且沒(méi)有諸如注音、義項(xiàng)等十分顯性且有規(guī)律的標(biāo)識(shí)記號(hào)。
因此,《西南彝志》數(shù)據(jù)庫(kù)的加工難度在某種程度上比較大,因?yàn)樗鼪](méi)有明顯的加工標(biāo)識(shí),所以我們需要對(duì)文本進(jìn)行分章、斷句、切詞(又叫分詞)、標(biāo)注等方面操作,才能滿足從語(yǔ)言學(xué)角度對(duì)于詞性、語(yǔ)法等的研究需求。
但是目前典籍語(yǔ)料庫(kù)的建模理論相當(dāng)薄弱,如分詞的標(biāo)準(zhǔn)、語(yǔ)法標(biāo)注的類別等均有待進(jìn)一步研究。而且,典籍語(yǔ)料庫(kù)在建模技術(shù)上較為落后,如自動(dòng)分詞、標(biāo)注等技術(shù)的不足,大大增加了人工操作量,而人工相對(duì)于計(jì)算機(jī)工作而言,主觀隨意性增加,于是會(huì)使得分詞的標(biāo)準(zhǔn)不統(tǒng)一,語(yǔ)法標(biāo)注類別前后不一致,以致于影響統(tǒng)計(jì)結(jié)果的準(zhǔn)確度。
從目前現(xiàn)有的語(yǔ)料庫(kù)建模理論、技術(shù)等來(lái)看,我們一般會(huì)采取一系列操作步驟進(jìn)行數(shù)據(jù)庫(kù)建模(見(jiàn)圖4)。
圖4 數(shù)據(jù)庫(kù)建模展示
在經(jīng)過(guò)錄入、??钡拳h(huán)節(jié)之后,我們獲取了《西南彝志》Word電子文檔生語(yǔ)料庫(kù),接著,對(duì)它進(jìn)行自動(dòng)分章處理,輔助以人工分章。
在《西南彝志》電子文本的基礎(chǔ)之上,我們依照從大到小的層級(jí)單位,開(kāi)始進(jìn)行第一層級(jí)單位的分章處理。于是,我們獲得了帶有章節(jié)標(biāo)注記號(hào)的二十六卷電子文本,如圖5所示。
圖5 二十六卷電子文本
因?yàn)椴徽撌窃瓉?lái)的古彝語(yǔ)原文,還是中彝對(duì)照翻譯的漢語(yǔ)譯文,兩種語(yǔ)言在文字上都沒(méi)有詞形變化,也沒(méi)有形式上的標(biāo)記,所以使得接下來(lái)的分詞操作會(huì)相對(duì)復(fù)雜。在分詞操作步驟中,學(xué)界一直討論的焦點(diǎn)無(wú)外乎分詞必須遵循的基本原則、分詞必須體現(xiàn)的規(guī)范性以及分詞過(guò)程中必須保持的一致性等諸多元素。目前學(xué)界眾多學(xué)者提出了不少這方面的原則,比較考慮之后,研究采用的是孫茂松先生提出的原則,即需要“在保持語(yǔ)義同一性的前提下,結(jié)構(gòu)體在語(yǔ)料庫(kù)的分合是否始終一致,如‘豬肉’是否始終保持為一個(gè)整體,或者始終分開(kāi)?!盵3]
確定了分詞原則之后,我們開(kāi)始進(jìn)行粗加工,也就是先機(jī)器分詞,運(yùn)用自動(dòng)分詞軟件進(jìn)行操作。這里需要特別說(shuō)明的是,現(xiàn)在沒(méi)有專門面向文獻(xiàn)的分詞模型,就更談不上面向古彝文文獻(xiàn)的分詞模型。而目前面向中文文獻(xiàn)方面進(jìn)行的分詞操作,學(xué)界常用《基于條件隨機(jī)場(chǎng)的自動(dòng)分詞技術(shù)的研究》中的CRF分詞模型,這一分詞模型由陳晴設(shè)計(jì)開(kāi)發(fā),對(duì)中文古代文獻(xiàn)的操作性相當(dāng)強(qiáng)。由于她在模型版塊中添加了古漢語(yǔ)音韻等眾多方面信息,使得分詞的正確率相對(duì)較高。具體而言,CRF分詞模型對(duì)先秦文獻(xiàn)的操作性準(zhǔn)確性最高,而且即使面向操作性相對(duì)較弱的中古、近古等文獻(xiàn),它的準(zhǔn)確率也常常保持在80%~90%之間,尤其在工作效率上,人工手動(dòng)分詞與它完全不可以相提并論。
人工手動(dòng)分詞,即運(yùn)用人工的方式直接手動(dòng)進(jìn)行分詞操作,不僅需要逐字逐句一條條手工錄入,而且還需要參考上下文,對(duì)句子結(jié)構(gòu)進(jìn)行分析。對(duì)句子結(jié)構(gòu)進(jìn)一步分解,分解到詞這一層級(jí)語(yǔ)法單位。這一過(guò)程耗時(shí)繁多,需要耗費(fèi)大量的人力物力財(cái)力。
自動(dòng)分詞與人工分詞各有優(yōu)劣,重點(diǎn)體現(xiàn)在工作效果與工作效率兩個(gè)方面:工作效果上,自動(dòng)分詞因?yàn)榧夹g(shù)等方面制約,準(zhǔn)確率達(dá)不到100%,人工分詞目前準(zhǔn)確率相對(duì)較高;工作效率上,自動(dòng)分詞因?yàn)槌浞治樟擞?jì)算機(jī)技術(shù)等高科技成果,在這方面是以壓倒性優(yōu)勢(shì)遠(yuǎn)遠(yuǎn)超出人工分詞。
因此,現(xiàn)在學(xué)界常用的處理方式,就是先進(jìn)行自動(dòng)分詞,然后再輔以人工分詞。
現(xiàn)在市場(chǎng)上尚未開(kāi)發(fā)出古彝文字體庫(kù),相應(yīng)自動(dòng)分詞、標(biāo)注等一系列工序更是闕如,這也是目前少數(shù)民族文獻(xiàn)數(shù)字化進(jìn)程中的短板所在,在此期間,我們可以暫時(shí)利用漢語(yǔ)典籍?dāng)?shù)字化過(guò)程中取得的成果,通過(guò)對(duì)少數(shù)民族文獻(xiàn)的相應(yīng)漢語(yǔ)譯文進(jìn)行處理,再反過(guò)來(lái)作用于少數(shù)民族文獻(xiàn),從而達(dá)到曲線操作的目的。于是,對(duì)《西南彝志》對(duì)照漢語(yǔ)譯文電子文本進(jìn)行了初步處理。
初步處理的結(jié)果,也就是獲得了文中我們提到的二十六卷電子文本。隨之,我們就可以在電子文本上開(kāi)始進(jìn)行標(biāo)注工作。文獻(xiàn)語(yǔ)料加工,常見(jiàn)的就是標(biāo)注工作。它是由一級(jí)一級(jí)的從大到小的層級(jí)單位予以標(biāo)注,常用的劃分是篇章、語(yǔ)句和語(yǔ)詞這三級(jí)單位。我們遵循由大到小的原則,也可以說(shuō)由整體到局部的原則,面對(duì)《西南彝志》已有的二十六卷電子文本,一級(jí)級(jí)地進(jìn)行標(biāo)注。最后,可以獲得篇章、語(yǔ)句以及語(yǔ)詞三級(jí)語(yǔ)法單位的標(biāo)注。
需要特別指出的是,首先,語(yǔ)料庫(kù)標(biāo)注,不論是人工標(biāo)注還是機(jī)器標(biāo)注,工作過(guò)程繁瑣且繁重,尤其人工標(biāo)注,非常耗時(shí)耗力,需要標(biāo)注者尤為謹(jǐn)慎小心。
其次,標(biāo)注的語(yǔ)料資源具有重復(fù)利用性,而且也應(yīng)當(dāng)遵循可多次反復(fù)利用的原則。因?yàn)椴煌氖褂谜哂胁煌哪康模枰_(dá)到不同的結(jié)果,反復(fù)使用的語(yǔ)料資源在標(biāo)注方面特別需要注意每一級(jí)單位,即必須保證篇章、語(yǔ)句和語(yǔ)詞每一級(jí)單位標(biāo)注的相對(duì)獨(dú)立性。換句話說(shuō),任何單獨(dú)一級(jí)單位信息的更改不會(huì)影響其他級(jí)別單位。
此外,根據(jù)不同的研究要求與使用目的,語(yǔ)言各層級(jí)單位的標(biāo)注常見(jiàn)的還可以大致劃分為句法層級(jí)、詞匯層級(jí)、語(yǔ)義層級(jí)、語(yǔ)音層級(jí)、語(yǔ)用層級(jí)等?;凇段髂弦椭尽氛Z(yǔ)體等各方面因素的觀察,再結(jié)合考慮一般研究者、使用者的研究目的等因素,我們目前將《西南彝志》數(shù)據(jù)庫(kù)中的標(biāo)注,由整體到局部,從大到小,分為篇章標(biāo)注、句子標(biāo)注、詞匯標(biāo)注、語(yǔ)義標(biāo)注這四級(jí)標(biāo)注。
篇章標(biāo)注,重點(diǎn)需要標(biāo)注書(shū)籍篇章的出處、所處全文的位置、所在頁(yè)碼之類信息。句子標(biāo)注,也就是篇章標(biāo)注下的下一級(jí)標(biāo)注,它需要對(duì)文中句子標(biāo)注某些由標(biāo)注者個(gè)人設(shè)定的信息。常見(jiàn)的句子標(biāo)注包含所標(biāo)注詞匯在所在篇章中的句子排列順序等信息,這種信息不可或缺,是鏈接詞匯與句子的橋梁,為查詢者檢索詞匯時(shí)查詢上下文信息提供極大的便利。詞匯標(biāo)注,也就是句子標(biāo)注下的下一級(jí)標(biāo)注,常常包含句法標(biāo)注和詞性標(biāo)注。句法標(biāo)注,也就是說(shuō),即區(qū)分判斷某詞在其所在的全句中所充當(dāng)?shù)木浞ǔ煞?,常?jiàn)的句法成分有主語(yǔ)、謂語(yǔ)、賓語(yǔ)、定語(yǔ)、狀語(yǔ)和補(bǔ)語(yǔ),此外還有獨(dú)立語(yǔ)、兼語(yǔ)、句首語(yǔ)以及句中無(wú)義語(yǔ)等;詞性標(biāo)注,也就是說(shuō),即區(qū)分判斷某詞在其所在的全句中的具體詞性,常見(jiàn)的詞性有:名詞、動(dòng)詞、形容詞、副詞、代詞、數(shù)詞、量詞、介詞、連詞、語(yǔ)氣詞、嘆詞等。語(yǔ)義標(biāo)注,也就是說(shuō),即對(duì)某詞的隨文釋義,也就是詞語(yǔ)在句子中的詮釋予以標(biāo)注,它從某種意義上來(lái)說(shuō),在語(yǔ)料庫(kù)中具有舉足輕重的意義和作用。
在標(biāo)注的過(guò)程中,我們可以充分利用現(xiàn)有的一系列相關(guān)成果來(lái)加快標(biāo)注的效率。如現(xiàn)在已經(jīng)開(kāi)發(fā)了不少中文通用義項(xiàng)庫(kù),目前常見(jiàn)的而且已開(kāi)發(fā)成熟的中文義項(xiàng)庫(kù)有《漢語(yǔ)大字典》《漢語(yǔ)大詞典》等多種資料釋義義項(xiàng)庫(kù),在語(yǔ)義標(biāo)注的過(guò)程中,利用這些成果,可以進(jìn)一步加快語(yǔ)義標(biāo)注的速度,提高語(yǔ)義標(biāo)注的效率。
需要特別介紹的是意義欄目。這一欄目包含勘校、勘誤或者互文等方面的信息內(nèi)容。這是因?yàn)樵诹鱾?、抄?xiě)、印刷、出版過(guò)程中,尤其在口頭流傳、抄寫(xiě)的過(guò)程中,每種典籍基本上都會(huì)出現(xiàn)各種文字信息失誤的現(xiàn)象,如傳抄錯(cuò)誤、傳抄互異等,而這些信息對(duì)于研究者和使用者來(lái)說(shuō),都是十分重要的,所以我們通常都會(huì)在語(yǔ)義標(biāo)注中添加意義欄目,重在傳達(dá)這些信息。
我們運(yùn)用Access進(jìn)行標(biāo)注后再導(dǎo)入Excel表格中,因?yàn)楣乓臀臎](méi)有相應(yīng)字體庫(kù),我們目前采用的是圖片文字,所以這一方面涉及到大量手工插入工作,后期在建好了古彝文字體庫(kù)之后,該工作可以大大減輕強(qiáng)度和難度,而且也更有利于今后的研究工作?,F(xiàn)在在已有的前期工作之下,暫獲得語(yǔ)料庫(kù)如圖6所示。
圖6 語(yǔ)料庫(kù)圖例
再次,我們輔助以人工標(biāo)注,通過(guò)紙質(zhì)文本、相關(guān)資料等進(jìn)行校勘,進(jìn)一步完善數(shù)據(jù)庫(kù)信息,如通過(guò)人工干預(yù),將詞匯劃分得更為科學(xué)合理;備用欄中我們補(bǔ)充了該句子所需要的相關(guān)信息,即五言全句的完整而符合語(yǔ)法的漢語(yǔ)翻譯譯文等。最后,經(jīng)過(guò)精加工及深加工的熟語(yǔ)料庫(kù)得以實(shí)現(xiàn),詳見(jiàn)圖7。
圖7 熟語(yǔ)料庫(kù)圖例
基于這一熟語(yǔ)料庫(kù),我們已經(jīng)可以窮盡式查找《西南彝志》文本中的某一信息的所有出處,大大提高了研究效率及準(zhǔn)確度。同時(shí),我們還能繼續(xù)開(kāi)發(fā)與之關(guān)聯(lián)的單獨(dú)頁(yè)面檢索管理系統(tǒng),圍繞某目的設(shè)計(jì)某些查詢方式,如音標(biāo)查詢、詞性查詢等,從而使最終的所有輸出查詢結(jié)果依順序排列單獨(dú)頁(yè)面全部展示,更為便捷有利。
現(xiàn)在國(guó)內(nèi)典籍?dāng)?shù)據(jù)庫(kù)建設(shè)仍處于初期階段,尤其少數(shù)民族文獻(xiàn)數(shù)據(jù)庫(kù)建設(shè)還處在前期探索階段。其中的困難重重,文獻(xiàn)數(shù)據(jù)庫(kù)建設(shè)必不可免地會(huì)面對(duì)許多問(wèn)題。但是,伴隨著交叉學(xué)科的逐步深入發(fā)展、計(jì)算機(jī)技術(shù)與語(yǔ)言學(xué)理論的不斷融合、分詞標(biāo)準(zhǔn)的逐漸規(guī)范、自動(dòng)分詞系統(tǒng)的持續(xù)開(kāi)發(fā)等,所有問(wèn)題都將依次得到解決。數(shù)據(jù)庫(kù)的建設(shè)將越來(lái)越完善,數(shù)字化進(jìn)程也將越來(lái)越有利于各項(xiàng)文字工作的展開(kāi)。
當(dāng)然,以《西南彝志》為例的少數(shù)民族文獻(xiàn)數(shù)據(jù)庫(kù)尚且存在諸多不盡人意之處,很多方面筆者都是在大膽的嘗試,錯(cuò)漏之處在所難免。而更多彝文文獻(xiàn)數(shù)字化,甚至少數(shù)民族文獻(xiàn)數(shù)字化工作,還有待同仁繼續(xù)努力。