德慶央珍
摘 要 由于多種原因,以多維關(guān)聯(lián)及結(jié)構(gòu)化的智能知識服務(wù)體系,對民文古籍進(jìn)行保護(hù)及再利用的深度加工產(chǎn)品較為少見。但藏文古籍豐富的藏存量、藏文信息處理技術(shù)的發(fā)展水平及良好的國內(nèi)外學(xué)術(shù)交流環(huán)境等因素,使其數(shù)字化工作在向知識服務(wù)型發(fā)展(即深層次開發(fā))方面,進(jìn)行著較為超前和有益的探索。文章以明清古籍藏漢審音辭書《西番譯語》為例,探討了小眾型藏文古籍在線出版應(yīng)用的可能性,以期能夠在更廣泛層面發(fā)揮其學(xué)術(shù)應(yīng)用價值,更好地服務(wù)于學(xué)術(shù)研究及古籍保護(hù)工作。
關(guān)鍵詞 藏文古籍 數(shù)字傳播 在線詞典
一、 古籍?dāng)?shù)字化層次與民文古籍概述
古籍?dāng)?shù)字化最實質(zhì)的目的是保護(hù)及利用。其對古籍文獻(xiàn)的再生性保護(hù)作用、對文本深度挖掘的性能、對構(gòu)建數(shù)據(jù)資源庫以饗共享的知識服務(wù)平臺的優(yōu)勢等,使其在古籍保護(hù)及傳播工作方面的能力無出其右。深度加工后的古籍內(nèi)容,更以跨學(xué)科的“知識圖譜”形式輔助人們閱讀與研究,產(chǎn)生二次價值,是以被稱為“高效率的知識內(nèi)容”。古籍根據(jù)數(shù)字化加工及開發(fā)的程度,有存儲、檢索、交互、知識服務(wù)型數(shù)據(jù)庫構(gòu)建等形式。就開發(fā)的層次,有學(xué)者概括為“表層數(shù)字化”和“深層數(shù)字化”: 前者是圖像或文本的簡單存儲,后者則是古籍內(nèi)部知識元的標(biāo)注,以及在知識元間設(shè)計建立關(guān)聯(lián)的原則等,是“內(nèi)容和意義層面”的開發(fā)。(馬創(chuàng)新,曲維光,陳小荷2014)104據(jù)2007年的國家普查摸底數(shù)據(jù),全國漢文古籍藏量總數(shù)達(dá)20萬種50萬個版本,至2016年已數(shù)字化約10萬種15萬個版本。(張賀2016)而民文由于受信息技術(shù)發(fā)展水平、標(biāo)準(zhǔn)及規(guī)范缺乏統(tǒng)一、經(jīng)濟(jì)投入能力相對較弱、需求不旺盛等綜合條件的制約,民文古籍的數(shù)字化工作主要是圖片數(shù)據(jù)庫(古籍掃描或影印)和文本數(shù)據(jù)庫(全文文本錄入)的建立,數(shù)字資源的開發(fā)層次較低。知識服務(wù)型數(shù)據(jù)庫,即利用數(shù)字技術(shù),應(yīng)用文獻(xiàn)學(xué)、信息學(xué)等學(xué)科的方法,將古籍所涉及的各類專門學(xué)科間的知識,以跨學(xué)科的方式進(jìn)行“知識元”間的多元組合,構(gòu)成結(jié)構(gòu)化的、多維關(guān)聯(lián)的智能知識網(wǎng)絡(luò)體系的形式,在民文古籍?dāng)?shù)字化產(chǎn)品中極為少見。目前,我國民文古籍的數(shù)字化,主要由教學(xué)科研機(jī)構(gòu)和圖書館完成,商業(yè)介入極少,開發(fā)層次也多在表層,但藏文古籍?dāng)?shù)字化工作,在向知識服務(wù)型發(fā)展(即深層次開發(fā))方面,進(jìn)行著較為超前和有益的探索。
二、 藏文古籍?dāng)?shù)字化出版具備良好的客觀條件
(一) 文獻(xiàn)占有量龐大為規(guī)?;臄?shù)字庫建設(shè)提供了豐富的信息元
文獻(xiàn)的豐富程度,不僅決定著數(shù)據(jù)庫的規(guī)模,更與其可進(jìn)行數(shù)字加工的深度成正比?!靶畔⒃?,即數(shù)據(jù)對象越豐富,數(shù)據(jù)庫可構(gòu)建的多維知識體系越強(qiáng)大,則可提供的知識服務(wù)的能力就越強(qiáng)大。因此文獻(xiàn)作為建立古籍?dāng)?shù)據(jù)庫的信息基礎(chǔ),占有量越大,對其進(jìn)行結(jié)構(gòu)化、智能化知識集合的空間就越大。我國藏文古籍文獻(xiàn)藏量僅次于漢文,據(jù)2016年的官方統(tǒng)計,全國藏文古籍文獻(xiàn)約有200萬函,(王海磐2017)具備建立數(shù)字資源庫的良好條件。
浩如煙海的歷史文獻(xiàn)是藏文出版的不竭寶藏,古籍文獻(xiàn)的出版更是藏文出版的一大品類和特色。由于藏文古籍的巨大藏量及其珍貴的價值含量,黨和政府高度重視藏文古籍?dāng)?shù)字化保護(hù)及相關(guān)成果的出版工作,從政策、經(jīng)濟(jì)等各方面予以大力的支持。西藏自治區(qū)政府也不斷將古籍?dāng)?shù)字化出版工作寫入各項規(guī)劃中,如連續(xù)兩期的“五年規(guī)劃”、文化產(chǎn)業(yè)發(fā)展規(guī)劃等。具體項目方面,如自2019年起,國家將分10年,累計劃撥3億元??顬椴歼_(dá)拉宮做貝葉經(jīng)及古籍文獻(xiàn)的保護(hù)工作,在“可預(yù)防性保護(hù)、搶救性保護(hù)修復(fù)、數(shù)字化保護(hù)、展示利用”4項工作中,數(shù)字化保護(hù)是重中之重。隨著編目、錄入、存儲及深加工工作的展開,相關(guān)數(shù)字出版產(chǎn)品將陸續(xù)面世。國外,以美國的藏傳佛教資源中心TBRC(Tibetan Buddhist Resource Center)為例,收藏了12萬余函藏文珍本和孤本文獻(xiàn)[1],每一頁已數(shù)字化并建立了共享數(shù)據(jù)庫,被稱為“世界上最大的藏文數(shù)字圖書館”,每年有12萬人次下載文本,并被哈佛大學(xué)圖書館收入其數(shù)據(jù)庫,(苗煒2014)由此亦可見,藏文古籍?dāng)?shù)字文獻(xiàn)在國際范圍內(nèi)也具有較高的關(guān)注度和需求度。
(二) 藏文信息技術(shù)處理的相對優(yōu)勢為藏文古籍?dāng)?shù)字化提供了技術(shù)保障
信息處理技術(shù)是每一種語言文字古籍?dāng)?shù)字化的最基本要素。在國內(nèi)各少數(shù)民族文字中,藏文信息處理技術(shù)具有以下三個方面的優(yōu)勢: 其一,藏文是我國少數(shù)民族文字中第一個通過國際編碼(UNICODE)的語言文字,這為數(shù)字藏文內(nèi)容的可流通性提供了保障;其二,藏文輸入輸出在WINDOWS、iOS和ANDROID等全球三大操作系統(tǒng)中均已得到系統(tǒng)級別的實現(xiàn),為各類應(yīng)用軟件處理藏文內(nèi)容奠定了基礎(chǔ);其三,涉及人工智能領(lǐng)域的一些基礎(chǔ)技術(shù)及應(yīng)用有了顯著的進(jìn)步,如藏語文自然語言處理研究、藏文文字及語音識別等。在藏文互聯(lián)網(wǎng)內(nèi)容檢索領(lǐng)域,還出現(xiàn)了諸如“云藏”這樣的搜索引擎,使得藏文大數(shù)據(jù)研究及應(yīng)用成為可能,為藏文古籍?dāng)?shù)字化的深層次加工提供了技術(shù)保障。再如2016年西藏大學(xué)開發(fā)的“藏文圖書期刊數(shù)據(jù)庫及資源管理及檢索平臺”,就研發(fā)完成了集藏文文獻(xiàn)數(shù)字化加工、管理、發(fā)布、統(tǒng)計、多文種全文檢索等多功能為一體的數(shù)字平臺管理系統(tǒng)。(趙越2017)
不僅如此,基于西藏大學(xué)研發(fā)平臺的技術(shù)基礎(chǔ),西藏大學(xué)、西藏自治區(qū)藏醫(yī)院等單位已從幾年前開始,與技術(shù)公司合作,把其所藏存的藏醫(yī)藥文獻(xiàn)進(jìn)行數(shù)字化加工,做藏醫(yī)藥“知識圖譜”,為科學(xué)研究工作提供多方位的服務(wù)。比如天文歷算部分的內(nèi)容,通過在計算機(jī)中輸入運(yùn)算規(guī)則,聯(lián)合專家進(jìn)行天文歷法的計算,在比照測試中,它已查出某單位所制一套大型“萬年歷”(全套300余本,未正式出版)中的幾百處錯誤。此類加工的最終目的是實現(xiàn)藏醫(yī)藥的深度分析,并通過海量數(shù)據(jù)的知識挖掘,推送最高效的科研文獻(xiàn)信息。同時,基于上述工作,我國藏醫(yī)藏藥的基于內(nèi)容級分析的基礎(chǔ)情報基本在2020年制作完成,其意義十分重大。[2]此類對文獻(xiàn)的數(shù)字化加工,實現(xiàn)了真正意義上的超越于文本的“知識服務(wù)”。
(三) 藏文古籍?dāng)?shù)字化的研究及應(yīng)用具有良好的國際學(xué)術(shù)環(huán)境
藏學(xué)作為顯學(xué)受到世界性的關(guān)注,在數(shù)十個國家中建有藏學(xué)研究機(jī)構(gòu),海外對藏學(xué)數(shù)字文獻(xiàn)的搜集、對文本數(shù)字化的加工處理等工作也取得了不小的成績,使得藏文文獻(xiàn)研究的國際間交流具有廣泛的環(huán)境基礎(chǔ)。
綜上,藏文古籍文獻(xiàn)豐富的藏存量、藏文信息技術(shù)的發(fā)展水平及國際學(xué)術(shù)交流環(huán)境,為藏文古籍?dāng)?shù)字化的出版應(yīng)用提供了良好的保障。
三、 《西番譯語》的版本價值及在線辭書可開發(fā)的功能
據(jù)統(tǒng)計,我國古籍藏量約5000萬部,其中20萬種50萬個版本值得全部數(shù)字化,然而由于資金及缺乏國家統(tǒng)一標(biāo)準(zhǔn)等原因,目前已數(shù)字化的體量不足一半,而書的老化及藏存安全問題,令古籍?dāng)?shù)字化具有較強(qiáng)的緊迫性。(張賀2016)由此,受客觀條件所限,數(shù)字化古籍需要有優(yōu)先級,而優(yōu)先級的數(shù)字化加工對象應(yīng)首選價值較高的古籍版本。
(一) 《西番譯語》作為民漢雙語注音類辭書,具有很高的版本價值
1. 權(quán)威性——明清官方語料文獻(xiàn)?!段鞣g語》是明清兩代朝廷編寫的漢藏對照詞典,為朝廷公文翻譯及譯員培養(yǎng)之需而作,由官方在語言調(diào)查的基礎(chǔ)上,篩選出公文常用詞、日常交流常用詞、具有民族地區(qū)特點(diǎn)的特殊詞等,多數(shù)為高頻詞,以統(tǒng)一的漢語單詞作為源語,收集不同地區(qū)方言填注藏語單詞,并用漢文標(biāo)注藏語發(fā)音,是兩朝官方使用的語料工具書,具有很高的權(quán)威性。
2. 典范性——?dú)J定譯語范例。古代民族語文與漢語的雙語注音類辭書,以明朝洪武本《華夷譯語》為典范,清代傳習(xí)并完善了明朝這一審音傳統(tǒng),繼續(xù)對各類民文及外文譯語進(jìn)行編寫與修訂。又遵乾隆諭旨,以《西番譯語》為體例,勘校及編寫其他譯書:“如海外諸夷,并苗疆等處……照西番體例,將字音與字義,用漢文注于本字之下,繕寫進(jìn)呈,交館勘校,以昭同文圣治?!盵3]“既有成編,宜廣為搜輯,加之核正,悉準(zhǔn)西番書例,分門別類,匯為全書?!保ㄈ涡〔?009)即編寫的譯書以及四譯館所存各類譯語,均須以《西番譯語》為范例,可見其對清代官修譯語版本所起的重大作用。它不僅在漢藏對譯辭書編纂史上,同時也在民漢雙語對譯辭書編纂史上具有重要地位。
3. 獨(dú)特性——從語料的角度,為多種學(xué)科提供珍貴的研究素材。明代《西番譯語》各本中,收錄詞條最多者為942條。(聶鴻音,孫伯君2010)2,7故宮所藏清抄本《西番譯語》,收詞2103條。(施向東2019)3本文所用底本為國家圖書館的9種曬藍(lán)本,清乾隆年間四譯館編寫,以義聚類,分20門740個單詞[也有學(xué)者提出此版本為明代刻本之誤斷(任小波2009)],是諸多譯語中門類完善、語料最豐富的品種之一。這些內(nèi)容對明清歷史、兩朝漢語、藏語的語言史、方言及兩種語言的比較研究,雙語辭書研究、都具有重要的文獻(xiàn)價值。
2011年,國家圖書館館藏的《西番譯語》曬藍(lán)本,入選我國第一次文化產(chǎn)業(yè)專項規(guī)劃“文化產(chǎn)業(yè)振興規(guī)劃·中華字庫”工程,也體現(xiàn)出《西番譯語》在少數(shù)民族古籍文獻(xiàn),乃至浩繁的中國古籍文獻(xiàn)中的重要性。因此,無論是從版本還是學(xué)術(shù)價值的角度,選擇《西番譯語》作為數(shù)字深加工的對象,具有充足的合理性。
(二) 《西番譯語》兼具古籍與辭書的雙重性質(zhì),從數(shù)字化應(yīng)用層面具有極大的開發(fā)潛力
對《西番譯語》的數(shù)字化,即從根本上解決了為了保護(hù)版本而“重藏輕用”的現(xiàn)象,同時也在檢索、動態(tài)編寫、音頻資料補(bǔ)充、跨庫鏈接等多方面發(fā)揮數(shù)字辭書支持學(xué)術(shù)研究的功能。
在古籍分類上,“譯語”列“小學(xué)”之末[4]。作為語文類辭書,《西番譯語》以天文、地理、時令、人物等20門劃分類別,以對譯加注音的形式做漢藏雙語釋義,單本300余頁,一套合計達(dá)數(shù)千頁之多,不設(shè)索引,故而查找十分不便。而辭書的數(shù)字化,是適應(yīng)用戶閱讀方式變革的轉(zhuǎn)換,可以從詞條釋義的單一功能,轉(zhuǎn)向智能化的知識服務(wù)。
1. 檢索便捷高效
高效率檢索是數(shù)字文獻(xiàn)具有的一般功能。本文所用國家圖書館版《西番譯語》,是《西番譯語》的“雜字”部分,體例上,每本詞典的正文前,都有約200字的序言介紹該方言區(qū)的行政歸屬、長官吏員等重要的歷史信息。對此,在線辭書可通過全文檢索與原版圖像結(jié)合的方式,提供模糊查詢、雙語雙向查詢等強(qiáng)大的檢索功能。
2. 開放性能,可實現(xiàn)不同版本的堪比
明清《西番譯語》的版本及藏存現(xiàn)狀復(fù)雜,除國內(nèi)故宮館藏等外,異常珍貴的傳本多流落于海外,如德國國家圖書館、法國國家圖書館、日本東洋文庫所藏版本等,且重要傳本目前尚未系統(tǒng)整理,(任小波2009)在線辭書的開放性能,可以允許資源所有者參與編寫,擴(kuò)充資源庫,以此吸收愿意分享的流散本古籍的內(nèi)容,包括《西番譯語》中除《西番館雜字》外的《西番館來文》部分。在程序中預(yù)留相應(yīng)接口,使愿意分享的用戶在程序上自行上傳,匯集盡可能多的版本,建立不同版本間的關(guān)聯(lián),實現(xiàn)多版本的堪比,進(jìn)而為多學(xué)科研究提供豐富的原始資料。并基于計算機(jī)計算、統(tǒng)計等功能提供更為強(qiáng)大的智能知識服務(wù)。
3. 音頻材料,以增添古籍的語料庫素材
在線詞典超越紙媒的優(yōu)勢之一,是可以嵌入相關(guān)的視頻、音頻、圖像等多媒體資料。以音頻為例,通過對所檢索的詞條、例句等進(jìn)行朗讀或相關(guān)聲音采集的辦法,幫助讀者建立立體認(rèn)知?!段鞣g語》是有漢語注音的藏漢雙語詞典,本文所述版本,記載了明清兩代四川藏區(qū)9種藏語方言(其他版本方言種類數(shù)量略有差異)。簡言之,它本身就是一套學(xué)習(xí)語音的工具書,在研究明清時期藏漢兩種語言通語及方言中具有重要的價值。特別是該文獻(xiàn)中有不少藏語是非規(guī)范書寫,或者漢文注音與藏文拼寫的讀音完全不符,如“(冬)”被注為“查跨”;“(星)”被注為“墨治”[5],等等。學(xué)界尚不能對此釋疑,只是“估計”在川西北地區(qū)可能流行三種文字使用方式: 普通藏文、訓(xùn)讀、借用(用藏文書寫另外民族的語言,也讀以另外的民族語言),“這三種情況有時會交織在一起,為研究者深入理解當(dāng)?shù)氐恼Z言造成困難”(聶鴻音,孫伯君2010)2,7。故而,音頻材料的應(yīng)用,即將《西番譯語》所涉700余詞匯在當(dāng)代各方言區(qū)的藏語發(fā)音分別進(jìn)行采集、歸類、關(guān)聯(lián),將發(fā)音與文字注音形象化地關(guān)聯(lián)比對,無疑會為解開某些學(xué)術(shù)謎題提供重要研究資料,以當(dāng)代語音材料為古籍補(bǔ)充動態(tài)對照素材,將對該文獻(xiàn)增添跨時代的學(xué)術(shù)價值。
4. 與其他數(shù)據(jù)庫的跨庫鏈接
《西番譯語》只是眾多漢藏古籍辭書資料庫中的一種,它與其他資源庫,比如敦煌漢藏對譯文獻(xiàn)或其他相關(guān)文獻(xiàn),在知識層面上會有不同程度的關(guān)聯(lián)。因此,與其他開放型數(shù)據(jù)庫建立跨庫鏈接,將有助于建立多維立體的知識體系。
此外,字詞頻統(tǒng)計、自動卡片生成、繁簡體轉(zhuǎn)換等其他輔助功能,也將支持學(xué)術(shù)研究。
綜上所述,通過建立《西番譯語》數(shù)據(jù)庫并將其制作成在線辭書,將對古籍保護(hù)及其內(nèi)容的二次利用等方面具有積極意義。
四、 《西番譯語》在線辭書的文本處理原則
其一,漢字異形字、通假字、繁體字,均改為通用簡體漢字。
其二,藏文拼寫的問題及處理原則: 《西番譯語》的編寫年代是明清兩代,歷經(jīng)幾百年的語言發(fā)展,文獻(xiàn)所載的一些藏文,其拼寫或所標(biāo)注發(fā)音與當(dāng)代藏語或有差異,加之前文所述的非規(guī)范書寫的“學(xué)術(shù)難題”等,文獻(xiàn)中“不規(guī)范”或已無法辨析縮寫規(guī)則的書寫,如“”(譯語: 圖報,注音: 斗巴)[6]等,將保留原貌。
其三,線裝書造成個別掃描本出現(xiàn)藏文字符的亡佚現(xiàn)象,在在線詞典中,亡佚部分字母用“■”替代。
其四,曬藍(lán)本底色不勻造成的漢字或藏文無法辨識的單字,均用“■”替代。
其五,因書寫問題,藏文中有不少如“”“”,“”“”,“”“”“”,“”“”,“”“”難以區(qū)分的現(xiàn)象,此類問題,均以在前括號中列出疑似字或元音的方式標(biāo)注。
五、 基于互聯(lián)網(wǎng)的《西番譯語》在線詞典設(shè)計構(gòu)想
(一) 目標(biāo)用戶
根據(jù)文獻(xiàn)內(nèi)容及規(guī)模分析預(yù)判,《西番譯語》并不具備成為漢藏兩個語言群體日常工具書的可能,其潛在的使用者應(yīng)該集中在漢藏語言學(xué)及歷史學(xué)研究群體中。盡管目前已有學(xué)界專家研究并出版了部分版本的校錄及匯編書籍,作為古籍文獻(xiàn),原始內(nèi)容的數(shù)字化呈現(xiàn)應(yīng)該是該領(lǐng)域研究者們的共同期待?!段鞣g語》數(shù)字內(nèi)容的目標(biāo)用戶群體的特征提示我們設(shè)計系統(tǒng)應(yīng)該關(guān)注的幾個重要原則: 內(nèi)容的完備性、交互的簡潔性和平臺的開放性。對于特定領(lǐng)域的科研工作者,完備性是數(shù)字內(nèi)容服務(wù)的先決條件,簡潔性是人機(jī)交互環(huán)節(jié)的必然選擇,而開放性則是平臺內(nèi)容集聚的客觀要求。
(二) 用戶場景
作為一個特殊歷史時期有限詞匯的漢藏對意對音工具書,對現(xiàn)代社會生活中的群體不足以產(chǎn)生日常應(yīng)用的引力,因此數(shù)字化的《西番譯語》除了電子書這種常見的形態(tài)外,可檢索的電子詞典在移動端的使用前景是不明朗的。學(xué)者群體在其科研工作中更多地還是會選擇基于PC的在線查詢模式。因此,我們確立了一種基于瀏覽器的互聯(lián)網(wǎng)在線工具書系統(tǒng)模型進(jìn)行設(shè)計及DEMO研發(fā)工作。
(三) 功能概述
《西番譯語》多方言在線詞典以漢文和標(biāo)準(zhǔn)藏文作為檢索關(guān)鍵詞,用戶輸入查詢目標(biāo)詞匯,選擇查詢目標(biāo)方言,服務(wù)器端返回結(jié)果并通過瀏覽器進(jìn)行呈現(xiàn)。除了這種常規(guī)的定向方言查詢功能,系統(tǒng)還應(yīng)該提供一對多的查詢及反饋機(jī)制,此間的多目標(biāo)可以是1至9種方言(上限9種僅僅是基于本文涉及的9種藏語方言)的任意組合。由于古籍的最大價值在于漢文轉(zhuǎn)寫的藏語方言語音部分,因此除了一般在線詞典檢索的文字結(jié)果輸出外,系統(tǒng)還應(yīng)支持輸出目標(biāo)詞匯的古籍掃描切片和對應(yīng)的方言讀音輸出。
《西番譯語》的不同版本散落在世界各地,本文涉獵的只是國內(nèi)館藏的一部分。從工具系統(tǒng)的體系性和完備性角度考慮,多方言在線詞典應(yīng)該具備較好的開放性,即開放地吸納留存各地的不同方言即不同歷史版本內(nèi)容資源,從而使這個平臺不僅能夠提供信息服務(wù),更能通過UGC(用戶生成內(nèi)容)和互聯(lián)網(wǎng)集聚的模式不斷擴(kuò)大內(nèi)容維度,增加資源體量,最終為從事領(lǐng)域研究的群體提供專業(yè)的服務(wù)。
(四) 功能細(xì)節(jié)
1. 查找單詞
單詞查詢是《西番譯語》在線詞典的核心功能,用戶可以輸入規(guī)范化的漢文、英文或藏文詞條,并選擇不同方言版本的《西番譯語》典籍進(jìn)行查詢。系統(tǒng)將顯示基于該典籍的方言藏文及漢文音譯書寫,同時提供該詞條對應(yīng)的典籍掃描圖片及方言發(fā)音音頻。
2. 新增詞條
《西番譯語》尚有散落傳本未能歸集,利用互聯(lián)網(wǎng)的開放性進(jìn)行數(shù)據(jù)擴(kuò)展對《西番譯語》的學(xué)術(shù)研究具有重大作用。新增詞條即是滿足這一需求的功能部署,用戶可以在這里錄入典籍新傳本(不同于系統(tǒng)已有的傳本)具體詞條的漢文、藏文和漢文音注,同時上傳詞條對應(yīng)的掃描圖片及藏語方言發(fā)音音頻,以期能夠逐步建成《西番譯語》各傳本的完整數(shù)據(jù)庫。
3. 歷史記錄
功能是各類在線詞典的基本配置,用于回溯特定用戶的查詢軌跡并快速定位目標(biāo)詞條及其對應(yīng)的數(shù)據(jù)內(nèi)容,是詞典系統(tǒng)提高查詢效率,增加用戶體驗的一個常用方法。
實事求是地說,本文所列《西番譯語》的上述功能,只是在線詞典最基本的組成部分,要達(dá)到真正完備成熟尚有許多方面可以提升。比如在查詢部分提供不同版本典籍對照展現(xiàn),又比如在新增單詞部分提供數(shù)據(jù)上傳批量處理功能等,諸如此類的工作,需要隨著用戶行為、用戶體驗和需求反饋不斷進(jìn)行改進(jìn)和完善。
(五) 數(shù)據(jù)加工
在線詞典的數(shù)據(jù)形態(tài)包括了文字、圖片和聲音。文字內(nèi)容部分可以借助圖書出版流程中基礎(chǔ)數(shù)據(jù)錄入環(huán)節(jié),確立一定的格式規(guī)范然后進(jìn)行批量的數(shù)據(jù)庫導(dǎo)入。掃描圖片的切片及不同方言音頻采集是本項目數(shù)據(jù)加工的重點(diǎn),也是難點(diǎn)所在,尤其是音頻采集部分?!段鞣g語》涉及740個詞匯的9種發(fā)音,將產(chǎn)生將近8000個獨(dú)立的音頻素材,加之方言分布的地域差異,無疑對采集工作提出了不小的挑戰(zhàn)。語音素材整理的重點(diǎn)是對每一個詞的不同方言語音采集樣本進(jìn)行審定。審定的難點(diǎn)主要在于古今方言語音變化帶來的挑戰(zhàn),當(dāng)下的語音樣本有可能質(zhì)疑古籍漢字轉(zhuǎn)寫藏語方言的可靠性,如何保障采集語音樣本的準(zhǔn)確性或許還會成為一個專項研究的問題。
(六) 庫表結(jié)構(gòu)
為了更具針對性,本部分主要討論在線詞典數(shù)據(jù)庫詞典內(nèi)容的庫表設(shè)計,普適的用戶及歷史記錄數(shù)據(jù)庫庫表設(shè)計不再進(jìn)行贅述。我們注意到詞典數(shù)據(jù)及其關(guān)系的兩個特性: 其一是每本古籍的詞條數(shù)量是固定的,即740個;其二是每本古籍中的漢文詞條在不同方言版本中是一致的?;跐h文詞條的一致性與唯一性前提,我們將漢文及對應(yīng)標(biāo)準(zhǔn)藏文作為多方言查詢的關(guān)鍵詞進(jìn)行數(shù)據(jù)組織。在數(shù)量固定和詞條一致性前提下,數(shù)據(jù)庫設(shè)計中通過設(shè)定ID關(guān)聯(lián)不同版本的古籍詞條便成為可能。
考慮到數(shù)據(jù)庫查詢的效率及未來《西番譯語》其他版本詞條數(shù)據(jù)擴(kuò)展的便捷性,我們設(shè)計了兩個庫表結(jié)構(gòu): 第一個表結(jié)構(gòu)用于建立漢文詞條、標(biāo)準(zhǔn)藏文及ID的關(guān)聯(lián);第二個表結(jié)構(gòu)面向9個版本的詞條數(shù)據(jù),9個版本的詞條數(shù)據(jù)將分別存儲在9個同一結(jié)構(gòu)的不同表格中。其中的ID和第一個漢藏詞條表結(jié)構(gòu)ID字段一致對應(yīng)。數(shù)據(jù)查詢的邏輯是: 根據(jù)用戶提交的漢文詞條或者標(biāo)準(zhǔn)藏文詞條,從第一個表結(jié)構(gòu)中定位ID,再依據(jù)這個ID和目標(biāo)方言信息,從第二個表結(jié)構(gòu)中提取關(guān)聯(lián)的古籍?dāng)?shù)據(jù)。
(七) 技術(shù)架構(gòu)
實現(xiàn)一個常規(guī)的互聯(lián)網(wǎng)詞典查詢功能,可以選擇的技術(shù)路線是非常豐富的。比如,從平臺部署、開發(fā)難度和運(yùn)行維護(hù)成本等角度考慮,APACHE作為WEB服務(wù)器,MYSQL作為數(shù)據(jù)庫,PHP作為前端開發(fā),就可以是一個非盈利性在線信息服務(wù)常用的平臺方案。然而經(jīng)過認(rèn)真分析功能需求復(fù)雜度、技術(shù)實現(xiàn)成本和實現(xiàn)效果,可以選擇DJANGO+MYSQL+PYTHON作為《西番譯語》在線詞典系統(tǒng)的技術(shù)框架。除了成本方面的因素,主要基于以下幾點(diǎn)考慮: 其一, MYSQL是開源數(shù)據(jù)庫系統(tǒng),其運(yùn)行速度快、體積小、使用成本低、可移植性強(qiáng)以及非凡的可擴(kuò)展性等諸多特性是開發(fā)在線詞典小型系統(tǒng)的絕佳選擇;其二,相對其他編程語言,PYTHON在數(shù)據(jù)處理領(lǐng)域具有壓倒性的優(yōu)勢和便利性,尤其是在互聯(lián)網(wǎng)信息挖掘與提取,諸如內(nèi)容爬取和分析等方面,對《西番譯語》詞典數(shù)據(jù)庫基于互聯(lián)網(wǎng)內(nèi)容資源的擴(kuò)展將起到事半功倍的作用;其三,DJANGO 是面向PYTHON開源免費(fèi)的高端WEB框架,這個框架解決WEB開發(fā)中的大部分繁瑣環(huán)節(jié),倡導(dǎo)快速開發(fā)、簡潔實用設(shè)計的理念。
六、 結(jié)論
綜上,藏文古籍自身具備的藏量、技術(shù)、學(xué)術(shù)研究環(huán)境、國家政策支持等良好客觀條件,為其實現(xiàn)不同程度及規(guī)模的數(shù)字出版工作提供了強(qiáng)有力的保障。然而,規(guī)模較小、應(yīng)用范圍相對狹窄的古籍,無論從政府性立項的優(yōu)先性排序,抑或商業(yè)性的選擇,都很難進(jìn)入數(shù)字化范疇。而其中不少古籍,以其內(nèi)容的稀缺性或版本的珍貴性,均具有重大的開發(fā)價值,如若埋沒,至為遺憾。
本文以明清古籍藏漢審音辭書《西番譯語》為例,探討了小眾型藏文古籍在線出版應(yīng)用的可能性,以期能夠在更廣泛層面發(fā)揮其學(xué)術(shù)應(yīng)用價值,更好地服務(wù)于學(xué)術(shù)研究及古籍保護(hù)工作。
附 注
[1]創(chuàng)建人金·史密斯先生生前將該中心全部紙質(zhì)文獻(xiàn)12000函捐贈給了西南民族大學(xué)民族文獻(xiàn)中心,后西南民族大學(xué)成立“金·史密斯藏學(xué)文獻(xiàn)館”,并與TBRC聯(lián)合建立中國民族文獻(xiàn)數(shù)據(jù)庫及網(wǎng)絡(luò)共享平臺。
[2]根據(jù)筆者2019年對聯(lián)圖科技公司做的調(diào)研材料。
[3]《清實錄》一三,卷三百二十四,“乾隆十三年九月上”,轉(zhuǎn)引自聶鴻音、孫伯君(2010)20。
[4]錢大昕(清). 補(bǔ)元史藝文志, 轉(zhuǎn)引自任小波(2009)128。
[5]《西番譯語》(國圖藏本)第七冊,栗蘇譯語,天文門。
[6]《西番譯語》(國圖藏本)第八冊,打箭爐譯語,人事門。
參考文獻(xiàn)
1. 馬創(chuàng)新,曲維光,陳小荷.中文古籍?dāng)?shù)字化的開發(fā)層次和發(fā)展趨勢.圖書館,2014(2).
2. 苗煒編.最漫長的博士.新知,2014(6).
3. 聶鴻音,孫伯君.《西番譯語》校錄及匯編.北京: 社會科學(xué)文獻(xiàn)出版社,2010.
4. 任小波.明清《西番譯語》傳本尋蹤.中國藏學(xué),2009(3): 130,132.
5. 施向東.清朝本《西番譯語》藏漢對音譯例研究.民族語文,2019(4).
6. 王海磐.藏文文獻(xiàn)數(shù)據(jù)中心啟動藏文古籍文獻(xiàn)數(shù)據(jù)化手機(jī)整理.光明日報,20170822.
7. 張賀.與時間賽跑,古籍?dāng)?shù)字化如何加速.人民日報,20160623.
8. 趙越.《西藏圖書期刊數(shù)據(jù)庫及資源管理與檢索平臺》獲獎,西藏商報,20170610.
(民族出版社 北京 100013)
(責(zé)任編輯 劉 博)