劉曉建 季擁政
(青海大學(xué)圖書館,西寧 810016)
藏醫(yī)藥古籍文獻(xiàn)是藏醫(yī)學(xué)術(shù)的載體,包括藏藥學(xué)、診斷、治療以及藏醫(yī)心理學(xué)和佛教中一些涵蓋醫(yī)學(xué)內(nèi)容的部分書籍、古籍。據(jù)初步統(tǒng)計(jì),藏醫(yī)藥古籍文獻(xiàn)數(shù)量不少于5 000部(函),具有歷史悠久、涉及地域廣、存儲(chǔ)地分散、數(shù)量眾多、載體多樣、版本眾多等特點(diǎn)。目前國內(nèi)先后搶救挖掘藏醫(yī)藥古籍文獻(xiàn)2 000多部(函),整理出版800多部,完成《藏醫(yī)藥經(jīng)典文獻(xiàn)集成叢書》(100部)、《藏醫(yī)藥大典》(60卷)、《四部醫(yī)典唐卡大詳解》(18卷)等重大古籍文獻(xiàn)整理出版工程等[1],在藏醫(yī)藥的傳承與保護(hù)中發(fā)揮了積極作用。
由于歷史和社會(huì)原因,以及印刷條件的落后,幸存下來的古籍文獻(xiàn)數(shù)量本就不多,且受時(shí)間流逝、風(fēng)雨侵蝕和蟲蛀等因素的影響,現(xiàn)存的古籍逐漸遭到毀壞。如果不立刻采取有力措施進(jìn)行搶救性搜集、整理和出版,用不了多少年許多文獻(xiàn)將會(huì)絕跡,造成永久遺憾[2]。只有通過現(xiàn)代信息技術(shù)進(jìn)行數(shù)字化整理,才能使藏醫(yī)藥古籍長(zhǎng)期保存和永久傳承。實(shí)現(xiàn)藏醫(yī)藥古籍文獻(xiàn)數(shù)字化,首要解決的問題就是標(biāo)準(zhǔn)規(guī)范。藏醫(yī)藥古籍文獻(xiàn)歷史久遠(yuǎn)、載體多樣、分布廣泛、卷帙浩繁,致使藏醫(yī)藥古籍文獻(xiàn)數(shù)字化的標(biāo)準(zhǔn)規(guī)范工作顯得尤其復(fù)雜和非常重要,而且這項(xiàng)工作迫在眉睫、刻不容緩。
我國藏醫(yī)藥古籍文獻(xiàn)數(shù)字化建設(shè)起步比較晚,雖然取得了一些成果,相繼建立了不同類型的藏醫(yī)藥古籍文獻(xiàn)數(shù)據(jù)庫,但隨著藏醫(yī)藥古籍文獻(xiàn)數(shù)字化建設(shè)的深入,從系統(tǒng)性、專業(yè)性、規(guī)范性、科學(xué)性來看,數(shù)字化標(biāo)準(zhǔn)的問題日益顯現(xiàn),如缺乏統(tǒng)一技術(shù)標(biāo)準(zhǔn),共建共享難以實(shí)現(xiàn);各類版本與書目分類不一致,缺乏存儲(chǔ)格式標(biāo)準(zhǔn)等。2007年,國務(wù)院辦公廳關(guān)于《進(jìn)一步加強(qiáng)古籍保護(hù)工作的意見》中明確指出“制訂古籍?dāng)?shù)字化標(biāo)準(zhǔn),規(guī)范古籍?dāng)?shù)字化工作,建立古籍?dāng)?shù)字資源庫”[3]。因此,構(gòu)建藏醫(yī)藥古籍文獻(xiàn)數(shù)字化建設(shè)的標(biāo)準(zhǔn)體系勢(shì)在必行。
荷蘭國家圖書館保存部主任Weingarde曾表示,數(shù)字化產(chǎn)品能否長(zhǎng)期保存和方便利用,需要在數(shù)字化開始時(shí)就考慮選擇什么樣的文件格式、制作標(biāo)準(zhǔn)和字型等[4]。藏醫(yī)藥古籍文獻(xiàn)數(shù)字化是以利用和保護(hù)藏醫(yī)藥古籍為目的,建立相關(guān)的書目數(shù)據(jù)庫、文摘數(shù)據(jù)庫和全文數(shù)據(jù)庫,用以揭示藏醫(yī)藥古籍文獻(xiàn)信息資源,使其得以長(zhǎng)期保存和有效保護(hù)。目前,我國藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)現(xiàn)存問題如下。
技術(shù)標(biāo)準(zhǔn)各異是當(dāng)前藏醫(yī)藥古籍文獻(xiàn)數(shù)字化過程中最突出的問題。技術(shù)標(biāo)準(zhǔn)是實(shí)現(xiàn)高品質(zhì)藏醫(yī)藥古籍?dāng)?shù)字資源庫的重要保障,更是藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系的核心,其中包括古籍版本類型、元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)庫標(biāo)準(zhǔn)、檢索標(biāo)準(zhǔn)等。目前我國古籍?dāng)?shù)字化相關(guān)的標(biāo)準(zhǔn)主要有國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)和文化行業(yè)標(biāo)準(zhǔn),其中國家標(biāo)準(zhǔn)包括《古籍著錄規(guī)則》(GB/T 3792.7—2009)、《縮微攝影技術(shù)在16mm卷片上拍攝古籍的規(guī)定》(GB/T 7517—2004)、《縮微攝影技術(shù)在35mm卷片上拍攝古籍的規(guī)定》(GB/T 7518—2005);行業(yè)標(biāo)準(zhǔn)包括《古籍元數(shù)據(jù)規(guī)范》(WH/T 66—2014)、《數(shù)字資源長(zhǎng)期保存元數(shù)據(jù)規(guī)范》(WH/Z1-2012)、《管理元數(shù)據(jù)規(guī)范》(WH/T 52-2012);文化行業(yè)標(biāo)準(zhǔn)包括《文本數(shù)據(jù)加工規(guī)范》(WH/T 45-2012)、《圖像數(shù)據(jù)加工規(guī)范》(WH/T 46-2012)等。但目前西藏自治區(qū)以及青海、四川等省各自開展藏醫(yī)藥古籍文獻(xiàn)數(shù)字化建設(shè),并建立了各自不同類型的藏醫(yī)藥古籍文獻(xiàn)數(shù)據(jù)庫,這種狀況難免造成各地采用的藏醫(yī)藥古籍文獻(xiàn)數(shù)字化技術(shù)標(biāo)準(zhǔn)存在差異。
藏醫(yī)藥古籍文獻(xiàn)經(jīng)過數(shù)千年的流傳,同一本藏醫(yī)藥古籍文獻(xiàn)可能先后出現(xiàn)了不同的傳世本、漢譯本和校刊本,源于后期學(xué)者對(duì)藏醫(yī)藥古籍文獻(xiàn)多次翻譯、反復(fù)謄抄、修訂校刊、補(bǔ)充注釋等。藏醫(yī)學(xué)的主要醫(yī)典《四部醫(yī)典》(《居悉》),相傳為玉妥·云登貢布編著。但據(jù)《玉妥·云登貢布》記載,此醫(yī)典是白若雜納翻譯的作品,玉妥·云登貢布對(duì)它進(jìn)行了補(bǔ)充和注釋[5]。經(jīng)過歷史的傳承而產(chǎn)生多個(gè)版本,現(xiàn)在看到的幾種版本,已不是最初的版本。不同的版本不乏存在很多錯(cuò)漏、訛傳以及異文歧義的地方。藏醫(yī)藥古籍文獻(xiàn)大部分以寫本和木刻本居多,手寫或手抄的形式為主,版本包括稿本、手抄本、木刻本、刻本、孤本、善本、金寫本、銀寫本、鉛印本、朱砂本、碑刻、摩崖等。藏醫(yī)藥古籍文獻(xiàn)在不同歷史時(shí)期,經(jīng)過人工抄錄、刻印等,造成了不同程度的錯(cuò)誤,而且古藏文、藏文字存在同字不同義、同義不同字等現(xiàn)象。目前,還沒有藏醫(yī)藥古籍文獻(xiàn)版本選擇標(biāo)準(zhǔn),是藏醫(yī)藥古籍文獻(xiàn)數(shù)字化的一大障礙。
元數(shù)據(jù)是數(shù)據(jù)的數(shù)據(jù),用來組織、描述、發(fā)現(xiàn)、檢索、索引、集成、瀏覽、保存和管理信息資源。元數(shù)據(jù)標(biāo)準(zhǔn)為各種形態(tài)的數(shù)字化信息單元和資源集合提供規(guī)范、普遍的描述方法[6]。為了藏醫(yī)藥古籍文獻(xiàn)數(shù)字化的目標(biāo),必須設(shè)計(jì)和制定藏醫(yī)藥古籍文獻(xiàn)數(shù)字化的元數(shù)據(jù)標(biāo)準(zhǔn)。統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)缺乏,導(dǎo)致目前建成的藏醫(yī)藥古籍文獻(xiàn)數(shù)據(jù)庫相對(duì)獨(dú)立,數(shù)據(jù)格式不統(tǒng)一,數(shù)據(jù)值不規(guī)范,數(shù)據(jù)內(nèi)容和數(shù)據(jù)交換不一致,制約了藏醫(yī)藥古籍文獻(xiàn)資源的深度開發(fā)和交流共享,造成大量的重復(fù)性建設(shè),導(dǎo)致人力、物力和財(cái)力的嚴(yán)重浪費(fèi)。
藏醫(yī)藥古籍文獻(xiàn)完全是通過藏文記錄和描述的,后期只有少量的翻譯成為漢文以及英文和其他語言文字。隨著時(shí)間的演進(jìn),藏醫(yī)藥古籍文獻(xiàn)中還存在大量的藏醫(yī)藥術(shù)語、符號(hào)、藏文文字字符集等。同一種疾病或藥物名稱在不同時(shí)期或不同地域的讀法、寫法或解釋均存在差異。這種情況給后期的整理加工帶來很大的困難。
目前,藏醫(yī)藥古籍?dāng)?shù)字化存儲(chǔ)格式種類繁多,如WORD、HTML、PDF、JPG、MP3、RMVB等格式。由于缺乏統(tǒng)一規(guī)劃、協(xié)作和共享,就形成了不同的藏醫(yī)藥古籍?dāng)?shù)字化存儲(chǔ)格式。這些不同格式的數(shù)據(jù),只有專門的閱讀器才能進(jìn)行瀏覽、下載,而且各個(gè)閱讀器是獨(dú)立的,相互之間無法兼容。
《中國圖書館圖書分類法》(以下簡(jiǎn)稱《中圖法》)是國家級(jí)文獻(xiàn)分類標(biāo)準(zhǔn),但是,《中圖法》(第4版)的分類體系已不能滿足學(xué)科發(fā)展的需要,分類類目的設(shè)置與實(shí)際分編工作存在比較大的距離[7]。以藏、蒙、維、壯、苗、彝、傣等為代表的各少數(shù)民族醫(yī)藥科學(xué)研究不斷深入,實(shí)踐能力逐步提高,研究成果日益豐富,并得到國家認(rèn)可,也成為傳統(tǒng)醫(yī)藥的重要組成部分[8]?!吨袌D法》(第5版)的分類體系不能滿足民族醫(yī)藥學(xué)科分類要求。這種狀態(tài)致使藏醫(yī)藥學(xué)科體系不完善、學(xué)科分類不統(tǒng)一,缺乏標(biāo)準(zhǔn),直接影響藏醫(yī)藥文獻(xiàn),尤其是藏醫(yī)藥古籍文獻(xiàn)的收集、整理、開發(fā)和利用。
藏醫(yī)藥古籍文獻(xiàn)數(shù)字化的標(biāo)準(zhǔn)化建設(shè)立足藏醫(yī)藥古籍文獻(xiàn)自身的特點(diǎn)和規(guī)律,同時(shí),需要考慮藏醫(yī)藥古籍文獻(xiàn)的文字屬性。因此,構(gòu)建藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系應(yīng)具備相應(yīng)的原則。
建立藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系,首先要嚴(yán)格遵循國家古籍?dāng)?shù)字化相關(guān)標(biāo)準(zhǔn)以及行業(yè)標(biāo)準(zhǔn),了解和掌握藏醫(yī)藥古籍文獻(xiàn)數(shù)字化現(xiàn)狀。依據(jù)藏醫(yī)藥古籍文獻(xiàn)數(shù)字化的現(xiàn)實(shí)需求,構(gòu)建藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系的邏輯框架,保證藏醫(yī)藥古籍文獻(xiàn)數(shù)字化的標(biāo)準(zhǔn)體系規(guī)范、合理、科學(xué)、可行。數(shù)字圖書館標(biāo)準(zhǔn)與規(guī)范以及古籍?dāng)?shù)字化相關(guān)標(biāo)準(zhǔn),為藏醫(yī)藥古籍文獻(xiàn)數(shù)字化建設(shè)提供了理論基礎(chǔ),并有效保障藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系的實(shí)現(xiàn)。
藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系涉及多環(huán)節(jié)、多層面、多內(nèi)容的全方位的標(biāo)準(zhǔn)或規(guī)范,即構(gòu)成標(biāo)準(zhǔn)體系的各個(gè)標(biāo)準(zhǔn)并不是獨(dú)立的要素,而是相互聯(lián)系、相互作用、相互補(bǔ)充的[9]。例如,開發(fā)藏醫(yī)藥古籍文獻(xiàn)數(shù)據(jù)庫需要遵循各種標(biāo)準(zhǔn),不同的內(nèi)容、階段遵照不同的標(biāo)準(zhǔn),而且藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系中各標(biāo)準(zhǔn)之間是相互關(guān)聯(lián)、協(xié)調(diào)統(tǒng)一,形成一個(gè)有機(jī)組合的整體性藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系。
藏醫(yī)藥古籍文獻(xiàn)具有民族醫(yī)學(xué)的學(xué)科專業(yè)屬性,其最重要的特點(diǎn)是藏醫(yī)藥古籍內(nèi)容的原始性、地域性、歷史性、民族性、核驗(yàn)性和現(xiàn)實(shí)性。所以,對(duì)藏醫(yī)藥古籍文獻(xiàn)數(shù)字化要充分基于上述特征,系統(tǒng)分析藏醫(yī)藥古籍文獻(xiàn)數(shù)字化現(xiàn)行標(biāo)準(zhǔn)的科學(xué)性、適用性、現(xiàn)實(shí)性和可操作性,著重研究藏醫(yī)藥古籍文獻(xiàn)數(shù)字化的技術(shù)標(biāo)準(zhǔn)、管理標(biāo)準(zhǔn)、工作標(biāo)準(zhǔn)等。
在制定古籍?dāng)?shù)字化標(biāo)準(zhǔn)時(shí)要考慮到標(biāo)準(zhǔn)能否順利實(shí)施,而且標(biāo)準(zhǔn)不是一成不變的,它要隨著實(shí)施過程不斷地完善和發(fā)展[9]。隨著藏醫(yī)藥古籍文獻(xiàn)數(shù)字化體系標(biāo)準(zhǔn)的應(yīng)用和推廣,可以顯現(xiàn)出藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)的應(yīng)用情況、適用程度、需求結(jié)構(gòu)、運(yùn)行模式、科學(xué)規(guī)范和實(shí)際效果等,從而可以靈活調(diào)整和拓展藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)。因此,隨著大數(shù)據(jù)、人工智能、區(qū)塊鏈等新技術(shù)的不斷發(fā)展與應(yīng)用,藏醫(yī)藥古籍文獻(xiàn)數(shù)字化也要及時(shí)吸收和更新理論、技術(shù)、方法等,這樣,才能完善和拓展藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系,構(gòu)建具有現(xiàn)代理念和技術(shù)方法的藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系。
本文以現(xiàn)代信息技術(shù)和古籍文獻(xiàn)數(shù)字化的研究與實(shí)踐成果為基礎(chǔ),結(jié)合藏醫(yī)藥古籍文獻(xiàn)數(shù)字化過程中的相關(guān)性、特殊性、復(fù)雜性特征,制定以技術(shù)標(biāo)準(zhǔn)為核心、工作標(biāo)準(zhǔn)為手段、管理標(biāo)準(zhǔn)為保障的藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系[9](見圖1)。
3.1.1 管理標(biāo)準(zhǔn)
藏醫(yī)藥古籍文獻(xiàn)數(shù)字化是一項(xiàng)龐大、復(fù)雜的系統(tǒng)性工程,涉及各個(gè)方面的工作、相關(guān)責(zé)任主體和相關(guān)機(jī)構(gòu)等。要將涉及的各個(gè)環(huán)節(jié)有機(jī)地結(jié)合起來,使藏醫(yī)藥古籍文獻(xiàn)數(shù)字化的業(yè)務(wù)處理達(dá)到統(tǒng)一,保證藏醫(yī)藥古籍文獻(xiàn)數(shù)字化的有序、順利開展,就需要高效、規(guī)范、科學(xué)的管理準(zhǔn)則。管理標(biāo)準(zhǔn)是開展藏醫(yī)藥古籍文獻(xiàn)數(shù)字化建設(shè)的重要規(guī)則,也是藏醫(yī)藥古籍文獻(xiàn)數(shù)字化流程中實(shí)施技術(shù)標(biāo)準(zhǔn)的重要手段,藏醫(yī)藥古籍文獻(xiàn)數(shù)字化的管理標(biāo)準(zhǔn)包括選題與評(píng)估標(biāo)準(zhǔn)、藏醫(yī)藥古籍管理標(biāo)準(zhǔn)、數(shù)字化方案標(biāo)準(zhǔn)及標(biāo)準(zhǔn)化管理標(biāo)準(zhǔn)等。
圖1 藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系
3.1.2 技術(shù)標(biāo)準(zhǔn)
技術(shù)標(biāo)準(zhǔn)是開展數(shù)字化古籍作業(yè)的技術(shù)條件[10]。藏醫(yī)藥古籍文獻(xiàn)數(shù)字化包括信息轉(zhuǎn)換、信息承載和信息檢索,實(shí)現(xiàn)這種功能需要多種技術(shù)的支撐。技術(shù)標(biāo)準(zhǔn)是開展藏醫(yī)藥古籍?dāng)?shù)字化工作的技術(shù)條件,涵蓋工作對(duì)象、工作條件、工作方式等,包括藏醫(yī)藥古籍版本擇取標(biāo)準(zhǔn)、數(shù)據(jù)加工標(biāo)準(zhǔn)、設(shè)備標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)、文檔存儲(chǔ)標(biāo)準(zhǔn)、數(shù)據(jù)庫標(biāo)準(zhǔn)、檢索標(biāo)準(zhǔn)、軟件標(biāo)準(zhǔn)等。
3.1.3 工作標(biāo)準(zhǔn)
工作標(biāo)準(zhǔn)是建設(shè)高質(zhì)量藏醫(yī)藥古籍文獻(xiàn)數(shù)據(jù)庫、提高工作效率、實(shí)現(xiàn)各項(xiàng)技術(shù)標(biāo)準(zhǔn)的重要保障和手段。具體來講,工作標(biāo)準(zhǔn)就是項(xiàng)目建設(shè)機(jī)構(gòu)、工作人員的職責(zé),工作要求、考核辦法所作的規(guī)定,包括職責(zé)權(quán)利、工作程序、辦事細(xì)則、考核標(biāo)準(zhǔn)和相互關(guān)系準(zhǔn)則等。
藏醫(yī)藥古籍文獻(xiàn)數(shù)字化就是對(duì)不同載體類型的藏醫(yī)藥古籍文獻(xiàn)采取抄錄、復(fù)印、翻拍、掃描、謄寫等不同的“再造”手段[11]。為了保證藏醫(yī)藥古籍文獻(xiàn)數(shù)字化有序、合理、規(guī)范、科學(xué)地開展,需要建立藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系,指導(dǎo)和規(guī)范藏醫(yī)藥古籍文獻(xiàn)數(shù)字化工作。鑒于藏醫(yī)藥古籍文獻(xiàn)自身的特征及文字屬性,藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系應(yīng)包括版本擇取標(biāo)準(zhǔn)、藏文字處理標(biāo)準(zhǔn)、藏文字編碼標(biāo)準(zhǔn)、藏醫(yī)藥古籍分類標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)、存儲(chǔ)格式標(biāo)準(zhǔn)、長(zhǎng)期保存標(biāo)準(zhǔn)以及數(shù)據(jù)庫標(biāo)準(zhǔn)等。
3.2.1 版本擇取標(biāo)準(zhǔn)
由于藏醫(yī)藥古籍文獻(xiàn)版本眾多,不同版本的質(zhì)量存在差異,而版本優(yōu)劣影響藏醫(yī)藥古籍文獻(xiàn)數(shù)字化產(chǎn)品的質(zhì)量和水平。古籍版本擇取標(biāo)準(zhǔn)為數(shù)字化古籍的內(nèi)容質(zhì)量提供保障,包括版本類型標(biāo)準(zhǔn)和版本細(xì)節(jié)標(biāo)準(zhǔn)兩部分[12]。版本類型標(biāo)準(zhǔn)是對(duì)古籍?dāng)?shù)字化項(xiàng)目中涉及的底本和參照本的版本選擇方式和要求進(jìn)行規(guī)范,應(yīng)指明版本的來源、數(shù)量、質(zhì)量等性質(zhì),明確底本與參照本比對(duì)的具體模式,根據(jù)學(xué)界公認(rèn)的版本鑒別方式進(jìn)行善本和典籍的選擇,保證鑒定的準(zhǔn)確性以及所選底本版本信息的正確性[13]。版本細(xì)節(jié)標(biāo)準(zhǔn)規(guī)定了各類型古籍?dāng)?shù)據(jù)庫對(duì)于古籍版本內(nèi)容展現(xiàn)的細(xì)節(jié)程度,對(duì)于古籍的版刻工藝、裝幀、用紙、行款、字體、邊欄、墨色以及藏印、題跋等形態(tài)信息的展現(xiàn)必要性進(jìn)行規(guī)范,要力求避免數(shù)字化成果可能出現(xiàn)的衍文、脫文、殘闕等現(xiàn)象[13]。藏醫(yī)藥古籍文獻(xiàn)版本擇取標(biāo)準(zhǔn)確保選擇高質(zhì)量的藏醫(yī)藥古籍文獻(xiàn)版本,從而生產(chǎn)高質(zhì)量的藏醫(yī)藥古籍文獻(xiàn)數(shù)字化產(chǎn)品。
3.2.2 藏文文字處理標(biāo)準(zhǔn)
藏文字的特殊性使藏文字處理必須遵循相關(guān)的文字處理標(biāo)準(zhǔn)。首先,制訂藏醫(yī)藥古籍文獻(xiàn)藏文字符集標(biāo)準(zhǔn),應(yīng)盡可能多地收集藏醫(yī)藥古籍文獻(xiàn)中出現(xiàn)的所有古藏文字、藏文字,建立全面、系統(tǒng)的異體字、候選字參照,力求藏文字符集全面和準(zhǔn)確。其次,藏文字抓取標(biāo)準(zhǔn),應(yīng)針對(duì)藏文字符識(shí)別工具的選擇、識(shí)別字跡的候選字?jǐn)?shù)量以及藏文字的準(zhǔn)確度與容錯(cuò)度等相關(guān)參數(shù)作出規(guī)范。要求采用國際通用的Unicode編碼的藏文字體進(jìn)行錄入和編排。采用藏文視窗系統(tǒng)、藏文字處理軟件、藏文Internet技術(shù)等最新成果,進(jìn)行藏文字與專用名詞術(shù)語的信息處理[14],并提供漢文、拉丁文、英文、藏文對(duì)照形式。
3.2.3 藏文字編碼標(biāo)準(zhǔn)
加工、重組后的藏醫(yī)藥古籍文獻(xiàn)經(jīng)過掃描復(fù)制獲取數(shù)字信息后,還要進(jìn)一步編碼處理,才能供用戶檢索與使用。對(duì)于數(shù)字化藏文字處理標(biāo)準(zhǔn),可依據(jù)《信息技術(shù) 信息交換用藏文編碼字符集基本集》國家標(biāo)準(zhǔn)[15],作為文字處理的規(guī)范標(biāo)準(zhǔn)。該藏文字編碼和主要字體字符集,可為藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系構(gòu)建提供支撐。由于藏文字符特征相對(duì)簡(jiǎn)單,不同字符是根據(jù)形狀來區(qū)分的,因此本文推薦使用基于GIST全局特征的藏文字符識(shí)別方法。GIST特征是較好的全局特征之一,能快速描述文字在視覺維度上的結(jié)構(gòu)信息,描述子相對(duì)簡(jiǎn)單[16],能很好地表征藏文的結(jié)構(gòu)特征,是藏文字識(shí)別的有效途徑。
3.2.4 藏醫(yī)藥古籍分類標(biāo)準(zhǔn)
藏醫(yī)藥古籍文獻(xiàn)的挖掘、整理及數(shù)字化建設(shè)的持續(xù)發(fā)展,需對(duì)藏醫(yī)藥學(xué)文獻(xiàn)進(jìn)行細(xì)分。目前已有學(xué)者根據(jù)傳統(tǒng)的《晶珠本草》《四部醫(yī)典》等經(jīng)典理論著作,劃分出藏醫(yī)外科學(xué)、藏醫(yī)內(nèi)科學(xué)、藏醫(yī)兒科學(xué)、藏醫(yī)婦科學(xué)等18個(gè)分支學(xué)科,形成了獨(dú)具特色的藏醫(yī)藏藥體系[17]。隨著國家、政府對(duì)藏醫(yī)藥事業(yè)的重視和支持,藏醫(yī)藥科學(xué)研究的不斷深入,藏醫(yī)藥學(xué)的學(xué)科體系也在不斷豐富和擴(kuò)展,學(xué)科分類體系日益完善、科學(xué)和標(biāo)準(zhǔn)。結(jié)合《中圖法》(第5版)“R29中國少數(shù)民族醫(yī)學(xué)”類目(藏醫(yī)藥學(xué)為R291.4),并依據(jù)藏醫(yī)藥自身的發(fā)展特征及學(xué)科特點(diǎn),筆者將藏醫(yī)藥劃分為23個(gè)分支學(xué)科,形成藏醫(yī)藥學(xué)科分類表(見表1)。
3.2.5 元數(shù)據(jù)標(biāo)準(zhǔn)
資源加工標(biāo)準(zhǔn)分為數(shù)字化轉(zhuǎn)換與存儲(chǔ)標(biāo)準(zhǔn)和標(biāo)引著錄標(biāo)準(zhǔn),前者規(guī)定了數(shù)字化設(shè)備和參數(shù)設(shè)置以及數(shù)字資源的屬性,后者規(guī)定了元數(shù)據(jù)著錄規(guī)范和要求[18]。可通過對(duì)藏醫(yī)藥古籍?dāng)?shù)據(jù)的收集、加工、整理等流程,確定元數(shù)據(jù)標(biāo)準(zhǔn)。依據(jù)藏醫(yī)藥古籍文獻(xiàn)的自身特點(diǎn),藏醫(yī)藥古籍文獻(xiàn)的元數(shù)據(jù)由16個(gè)核心元素組成,包括資源形式(版本)、題名、摘要、主要責(zé)任者、其他責(zé)任者、翻譯責(zé)任者、載體形態(tài)、出版者、主題、日期、標(biāo)識(shí)符、來源、語種、關(guān)聯(lián)、時(shí)空范圍和收藏信息。
表1 藏醫(yī)藥學(xué)科分類
3.2.6 存儲(chǔ)格式標(biāo)準(zhǔn)
統(tǒng)一藏醫(yī)藥古籍文獻(xiàn)數(shù)字資源的存儲(chǔ)格式是當(dāng)前藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系構(gòu)建的重要目標(biāo)??蓪@取的藏醫(yī)藥古籍文獻(xiàn)按照類型、載體、版本等進(jìn)行整理,形成統(tǒng)一的數(shù)據(jù)存儲(chǔ)格式,并能直接用于數(shù)字化。根據(jù)藏醫(yī)藥古籍文獻(xiàn)的特點(diǎn),數(shù)據(jù)存儲(chǔ)格式有4種,即文本數(shù)據(jù)(描述性資料)采用WORD、PDF、EXCEL或純文本文件格式存儲(chǔ);圖像數(shù)據(jù)采用BMP、TIFF、JPEG、RAW、GIF、PNG等格式存儲(chǔ);音頻數(shù)據(jù)采用MP3、WAV、FLAC、APE、ALAC、WavPack、AAC、OggVorbis、Opus等格式存儲(chǔ);視頻數(shù)據(jù)采用RMVB、WMV、ASF、ASX、RM等格式存儲(chǔ)。數(shù)據(jù)格式不但要適合藏文字的存儲(chǔ)及使用,而且要兼顧古藏文字的兼容性,同時(shí)也要具備強(qiáng)大的加密功能,以保護(hù)藏醫(yī)藥古籍文獻(xiàn)的知識(shí)產(chǎn)權(quán)。同時(shí),文檔格式還需要有利于進(jìn)行漢語標(biāo)注和人名、地名、藥名標(biāo)記。此外,藏醫(yī)藥古籍文獻(xiàn)數(shù)字化需要處理大量的圖片、實(shí)物文件信息,將圖片、實(shí)物的存儲(chǔ)格式設(shè)定為無損圖片、無損實(shí)物,要保持圖片和實(shí)物的原始風(fēng)貌。
3.2.7 長(zhǎng)期保存標(biāo)準(zhǔn)
藏醫(yī)藥古籍文獻(xiàn)數(shù)字化的目的是藏醫(yī)藥古籍文獻(xiàn)數(shù)字化資源得以長(zhǎng)期保存、永久傳承,其重點(diǎn)內(nèi)容包括古籍?dāng)?shù)字化資源長(zhǎng)期保存的基本構(gòu)架,古籍?dāng)?shù)字化資源的開放存檔系統(tǒng)參考模型、戰(zhàn)略儲(chǔ)備和災(zāi)備機(jī)制以及長(zhǎng)期保存標(biāo)準(zhǔn)等。其中長(zhǎng)期保存標(biāo)準(zhǔn)包括古籍?dāng)?shù)字化資源長(zhǎng)期保存業(yè)務(wù)與管理框架、技術(shù)流程規(guī)范,以及特定條件下啟用長(zhǎng)期保存的古籍?dāng)?shù)字化資源提供服務(wù)的觸發(fā)要件、服務(wù)方式、服務(wù)流程和服務(wù)管理等[12]。
3.2.8 數(shù)據(jù)庫標(biāo)準(zhǔn)
目前數(shù)字化主要有圖像數(shù)據(jù)庫、文本數(shù)據(jù)庫、音頻數(shù)據(jù)庫和視頻數(shù)據(jù)庫4種文獻(xiàn)數(shù)字化方式。結(jié)合藏醫(yī)藥古籍文獻(xiàn)的形式或類型,根據(jù)藏醫(yī)藥古籍文獻(xiàn)的特點(diǎn),可以建立藏醫(yī)藥古籍文獻(xiàn)圖像數(shù)據(jù)庫、藏醫(yī)藥古籍文獻(xiàn)書目數(shù)據(jù)庫、藏醫(yī)藥古籍文獻(xiàn)文摘數(shù)據(jù)庫、藏醫(yī)藥古籍文獻(xiàn)音頻數(shù)據(jù)庫、藏醫(yī)藥古籍文獻(xiàn)視頻數(shù)據(jù)庫以及藏醫(yī)藥古籍文獻(xiàn)全文數(shù)據(jù)庫。
由于古籍?dāng)?shù)字化過程的特殊要求,其標(biāo)準(zhǔn)建設(shè)成為古籍?dāng)?shù)字化的一項(xiàng)重點(diǎn)工作內(nèi)容[19]。因此,構(gòu)建藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)體系是藏醫(yī)藥古籍文獻(xiàn)數(shù)字化建設(shè)的前期條件和重要保障。本文遵循規(guī)范性、系統(tǒng)性、現(xiàn)實(shí)性和拓展性原則,同時(shí)結(jié)合藏醫(yī)藥古籍文獻(xiàn)數(shù)字化建設(shè)現(xiàn)狀,嘗試針對(duì)相關(guān)流程和技術(shù)環(huán)節(jié)制訂共同遵守的準(zhǔn)則和規(guī)范,統(tǒng)一數(shù)字化資源的版本和格式,形成一套完整的藏醫(yī)藥古籍文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)化體系,以指導(dǎo)藏醫(yī)藥古籍文獻(xiàn)數(shù)字化工作,實(shí)現(xiàn)資源全面整合與交互共享。