丁小蕾,程 序
(首都圖書館,北京 100021)
石刻是人類記述文明的重要載體,其功用可以“證經(jīng)典之同異,正諸史之謬誤,補載籍之缺佚,考文字之變遷”。古人為研究石刻,常以紙覆之拓印其文字和圖案。在信息技術飛速發(fā)展的今天,紙質(zhì)形態(tài)保存石刻原貌的拓片資源在數(shù)字技術的驅(qū)動下,以全新的方式呈現(xiàn)在研究者面前,中文石刻拓片數(shù)據(jù)庫便是這一方式的具體體現(xiàn)。筆者收集整理了全球范圍內(nèi)通過互聯(lián)網(wǎng)提供服務的知名中文石刻拓片資源庫,詳見表1。
表1 全球范圍內(nèi)通過互聯(lián)網(wǎng)提供服務的知名中文石刻拓片資源庫
(續(xù)表)
除上述數(shù)據(jù)庫外,我國還有多家單位擁有數(shù)量可觀的金石拓片,如:上海圖書館約有15萬件,中國科學院圖書館約有5萬件,山東省圖書館有2萬余件,浙江圖書館有3萬余件,中山大學圖書館有3.8萬件,故宮博物院有3萬余件,陜西師范大學圖書館有1.2萬件,天一閣有0.4萬余件等。雖然我國拓片收藏機構眾多,但進行數(shù)字資源建設的并不多,究其原因,一方面是收藏機構對拓片資源建設的重視程度不夠,另一方面是拓片資源的整理和編目難度較大,需要投入大量的人力、物力和財力,這些都是制約拓片數(shù)字資源建設的因素。
我國當前已有的中文石刻拓片數(shù)據(jù)庫多是在20世紀末21世紀初建設的,受當時技術、設備及網(wǎng)絡帶寬等條件限制,數(shù)據(jù)庫或多或少都存在圖像質(zhì)量不高的問題,而質(zhì)量不高的應用服務型數(shù)據(jù)直接影響文獻內(nèi)容的傳達和用戶的研究熱情,進而影響數(shù)據(jù)庫的利用率。
一些中文石刻拓片數(shù)據(jù)庫利用原拓題名進行檢索,但結果不理想,原因可能是只將正題名作為題名著錄或只將正題名設置為題名檢索項造成的。拓片題名是極為重要的檢索要素,我國中文石刻拓片數(shù)據(jù)庫的著錄普遍遵循《中國文獻編目規(guī)則》(以下簡稱《規(guī)則》),但第一版《規(guī)則》和第二版《規(guī)則》對正題名的著錄有明顯不同的要求,在第一版《規(guī)則》中,客觀題名(包括首題、中題、尾題、額題、墓志蓋題等)僅被作為規(guī)定信息源參考,而第二版《規(guī)則》將客觀題名直接作為正題名規(guī)定信息源,這就導致不同時期建設的拓片數(shù)據(jù)庫正題名著錄存在差異,當用戶使用客觀題名對早期建設的拓片數(shù)據(jù)庫進行檢索時會出現(xiàn)檢索結果為零的情況。
對數(shù)據(jù)庫用戶而言,如果在使用拓片資源的同時還能得到與之內(nèi)容相關的其他拓片或古籍資源,不僅能夠極大提升研究效率,還能使數(shù)據(jù)庫資源得到充分利用。但是,當前我國多數(shù)石刻拓片數(shù)據(jù)庫僅是對相關文獻進行描述和檢索,而對文獻內(nèi)容揭示不足,不能在應用層面上提供資源間的關聯(lián)服務,缺少資源發(fā)現(xiàn)功能,致使數(shù)據(jù)內(nèi)容難以實現(xiàn)關聯(lián),形成“數(shù)據(jù)孤島”。
隨著數(shù)字技術的快速發(fā)展,以文獻為單元的傳統(tǒng)信息組織方式已不能滿足用戶對知識的需求,信息組織的對象逐步由文獻單元轉(zhuǎn)向知識單元。
3.1.1 挖掘拓片中的信息要素。拓片中的一般性信息要素包括客觀題名、書篆刻立年代、書篆刻立責任者名稱、內(nèi)容類型、原石形制、語種等,該類信息要素在已有中文石刻拓片數(shù)據(jù)庫中均有明確揭示。此外,拓片還存在大量非一般性信息要素,如:內(nèi)容主體人物(墓志中的墓主及旁系人物、紀事碑中事件主體行為人等)、內(nèi)容時間(寺廟碑刻中寺廟興建、圮毀、遷移時間、人物重要時間節(jié)點等)、內(nèi)容地點(建筑物所在地、事件發(fā)生地等)、數(shù)據(jù)(買地莂、房產(chǎn)、募捐資金及人數(shù)等)、分項題名(法帖、詩詞等)等。這些非一般性信息要素在內(nèi)容揭示方面具有比主題詞更精細的粒度,是形成知識單元和資源鏈接的關鍵要素。
3.1.2 完善元數(shù)據(jù)的內(nèi)容結構。當前,我國中文石刻拓片數(shù)據(jù)庫建設還沒有統(tǒng)一的元數(shù)據(jù)規(guī)范,國家圖書館制定了《國家圖書館拓片元數(shù)據(jù)規(guī)范與著錄規(guī)則》,北京大學圖書館編制了《北京大學圖書館拓片元數(shù)據(jù)規(guī)范》,這些規(guī)范雖然明確給出了拓片元數(shù)據(jù)的內(nèi)容結構,但內(nèi)容結構設計多側重于書目信息揭示,而對內(nèi)容信息揭示不足?;诖?,筆者嘗試提出引入內(nèi)容信息的拓片元數(shù)據(jù)內(nèi)容結構框架設想。該框架包括文獻描述、內(nèi)容描述、數(shù)據(jù)管理三個層面,其中文獻描述層面用于記錄文獻外部特征及屬性,包括載體形態(tài)、附注信息、館藏信息、傳拓地點、版本信息等;內(nèi)容描述層面包括表層描述、深層描述、全文,其中表層描述按照拓片內(nèi)容記述和組織的一般性規(guī)律直接快速地分析獲取的信息,深層描述對拓片表層描述以外的文字內(nèi)容進行深入挖掘,為數(shù)據(jù)關聯(lián)提供更多可能性,全文既能提供內(nèi)容的全文檢索,還能清晰地展示拓片所記錄的文字,更便于用戶研究;數(shù)據(jù)管理層面是拓片元數(shù)據(jù)與對象數(shù)據(jù)產(chǎn)生連接的關鍵,包括格式、權限、數(shù)字影像文件編號、數(shù)據(jù)編號等,詳見下頁圖1。
圖1 引入內(nèi)容信息的拓片元數(shù)據(jù)結構框架
在網(wǎng)絡環(huán)境中,資源間的關聯(lián)顯得尤為重要。通過關聯(lián),大量原本獨立的數(shù)據(jù)可以被有效組織起來,形成系統(tǒng)性的知識結構,為用戶提供更加開闊、全面、翔實,同時還可互為參考的信息,如:“楚學精廬刻石”與“張文襄公祠捐贊題名碑”從題名上看不出有絲毫關聯(lián),但實際上楚學精廬是民國時期在京的湖北籍人士為紀念張之洞等人為湖北做出的突出貢獻而籌資建立的,楚學精廬即張文襄公祠堂,可見兩張拓片之間存在極大的信息關聯(lián)。中文石刻拓片數(shù)據(jù)庫中的資源關聯(lián)主要有兩種,即形式關聯(lián)和內(nèi)容關聯(lián)。其中,形式關聯(lián)多見于單種拓片多冊件的情況,處理方法主要取決于元數(shù)據(jù)設計時著錄單位的定義以及關聯(lián)項的設置;內(nèi)容關聯(lián)又分同類資源關聯(lián)和異類資源關聯(lián),同類資源關聯(lián)是指內(nèi)容具有相關性的獨立拓片間建立的關聯(lián)關系,異類資源關聯(lián)是指內(nèi)容相關的各類非拓片資源與拓片資源建立的關聯(lián)關系,如古籍文獻、一般性圖書文獻與拓片關聯(lián)。
實現(xiàn)拓片資源關聯(lián)需要建設人員對相關內(nèi)容進行深入研究,在信息化技術飛速發(fā)展的今天,各建設機構應樹立開放共享理念,積極引入大數(shù)據(jù)技術、NLP自然語言處理技術、AI智能等新型技術,深度挖掘資源間的關聯(lián),構建中文拓片的知識圖譜。此外,由于中文石刻拓片數(shù)據(jù)庫的用戶大部分是文史或書畫研究人員,在各自的研究領域具有較高的專業(yè)素養(yǎng),建設機構可建立用戶參與建設機制,鼓勵他們參與拓片數(shù)據(jù)庫建設,更好地完成對拓片內(nèi)容的解讀和描述、更快完善數(shù)據(jù)內(nèi)容,提升拓片的使用價值。