丁侃 張麗君
[摘要] 本文提出了基于數(shù)字化建設(shè)流程,對中醫(yī)古籍數(shù)字資源實現(xiàn)動態(tài)管理的方案。從資源管理的單位、資源命名、元數(shù)據(jù)三個方面,介紹了相關(guān)管理工作的經(jīng)驗,重點介紹了中醫(yī)古籍資源元數(shù)據(jù)的著錄細則,并從多個管理視角、動態(tài)管理的經(jīng)典用例對管理效力進行了推演。
[關(guān)鍵詞] 中醫(yī)古籍;數(shù)字化;資源;管理;動態(tài)
[中圖分類號] G258 [文獻標識碼] A [文章編號] 1673-7210(2018)11(c)-0110-04
[Abstract] This paper proposes a dynamic management plan for digital resources of ancient books of traditional Chinese medicine based on the digital construction process. From three aspects of the unit of resource management, the naming of resources and the metadata of traditional Chinese medicine resources, this paper introduces the experience of relevant management work, especially about the detailed description of the metadata of ancient Chinese medicine resources, and deduces the management efficacy from several management perspectives and the dynamic management classic scenes.
[Key words] Ancient books of traditional Chinese medicine; Digitization; Resources; Management; Trend
中醫(yī)古籍是祖國醫(yī)學傳承的最重要的知識載體,也是中醫(yī)藥繼承發(fā)展創(chuàng)新的源頭。根據(jù)《中國中醫(yī)古籍總目》(以下簡稱《總目》)[1]著錄,現(xiàn)存的中醫(yī)古籍有1萬余種,數(shù)量之巨常以“汗牛充棟”來形容,由此衍生出的中醫(yī)古籍數(shù)字資源則被形容為“海量”[2]。
存儲技術(shù)的發(fā)展解決了資源“放在哪”的問題,但若僅是將資源雜亂無序的堆砌在一處,那么依然難以被有效利用??茖W的管理是資源高效傳播與有效利用的前提,尤其是對于仍處于建設(shè)流程中的“動態(tài)”數(shù)字資源,如何對其進行有效管理,以保障工作推進和工程質(zhì)量,這是一個值得思考的問題。
筆者在十余年從事中醫(yī)古籍整理與數(shù)字化工作的實踐中,特別是在科技部出臺《科技基礎(chǔ)性工作項目數(shù)據(jù)匯交標準規(guī)范》[3]等指導性文件后,逐漸形成并完善了關(guān)于中醫(yī)古籍數(shù)字資源動態(tài)管理的一些方法。本文將所積累的一些經(jīng)驗介紹如下,供大家討論商榷。
1 資源管理的基本單位
資源管理的基本單位,即我們所要管理的對象。古籍數(shù)字資源大致分為古籍原物數(shù)字資源、點校本原物數(shù)字資源、古籍文本數(shù)字資源、古籍中抽取出的碎片化資源4種類型,無論哪種類型均以一部文獻作為管理的基本單位。
1.1 完整古籍的數(shù)字資源
古籍原物數(shù)字資源、點校本原物數(shù)字資源、古籍文本數(shù)字資源,一般是根據(jù)古籍(或現(xiàn)代出版物)原物,通過掃描、拍照、識別、點校等工序,形成的數(shù)字文件,其反映的是整部古籍的完整內(nèi)容。一部古籍形成的數(shù)字文件可以是1個,如一部書的圖像、文本,被加工合成為1個文件;也可以是若干個,如一部書被按冊分別加工為單個文件;也可以是多個,如一部書被按頁分別加工為單個文件。無論一部完整的書中,包含多少個文件,我們均將其打包成一個整體,作為資源管理的基本單位。
1.2 碎片化的古籍數(shù)字資源
從一部完整古籍中抽取出的部分數(shù)據(jù),稱之為碎片化的數(shù)字資源。如在《二十六史醫(yī)學史料匯編》編撰過程中,其從26部史書中搜集的資料,分別按照26個單獨資源進行管理;如在中醫(yī)古籍圖像(插圖)研究中[4-5],將從三千多種古籍中收集到的插圖,分作三千多個資源進行單獨管理,每個基本單位中,包括數(shù)量不等的出自此部古籍的插圖。
2 數(shù)字資源的命名
文件是資源管理的直接對象,規(guī)范文件命名,是希望在無需打開文件的情況下,僅從名稱便可直觀快速了解資源的大致情況,并可通過文件名稱,對資源進行簡單地分類、篩選、排序操作。根據(jù)我們的經(jīng)驗,并參考了《信息與文獻參考文獻著錄規(guī)則》[6],命名應(yīng)當包括如下元素:編碼、書名、主要責任者、版本(出版社、出版時間、版次)、叢書、修改日期等。
其中,編碼可任選《總目》序號或《中國醫(yī)籍大辭典》[7](以下簡稱《辭典》)序號之一;書名中應(yīng)當包含合刊、附錄等信息;主要責任者,應(yīng)當包含原作者及當前資源點校者各一位;修改日期一般系統(tǒng)會自動記錄,無需人工添加。
命名范例①:07765衛(wèi)生家寶產(chǎn)科備要(朱端章)(宋淳熙11年甲辰(1184)南康郡齋刻本)。此資源:衛(wèi)生家寶產(chǎn)科備要,編者為朱端章,版本為宋淳熙11年甲辰(1184)南康郡齋刻本。
命名范例②:07765衛(wèi)生家寶產(chǎn)科備要(朱端章)(十萬卷樓叢書)(清光緒2年丙子(1876)至13年丁亥(1887)歸安陸氏刻本)。此資源:衛(wèi)生家寶產(chǎn)科備要,為“十萬卷樓叢書”中的一種。
命名范例③:01638診家樞要(滑壽)(賈君)——診+瀕湖脈學(臨床必讀)(人衛(wèi)2007第2版)。此資源:診家樞要,著者為滑壽,點校者為賈君,為診家樞要與瀕湖脈學的合刊本,版本為人民衛(wèi)生出版社2007年出版的第2版。
命名范例④:03307孫真人千金方_附:真本千金方(孫思邈)(李景榮)(整理叢書)(人衛(wèi)1996)。此資源:孫真人千金方,后附有:真本千金方。
需要指出的是,資源的命名力求簡潔,出版社、出版時間、版次等信息,可以簡寫,并經(jīng)備案統(tǒng)一。命名不求反映資源的全部信息,未盡信息,在資源元數(shù)據(jù)中詳細著錄。
3 中醫(yī)古籍資源元數(shù)據(jù)
在參照中文文獻通用元數(shù)據(jù)的基礎(chǔ)上,結(jié)合資源所體現(xiàn)的中醫(yī)、古籍、動態(tài)三大特征,制訂了如下元數(shù)據(jù)標準。
3.1 資源標識符
定義:古籍數(shù)字資源在一定體系下的唯一標識。注釋:此項著錄在我們資源體系下根據(jù)規(guī)則生成的唯一標識。編碼規(guī)則:《總目》序號+《辭典》序號+流水號(3位)+保存時間。
著錄范例:《諸病源候論》的資源標識符——00522B0005001201802011818。其中“00522”為《總目》序號;“B0005”為《辭典》序號;“001”為按照上傳先后生成的順序號;“201802011818”代表該資源在2018年2月1日18:18保存生成。
3.2 題名
定義:古籍資源的名稱。注釋:此項著錄古籍的正題名,在古籍原書各個部位的其他題名,在其他目錄學著作中的別稱,在一般類文獻中的別稱、簡稱,以及說明文字,如卷數(shù)、附錄等。
著錄范例:《本草三家合注》的題名——本草三家合注:六卷,附:神農(nóng)本草經(jīng)百種錄,又名:神農(nóng)本草經(jīng)合注。
3.3 主要責任者
定義:對創(chuàng)建古籍負主要責任的實體。注釋:此項著錄主要責任者名稱、別稱、國別、所處時代以及責任方式。
著錄范例:《注解傷寒論》的主要責任者——(漢)張機(仲景)撰,(晉)王熙(叔和)編,(金)成無己注。
3.4 其他責任者
定義:對古籍資源的創(chuàng)建有貢獻的實體。注釋:此項著錄其他責任者名稱、別稱、國別、所處時代以及責任方式。包括資源建設(shè)流程中,涉及到的加工人員。根據(jù)流程,專門擴展如下責任方式:資源核查、資源管理、書目著錄、資源點校、資源標引等。
著錄范例:《注解傷寒論》數(shù)字資源的其他責任者——張某某 資源核查,宋某某 書目著錄。
3.5 成書時間
定義:古籍結(jié)集成書的時間。注釋:此項著錄古籍成書的朝代、年號紀年、公元紀年。
著錄范例:《溫病條辨》的成書時間——清嘉慶3年戊午(1798)。
3.6 出版者
定義:對創(chuàng)制或復制古籍資源負責任的實體。注釋:此項著錄古籍資源抄寫、刻印、印刷、點校及制作的責任者、出版時間及其地點。不僅古籍原物、點校本原物有明確的出版者、版本信息,對于古籍文本數(shù)字資源、碎片化資源,亦需通過此項,著錄點校所依據(jù)的底本、校本等版本信息。
著錄范例:《溫病條辨》的出版者——清嘉慶18年癸酉(1813)問心堂刻本。北京:人民衛(wèi)生出版社 1996年。
著錄范例:《注解傷寒論》文本數(shù)字資源的版本信息——底本:元至正25年乙巳(1365)西園余氏刻本。主校本:明嘉靖24年乙巳(1545)汪濟川生一齋刻本。參校本:清道光3年癸未(1823)貴文堂刻本。
3.7 主題
定義:使用特定詞匯對古籍資源內(nèi)容及所屬課題、專題、任務(wù)安排的歸納描述。注釋:此項著錄古籍資源的內(nèi)容分類,參照《總目》12類的分類方法;根據(jù)不同課題、專題、任務(wù)等屬性對資源進行的劃分。
3.8 類型
定義:根據(jù)資源內(nèi)容形式特征進行的種類劃分。注釋:古籍原物數(shù)字資源、點校本原物數(shù)字資源、古籍文本數(shù)字資源、古籍中抽取出的碎片化資源4種類型。
3.9 級別
定義:資源根據(jù)質(zhì)量、加工難易程度進行的級別劃分。注釋:資源質(zhì)量分為:高、中、低3個級別;加工難易分為:難、中、易3個級別。
3.10 狀態(tài)
定義:資源在數(shù)字化流程中所處的環(huán)節(jié)及當前完成狀態(tài)。注釋:根據(jù)中醫(yī)古籍數(shù)字化流程,劃分為:資源核查、資源管理、書目著錄、資源點校、資源標引5個環(huán)節(jié);每個環(huán)節(jié)分為:待開始、加工中、完成3種狀態(tài)。
3.11 數(shù)量
定義:資源內(nèi)容的量化指標。注釋:此項著錄資源的頁數(shù)、卷數(shù)、篇數(shù)、字數(shù)、碎片數(shù)等量化指標。
3.12 位置
定義:碎片化資源在原古籍中的位置信息。注釋:此項著錄的位置信息可以籠統(tǒng)為所在的卷篇;亦可以精確地定位到圖片中的坐標、文本中的起止字符。
4 資源管理的視角及動態(tài)管理
根據(jù)上面介紹的中醫(yī)古籍資源元數(shù)據(jù)標準,對資源進行著錄,我們便能夠從多個視角,實現(xiàn)對資源的動態(tài)管理。
4.1 管理視角
文獻視角:對某一古籍所衍生出的所有類型的數(shù)字資源進行管理;分類視角:按照古籍的內(nèi)容分類,對資源進行管理;責任人視角:根據(jù)古籍的作者、點校者、加工人員,對資源進行管理;出版者視角:對某一底本衍生出的資源進行管理,對某一出版社出版的古籍進行管理;時間視角:對某一時期成書的古籍進行管理;主題視角:對某一專題所涉及的資源進行管理;級別視角:根據(jù)質(zhì)量、加工難易程度對資源進行管理。通過以上視角,可以對資源進行各維度的篩選,以便合理安排人員、規(guī)劃進度。
4.2 流程管理
整體了解資源所處的加工環(huán)節(jié)及狀態(tài),根據(jù)工程計劃,合理調(diào)配任務(wù)與人員;針對某一資源,了解當前所處的加工環(huán)節(jié)、狀態(tài)、加工人員、完成情況,便于評估工作量合理安排工作任務(wù),以及測算工作完成進度;根據(jù)資源所處的當前狀態(tài),篩選已經(jīng)完成加工環(huán)節(jié)的資源,并推送到下一個加工環(huán)節(jié);查看某一加工人員所負責的相關(guān)資源,及時了解其承擔任務(wù)的完成情況。
5 討論
5.1 基于流程的動態(tài)管理
古籍數(shù)字化不僅是結(jié)果,更是一個漸進的過程,即為古籍數(shù)字資源的創(chuàng)建過程,是利用計算機信息技術(shù)對古籍及其內(nèi)容進行整理和加工,是古籍整理的一部分[8]。本文介紹了對尚處于修圖、編目、文本識別、???、資料收集、標引等建設(shè)流程中的數(shù)字資源進行動態(tài)管理的一些經(jīng)驗。
與此對應(yīng)的是,近年來國內(nèi)外多位學者提出了“數(shù)字資源管護”(digital curation)[9]的概念,泛指對科學數(shù)據(jù)的管理和維護。后逐漸擴展到對數(shù)字資源的全生命周期管理。英國數(shù)字管護中心將數(shù)據(jù)管護生命周期劃分為創(chuàng)造或接收、評估與選擇、吸收、保存、存儲、訪問、使用與重用、轉(zhuǎn)換8個階段[10];澳大利亞國家數(shù)據(jù)服務(wù)項目將數(shù)據(jù)管護分成了創(chuàng)造、存儲、描述、標識、登記、獲取、檢索、開發(fā)8個階段[11];丁寧等[12]提出了高??茖W數(shù)據(jù)生命周期,管理核心是數(shù)據(jù)存儲、組織、發(fā)布、檢索和獲取。
相較于“全生命周期管理”的理念,本文分享的是生命周期前段,即大致相當于創(chuàng)造、存儲、描述、標識、登記等階段的管理經(jīng)驗;而生命周期的后段,即獲取、檢索、開發(fā)等階段的管理尚未涉及。主要原因可能是中醫(yī)古籍數(shù)字化建設(shè)所處的階段所決定的,當前的資源整合、獲取、檢索、開發(fā)等,尚處于起步階段,相關(guān)管理工作尚未引起重視。但這必然是今后要面臨的問題,董曉莉等[13]提出了古籍數(shù)字資源管護生命周期模型,從技術(shù)角度出發(fā),對古籍數(shù)字資源的管護流程進行了詳細的分析和設(shè)計,其相關(guān)研究成果可為我們所借鑒。
5.2 中醫(yī)古籍資源元數(shù)據(jù)
元數(shù)據(jù)(Metadata)是描述其他數(shù)據(jù)的數(shù)據(jù),或者說是用于提供某種資源的有關(guān)信息的結(jié)構(gòu)數(shù)據(jù)[14]。元數(shù)據(jù)的本質(zhì)是標準,借用通用的元數(shù)據(jù),可以最大程度地保證數(shù)據(jù)的共享和交換。然而不同領(lǐng)域的數(shù)據(jù),又有其自身的特性,需要進行元素的擴展,將著錄細化到領(lǐng)域內(nèi)獨有的特點。
通用元數(shù)據(jù)我們參考了《國家圖書館古籍元數(shù)據(jù)規(guī)范與著錄規(guī)則》[15]、《中醫(yī)文獻元數(shù)據(jù)標準》[16-18],同時結(jié)合了科技部《科技基礎(chǔ)性工作項目數(shù)據(jù)匯交標準規(guī)范》中“專項項目數(shù)據(jù)匯交元數(shù)據(jù)標準”,以及各類“資源描述規(guī)范”的要求,其中資源標識符、題名、主要責任者、其他責任者、出版者、主題、類型等元素,與通用元數(shù)據(jù)保持一致;針對領(lǐng)域特征以及動態(tài)管理之需,擴展了級別、狀態(tài)、數(shù)量、位置等元素。
同時,在資源標識符、分類等著錄時,參照了《總目》、《辭典》的編碼體系及分類標準;在主要責任者著錄時,參照了《中醫(yī)人物詞典》[19]中的標準人名,以方便領(lǐng)域內(nèi)的資源整合和流通。
5.3 資源管理的難點
數(shù)字資源可以在有限的時間段內(nèi)產(chǎn)生,也可以動態(tài)或連續(xù)地產(chǎn)生。動態(tài)化是流程中古籍數(shù)字資源的基本特征,這就涉及到資源收發(fā)、過程版本的備份;基于任務(wù)的管理是另一特征,這就涉及工作計劃、人員配備、資源收發(fā)、工作計量等多個問題。
碎片化抽取是未來中醫(yī)古籍數(shù)字化深入發(fā)展的必然趨勢,即將整部的古籍,碎片化(解構(gòu))為更小粒度的資源,從而提高知識管理的水平[20]。未來碎片化資源的管理、重組、流通將給資源管理工作(精細化,更小粒度)帶來更大的挑戰(zhàn)。
本文介紹了建設(shè)流程中中醫(yī)古籍數(shù)字資源動態(tài)管理的經(jīng)驗,從元數(shù)據(jù)著錄細則,推演了資源管理的典型用例,表現(xiàn)了其良好的管理效度。然而我們在工作中也逐漸認識到,資源層面的管理,難免于分散,隨著資源的逐步增加,同一種文獻有多個版本,每一版本的原書(古籍及點校本)衍生出若干不同資源,尤其是當對外部資源進行整合時,這一問題會變得更為突出。因此在資源之上的文獻層面進行元數(shù)據(jù)體系構(gòu)建及信息著錄,將是今后資源管理研究的趨勢。
[參考文獻]
[1] 薛清錄.中國中醫(yī)古籍總目[M].上海:上海辭書出版社,2007:1.
[2] 諸云強,孫凱,楊雅萍,等.科技基礎(chǔ)性工作數(shù)據(jù)資料的匯交與整編[J].中國科技資源導刊,2017,49(5):12-20.
[3] 漆勝蘭.2004-2014年中醫(yī)古籍數(shù)據(jù)庫建設(shè)研究進展[J].中國中醫(yī)藥圖書情報雜志,2015,39(1):60-62.
[4] 丁侃,張麗君,胡曉峰.中醫(yī)古籍圖像標引方案設(shè)計[J].中醫(yī)文獻雜志,2015,33(144):26-28.
[5] 丁侃,胡曉峰,張麗君.解析“中醫(yī)古籍圖像數(shù)據(jù)庫”的圖像標引[J].西部中醫(yī)藥,2016,29(5):48-51.
[6] 曹敏.GB/T 7714-2015《信息與文獻參考文獻著錄規(guī)則》標準解析[J].科技與出版,2015(9):41-44.
[7] 《中國醫(yī)籍大辭典》編纂委員會.中國醫(yī)籍大辭典[M].上海:上??茖W技術(shù)出版社,2002:1-5.
[8] 張軸材.典籍數(shù)字化與搜索:源與流,深與淺[EB/OL][2018-5-18].http://www.guoxue.com/zt/gjszh/yjwz_027.htm.
[9] What is Digital Curation?[EB/OL][2018-5-18].http://www.dcc.ac.uk/digital-curation/what-digital-curation.
[10] Beagrie N. Digital curation for science,digital libraries,and individuals [J]. Int J Digit Cur,2006,1(1):3-16.
[11] Australian Bureau of Statistics [EB/OL][2018-5-18]. http://www.abs.gov.au.
[12] 丁寧,馬浩琴.國外高??茖W數(shù)據(jù)生命周期管理模型比較研究及借鑒[J].圖書情報工作,2013,57(6):18-22.
[13] 董曉莉,李春明.以數(shù)字資源管護為手段促進古籍的再生性保護[J].圖書館理論與實踐,2017(12):55-60.
[14] 肖瓏,趙亮.中文元數(shù)據(jù)概論與實例[M].北京:北京圖書館出版社,2007:35.
[15] 肖瓏,蘇品紅,劉大軍.國家圖書館古籍元數(shù)據(jù)規(guī)范與著錄規(guī)則[M].北京:國家圖書館出版社,2014:39-79.
[16] 趙陽.基于都柏林核心(DC)的中醫(yī)文獻元數(shù)據(jù)標準研究[D].北京:中國中醫(yī)科學院,2013:40-61.
[17] 朱玲,于彤,張竹綠,等.中醫(yī)文獻元數(shù)據(jù)標準的應(yīng)用評價研究[J].世界科學技術(shù)-中醫(yī)藥現(xiàn)代化,2015,17(4):763-767.
[18] 趙陽,崔蒙.中醫(yī)文獻元數(shù)據(jù)設(shè)計原則和實用性思考[J].世界科學技術(shù)-中醫(yī)藥現(xiàn)代化,2015(10):1978-1981.
[19] 李經(jīng)緯.中醫(yī)人物詞典[M].上海:上海辭書出版社,1988:1-61.
[20] 丁侃.基于知識元信息技術(shù)的中醫(yī)古籍元數(shù)據(jù)研究[D].北京:中國中醫(yī)科學院,2009:14-22.
(收稿日期:2018-06-21 本文編輯:金 虹)