国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字人文背景下圖書館古籍數(shù)字化新實踐
——以云南省圖書館古籍數(shù)據(jù)庫建設為例

2020-01-09 10:45:20顏艷萍
圖書館學刊 2020年7期
關(guān)鍵詞:古籍人文數(shù)據(jù)庫

顏艷萍

(云南省圖書館,云南 昆明650031)

1 引言

隨著大數(shù)據(jù)、人工智能等現(xiàn)代信息技術(shù)的飛速發(fā)展,數(shù)字技術(shù)同人文社科這兩大領域彼此間的交融和滲透,催生出一個全新的領域,即數(shù)字人文。其憑借特有的跨學科、跨領域的特點,深刻地影響著歷史、文學、計算機科學等學科的演進,也為古籍資料的重新整合、梳理及使用創(chuàng)造了條件,使其擁有更先進的探究方法、工具和平臺。

古籍是中華民族文化遺產(chǎn)的重要瑰寶,受自然環(huán)境與人為因素的影響,古籍原本流失嚴重,現(xiàn)存古籍破損情況嚴重。據(jù)不完全統(tǒng)計,我國現(xiàn)存古籍超過五千萬冊,其中有三成多損毀嚴重,急需得到搶救性保護。[1]“古籍數(shù)字化,是指利用現(xiàn)代信息技術(shù)對古籍文獻進行加工處理,使其轉(zhuǎn)換成計算機能夠辨認的數(shù)字信息,構(gòu)建古籍文獻書目數(shù)據(jù)庫及古籍全文數(shù)據(jù)庫,全面呈現(xiàn)古籍信息資源的一項系統(tǒng)工作?!盵2]它使古籍文獻的文化價值和社會服務功能得到充分體現(xiàn)??墒谴蟛糠止偶當?shù)字化產(chǎn)品僅僅是原件的替代品,文獻檢索基本只能達到基于字符匹配的全文檢索層次,不能對古籍文獻進行深度挖掘利用,利用率較低。近年來,數(shù)字人文逐漸興起,給古籍數(shù)字化深度發(fā)展提供了全新的理論根據(jù)和實際操作方法,使古籍的文本挖掘、語義分析、智能標點、文本可視化、語料庫建設等成為可能。

2 數(shù)字人文概述

數(shù)字人文是將現(xiàn)代計算機及互聯(lián)網(wǎng)科技深度運用到傳統(tǒng)人文學科的探究和教學當中的全新領域。它將現(xiàn)代計算機及通信技術(shù)運用到文獻學、統(tǒng)計學、歷史學、藝術(shù)學等傳統(tǒng)人文學科中,為人文學科研究提供了新的研究方法與范式。其主要目標是促成現(xiàn)代信息技術(shù)同人文科學之間的滲透和交融,進而轉(zhuǎn)變知識的獲取、注釋、對比、取樣、闡述及呈現(xiàn)形式,實現(xiàn)人文研究的升級和創(chuàng)新發(fā)展。

利用數(shù)字技術(shù)輔助和促進人文研究,在西方國家已然成為一種潮流。以“digital humanities”為名的科研組織、交流圈等在全世界已經(jīng)達到185個以上,其中有八成以上均處于歐美境內(nèi)。在我國,相關(guān)方面的研究也正在興起,一是陸續(xù)組建了相關(guān)組織,如北京大學數(shù)字人文小組(2016年成立)、南京大學數(shù)字人文研究中心(2017 年成立)等;二是國家社科基金重大項目對數(shù)據(jù)庫建設的關(guān)注度逐漸提高,單在2017 年此類項目所占的比例便已達到10%左右;三是開展數(shù)字人文相關(guān)學術(shù)活動,一種是舉辦學術(shù)會議,如2014 年6 月上海圖書館舉辦的“數(shù)字人文與語義技術(shù)”學術(shù)會議,2015 年12 月的“北、清、臺數(shù)字人文新動向——中國歷代人物傳記資料數(shù)據(jù)庫CBDB 暨Digging into Data 工作坊”學術(shù)會議,2016年5月的“北京大學數(shù)字人文論壇”(首屆),2016 年5 月的“數(shù)字人文與清史研究”學術(shù)會議,2017年5月的“北京大學數(shù)字人文論壇”(第二屆),2017年7月的南京大學“數(shù)字人文:大數(shù)據(jù)時代學術(shù)前沿與探索”學術(shù)會議等;另一種是開設工作坊,如2016 年南京大學歷史學院王濤副教授開設的“數(shù)字工具與世界史研究”課程,2017 年3 月哈佛大學訪問學者徐力恒博士在北京大學開設的“數(shù)字人文研究技能與方法”讀書會,2017年4月北京大學圖書館數(shù)字人文工作坊等。[3]

3 圖書館古籍數(shù)字化建設實踐

數(shù)字人文涉及的范疇極廣,而古籍數(shù)字化作為古籍整理系列工程之一,同樣涵蓋了文獻學、歷史學、計算機技術(shù)等學科。其跨學科的特點可以借鑒數(shù)字人文研究的方法。

我國從上世紀80年代開始進行古籍數(shù)字化建設,在發(fā)展過程中,國家推出了有關(guān)的政策法規(guī),古籍索引數(shù)據(jù)庫、古籍全文數(shù)據(jù)庫、古籍書目數(shù)據(jù)庫等產(chǎn)品相繼誕生,積累了一定經(jīng)驗。[4]

3.1 圖書館古籍數(shù)字化可行性

3.1.1 政策支持

2007 年1 月,國家發(fā)布了《國務院辦公廳關(guān)于進一步加強古籍保護工作的意見》,啟動了“中華古籍保護計劃”。中央對古籍保護工作做出了詳細指示,包括確定操作流程和規(guī)范,構(gòu)建相關(guān)數(shù)據(jù)庫;重新配置已有資源,開發(fā)對公眾開放的古籍網(wǎng)站,為公眾提供古籍資源,實現(xiàn)古籍價值最大化。[5]

2017 年國家相關(guān)部委發(fā)布的《“十三五”時期全國古籍保護工作規(guī)劃》提出,采取激勵措施,推動廣大古籍收藏單位加快古籍數(shù)字化步伐,發(fā)揮國家和省級珍貴古籍數(shù)字化工作的帶頭作用,以互聯(lián)網(wǎng)、大數(shù)據(jù)等新技術(shù)為依托,優(yōu)先對特色館藏和古籍善本開展數(shù)字化,加速建設“中華古籍數(shù)字資源庫”及相應的信息數(shù)據(jù)管理平臺,按照邊建設、邊服務的原則,及時對外公布古籍影像資源,促進資源共享。[6]

3.1.2 技術(shù)支持

計算機和信息技術(shù)的介入,能夠在保護古籍原貌的基礎上,對古籍內(nèi)容進行數(shù)字存儲、傳輸,以提升古籍的利用率,促進古籍文獻在更大范圍內(nèi)傳播。

2012年8月,國家古籍保護中心對珍貴古籍展開了數(shù)字化試點工作,編制了《古籍數(shù)字化工作手冊》(試用本)作為工作標準。該手冊明確了古籍數(shù)字化的具體范疇、規(guī)范性引用文件、術(shù)語定義、操作程序、加工準備、元數(shù)據(jù)著錄、圖像數(shù)字化以及數(shù)據(jù)的命名、提交、檢驗、接受、發(fā)布、使用等,是整項工作的重要依據(jù)。[7]

3.1.3 用戶需求

古籍文獻有著特殊的歷史背景,屬于不可再生資源,具有重要的史料研究價值。從古籍保護的角度出發(fā),基本上每一家圖書館均對古籍的查閱對象、方式等設定了限制規(guī)定,重視收藏而忽視利用的情況十分常見,這在很大程度上給古籍資源的開發(fā)利用帶來了阻礙,古籍的保護和利用這對矛盾也由此凸顯。古籍數(shù)字化一方面實現(xiàn)了對古籍原件的保護,另一方面為古籍文獻的開發(fā)利用提供了便捷服務。

3.2 云南省圖書館古籍數(shù)字化實踐

云南省圖書館根據(jù)國家關(guān)于建設古籍數(shù)字資源庫的要求,積極進行古籍數(shù)字化實踐。以國家古籍保護中心編制的《古籍數(shù)字化工作手冊》(試用本)為依據(jù),對館藏珍貴古籍進行數(shù)字化處理,建設古籍數(shù)據(jù)庫并進行發(fā)布。從設備選取、元數(shù)據(jù)著錄、圖像采集、加工到最后對外發(fā)布,各個步驟、各項操作均進行了充分調(diào)研。2014年以來,已將館藏2000 余部4600 余冊地方文獻,636 部2589冊館藏善本古籍,1522 種6157 頁拓片進行數(shù)字化加工。這些文獻中有不少被收錄到《國家珍貴古籍名錄》,是云南省圖書館館藏中最具地方特色的古籍。

按照邊建設、邊服務的原則,云南省圖書館分批對這些古籍數(shù)據(jù)進行發(fā)布。于2017 年2 月28日、2018年9月28日、2019年11月12日,先后三次參加國家圖書館“中華古籍數(shù)字資源庫”聯(lián)合在線發(fā)布活動,對外公布古籍數(shù)字資源480部、2103冊,并通過云南省圖書館官方網(wǎng)站“云南古籍數(shù)字圖書館”平臺免費為社會公眾提供服務。

“云南古籍數(shù)字圖書館”是云南省圖書館自建的古籍數(shù)據(jù)庫,經(jīng)過對文本的完整掃描,建立圖像資源庫,并對有關(guān)項目進行元數(shù)據(jù)著錄,最終建成以元數(shù)據(jù)為基礎的全文數(shù)據(jù)庫。數(shù)據(jù)庫在B/S 模式下運行,改善了多客戶端的缺陷,將系統(tǒng)功能實現(xiàn)的核心部分集中于服務器端,精簡了系統(tǒng)運作流程。其最突出的優(yōu)勢在于,用戶免受空間限制,且無需安裝專門的程序,只需一臺可以聯(lián)網(wǎng)的電腦便能進行操作。用戶只需進行注冊即可進行全文瀏覽。檢索項設置全面、簡潔,用戶可通過索書號、題名、責任者、版本等字段進行文獻檢索,并具有智能查詢同類古籍、生僻字顯示及檢索等功能。在閱覽界面,可對圖像進行縮放、翻頁、目錄、指定頁面跳轉(zhuǎn)、評論、批注等。在首頁設計有古籍布局圖,且處于動態(tài)完善中,按照歷朝歷代的先后順序,呈現(xiàn)各個時期在線古籍的數(shù)量情況,使數(shù)據(jù)庫呈現(xiàn)出可視化。[8]后臺管理方面,具有統(tǒng)計管理(包括用戶總量統(tǒng)計、書籍總量統(tǒng)計、新聞統(tǒng)計、PV瀏覽量統(tǒng)計)、后臺角色管理(注冊用戶、VIP用戶、系統(tǒng)管理員、測試員、編目員、圖書管理員)、瀏覽記錄管理、收藏記錄管理、圖片上傳管理、書籍管理、操作記錄管理等強大功能。所有完成數(shù)字化的古籍都附注相應的編目信息,具體包含:題名項、責任者項、索書號、四部分類、版本項、存卷次、冊數(shù)、館藏單位。用戶不僅能取得所需古籍的完整數(shù)字影像,還能夠使用相應的編目成果,幫助其開展相關(guān)研究。

3.3 當前古籍數(shù)字化工作存在的問題

3.3.1 工作缺乏宏觀統(tǒng)籌

長期以來,各單位都是根據(jù)自身發(fā)展需要來開展古籍數(shù)字化工作,缺乏國家層面的宏觀統(tǒng)籌,導致項目重復建設,一些珍貴古籍還未進行數(shù)字化,沒有在資源共享和建設方面形成有效的合力。另外,還缺乏統(tǒng)一的資源發(fā)布平臺,大多數(shù)資源僅僅通過局域網(wǎng)傳播,在使用便捷性上有待提高。

3.3.2 建設標準不統(tǒng)一

因為數(shù)字化建設的主體眾多,且沒有制定全國性的古籍數(shù)字化標準,現(xiàn)有的標準內(nèi)容又不夠全面、缺少細節(jié)規(guī)范,各單位在古籍數(shù)字化的加工工序、底本選取原則、影像采集、數(shù)據(jù)格式、元數(shù)據(jù)制作、古籍著錄、古籍標引、檢索語言等技術(shù)參數(shù)上存在差異,開發(fā)出的古籍數(shù)字化產(chǎn)品質(zhì)量不統(tǒng)一,這給古籍資源整合和數(shù)據(jù)兼容帶來了障礙。

3.3.3 數(shù)字資源利用率低

知識、信息共享是古籍文獻資源數(shù)字化開發(fā)的一大重要目的。數(shù)據(jù)庫的建設在古籍文獻資源分享知識、信息方面優(yōu)于紙質(zhì)文獻,云南省圖書館古籍文獻資源雖然實現(xiàn)了數(shù)據(jù)庫資源的建設,但由于無法實現(xiàn)跨庫檢索,所以存在從知識、信息層面進行檢索難以全面系統(tǒng)等問題,直接影響到古籍文獻資源的共享。

現(xiàn)階段已建成的古籍數(shù)據(jù)庫,其功能通常限于對古籍的數(shù)字化轉(zhuǎn)換、保存和簡單檢索,只是對古籍進行了淺層次的描述和揭示,并沒有從資源組織或便于用戶使用的角度對文獻進行深入挖掘。提供給用戶的服務通常只是以關(guān)鍵詞為基礎的全文檢索或是以主題為基礎的文本瀏覽,尚不能進行統(tǒng)計分析等操作,用戶無法按照自身的需求去重組資源,也無法深入發(fā)掘其知識內(nèi)涵,導致了較高開發(fā)投入和較低利用率之間的不平衡。

3.3.4 數(shù)字資源建設經(jīng)費不足

數(shù)字化目標的達成,離不開資金支持。據(jù)相關(guān)估算,若將國內(nèi)剩余的40 萬個版本的古籍全部完成數(shù)字化處理,總支出將達到60 億元。而國家古籍保護中心各個年度可以劃撥的古籍數(shù)字化專用款項僅1000萬元,很多地方圖書館,可以使用的資金更是少之又少。[9]

云南省圖書館每年由政府劃撥50萬元作為古籍保護專項經(jīng)費,用于古籍普查、古籍修復、古籍數(shù)字化等內(nèi)容,但古籍數(shù)字化開支較大,經(jīng)費并沒有單獨分開,而是和古籍保護經(jīng)費捆綁在一起。這對于云南省圖書館20 萬冊古籍藏量來說,無疑是杯水車薪。因為經(jīng)費缺乏,給古籍數(shù)字化規(guī)劃帶來了困難,阻礙了古籍數(shù)字化進程。

4 數(shù)字人文在圖書館古籍數(shù)字化中的新實踐

4.1 加強古籍數(shù)字化標準建設

應在數(shù)字人文的大框架下進一步加強標準化建設,加快古籍數(shù)字化相關(guān)標準的研制,整合現(xiàn)有標準,在保證古籍數(shù)字資源格式統(tǒng)一、數(shù)據(jù)規(guī)范、長期可讀、便于共享的準則下,逐漸建成相應的標準體系,保證數(shù)字資源質(zhì)量。

4.2 牽頭開展特色資源建設中的數(shù)字人文應用項目

圖書館依托現(xiàn)有的資源、技術(shù)和存儲優(yōu)勢,可牽頭主導并參與建設的數(shù)字人文項目,從現(xiàn)在的古籍數(shù)字化建設進入到開展古籍數(shù)字人文項目研究和實踐,形成從古籍數(shù)字化資源到數(shù)據(jù)化加工,再到智慧化呈現(xiàn)的遞進式發(fā)展。應在充分調(diào)研學者研究需求的基礎上,建立基于特色資源的數(shù)據(jù)平臺,聯(lián)合各領域人文學者和信息技術(shù)人員,提高研究與建設效率,促進學術(shù)交流與技術(shù)進步。開展特色資源建設中的數(shù)字人文應用項目是對特色資源的開發(fā)與共享,需要與不同國家、不同地區(qū)、不同機構(gòu)的研究團隊合作,以實現(xiàn)資源的多樣性、開放性和兼容性。如人物傳記類數(shù)字人文項目,不僅僅是數(shù)據(jù)規(guī)模巨大,并且對數(shù)據(jù)的處理以及發(fā)布使用模式也應當是結(jié)構(gòu)化的、帶地理方位信息的,這就要求圖書館認識到協(xié)作的重要性。

4.3 實現(xiàn)古籍文獻組織及語義檢索。

具體用來發(fā)布、共享及鏈接相關(guān)的數(shù)字資源,使以知識為基礎的邏輯關(guān)聯(lián)和以語義為基礎的信息檢索成為可能。關(guān)聯(lián)數(shù)據(jù)主要采用資源描述框架(RDF)和統(tǒng)一資源標識(URI)進行資源描述與書目數(shù)據(jù)發(fā)布,通過這些技術(shù),可以對已經(jīng)抽取出來的知識進行知識表示、知識訪問和知識推理,形成可視化的知識圖譜。將難以理解的數(shù)據(jù)空間轉(zhuǎn)化成具體的視覺空間,有助于用戶利用自身的視覺識別數(shù)據(jù)空間當中隱藏的知識。進而在網(wǎng)絡上發(fā)布資源、整合資源,使以語義為基礎的信息檢索得以實現(xiàn)。將現(xiàn)有的古籍數(shù)字資源展開深層次的組織,發(fā)掘數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián)性,對相應的目錄數(shù)據(jù)進行知識組織和關(guān)聯(lián)化發(fā)布,以提高文獻資源的查全率與查準率。在分散于書籍和文本中的人物、時間、地點等之間建立聯(lián)系,構(gòu)建覆蓋全面的知識網(wǎng),使資源得到更加有效的利用,盡可能滿足用戶的訴求。如上海圖書館的《華人家譜總目:上海圖書館家譜知識服務平臺》數(shù)字人文項目,就是利用數(shù)據(jù)關(guān)聯(lián)技術(shù)建立并發(fā)布家譜關(guān)聯(lián)數(shù)據(jù),數(shù)據(jù)之間能夠進行交叉比對,將原本孤立的宗族分支聯(lián)系起來。在紙本家譜上沒關(guān)聯(lián)的孤立的家譜,通過數(shù)字化技術(shù),有望建立數(shù)據(jù)關(guān)聯(lián)。[10]

4.4 構(gòu)建基于GIS技術(shù)的古籍數(shù)字化地理信息系統(tǒng)

GIS即地理信息系統(tǒng),它將事物的空間數(shù)據(jù)和屬性數(shù)據(jù)結(jié)合在一起,用于采集、加工、保存、組織、查閱及顯示空間數(shù)據(jù),為其他諸多學科的研究提供了一種基于空間方位的地理模型分析方法,可以把位置屬性融入到外部相關(guān)屬性中,然后利用地圖使信息清楚地展現(xiàn)在用戶面前,為傳統(tǒng)的古籍信息分析方法提供全新的視角和成果展現(xiàn)方式。該技術(shù)使古籍數(shù)字化有了新的突破,創(chuàng)新了檢索模式和檢索入口,它把地圖特有的可視化效果和位置解析功能同數(shù)字資源相結(jié)合,形成了兼具時間和空間特性的直觀檢索集,這是對傳統(tǒng)檢索模式的豐富和改進。[11]

GIS 技術(shù)在古籍數(shù)字化領域運用的成功事例很多,較有代表性的是《中國歷代人物傳記資料庫(CBDB)》,它是由哈佛大學費正清中國研究中心、中國臺灣“中央研究院”歷史語言研究所、北京大學中國古代研究中心及中文在線聯(lián)合推出的記錄我國古典數(shù)據(jù)的數(shù)字人文資源平臺。資料庫將分布于歷史資料中的與人物有關(guān)的非結(jié)構(gòu)化文本數(shù)據(jù)展開結(jié)構(gòu)化標引,如把人名、時間、地點、職官、入仕方式、著作、社會關(guān)系等重要信息的標引轉(zhuǎn)換成結(jié)構(gòu)化的信息,并進行著錄,構(gòu)建出相應的大數(shù)據(jù)集。研究者可以輕而易舉地獲取數(shù)據(jù)并開展地理空間、社會網(wǎng)絡、群體特征等方面的探究。[12]

云南省圖書館開發(fā)的“云南古籍數(shù)字圖書館”平臺首頁的古籍分布動態(tài)圖,引入了GIS 檢索技術(shù),為讀者提供了時空檢索,顯示了各歷史時期云南古籍上線數(shù)量,使檢索結(jié)果清晰直觀。

4.5 加強古籍文獻數(shù)字資源推廣力度

為適應更多人群的閱讀需求,提高古籍文獻數(shù)字資源的利用效率,圖書館可運用多種創(chuàng)意元素,根據(jù)古籍文獻數(shù)字資源的類型和特點,通過微博、微信、QQ、直播、公益廣告等新媒體工具,以及開展游戲式互動活動等讀者喜愛的方式來宣傳、推廣古籍文獻數(shù)字資源,增強用戶體驗效果,提高他們利用資源的積極性、主動性,進一步帶動古籍文獻的閱讀推廣,讓更多的用戶了解古籍文獻資源的文化魅力。[13]

5 結(jié)語

數(shù)字人文的興起,對圖書館古籍數(shù)字化產(chǎn)生了極大的影響,使當前的古籍數(shù)字化工作暴露出了原有模式的不足。其借助數(shù)字人文理論與技術(shù)研究成果,為古籍文獻深度開發(fā)與利用提供了新的方法、模式與技術(shù)手段。圖書館作為古籍存藏主要機構(gòu),應將數(shù)字人文思想融入到古籍保護中,參考較為成功的模式,同有關(guān)組織展開協(xié)作,全方位地整合現(xiàn)有古籍數(shù)字資源,使古籍數(shù)字化向?qū)I(yè)化、精細化和智慧化發(fā)展。

猜你喜歡
古籍人文數(shù)據(jù)庫
人文
北京紀事(2024年1期)2024-01-03 03:16:55
中醫(yī)古籍“疒”部俗字考辨舉隅
關(guān)于版本學的問答——《古籍善本》修訂重版說明
天一閣文叢(2020年0期)2020-11-05 08:28:06
關(guān)于古籍保護人才培養(yǎng)的若干思考
天一閣文叢(2018年0期)2018-11-29 07:48:08
我是古籍修復師
金橋(2017年5期)2017-07-05 08:14:41
人文紹興
中國三峽(2017年3期)2017-06-09 08:14:59
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
人文社科
全國新書目(2016年5期)2016-06-08 08:54:10
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
鸡泽县| 兴和县| 华容县| 定陶县| 林芝县| 平昌县| 重庆市| 云霄县| 泽州县| 怀化市| 佛坪县| 乡宁县| 周宁县| 阳东县| 宁南县| 新源县| 安阳县| 两当县| 汽车| 阳城县| 宽城| 育儿| 甘洛县| 綦江县| 嘉黎县| 辰溪县| 磐石市| 龙州县| 广平县| 资源县| 兴城市| 叙永县| 静乐县| 浏阳市| 禄丰县| 泊头市| 尚志市| 监利县| 万盛区| 同仁县| 丰台区|