朱 男 劉婷婷
(山東省圖書館,山東濟南 250100)
隨著《中華人民共和國公共圖書館法》的頒布實施,中國圖書館事業(yè)邁進了黃金發(fā)展時期,地方文獻建設工作受到各級圖書館的高度重視,也得到國家的大力支持。地方文獻數(shù)字化有利于充分滿足讀者需求,有利于文獻保護及發(fā)揮文獻的價值,還有利于文化信息資源共享。地方文獻的數(shù)字化成為新環(huán)境下地方文獻工作發(fā)展的重中之重。然而受到資金、標準、版權、技術等多方面因素的影響,地方文獻數(shù)字化工作的推進在全國范圍內尚有多方面不足。山東省圖書館在地方文獻的數(shù)字化方面進行了探索與實踐,制作了山東文史資料專題數(shù)據(jù)庫。在保護了地方文獻的同時,也滿足了讀者需求,還取得了相應的社會效益。
文史資料是全國各級政協(xié)主編的反映中國近代歷史、文化、社會掌故等方面的文獻資料。以其鮮明的“三親”(親歷、親見、親聞)特色,最詳盡全面的敘述中國近代歷史。其中絕大部分內容由事件的親歷者執(zhí)筆敘述。[1]時過境遷其中大多數(shù)敘述者已經作古,這些記載幾成絕唱。因而這些文獻具有重要的歷史價值,極為珍貴。
1959年4月29日,在全國政協(xié)舉行的倡導政協(xié)文史資料工作茶話會上,時任全國政協(xié)主席周恩來提出了“政協(xié)委員要為國家文史資料工作做貢獻”這一指示。同年7月20日,政協(xié)全國委員會成立了文史資料研究委員會,其任務是“計劃、組織和推動全國委員會的委員和有關人士對于我國的近代史資料進行搜集、撰寫和研究工作。”經過傳達部署,全國大多數(shù)省市自治區(qū)政協(xié)委員會都成立了專門工作機構,積極開展史料征集工作,并且擴大到中小城市和縣一級的政協(xié)委員會。至1963年時,文史資料工作在全國已經發(fā)展到370多個省市縣級政協(xié)組織。
一般意義的文史資料有多種內容形式,一種是全國性的文史資料,定名為《文史資料選輯》,由中國文史出版社出版;一種是??莆氖焚Y料,冠以??泼Q,如《辛亥革命史料》;還有一種是地方省市縣各級文史資料,在文史資料前冠以地區(qū)名,由地方出版社出版,如《山東文史資料》等[2]。
1982年1月,政協(xié)山東省委員會文史資料研究委員會重新印制出版了“文革”前編輯的《山東文史資料》第一至四輯。自此,山東省各地市政協(xié)開始大規(guī)模編輯各類文史資料。之后據(jù)不完全統(tǒng)計,山東省縣以上政協(xié)編輯出版的各類文史資料近1100冊。為了更好地保護這些地方文獻,更好地發(fā)揮其價值,山東省圖書館積極進行了探索與實踐,制作了山東文史資料專題數(shù)據(jù)庫。
山東文史資料專題數(shù)據(jù)庫由山東省圖書館主持建設。該數(shù)據(jù)庫是以《山東文史資料》及濟南、德州、濰坊、青島、臨沂、聊城及其他所轄地市文史資料數(shù)字化成果為基礎,利用專業(yè)制作的數(shù)據(jù)庫發(fā)布平臺開展的地方文獻數(shù)字化建設的項目。該項目以保留文史資料的原版原貌為建設原則,以保護山東地方文獻為中心,為山東近現(xiàn)代史研究的專家學者提供資料,實現(xiàn)文獻資源的共建共享。
2016年,山東省圖書館啟動了山東文史資料專題數(shù)據(jù)庫建設項目,由數(shù)據(jù)庫發(fā)布服務平臺的建設工作和文史資料的數(shù)字化工作兩部分組成。2017年3月,發(fā)布平臺建設完成。2017年4月15日,山東文史資料專題數(shù)據(jù)庫平臺正式運行,并發(fā)布部分已數(shù)字化的文史資料(加工批次1、2)。之后文史資料的數(shù)字化工作分批次進行,于2017年9月和2018年8月分別發(fā)布了部分數(shù)字化文史資料(加工批次3、4)。項目計劃2020年完成全部山東地方文史資料的數(shù)字化工作。如表1所示。
表1 山東文史資料專題數(shù)據(jù)庫建設周期表
注:加工批次1由北京超星贈送
山東文史資料專題數(shù)據(jù)庫項目的資金由數(shù)字圖書館推廣工程地方文獻數(shù)字化項目(以下簡稱:推廣工程)資金和部分自籌資金組成。山東省圖書館采用政府招標的形式,通過與社會力量合作建設開展了該項目。山東文史資料專題數(shù)據(jù)庫資金、合作方、主要設備如表2所示。
表2 山東文史資料專題數(shù)據(jù)庫項目表
注:發(fā)布平臺、加工批次1由北京超星贈送
前面已提到,山東文史資料專題數(shù)據(jù)庫建設由數(shù)據(jù)庫發(fā)布服務平臺的建設工作和文史資料的數(shù)字化工作兩部分組成,以下是具體工作進程。
2.3.1 發(fā)布服務平臺的建設
2016年山東省圖書館開始對發(fā)布平臺進行規(guī)劃,后委托由北京世紀超星信息技術發(fā)展有限責任公司(以下簡稱:北京超星)負責開發(fā)。該平臺系統(tǒng)是一款基于Java+SQL Server的數(shù)字化資源管理發(fā)布系統(tǒng)軟件,是一個經過完善設計并適用于各種服務器環(huán)境(如UNIX、LINUX、WINDOWS等)的高效、全新、快速、安全的數(shù)字化資源管理發(fā)布服務平臺。
2.3.2 文史資料的數(shù)字化
文史資料的數(shù)字化工作是項目的重中之重,數(shù)字化文史資料的質量決定了數(shù)據(jù)庫的質量,決定了未來的服務效能。文史資料的數(shù)字化工作分為加工和驗收兩部分。加工由合作方完成,分為:圖書掃描、TIFF圖片處理、TIFF圖片命名、TXT文字轉換、發(fā)布級PDF對象數(shù)據(jù)制作幾個步驟。驗收由山東省圖書館專人負責。截止2018年8月,各合作方共完成了數(shù)字化文史資料492種/冊111385頁,存儲總量約800GB,如表3所示。
表3 山東文史資料專題數(shù)據(jù)庫數(shù)字化文獻種/冊/頁數(shù)
注:加工批次1中后有15種/冊被剔除
在對山東文史資料專題數(shù)據(jù)庫進行頁面設計時,考慮到數(shù)字化的文史資料總種/冊數(shù)較少,因此頁面設計以簡潔、便利為主。數(shù)據(jù)庫主頁面劃分為檢索區(qū)、圖書分類區(qū)、圖書推薦區(qū)、公告區(qū)及排行榜四大區(qū)域。其中能夠實現(xiàn)的功能有:瀏覽數(shù)據(jù)庫欄目,了解全庫概貌;檢索功能,讀者可以選擇書名、作者、主題詞三項關鍵詞檢索所需文史資料;瀏覽功能,讀者可以瀏覽文史資料全文。山東文史資料專題數(shù)據(jù)庫頁面左側圖書分類區(qū)按地域劃分展示了《山東文史資料》及其他所轄地市文史資料,分為18個子欄目,各欄目如表4所示。
表4 山東文史資料專題數(shù)據(jù)庫類目表
為更好地保護山東省地方文獻,山東省圖書館于2002年底開始籌備建設山東地方文獻專藏。2003年,山東省圖書館地方文獻閱覽室正式開放。目前,山東省圖書館地方文獻閱覽室共有館藏約45000多種70000多冊,主要收藏1949年以后出版的在內容上具有山東地方特征的文獻,如地方志、年鑒、地方人物傳記、文史資料等。
山東省圖書館地方文獻閱覽室設立了文史資料專架,藏有《山東文史資料》及地市文史資料600余種1000余冊。這些文史資料主要由山東省及各地市政協(xié)、出版社繳送而來,其中1990年之前出版的300余種400余冊多為非正式出版物且破損嚴重。山東文史資料專題數(shù)據(jù)庫的建設,為有效保護這批地方文獻起到了重要的作用。
眾所周知,版權問題是地方文獻數(shù)字化工作的最大難點。版權問題的處理結果直接影響數(shù)據(jù)庫的建設和使用范圍。近些年來隨著全社會版權意識提高,版權轉讓費用居高不下,很多版權的轉讓費用遠遠高于文獻數(shù)字化制作的費用。如果使用進入公有領域的地方文獻進行數(shù)字化,其版權的甄別工作量又相對復雜,耗時較長。山東文史資料專題數(shù)據(jù)庫在建設過程中,較好的解決了版權問題。
山東省政協(xié)主持撰修了《山東文史資料》及山東所轄地市區(qū)縣文史資料,是版權所有者。山東省圖書館通過參與山東省“兩會”的會場服務工作以及提供參政議政專題資料,與山東省政協(xié)建立了長期良好的合作關系。
在山東文史資料專題數(shù)據(jù)庫建設過程中,山東省圖書館與山東省政協(xié)展開了多次磋商。最終,山東省政協(xié)同意山東省圖書館對《山東文史資料》及山東所轄地市區(qū)縣文史資料進行數(shù)字化,并在局域網(wǎng)內免費使用數(shù)字化后的文史資料。因此,山東省圖書館一次性解決了大量書籍的版權問題,節(jié)省了人力、物力、財力。
數(shù)字圖書館推廣工程(以下簡稱:推廣工程)是由文化部、財政部在“十二五”期間啟動的重大文化惠民工程。推廣工程地方文獻數(shù)字化項目是推廣工程的子項目之一,選取具有鮮明地域特色、較高文獻和歷史價值的1949年以來出版的方志、地方文史資料、珍貴少數(shù)民族語言資料等地方圖書、期刊和報紙資源進行數(shù)字化加工。
山東省圖書館承建的2015-2018年度推廣工程地方文獻數(shù)字化項目,包含地方圖書數(shù)字化、地方報紙數(shù)字化、地方少數(shù)民族語言書刊數(shù)字化3個子項目。其目的是整合各地區(qū)特色資源,保證核心資源的永久儲存,充分發(fā)揮公共圖書館的“資源保存、文化傳承”作用。
在山東文史資料專題數(shù)據(jù)庫的建設過程中,山東省圖書館有效利用了推廣工程的資金、標準、指導和技術支持。
3.3.1 推廣工程的資金
自2016年起,國家向山東省圖書館劃撥專項資金,用于推廣工程地方文獻數(shù)字化項目。山東省圖書館將推廣工程地方圖書數(shù)字化項目中間產生的加工批次2、3的數(shù)字化文史資料發(fā)布在山東文史資料專題數(shù)據(jù)庫中。
山東地方文史資料專題數(shù)據(jù)庫已完成的4批次地方文史資料數(shù)字化工作中,計劃資金47萬元,實際使用資金39.43萬元,其中32萬元為2015、2017年度地方圖書數(shù)字化項目資金。山東省圖書館歷年來地方文獻數(shù)字項目專項資金如表5所示。
表5 山東省圖書館地方文獻數(shù)字項目(專項資金)分配表
注:2016、2018年度山東省圖書館申請地方報紙數(shù)字化項目
在完成2015、2017年度地方圖書數(shù)字化項目的同時,山東省圖書館有效利用了推廣工程的資金,加快了山東文史資料專題數(shù)據(jù)庫的建設進程。
3.3.2 推廣工程的標準
標準的制定是地方文獻數(shù)字化工作中的難點。在推廣工程實施之前,全國范圍內地方文獻數(shù)字化建設一直沒有采用統(tǒng)一的標準。
山東文史資料專題數(shù)據(jù)庫建設初期,考慮到首先需要完成2015年度地方圖書數(shù)字化項目,故文獻加工標準采用國家圖書館《推廣工程數(shù)字資源聯(lián)合建設地方文獻數(shù)字化加工規(guī)則(2015)》[3](以下簡稱:《加工規(guī)則2015版》)。該標準經過國家圖書館多次論證并經過實踐檢驗,設置詳盡、科學、合理。
《加工規(guī)則2015版》主要涵蓋了圖像數(shù)字化和命名規(guī)則、雙層PDF標準、圖像文本轉換要求、數(shù)據(jù)庫命名及加工、數(shù)據(jù)備份、說明文件、存儲介質命名幾個部分。結合山東文史資料專題數(shù)據(jù)庫的實際需求,所制定的加工標準最主要部分包括:圖像標準、命名規(guī)則、數(shù)據(jù)存儲規(guī)則和元數(shù)據(jù)著錄規(guī)則四個部分。如圖像標準要求存儲數(shù)據(jù)為非壓縮TIFF格式圖片,其分辨率為普通字體300dpi(小于5號字體400dpi);其色彩位深為黑白頁和灰度頁8位(彩色頁24位)等。
3.3.3 推廣工程的指導和技術支持
地方文獻的數(shù)字化過程中,會出現(xiàn)各類技術問題,影響了地方文獻數(shù)字化工作的建設進程。推廣工程采用了“專題培訓+專人指導”的模式對各地圖書館地方文獻數(shù)字建設給予指導和技術支持。
文化部印發(fā)的《文化部關于加快實施數(shù)字圖書館推廣工程的意見》(文公共發(fā)【2012】33號)指出,國家圖書館每年完成不少于3次面向省級數(shù)字圖書館從業(yè)人員的專題培訓;省級圖書館對區(qū)域內圖書館每年組織不少于2次的數(shù)字圖書館專題培訓。同時,推廣工程設置了“地方文獻數(shù)字化”工作QQ群,由6名專業(yè)技術人員負責,對各地圖書館地方文獻數(shù)字建設給予指導。
既有系統(tǒng)的定期培訓,又有便捷的專人指導,推廣工程指導和技術支持為山東文史資料專題數(shù)據(jù)庫的建設掃清了技術障礙。
數(shù)據(jù)庫的利用率是衡量其服務效能的關鍵指標。自2017年4月15日山東文史資料專題數(shù)據(jù)庫上線以來,截止至2018年6月30日,數(shù)據(jù)庫總訪問量為3786人/次。與此相比,近年來山東省圖書館地方文獻閱覽室讀者到館人次分別為2015年1029人/次,2016年612人/次,2017年825人/次,訪總量為2466人/次。數(shù)據(jù)庫的總瀏覽量為8244人/次。且同一時段內,山東省圖書館晚清民國期刊全文據(jù)庫(鏡像站)瀏覽總量為2284人/次。
數(shù)據(jù)庫上線以來,其訪問量、瀏覽量呈明顯成上升趨勢,這說明山東文史資料專題數(shù)據(jù)庫為讀者研究山東地方文史資料發(fā)揮了積極的作用。如圖1所示。(單位:人/次)
圖1 山東文史資料專題數(shù)據(jù)庫2017年4月-2018年6月訪問量、瀏覽量柱狀圖
在山東文史資料專題數(shù)據(jù)庫的建設過程中,山東省圖書館與一些社會力量就發(fā)布服務平臺的建設工作和文史資料的數(shù)字化工作開展了較為深入的合作。它們分別是北京超星公司、北京今朝在線科技有限公司和福州志科信息技術有限公司。
與社會力量合作主要是考慮到社會力量有以下優(yōu)點:(1)技術成熟,有專業(yè)的資源建設和質檢團隊,擁有多家公共圖書館類似項目成功運營的經驗;(2)價格合理,相關從業(yè)企業(yè)較多,行業(yè)內價格相對透明;(3)服務完善,有相應的建設實施流程和保證措施;(4)具有相關資格、資質,符合《中華人民共和國采購法》[4]第二十二條規(guī)定供應商資格條件,如:具有獨立承擔民事責任的能力;具有良好的商業(yè)信譽和健全的財務會計制度等。
通過近兩年的建設,山東文史資料專題數(shù)據(jù)庫雖然呈現(xiàn)了令人較為滿意的成果,但在建設過程中也出現(xiàn)了各方面的問題。
山東文史資料專題數(shù)據(jù)庫陸續(xù)制作了4批次數(shù)字化文史資料,其中第1、2批次的數(shù)字化文史資料采用的標準以《加工規(guī)則2015版》為藍本。
2017年起,國家圖書館修訂了《地方文獻數(shù)字化加工規(guī)則(2017)》[5](以下簡稱:《加工規(guī)則2017版》),這版規(guī)則與《加工規(guī)則2015版》相比,有多項修改,其中有兩項給山東文史資料專題數(shù)據(jù)庫的建設帶來了困難,這兩項修改分別是:(1)修改了PDF圖像的要求,由雙層PDF修改為單層雙PDF;(2)修改了TXT文本文件的質量要求,由TXT文本的錯誤率從不超過0.3‰修改為正確率達到90%。
與此同時,專項資金也由2015年度的10元/頁減少到2017年度的4元/頁。由于缺乏資金,第3批次的數(shù)字化文史資料無法與第1、2批次的數(shù)字化文史資料制作標準一致。標準的差異造成了后期自籌資金建設的第4批次數(shù)字化文史資料選取標準的困難。
最終經過多方面權衡,第3、4批次的數(shù)字化文史資料采用的標準以《加工規(guī)則2017版》為藍本。
文史資料的數(shù)字化工作嚴守招標流程,造成了每個批次的加工商也有所不同。而不同的加工商容易出現(xiàn)的加工錯誤也有所不同:有的加工商TIFF圖片制作過程中容易造成批量圖片的歪斜;有的加工商在TXT文本制作中文字的OCR準確率尚能達到標準,而數(shù)字、標點符號OCR識別率卻很低;有的加工商不嚴守加工流程,TIFF圖片尚未經過審校,就開始制作PDF圖像,一旦出現(xiàn)錯誤就需要反復修改。
針對加工質量出現(xiàn)的問題,山東省圖書館制定了“一通三查”的監(jiān)管制度,即:(1)數(shù)字化工作開始前與加工商多次溝通,使其準確理解項目需求;(2)掃描完TIFF圖片進行抽查,并對照發(fā)現(xiàn)的錯誤督促其修改,保證圖片質量沒有“通病”;(3)對OCR識別后的TXT文本進行抽查,并對照個別錯誤督促其修改,保證文本質量沒有“通病”;(4)對加工商最終提交的數(shù)字化文史資料數(shù)據(jù)進行抽查并提出修改意見。通過“一通三查”制度的實施,數(shù)字化文史資料的加工質量得到了有效的保證。
山東文史資料專題數(shù)據(jù)庫自2017年4月15日投入運行以來,分批次陸續(xù)發(fā)布了數(shù)字化文史資料492冊111385頁。山東省圖書館計劃于2019年完成30000頁左右文史資料的數(shù)字化工作,并在未來2年內完成館藏約600種《山東文史資料》及部分地市文史資料的全部數(shù)字化工作。山東省圖書館將已數(shù)字化的文史資料贈送給山東省政協(xié)文史委保存,并提供山東文史資料專題數(shù)據(jù)庫鏡像站點在山東省政協(xié)網(wǎng)站上發(fā)布。這為政協(xié)委員們查閱資料提供了方便,并得到了政協(xié)委員們的一致好評。山東文史資料專題數(shù)據(jù)庫的建設,在有效地保護了地方文獻的同時,也滿足了讀者需求,還取得了相應的社會效益。