關(guān)鍵詞:智慧圖書館;報紙專題庫;國家圖書館;數(shù)字化項目
摘 要:報紙資源是圖書館館藏資源的重要組成部分,具有較高的史料價值和學(xué)術(shù)價值。文章以國家圖書館在建報紙數(shù)字化項目為例,對不同類型報紙的數(shù)據(jù)庫建設(shè)要點(diǎn)進(jìn)行了對比分析,旨在為其他圖書館報紙專題庫建設(shè)提供參考。
中圖分類號:G250.7 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-1588(2022)05-0096-05
圖書館館藏資源數(shù)字化是圖書館信息資源建設(shè)的重要內(nèi)容,可提高館藏資源利用率,滿足用戶多元化的信息需求。在智慧圖書館背景下,圖書館可通過數(shù)據(jù)資源挖掘?qū)崿F(xiàn)知識增值和服務(wù)創(chuàng)新。報紙專題數(shù)據(jù)庫是圖書館按照某一主題(學(xué)科、領(lǐng)域、事件、時間等)進(jìn)行內(nèi)容遴選[1],通過知識組織、數(shù)據(jù)挖掘、數(shù)據(jù)加工和數(shù)字化轉(zhuǎn)換、數(shù)據(jù)關(guān)聯(lián)等步驟,用計算機(jī)可識別和處理的文本、圖片或其他多媒體形式組建起來的可供用戶查詢和檢索使用的數(shù)據(jù)資源集成[2]。報紙資源是圖書館館藏資源的重要組成部分,是記錄各個時期中國政治、經(jīng)濟(jì)、軍事、外交、生活等的重要文獻(xiàn),具有很高的史料價值和學(xué)術(shù)價值。但其出版形式和載體形態(tài)具有特殊性:報紙數(shù)量龐大但保存情況不容樂觀,參考價值高但數(shù)字化揭示程度低。特別是承載著中國特殊變革時期的民國報紙,產(chǎn)生于機(jī)械化造紙初期:造紙材料混雜、制漿工藝落后,導(dǎo)致報紙酸性強(qiáng)、保存性差。筆者曾深入國家圖書館報紙典藏庫調(diào)研,發(fā)現(xiàn)民國報紙破損程度非常高,頁面發(fā)黃,紙質(zhì)發(fā)脆;相當(dāng)一部分年代久遠(yuǎn)的報紙已經(jīng)喪失閱覽功能,束之高閣無人問津。報紙資源較高的文獻(xiàn)價值和較低的利用率這對矛盾,使開展館藏報紙資源的保護(hù)和深度開發(fā)工作迫在眉睫,報紙專題數(shù)據(jù)庫建設(shè)應(yīng)運(yùn)而生。筆者在國家圖書館從事文獻(xiàn)數(shù)字化工作多年,參與了多個報紙專題庫建設(shè),在此對不同類型報紙的數(shù)據(jù)庫建設(shè)要點(diǎn)進(jìn)行對比分析,希望能為其他圖書館報紙資源專題庫建設(shè)提供參考。
1 報紙專題庫建設(shè)的意義
1.1 報紙專題庫建設(shè)是智慧圖書館資源建設(shè)和保護(hù)的重要途徑
一方面,開展報紙專題數(shù)據(jù)庫建設(shè)可以保護(hù)館藏紙質(zhì)報紙資源,特別是民國時期破舊老報紙資源,延長報紙資源的使用壽命;另一方面,專題庫建設(shè)是實(shí)現(xiàn)報紙資源增值服務(wù)的重要途徑[3]。報紙資源的載體多為實(shí)體資源和縮微膠片,亟待保護(hù)的年代久遠(yuǎn)的紙質(zhì)報紙資源已經(jīng)逐漸喪失了閱覽功能,而縮微膠片對讀者的閱讀設(shè)備、使用技巧要求較高,且不能提供一站式檢索服務(wù),閱讀成本高而閱讀效率底,用戶體驗差。報紙專題庫的建設(shè)從根本上解決了老舊報紙的保護(hù)和利用問題。一方面,數(shù)字化后的實(shí)體報紙資源免去了復(fù)制、翻閱之難,紙質(zhì)文獻(xiàn)可以被更好地保護(hù);另一方面,報紙專題庫的建設(shè)實(shí)現(xiàn)了報紙資源生命周期的延續(xù),使靜態(tài)無序的報紙資源“活過來”了。
1.2 報紙專題庫建設(shè)是智慧圖書館為讀者提供縱深服務(wù)的重要舉措
大數(shù)據(jù)時代,智慧圖書館是繼數(shù)字圖書館、移動圖書館后在“互聯(lián)網(wǎng)+”時代應(yīng)運(yùn)而生的新型圖書館模式。智慧圖書館要求圖書館能夠通過物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等新一代信息技術(shù)的運(yùn)用,改變圖書館系統(tǒng)和用戶的交互方式,進(jìn)而提高交互的精準(zhǔn)度、靈活性和響應(yīng)速度[4]。圖書館在建數(shù)字化項目都要以為用戶提供無時不在、無處不在的個性化定制服務(wù)為目標(biāo)。報紙專題庫可以根據(jù)不同的主題呈現(xiàn)不同規(guī)模的集合體。例如,國家圖書館“中國歷史文獻(xiàn)總庫·近代報紙數(shù)據(jù)庫”(即民國報紙數(shù)據(jù)庫)就是將所有館藏民國報紙縮微膠片數(shù)字化并進(jìn)行報紙標(biāo)題內(nèi)容OCR(Optical Character Recognition,光學(xué)字符識別)文字識別,數(shù)據(jù)庫設(shè)置了任意詞、區(qū)域、拼音等檢索入口,實(shí)現(xiàn)了館藏民國報紙一站式導(dǎo)航服務(wù),讀者也擺脫了必須到館查閱資料的困難,人機(jī)交互隨時隨地[5]。
2 國家圖書館報紙專題庫建設(shè)現(xiàn)狀
截止到2021年12月,國家圖書館館藏中文報紙實(shí)體資源196,764(合訂)冊,外文報紙資源102,238冊;館藏數(shù)字化報紙資源3,430種。門戶網(wǎng)站中,已建成并免費(fèi)對讀者開放的大型報紙專題數(shù)據(jù)庫有中國歷史文獻(xiàn)總庫·紅色文獻(xiàn)數(shù)據(jù)庫、近代報紙數(shù)據(jù)庫、申報、Newspaper Source(EBSCO)等18個。在眾多報紙專題數(shù)據(jù)庫中,筆者曾參與了民國報紙縮微膠片數(shù)字化項目和中華人民共和國大事記館藏報紙展項目。在數(shù)據(jù)庫建設(shè)形式方面,以上項目基本包括了現(xiàn)階段我國圖書館報紙資源數(shù)字化工作的兩個方向:基于全文ORC識別的小型專題數(shù)據(jù)庫以及基于標(biāo)題識別、標(biāo)引的大而全數(shù)據(jù)庫。筆者將從專題庫建設(shè)涉及的主題內(nèi)容遴選、標(biāo)準(zhǔn)規(guī)范制定和其他相關(guān)特殊事項等方面分析不同類型專題庫的不同特點(diǎn)。
3 報紙專題庫建設(shè)要點(diǎn)對比分析
3.1 專題內(nèi)容遴選
數(shù)據(jù)資源是數(shù)據(jù)庫的核心。不同類型數(shù)據(jù)庫的數(shù)據(jù)采集策略不同,無論是大型專題數(shù)據(jù)庫如民國報紙數(shù)據(jù)庫,還是小型展覽型特色主題數(shù)據(jù)庫,資源的采訪原則都應(yīng)精而全,要選擇完整的、具有館藏特色的報紙資源。
3.1.1 綜合性數(shù)據(jù)庫。國家圖書館民國報紙縮微數(shù)字化項目是國家圖書館和出版社、外包公司合作完成的民國報紙專題數(shù)據(jù)庫,該項目以1919—1949年間的民國報紙為對象,盡可能收錄民國期間出版發(fā)行的所有報紙資源。館藏報紙縮微膠片資源是其加工對象,大而全是其特點(diǎn),不僅有《新華日報》《大剛報》這樣的大報,還有讀者廣泛、內(nèi)容休閑又具趣味性的小報,如《電影報》《北平小報》《新兒童報》《文藝新聞》等。由于報紙版面數(shù)量巨大,經(jīng)費(fèi)有限,且民國報紙破損嚴(yán)重,本著最大限度搶救報紙資源的原則,項目組最后將該項目的流程確定為:在每版掃描圖像的基礎(chǔ)上對版面篇目標(biāo)題(包括引題、標(biāo)題、副題)進(jìn)行OCR文字識別,并對篇目的位置范圍進(jìn)行置標(biāo),最終實(shí)現(xiàn)了基于篇目標(biāo)題檢索的民國報紙庫閱覽服務(wù)[6]。
3.1.2 特色主題數(shù)據(jù)庫。國家圖書館另一報紙資源庫中華人民共和國大事記線上展覽項目是為慶祝中華人民共和國成立七十周年建設(shè)的,該數(shù)據(jù)庫通過對1949—2019年國內(nèi)外發(fā)生的重大歷史事件及相關(guān)報道的揭示,客觀真實(shí)地反映了我國近70年來發(fā)生的巨大變化,獻(xiàn)禮共和國成立七十周年。與此同時,項目組將建成的專題數(shù)據(jù)庫對外開放,為專家學(xué)者提供知識服務(wù)[7]。該項目圍繞中華人民共和國成立七十周年這一主題,以1949—2019年《人民日報》為加工對象,以共和國70年來重大歷史事件報道為脈絡(luò),遴選相關(guān)度較高的報道并輔以圖書、講座等其他館藏資源,形成關(guān)聯(lián)數(shù)據(jù)以豐富事件內(nèi)容。較之覆蓋面較廣的綜合性民國報紙數(shù)據(jù)庫,大事記報紙資源展雖然信息源遴選單一、專指性強(qiáng),但豐富的關(guān)聯(lián)數(shù)據(jù)資源使該報紙展覽資源庫更加立體。下頁表1對以上兩類自建庫的特點(diǎn)進(jìn)行了對比分析,圖書館可根據(jù)需求和館藏資源特點(diǎn)決定建庫類型。
3.2 項目標(biāo)準(zhǔn)規(guī)范
3.2.1 元數(shù)據(jù)標(biāo)準(zhǔn)。民國報紙數(shù)字化加工項目是在圖像掃描的基礎(chǔ)上進(jìn)行文章標(biāo)題內(nèi)容的文字識別,由專業(yè)的外包公司完成數(shù)字化加工,國家圖書館負(fù)責(zé)數(shù)據(jù)驗收。民國報紙元數(shù)據(jù)的內(nèi)容由兩部分組成:館藏縮微膠片的元數(shù)據(jù)(MARC格式)以及加工過程中產(chǎn)生的新的元數(shù)據(jù)內(nèi)容(使用ACCESS數(shù)據(jù)庫和XML文件保存)。元數(shù)據(jù)內(nèi)容包括:版面信息元數(shù)據(jù)(題名、卷期、版次、出版日期等)、正文元數(shù)據(jù)(欄目、標(biāo)題、副標(biāo)題、作者等)、圖片元數(shù)據(jù)(圖片版次、欄目、標(biāo)題、副題)、廣告元數(shù)據(jù)(卷期、版次等)等[8]。
中華人民共和國大事記線上展覽項目則是對報紙內(nèi)容做了更深層次揭示的專題報紙數(shù)據(jù)庫。數(shù)據(jù)庫網(wǎng)站首頁提供年份導(dǎo)航,用戶可根據(jù)年份瀏覽共和國70年來的重大事件。例如,1967年6月17日,中國第一顆氫彈空爆試驗成功。點(diǎn)擊“查看報紙”按鈕,讀者可以瀏覽與此大事件所有相關(guān)的報道的圖片和文字以及與此事件相關(guān)的館藏圖書、展覽等資源。在該項目加工過程中,涉及的圖像文件信息以說明文件的形式存在,包括唯一標(biāo)識號、出版日期、版面、事件年份、事件編號、備注以及事件描述等信息。
3.2.2 對象數(shù)據(jù)標(biāo)準(zhǔn)。經(jīng)過項目組成員的大量測試和對比分析,最終確定民國報紙長期保存級數(shù)據(jù)為不壓縮TIFF格式,發(fā)布服務(wù)級為JPG格式和雙層PDF格式:上層為圖像,下層為文本;而大事記線上展覽項目的原始圖像文件也采用TIFF格式,發(fā)布服務(wù)級采用JPG格式和TXT文本數(shù)據(jù),方便讀者閱讀和利用。
參考《國家圖書館圖像數(shù)據(jù)加工標(biāo)準(zhǔn)和操作指南》中普通文獻(xiàn)的掃描分辨率,民國報紙縮微膠片數(shù)字化項目和中華人民共和國大事記項目圖像掃描參數(shù)都選擇400dpi。不同的是,由于大多數(shù)民國報紙印刷都是黑色文字和圖片,幾乎沒有彩色字樣,該項目在啟動之初經(jīng)過黑白二值掃描和灰度掃描對比測試,最后確定民國報紙數(shù)字化掃描采用灰度掃描;而大事記項目是縮微膠片數(shù)字化和實(shí)體報紙掃描相結(jié)合,涉及大量彩色圖像,故該項目原始TIFF圖像的掃描和格式存儲標(biāo)準(zhǔn)涉及灰度圖像和彩色圖像兩種,詳見表2、表3。
3.2.3 存儲結(jié)構(gòu)。一般來講,一個數(shù)字對象就是一個具有唯一標(biāo)識的數(shù)字資源,每個對象數(shù)據(jù)在加工過程中會被賦予不同的存儲結(jié)構(gòu)和路徑。民國報紙的對象數(shù)據(jù)存儲路徑分為三層:第一層為報紙的唯一標(biāo)識號,不同報紙被賦予不同的唯一標(biāo)識號,號碼來自報紙縮微膠片元數(shù)據(jù);第二層為8位數(shù)字組成的期號;第三層為三位數(shù)字組成的版數(shù)。例如,唯一標(biāo)識號為00N000418,出版日期為1948年5月31號的《福建時報》第1版的圖像掃描文件的存儲路徑為\\00N000418\\19480531\\001。
194901002.jpg
194901003.jpg
194901事件描述.txt
中華人民共和國大事記線上展覽項目的加工對象是館藏《人民日報》縮微膠片數(shù)字化后的圖像文件以及館藏紙質(zhì)報紙經(jīng)掃描后的圖像文件。在此項目中,對象數(shù)據(jù)包括三種類型:原始TIFF文件、JPG文件及文本文件。TIFF文件進(jìn)行糾偏、去黑邊、格式轉(zhuǎn)化、添加水印、目標(biāo)篇目畫框等一系列數(shù)字化加工后,生成發(fā)布服務(wù)級JPG文件(用JPG_S表示)。TIFF文件和JPG文件命名規(guī)則一致,在此以JPG圖像舉例說明:圖像文件的唯一標(biāo)識號設(shè)為9位數(shù)字,前四位為事件發(fā)生年份,中間兩位是該年份事件編號,而后三位則是以001起始的數(shù)字序號。例如,若1949年發(fā)生的編號為1的重要事件涉及兩張報紙圖像,則1949年事件1的第一張圖像命名為194901001,第二張圖像命名為194901002。與此同時,為照顧不同用戶的閱讀習(xí)慣,項目特增加事件描述的文本文件(以TXT格式呈現(xiàn)事件全文內(nèi)容),文件存放于發(fā)布級成品數(shù)據(jù)JPG_S文件中該事件子目錄下。例如,1949年事件1的三張圖像和描述文件的命名和存儲路徑如下:
中華人民共和國大事記\JPG_S\1949\01\194901001.jpg
3.3 特殊事項
不同類型報紙庫的數(shù)據(jù)結(jié)構(gòu)和平臺展示方式不同,在數(shù)字化過程中會采用不同的加工策略。鑒于民國報紙數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性以及未來平臺檢索服務(wù)的需求,項目采用XML定義報紙數(shù)據(jù)結(jié)構(gòu),每版報紙標(biāo)記為一個XML文件,文件包含該版次所屬該期報紙的基本信息、各個篇目的標(biāo)題識別文字、篇目范圍置標(biāo)數(shù)據(jù)等具體內(nèi)容,通過坐標(biāo)定位實(shí)現(xiàn)標(biāo)引,保證用戶通過大小標(biāo)題和作者檢索能夠準(zhǔn)確定位該篇范圍。XML具體實(shí)例和版面呈現(xiàn)見圖1、圖2。
與此不同,大事記線上展覽項目報紙庫的目標(biāo)定位方式為基于年代的圖像數(shù)據(jù)瀏覽式,數(shù)據(jù)結(jié)構(gòu)簡單,所以采用在JPG圖像上畫紅色框線的方式實(shí)現(xiàn)事件關(guān)聯(lián)度最高篇目的展示。詳見下頁圖3。
除了揭示方式不同,報紙庫的知識標(biāo)引深度也不盡相同。已實(shí)現(xiàn)全文數(shù)字化的現(xiàn)當(dāng)代報紙資源庫既提供全文檢索服務(wù),又提供基于專題內(nèi)容的瀏覽服務(wù);而民國報紙資源實(shí)現(xiàn)全文OCR文字識別的范圍卻很有限,大部分都是PDF格式的全文數(shù)字化[9]。圖書館在報紙專題庫建設(shè)過程中,考慮的已經(jīng)不是要不要數(shù)字化,而是如何更高效地數(shù)字化以提高成品利用率,這就要求報紙庫建設(shè)過程中要不斷挖掘知識單元,建立知識聯(lián)系,實(shí)現(xiàn)知識增值服務(wù),使這塊資源寶庫源源不斷地創(chuàng)造價值。
4 結(jié)語
館藏報紙是圖書館資源不可或缺的重要組成部分。近現(xiàn)代報紙逐漸被灰塵布滿,被書蟲侵蝕,老舊報紙因不停翻閱而碎屑遍地,數(shù)量驟減,隨著歷史見證者、記錄者逐漸老去、消失,人類將會面臨巨大的損失。保護(hù)和開發(fā)報紙資源不僅是對歷史負(fù)責(zé),也是當(dāng)今智慧圖書館建設(shè)的要求。搶救老舊報紙、挖掘?qū)n}寶庫離不開多館合作和共建共享,重復(fù)建設(shè)易造成資源浪費(fèi),在建設(shè)類似民國報紙專題數(shù)據(jù)庫這樣的綜合數(shù)據(jù)庫的同時,各地圖書館更應(yīng)深挖地方特色報紙資源,建設(shè)特色專題庫,避免資源的重復(fù)建設(shè)。與此同時,智慧圖書館環(huán)境下,新媒體的運(yùn)用顯得格外重要,圖書館只有加強(qiáng)宣傳推廣工作,把數(shù)據(jù)庫做“活”做“大”,才能讓用戶看到,從而讓知識去找讀者,讓專題數(shù)據(jù)庫在專業(yè)領(lǐng)域發(fā)揮作用,為讀者提供更精準(zhǔn)有效的服務(wù)。
參考文獻(xiàn):
[1]孫建軍.人文社科專題數(shù)據(jù)庫建設(shè)關(guān)鍵技術(shù)與方法研究[J].信息資源管理學(xué)報,2020(5):11.
[2]李麗環(huán).高校檔案專題數(shù)據(jù)庫建設(shè)研究與實(shí)踐[J].蘭臺世界,2014(7):38-39.
[3]陳桂香.淺議民國報紙的數(shù)字化建設(shè):以重慶圖書館為例[J].科技情報開發(fā)與經(jīng)濟(jì),2013(4):27-29.
[4]嚴(yán)棟.基于物聯(lián)網(wǎng)的智慧圖書館[J].圖書館學(xué)刊,2010(7):65-68.
[5]中國歷史文獻(xiàn)總庫·近代報紙數(shù)據(jù)庫[EB/OL].[2022-01-05].http://bz.nlcpress.com/library/publish/defa ult/Main.jsp.
[6]肖紅.民國報紙數(shù)字化實(shí)踐中的主要問題及處理策略[J].圖書館學(xué)研究,2017(4):22-37.
[7]中華人民共和國大事記館藏報紙展[EB/OL].[2022-01-05].http://www.nlc.cn/dsb_zt/xzzt/ghgdsj./.
[8]肖紅,吳茗,曾燕.民國報紙縮微膠片數(shù)字化及服務(wù)探析:以國家圖書館為例[J].圖書館學(xué)刊,2015(10):89-92.
[9]任靜,林衛(wèi)東,李洪梅.公共圖書館民國報刊數(shù)字化建設(shè)現(xiàn)狀研究[J].山東圖書館學(xué)刊,2021(3):88-92.
(編校:周雪芹)
收稿日期:2022-04-24
作者簡介:姚昕(1987— ),國家圖書館館員。