2015年4月18日,中國新聞出版研究院發(fā)布了“第十三次全國國民閱讀調查”。報告數(shù)據(jù)顯示,2015年我國數(shù)字化閱讀方式的接觸率為64.0%,同比上升了5.9個百分點。數(shù)字閱讀首次明顯超過紙質閱讀。其中成年國民網(wǎng)絡在線閱讀率首次過半,達到51.3%,同比增長1.9%;成年國民手機閱讀率最高,達到60.0%,同比上升高達8.2個百分點,電子閱讀器閱讀、Pad閱讀及光盤閱讀等都呈增長態(tài)勢。
這些說明,隨著移動互聯(lián)網(wǎng)的迅猛發(fā)展、移動智能終端的普及和移動應用系統(tǒng)的逐步完善,數(shù)字圖書逐漸深入到人們生活、工作、學習的方方面面。近些年,“互聯(lián)網(wǎng)+”廣泛應用在數(shù)字圖書館創(chuàng)新管理與知識服務方面,這些應用的推廣促使數(shù)字閱讀成為一種時尚。
“互聯(lián)網(wǎng)+”是互聯(lián)網(wǎng)發(fā)展的新業(yè)態(tài),是以云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等新業(yè)務、新技術和新生態(tài)的發(fā)展為基礎。數(shù)字圖書館的發(fā)展也必然受到這些技術的影響。這些思想、理念和技術的應用都會使圖書館管理與服務水平有更大的提升。但中小型圖書館由于資金不足、人才缺乏、管理理念和對數(shù)字圖書館認識落后等問題制約了圖書館的數(shù)字化建設。本文單從技術角度談一下我國圖書館的數(shù)字化存在的一些問題和對策建議。
一、圖書館數(shù)字化建設中存在的主要問題
我國圖書館文獻資源數(shù)字化加工已有10多年的歷史,其加工和保存的技術方法有很多。早期文獻資源數(shù)字化加工以圖像轉化為主,在此基礎上我國探索了數(shù)字圖書館資源建設標準,如中國數(shù)字圖書館標準建設項目、大學數(shù)字圖書館國際合作計劃。在商業(yè)機構中,以同方知網(wǎng)、重慶維普和北京超星等為代表,他們在這方面進行了卓有成效的實踐,各公司又自行研制數(shù)據(jù)加工規(guī)范。文獻資源數(shù)字化加工的局限性隨著文獻資源數(shù)字化應用需求的不斷增長,文獻資源類型和數(shù)量發(fā)展迅速。與此同時,圖書館文獻資源數(shù)字化加工存在的問題也就凸現(xiàn)出來。
1、對數(shù)字化的認識不全面。數(shù)字化已在圖書、檔案工作中應用了很多年了,中小型圖書館的數(shù)字化多是將紙質圖書、報刊掃描產(chǎn)生圖像文檔,這是種以不可編輯的二進制形式存在的文件。從用戶查閱體驗和應用角度上看,這種圖像文檔文字既不清晰,也無法編輯,用起來很不方便。從數(shù)字圖書內容發(fā)展來看,在學術出版中圖表、音視頻和需要編輯處理的內容明顯增多,這種初級的數(shù)字化對圖書館的數(shù)字化建設已形成嚴重掣肘。
2、數(shù)字資源的存儲處理方式落后。隨著網(wǎng)絡技術的發(fā)展,特別是網(wǎng)格技術和大數(shù)據(jù)技術的飛快發(fā)展,使得非結構化數(shù)據(jù)的數(shù)量日趨增大。關系型數(shù)據(jù)庫是針對結構化數(shù)據(jù)的處理而產(chǎn)生的,無法很好地滿足現(xiàn)在網(wǎng)絡環(huán)境下對于非結構化數(shù)據(jù)的處理要求。中小型圖書館現(xiàn)存的全文文本、圖像、聲音、影視、超媒體等多種格式的資源,這些非結構化資源的存儲,使得原有的資源無法得到有效的管理。中小型圖書館目前大多數(shù)應用系統(tǒng)中的非結構化數(shù)據(jù)都是以二進制的格式存儲在關系型數(shù)據(jù)庫的BLOB或CLOB字段中或者數(shù)據(jù)庫中取文件目錄而文件保存到一個專門的路徑的方式,而這幾種存儲使得數(shù)據(jù)無法全文檢索,并且隨著處理數(shù)據(jù)量的迅速擴大致使讀者在查閱數(shù)字資源時等待時間變長,極大地降低了用戶體驗。
3、數(shù)字資源分散獨立。不同地區(qū)有不同的地域文化,這是獨一無二的,有些是不可復制的,幾乎所有的圖書館都有自己的特有文化和特色文獻資源,比如“地方文獻數(shù)據(jù)庫”、“地方文化數(shù)據(jù)庫”、“專題特色數(shù)據(jù)庫”等。各種文獻資源以各種載體形式分散于各個不同的圖書館中,這種不可共享的人無我有的壟斷性信息資源庫造成讀者使用困難。
4、數(shù)字資源同質化嚴重。在圖書館對文獻資源建設經(jīng)費、專款不足等難題和在文獻資源共建共享的過程中權威圖書情報機構資源霸權日益擴張的雙重作用下,特別是基層中小圖書館的話語權在相當程度上被剝奪,其數(shù)字資源的建設往往盲從或不得不追隨權威機構的指向,造成圖書館對數(shù)字資源的依賴性正日益加大。而各數(shù)據(jù)庫出版商單純地考慮自身利益,采取捆綁訂購和打包訂購的方法,將海量的文獻資源以“庫”為單位推向圖書館,這些資源流于一般化,趨于同質化且良莠不齊,甚者有錯誤。
5、數(shù)字資源利用率低。圖書館由于館藏書目數(shù)據(jù)庫、網(wǎng)絡數(shù)字資源、全文的電子版書、期刊數(shù)據(jù)庫、自建的特色數(shù)據(jù)庫等因其類型多樣、結構復雜、缺少鏈接關系,致使用戶難以“一站式”檢索獲取,導致讀者查找信息時,極大地浪費了檢索時間。與此同時,讀者害怕在檢索時漏檢,將擴大檢索范圍,但相關信息太多,需要一一閱讀后取舍。
二、“互聯(lián)網(wǎng)+”下圖書館的數(shù)字化建設
所謂“互聯(lián)網(wǎng)+”,除了表示數(shù)據(jù)量大、范圍廣、開放、可以跨界融合,更關鍵的是強調一種新的數(shù)據(jù)處理和應用。圖書館學本身就是一門綜合性的應用型學科,圖書館更是學科、專業(yè)、行業(yè)和領域交叉現(xiàn)象最頻繁的環(huán)境之一。因此,圖書館理應走在“互聯(lián)網(wǎng)+”的理論和應用研究的前列。
理解數(shù)字圖書館“互聯(lián)網(wǎng)+”,一定要掌握數(shù)字圖書館、用戶及二者之間的“連接”關系,數(shù)字圖書館若要想進行長遠的發(fā)展,就必須獲得用戶的支持和使用。只有將徹底的數(shù)字化資源“云計算”、知識化,提高圖書館自身的被使用價值,證明自己的價值,創(chuàng)造更大的價值。
1、數(shù)據(jù)化文件建設。數(shù)據(jù)化的單位是字節(jié)(byte)、字(word)。數(shù)據(jù)化文件是以字符、符號、詞、短語、段落、句子、表格或其他字符或圖形排列形成的有序數(shù)據(jù),用于表達意義,其解釋基本上取決于讀者對于某種自然語言或者人工語言的認識。數(shù)據(jù)化文件是數(shù)字圖書館資源建設中最主要、基礎的資源類型,也是搭建“互聯(lián)網(wǎng)+”數(shù)字圖書館基礎,對數(shù)字圖書二次開發(fā)很大的利用具有很大的利用價值。下面兩種技術可以將圖書館的資源由紙質文獻資源、視音頻等資源進行數(shù)字化。
光學字符識別(OCR 即Optical Character Recognition),也可簡稱作文字識別,實際上是讓計算機認字,是一種將紙質印刷文字轉換成文本文字的方法。文字識別技術就是利用計算機自動獲得電子掃描表格或圖像中的數(shù)據(jù)區(qū)域后進行OCR處理,然后快速準確地完成批量數(shù)據(jù)的錄入和數(shù)據(jù)化,為后續(xù)查詢、存儲和發(fā)布等提供條件。
自動語音識別(ASR 即Auto Speech Recognize),就是讓計算機通過識別和理解過程把人類的語音信號轉變?yōu)橄鄳奈谋净蛎畹募夹g,可以將音視頻文獻資源中包含的文字信息“提取”出來。自動語音識別可以將音視頻的采集、編碼轉換、自動數(shù)字化、音視頻抽幀、自動標引、語音識別、音視頻索引等,全部實現(xiàn)自動化流程。
2、非結構化存儲大步推進。非結構化是數(shù)字圖書館資源的數(shù)據(jù)基礎。數(shù)字圖書館中存在多種信息類型,數(shù)據(jù)格式的特殊性帶來了數(shù)據(jù)存取處理的很大差別。非結構化數(shù)據(jù)文件的屬性則采用數(shù)據(jù)庫中的數(shù)據(jù)表字段進行表述,方便數(shù)據(jù)的檢索、分類、查找,有序地存儲了數(shù)據(jù)文件。非結構型數(shù)據(jù)庫繼承了傳統(tǒng)關系數(shù)據(jù)庫的優(yōu)點,其作為一種全新的數(shù)據(jù)系統(tǒng),可有效實現(xiàn)多媒體數(shù)據(jù)的存儲檢索,是基于網(wǎng)絡應用的新型數(shù)據(jù)庫,可以表達復雜的嵌套,支持更多的數(shù)據(jù)類型,支持重復字段,變長記錄可由若干重復的字段組成,每個字段又可由若干可重復的子字段組成。它在處理非結構化信息方面有著傳統(tǒng)關系型數(shù)據(jù)庫無法與之相比的優(yōu)勢。比如便于數(shù)據(jù)的瀏覽、傳遞和更改。而存放在文件系統(tǒng)中,便于數(shù)據(jù)的瀏覽、傳遞和更改。其內容管理系統(tǒng)便是數(shù)據(jù)庫與文件系統(tǒng)相結合模式的典型應用。內容的含義比數(shù)據(jù)更為廣泛,“內容”強調對象,可以是任何結構的數(shù)據(jù)類型,不僅包含了結構化數(shù)據(jù)、非結構化信息,還涉及到知識??梢哉f,內容是一個比數(shù)據(jù)、文檔和信息更加全面的概念,是對所有結構化數(shù)據(jù)、非結構化數(shù)據(jù)及信息的聚合。內容管理側重于管理半結構化和非結構化數(shù)據(jù)。在研究數(shù)據(jù)存儲方式的基礎上,內容管理還致力于對象的處理過程,例如收集、存儲、檢索、分析、更新、傳遞等,以便將內容能夠及時準確的傳遞到正確的地點和用戶。內容管理是數(shù)據(jù)管理新的發(fā)展方向。非結構化數(shù)據(jù)存儲技術與數(shù)據(jù)庫的發(fā)展密切相關,更與文件系統(tǒng)及其存儲技術的發(fā)展密不可分。設計無限大的存儲空間、無限制的I/O帶寬和更高的性價比的理想存儲系統(tǒng)是緩解存儲壓力的總體目標。
3、網(wǎng)絡化資源有效管理。網(wǎng)絡化是數(shù)字圖書館資源的共享基礎。數(shù)字圖書館的建設是以不斷改善用戶服務,為用戶在知識發(fā)現(xiàn)與利用上提供方便,使得用戶可方便地透過數(shù)字圖書館的多個資源庫無縫獲取所需的更多的開放存取資源為建設的初衷?;ヂ?lián)網(wǎng)打通各機構的連接通道,打破了地域的界限,讓區(qū)域間各圖書館之間自由借閱,聯(lián)機編目,避免了重復勞動,縮短了文獻資源的加工,共享了館藏的特色資源,促進了國民的閱讀和資源的分享。
4、凈化數(shù)據(jù)。數(shù)據(jù)清洗就是把“不干凈”的數(shù)據(jù)“清理掉”。清洗數(shù)據(jù)是提高數(shù)字圖書館資源利用的重要前提。因為資源數(shù)據(jù)庫中的數(shù)據(jù)是面向某一方面或某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)是由不同的人員,在不同的時間、地點,從多個業(yè)務系統(tǒng)中提交進去的,再加上原有的歷史數(shù)據(jù),難免不會出現(xiàn)重復、不完整、錯誤、甚至相互之間有沖突的數(shù)據(jù)。這些“不干凈”的數(shù)據(jù)顯然是我們不想要的,我們稱之為“臟數(shù)據(jù)”。我們要按照一定的程序規(guī)則把“臟數(shù)據(jù)”校正,這就是數(shù)據(jù)清洗。清洗數(shù)據(jù)的一個很直觀、很自然的想法便是將云計算技術和分布式計算應用到其中,并將計算任務分布式地分發(fā)給多個節(jié)點以提高并行度。一般采用Map—Reduce框架,能夠更為高效地處理大數(shù)據(jù)的清洗任務實體識別、不一致性檢測和修復、缺值填充和真值發(fā)現(xiàn),并組合成更復雜的數(shù)據(jù)清洗任務。同時還為用戶提供了一個簡潔而友好的Web功能接口,從而交互式地實現(xiàn)了大數(shù)據(jù)的清洗功能。
5、知識化資源。知識化是數(shù)字圖書館發(fā)展的最終方向。利用云計算整合多結構、各類型、各廠商的數(shù)字資源,建成統(tǒng)一檢索的窗口,并為科技工作者、學術機構和讀者提供精準的個性化推薦,及每周或每日科技要聞簡報、科技要聞專報定制等這種具有個性的知識化服務。資源的知識化可以重構資源,提升資源的利用,提升圖書館的服務能力,最終激活數(shù)字圖書館。
傳統(tǒng)圖書館的根本約束是我們對“知識”的固化與靜態(tài)化認識,從而將信息服務“圖書館化”,簡單地把等同載體、把需求等同閱讀、把服務等同于檢索與獲取。其實,“知識”既是一種對象、又是一種過程、同時一種體驗。信息服務系統(tǒng)從本質上講是一種知識服務,是幫助一定的用戶群體根據(jù)一定的應用目的利用一定的信息內容的過程。
參考文獻:
[1]孫煒,郭永新.我國區(qū)域文獻資源共建共享若干問題與對策[J].河北大學成人教育學院學報,2009,11(1):118-119.
[2]楊小云.普通高校圖書館數(shù)字資源利用情況分析——以渭南師范學院圖書館為例[J].渭南師范學院學報,2012(02):107-109.
[3]張南平,程鳴.基于模式識別視頻搜索技術的研究[J].福建電腦,2007(08):35-36.
[4]于成龍,王梓涵.面向云存儲的非結構化數(shù)據(jù)存儲研究[J].計算機光盤軟件與應用,2014(19):39-41.
[5]黃沈濱,王海潔,朱振華.大數(shù)據(jù)云清洗系統(tǒng)的設計與實現(xiàn)[J].智能計算機與應用,2015(03):88-90.
[6]張曉林.顛覆數(shù)字圖書館的大趨勢[J].中國圖書館學報,2011(05):4-12.
[7]包小村.大數(shù)據(jù)時代的圖書館的知識服務創(chuàng)新[EB/OL].[2016-5-25]. http://www.xzbu.com/5/view-6886865.htm.
(作者簡介:郭德成(1983.4-)男,計算機本科專業(yè),青海省委黨校圖書館技術保障部。)