葉延春
在數(shù)字化轉(zhuǎn)型升級(jí)過(guò)程中,中國(guó)建筑工業(yè)出版社實(shí)現(xiàn)了全媒體形態(tài)的預(yù)期目標(biāo)。轉(zhuǎn)型升級(jí)內(nèi)容覆蓋了從選題策劃、內(nèi)容組織建設(shè)到產(chǎn)品研發(fā)、產(chǎn)品銷(xiāo)售的全業(yè)務(wù)、全流程,開(kāi)發(fā)了涵蓋電子書(shū)、網(wǎng)絡(luò)課程、數(shù)據(jù)庫(kù)和移動(dòng)閱讀App等產(chǎn)品。數(shù)字產(chǎn)品包括,已上線的“中國(guó)建筑出版在線”、工具書(shū)在線、“建筑文庫(kù)”移動(dòng)閱讀、數(shù)字期刊平臺(tái)等,另外還完成了英文圖書(shū)元數(shù)據(jù)的推送等工作。這些多形態(tài)的數(shù)字產(chǎn)品,是建立在本社海量的資源庫(kù)的數(shù)據(jù)基石之上的。利用資源庫(kù)現(xiàn)有的資源,可以對(duì)圖書(shū)內(nèi)容實(shí)現(xiàn)結(jié)構(gòu)化、碎片化、富媒體化;通過(guò)元數(shù)據(jù)標(biāo)引、數(shù)據(jù)挖掘、數(shù)據(jù)關(guān)聯(lián),可以實(shí)現(xiàn)個(gè)性化、定制化服務(wù),以便適應(yīng)不同終端用戶(hù)的個(gè)性需求。所以,資源庫(kù)的數(shù)據(jù)建設(shè)、維護(hù)和管理是數(shù)字出版的重中之重,否則,前端多形態(tài)數(shù)字產(chǎn)品就將成為無(wú)源之水、無(wú)本之木。資源庫(kù)工作龐雜繁復(fù),如何讓資源庫(kù)的數(shù)據(jù)建設(shè)完善、規(guī)范有序,是數(shù)字出版中心相關(guān)人員必須不斷思考的問(wèn)題。
資源庫(kù)的數(shù)據(jù)建設(shè):要有獨(dú)有的加工標(biāo)準(zhǔn)
資源庫(kù)的數(shù)據(jù)建設(shè)從前期規(guī)劃到具體實(shí)施是一個(gè)復(fù)雜的系統(tǒng)工程,也是一個(gè)從摸索中不斷走向完善的過(guò)程。在這個(gè)過(guò)程中,我們致力于數(shù)據(jù)建設(shè)逐步趨向規(guī)范化和標(biāo)準(zhǔn)化。
資源庫(kù)數(shù)據(jù)形式按內(nèi)容可分為原始數(shù)據(jù)和基于原始數(shù)據(jù)的再加工數(shù)據(jù);數(shù)據(jù)處理按加工手段可分為數(shù)據(jù)采集、審核、分類(lèi)加工、發(fā)布等。
原始數(shù)據(jù)主要分為,從ERP和在線編纂系統(tǒng)采集到的圖書(shū)信息,排版廠提交給出版社的排版文件和鏈接圖,在線編撰的過(guò)程文件及最終文件等。
再加工數(shù)據(jù)包括:可帶鏈接的、用于在線發(fā)布的PDF文件;結(jié)構(gòu)化的WORD文檔;EPUB文件;CEB文件等。
資源庫(kù)的數(shù)據(jù)建設(shè),按流程順序,可分為圖書(shū)詳情信息采集、排版文件、圖片、PDF、EPUB的采集(該采集是用定制的采集工具在內(nèi)網(wǎng)批量上傳)、標(biāo)引、加工、審核、發(fā)布等。這些流程經(jīng)過(guò)兩年多的運(yùn)行和經(jīng)驗(yàn)積累,已形成建工社自身特色的加工標(biāo)準(zhǔn):
⑴采集信息的唯一性。定期從在線平臺(tái)或ERP系統(tǒng)讀取已正式出版發(fā)行的紙質(zhì)圖書(shū)、電子圖書(shū)。該階段主要是讀取圖書(shū)詳情信息,諸如:社書(shū)號(hào),叢書(shū)名,書(shū)名,裝幀,開(kāi)本,定價(jià),ISBN,圖書(shū)銷(xiāo)售分類(lèi),中圖分類(lèi)號(hào)等。讀取的全部信息在庫(kù)中留存,主要信息用于外網(wǎng)發(fā)布。采集時(shí)需要注意的是,出版資源庫(kù)要堅(jiān)持“一書(shū)一號(hào)”原則,即同一本書(shū)所有信息都能最直接地從一個(gè)入口找到相關(guān)的信息,同一個(gè)社書(shū)號(hào),無(wú)論版次只能有一個(gè)建檔。本書(shū)所有信息操作都是基于這個(gè)唯一的建檔號(hào)。不僅如此,還要做到系列叢書(shū)能夠有效關(guān)聯(lián),甚至后臺(tái)資源之間、前臺(tái)的不同站點(diǎn)之間也要能有效關(guān)聯(lián)。
⑵采集信息的準(zhǔn)確性。從ERP采集到的信息因各種原因,會(huì)存在信息不完整或有錯(cuò)漏的情況,需要人工標(biāo)引。
要素標(biāo)引完畢,還有“精編”項(xiàng)目:內(nèi)容提要和目錄內(nèi)容。該內(nèi)容可從ERP或排版文件讀取,如不能讀取則需人工錄入。為保證采集到的圖書(shū)信息準(zhǔn)確,標(biāo)引之后多人審核是必要的,審核無(wú)誤后才可發(fā)布到外網(wǎng)。
⑶排版文件、圖片、PDF、EPUB的采集。由排版廠提交到本社的排版文件和圖片一般滯后于信息發(fā)布1-3個(gè)月。數(shù)字出版部門(mén)收到排版文件后,要對(duì)文件做兩項(xiàng)必要的檢查。一是要保證內(nèi)容的正確性。二是檢查排版文件的完整性。
內(nèi)容檢查無(wú)誤后,可以用采集工具來(lái)按類(lèi)型分門(mén)別類(lèi)地批量采集。在采集工具中,不同數(shù)據(jù)類(lèi)型如同一個(gè)個(gè)“盒子”,啟動(dòng)批量采集時(shí)可自動(dòng)歸入到相應(yīng)的“盒子”中去。同一書(shū)號(hào)、不同版次的文件,不可采用批量方式,標(biāo)明版次后需人工逐個(gè)插入到相應(yīng)的資源文件夾中??晒┎杉臄?shù)據(jù)有:封面及正文排版文件、PDF、EPUB、CEB、插圖、經(jīng)典資源包等。
PDF文件在采集之前,要嚴(yán)格區(qū)分高精度(用于內(nèi)網(wǎng)存檔或內(nèi)部職工因需調(diào)用)、低精度(用于外網(wǎng)售賣(mài)的電子書(shū))、正文樣張(用于外網(wǎng)讀者的10%免費(fèi)翻閱),批量上傳。EPUB文件直接批量上傳即可。
⑷數(shù)據(jù)加工。分基本加工和深度加工兩種。
基本加工:是將排版文件加工成CEB,PDF,EPUB等格式。必須注意的是,PDF文件用于外網(wǎng)發(fā)布時(shí),使用低精度,同時(shí)還要批量拆分10%的PDF文件用于PC端客戶(hù)的免費(fèi)瀏覽;用于資源庫(kù)留存的PDF文件則應(yīng)生成高精度。既有圖書(shū)中,如果沒(méi)有排版文件的電子版,可將紙質(zhì)圖書(shū)經(jīng)過(guò)掃描生成PDF文件,整合成一個(gè)文檔,通過(guò)OCR識(shí)別,掃描的PDF中的文字內(nèi)容可以識(shí)別,可視為“字符”形式,以便內(nèi)容檢索和查找。
深度加工:主要是指將PDF文件、EPUB文件、由自動(dòng)引擎版面回寫(xiě)的WORD文檔,在已有的結(jié)構(gòu)化基礎(chǔ)上,按需進(jìn)行深度碎片化、富媒體化。以建工社為例,經(jīng)過(guò)深度加工成功推出了數(shù)字期刊平臺(tái),終端用戶(hù)可通過(guò)檢索期刊的欄目、標(biāo)題、作者、文獻(xiàn),訂制自己需要購(gòu)買(mǎi)的文章。
⑸審核和發(fā)布。紙質(zhì)圖書(shū)的“編、校、印、發(fā)”有其完備的運(yùn)作方式和標(biāo)準(zhǔn),數(shù)字出版則不然。雖然數(shù)字出版早已不是什么新生事物,但在“審、校、發(fā)”方面,業(yè)界并沒(méi)有形成統(tǒng)一的標(biāo)準(zhǔn)。出版社在轉(zhuǎn)型初期都會(huì)面臨審校過(guò)程操作性不強(qiáng)、嚴(yán)謹(jǐn)性欠缺、重視度不夠等情況。
經(jīng)過(guò)多年實(shí)踐和摸索,建工社的數(shù)字出版物在正式發(fā)布之前的審校,已初步形成保障質(zhì)量的運(yùn)作方式和標(biāo)準(zhǔn):一是不同流程由不同人員定崗負(fù)責(zé)。二是堅(jiān)持全面檢查、兼顧重點(diǎn)的制度。三是在無(wú)紙化的條件下,人機(jī)界面交互的同時(shí)與紙質(zhì)樣書(shū)核對(duì)。
審核無(wú)誤的信息,定期由專(zhuān)人發(fā)布。資源庫(kù)的數(shù)據(jù)是動(dòng)態(tài)的,每天都會(huì)有變化。需要發(fā)布的信息,堅(jiān)持定期、分批發(fā)布的原則。不是零散處理而是以時(shí)間段來(lái)加以區(qū)分,易于批量處理,也方便前后臺(tái)的數(shù)據(jù)比對(duì)和查詢(xún)。另外,需要提前發(fā)布的紙質(zhì)圖書(shū)或電子書(shū),也有應(yīng)急響應(yīng)措施。
資源庫(kù)數(shù)據(jù)的維護(hù)和更新:“看不見(jiàn)”的后續(xù)工作尤為重要
如果說(shuō)數(shù)據(jù)建設(shè)是資源庫(kù)的基礎(chǔ)性的工作,那么資源庫(kù)的數(shù)據(jù)維護(hù)和更新則是“看不見(jiàn)”的后續(xù)性工作。無(wú)論是內(nèi)部人員在后臺(tái)的數(shù)據(jù)調(diào)用還是終端用戶(hù)在前臺(tái)的數(shù)據(jù)訪問(wèn),都要保證數(shù)據(jù)的時(shí)效性、準(zhǔn)確性。因此,資源庫(kù)數(shù)據(jù)的日常維護(hù)和更新就顯得尤為重要。
⑴定期采集、發(fā)布新書(shū)。新書(shū)是指已出版發(fā)行的新版、再版、重印的紙質(zhì)圖書(shū)。每周由發(fā)行部門(mén)提供新書(shū)列表,數(shù)字出版部門(mén)根據(jù)列表,利用ERP與資源平臺(tái)的接口讀取相應(yīng)字段,采集圖書(shū)詳情;掃描紙書(shū)封面并上傳封面圖片,標(biāo)引,審核,發(fā)布。發(fā)布新書(shū)之前,由專(zhuān)人查看是否有前版,如有前版則從后臺(tái)撤下,發(fā)布后“圖書(shū)在線”只保留最新版。
⑵不定期整理需要深度加工的現(xiàn)有資源。資源庫(kù)中數(shù)據(jù)龐大,為了避免過(guò)度加工、盲目加工,造成人力和物力的浪費(fèi),須由專(zhuān)門(mén)人員將資源庫(kù)中需要再加工的、有市場(chǎng)前景的圖書(shū)資源,根據(jù)其性質(zhì)、特點(diǎn),分別導(dǎo)出需要結(jié)構(gòu)化、碎片化的圖書(shū)列表,交由有關(guān)人員作相應(yīng)的拆分,并將內(nèi)容對(duì)象導(dǎo)入到相應(yīng)的資源庫(kù),滿(mǎn)足新的數(shù)字產(chǎn)品和商業(yè)模式的需要,提高內(nèi)容的利用率。數(shù)字出版資源庫(kù)里的出版資源可能會(huì)有多種類(lèi)型,針對(duì)不同性質(zhì)的圖書(shū)資源采用不同的反解方式,并建立不同類(lèi)型的資源庫(kù),如標(biāo)準(zhǔn)規(guī)范庫(kù)、按篇章節(jié)拆分的期刊庫(kù)、按條目拆分的匯編及專(zhuān)業(yè)詞典庫(kù)、職業(yè)資格考試的視頻庫(kù)、供終端用戶(hù)有償下載的圖片庫(kù)等。
⑶內(nèi)外網(wǎng)已發(fā)布資源數(shù)量的定期核對(duì)。建工社的數(shù)字出版資源管理系統(tǒng)與發(fā)布管理平臺(tái)處于同一個(gè)庫(kù)中,出版資源管理平臺(tái)的數(shù)據(jù)變動(dòng)直接反映到發(fā)布平臺(tái),再由發(fā)布后臺(tái)正式發(fā)布到前臺(tái)的“圖書(shū)在線”。在“中國(guó)建筑出版在線”上線初期,因?yàn)榉N種原因發(fā)布新書(shū)時(shí)偶有前后臺(tái)數(shù)量不能完全對(duì)應(yīng)的情況,需要按圖書(shū)銷(xiāo)售分類(lèi)人工核對(duì)。為保證這些數(shù)據(jù)完全正確,分類(lèi)核對(duì)做法沿用至今。主要核對(duì)內(nèi)容:各分類(lèi)下已發(fā)布新書(shū)數(shù)量;電子書(shū)總數(shù);POD數(shù)量。三個(gè)平臺(tái)的圖書(shū)分類(lèi)方式完全對(duì)應(yīng)。
⑷“丟書(shū)”情況的查缺補(bǔ)漏。丟書(shū)情況分兩種:一種是有庫(kù)存的、從ERP里無(wú)法讀取的,另一種情況是營(yíng)銷(xiāo)中心因種種原因沒(méi)有提供樣書(shū)的。定期核查營(yíng)銷(xiāo)數(shù)據(jù)中有庫(kù)存的圖書(shū),只要庫(kù)存非零,在“圖書(shū)在線”前臺(tái)必有在線銷(xiāo)售;紙質(zhì)書(shū)庫(kù)存為零則自動(dòng)納入POD。每月由營(yíng)銷(xiāo)中心提供銷(xiāo)售數(shù)據(jù),正式出版發(fā)行的新書(shū)如因某種原因在前臺(tái)沒(méi)有在線銷(xiāo)售信息,兩個(gè)月內(nèi)必須由人工補(bǔ)錄。
⑸資源數(shù)據(jù)的導(dǎo)出和調(diào)用。資源庫(kù)內(nèi)的數(shù)據(jù)不僅是用來(lái)加工各種數(shù)字產(chǎn)品的,更重要的一個(gè)功能是本社圖書(shū)資源的“倉(cāng)儲(chǔ)”。庫(kù)內(nèi)可調(diào)用的文件類(lèi)型很多,導(dǎo)出時(shí)根據(jù)實(shí)際需要可按圖書(shū)狀態(tài)、入庫(kù)時(shí)間、銷(xiāo)售類(lèi)型下載。編輯出版部門(mén)因圖書(shū)的再版或重印需要調(diào)用原始文件時(shí),可在資源庫(kù)平臺(tái)說(shuō)明用途并在線申請(qǐng),由部門(mén)領(lǐng)導(dǎo)在線核準(zhǔn)、數(shù)字出版中心的相關(guān)人員授權(quán)后方可下載。授權(quán)時(shí)指定下載人員、可下載的內(nèi)容、下載的時(shí)間限制等。嚴(yán)格“申請(qǐng)、審批、核發(fā)、授權(quán)、下載”程序,以策庫(kù)內(nèi)資源的信息安全。
⑹未雨綢繆,著眼于將來(lái)未知形態(tài)數(shù)字產(chǎn)品的資源建設(shè)。為適應(yīng)市場(chǎng)變化和需要,數(shù)字出版資源庫(kù)的建設(shè)都是為后續(xù)數(shù)字運(yùn)營(yíng)平臺(tái)和自適應(yīng)的動(dòng)態(tài)出版系統(tǒng)服務(wù)的。為了保證將來(lái)的可擴(kuò)展性,必須要求元數(shù)據(jù)內(nèi)容的自定義和可擴(kuò)展,加工處理的方式,也應(yīng)向著智能化、自動(dòng)最大化、標(biāo)準(zhǔn)化的方向發(fā)展。
總之,無(wú)論是資源庫(kù)的數(shù)據(jù)建設(shè)還是數(shù)據(jù)維護(hù)更新,資源庫(kù)相關(guān)人員都是面向社內(nèi)外的用戶(hù)服務(wù);無(wú)論后端數(shù)字產(chǎn)品將來(lái)的形態(tài)如何變化,做好服務(wù)都是資源庫(kù)團(tuán)隊(duì)的本職。以“一個(gè)團(tuán)隊(duì)、一個(gè)標(biāo)準(zhǔn)”的不變,應(yīng)對(duì)數(shù)據(jù)服務(wù)內(nèi)容的不斷變化,是數(shù)字出版資源庫(kù)業(yè)者孜孜以求的目標(biāo)。
(作者單位系中國(guó)建筑工業(yè)出版社)