楊凡
關(guān)鍵詞:“互聯(lián)網(wǎng)+”;數(shù)字化;文獻(xiàn)開(kāi)發(fā)
摘要:“互聯(lián)網(wǎng)+”是國(guó)家戰(zhàn)略層面的發(fā)展方向,是今后新科技應(yīng)用的趨勢(shì)。而“互聯(lián)網(wǎng)+”連接一切的特性隨著網(wǎng)絡(luò)媒體的興起、社交軟件的普及和3D虛擬現(xiàn)實(shí)技術(shù)的出現(xiàn),促使因新興技術(shù)而產(chǎn)生的數(shù)據(jù)成倍增長(zhǎng),巨大的數(shù)據(jù)量使互聯(lián)網(wǎng)技術(shù)與傳統(tǒng)產(chǎn)業(yè)的跨行業(yè)融合成為可能。數(shù)字化產(chǎn)品普遍運(yùn)用于人們的日常生活,如何能在紛繁復(fù)雜的數(shù)據(jù)流中獲取及時(shí)、有效的信息是“互聯(lián)網(wǎng)+”有效利用的關(guān)鍵性難題。文章結(jié)合圖書(shū)館開(kāi)展文獻(xiàn)數(shù)字化發(fā)展的實(shí)踐,就新技術(shù)對(duì)圖書(shū)館文獻(xiàn)開(kāi)發(fā)造成的沖擊進(jìn)行分析,并提出應(yīng)對(duì)數(shù)字化發(fā)展的對(duì)策。
中圖分類號(hào):G250.73文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-1588(2018)02-0123-03
易觀國(guó)際董事長(zhǎng)兼首席執(zhí)行官于揚(yáng)在“易觀第五屆移動(dòng)互聯(lián)網(wǎng)博覽會(huì)”上提出“互聯(lián)網(wǎng)+”理念,而“互聯(lián)網(wǎng)+”概念上升到國(guó)家戰(zhàn)略層面是在十二屆全國(guó)人民代表大會(huì)三次會(huì)議上,由李克強(qiáng)總理在《政府工作報(bào)告》中首次提出。李克強(qiáng)總理指出:“推動(dòng)移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、“互聯(lián)網(wǎng)+”、物聯(lián)網(wǎng)等與現(xiàn)代制造業(yè)結(jié)合,促進(jìn)電子商務(wù)、工業(yè)互聯(lián)網(wǎng)和互聯(lián)網(wǎng)金融健康發(fā)展,引導(dǎo)互聯(lián)網(wǎng)企業(yè)拓展國(guó)際市場(chǎng)?!盵1]因此,“互聯(lián)網(wǎng)+”不僅是一種技術(shù)革新或行業(yè)標(biāo)準(zhǔn),而是更多地轉(zhuǎn)化為國(guó)家戰(zhàn)略層面,代表著發(fā)展的趨勢(shì)。
1“互聯(lián)網(wǎng)+”的概念與特征
“互聯(lián)網(wǎng)+”指的是以網(wǎng)絡(luò)信息技術(shù)為手段,以傳統(tǒng)行業(yè)為基礎(chǔ),組成有機(jī)的整體,以優(yōu)化生產(chǎn)資源,提高效率,重新建構(gòu)“互聯(lián)網(wǎng)+”環(huán)境下的產(chǎn)業(yè)模式等方式完成從傳統(tǒng)模式向數(shù)據(jù)模式的轉(zhuǎn)型。“互聯(lián)網(wǎng)+”的核心是網(wǎng)絡(luò)數(shù)據(jù)流的優(yōu)勢(shì),將網(wǎng)絡(luò)數(shù)據(jù)與傳統(tǒng)產(chǎn)業(yè)相結(jié)合,以產(chǎn)業(yè)模式重構(gòu)提高社會(huì)生產(chǎn)力。“互聯(lián)網(wǎng)+”的概念是以網(wǎng)絡(luò)數(shù)據(jù)為原點(diǎn),數(shù)據(jù)是信息的表現(xiàn)形式和載體,是事實(shí)或觀察的結(jié)果,是對(duì)客觀事物的邏輯歸納,并用于表示客觀事物的原始素材。
跨界融合、創(chuàng)新驅(qū)動(dòng)、重塑結(jié)構(gòu)、尊重人性、開(kāi)放生態(tài)、連接一切是“互聯(lián)網(wǎng)+”具有的基本特征[2]?!盎ヂ?lián)網(wǎng)+”與不同行業(yè)的融合過(guò)程本身就是一種重新創(chuàng)造的過(guò)程,以計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)橫跨別的行業(yè)本身就是一種創(chuàng)新,是行業(yè)間融合的先決條件,不同的行業(yè)在經(jīng)歷跨界融合后重塑成新的行業(yè)模式就是“互聯(lián)網(wǎng)+”的最終模式。
“互聯(lián)網(wǎng)+”帶動(dòng)傳統(tǒng)產(chǎn)業(yè)數(shù)據(jù)化,而數(shù)據(jù)化是指?jìng)鹘y(tǒng)產(chǎn)業(yè)以互聯(lián)網(wǎng)數(shù)據(jù)為手段,以實(shí)現(xiàn)用戶數(shù)據(jù)挖掘、匯總和分析,實(shí)現(xiàn)用戶信息需求為目的的轉(zhuǎn)型過(guò)程。通過(guò)產(chǎn)業(yè)數(shù)據(jù)化,傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)變?cè)械哪J剑纬梢跃€下實(shí)體產(chǎn)品為基礎(chǔ),以供需關(guān)系為導(dǎo)向,以物流為通道的精準(zhǔn)化商業(yè)模式。數(shù)據(jù)化的商業(yè)模式是以數(shù)據(jù)流為基礎(chǔ),基于新的商業(yè)模式,通過(guò)調(diào)整生產(chǎn)模式,從產(chǎn)品制作的固有思維中解脫出來(lái),以眾籌的形式分解產(chǎn)品生產(chǎn)過(guò)程中的成本,形成具有數(shù)據(jù)思維的新型模式。新技術(shù)的應(yīng)用是“互聯(lián)網(wǎng)+”的重要手段,將實(shí)驗(yàn)室中的新技術(shù)與傳統(tǒng)產(chǎn)業(yè)相融合創(chuàng)造出新的市場(chǎng)空間?;ヂ?lián)網(wǎng)開(kāi)放、共享的特性使產(chǎn)業(yè)市場(chǎng)實(shí)現(xiàn)了跨地域式的擴(kuò)展。
2圖書(shū)館數(shù)字化的現(xiàn)狀及存在問(wèn)題
2.1圖書(shū)館文獻(xiàn)數(shù)字化的概念及發(fā)展軌跡
圖書(shū)館文獻(xiàn)數(shù)字化是從利用和保護(hù)文獻(xiàn)的目的出發(fā),采用計(jì)算機(jī)技術(shù),將常見(jiàn)的語(yǔ)言文字或圖形符號(hào)轉(zhuǎn)化為能被計(jì)算機(jī)識(shí)別的數(shù)字符號(hào),從而制成書(shū)目數(shù)據(jù)庫(kù)和全文數(shù)據(jù)庫(kù),用以揭示文獻(xiàn)信息資源的一項(xiàng)系統(tǒng)工作[3]。
文獻(xiàn)數(shù)字化將文獻(xiàn)屬性與數(shù)字技術(shù)及網(wǎng)絡(luò)數(shù)字特點(diǎn)相結(jié)合。在具體實(shí)踐中,文獻(xiàn)數(shù)字化就是通過(guò)信息技術(shù)對(duì)文獻(xiàn)進(jìn)行加工,使其成為可重復(fù)利用的數(shù)據(jù)資源。將紙質(zhì)載體轉(zhuǎn)換為數(shù)據(jù)載體,數(shù)據(jù)被賦予了復(fù)制、傳播的屬性。圖書(shū)館通過(guò)建模采集、分析等方式將文獻(xiàn)數(shù)字化資源組建成數(shù)據(jù)庫(kù),既能保護(hù)珍貴的文獻(xiàn),又能擴(kuò)大實(shí)用性,方便大眾使用。
文獻(xiàn)數(shù)字化并非新生事物,其隨著計(jì)算機(jī)技術(shù)的發(fā)展經(jīng)歷了以下幾個(gè)階段:首先是文本的數(shù)字化。即以人工錄入或光學(xué)字符識(shí)別(OCR)的方式將文字輸入數(shù)據(jù)庫(kù)而形成的文獻(xiàn),此類數(shù)字文獻(xiàn)可以閱讀,也能進(jìn)行定位檢索,具有檢索性,但無(wú)法客觀表現(xiàn)底本的原貌。其次是同時(shí)提供原書(shū)影和與文本參照。即使用書(shū)影查看原本的原貌,用矢量文本進(jìn)行定位和檢索。此類數(shù)據(jù)資源是對(duì)文本數(shù)字化準(zhǔn)確率太低所做的妥協(xié),兼具客觀性和檢索性,但制作和使用都很煩瑣,發(fā)展空間較小。最后是雙層PDF技術(shù)。即通過(guò)將書(shū)影與文本文字進(jìn)行映射,以檢索文本文字定位書(shū)影位置的方式達(dá)到檢索效果。這種技術(shù)廣泛應(yīng)用于數(shù)字圖書(shū)館中文電子資源的制作,但中豎排的行文方式和字體的不規(guī)則,使雙層PDF在實(shí)際操作中準(zhǔn)確率不高。
隨著文獻(xiàn)數(shù)字化研究的深入和科學(xué)技術(shù)的迅猛發(fā)展,用戶對(duì)數(shù)字化的需求不斷提高,數(shù)字化的成果出現(xiàn)“互聯(lián)網(wǎng)+”的特征。數(shù)字化數(shù)據(jù)的體量巨大,不僅有雙層PDF和各種類型的數(shù)據(jù)庫(kù),而且還有用戶下載使用時(shí)的信息,包括用戶對(duì)數(shù)字化成果的滿意度和評(píng)價(jià)信息。隨著數(shù)字化的普及和社會(huì)關(guān)注度的提高,用戶本身所產(chǎn)生的數(shù)據(jù)越來(lái)越需要引起圖書(shū)館的重視。將數(shù)字化成果和與之相對(duì)應(yīng)的用戶信息結(jié)合在一起建立數(shù)據(jù)集,是下一階段圖書(shū)館文獻(xiàn)數(shù)字化需要解決的問(wèn)題。
2.2文獻(xiàn)數(shù)字化在“互聯(lián)網(wǎng)+”框架下所面臨的問(wèn)題
首先是在“互聯(lián)網(wǎng)+”的沖擊下,現(xiàn)有的標(biāo)準(zhǔn)存在內(nèi)容不夠全面、缺少細(xì)節(jié)規(guī)范等問(wèn)題。在數(shù)據(jù)管理方面,涉及數(shù)字化的項(xiàng)目選題、驗(yàn)收的時(shí)間周期等細(xì)節(jié)問(wèn)題;在技術(shù)方面,數(shù)字化的加工工序、底本選取原則、文字的字體設(shè)置也沒(méi)有統(tǒng)一的規(guī)范。這些標(biāo)準(zhǔn)上的缺失導(dǎo)致各制作單位的數(shù)據(jù)在細(xì)節(jié)上不能統(tǒng)一。其次是數(shù)據(jù)的安全問(wèn)題。“互聯(lián)網(wǎng)+”的本質(zhì)就是數(shù)據(jù)的集合,只要有數(shù)據(jù)就存在數(shù)據(jù)安全問(wèn)題。在原有的模式下,數(shù)據(jù)安全只存在于數(shù)字化的數(shù)據(jù)庫(kù)本身。在“互聯(lián)網(wǎng)+”的影響下,數(shù)據(jù)安全管理還應(yīng)包括用戶使用數(shù)字化成果時(shí)所產(chǎn)生的所有數(shù)據(jù),這在現(xiàn)階段的數(shù)據(jù)庫(kù)功能下是無(wú)法實(shí)現(xiàn)的。最后是“互聯(lián)網(wǎng)+”沖擊下文獻(xiàn)發(fā)展存在的兩大突出矛盾:①數(shù)字化和數(shù)據(jù)化的矛盾。很多全文數(shù)據(jù)庫(kù)通過(guò)OCR技術(shù)將格式轉(zhuǎn)化為可以被人工智能識(shí)別的全文文本格式,并加注句讀。這樣的形式破壞了底本的客觀性,使用戶無(wú)法獲得文獻(xiàn)本身自帶的信息。這種矛盾正是“互聯(lián)網(wǎng)+”新技術(shù)對(duì)文獻(xiàn)數(shù)字化原有模式的最大沖擊。②文獻(xiàn)數(shù)字化文獻(xiàn)檢索便捷性與客觀性的矛盾。要想保證數(shù)字化文獻(xiàn)的客觀性,并兼顧用戶的直觀感受,文獻(xiàn)最好使用純書(shū)影的方式建立數(shù)據(jù)庫(kù),但這樣做帶來(lái)的問(wèn)題是便于瀏覽而無(wú)法檢索。無(wú)法檢索的數(shù)字化產(chǎn)品是不可能讓用戶快速、有效地獲取文獻(xiàn)數(shù)據(jù)的,也不符合“互聯(lián)網(wǎng)+”時(shí)代的數(shù)據(jù)特點(diǎn),其后果必然是被大部分用戶所拋棄。便捷性和客觀性的矛盾是困擾文獻(xiàn)數(shù)字化產(chǎn)業(yè)發(fā)展的主要技術(shù)原因。
3基于“互聯(lián)網(wǎng)+”的文獻(xiàn)數(shù)字化發(fā)展策略
3.1加強(qiáng)標(biāo)準(zhǔn)化建設(shè),成立數(shù)字化領(lǐng)導(dǎo)機(jī)構(gòu)
在“互聯(lián)網(wǎng)+”的框架下,圖書(shū)館必須加強(qiáng)標(biāo)準(zhǔn)化建設(shè),確保按照數(shù)字資源格式統(tǒng)一、數(shù)據(jù)規(guī)范、長(zhǎng)期可讀、便于共享的原則制定標(biāo)準(zhǔn)、統(tǒng)一的規(guī)范[4]。在文獻(xiàn)數(shù)字化管理工作中,圖書(shū)館可以根據(jù)數(shù)字化基礎(chǔ),參考國(guó)際標(biāo)準(zhǔn)和國(guó)外成功的經(jīng)驗(yàn),制定適合文獻(xiàn)數(shù)字化開(kāi)發(fā)的管理標(biāo)準(zhǔn)。如:借鑒已經(jīng)成熟的數(shù)字化經(jīng)驗(yàn),以國(guó)家保護(hù)中心為核心,聯(lián)合全國(guó)各收藏單位,統(tǒng)一數(shù)字化標(biāo)準(zhǔn),成立獨(dú)立領(lǐng)導(dǎo)機(jī)構(gòu),最終完成數(shù)字化行業(yè)的標(biāo)準(zhǔn)化建設(shè)。
3.2利用“互聯(lián)網(wǎng)+”的特性進(jìn)行跨界融合
“互聯(lián)網(wǎng)+”的核心就是跨界融合、連接一切,它通常被視為人工智能的一部分,或更確切地說(shuō)被視為一種機(jī)器學(xué)習(xí)。它是把數(shù)學(xué)算法運(yùn)用到海量數(shù)據(jù)上以便預(yù)測(cè)事件發(fā)生的可能性,也就是說(shuō),“互聯(lián)網(wǎng)+”通過(guò)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系找到關(guān)聯(lián)物并預(yù)測(cè)可能性。一般的數(shù)據(jù)分析是通過(guò)隨機(jī)采樣的方式找尋數(shù)據(jù)背后的“為什么”,而“互聯(lián)網(wǎng)+”的數(shù)據(jù)分析是通過(guò)檢索所有數(shù)據(jù)的相關(guān)關(guān)系,以此推導(dǎo)數(shù)據(jù)背后的“是什么”。因此,“互聯(lián)網(wǎng)+”可以通過(guò)新聞、社交軟件連接時(shí)下的社會(huì)熱點(diǎn),再在資源中定位與熱點(diǎn)具有相關(guān)關(guān)系的數(shù)據(jù)資源,最后向社會(huì)用戶進(jìn)行分類推送。
3.3建立文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)
文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)是指按照“互聯(lián)網(wǎng)+”標(biāo)準(zhǔn)化流程進(jìn)行數(shù)字化制作的數(shù)據(jù),是擁有檢索功能,復(fù)合“互聯(lián)網(wǎng)+”特點(diǎn)的數(shù)據(jù)庫(kù)類型。數(shù)字化標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)是對(duì)數(shù)字化基礎(chǔ)性先天不足的補(bǔ)充,可以解決互聯(lián)網(wǎng)新技術(shù)沖擊下暴露出來(lái)的各種問(wèn)題,使數(shù)字化工作能為社會(huì)認(rèn)知,為用戶認(rèn)可。
文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)可以解決盲目開(kāi)發(fā)、亂開(kāi)發(fā)的問(wèn)題。通過(guò)文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),國(guó)家局對(duì)全國(guó)各個(gè)單位的藏量有了大致的掌握,已經(jīng)形成了系統(tǒng)的書(shū)目信息。國(guó)家局可以根據(jù)社會(huì)熱點(diǎn),按照已經(jīng)掌握的信息有針對(duì)性地指導(dǎo)各個(gè)單位制訂開(kāi)發(fā)計(jì)劃,這樣做既可以使開(kāi)發(fā)的數(shù)字化文獻(xiàn)得到社會(huì)的認(rèn)可,又可以避免重復(fù)性選題,節(jié)約資源以便開(kāi)發(fā)更好的項(xiàng)目。
文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)可以消除工作人員與其他學(xué)科研究人員認(rèn)識(shí)上的差異。工作人員對(duì)于文獻(xiàn)的認(rèn)知來(lái)源于工作實(shí)踐,是文獻(xiàn)整理后積累下來(lái)的感覺(jué),注重微觀,講究觀風(fēng)望氣,可通過(guò)細(xì)節(jié)判定版本。其他學(xué)科的研究人員是數(shù)據(jù)化的支持者,因?yàn)閿?shù)據(jù)化的文獻(xiàn)更有助于科研活動(dòng)。這部分用戶注重全文文本的數(shù)字化,而不在意是否能客觀體現(xiàn)原貌。圖書(shū)館通過(guò)制作標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)將兩種用戶的需求放在一起,可以通過(guò)個(gè)性化需求的升級(jí)服務(wù)消除他們之間的矛盾。
文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)可以解決數(shù)字標(biāo)準(zhǔn)化與用戶服務(wù)個(gè)性化的矛盾。省級(jí)館作為文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的母庫(kù),其余單位制作的數(shù)據(jù)庫(kù)作為補(bǔ)充,在統(tǒng)一標(biāo)準(zhǔn)的規(guī)范下進(jìn)行數(shù)字化采集和數(shù)據(jù)庫(kù)的制作,在數(shù)據(jù)設(shè)計(jì)、制作和管理驗(yàn)收等環(huán)節(jié)做到標(biāo)準(zhǔn)化。在此基礎(chǔ)上,所有用戶可按照他們對(duì)數(shù)據(jù)的要求進(jìn)行個(gè)性化升級(jí),既能保證標(biāo)準(zhǔn)化的數(shù)據(jù)格式,又能滿足各個(gè)層次用戶的個(gè)性化需求。
文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)也便于進(jìn)入市場(chǎng)。商業(yè)公司進(jìn)行文獻(xiàn)數(shù)字化是因?yàn)榭吹搅藬?shù)字化產(chǎn)業(yè)的發(fā)展空間。商業(yè)公司的優(yōu)勢(shì)在于市場(chǎng)運(yùn)作,但他們不具備文獻(xiàn)的相關(guān)積累,所開(kāi)發(fā)的數(shù)字化數(shù)據(jù)的質(zhì)量不高,不能滿足用戶的需求。文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的出現(xiàn)可以使商業(yè)公司揚(yáng)長(zhǎng)避短,既降低了開(kāi)發(fā)成本,減少了開(kāi)發(fā)時(shí)間,又可以集中精力尋找社會(huì)輿情與文獻(xiàn)的相關(guān)點(diǎn),便于把握市場(chǎng)熱點(diǎn)。以文獻(xiàn)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)為基礎(chǔ)的商業(yè)公司可以結(jié)合社會(huì)熱點(diǎn),適時(shí)推出與之相對(duì)應(yīng)的產(chǎn)品。產(chǎn)品不應(yīng)僅局限于數(shù)據(jù)庫(kù),還可以將信息及時(shí)、分類推送到使用各種移動(dòng)終端的用戶手中。
4結(jié)語(yǔ)
隨著數(shù)字化信息與人們生活的密切程度越來(lái)越高,社會(huì)各行業(yè)與“互聯(lián)網(wǎng)+”的聯(lián)系也越來(lái)越緊密,“互聯(lián)網(wǎng)+”新技術(shù)也為數(shù)字化行業(yè)帶來(lái)了沖擊和挑戰(zhàn)。在這種前所未有的沖擊下,文獻(xiàn)數(shù)字化暴露出原有模式的不足與缺陷,如缺乏必要的數(shù)字化基礎(chǔ)性建設(shè)、沒(méi)有統(tǒng)一的制作標(biāo)準(zhǔn)等。同時(shí),“互聯(lián)網(wǎng)+”新思維也沖擊著文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)、數(shù)據(jù)庫(kù)結(jié)構(gòu)等制作問(wèn)題,這是文獻(xiàn)數(shù)字化行業(yè)可持續(xù)發(fā)展面臨的巨大挑戰(zhàn)和機(jī)遇。要解決這一問(wèn)題,各個(gè)單位需要整合多方力量,取長(zhǎng)補(bǔ)短,建立全新的權(quán)威機(jī)構(gòu)完成數(shù)字化基礎(chǔ)性建設(shè),建立文獻(xiàn)標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù),提高社會(huì)對(duì)數(shù)字化行業(yè)的認(rèn)知度,最終建立完整意義上的文獻(xiàn)數(shù)字化超大型數(shù)據(jù)庫(kù)共享體系。
參考文獻(xiàn):
[1]中國(guó)新聞網(wǎng).李克強(qiáng):制定“互聯(lián)網(wǎng)+”計(jì)劃促電子商務(wù)健康發(fā)展[EB/OL].[2015-03-05].http://www.chinanews.com/gn/2015/0305/7103116.shtml.
[2]龍潤(rùn)琛.“互聯(lián)網(wǎng)+”時(shí)代中小城市地方文獻(xiàn)可持續(xù)發(fā)展的思考[J].內(nèi)蒙古科技與經(jīng)濟(jì),2017(17):126-127.
[3]葛懷東.論數(shù)字化標(biāo)準(zhǔn)體系建設(shè)[J].圖書(shū)館學(xué)刊,2013(1):47-49.
[4]范佳.“數(shù)字人文”內(nèi)涵與數(shù)字化的深度開(kāi)發(fā)[J].圖書(shū)館學(xué)研究,2013(3):29-32.
(編校:周雪芹)