鄧?guó)欙w,周優(yōu)軍
(1.廣西財(cái)經(jīng)學(xué)院,廣西 南寧 530003;2.廣西科技師范學(xué)院,廣西 來(lái)賓 546199)
圖書館館藏一般由圖書、電子圖書、在線期刊、研究論文、會(huì)議記錄、研討會(huì)論文、機(jī)構(gòu)知識(shí)庫(kù)等組成,包括專門為研究學(xué)者和其他用戶提供信息需求的信息格式。數(shù)據(jù)在信息和知識(shí)領(lǐng)域的不斷增長(zhǎng),使得大數(shù)據(jù)分析成為必要[1]。在這種情況下,圖書館從業(yè)人員迫切需要知道如何轉(zhuǎn)換、評(píng)價(jià),并以信息或知識(shí)的最終形式呈現(xiàn)給用戶。傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)難以處理復(fù)雜的圖書館數(shù)據(jù),因此需要大數(shù)據(jù)技術(shù)進(jìn)行分析和處理[2],然而作為圖書館從業(yè)人員,雖然在管理此類數(shù)據(jù)方面有許多有效的技術(shù),但對(duì)于使用元數(shù)據(jù)來(lái)組織數(shù)字資源,如何使用大數(shù)據(jù)和云計(jì)算技術(shù)等工具的研究并不多。
“大數(shù)據(jù)”是當(dāng)今最流行的術(shù)語(yǔ)之一,醫(yī)院、企業(yè)、高校、銀行等都在收集所謂的“大數(shù)據(jù)”。研究人員收集的常規(guī)數(shù)據(jù)類型是嚴(yán)格結(jié)構(gòu)化的,例如輸入到具有特定行和列的電子表格中的數(shù)據(jù)。然而,大數(shù)據(jù)集可能包含非結(jié)構(gòu)化數(shù)據(jù)和不同類型的數(shù)據(jù)。近年來(lái),大數(shù)據(jù)研究的重要意義已經(jīng)得到了充分的認(rèn)識(shí),大數(shù)據(jù)技術(shù)使人們能夠從數(shù)據(jù)中獲得更深入、更有價(jià)值的見(jiàn)解,并作出更及時(shí)的決策[3]。存儲(chǔ)和分析大數(shù)據(jù)的硬件和軟件成本較低、可用性強(qiáng),這使得大數(shù)據(jù)技術(shù)引起了包括圖書館在內(nèi)的許多用戶的興趣。
圖書館的大數(shù)據(jù)工作也非常重要,因?yàn)閳D書館數(shù)據(jù)需要轉(zhuǎn)化為信息或知識(shí),然后供用戶使用。因此,大量的研究工作都在探索圖書館大數(shù)據(jù)的問(wèn)題和可能性,這樣做的最終目的是利用這些數(shù)據(jù)提供新的有用服務(wù)或提高效率。如果只考慮庫(kù)中的靜態(tài)集合,可能很難將其與大數(shù)據(jù)關(guān)聯(lián)起來(lái)。此外,數(shù)據(jù)庫(kù)管理系統(tǒng)應(yīng)該能夠存儲(chǔ)和處理圖書館數(shù)據(jù),基于大數(shù)據(jù)的定義,不需要像分布式系統(tǒng)這樣的大數(shù)據(jù)技術(shù)來(lái)分析圖書館中的數(shù)據(jù)。
一般來(lái)看,圖書館中的圖書、期刊等數(shù)據(jù)組織得很好,因?yàn)橛脩艨梢允褂妙悇e來(lái)查找所需的內(nèi)容。對(duì)于那些存儲(chǔ)在圖書館中的研究數(shù)據(jù),情況卻不同。圖書館中的數(shù)據(jù)較為凌亂,研究人員習(xí)慣于通過(guò)自己的認(rèn)識(shí)來(lái)組織數(shù)據(jù)。這些數(shù)據(jù)通常由項(xiàng)目管理,一旦項(xiàng)目完成并發(fā)表文章或報(bào)告,研究數(shù)據(jù)往往會(huì)封存起來(lái)。
研究數(shù)據(jù)往往缺乏標(biāo)準(zhǔn)和格式,雖然一些學(xué)科可能已經(jīng)創(chuàng)建了數(shù)據(jù)標(biāo)準(zhǔn),但由于在大多數(shù)學(xué)科中,諸如政治和社會(huì)研究等強(qiáng)大的集中式數(shù)據(jù)倉(cāng)庫(kù),常常不存在數(shù)據(jù)標(biāo)準(zhǔn),特別是對(duì)于那些個(gè)性化的研究,即每個(gè)研究者定義了對(duì)項(xiàng)目重要的參數(shù)。數(shù)據(jù)格式是另一個(gè)問(wèn)題,研究人員使用他們自己的格式來(lái)收集數(shù)據(jù),即使對(duì)于同一個(gè)研究人員,不同的數(shù)據(jù)格式也可能用于不同的項(xiàng)目,這給集成這些數(shù)據(jù)帶來(lái)了困難。
數(shù)據(jù)庫(kù)中存在的數(shù)據(jù)無(wú)疑是一個(gè)大數(shù)據(jù),但它不同于其他數(shù)據(jù)領(lǐng)域。在數(shù)據(jù)處理、轉(zhuǎn)換、分析和表示方面會(huì)存在問(wèn)題。圖書館大數(shù)據(jù)應(yīng)用的技術(shù)可能與其他領(lǐng)域不同,以下羅列出了一些圖書館數(shù)據(jù)和大數(shù)據(jù)共有需要解決的問(wèn)題。
數(shù)據(jù)分析師不僅需要統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的技能,還需要領(lǐng)域知識(shí)和協(xié)作能力的技能。因此,圖書館員面臨的挑戰(zhàn)是大數(shù)據(jù)信息的管理能力,當(dāng)前看來(lái),短期培訓(xùn)似乎不足以掌握所需的技能[4]。
大數(shù)據(jù)來(lái)自各個(gè)領(lǐng)域,然而很多服務(wù)單位還沒(méi)有做好準(zhǔn)備。研究表明,目前有一半以上的機(jī)構(gòu)由于缺乏人員和平臺(tái)而無(wú)法處理大數(shù)據(jù)。圖書館大數(shù)據(jù)的研究發(fā)展甚至比其他學(xué)科要慢得多,其關(guān)鍵原因在于,數(shù)字圖書館往往是一個(gè)自成體系的組織單位。
雖然越來(lái)越多的人理解使用大數(shù)據(jù)分析的巨大好處,但是需要像分析服務(wù)器、高性能計(jì)算服務(wù)器這樣的較大投資。由于預(yù)算的縮減,大多數(shù)圖書館管理部門似乎還沒(méi)有將大數(shù)據(jù)擺上桌面。由于人力成本較高,項(xiàng)目管理的研究數(shù)據(jù)較少受到重視。多年前產(chǎn)生的大量研究數(shù)據(jù)仍然是相似的,這些資源的數(shù)字化不是一項(xiàng)簡(jiǎn)單的任務(wù),需要大量的時(shí)間。
大數(shù)據(jù)涉及捕獲、存儲(chǔ)、處理和呈現(xiàn)數(shù)據(jù)等技術(shù),圖書館中的數(shù)據(jù)有不同的類型,可能有不同的表象,一些數(shù)據(jù)正在等待數(shù)字化;另一方面,大量數(shù)據(jù)往往包含一些無(wú)效數(shù)據(jù)或錯(cuò)誤數(shù)據(jù),正確地剔除這些數(shù)據(jù)需要一些工作。由于研究數(shù)據(jù)類型和格式的異構(gòu)性,將其集成成為一項(xiàng)非常困難的工作。許多類型的研究數(shù)據(jù)在其原始狀態(tài)下的可用性比在其執(zhí)行了過(guò)濾器、算法或其他處理之后的可用性要低得多。此外,由于大量數(shù)據(jù)的可訪問(wèn)性,可能會(huì)出現(xiàn)新的系統(tǒng)入侵風(fēng)險(xiǎn),丞待解決。
圖書館除了存儲(chǔ)數(shù)據(jù)、索引數(shù)據(jù)及運(yùn)行查詢這些傳統(tǒng)功能外,還可以提供更多功能。例如利用圖書館的大數(shù)據(jù),可幫助學(xué)生為一個(gè)項(xiàng)目進(jìn)行統(tǒng)計(jì),幫助研究人員有效地管理大數(shù)據(jù)集。在圖書館中,可以實(shí)現(xiàn)2個(gè)方面的數(shù)據(jù)挖掘:一是使用圖書館中存儲(chǔ)的數(shù)據(jù);二是使用用戶使用圖書館服務(wù)過(guò)程中收集的數(shù)據(jù)。圖書館員面臨的新概念和挑戰(zhàn)是對(duì)大數(shù)據(jù)的強(qiáng)大分析,大數(shù)據(jù)是一種信息揭示工具,它以不同的方式呈現(xiàn)數(shù)據(jù),并幫助用戶挖掘他們真正想要的信息。
圖書館能夠采用數(shù)據(jù)挖掘技術(shù)和文本分析來(lái)優(yōu)化館藏內(nèi)容,實(shí)現(xiàn)更精準(zhǔn)的搜索結(jié)果,定向推送資源與實(shí)施人性化服務(wù),充分有效利用圖書館資源[5]。
資源共享是圖書館的重要目標(biāo)之一。聯(lián)機(jī)計(jì)算機(jī)圖書館中心一直致力于根據(jù)重新格式化的圖書館數(shù)據(jù)實(shí)現(xiàn)外部鏈接,可以在Web上實(shí)現(xiàn)交互,庫(kù)數(shù)據(jù)可以成為鏈接數(shù)據(jù)。
從單個(gè)作品中,可以很容易地提取出合作作者、引文、地理位置、日期、命名實(shí)體、主題分類、機(jī)構(gòu)隸屬關(guān)系、出版商和歷史流通信息的關(guān)系。
利用大數(shù)據(jù)技術(shù)可以記錄和跟蹤圖書館用戶的活動(dòng),并將這些數(shù)據(jù)存儲(chǔ)在大規(guī)模的數(shù)據(jù)存儲(chǔ)中,然后進(jìn)行數(shù)據(jù)分析,其結(jié)果可用于潛在地改善整體用戶體驗(yàn)和用戶對(duì)圖書館服務(wù)的滿意度。
新興的大數(shù)據(jù)領(lǐng)域在所有學(xué)術(shù)領(lǐng)域都產(chǎn)生了巨大的影響,并有望在包括信息科學(xué)在內(nèi)的各個(gè)學(xué)術(shù)領(lǐng)域,圖書館學(xué)和信息科學(xué)的其他潛在技能培養(yǎng)領(lǐng)域包括高強(qiáng)度性能計(jì)算、先進(jìn)的統(tǒng)計(jì)和計(jì)算方法、虛擬現(xiàn)實(shí)系統(tǒng)、多樣性格式數(shù)據(jù)管理、數(shù)字保存和管理等。圖書館可以使用大數(shù)據(jù)技術(shù)來(lái)填補(bǔ)服務(wù)空白,為研究人員創(chuàng)建值得信賴的數(shù)據(jù)庫(kù)。此外,存儲(chǔ)和處理的數(shù)量已經(jīng)增加了圖書館數(shù)據(jù)的復(fù)雜性,這項(xiàng)工作只能由數(shù)據(jù)科學(xué)家來(lái)完成,而不是傳統(tǒng)的圖書館員。研究數(shù)據(jù)的增長(zhǎng)速度非常快,越來(lái)越多的研究者希望將收集的數(shù)據(jù)作為一個(gè)整體,以新穎的方式挖掘和組織信息。大數(shù)據(jù)為圖書館員提供了科學(xué)發(fā)展的另一個(gè)里程碑,使他們能夠在快速變化的信息環(huán)境中進(jìn)行自我提升和發(fā)展。