熊煒
摘 要:文章以信息技術(shù)飛速發(fā)展的當(dāng)今社會為背景,首先從定義和發(fā)展兩個方面對大數(shù)據(jù)的有關(guān)內(nèi)容進(jìn)行了敘述,然后又列舉了數(shù)字圖書館大數(shù)據(jù)所具有的代表性特征,最后結(jié)合實際情況,以“數(shù)字圖書館如何在建設(shè)中合理應(yīng)用大數(shù)據(jù)”為主題,展開了深入的探討。
關(guān)鍵詞:數(shù)字圖書館;建設(shè);大數(shù)據(jù)問題
作為信息技術(shù)發(fā)展進(jìn)程中的里程碑,物聯(lián)網(wǎng)、云計算和大數(shù)據(jù)的出現(xiàn),均在一定程度上對人們的生活產(chǎn)生了影響。對數(shù)字圖書館而言,在對其進(jìn)行建設(shè)的過程中,所涉及數(shù)據(jù)量的增加以及所涉及種類的多元化,導(dǎo)致人們不得不將關(guān)注的重心轉(zhuǎn)向大數(shù)據(jù)的問題方面。由此可以看出,想要保證數(shù)字圖書館建設(shè)工作的順利進(jìn)行,對大數(shù)據(jù)問題進(jìn)行探究是非常有必要的。
1 大數(shù)據(jù)的概述
1.1 定義
現(xiàn)階段,大數(shù)據(jù)在定義方面仍舊存在一定歧義,部分人認(rèn)為大數(shù)據(jù)的核心特征在于其所具有的復(fù)雜性,而另一部分人則認(rèn)為大數(shù)據(jù)的核心特征在于其總量大。在各種不同的定義中被人們普遍認(rèn)可的觀點(diǎn)是:大數(shù)據(jù)是無法應(yīng)用傳統(tǒng)工具在特定時間內(nèi)完成挖掘、分析與存儲的數(shù)據(jù)集合。在該定義中,大數(shù)據(jù)所具有的特征共有兩個,其一是數(shù)據(jù)量大,其二是所包含半結(jié)構(gòu)和非結(jié)構(gòu)數(shù)據(jù)的數(shù)量較多。
1.2 發(fā)展
大數(shù)據(jù)出現(xiàn)之初,就得到了大量IT廠商的認(rèn)可,并隨之開展了大數(shù)據(jù)的研究工作。以麥肯錫為代表的咨詢公司,根據(jù)自身所涉及的工作方位針對大數(shù)據(jù)開展了相關(guān)的專項服務(wù),而負(fù)責(zé)生產(chǎn)軟件與硬件的廠商,則紛紛通過對自身現(xiàn)有優(yōu)勢的整合,推出了對大數(shù)據(jù)進(jìn)行挖掘、分析和存儲的方案[1]。隨著相關(guān)研究的不斷深入,針對大數(shù)據(jù)所開展的研究工作,也實現(xiàn)了由理論向?qū)嵺`的轉(zhuǎn)變。
2 數(shù)字圖書館大數(shù)據(jù)的特征
2.1 價值高
需要明確一點(diǎn),在以碎片化形態(tài)存在的數(shù)據(jù)中,往往也會蘊(yùn)含著寶貴的資源和知識,例如,在長達(dá)一個小時的教學(xué)視頻中,其核心資源可能只有五分鐘的時間,但是想要在大量數(shù)據(jù)中將這關(guān)鍵的五分鐘視頻資源進(jìn)行查找,就需要應(yīng)用大數(shù)據(jù)的有關(guān)技術(shù)對其加以輔助,提升信息查找的效率,避免不必要的時間浪費(fèi)。
2.2 增長迅速
對于數(shù)字圖書館而言,在大數(shù)據(jù)時代最突出的特征即為數(shù)據(jù)增長的迅速,其中包括新購入的數(shù)據(jù)庫、音頻視頻資源以及現(xiàn)有資源的數(shù)字化等,想要對幾百TB的龐大數(shù)據(jù)進(jìn)行高效管理,當(dāng)務(wù)之急在于對數(shù)據(jù)中心的構(gòu)建與完善[2]。
2.3 類型復(fù)雜
在數(shù)字圖書館的建設(shè)工作取得相應(yīng)進(jìn)展的當(dāng)今社會,開始有越來越多的圖書館根據(jù)自身所具有的特點(diǎn),開始了對特色資源的數(shù)字化建設(shè),例如,地方著作、師生著作或教學(xué)視頻等,這項工作的開展雖然在很大程度上豐富了圖書館的資源儲備,但也加劇了資源體系的復(fù)雜程度,使非結(jié)構(gòu)數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)和結(jié)構(gòu)數(shù)據(jù)的融合程度不斷增加。
3 數(shù)字圖書館如何在建設(shè)中合理應(yīng)用大數(shù)據(jù)
3.1 數(shù)據(jù)的挖掘
近幾年,被人們廣泛認(rèn)可的數(shù)據(jù)挖掘平臺為云計算,也就是說,對云計算進(jìn)行合理應(yīng)用,可以在一定程度上實現(xiàn)對大數(shù)據(jù)問題的有效解決。云計算指的是可以用于配置與共享的資源池,對該計算資源池所包含資源進(jìn)行釋放和分配時,只需要開展極少的互動與管理工作即可。
云計算所包含的服務(wù)類型共有三種,分別是平臺、基礎(chǔ)設(shè)施以及軟件即服務(wù)?,F(xiàn)階段,科研人員尚未根據(jù)云計算所具有的特點(diǎn)構(gòu)建起用以統(tǒng)計的架構(gòu),但不同服務(wù)類型均具有以下幾個方面的共同點(diǎn):第一點(diǎn),快速彈性;第二點(diǎn),寬帶網(wǎng)絡(luò)訪問;第三點(diǎn),資源池化;第四點(diǎn),自助服務(wù)。而云計算所對應(yīng)的技術(shù)體系,則是由SOA構(gòu)架層、物力資源層、管理中間層和資源池層所構(gòu)成。
在數(shù)字圖書館中對大數(shù)據(jù)加以應(yīng)用的主要作用為數(shù)據(jù)的挖掘、分析和存儲。云計算可以在最大程度上實現(xiàn)對數(shù)據(jù)進(jìn)行挖掘與部署的效率的提升,并且降低對空間與資源的消耗,除此之外,人們使用頻率較高的數(shù)據(jù)挖掘與分析軟件,也可以與云計算平臺相連接,因此,在應(yīng)用大數(shù)據(jù)的過程中,云計算技術(shù)是必不可少的構(gòu)成部分[3]。對云計算而言,正是由于其在對數(shù)據(jù)進(jìn)行挖掘和計算的過程中,所應(yīng)用的工作方式為分布與并行相結(jié)合,因此,和傳統(tǒng)服務(wù)器相比較而言,在工作效率方面具有較為明顯的優(yōu)勢。另外,云計算所具有的彈性特征也在很大程度上提升了其與大數(shù)據(jù)分析所具有的契合度,通過對云計算的合理應(yīng)用,人們可以高效完成對數(shù)量較多的非結(jié)構(gòu)數(shù)據(jù)進(jìn)行可視化分析的工作。
3.2 數(shù)據(jù)的分析
雖然對處于任意領(lǐng)域中的大數(shù)據(jù)而言,在定義方面都是相對統(tǒng)一的,但這并不代表其不存在具有代表性的特征。對數(shù)字圖書館而言,在對所涉及大數(shù)據(jù)進(jìn)行分析的過程中,往往會由于結(jié)構(gòu)化數(shù)據(jù)所占據(jù)比例的增加,與商業(yè)公司相比會顯得更為簡單、容易。
在對數(shù)字圖書館進(jìn)行建設(shè)的過程中,最基礎(chǔ)同時也是具有最大價值的部分為數(shù)據(jù)庫,因此,數(shù)據(jù)庫在數(shù)據(jù)分析過程中的作用是無法替代的。SQL作為適用于不同數(shù)據(jù)庫結(jié)構(gòu)并且可以重復(fù)使用的高層次工具,在應(yīng)用其對數(shù)據(jù)進(jìn)行分析時,較易由于流程繁瑣復(fù)雜而影響查詢的效率,因此,對于大數(shù)據(jù)來說,在分析過程中選用以分布式的系統(tǒng)構(gòu)架為基礎(chǔ)所產(chǎn)生的Hadoop作為主要工具可行性更高,Hadoop最突出的特征在于其具有高度的可靠性、擴(kuò)展性、容錯性和工作效率。作為存在免費(fèi)版本的數(shù)據(jù)分析工具,現(xiàn)階段,Hadoop已經(jīng)成為了大部分經(jīng)費(fèi)緊張的數(shù)字圖書館的首選。
3.3 數(shù)據(jù)的存儲
對大數(shù)據(jù)而言,其支撐作用的核心硬件為存儲系統(tǒng),在對數(shù)據(jù)進(jìn)行存儲和分析的過程中,想要保證獲得結(jié)果的準(zhǔn)確性,數(shù)據(jù)往往需要在服務(wù)器與存儲系統(tǒng)之間多次往返。存儲系統(tǒng)的發(fā)展方向主要有三個方面,分別是強(qiáng)化計算能力、擴(kuò)大容量以及提高傳輸速率。傳統(tǒng)圖書館所采用的儲存方式通常有存儲域網(wǎng)絡(luò)、直接外掛以及網(wǎng)絡(luò)附加三種,與其他兩種存儲系統(tǒng)相比,存儲域網(wǎng)絡(luò)系統(tǒng)在傳輸速率和存儲容量方面具有的優(yōu)勢較為突出,通過對存儲域網(wǎng)絡(luò)系統(tǒng)進(jìn)行分析可以發(fā)現(xiàn),該存儲系統(tǒng)之所以具有較高的性能,其核心因素在于以下三個方面性能的支撐:計算能力、存儲容量以及傳輸能力,其中最為突出的性能優(yōu)勢體現(xiàn)在存儲性能方面,存儲域網(wǎng)絡(luò)系統(tǒng)中能夠疊加高達(dá)數(shù)千TB容量的磁盤列陣。但其所需采購成本相對較高,因此,對于大部分存在經(jīng)費(fèi)緊張問題的圖書館而言,想要根據(jù)自身實際需求對存儲域網(wǎng)絡(luò)系統(tǒng)加以采購,是較難實現(xiàn)的,這也在一定程度上導(dǎo)致該存儲系統(tǒng)利用率始終無法得到提升[4]。
4 結(jié)論
綜上所述,隨著信息技術(shù)的發(fā)展,在對數(shù)字圖書館進(jìn)行建設(shè)的過程中,面臨著前所未有的挑戰(zhàn),導(dǎo)致建設(shè)工作進(jìn)展緩慢的主要原因并不是大數(shù)據(jù)本身,而是對大數(shù)據(jù)進(jìn)行挖掘、分析和存儲時需要應(yīng)用的技術(shù)。因此,想要保證數(shù)字圖書館建設(shè)工作的順利開展,需要以大數(shù)據(jù)所具有的特征為基礎(chǔ),以圖書館所具有的需求為核心,對相關(guān)技術(shù)進(jìn)行深入的探索。
參考文獻(xiàn)
[1]李志.數(shù)字圖書館建設(shè)面臨問題的思考[J].才智,2013,19:218.
[2]廖曉靜.高職數(shù)字圖書館建設(shè)發(fā)展相關(guān)問題的思考[J].黑龍江史志,2013,19:209.
[3]甘勝界.數(shù)字圖書館在大數(shù)據(jù)時代建設(shè)與發(fā)展的思考[J].辦公自動化,2016,21:53-54+28.
[4]周彥.關(guān)于數(shù)字圖書館大數(shù)據(jù)系統(tǒng)建設(shè)的思考[J].商,2016,23:221.