◎劉江永
大數(shù)據(jù)時代背景下的檔案工作
◎劉江永
本文首先論述了大數(shù)據(jù)的概念,進而分析了檔案工作引入大數(shù)據(jù)的必要性,然后分析了大數(shù)據(jù)時代給檔案工作帶來的種種挑戰(zhàn),最后提出了檔案管理運用大數(shù)據(jù)的策略及需要注意的問題。
在大數(shù)據(jù)時代背景下,各行各業(yè)都面臨著對龐大而復(fù)雜的數(shù)據(jù)進行有效管理的巨大挑戰(zhàn),人們越來越認識到對自身產(chǎn)生和擁有的大數(shù)據(jù)進行有效管理的重要性和緊迫性,檔案行業(yè)也不例外。在大數(shù)據(jù)時代,社會每天產(chǎn)生的原始記錄的量和種類與過去不可同日而語,加上各類型的檔案館(室)現(xiàn)有的檔案數(shù)據(jù),檔案工作者已經(jīng)明顯感覺到任務(wù)的艱巨,而且很多時候面對洶涌而來的大數(shù)據(jù),檔案工作者已經(jīng)不知道如何應(yīng)對。因此,檔案界很有必要探討一下大數(shù)據(jù)時代背景下的檔案工作。
數(shù)據(jù)信息的新時代,科學(xué)家們稱之為“大數(shù)據(jù)時代”。大數(shù)據(jù)描述的是隨著數(shù)據(jù)量和數(shù)據(jù)類型激增而逐漸衍生出來的一種現(xiàn)象,不僅包括大規(guī)模的體量、多樣化種類的數(shù)據(jù)集,還包括對這種數(shù)據(jù)集進行高速采集、處理與分析以提取價值的技術(shù)架構(gòu)與技術(shù)過程。大數(shù)據(jù)具有以下三大主要特征(3V):數(shù)據(jù)量大(Volume),PB級甚至ZB級;數(shù)據(jù)類型多(Variety),網(wǎng)絡(luò)日志,音頻、視頻、圖片、地理位置等結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)并存,數(shù)據(jù)類型層出不窮;時效速度快(Velocity),采集、處理數(shù)據(jù)的效率高。后來一些學(xué)者又概括添加了價值稀疏性(Value)和復(fù)雜性(Complexity)。
新時代背景下檔案數(shù)據(jù)的存儲與備份需要大數(shù)據(jù)技術(shù)。檔案數(shù)據(jù)庫的使用極大地提高了檔案管理利用效率,但今年以來,在檔案數(shù)據(jù)庫的使用過程中,常常會碰到無法向數(shù)據(jù)庫增加新的檔案數(shù)據(jù)的情況,這種現(xiàn)象很類似于傳統(tǒng)檔案管理時的“漲庫”,即由于庫房容量有限導(dǎo)致新增加的檔案無法正確地存儲到庫房中。隨著檔案信息化不斷接近完成,隨著大數(shù)據(jù)時代的到來,檔案數(shù)據(jù)庫面臨的存儲空間問題相當嚴峻。檔案館要想安全地存儲巨量的檔案數(shù)據(jù),不可能一味地蓋大樓蓋機房。再之,檔案數(shù)據(jù)還面臨著需要大量存儲空間備份的問題,這就逼迫我們必須優(yōu)化存儲、提高效率和節(jié)約成本。
檔案工作從實體管理上升到知識管理需要大數(shù)據(jù)技術(shù)。現(xiàn)今檔案用戶已不滿足于僅限于數(shù)據(jù)或文件的利用,更希望能夠獲得數(shù)據(jù)背后的信息以及信息蘊藏的知識,因此,檔案利用服務(wù)也應(yīng)由提供數(shù)據(jù)、信息轉(zhuǎn)變?yōu)樘峁┲R。技術(shù)引擎是檔案館知識服務(wù)的技術(shù)核心,新型知識服務(wù)引擎包括資源及學(xué)術(shù)搜索引擎、資源及服務(wù)推薦引擎、用戶知識需求預(yù)測引擎、及多維度信息資源獲取、組織、分析及決策引擎等,利用大數(shù)據(jù)技術(shù)可以構(gòu)建檔案館的新型知識服務(wù)引擎。
檔案館加入政府2.0的建設(shè)需要大數(shù)據(jù)技術(shù)。政府2.0是政府在電子政務(wù)職能上的一個根本性轉(zhuǎn)變,它與民眾直接互動溝通,從條塊分割、封閉的架構(gòu)邁向一個開放、協(xié)同、合作、互動的架構(gòu),使政府真正成為服務(wù)型政府,政府2.0通過對電子政務(wù)信息系統(tǒng)的整合,可實現(xiàn)跨部門的政府信息資源共享和政務(wù)協(xié)同。檔案館作為科學(xué)文化事業(yè)機構(gòu),提供檔案利用服務(wù)是檔案的根本職能,建設(shè)政府2.0需要檔案館的參與,而現(xiàn)今各個檔案館使用的檔案信息管理系統(tǒng)不盡相同,檔案信息被分割在不同的檔案部門內(nèi),檔案部門和其他政府部門之間也存在著“鴻溝”,隨著大數(shù)據(jù)技術(shù)發(fā)展,跨越系統(tǒng)、跨越平臺、跨越數(shù)據(jù)結(jié)構(gòu)的檔案信息將可以在集政府各部門、企事業(yè)單位、社會團體、公民等主體的政府2.0平臺上流動,提供高效的檔案利用服務(wù),滿足各方需求。
處理非結(jié)構(gòu)化電子文件需要大數(shù)據(jù)技術(shù)。大數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)?,F(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出非結(jié)構(gòu)化數(shù)據(jù)大幅增長的特點,同時,由于數(shù)據(jù)顯性或隱性的網(wǎng)絡(luò)化存在,使得數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)無所不在。一直以來,人們對數(shù)據(jù)的管理采用的是關(guān)系型的數(shù)據(jù)庫,比較有代表性的就是IOE(I指IBM的服務(wù)器,O指Oracle的數(shù)據(jù)庫,EMC的存儲模式)模式。檔案行業(yè)也如此,但是大數(shù)據(jù)時代,IOE模式已經(jīng)不適合做大數(shù)據(jù)處理。大數(shù)據(jù)應(yīng)用除了數(shù)據(jù)規(guī)模巨大之外,還意味著擁有龐大的文件數(shù)量,因此如何管理文件系統(tǒng)層累積的元數(shù)據(jù)是一個難題,處理不當會影響系統(tǒng)的擴展能力和性能。面對著快速增長的非結(jié)構(gòu)化文件,檔案工作者在進行電子文件管理時困難重重?,F(xiàn)在基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)庫,如SOL已經(jīng)既可以做關(guān)系數(shù)據(jù),也可以做空間數(shù)據(jù)、圖像、數(shù)據(jù)流等非機構(gòu)化數(shù)據(jù),而且基于對象的存儲架構(gòu)可以在一個系統(tǒng)中管理十億級別的文件數(shù)量,還不會像傳統(tǒng)存儲一樣遭遇元數(shù)據(jù)管理的困擾,大數(shù)據(jù)技術(shù)為檔案工作者管理非結(jié)構(gòu)化電子文件的問題提供了解決之道。
檔案管理理論的挑戰(zhàn)。正如信息化時代挑戰(zhàn)了紙質(zhì)時代的來源原則、文件生命周期理論、檔案價值鑒定理論,催生了基礎(chǔ)理論的新變革,產(chǎn)生新來源觀、文件連續(xù)體理論、宏觀鑒定理論等等革新的理論。在大數(shù)據(jù)時代,新來源觀、文件連續(xù)體理論、宏觀鑒定理論都將受到不同程度的挑戰(zhàn),檔案學(xué)基礎(chǔ)理論將進一步發(fā)展。
檔案信息資源管理的挑戰(zhàn)。從紙質(zhì)檔案到檔案信息化再到大數(shù)據(jù)時代,檔案信息資源呈指數(shù)型增長。在大數(shù)據(jù)時代,檔案信息泛濫,如何實現(xiàn)檔案數(shù)據(jù)長期可讀性、安全可靠性,并在海量數(shù)據(jù)中實現(xiàn)對檔案信息的挖掘分析,從而提供有價值的信息,是檔案管理面臨的挑戰(zhàn)。
檔案業(yè)務(wù)環(huán)節(jié)的挑戰(zhàn)。從檔案的收集、管理、利用3個環(huán)節(jié)來看:在傳統(tǒng)管理方式下,“收”是各部門移交;“管”是手工管理,手工查詢;“用”是提供被動的查詢服務(wù)。在計算機時代,“收”主要是部門移交與系統(tǒng)推送部分電子文件相結(jié)合,“管”主要是電腦代替手工勞動,“用”是利用現(xiàn)代信息技術(shù)進行制作、加工、傳播、轉(zhuǎn)換和二次開發(fā)。在大數(shù)據(jù)時代下,“收”將是數(shù)據(jù)實時的、自動歸集;“管”將采用云平臺存儲、計算、分析;“用”則是分析、發(fā)現(xiàn)與預(yù)測,為社會、企業(yè)創(chuàng)造價值。
對檔案資源進行統(tǒng)一管理或統(tǒng)一備份。大數(shù)據(jù)技術(shù)支持龐大數(shù)據(jù)的存儲和處理,使檔案資源的統(tǒng)一管理或統(tǒng)一備份成為可能。國內(nèi)有些地區(qū)已經(jīng)開始建設(shè)大數(shù)據(jù)產(chǎn)業(yè)園區(qū),例如陜西省西咸新區(qū)的大數(shù)據(jù)產(chǎn)業(yè)園。根據(jù)規(guī)劃,大數(shù)據(jù)產(chǎn)業(yè)園將實現(xiàn)數(shù)據(jù)的規(guī)?;型掏?、深層次整合分析、多領(lǐng)域社會應(yīng)用、高效益持續(xù)增值,成為國家政務(wù)資源后臺處理與備份中心、國家級大數(shù)據(jù)處理中心以及國內(nèi)最大的信息資源聚集服務(wù)區(qū)。如果全國的檔案數(shù)據(jù)資源能集中起來,那么利用大數(shù)據(jù)進行檔案資源的管理、開發(fā)和利用將指日可待。
和大數(shù)據(jù)開發(fā)公司合作,開發(fā)適合檔案行業(yè)的大數(shù)據(jù)分析工具。大數(shù)據(jù)技術(shù)寬泛復(fù)雜,一個行業(yè)想引入大數(shù)據(jù),就需要打破專業(yè)限制,尋求和專門的大數(shù)據(jù)開發(fā)公司合作,避免懂數(shù)據(jù)分析的沒有數(shù)據(jù),不懂數(shù)據(jù)分析的卻擁有大量數(shù)據(jù)。比如一家電力公司,電力是它們的專長,而IBM研究院對數(shù)據(jù)分析很在行,IBM的科學(xué)家雖然有滿腔熱情,但是對電力行業(yè)也有一知半解的地方,最后請來一位清華大學(xué)的院士,他懂電力又了解未來發(fā)展的趨勢,形成了三方合作的局面。假如沒有一個開放、協(xié)同創(chuàng)新的思想,這樣的結(jié)果很難實現(xiàn)。而且不同行業(yè)需要不同的大數(shù)據(jù)分析工具和開發(fā)環(huán)境,檔案行業(yè)也如此,只有通過熟悉檔案行業(yè)的檔案工作者與專門進行大數(shù)據(jù)開發(fā)的專業(yè)公司或人才合作,才能開發(fā)出適合檔案行業(yè)特點的大數(shù)據(jù)分析工具。
要有明確的目標和標準。檔案管理在運用大數(shù)據(jù)時必須要弄清楚到底想從大數(shù)據(jù)中得到什么,否則就要花大量的時間來分析數(shù)據(jù)。檔案資源太豐富,如果沒有明確的目標,就算沒有走入迷途至少也會覺得非常迷茫。因此,首先要定義使用大數(shù)據(jù)的目標和標準,之后再使用能夠解決特定問題的大數(shù)據(jù)工具。
要注意潛在的風險。檔案信息資源的開發(fā)和利用會涉及到檔案信息的泄密、檔案信息的丟失和篡改、隱私權(quán)的侵犯、知識產(chǎn)權(quán)的糾紛等等問題。因此,檔案管理在運用大數(shù)據(jù)技術(shù)時需要注意這些潛在的風險,通過制定法規(guī)、明確權(quán)限、厘清責任關(guān)系等措施來控制和應(yīng)對這些潛在風險的發(fā)生。
移動互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)的發(fā)展,對檔案管理工作既是挑戰(zhàn),更是機遇。檔案管理將朝著知識管理、信息服務(wù)的方向發(fā)展,檔案管理在企業(yè)經(jīng)營中的價值將進一步突顯。在未來的檔案管理中,檔案人員要不斷學(xué)習(xí)創(chuàng)新、開放的互聯(lián)網(wǎng)思維,圍繞企業(yè)的經(jīng)營工作,重新思考和認識檔案工作,充分運用新技術(shù)和新運用,在大數(shù)據(jù)時代推動檔案管理工作創(chuàng)造更大的價值。
(作者單位:中國航發(fā)湖南動力機械研究所)