康蠡+金慧
摘 要:結(jié)合大數(shù)據(jù)和檔案工作實(shí)際,定義檔案大數(shù)據(jù)是與檔案活動密切相關(guān)的各種有價值的、難以在可接受時間內(nèi)分析處理的數(shù)據(jù)集。檔案大數(shù)據(jù)來源于三個方面,具有4V+1C及時滯性、獲取困難等特征,其實(shí)質(zhì)代表了檔案領(lǐng)域一種新的數(shù)據(jù)生成、存在和處理樣態(tài)。
關(guān)鍵詞:檔案大數(shù)據(jù);定義;內(nèi)涵
隨著大數(shù)據(jù)的影響日益廣泛,近幾年檔案界掀起了研究大數(shù)據(jù)的熱潮?!皺n案大數(shù)據(jù)”一詞頻頻出現(xiàn)在人們的視野,但迄今為止卻很少有人對其定義和含意展開深入探討,以至于在對檔案大數(shù)據(jù)的理解中“存在著不同程度的概念泛化、夸大與誤讀。”[1]當(dāng)前,大數(shù)據(jù)在檔案領(lǐng)域正由概念論說向嘗試應(yīng)用階段演進(jìn),迫切需要對檔案大數(shù)據(jù)給出一個較為明確、科學(xué)的定義。鑒于此,本文在梳理已有論點(diǎn)的基礎(chǔ)上,結(jié)合大數(shù)據(jù)的涵義,對檔案大數(shù)據(jù)的定義和內(nèi)涵進(jìn)行闡釋,希望有助于業(yè)界更科學(xué)地認(rèn)識該問題。
1 檔案大數(shù)據(jù)定義的界定
受大數(shù)據(jù)浪潮的沖擊,自2012年起,國內(nèi)就有檔案學(xué)者開始了對檔案大數(shù)據(jù)的研究。但他們大多是從大數(shù)據(jù)的角度出發(fā),探討大數(shù)據(jù)對檔案和檔案工作的外圍影響及其對策等。對于什么是檔案大數(shù)據(jù),很多人采取了模糊化處理的做法,只有高茂科和魯?shù)挛鋬晌粚W(xué)者專門厘析了其定義。高茂科采取直接套用大數(shù)據(jù)定義的做法,著重強(qiáng)調(diào)數(shù)據(jù)的規(guī)模。他指出,檔案大數(shù)據(jù)就是檔案方面涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具在合理時間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策更積極目的的信息。[2]魯?shù)挛鋭t以檔案大數(shù)據(jù)所屬范疇為基點(diǎn),將檔案大數(shù)據(jù)定義為檔案中的大數(shù)據(jù),即一定空間與時間范圍內(nèi)所有檔案數(shù)據(jù)的集合。[3]
以上兩位學(xué)者采用“屬+種差”的方法,分別從不同的側(cè)面揭示了檔案大數(shù)據(jù)的特征,但這兩個定義都存在一定的問題。高茂科的定義把信息作為檔案大數(shù)據(jù)的屬概念,將檔案大數(shù)據(jù)的外延等同于信息的外延,并且將檔案大數(shù)據(jù)的應(yīng)用范疇局限于企業(yè)經(jīng)營決策方面,不僅違背了普通邏輯學(xué)中“定義項(xiàng)和被定義項(xiàng)的外延必須相同”的規(guī)則,而且窄化了檔案大數(shù)據(jù)的內(nèi)涵。魯?shù)挛涞亩x以數(shù)據(jù)在時間和空間上的全面性來界定檔案大數(shù)據(jù),突出了檔案大數(shù)據(jù)的整體性特征,但他將檔案數(shù)據(jù)的集合等同于檔案大數(shù)據(jù),顯然沒有準(zhǔn)確地把握檔案大數(shù)據(jù)的本質(zhì)屬性。同時,“全面性”固然是檔案大數(shù)據(jù)的一個重要特征,但其也不能完整地反映檔案大數(shù)據(jù)的全部意涵。因此,還需要對檔案大數(shù)據(jù)進(jìn)行更周密的分析。
從詞源上來看,檔案大數(shù)據(jù)是由檔案和大數(shù)據(jù)交叉而來的一個概念,它由檔案和大數(shù)據(jù)兩方面構(gòu)成,所以要正確定義檔案大數(shù)據(jù),關(guān)鍵是要厘清“檔案”和“大數(shù)據(jù)”這兩個詞在其中的涵義。而從字面上理解,此處的“檔案”顯然是一個限定詞,其基本作用是將后面的“大數(shù)據(jù)”限定在“與檔案直接有關(guān)的”這個范疇。
至于何謂大數(shù)據(jù),由于其目前尚處于被認(rèn)識和應(yīng)用的初級階段,人們對大數(shù)據(jù)的理解還存在較大分歧,并沒有就其定義達(dá)成一致意見,但通過文獻(xiàn)梳理發(fā)現(xiàn),大多數(shù)研究者傾向于從數(shù)據(jù)屬性和技術(shù)層面來界定大數(shù)據(jù)。麥肯錫公司認(rèn)為,數(shù)據(jù)規(guī)模超出傳統(tǒng)數(shù)據(jù)庫管理軟件的獲取、存儲、管理以及分析能力的數(shù)據(jù)集就是大數(shù)據(jù)。維基百科指出,大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間超過可容忍時間限制的數(shù)據(jù)集。研究機(jī)構(gòu) Gartner 對大數(shù)據(jù)的定義是:需要新處理模式才能增強(qiáng)決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。徐宗本院士則將大數(shù)據(jù)定義為不能夠集中存儲、并且難以在可接受時間內(nèi)分析處理,其中個體或部分?jǐn)?shù)據(jù)呈現(xiàn)低價值性而數(shù)據(jù)整體呈現(xiàn)高價值的海量復(fù)雜數(shù)據(jù)集。[4]縱觀這些定義,雖然各自對大數(shù)據(jù)的認(rèn)知角度和側(cè)重點(diǎn)不大相同,但它們卻蘊(yùn)含著一個共同點(diǎn),即都認(rèn)為大數(shù)據(jù)的核心是一種數(shù)據(jù)集,與傳統(tǒng)的數(shù)據(jù)及處理技術(shù)相比,其具有數(shù)據(jù)體量大(Volume)、數(shù)據(jù)類型多(Variety)、價值密度低(Value)、處理速度快(Velocity)和復(fù)雜性(Complexity)特征。
作為數(shù)據(jù)管理理論和實(shí)踐的新發(fā)展,大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型,對包括政府、教育、經(jīng)濟(jì)、科技、醫(yī)療等在內(nèi)的各個領(lǐng)域產(chǎn)生了深遠(yuǎn)影響。隨著大數(shù)據(jù)技術(shù)與檔案工作的交匯融合不斷加深,來自檔案層面及其業(yè)務(wù)活動的數(shù)據(jù)在數(shù)量、速率與種類上急劇且持續(xù)擴(kuò)大,遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)數(shù)據(jù)處理軟件和技術(shù)的能力范疇,由此導(dǎo)致檔案大數(shù)據(jù)迅速興起。因此可以認(rèn)為,檔案大數(shù)據(jù)指的就是將大數(shù)據(jù)技術(shù)和理念應(yīng)用于檔案業(yè)務(wù)領(lǐng)域產(chǎn)生的大數(shù)據(jù)。綜合前文有關(guān)大數(shù)據(jù)的定義,我們對檔案大數(shù)據(jù)作如下界定:檔案大數(shù)據(jù)乃是在檔案業(yè)務(wù)活動(包括檔案產(chǎn)生、管理及利用活動)中形成,跟檔案及檔案業(yè)務(wù)活動密切相關(guān)的各種有價值的、難以在可接受時間內(nèi)分析處理的數(shù)據(jù)集。
2 檔案大數(shù)據(jù)內(nèi)涵的闡釋
基于上述定義,可以從以下幾方面來認(rèn)識檔案大數(shù)據(jù)。
2.1 檔案大數(shù)據(jù)的來源。由于檔案大數(shù)據(jù)是伴隨著檔案業(yè)務(wù)活動與大數(shù)據(jù)技術(shù)及理念的融合而產(chǎn)生的,這就意味著其在來源上應(yīng)該包括:①來自檔案本身的數(shù)據(jù)。該部分?jǐn)?shù)據(jù)主要指檔案館(室)收集的電子檔案、音視頻檔案以及傳統(tǒng)載體檔案數(shù)字化成品所記錄的內(nèi)容數(shù)據(jù)(原始記錄)及反映檔案形式的電子數(shù)據(jù),如檔案載體材質(zhì)、規(guī)格的數(shù)據(jù)、檔案管理系統(tǒng)的數(shù)據(jù)等,以及由檔案內(nèi)容數(shù)據(jù)加工生成的檔案目錄、文摘、指南等數(shù)據(jù)。它們是檔案大數(shù)據(jù)中最具檔案特色的部分,也是檔案大數(shù)據(jù)的主干。②檔案部門開展業(yè)務(wù)活動產(chǎn)生的數(shù)據(jù)。此類數(shù)據(jù)一部分由檔案業(yè)務(wù)部門自己生成,一部分則由檔案業(yè)務(wù)部門通過各種途徑收集而來。主要涵蓋檔案部門的概況數(shù)據(jù)、檔案政策數(shù)據(jù)、法律數(shù)據(jù)、館藏結(jié)構(gòu)數(shù)據(jù)、行業(yè)動態(tài)數(shù)據(jù)等。③有關(guān)檔案用戶的數(shù)據(jù),具體包括用戶的個人情況、位置數(shù)據(jù)、查詢?yōu)g覽數(shù)據(jù)、需求偏好數(shù)據(jù)等。上述數(shù)據(jù)構(gòu)成了檔案大數(shù)據(jù)的主要來源,但需注意,這并不是說檔案大數(shù)據(jù)就囊括了以上方面的一切數(shù)據(jù)。檔案業(yè)務(wù)活動過程也會產(chǎn)生大量無意義的噪聲數(shù)據(jù),只有那些能服務(wù)檔案工作發(fā)展、具備利用價值的數(shù)據(jù)才能納入檔案大數(shù)據(jù)范疇。這就需要根據(jù)應(yīng)用目的進(jìn)行數(shù)據(jù)過濾與整理,為后期深度挖掘與分析做好準(zhǔn)備。[5]
2.2 檔案大數(shù)據(jù)的特征。與傳統(tǒng)的檔案數(shù)據(jù)(主要指海量檔案數(shù)據(jù)、大規(guī)模檔案數(shù)據(jù))相比,得益于信息技術(shù)的進(jìn)步和信息需求的變化,檔案大數(shù)據(jù)在諸多方面都表現(xiàn)出了新的特點(diǎn)。具體來說,在數(shù)據(jù)規(guī)模上,傳統(tǒng)的檔案數(shù)據(jù)通常以MB、GB或TB計算,檔案大數(shù)據(jù)的規(guī)模則往往達(dá)到了PB、EB乃至ZB級。在數(shù)據(jù)類型上,傳統(tǒng)的檔案數(shù)據(jù)絕大部分為事先定義好的結(jié)構(gòu)化數(shù)據(jù)(檔案數(shù)據(jù)庫),檔案大數(shù)據(jù)則既包括了大量的結(jié)構(gòu)化數(shù)據(jù),又包括了大量的半結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字化的員工管理數(shù)據(jù))和非結(jié)構(gòu)化數(shù)據(jù)(如視頻、音頻、照片、電子郵件、網(wǎng)頁信息等),并且后兩種類型的數(shù)據(jù)越來越成為主流。在時效方面,傳統(tǒng)檔案數(shù)據(jù)收集的來源、對象相對固定,帶有明顯的階段性和周期性,檔案大數(shù)據(jù)中的各種數(shù)據(jù)則是以數(shù)據(jù)流的形式動態(tài)地生成、快速地甄別、實(shí)時地存儲,數(shù)據(jù)的采集、處理將具有很強(qiáng)的時效性。[6]同時,受以上因素的疊加催化,檔案大數(shù)據(jù)處理的復(fù)雜程度遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)檔案數(shù)據(jù)的處理要求,需要借助超常規(guī)的技術(shù)和工具才能完成。
與教育、金融、互聯(lián)網(wǎng)等領(lǐng)域的大數(shù)據(jù)相比,檔案大數(shù)據(jù)的特征則體現(xiàn)為:①時滯性。盡管檔案大數(shù)據(jù)中產(chǎn)自管理部門業(yè)務(wù)活動的數(shù)據(jù)及用戶數(shù)據(jù)具有強(qiáng)烈的及時性、動態(tài)性,但作為核心數(shù)據(jù)的檔案數(shù)據(jù)如電子檔案、檔案數(shù)字化文件等數(shù)據(jù)信息卻帶有明顯的滯后性、靜態(tài)性,因而決定了檔案大數(shù)據(jù)具有很強(qiáng)的時滯性,并不能像互聯(lián)網(wǎng)數(shù)據(jù)那樣即時產(chǎn)生效用。②價值密度高。檔案數(shù)據(jù)是對社會實(shí)踐活動的原始記錄,并且檔案往往以孤本形式存在,這也就表征相較于其他領(lǐng)域的大數(shù)據(jù),檔案大數(shù)據(jù)的真實(shí)性更強(qiáng),其單位數(shù)據(jù)的價值密度更高。③獲取困難。由于檔案數(shù)據(jù)具有保密要求,其只有過了一定的保密期限才能對外開放,從而給檔案數(shù)據(jù)的公開獲取帶來了很大困難。
2.3 檔案大數(shù)據(jù)的定位。從起源和歸屬上看,檔案大數(shù)據(jù)孕育于大數(shù)據(jù)生態(tài)環(huán)境,產(chǎn)生于檔案生產(chǎn)者、檔案管理者和檔案消費(fèi)者構(gòu)成的生態(tài)網(wǎng)絡(luò)之中。因此檔案大數(shù)據(jù)僅僅是大數(shù)據(jù)生態(tài)整體中的一小部分,它受到大數(shù)據(jù)生態(tài)的影響和制約,又反作用于大數(shù)據(jù)生態(tài),其與大數(shù)據(jù)之間的關(guān)系也只是反映了部分與整體的關(guān)系。而檔案大數(shù)據(jù)之“大”,除了指數(shù)據(jù)體量、類型、變化之大外,更重要的是指這些數(shù)據(jù)蘊(yùn)含的價值之大。因?yàn)闃?gòu)成成分的復(fù)雜性、特殊性,檔案大數(shù)據(jù)的功能、價值更加豐富、多元:一方面,由于其中的檔案內(nèi)容數(shù)據(jù)是對社會實(shí)踐活動的歷史記錄,該部分?jǐn)?shù)據(jù)無論怎樣都須起到“提供證據(jù)、給予公眾解惑”[7]的作用;另一方面,在大數(shù)據(jù)環(huán)境下,隨著檔案信息化的推進(jìn),可利用的檔案數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)和用戶數(shù)據(jù)大量增加,加之檔案業(yè)務(wù)中各種數(shù)據(jù)“實(shí)時采集、實(shí)時歸檔、實(shí)時計算”[8](當(dāng)然這也是檔案大數(shù)據(jù)的必要條件)的逐步實(shí)現(xiàn),人們可以在整合這些數(shù)據(jù)的基礎(chǔ)上,通過對檔案與社會活動以及檔案與檔案、檔案與用戶、用戶與用戶之間多維關(guān)系的挖掘分析,發(fā)現(xiàn)組織、社會及個人歷史活動與檔案利用活動的客觀規(guī)律并對其進(jìn)行預(yù)測,從而察覺新的問題,做出新的決策,創(chuàng)造新的知識,讓各相關(guān)數(shù)據(jù)在服務(wù)社會生產(chǎn)生活、保存歷史記憶、提升檔案管理利用水平等方面發(fā)揮出決策與預(yù)測功能,產(chǎn)生更大的價值。就此我們亦可判知,檔案大數(shù)據(jù)的核心并非只是容量非常大的數(shù)據(jù)的集合,而是要在數(shù)據(jù)關(guān)聯(lián)的基礎(chǔ)上實(shí)現(xiàn)對所有數(shù)據(jù)的動態(tài)挖掘和應(yīng)用。
2.4 檔案大數(shù)據(jù)的本質(zhì)。檔案大數(shù)據(jù)更深層的內(nèi)涵,在于其表征了檔案領(lǐng)域一種新的數(shù)據(jù)生成、存在和處理樣態(tài),預(yù)示著檔案信息化發(fā)展的新階段。檔案大數(shù)據(jù)的根源在于因信息記錄和處理技術(shù)的飛速進(jìn)步而引起的檔案數(shù)據(jù)化,其實(shí)質(zhì)是對檔案業(yè)務(wù)活動中多樣化數(shù)據(jù)進(jìn)行高速采集、實(shí)時處理和分析,以從中提取多種價值。[9]檔案大數(shù)據(jù)以整體論為基礎(chǔ),將檔案數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、用戶數(shù)據(jù)及產(chǎn)生這些數(shù)據(jù)的人、事、物視為一個有機(jī)整體,在彼此的相互關(guān)系和相互作用中理解、看待與運(yùn)用數(shù)據(jù);主張通過數(shù)字化手段,突破時間、空間和體制障礙,打破檔案與檔案、檔案與用戶、用戶與檔案機(jī)構(gòu)彼此分割的數(shù)據(jù)分布狀態(tài),實(shí)現(xiàn)數(shù)據(jù)的相互開放、相互流通與相互關(guān)聯(lián),尋求對多元數(shù)據(jù)整體價值的深度發(fā)現(xiàn),以實(shí)現(xiàn)各種數(shù)據(jù)價值的最大化。
在理念層面,檔案大數(shù)據(jù)之“大”的根本則是檔案業(yè)務(wù)活動中思維方式的轉(zhuǎn)變。這種轉(zhuǎn)變體現(xiàn)在:首先,要求檔案活動的重心應(yīng)由技術(shù)(T)轉(zhuǎn)向信息(I),在檔案管理和利用中要以數(shù)據(jù)為大,讓數(shù)據(jù)說話,使數(shù)據(jù)成為考究問題、進(jìn)行決策的依據(jù)和價值創(chuàng)造的源泉,而不單單依靠經(jīng)驗(yàn)和直覺開展工作。其次,在數(shù)據(jù)的采集分析上,要求我們樹立大檔案觀,不再滿足于少量樣本或抽樣數(shù)據(jù),而是要注重數(shù)據(jù)的全面性,盡可能地收集和利用全部(檔案、業(yè)務(wù)和用戶)數(shù)據(jù),讓每一條有意義的數(shù)據(jù)及數(shù)據(jù)關(guān)系都能進(jìn)入檔案管理和利用的視野,使其獲得生命、煥發(fā)光彩。其三,檔案管理和利用主體應(yīng)在堅持?jǐn)?shù)據(jù)精確性的同時,容忍和接受大量數(shù)據(jù)帶來的混雜性和不確定性,并從中發(fā)現(xiàn)創(chuàng)造發(fā)生的無限可能。其四,在檔案開發(fā)和利用過程中,既不放棄對檔案記錄及檔案業(yè)務(wù)活動中因果關(guān)系的追問,明確其中的原因,又將對檔案數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)和用戶數(shù)據(jù)蘊(yùn)藏的相關(guān)關(guān)系的關(guān)注放在突出位置,用以把握檔案記錄及檔案業(yè)務(wù)活動的有關(guān)現(xiàn)象是什么,以及檔案管理和服務(wù)即將發(fā)生什么。這就要求檔案工作必須由被動走向主動,對檔案的利用亦須由以提供檔案原始信息為主轉(zhuǎn)向提供檔案原始信息與對檔案數(shù)據(jù)的整合、分析、挖掘、呈現(xiàn)并重。
*本文系海南省哲學(xué)社會科學(xué)規(guī)劃課題“生態(tài)文明發(fā)展中海南生態(tài)檔案資源體系構(gòu)建與應(yīng)用研究”(項(xiàng)目編號:HNSK(QN)15-45)成果之一。