米永寧+耿志杰
摘要:近年來,檔案界對(duì)大數(shù)據(jù)技術(shù)的研究較熱,但整體來看在目前條件下應(yīng)用大數(shù)據(jù)技術(shù)開發(fā)數(shù)字檔案信息資源存在現(xiàn)實(shí)困境,數(shù)字檔案信息資源開發(fā)中的數(shù)據(jù)化、結(jié)構(gòu)化不足等問題與大數(shù)據(jù)技術(shù)的應(yīng)用條件之間有一定距離。本文認(rèn)為應(yīng)該從完成數(shù)字檔案數(shù)據(jù)化、結(jié)構(gòu)化,捕獲檔案數(shù)據(jù)流建立檔案數(shù)據(jù)資源庫,強(qiáng)化檔案數(shù)據(jù)流的分析處理等方面將大數(shù)據(jù)技術(shù)應(yīng)用于數(shù)字檔案信息資源的開發(fā)。
關(guān)鍵詞:大數(shù)據(jù)數(shù)字化數(shù)據(jù)化數(shù)字檔案信息資源開發(fā)
Abstract: In recent years,Archives academia has been keen to research Big data technologies. But all things considered,some realistic predica? ment really exists in applying Big Data technologies to develop Digital Archive Resources under the cur? rent conditions,the unfinished Datamation,Structur? alization,along with other problems cant meet the conditions of the application of Big Data technolo? gies.This article argues several strategies should be taken to apply Big Data technologies to develop Dig? ital Archive Resources,e.g.Continue to work for the Datamation and Structuralization,then capture the Archival data stream and build the Archival data re? pository,enhance analysis and processing of Archi? val data stream etc.
Keywords: Big data; Digitalization; Datamation; Digital archive resources development
一、引言
隨著大數(shù)據(jù)技術(shù)的興起,檔案界的研究工作正在逐步深入。筆者在中國知網(wǎng)(CNKI)上,以“大數(shù)據(jù)”為關(guān)鍵詞進(jìn)行檢索,檢索時(shí)間為2013年1月1日至2015年12月31日,得到相關(guān)文章共計(jì)152篇。再將這些文章按照主題范疇進(jìn)行分類,發(fā)現(xiàn)其主要涉及檔案大數(shù)據(jù)概念、內(nèi)涵與特點(diǎn),大數(shù)據(jù)時(shí)代檔案館建設(shè)、應(yīng)用技術(shù)和信息服務(wù),檔案工作機(jī)遇和挑戰(zhàn),檔案大數(shù)據(jù)價(jià)值,數(shù)字檔案大數(shù)據(jù)存儲(chǔ),檔案管理,檔案信息安全和資源管理等領(lǐng)域。
在上述相關(guān)研究中,政府和商業(yè)界普遍認(rèn)識(shí)到大數(shù)據(jù)技術(shù)和大數(shù)據(jù)思維帶給電子商務(wù)、電子政務(wù)以及IT行業(yè)的沖擊和挑戰(zhàn),檔案界亦持有相同觀點(diǎn),認(rèn)為在大數(shù)據(jù)技術(shù)背景下的檔案信息化工作面臨著新技術(shù)、新理念帶來的機(jī)遇和挑戰(zhàn),亟待轉(zhuǎn)型和創(chuàng)新。對(duì)于這一趨勢(shì),本文認(rèn)為,在大數(shù)據(jù)技術(shù)的熱潮下,檔案界更需要保持冷靜的頭腦,理性認(rèn)知大數(shù)據(jù)技術(shù)的同時(shí),還需要認(rèn)識(shí)到檔案信息資源開發(fā)工作有其自身的規(guī)律、特點(diǎn)和任務(wù),不必為了貼上大數(shù)據(jù)標(biāo)簽而透支大數(shù)據(jù)概念。[1]
二、大數(shù)據(jù)技術(shù)應(yīng)用于數(shù)字檔案資源開發(fā)的現(xiàn)實(shí)困境
在借鑒有關(guān)文獻(xiàn)的基礎(chǔ)上,筆者發(fā)現(xiàn)檔案界在應(yīng)用大數(shù)據(jù)技術(shù)開發(fā)數(shù)字檔案信息資源的研究方面,持有的觀點(diǎn)集中體現(xiàn)為:他們認(rèn)為檔案大數(shù)據(jù)時(shí)代已然到來,大數(shù)據(jù)技術(shù)能夠應(yīng)用于數(shù)字檔案資源的開發(fā)。其依據(jù)一是大數(shù)據(jù)技術(shù)在商業(yè)領(lǐng)域較廣泛的應(yīng)用實(shí)踐,應(yīng)用成本逐漸降低且商業(yè)價(jià)值大幅提高,能夠推動(dòng)該技術(shù)不斷成熟,因而有望進(jìn)行大范圍推廣。二是我國數(shù)字檔案資源存量和增量均較為龐大,因而大數(shù)據(jù)技術(shù)在這一領(lǐng)域有用武之地。本文認(rèn)為,上述觀點(diǎn)有其合理性,即我國的數(shù)字檔案資源存量和增量龐大確是事實(shí),但是更應(yīng)該看到數(shù)量龐大的數(shù)據(jù)并不一定就是可用于大數(shù)據(jù)技術(shù)開發(fā)的數(shù)據(jù)。換句話說,該觀點(diǎn)的持有者簡(jiǎn)單地將大數(shù)據(jù)的“4V”(Volume—數(shù)據(jù)體量巨大;Variety—數(shù)據(jù)類型繁多;Value—數(shù)據(jù)價(jià)值密度低和Velocity—數(shù)據(jù)處理速度快)特征等同于“數(shù)量龐大的數(shù)字檔案信息”的特征。在綜合相關(guān)文獻(xiàn)研究及實(shí)際調(diào)研的基礎(chǔ)上,我們認(rèn)為應(yīng)用大數(shù)據(jù)技術(shù)開發(fā)數(shù)字檔案資源的理想狀態(tài)應(yīng)如圖1所示。
事實(shí)上,目前的檔案工作條件與數(shù)字檔案資源的大數(shù)據(jù)開發(fā)尚有一定距離。從現(xiàn)實(shí)角度來看,大數(shù)據(jù)技術(shù)應(yīng)用于數(shù)字檔案信息資源開發(fā)存在以下困境。
(一)數(shù)字檔案資源的建設(shè)方式無法滿足大數(shù)據(jù)開發(fā)的要求
數(shù)字化,不是數(shù)據(jù)化。[2]數(shù)字化和數(shù)據(jù)化之間的關(guān)系可以這樣界定:數(shù)字化的重點(diǎn)在“技術(shù)”上,而數(shù)據(jù)化的重點(diǎn)在“信息”本身?!皵?shù)字化帶來了數(shù)據(jù)化,但是數(shù)字化無法取代數(shù)據(jù)化,數(shù)字化是把模擬數(shù)據(jù)變成計(jì)算機(jī)可讀的數(shù)據(jù),和數(shù)據(jù)化有本質(zhì)上的不同”。[3]比如,谷歌公司和亞歷山大圖書館合作對(duì)所有版權(quán)條例允許的書本內(nèi)容進(jìn)行數(shù)字化,這種數(shù)字化就是紙質(zhì)書頁的掃描,但是這些掃描(數(shù)字化)后的數(shù)字文本只是一些圖片。雖然可以通過圖片的標(biāo)引條目對(duì)其進(jìn)行檢索利用,但是難以對(duì)具體的文本信息進(jìn)行分析處理,因此需要進(jìn)行進(jìn)一步的數(shù)據(jù)化處理?;诖耍雀韫臼褂昧四茏R(shí)別數(shù)字圖像的光學(xué)字符識(shí)別軟件來識(shí)別數(shù)字化文本的字詞句和段落,將數(shù)字化圖像轉(zhuǎn)化成數(shù)據(jù)化文本之后,才能對(duì)這些文本信息進(jìn)行開發(fā)利用,并通過多種語言對(duì)其進(jìn)行分析和處理。
筆者通過網(wǎng)絡(luò)和實(shí)地調(diào)研發(fā)現(xiàn),目前我國檔案部門進(jìn)行的檔案資源建設(shè)方式就是將紙質(zhì)檔案進(jìn)行掃描,其實(shí)質(zhì)和上述案例中紙質(zhì)圖書數(shù)字化的“工序”類似,數(shù)字化后的“產(chǎn)品”同樣只是圖片,數(shù)字化內(nèi)容未進(jìn)行數(shù)據(jù)化處理,是無法進(jìn)行大數(shù)據(jù)處理的。因此樂觀地認(rèn)為完成館藏檔案的數(shù)字化,便會(huì)使檔案工作進(jìn)入“大數(shù)據(jù)”時(shí)代是一種誤區(qū)。此外,紙質(zhì)圖書基本上是正規(guī)的印刷體,只要字跡沒有脫落,書頁無污損,數(shù)字化(掃描)之后,就可以較為方便地借助光學(xué)字符識(shí)別軟件將其進(jìn)行數(shù)據(jù)化處理。而紙質(zhì)檔案的數(shù)據(jù)化處理難度要遠(yuǎn)遠(yuǎn)大于紙質(zhì)圖書,比如大量的手寫體字跡檔案(如名人手稿,信函),識(shí)別軟件的辨別能力有限,難度較大。另一方面,為了保證檔案的憑證價(jià)值,數(shù)據(jù)化過程要求務(wù)必精確,就目前而言需要大量人工進(jìn)行反復(fù)校對(duì)。由此可見,數(shù)字檔案信息資源的數(shù)據(jù)化處理任重而道遠(yuǎn)。
(二)數(shù)字檔案資源的內(nèi)容結(jié)構(gòu)無法滿足大數(shù)據(jù)開發(fā)的要求
數(shù)據(jù)宇宙中的數(shù)據(jù)按其結(jié)構(gòu)化程度分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化的數(shù)據(jù)即行數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達(dá),計(jì)算機(jī)可以直接進(jìn)行處理;非結(jié)構(gòu)化的數(shù)據(jù)沒有正規(guī)的預(yù)定義結(jié)構(gòu),特別是被數(shù)據(jù)庫廣泛采用的關(guān)系型數(shù)據(jù)結(jié)構(gòu),如文本、圖像、音視頻等。[4]大數(shù)據(jù)不是大規(guī)模數(shù)據(jù)的簡(jiǎn)單堆砌,而是強(qiáng)調(diào)數(shù)據(jù)的關(guān)聯(lián)結(jié)構(gòu)性,數(shù)據(jù)從獲取、匯集到分析處理要通過建模和運(yùn)算。也就是說,目前的大數(shù)據(jù)處理只能處理結(jié)構(gòu)化數(shù)據(jù),而非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)需要通過有效的方式進(jìn)行格式化轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),才能使用計(jì)算機(jī)程序進(jìn)行分析和處理。
目前,通過紙質(zhì)檔案數(shù)字化和電子文件歸檔系統(tǒng)形成的大量數(shù)字檔案資源很大一部分都屬于非結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)難以運(yùn)用大數(shù)據(jù)技術(shù)進(jìn)行分析和處理,與大數(shù)據(jù)處理仍有較大距離。其一,由紙質(zhì)檔案掃描得到的數(shù)字檔案圖片,仍需進(jìn)一步數(shù)據(jù)化和結(jié)構(gòu)化處理后才能得到結(jié)構(gòu)化的數(shù)據(jù)。其二,由電子文件生成系統(tǒng)形成的電子文件,由于缺乏協(xié)同合作,電子文件形成部門并沒有使用統(tǒng)一技術(shù)標(biāo)準(zhǔn)的數(shù)據(jù)庫系統(tǒng),因而這些數(shù)據(jù)都是異構(gòu)的,大量異構(gòu)數(shù)據(jù)的存在無疑加大了使用大數(shù)據(jù)技術(shù)處理非結(jié)構(gòu)化數(shù)據(jù)的難度。
(三)數(shù)字檔案資源的整合共享無法滿足大數(shù)據(jù)開發(fā)的要求
真正意義上的數(shù)字檔案信息資源大數(shù)據(jù)開發(fā)應(yīng)該強(qiáng)調(diào)跨館際資源聯(lián)合開發(fā),保障檔案數(shù)據(jù)的相關(guān)性和共享性,從而提高檔案大數(shù)據(jù)開發(fā)的質(zhì)量,因此需要相關(guān)檔案部門具備跨館際合作的意愿,建立保證合作正常進(jìn)行的體制,制定相關(guān)規(guī)劃,并具有執(zhí)行能力。而目前我國檔案資源跨館際整合共享方面還存在明顯不足:(1)檔案信息化組織工作體制不完善。從全國范圍內(nèi)檔案信息化組織工作來看,目前尚無統(tǒng)一的機(jī)構(gòu)來組織檔案館之間數(shù)字檔案信息資源整合與共享、明確各館的職責(zé)任務(wù)與權(quán)益權(quán)限的工作,檔案部門之間缺乏合作意愿;(2)檔案信息化工作缺乏規(guī)劃。從全國檔案系統(tǒng)來看,檔案信息化建設(shè)各自為政,缺乏統(tǒng)一、系統(tǒng)的規(guī)劃,各館建設(shè)獨(dú)立的檔案信息檢索系統(tǒng)和數(shù)據(jù)庫管理系統(tǒng),橫向(地區(qū)之間)和縱向(行業(yè)之間)均缺乏交流合作,跨館際合作力度不夠,難以完成數(shù)字檔案信息資源的整合與共享。
三、大數(shù)據(jù)技術(shù)應(yīng)用于數(shù)字檔案信息資源開發(fā)的策略
截至2012年,F(xiàn)arecast利用將近十萬億條機(jī)票價(jià)格記錄來預(yù)測(cè)美國國內(nèi)航班的票價(jià),準(zhǔn)確率高達(dá)75%,每張機(jī)票節(jié)約50美元,這項(xiàng)技術(shù)后來迅速應(yīng)用到賓館預(yù)定、二手車購買等諸多領(lǐng)域,應(yīng)用前景越來越廣泛。[5]該案例中“以往大量機(jī)票價(jià)格波動(dòng)數(shù)據(jù)”事實(shí)上就是一種數(shù)字檔案信息資源,其預(yù)測(cè)結(jié)果所顯示的準(zhǔn)確率和節(jié)約的成本則表明將大數(shù)據(jù)技術(shù)應(yīng)用在數(shù)字檔案資源開發(fā)中是可行的,且市場(chǎng)價(jià)值巨大并被廣泛認(rèn)可。據(jù)此,我們應(yīng)該堅(jiān)定數(shù)字檔案信息資源大數(shù)據(jù)開發(fā)的信心和前景,重點(diǎn)從深化數(shù)字檔案館建設(shè)建立檔案資源庫、加強(qiáng)館際合作建立檔案資源庫連接池和樹立新思維轉(zhuǎn)變檔案管理模式三個(gè)方面出發(fā),將大數(shù)據(jù)技術(shù)應(yīng)用于數(shù)字檔案信息資源的開發(fā)實(shí)踐。
大數(shù)據(jù)技術(shù)應(yīng)用于數(shù)字檔案信息資源開發(fā)的關(guān)鍵是解決檔案數(shù)據(jù)流(即以非常高的速度輸入和輸出檔案系統(tǒng)的檔案數(shù)據(jù))的問題,其實(shí)質(zhì)是建立檔案數(shù)據(jù)的關(guān)聯(lián)問題。深化數(shù)字檔案館建設(shè)從而實(shí)現(xiàn)檔案數(shù)據(jù)化、結(jié)構(gòu)化,建立檔案資源庫是前提和基礎(chǔ),加強(qiáng)館際合作建立資源庫連接池促進(jìn)檔案資源整合共享是資源準(zhǔn)備,樹立新思維轉(zhuǎn)變傳統(tǒng)檔案管理模式是管理保障,解決好這三個(gè)問題才能真正實(shí)現(xiàn)檔案數(shù)據(jù)的關(guān)聯(lián),大數(shù)據(jù)技術(shù)應(yīng)用于數(shù)字檔案信息資源的開發(fā)才有實(shí)現(xiàn)的可能。
(一)深化數(shù)字檔案館建設(shè)建立檔案資源庫
大數(shù)據(jù)時(shí)代的檔案工作實(shí)踐需破除既有的檔案工作思維,真正用大數(shù)據(jù)思維來思考問題。這就需要改變傳統(tǒng)檔案資源建設(shè)方式,深化數(shù)字檔案館建設(shè)建立檔案資源庫為真正意義上的數(shù)據(jù)關(guān)聯(lián)做準(zhǔn)備。傳統(tǒng)檔案管理嚴(yán)格按照收集、整理、保管、鑒定、統(tǒng)計(jì)和利用的先后順序進(jìn)行,近年來關(guān)于電子文件“在線歸檔”和“離線歸檔”的方式也只不過借助網(wǎng)絡(luò)傳輸、數(shù)據(jù)庫等輔助方式進(jìn)行,本質(zhì)上沿用了紙質(zhì)檔案歸檔存儲(chǔ)模式,仍然將檔案管理各環(huán)節(jié)按順序割裂處理,二者均偏離了檔案大數(shù)據(jù)思維。
真正意義上的檔案大數(shù)據(jù)要求檔案數(shù)據(jù)是動(dòng)態(tài)的、實(shí)時(shí)的、相關(guān)聯(lián)的。電子政務(wù)的快速發(fā)展,物聯(lián)網(wǎng)技術(shù)的應(yīng)用和智慧城市的建設(shè),促使數(shù)字檔案以數(shù)據(jù)流的形式產(chǎn)生、處理并歸檔。盡管目前檔案仍以傳統(tǒng)載體為主進(jìn)行呈現(xiàn),但是檔案記錄內(nèi)容從文字、聲音到視頻的發(fā)展過程,說明檔案內(nèi)容包含信息量更為巨大,表現(xiàn)形式更多元、生動(dòng),信息技術(shù)的發(fā)展會(huì)加快數(shù)字檔案產(chǎn)生,生產(chǎn)力的提高要求檔案讀取解析更便捷、快速。未來數(shù)字檔案將以數(shù)據(jù)流的形態(tài)動(dòng)態(tài)地生成、快速地甄別、實(shí)時(shí)地存儲(chǔ),數(shù)據(jù)的采集、處理將具有較強(qiáng)的時(shí)效性。[6]這樣的檔案數(shù)據(jù)符合大數(shù)據(jù)“4V”特征,“實(shí)質(zhì)上是一種基于發(fā)展的、動(dòng)態(tài)的、數(shù)據(jù)流的檔案觀;基于數(shù)據(jù)的處理和知識(shí)挖掘過程;是一種基于數(shù)據(jù)全面性、復(fù)雜性、相關(guān)性的思維分析方法”。[7]因此,應(yīng)用大數(shù)據(jù)技術(shù)開發(fā)數(shù)字檔案信息資源的條件之一就是深化數(shù)字檔案館建設(shè)建立檔案資源庫。
1.檔案部門制定規(guī)劃,明確權(quán)責(zé)。檔案行政領(lǐng)導(dǎo)部門和業(yè)務(wù)部門都要明確數(shù)字檔案數(shù)據(jù)化和結(jié)構(gòu)化的宏觀目標(biāo)和階段性目標(biāo),制定相關(guān)檔案館之間的合作規(guī)劃,分清相關(guān)檔案館的職責(zé)任務(wù)和權(quán)益權(quán)限,加強(qiáng)配套資金、人員和設(shè)備的投入,并對(duì)數(shù)字檔案數(shù)據(jù)化和結(jié)構(gòu)化的質(zhì)量進(jìn)行監(jiān)督和評(píng)估。
2.業(yè)務(wù)部門在具體執(zhí)行時(shí)要明確任務(wù),抓緊落實(shí)。檔案業(yè)務(wù)部門強(qiáng)化數(shù)字檔案數(shù)據(jù)化和結(jié)構(gòu)化工作計(jì)劃,先完成紙質(zhì)檔案的掃描工作,再進(jìn)行數(shù)字檔案數(shù)據(jù)化和非結(jié)構(gòu)化檔案數(shù)據(jù)的處理,協(xié)同建立電子文件在線歸檔、存儲(chǔ)、分析等技術(shù)標(biāo)準(zhǔn)規(guī)范,研究數(shù)據(jù)包傳輸、轉(zhuǎn)換規(guī)范。
(二)加強(qiáng)館際合作建立檔案資源庫連接池
資源庫連接池(亦稱資源池),是為了資源整合共享而設(shè)計(jì)的一種復(fù)雜的數(shù)據(jù)庫引用模式。其功能在于通過建立數(shù)據(jù)庫連接池,提供一套高效的連接分配、使用策略,解決資源頻繁分配、釋放所造成的系統(tǒng)消耗問題,最終目標(biāo)是實(shí)現(xiàn)資源復(fù)用、提高系統(tǒng)響應(yīng)速度和穩(wěn)定性,對(duì)數(shù)據(jù)庫進(jìn)行統(tǒng)一的連接管理,避免數(shù)據(jù)庫連接泄漏。
大數(shù)據(jù)不是簡(jiǎn)單的信息量巨大,信息種類繁多,要求更深層次的數(shù)據(jù)關(guān)聯(lián),即數(shù)據(jù)的高度整合、真正共享。當(dāng)前檔案信息“孤島”現(xiàn)象與應(yīng)用大數(shù)據(jù)技術(shù)開發(fā)數(shù)字檔案信息資源的要求相矛盾,要求加強(qiáng)館際合作,通過檔案資源庫連接池的方式實(shí)現(xiàn)各行業(yè)、各系統(tǒng)檔案資源庫的連接,強(qiáng)化數(shù)據(jù)關(guān)聯(lián),實(shí)現(xiàn)數(shù)字檔案信息資源的整合共享。
數(shù)字檔案信息資源庫連接池有助于建立和強(qiáng)化數(shù)字檔案信息關(guān)聯(lián)性,減少檔案信息孤島現(xiàn)象,擴(kuò)充檔案數(shù)據(jù)規(guī)模,降低數(shù)據(jù)冗余性,優(yōu)化檔案數(shù)據(jù)質(zhì)量;有利于多個(gè)檔案信息需求者同時(shí)訪問檔案數(shù)據(jù)資源庫,釋放檔案系統(tǒng)壓力、避免檔案數(shù)據(jù)資源庫連接遺漏,在行業(yè)之間和地區(qū)之間都能進(jìn)行數(shù)字檔案資源庫的連接,為檔案大數(shù)據(jù)開發(fā)準(zhǔn)備條件。
(三)樹立新思維轉(zhuǎn)變檔案管理模式
數(shù)據(jù)流的分析處理是大數(shù)據(jù)技術(shù)應(yīng)用的重要特征。但傳統(tǒng)的檔案管理思維明顯與現(xiàn)實(shí)要求相脫節(jié),需要樹立新思維轉(zhuǎn)變檔案管理模式?;跀?shù)據(jù)流的數(shù)字檔案信息的產(chǎn)生、收集是實(shí)時(shí)的,動(dòng)態(tài)的,檔案數(shù)據(jù)需要實(shí)時(shí)存儲(chǔ),動(dòng)態(tài)更新,其分析與鑒定同樣是實(shí)時(shí)的,分析、鑒定和檔案數(shù)據(jù)資源開發(fā)(即檔案資源知識(shí)發(fā)現(xiàn))都需要借助一系列數(shù)據(jù)分析規(guī)則的支持。其真實(shí)性、完整性的界定維護(hù)面臨技術(shù)和法律雙重問題??梢?,大數(shù)據(jù)時(shí)代,數(shù)字檔案信息的管理需要打破傳統(tǒng)檔案管理以收集、整理、保管、鑒定、統(tǒng)計(jì)和利用為先后順序的思維慣性,將檔案數(shù)據(jù)流的分析、處理作為管理的重要內(nèi)容。這其實(shí)就是一種基于數(shù)據(jù)流的檔案數(shù)據(jù)處理模式。如圖2所示。
基于數(shù)據(jù)流的檔案數(shù)據(jù)處理模式,是一種區(qū)別于傳統(tǒng)的檔案管理模式。檔案數(shù)據(jù)的產(chǎn)生、采集、鑒別、存儲(chǔ)和利用都是實(shí)時(shí)的、動(dòng)態(tài)的,需要依賴強(qiáng)大的規(guī)則庫和操作命令,主要通過計(jì)算機(jī)完成,檔案數(shù)據(jù)的分析和利用產(chǎn)生的新規(guī)則和知識(shí)將及時(shí)更新到規(guī)則庫和知識(shí)庫中。檔案數(shù)據(jù)的提交、接收需要預(yù)設(shè)規(guī)則協(xié)議存入規(guī)則庫中,并體現(xiàn)在系統(tǒng)設(shè)計(jì)中。檔案數(shù)據(jù)的分析和鑒別(在意義上相當(dāng)于傳統(tǒng)的檔案鑒定)需要實(shí)時(shí)調(diào)用規(guī)則庫中的相關(guān)規(guī)則,以檢驗(yàn)檔案數(shù)據(jù)是否合格,合格的數(shù)據(jù)準(zhǔn)備存儲(chǔ),不合格或者冗余的檔案數(shù)據(jù)則將被剔除,但須反饋給檔案數(shù)據(jù)提交者,反饋內(nèi)容應(yīng)包括數(shù)據(jù)不合格原因并提供建議,此操作可能重復(fù)多次,直至數(shù)據(jù)通過接收檢驗(yàn)。數(shù)據(jù)被存儲(chǔ)后,也需要定期進(jìn)行再分析(在意義上相當(dāng)于傳統(tǒng)的檔案定期鑒定),目的是刪除無需繼續(xù)保存的檔案數(shù)據(jù),維護(hù)有價(jià)值的檔案數(shù)據(jù),同時(shí)對(duì)數(shù)字檔案資源庫進(jìn)行動(dòng)態(tài)更新,檔案用戶可以通過相關(guān)利用規(guī)則訪問檔案資源庫。
注釋及參考文獻(xiàn):
[1]于英香.檔案大數(shù)據(jù)研究熱的冷思考[J].檔案學(xué)通訊,2015(2):4-7.
[2][3]維克托·邁爾—舍恩伯格大數(shù)據(jù)時(shí)代[M].浙江:浙江人民出版社,2013.105-109.
[3]David Ferrucci.uima- spec- wd- 05.Unstructured InformationManagement.Architecture(UIMA)Version 1.0 Working Draft 05[S].
[5]中國經(jīng)濟(jì)網(wǎng).大數(shù)據(jù)如何變革商業(yè)一張機(jī)票成就了Farecast[EB/OL]. [2015-8-10].
http://book.ce.cn/xw/jj/201212/21/t20121221_ 23964663.shtml.
[6][7]葉大鳳,黃思棉,劉龍君.當(dāng)前檔案大數(shù)據(jù)研究的誤區(qū)與重點(diǎn)研究領(lǐng)域思考[J].北京檔案,2015(7):14-17.
[8]耿志杰.數(shù)字檔案館個(gè)性化服務(wù)研究[D].南寧:廣西民族大學(xué),2007.