董鳳娟
摘 要:在大數(shù)據(jù)技術(shù)背景下,每天都有海量各種形式的檔案資料需要收集處理,再加上已有的檔案數(shù)據(jù),不少檔案工作者已不知該如何應(yīng)對(duì)。隨著大數(shù)據(jù)和云計(jì)算時(shí)代的到來,檔案信息安全管理與傳統(tǒng)信息安全管理有著一定的傳承邏輯,但也開始慢慢形成一些新的特點(diǎn)和變化。本文將主要探討大數(shù)據(jù)時(shí)代下的檔案信息安全管理等方面的問題。
關(guān)鍵詞:大數(shù)據(jù);檔案;安全管理
大數(shù)據(jù)技術(shù)一經(jīng)產(chǎn)生,就迅猛發(fā)展,像颶風(fēng)一般影響到社會(huì)的各個(gè)領(lǐng)域,至今為止,上至國(guó)家戰(zhàn)略、國(guó)防安全管理、科學(xué)發(fā)展研究,下至城市交通、個(gè)人出行等都離不開大數(shù)據(jù)技術(shù)支持。面對(duì)著大數(shù)據(jù)信息技術(shù)使用逐漸成熟和普遍,各行各業(yè)都被龐大而復(fù)雜的數(shù)據(jù)管理問題困惑,對(duì)各種數(shù)據(jù)和信息進(jìn)行有效處理和保存已經(jīng)被人們意識(shí)到其重要性,檔案行業(yè)亦是如此。大數(shù)據(jù)技術(shù)橫跨數(shù)據(jù)存儲(chǔ)、虛擬化、云計(jì)算、數(shù)據(jù)庫管理、并行計(jì)算和數(shù)據(jù)挖掘等多個(gè)技術(shù)領(lǐng)域。隨著大數(shù)據(jù)和云計(jì)算時(shí)代的到來,檔案信息安全管理與傳統(tǒng)信息安全管理有著一定的傳承邏輯,但也開始慢慢形成一些新的特點(diǎn)和變化。
1 檔案數(shù)據(jù)采集安全
檔案數(shù)據(jù)的來源主要有兩部分,一部分是電子文檔,另一部分是數(shù)字化的紙質(zhì)檔案。檔案數(shù)據(jù)的采集安全既重視檔案數(shù)據(jù)能否保持完整安全失,也要盡量避免同一檔案數(shù)據(jù)的重復(fù)收集和錄入。
1.1 檔案數(shù)據(jù)收集范圍擴(kuò)展
“大數(shù)據(jù)”和“云計(jì)算”的關(guān)系,簡(jiǎn)單的打個(gè)比方,“大數(shù)據(jù)”是我們所擁有的數(shù)據(jù),它是我們所能收集的所有個(gè)體信息的集合,“云計(jì)算”是我們?nèi)绾芜\(yùn)用這些數(shù)據(jù)的方式方法,我們可以通過不同的計(jì)算方式方法,得出樣本中我們所需要信息,由于這個(gè)“大數(shù)據(jù)”信息的樣本足夠大,大到可以代表整個(gè)樣本的特點(diǎn),從而體現(xiàn)其參考價(jià)值和情報(bào)價(jià)值。所以進(jìn)入“大數(shù)據(jù)”時(shí)代后,具體到檔案工作,無論是從檔案的憑證價(jià)值和情報(bào)價(jià)值,還是檔案的現(xiàn)實(shí)價(jià)值和長(zhǎng)遠(yuǎn)價(jià)值來考慮,檔案數(shù)據(jù)收集的范圍必須擴(kuò)大,形式必須多樣化。
相對(duì)于其他領(lǐng)域的數(shù)據(jù)而言,檔案“大數(shù)據(jù)”更強(qiáng)調(diào)的是數(shù)據(jù)的全面性,即要收集業(yè)務(wù)范圍內(nèi)的所有數(shù)據(jù)檔案。不管是全國(guó)性的還是省級(jí)檔案部門,就算是一個(gè)基層檔案部門,只要收集了其職責(zé)范圍內(nèi)的所有檔案數(shù)據(jù),即使總量不大,也可以稱之為運(yùn)用了“大數(shù)據(jù)”。因?yàn)樵谑褂眠@些檔案的時(shí)候,由于采集了所有的樣本,在進(jìn)行數(shù)據(jù)分析使用的時(shí)候,采取的是“樣本=總體”的計(jì)算方法,簡(jiǎn)單來說,凡采用這種分析方式的數(shù)據(jù)分析法,就是“大數(shù)據(jù)”。當(dāng)一個(gè)單位已經(jīng)掌握全部或者幾乎全部個(gè)體的數(shù)據(jù),那么就可以運(yùn)用各種邏輯計(jì)算方式,推斷出不同的“相關(guān)”關(guān)系,而不是以樣本代替總體推斷出結(jié)論。所以每一個(gè)個(gè)體數(shù)據(jù)都是必要的,檔案工作者應(yīng)該細(xì)致地全面地進(jìn)行統(tǒng)計(jì)。由此也可以看出,檔案“大數(shù)據(jù)”中的“大”,不是絕對(duì)的“大”,而是相對(duì)意義上的“大”,意味著檔案數(shù)據(jù)需要分析對(duì)象的總體。
每一個(gè)檔案管理單位或機(jī)構(gòu)都有其檔案收集的范圍和權(quán)限,在具體工作中,我們會(huì)發(fā)現(xiàn),在“大數(shù)據(jù)”環(huán)境下,以單位或機(jī)構(gòu)進(jìn)行檔案信息收集會(huì)產(chǎn)生相當(dāng)程度的冗余。以行政部門為例,各單位每年會(huì)收到上級(jí)各部門下發(fā)的紅頭文件,各單位在進(jìn)行檔案匯總后,會(huì)有相當(dāng)多相同的文件被重復(fù)收集,不管是在數(shù)據(jù)收集還是在進(jìn)行數(shù)據(jù)分析的時(shí)候,都會(huì)造成一定的麻煩。這就需要檔案管理單位提前將各種信息進(jìn)行邏輯分析,明確規(guī)定這類的紅頭文件需要什么樣的單位進(jìn)行檔案歸檔,而其他相關(guān)單位雖不需進(jìn)行歸檔,卻可以有查詢和使用的權(quán)限。
1.2 紙質(zhì)檔案數(shù)字化過程和結(jié)果安全
紙質(zhì)檔案數(shù)字化的過程安全是指在檔案數(shù)字化過程中沒有發(fā)生危害檔案實(shí)體和信息安全的事件或行為。因此,一系列的規(guī)章制度和規(guī)范的操作流程是必要的。首先,要確保提供紙質(zhì)檔案數(shù)字化服務(wù)的單位的能力和聲譽(yù)。第二,紙質(zhì)檔案數(shù)字化的過程中,要按照嚴(yán)格的規(guī)章制度。比如,檔案出入庫要有嚴(yán)格的登記、交接手續(xù);檔案資料不能擅自帶離工作現(xiàn)場(chǎng)等。第三不能破壞原有的紙質(zhì)檔案,也不能對(duì)原有案卷隨意進(jìn)行拆卷,要以不破壞檔案原貌為基礎(chǔ),在數(shù)字化掃描的過程中,也不能使檔案破損、有污漬,掃描出來的電子版和原件圖像要一致。
紙質(zhì)檔案數(shù)字化結(jié)果安全是指數(shù)字化后的檔案數(shù)據(jù)真實(shí)有效、能夠使用。為了確保數(shù)字檔案真實(shí)可用,必須對(duì)電子檔案進(jìn)行嚴(yán)格檢查,這也是確保檔案信息安全的重要環(huán)節(jié)。對(duì)紙質(zhì)檔案進(jìn)行數(shù)字化后,要及時(shí)對(duì)電子信息進(jìn)行檢查,主要檢查內(nèi)容有:一是掃描質(zhì)量,這一環(huán)節(jié)主要以抽查的形式為主,對(duì)于發(fā)現(xiàn)的不清晰、不對(duì)版的檔案要及時(shí)返工;二是邏輯檢查,將所有檔案都錄入系統(tǒng)后,通過試用以檢測(cè)數(shù)據(jù)是否科學(xué)可用;三是程序檢測(cè),主要通過殺毒軟件查殺數(shù)據(jù)中可能攜帶的木馬、病毒、惡意程序等。可以定期將數(shù)字化檔案進(jìn)行拷貝,備份在多臺(tái)存儲(chǔ)設(shè)備上,以防現(xiàn)用數(shù)字檔案出現(xiàn)安全問題。
2 檔案信息管理系統(tǒng)安全
如果說每一份數(shù)字檔案是人體的細(xì)胞,那么檔案信息管理系統(tǒng)就像是人體的骨骼和神經(jīng)系統(tǒng)。檔案管理系統(tǒng)經(jīng)過近20年的發(fā)展,已經(jīng)從單機(jī)版,發(fā)展到網(wǎng)絡(luò)版,再到最新的面向服務(wù)的數(shù)據(jù)平臺(tái)(SOA架構(gòu)),功能上也逐漸從單一向多元,由低級(jí)向智能化發(fā)展。大數(shù)據(jù)時(shí)代下的檔案管理系統(tǒng),能否在一定時(shí)間段內(nèi),將大量的信息進(jìn)行提取、分析、處理,最后整理成管理者需要的有價(jià)值的信息,為管理者提供決策依據(jù),成為檔案信息管理至關(guān)重要的環(huán)節(jié)。所以,檔案信息安全在很大程度上受檔案信息管理系統(tǒng)的影響和制約。
2.1 數(shù)據(jù)支持平臺(tái)安全
截止目前,參考國(guó)內(nèi)各領(lǐng)域的大數(shù)據(jù)建設(shè),檔案大數(shù)據(jù)管理平臺(tái)至少要滿足四個(gè)方面的要求:一是云服務(wù)商能夠提供全面可視化的服務(wù);二是能夠兼容海量電子檔案;三是數(shù)據(jù)庫有識(shí)別目標(biāo)、鎖定威脅來源和敵對(duì)事件的相關(guān)設(shè)置;四是數(shù)據(jù)平臺(tái)能夠不斷擴(kuò)展。一般來說,能夠?qū)崿F(xiàn)監(jiān)控管理、風(fēng)險(xiǎn)控制、擴(kuò)容擴(kuò)存是檔案云數(shù)據(jù)支持平臺(tái)安全的基本要求和特點(diǎn)。
2.2 數(shù)據(jù)計(jì)算環(huán)境安全
對(duì)電子檔案進(jìn)行快速分析處理能力是檔案管理系統(tǒng)的一個(gè)關(guān)鍵。在大數(shù)據(jù)背景下,由于電子數(shù)據(jù)類型復(fù)雜且數(shù)量龐大,傳統(tǒng)的檔案信息管理系統(tǒng)無法既迅速又經(jīng)濟(jì)地對(duì)系統(tǒng)進(jìn)行拓展。大數(shù)據(jù)檔案管理系統(tǒng)需要對(duì)每個(gè)電子檔案進(jìn)行詳細(xì)的類別劃分和標(biāo)注,之后才是對(duì)數(shù)據(jù)進(jìn)行分布式存儲(chǔ)和計(jì)算,由于其數(shù)據(jù)庫內(nèi)容比較大,通常需要幾臺(tái)計(jì)算機(jī)聯(lián)合計(jì)算,這就需要打破傳統(tǒng)檔案系統(tǒng)的信息“孤島”,需要云計(jì)算環(huán)境予以技術(shù)支持。同時(shí),檔案大數(shù)據(jù)系統(tǒng)必須具有目錄整理、檔案采集、檔案審核、系統(tǒng)維護(hù)等功能,滿足不同使用人群的不同需要,利用現(xiàn)化代網(wǎng)絡(luò)技術(shù),實(shí)現(xiàn)多人多客戶端操作。
3 檔案數(shù)據(jù)利用安全
咨詢服務(wù)是檔案數(shù)據(jù)利用的主要內(nèi)容,是指在海量檔案數(shù)據(jù)的收集、存儲(chǔ)和處理技術(shù)基礎(chǔ)上產(chǎn)生的一種具有前瞻性的判斷和預(yù)測(cè)能力。大數(shù)據(jù)顛覆了傳統(tǒng)檔案的數(shù)據(jù)查詢和利用方式,有了海量電子檔案資料,可以通過分析檔案數(shù)據(jù)之間的邏輯關(guān)系,推算出有價(jià)值的信息。
例如山東諸城恐龍國(guó)家地質(zhì)公園的恐龍化石檔案系統(tǒng),該檔案系統(tǒng)收集了一萬多塊恐龍化石的電子信息,包括化石挖掘時(shí)間、地點(diǎn)、序號(hào)、挖掘人、化石屬種、化石類別、所屬年代等,將這些化石錄入系統(tǒng)之后,通過系統(tǒng)自動(dòng)分類,可以根據(jù)不同需要得出不同的展示結(jié)果。根據(jù)恐龍屬種,就可以分別查到鴨嘴龍、角龍、暴龍等恐龍的化石標(biāo)本,再輔之以挖掘地點(diǎn),就大致可以推斷出各種恐龍的埋藏地點(diǎn)。
檔案的終極目的是“用”。利用者在檔案數(shù)據(jù)比對(duì)分析時(shí),通過軌跡研判、信息關(guān)聯(lián)等方式,由已存的較全面的檔案信息,才能得出正確、合理的結(jié)論。在這種狀況下,可提供利用的數(shù)據(jù)資源的豐富,就代表了一定程度上的利用環(huán)境安全。專家往往是在原理理論和實(shí)踐經(jīng)驗(yàn)的基礎(chǔ)上,根據(jù)一定的因果關(guān)系推導(dǎo),得出具有指導(dǎo)意義的預(yù)測(cè)結(jié)果。而大數(shù)據(jù)背景下的檔案,當(dāng)樣本足夠大時(shí),能夠覆蓋整個(gè)樣本,就能夠減弱對(duì)理論和經(jīng)驗(yàn)的依賴。
4 結(jié)語
放眼未來,檔案管理工作已不可避免地引入大數(shù)據(jù)技術(shù),這必將對(duì)檔案管理工作帶來諸多變化,我們必須緊隨科技步伐,不斷修正更新管理技術(shù),積極主動(dòng)地為大數(shù)據(jù)檔案管理工作提供更好的安全保障。
參考文獻(xiàn)
[1]韓晗.“數(shù)據(jù)化”的社會(huì)與“大數(shù)據(jù)”的未來[J].中國(guó)圖書評(píng)論,2014(5):27.
[2]黃欣榮.大數(shù)據(jù)時(shí)代的思維變革[J].重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)),2014(5):15.
[3]蘭祝剛,劉在國(guó).大數(shù)據(jù)時(shí)代給檔案管理帶來的挑戰(zhàn)與機(jī)遇[N].中國(guó)檔案報(bào),2013-11-29(002).