■陳健民
(福建水利電力職業(yè)技術(shù)學(xué)院,福建 永安 366000)
大數(shù)據(jù)技術(shù)蓬勃發(fā)展,對(duì)社會(huì)各行業(yè)造成了不同程度的沖擊。其中,“檔案管理”作為一項(xiàng)數(shù)據(jù)管理工作、知識(shí)管理工作,在大數(shù)據(jù)影響下發(fā)生了深刻的變化。對(duì)于檔案管理工作者而言,這種變化既是一個(gè)嚴(yán)峻的挑戰(zhàn),同時(shí)也是一個(gè)大幅度提升檔案管理水準(zhǔn)的契機(jī)?!俺松系郏魏稳硕急仨氂脭?shù)據(jù)說(shuō)話”,這句話被檔案管理業(yè)界高度認(rèn)同,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)、信息從一種單純的處理對(duì)象,上升為一種影響人們生活的重要資源,我們必須在深刻理解檔案管理內(nèi)涵、大數(shù)據(jù)特征的基礎(chǔ)上,采取行之有效的措施,才可應(yīng)對(duì)大數(shù)據(jù)規(guī)模效應(yīng)給檔案管理帶來(lái)的管理挑戰(zhàn)、分析挑戰(zhàn)、儲(chǔ)存挑戰(zhàn)。
數(shù)據(jù)處理、數(shù)據(jù)收集是大數(shù)據(jù)的主要特征,在大數(shù)據(jù)時(shí)代到來(lái)前,有關(guān)于“數(shù)據(jù)處理”的相關(guān)技術(shù)就得到了人們的廣泛關(guān)注,其技術(shù)方法也相對(duì)成熟,知識(shí)管理者、營(yíng)銷人員、信息管理者將數(shù)據(jù)背后隱藏的內(nèi)涵作為指導(dǎo)決策、預(yù)測(cè)未來(lái)的重要前提。而在信息技術(shù)快速發(fā)展的背景下,數(shù)據(jù)處理、數(shù)據(jù)收集水平顯著提升,同時(shí)物聯(lián)網(wǎng)、云技術(shù)的成熟,讓各行業(yè)數(shù)據(jù)的增長(zhǎng)量躍升到一個(gè)新的量級(jí),人們能夠?qū)⒏鞣N非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)整合起來(lái)進(jìn)行分析,最終得出可有效支持決策的分析結(jié)果[1]。數(shù)據(jù)挖掘是大數(shù)據(jù)時(shí)代應(yīng)運(yùn)而生的一門“新學(xué)科”,它本身是人工智能、統(tǒng)計(jì)學(xué)、信息技術(shù)的整合?,F(xiàn)代化的檔案管理,倡導(dǎo)通過(guò)檔案管理來(lái)為組織機(jī)構(gòu)提供可靠的數(shù)據(jù),業(yè)界常采用“去粗取精”的辦法,摒棄檔案信息數(shù)據(jù)中零碎的、不完整的信息,在檔案使用過(guò)程中,僅調(diào)用此前篩選接受的信息數(shù)據(jù),該種檔案管理方法的確能夠?yàn)榻M織機(jī)構(gòu)或者檔案查閱者提供一定的便利,但是從長(zhǎng)遠(yuǎn)來(lái)看,“去粗取精”的方法去除了諸多有價(jià)值的信息數(shù)據(jù)。大數(shù)據(jù)技術(shù)的發(fā)展,為檔案信息數(shù)據(jù)中零碎的、非結(jié)構(gòu)化的、不完善的數(shù)據(jù)提供了應(yīng)用基礎(chǔ),因此我們可窺見(jiàn)大數(shù)據(jù)時(shí)代背景下,檔案管理工作的變化趨勢(shì),以“數(shù)據(jù)分析、數(shù)據(jù)價(jià)值挖掘”最為明顯[2]。
信息技術(shù)對(duì)檔案管理產(chǎn)生的影響深刻且長(zhǎng)遠(yuǎn)。目前我國(guó)各地檔案館主要以“檔案數(shù)字化、檔案電子化”為主要特征,就國(guó)家檔案館館藏檔案而言,2011-2018年間,館藏檔案卷數(shù)快速增長(zhǎng),且預(yù)計(jì)到2020年,國(guó)家檔案館的館藏會(huì)增加至6億余卷。同時(shí),隨著檔案數(shù)字化工作的不斷推進(jìn),各地檔案館、單位檔案管理部門將會(huì)形成規(guī)模龐大的數(shù)字檔案資源庫(kù),圖標(biāo)檔案、電子文件檔案、聲像檔案等還會(huì)涵蓋檔案訪問(wèn)日志、檔案瀏覽軌跡等數(shù)據(jù)內(nèi)容。這就為檔案管理和大數(shù)據(jù)的整合奠定了重要的“數(shù)據(jù)基礎(chǔ)”,有利于檔案管理人員去挖掘檔案的潛在價(jià)值[3]。
統(tǒng)計(jì)技術(shù)、在線分析處理技術(shù)、數(shù)據(jù)檢索技術(shù)、機(jī)器學(xué)習(xí)技術(shù)、專家系統(tǒng)技術(shù)的發(fā)展,提高了人們對(duì)數(shù)據(jù)的整合、探索、保存能力,檔案管理工作者所面臨的檔案管理數(shù)據(jù)來(lái)源呈現(xiàn)出多樣化的發(fā)展趨勢(shì),加之移動(dòng)終端設(shè)備的快速發(fā)展,讓數(shù)據(jù)的產(chǎn)生也體現(xiàn)出多樣化的發(fā)展趨勢(shì)[4][5]。由此我們可了解到,在大數(shù)據(jù)時(shí)代背景下,檔案管理將會(huì)面對(duì)不同種類的數(shù)據(jù)信息,檔案分布呈現(xiàn)出結(jié)構(gòu)化信息、非結(jié)構(gòu)化信息相互融合的發(fā)展態(tài)勢(shì),最終形成分布廣泛的檔案體系。
大數(shù)據(jù)的確為檔案管理工作指出了新的發(fā)展道路,但是大數(shù)據(jù)技術(shù)和檔案管理的相互整合,的確存在較大的挑戰(zhàn)。當(dāng)下,廣大從業(yè)者必須要解決傳統(tǒng)檔案管理和大數(shù)據(jù)的整合,如何實(shí)現(xiàn)檔案歸檔、檔案分類和數(shù)據(jù)挖掘、數(shù)據(jù)分析的無(wú)縫整合是一個(gè)極大的挑戰(zhàn),尤其是在不同檔案資料分析模型構(gòu)件方面,存在較為明顯的技術(shù)瓶頸。
眾所周知,傳統(tǒng)的檔案管理工作模式中,檔案管理工作人員的主要職能是收集檔案、分類檔案、檔案歸檔、檔案調(diào)用,雖然許多從業(yè)者在積極倡導(dǎo),檔案管理工作應(yīng)該挖掘檔案的潛在價(jià)值,并實(shí)現(xiàn)“知識(shí)管理”的轉(zhuǎn)型。但在大數(shù)據(jù)時(shí)代,檔案管理工作必須具備的職能不僅僅局限在檔案保存、調(diào)用等方面,同時(shí)還要在大數(shù)據(jù)技術(shù)的應(yīng)用下,在確保數(shù)據(jù)安全的前提下,對(duì)信息數(shù)據(jù)進(jìn)行全面、有效的處理,全面體現(xiàn)出檔案管理的潛在價(jià)值[6]。
大數(shù)據(jù)時(shí)代,檔案信息數(shù)據(jù)已轉(zhuǎn)變成了一種可影響人們生活、工作的基礎(chǔ)性資源,檔案信息數(shù)據(jù)價(jià)值的提升,帶來(lái)了此前不存在的“安全問(wèn)題”。從現(xiàn)階段我國(guó)大數(shù)據(jù)技術(shù)的應(yīng)用上來(lái)看,數(shù)據(jù)信息安全方面缺少相應(yīng)的法律法規(guī),也缺少一個(gè)行之有效的監(jiān)管機(jī)制,若盲目應(yīng)用大數(shù)據(jù)技術(shù)改變檔案管理工作,必然會(huì)出現(xiàn)信息安全隱患。
決策樹算法是一種相對(duì)常見(jiàn)的數(shù)據(jù)挖掘技術(shù),可根據(jù)檔案數(shù)據(jù)中的每一條記錄,為記錄分配相應(yīng)的屬性標(biāo)簽,并將部分?jǐn)?shù)據(jù)內(nèi)容節(jié)選為訓(xùn)練數(shù)據(jù),在數(shù)據(jù)挖掘、分析的過(guò)程中,就可根據(jù)屬性找到輸出屬性、輸入屬性之間的對(duì)應(yīng)關(guān)系。目前,決策樹算法已經(jīng)在各行業(yè)得到應(yīng)用,部分銀行用決策樹算法進(jìn)行客戶管理,部分企業(yè)用決策樹算法進(jìn)行供應(yīng)商管理,在預(yù)測(cè)客戶行為、客戶需求方面體現(xiàn)出較高的準(zhǔn)確性。檔案管理工作就可整合決策樹算法,根據(jù)檔案數(shù)據(jù)資料中的詳細(xì)數(shù)據(jù)條目進(jìn)行定義,通過(guò)分析數(shù)據(jù)之間的關(guān)聯(lián),就可挖掘檔案數(shù)據(jù)的隱含價(jià)值。
聚類算法可估計(jì)數(shù)據(jù)庫(kù)內(nèi)不同數(shù)據(jù)的屬性,根據(jù)數(shù)據(jù)之間的相似度,將屬性相似的數(shù)據(jù)進(jìn)行歸集。聚類算法的技術(shù)要求相對(duì)較低,所以應(yīng)用較為廣泛、應(yīng)用方法相對(duì)成熟。在檔案管理工作中,檔案數(shù)據(jù)以“多樣、多層次”為主要特征,難以根據(jù)某一個(gè)“定義”對(duì)檔案進(jìn)行歸集,所以各地檔案館或者企業(yè)單位的檔案管理部門,常根據(jù)檔案的性質(zhì)(影像檔案、文字檔案、合同檔案)對(duì)檔案進(jìn)行分類,從客觀的角度來(lái)看,該種分類方法并不能體現(xiàn)出檔案的性質(zhì)、屬性。采用聚類算法,就可根據(jù)檔案的深層次關(guān)聯(lián)對(duì)檔案進(jìn)行區(qū)分,從而為檔案的價(jià)值挖掘奠定堅(jiān)實(shí)基礎(chǔ)[7]。
關(guān)聯(lián)規(guī)則是針對(duì)數(shù)據(jù)庫(kù)存中一類可挖掘的數(shù)據(jù)進(jìn)行歸類,根據(jù)數(shù)據(jù)的多個(gè)變量取值存在的規(guī)律性,將不同的數(shù)據(jù)進(jìn)行有效關(guān)聯(lián),從而體現(xiàn)出數(shù)據(jù)之間的發(fā)生規(guī)律,這種規(guī)律長(zhǎng)久以來(lái)都被用于輔助決策。20世紀(jì)90年代,美國(guó)沃爾瑪超市管理人員分析銷售數(shù)據(jù)時(shí)就發(fā)現(xiàn)了數(shù)據(jù)之間的關(guān)聯(lián),即“啤酒”與“尿布”兩件看上去毫無(wú)關(guān)系的商品,會(huì)經(jīng)常出現(xiàn)在同一個(gè)購(gòu)物籃中,且大多出現(xiàn)在年輕的父親身上。經(jīng)過(guò)分析,原因是美國(guó)家庭往往是母親在家看護(hù)嬰兒,父親外出購(gòu)物,所以在購(gòu)買尿布的同時(shí),就會(huì)為自己購(gòu)買啤酒,沃爾瑪利用該關(guān)聯(lián),將尿布和啤酒兩個(gè)毫無(wú)關(guān)聯(lián)的商品擺放在一起,讓男性能夠快速地完成購(gòu)物,沃爾瑪商品售賣量也因此大幅度提升[8]。
上述幾種算法是檔案管理用于解讀檔案信息數(shù)據(jù)的基本工具,目前有關(guān)大數(shù)據(jù)的數(shù)據(jù)挖掘方法層出不窮,從業(yè)者應(yīng)不拘泥于某一種特殊的技術(shù)方法,而是要綜合利用多種方法來(lái)處理結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),這樣才能夠?qū)n案進(jìn)行合理的區(qū)分、定位、關(guān)聯(lián)。
數(shù)據(jù)資源是大數(shù)據(jù)技術(shù)發(fā)揮作用的基礎(chǔ),同時(shí)“數(shù)據(jù)、信息”也是檔案管理工作的主要對(duì)象,其完善性、完備性是保證檔案管理工作可持續(xù)發(fā)展的關(guān)鍵要素。在大數(shù)據(jù)背景下,務(wù)必要進(jìn)一步增強(qiáng)檔案資源的建設(shè)力度,目前各地檔案館、單位檔案管理部門都已經(jīng)實(shí)現(xiàn)了檔案管理的信息化、電子化,檔案管理工作人員面對(duì)著海量的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),為給大數(shù)據(jù)技術(shù)的應(yīng)用奠定基礎(chǔ),需要進(jìn)一步提高資源收集水平,將各種數(shù)據(jù)整合在檔案數(shù)據(jù)庫(kù)中。
“服務(wù)功能”是檔案管理工作亟需強(qiáng)化的重要元素。目前各地檔案館、單位檔案管理部門儲(chǔ)存的數(shù)據(jù)并沒(méi)有明確顯示出其應(yīng)用價(jià)值,必須要以“數(shù)據(jù)分析、數(shù)據(jù)挖掘”為基礎(chǔ),建立起完善的服務(wù)體系,在服務(wù)內(nèi)容上實(shí)現(xiàn)有效創(chuàng)新。檔案數(shù)據(jù)資源務(wù)必要盡可能地進(jìn)行分析、挖掘,并充分體現(xiàn)檔案數(shù)據(jù)資源的價(jià)值。目前,云計(jì)算技術(shù)已經(jīng)相對(duì)成熟,檔案管理工作人員應(yīng)根據(jù)服務(wù)要求、檔案管理工作實(shí)際情況,靈活選擇合理的“云部署方案”,合理選擇私有云、公有云來(lái)彌補(bǔ)檔案管理工作的計(jì)算能力、儲(chǔ)存能力,從而為檔案使用者提供更加寬泛、多元的服務(wù)。
一是應(yīng)該構(gòu)建起完善的“IAM身份訪問(wèn)管理系統(tǒng)”,實(shí)現(xiàn)統(tǒng)一檔案訪問(wèn)身份認(rèn)證、權(quán)限控制,達(dá)到檔案數(shù)據(jù)資料安全集成管理的目標(biāo),以有效應(yīng)對(duì)檔案管理可能出現(xiàn)的安全問(wèn)題;二是要提高檔案數(shù)據(jù)節(jié)點(diǎn)和各種應(yīng)用程序節(jié)點(diǎn)之間的有效保護(hù),可應(yīng)用SSL安全套階層協(xié)議層來(lái)實(shí)現(xiàn)加密;三是應(yīng)該根據(jù)大數(shù)據(jù)整合檔案管理工作的需求,構(gòu)建一個(gè)完善的制度體系,同時(shí)遵循ISO27001信息安全技術(shù)標(biāo)準(zhǔn),完善檔案數(shù)據(jù)的共享制度、保密制度、審計(jì)制度,確定檔案的傳播范圍、加密層級(jí),確定檔案關(guān)鍵信息的識(shí)別機(jī)制。
綜上所述,大數(shù)據(jù)對(duì)檔案管理工作產(chǎn)生了深刻的影響,廣大從業(yè)者應(yīng)該采取合理的方式方法,促進(jìn)檔案管理工作在大數(shù)據(jù)時(shí)代做出有效的改變,實(shí)現(xiàn)檔案數(shù)據(jù)資料的科學(xué)整合、有效分析,并創(chuàng)建出新的服務(wù)功能,構(gòu)建起完善的安全保障體系。