阮景雯
摘要:檔案管理工作是許多機(jī)構(gòu)的基礎(chǔ)管理工作之一,而隨著數(shù)字化進(jìn)程的加速,許多機(jī)構(gòu)依據(jù)自身的需要已建立起了相對完善的數(shù)字檔案信息管理平臺,為自身的檔案管理和利用提供了方便。作為信息技術(shù)發(fā)展的重要成果,數(shù)據(jù)挖掘技術(shù)在數(shù)字檔案信息管理中也得到了廣泛的普及,對推動檔案信息管理的進(jìn)步起著重要的作用。本文從數(shù)據(jù)挖掘的定義和技術(shù)方法出發(fā),總結(jié)了其于數(shù)字檔案信息管理中的應(yīng)用模式和重要意義。
關(guān)鍵詞:數(shù)據(jù)挖掘 數(shù)字檔案 信息管理
中圖分類號:TP3 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2016)05-0000-00
隨著科技的發(fā)展和計(jì)算機(jī)技術(shù)的日漸成熟,人類已經(jīng)進(jìn)入了信息化時(shí)代,這使得人們生活和工作的方方面面都結(jié)束了傳統(tǒng)的重復(fù)性的工作模式,變得更加便捷。在檔案信息管理工作中,由于其工作內(nèi)容相對繁雜,數(shù)據(jù)量相對較大,因此,計(jì)算機(jī)技術(shù)的應(yīng)用大大改進(jìn)了以往的工作模式,滿足了信息的共享性、時(shí)效性和便捷性等多種特征。數(shù)據(jù)挖掘作為檔案信息管理工作的重要信息技術(shù)之一,具有其自身獨(dú)特的功能和地位。
1數(shù)據(jù)挖掘的定義
隨著數(shù)據(jù)學(xué)科的興起,越來越多的科學(xué)家針對數(shù)據(jù)挖掘等技術(shù)進(jìn)行了深入的研究,現(xiàn)在,數(shù)據(jù)挖掘已經(jīng)成為一個(gè)專門的學(xué)術(shù)領(lǐng)域,橫跨多個(gè)學(xué)科,涵蓋了統(tǒng)計(jì)學(xué)、數(shù)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫等多方面內(nèi)容。從普遍意義上而言,數(shù)據(jù)挖掘就是從包含大量模糊、隨機(jī)、有噪聲的數(shù)據(jù)中通過一定的技術(shù)手段進(jìn)行識別,將有效的、新穎的、或者潛在有用的數(shù)據(jù)進(jìn)行集中處理,進(jìn)而形成可以理解的知識。在實(shí)際應(yīng)用中,數(shù)據(jù)挖掘往往通過各種分析工具的利用,從海量的數(shù)據(jù)中發(fā)掘模型和數(shù)據(jù)之間的關(guān)系,并可以據(jù)此作出一定的預(yù)測。
2數(shù)據(jù)挖掘技術(shù)方法
數(shù)據(jù)挖掘技術(shù)的方法有很多,主要包括:
(1)分析方法:主要包括統(tǒng)計(jì)分析方法,諸如回歸分析和時(shí)間序列分析、多元分析等。其中,回歸分析針對自變量和因變量及其之間的變化關(guān)系進(jìn)行分析;時(shí)間序列分析利用時(shí)間序列模型進(jìn)行相應(yīng)的分析。
(2)決策樹:在信息理論的基礎(chǔ)上對數(shù)據(jù)進(jìn)行分類,在建立決策樹的同時(shí),也生成了相應(yīng)的規(guī)則,并可以據(jù)此預(yù)測數(shù)據(jù)。主要包括分類及回歸樹法,卡方自動交互探測法等等。
(3)神經(jīng)網(wǎng)絡(luò):即通過模擬人腦的思考結(jié)構(gòu)進(jìn)行一定的數(shù)據(jù)分析,具有一定的自我學(xué)習(xí)功能,并以此調(diào)整對應(yīng)的參數(shù),借以得到有關(guān)的資料。該方法可以對大量復(fù)雜的數(shù)據(jù)進(jìn)行分析。
(4)相關(guān)規(guī)則:主要進(jìn)行關(guān)聯(lián)分析,按照“如果——則”的邏輯進(jìn)行有關(guān)數(shù)據(jù)資料的細(xì)分。
(5)數(shù)據(jù)可視化:通過一定的、合適的圖形等進(jìn)行數(shù)據(jù)的展現(xiàn)和表示,同時(shí),該方法還支持多維數(shù)據(jù)的可視化,有利于從不同的層次進(jìn)行有關(guān)的分析。
除了上述方法之外,數(shù)據(jù)挖掘技術(shù)的主要方法還包括遺傳算法、近鄰算法、粗糙集、聯(lián)機(jī)分析處理等等,不同的方法都有其適用的不同數(shù)據(jù)庫或者數(shù)據(jù)資源,為有關(guān)數(shù)據(jù)的信息化處理提供了更多的方便。
3數(shù)據(jù)挖掘技術(shù)在檔案信息管理中的應(yīng)用模式
3.1檔案信息的收集
檔案信息的收集是數(shù)據(jù)挖掘技術(shù)應(yīng)用于檔案信息管理的重要內(nèi)容之一。其主要內(nèi)容是概念模型的建立,也就是通過一定基礎(chǔ)的數(shù)據(jù)分析,對有關(guān)的數(shù)據(jù)或者集合按照一定的方法進(jìn)行描述,即建立起有關(guān)的模型,并據(jù)此對比測試相應(yīng)的樣本對象等,在能夠獲得較高準(zhǔn)確性的基礎(chǔ)上,以此作為標(biāo)準(zhǔn),繼而將不同種類的對象進(jìn)行劃分。例如,在檔案管理者針對某一信息進(jìn)行錄入后,則數(shù)據(jù)庫會自動生成相應(yīng)項(xiàng)目的屬性描述,即形成了一個(gè)標(biāo)準(zhǔn)模型。當(dāng)同類的信息再次輸入時(shí),數(shù)據(jù)庫則會按照該標(biāo)準(zhǔn)模型對信息中的不同項(xiàng)目按照屬性進(jìn)行分類,大大節(jié)約了工作時(shí)間。
3.2進(jìn)行檔案分類
在檔案管理中,其工作任務(wù)相對繁重,主要是因?yàn)閿?shù)據(jù)量較大,而對檔案進(jìn)行分類整理往往需要耗費(fèi)大量的精力。但是,通過數(shù)據(jù)挖掘技術(shù)的施行,可以自動對大量不同的檔案依照屬性的不同進(jìn)行不同級別的分類,可以輔助有關(guān)的檔案管理員進(jìn)行更高效率的檢索。該功能的主要過程為:依照某些數(shù)據(jù)的不同特征對其進(jìn)行分類,使之形成相應(yīng)的訓(xùn)練集;在此基礎(chǔ)上,建立對應(yīng)的分類模型,對數(shù)據(jù)庫中的其他數(shù)據(jù)進(jìn)行分類。
3.3檔案信息的分析與整合
檔案的建立以及檔案信息化管理的重要用途之一,就是為了在特定時(shí)期,有關(guān)的管理者可以對數(shù)據(jù)庫中的龐大數(shù)據(jù)進(jìn)行迅速的信息提取、分析、整合,繼而使其發(fā)揮應(yīng)用價(jià)值。利用數(shù)據(jù)挖掘技術(shù),有關(guān)的管理者可以針對某種現(xiàn)象發(fā)生的原因進(jìn)行深入的分析,并挖掘背后的原因繼而采取一定的措施,杜絕此類現(xiàn)象的出現(xiàn)。另外,數(shù)據(jù)挖掘技術(shù)還可以針對有關(guān)的檔案查閱等,提供相應(yīng)的信息便于管理者做好充足的準(zhǔn)備。例如,在某個(gè)檔案的管理網(wǎng)站中,數(shù)據(jù)挖掘可以自動統(tǒng)計(jì)使用者大量查閱檔案的高峰期,有關(guān)的管理人員可以據(jù)此做好充足的準(zhǔn)備,并采取一定的措施預(yù)防網(wǎng)站癱瘓等問題的發(fā)生。
4數(shù)據(jù)挖掘技術(shù)應(yīng)用于檔案信息管理的意義
數(shù)據(jù)挖掘技術(shù)的應(yīng)用為檔案信息的科學(xué)高效管理提供了更加便利的條件,使得繁重冗雜的檔案管理工作擺脫了傳統(tǒng)的模式,使得其上升到了新的管理層面。智能化、信息化的檔案數(shù)據(jù)管理提升了有關(guān)數(shù)據(jù)處理的速度,這不僅節(jié)約了有關(guān)管理人員的工作時(shí)間,同時(shí),也降低了其工作難度,提升了管理者的工作效率和工作水平。
另一方面,數(shù)據(jù)挖掘技術(shù)的應(yīng)用對檔案信息管理的保密性和保存時(shí)間等多方面也具有十分重要的意義。一般而言,檔案信息的保存往往具有較高的保密性,有關(guān)信息的泄露很可能引發(fā)一系列嚴(yán)重的問題。而對于某些特殊機(jī)構(gòu)等,其保管的檔案往往在具有一定機(jī)密性的同時(shí),也需要進(jìn)行長期的保存,借以保存或者提升其價(jià)值,但是在使用過程中,很可能出現(xiàn)檔案信息的丟失等現(xiàn)象。而采用數(shù)據(jù)挖掘技術(shù),這些問題和不良現(xiàn)象可以得到相應(yīng)的改善。
5結(jié)語
綜上所述,數(shù)據(jù)挖掘技術(shù)在檔案管理工作中具有十分重要的意義,它不僅提升了檔案管理的效率,還增強(qiáng)了檔案的使用效率,這對當(dāng)前的檔案管理工作而言是一個(gè)重大的進(jìn)步。
參考文獻(xiàn)
[1]高燕飛,陳俊杰.試析計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運(yùn)用[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2012,04:44-46.
[2]欒志福.探討檔案信息管理系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].吉林省教育學(xué)院學(xué)報(bào)(下旬),2015,11:149-150.