国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)技術(shù)在檔案管理中的應(yīng)用

2022-04-07 07:25劉建國
科技創(chuàng)新導(dǎo)報(bào) 2022年21期
關(guān)鍵詞:檔案管理數(shù)字化算法

劉建國

(北京經(jīng)濟(jì)管理職業(yè)學(xué)院 北京 102602)

無論對(duì)于國家還是企業(yè)而言檔案都是一種重要的資源。作為一種原生性信息資源,檔案既記錄了事務(wù)的發(fā)展歷程,又能夠?qū)ξ磥淼囊?guī)劃決策具有指導(dǎo)和借鑒意義。在大數(shù)據(jù)時(shí)代,檔案數(shù)據(jù)量飛速增長,并且檔案數(shù)據(jù)的種類不再僅限于文字檔案,更多的是圖片、音頻、視頻等數(shù)字化格式的資料,檔案資料媒介格式的發(fā)展必然對(duì)檔案管理模式和應(yīng)用模式提出更高的要求。

1 大數(shù)據(jù)背景下檔案管理中存在的問題

1.1 檔案數(shù)據(jù)不一致問題

檔案數(shù)據(jù)不一致主要是關(guān)聯(lián)數(shù)據(jù)存在矛盾造成的,它形成的原因之一是檔案數(shù)據(jù)形成的過程中,由于數(shù)據(jù)采集和登錄過程中未按照要求登錄或者數(shù)據(jù)要求不明確,造成檔案數(shù)據(jù)不符合邏輯或者不完善甚至出現(xiàn)的檔案之間相互矛盾。另外,關(guān)聯(lián)檔案數(shù)據(jù)沒有同步更新,造成同一個(gè)數(shù)據(jù)在不同存儲(chǔ)位置出現(xiàn)不一致(不排除人為因素)也是問題產(chǎn)生的誘因之一。高質(zhì)量的檔案需要具有嚴(yán)肅性和權(quán)威性,檔案數(shù)據(jù)的不一致影響了檔案在實(shí)際應(yīng)用中的價(jià)值和意義。

1.2 檔案數(shù)據(jù)存在重存儲(chǔ)輕應(yīng)用問題

檔案存在的最終目的是應(yīng)用,是為國家建設(shè)、企業(yè)發(fā)展和個(gè)人證明服務(wù)。但是,檔案形成一般沒有為檔案的最終應(yīng)用做好準(zhǔn)備,而只是把檔案安全存放[1]。不能及時(shí)提供部門或者個(gè)人需要的相關(guān)檔案。另外,檔案管理部門更加關(guān)注檔案的存儲(chǔ),對(duì)于主動(dòng)應(yīng)用檔案進(jìn)行研究或者進(jìn)行展示的工作有明顯不足。

1.3 檔案數(shù)據(jù)的孤島問題

部分檔案由于種種原因存儲(chǔ)在不同單位或不同部門,存放位置上的檔案分離屬于物理性質(zhì)的檔案孤島。另外,還存在邏輯性質(zhì)的檔案孤島,檔案數(shù)據(jù)雖然屬于共享數(shù)據(jù),但是不同部門對(duì)于同一檔案數(shù)據(jù)的定義和理解存在差異,描述同一主題的數(shù)據(jù)被賦予了不同的含義[2]。兩種性質(zhì)的檔案數(shù)據(jù)孤島造成檔案的憑據(jù)作用和參考依據(jù)作用明顯降低。孤島問題對(duì)職能部門開展業(yè)務(wù)工作也會(huì)產(chǎn)生消極影響,主要體現(xiàn)在應(yīng)用過程中出現(xiàn)相悖的結(jié)論,降低檔案應(yīng)用依據(jù)的價(jià)值。

1.4 檔案安全需要進(jìn)一步提升

一般對(duì)于紙質(zhì)等有形的檔案擁有了比較完善的安全存儲(chǔ)和保管的方法,但是隨著數(shù)字技術(shù)得到廣泛應(yīng)用,電子檔案和非電子檔案成為檔案的兩種共存形式,并且電子檔案逐漸取得了優(yōu)勢,這種情況所帶來的是對(duì)檔案安全的新要求。不同于有形檔案的防霉變、防損壞等措施,對(duì)于電子檔案要考慮存儲(chǔ)介質(zhì)、訪問的安全性等問題。另外,電子檔案的有效性需要進(jìn)一步加強(qiáng),對(duì)于有形檔案在入檔前已經(jīng)經(jīng)過審核,其有效性得到了認(rèn)可,電子檔案在這方面需要進(jìn)行提升。

2 大數(shù)據(jù)技術(shù)對(duì)檔案管理中應(yīng)用分析

2.1 檔案數(shù)字化是應(yīng)用大數(shù)據(jù)技術(shù)的基礎(chǔ)

隨著數(shù)字技術(shù)的發(fā)展,檔案數(shù)字化是一種必然趨勢。一項(xiàng)重要的工作就是有形檔案的數(shù)字化,其中文獻(xiàn)檔案的數(shù)字化包括文獻(xiàn)檔案的拍照保存及文字內(nèi)容的提取等方面,通過數(shù)字技術(shù)與模式識(shí)別技術(shù),這部分工作已經(jīng)能夠在電腦輔助下完成。圖片、錄音、膠片檔案數(shù)字化也是一項(xiàng)緊迫的任務(wù),由于這部分檔案的介質(zhì)存放有一定要求和年限,對(duì)這些檔案的數(shù)字化能夠最大限度地保存歷史原貌,在數(shù)字化的過程中還需要對(duì)這些檔案修復(fù),即去除錄音檔案中的雜音,以及完成對(duì)膠片劃痕的修復(fù)和聲音的修復(fù)等工作[3]。有形檔案的數(shù)字化是在大數(shù)據(jù)環(huán)境下應(yīng)用這些檔案的基礎(chǔ),也是對(duì)原始檔案存儲(chǔ)和應(yīng)用的一種必然方式。

檔案數(shù)字化必須建立相應(yīng)的完善的標(biāo)準(zhǔn)體系,明確檔案數(shù)據(jù)的采集、清洗、存儲(chǔ)的標(biāo)準(zhǔn),建立明確的檔案從產(chǎn)生、存儲(chǔ)、遷移、應(yīng)用至廢除的生存周期。由于用于數(shù)字檔案存儲(chǔ)的設(shè)備和載體不斷更新,數(shù)據(jù)存儲(chǔ)格式也不盡相同,檔案容易出現(xiàn)在一種環(huán)境下應(yīng)用出現(xiàn)不兼容的問題。標(biāo)準(zhǔn)體系建設(shè)不僅要包括檔案本身的管理標(biāo)準(zhǔn),也包括用于存儲(chǔ)和應(yīng)用的硬件和軟件介質(zhì)的管理標(biāo)準(zhǔn),以及檔案管理人員的操作檔案設(shè)備、檔案處理流程的相關(guān)標(biāo)準(zhǔn)。關(guān)鍵工作就是保證文檔格式的一致性、檔案管理規(guī)范的一致性,實(shí)現(xiàn)數(shù)字檔案的高可靠性和高可用性。

2.2 大數(shù)據(jù)技術(shù)主要算法在檔案管理的上的應(yīng)用

大數(shù)據(jù)技術(shù)的重要意義在于由數(shù)據(jù)的有限抽樣分析轉(zhuǎn)變?yōu)閷?duì)全部數(shù)據(jù)的分析,避免抽樣過程中數(shù)據(jù)提取造成的偏差,從而提高分析的客觀性[4]。

大數(shù)據(jù)算法中的聚類算法可以根據(jù)檔案的相似性把檔案歸入同一個(gè)類別。根據(jù)分類設(shè)計(jì)可以把檔案分為不同的幾個(gè)類別,不同的計(jì)算方法可以得到不同的檔案分類結(jié)果。一般情況下,聚類算法易于理解也易于實(shí)現(xiàn),適合檔案管理人員用來借助進(jìn)行檔案數(shù)據(jù)分類。應(yīng)用聚類算法需要預(yù)先進(jìn)行數(shù)據(jù)清洗,數(shù)據(jù)清洗不完善會(huì)造成分類結(jié)果不理想;在聚類過程中會(huì)剩余少量噪聲數(shù)據(jù)或孤立點(diǎn),這些偏離分類的數(shù)據(jù)需要進(jìn)一步分析,探尋孤立點(diǎn)背后隱藏的信息。

借助關(guān)聯(lián)算法可以通過檔案進(jìn)行預(yù)測性分析,主要應(yīng)用于檔案的不同數(shù)據(jù)集之間可能被忽略的相關(guān)的細(xì)節(jié)信息,發(fā)現(xiàn)規(guī)律性的關(guān)聯(lián)模式。模式中的數(shù)據(jù)關(guān)系邏輯意義上的因果關(guān)系可能尚不明確,只是不同數(shù)據(jù)集之間有一定的依賴程度,發(fā)現(xiàn)的模式需要進(jìn)一步分析和解釋。當(dāng)然,也可以根據(jù)對(duì)檔案數(shù)據(jù)的設(shè)想進(jìn)行關(guān)聯(lián)挖掘,用挖掘結(jié)果證明設(shè)想是否成立。

檔案的一項(xiàng)重要功能就是為決策提供依據(jù),通過決策樹算法可以應(yīng)用檔案數(shù)據(jù)為決策的分支提供定量和定性的分析支持。決策樹算法實(shí)際上就是一種是或否的路徑方案選擇,在方案選擇上選取最有利或權(quán)重最大的路徑。決策樹算法產(chǎn)生的決策基于數(shù)據(jù)的量化分析結(jié)果,更具有科學(xué)性和客觀性。應(yīng)用檔案資源的決策樹分析是提出的具有參考性的建設(shè)性方案。

應(yīng)用大數(shù)據(jù)挖掘算法處理檔案數(shù)據(jù)實(shí)際上是一種知識(shí)發(fā)現(xiàn)的過程,挖掘算法還包括趨勢分析、文本挖掘等,作為檔案管理者應(yīng)該針對(duì)不同的需求應(yīng)用不同的算法進(jìn)行挖掘,挖掘結(jié)果要摒棄繁復(fù)細(xì)節(jié),突出簡潔高效,并適當(dāng)對(duì)結(jié)果進(jìn)行解釋。

2.3 數(shù)據(jù)可視化為檔案應(yīng)用提供了更好的呈現(xiàn)方式

檔案資源的可視化能夠給用戶帶來更良好的體驗(yàn)。明確一個(gè)檔案展示的主題,通過分析展示的對(duì)象、展示的內(nèi)容、展示的講述者等問題,讓檔案敘述的故事更直觀和生動(dòng)。檔案數(shù)據(jù)的可視化是把檔案數(shù)據(jù)的每一項(xiàng)數(shù)據(jù)作為單獨(dú)的圖形元素進(jìn)行展示,多個(gè)數(shù)據(jù)項(xiàng)就是檔案數(shù)據(jù)多維度的表示,幫助用戶掌握直觀信息、發(fā)現(xiàn)問題、探尋答案、作出決策。

數(shù)據(jù)可視化的工作重點(diǎn)是明確數(shù)據(jù)集和選擇圖表。根據(jù)主題確定的數(shù)據(jù)集是可視化的基礎(chǔ),必須選取有代表性的數(shù)據(jù)并進(jìn)一步提煉。數(shù)據(jù)之間的不同關(guān)系決定采用不同的圖表。折線圖展示一類數(shù)據(jù)隨另一類數(shù)據(jù)改變而相應(yīng)變化的趨勢;柱狀圖應(yīng)用于離散的檔案數(shù)據(jù),用于說明不同類別之間的比較;散點(diǎn)圖適合表示檔案的兩種數(shù)據(jù)的相關(guān)性及兩個(gè)數(shù)據(jù)變量可能的函數(shù)關(guān)系;餅狀圖適合表示一組數(shù)據(jù)在整個(gè)數(shù)據(jù)和中的占比等。檔案數(shù)據(jù)的可視化以設(shè)計(jì)理念為先導(dǎo),選取最合適的形式表現(xiàn)數(shù)據(jù)的內(nèi)涵信息。數(shù)據(jù)可視化的目的是幫助理解數(shù)據(jù),在圖表、顏色搭配等應(yīng)選擇對(duì)數(shù)據(jù)分析、應(yīng)用最直觀和最有效的方式。

2.4 做好檔案的大數(shù)據(jù)平臺(tái)建設(shè)

檔案數(shù)據(jù)具有共享性和分散性兩個(gè)特征,分散性的特征影響了檔案共享性,檔案使用者不能及時(shí)獲得完整的檔案信息[5]。為增加檔案數(shù)據(jù)的可用性,以大數(shù)據(jù)技術(shù)為基礎(chǔ)的平臺(tái)是必然的選擇。建立交互式的檔案信息服務(wù)平臺(tái),實(shí)現(xiàn)分散信息的有效整合,對(duì)檔案數(shù)據(jù)深入挖掘,及時(shí)提供時(shí)事熱點(diǎn)的背景檔案信息。數(shù)字化平臺(tái)兼具檔案查詢、檔案展示、文化傳播的多重功能。以大數(shù)據(jù)技術(shù)為基礎(chǔ)的數(shù)字化平臺(tái)需要及時(shí)維護(hù)和更新,保持平臺(tái)的吸引力和新鮮度。大數(shù)據(jù)平臺(tái)的架構(gòu)以數(shù)據(jù)庫為后臺(tái),以網(wǎng)頁為前臺(tái),屬于動(dòng)態(tài)網(wǎng)站訪問模式。通過統(tǒng)一的平臺(tái)界面,不同的用戶根據(jù)平臺(tái)注冊(cè)信息擁有自己不同的訪問界面,可以通過自己獨(dú)立的平臺(tái)界面查詢檔案信息,并且在平臺(tái)得到查詢的反饋結(jié)果。根據(jù)權(quán)限用戶獲得瀏覽、下載、打印等服務(wù)功能。平臺(tái)的建設(shè)必須做到界面友好,方便用戶的訪問,同時(shí)注意保護(hù)用戶的信息。大數(shù)據(jù)平臺(tái)是檔案信息的一個(gè)窗口,也是提高檔案服務(wù)性的必要手段。需要建立規(guī)范的管理流程,以更好地發(fā)揮服務(wù)作用。平臺(tái)建設(shè)完成不是檔案管理的終點(diǎn),而是檔案管理的新起點(diǎn),需要專門的負(fù)責(zé)人進(jìn)行維護(hù)和完善[6]。

2.5 制定保障檔案數(shù)據(jù)安全的規(guī)范化管理制度

檔案安全是檔案管理最重要的工作,檔案管理應(yīng)用大數(shù)據(jù)技術(shù),安全工作需要進(jìn)一步加強(qiáng)。首先檔案的數(shù)字化信息在訪問、遷移、使用中必須保持其權(quán)威性、可靠性和可信任性[7]。所有的訪問必須經(jīng)過授權(quán)和認(rèn)證,防止接觸檔案過程中泄露和篡改信息;做好檔案的分級(jí)管理,不同級(jí)別訪問的權(quán)限也不相同,保證只有最高權(quán)限用戶訪問核心的檔案信息。在數(shù)字檔案遷移中做好數(shù)字加密工作,保護(hù)隱秘信息不被泄露,保證應(yīng)用過程中的真實(shí)性。同時(shí),可以應(yīng)用時(shí)間戳記錄檔案從起點(diǎn)到終點(diǎn)的遷移軌跡,保證檔案遷移每一個(gè)環(huán)節(jié)的可追溯。其次,做好存儲(chǔ)載體的安全,根據(jù)載體的使用期限、兼容性及存取特性,開展合理的檔案數(shù)據(jù)載體的管理和更新。再次,非數(shù)字化檔案現(xiàn)在已經(jīng)基本實(shí)現(xiàn)了條碼管理,通過條碼可以對(duì)非數(shù)字化檔案的基本信息做到數(shù)字化管理。在管理過程中,應(yīng)該實(shí)現(xiàn)檔案基本信息提取的內(nèi)容和格式的標(biāo)準(zhǔn)化、規(guī)范化,保證非數(shù)字檔案信息完整、準(zhǔn)確地反映在數(shù)字化存儲(chǔ)中。非數(shù)字化檔案的更新需要及時(shí)地更新數(shù)字化檔案內(nèi)容,這是人工參與的過程與數(shù)字化信息自動(dòng)處理的過程相結(jié)合,往往由于人工的疏忽沒有對(duì)數(shù)字化存儲(chǔ)的基本信息進(jìn)行同步更新,造成檔案查找及應(yīng)用的困難。因此,必須堅(jiān)持規(guī)范操作,避免信息不一致的發(fā)生,建立完備的檔案數(shù)據(jù)管理的規(guī)范制度,保證管理制度的貫徹和執(zhí)行。

3 應(yīng)用大數(shù)據(jù)技術(shù)管理檔案應(yīng)注意的問題

3.1 注重檔案數(shù)據(jù)管理的大數(shù)據(jù)人才的培養(yǎng)

數(shù)據(jù)檔案的大數(shù)據(jù)人才屬于復(fù)合型人才,既具備檔案數(shù)據(jù)管理的理論和技能,又具備大數(shù)據(jù)技術(shù)的應(yīng)用能力。根據(jù)一般檔案管理經(jīng)驗(yàn),應(yīng)該是加強(qiáng)數(shù)據(jù)檔案管理人員的大數(shù)據(jù)技術(shù)技能,管理人員更熟悉檔案數(shù)據(jù)的管理流程和應(yīng)用領(lǐng)域,但是缺乏應(yīng)用大數(shù)據(jù)技術(shù)管理檔案的技能。培訓(xùn)管理人員使用大數(shù)據(jù)工具管理檔案更具有針對(duì)性、時(shí)效性,能夠帶著檔案管理中的問題去學(xué)習(xí),在學(xué)習(xí)中提升工作效率,改善工作效果。當(dāng)然,也需要大數(shù)據(jù)專業(yè)人才深入檔案管理一線服務(wù)。掌握大數(shù)據(jù)技術(shù)的檔案管理人員容易與大數(shù)據(jù)專業(yè)人才進(jìn)行有效的溝通,大數(shù)據(jù)專業(yè)人才有效地理解檔案管理的具體需求和困難,專業(yè)知識(shí)才會(huì)在檔案管理中發(fā)揮作用。

3.2 在大數(shù)據(jù)時(shí)代依然要注重非數(shù)字化檔案數(shù)據(jù)的管理

檔案數(shù)字化發(fā)展不意味著非數(shù)字化檔案的消失。紙質(zhì)檔案、視頻膠片、聲音磁帶等有形檔案有一項(xiàng)數(shù)字檔案不可比擬的優(yōu)勢就是它們的歷史性和原始性,是可以觸摸的歷史,在研究和考證歷史方面具有重要意義。發(fā)展數(shù)字檔案不是摒棄非數(shù)字的傳統(tǒng)檔案,而是應(yīng)用現(xiàn)代的科技手段實(shí)現(xiàn)傳統(tǒng)檔案的數(shù)字化應(yīng)用和展示,讓傳統(tǒng)檔案在新時(shí)代繼續(xù)發(fā)揮作用。數(shù)字檔案和傳統(tǒng)檔案的共存可以相互印證和相互促進(jìn),合理利用兩種檔案并進(jìn)行有效地管理,才能實(shí)現(xiàn)檔案工作的合理展開。

3.3 兼顧便捷性與安全性的統(tǒng)一

檔案管理的數(shù)字化及大數(shù)據(jù)的應(yīng)用帶來了用戶訪問和應(yīng)用檔案的便利,尤其是大數(shù)據(jù)技術(shù)具有的數(shù)據(jù)挖掘分析功能,為揭示檔案數(shù)據(jù)尚未發(fā)現(xiàn)的信息提供了方便。在實(shí)際應(yīng)用過程中,必須注意大數(shù)據(jù)算法的應(yīng)用安全,避免形成對(duì)算法的過度依賴。算法本身的安全性需要海量的數(shù)據(jù)集進(jìn)行測試,避免使用具有傾向性的數(shù)據(jù)進(jìn)行檢測,并且應(yīng)用前需要在模擬的檔案處理環(huán)境中進(jìn)行充分驗(yàn)證,在實(shí)際應(yīng)用中對(duì)算法產(chǎn)生的結(jié)果進(jìn)行充分分析。算法產(chǎn)生的結(jié)果是否揭示了檔案信息真實(shí)的內(nèi)涵,必須經(jīng)過人工分析和審核以確定算法產(chǎn)生結(jié)果的合理性和有效性。同時(shí),需要避免算法的自動(dòng)化對(duì)用戶使用檔案的心理產(chǎn)生不必要的干預(yù),算法本身是為用戶服務(wù)和使用的,而不是誘導(dǎo)性地暗示用戶進(jìn)行某一種檔案的使用行為。檔案管理人員和用戶對(duì)算法的理解很重要,知道算法采用的基本理論,能夠明確應(yīng)用算法處理某一類數(shù)據(jù)是否合理及符合要求。對(duì)算法的理解不是理解算法本身的語句,而是理解算法的功能,這是管理人員和用戶判斷算法是否合適應(yīng)用的基礎(chǔ)。便捷性不應(yīng)以犧牲安全性為代價(jià),算法應(yīng)用是實(shí)現(xiàn)以安全為基礎(chǔ)的檔案管理的便利。

4 結(jié)語

大數(shù)據(jù)技術(shù)對(duì)檔案管理效率和效果的提升提供了支持,也使檔案得到更充分、更合理的應(yīng)用。信息數(shù)字化是社會(huì)管理的必然趨勢,檔案管理應(yīng)用數(shù)字技術(shù)、大數(shù)據(jù)技術(shù)以至于人工智能技術(shù)適應(yīng)了數(shù)字化發(fā)展的客觀規(guī)律。由于硬件升級(jí)和軟件應(yīng)用中尚需要進(jìn)一步的整合,在推進(jìn)檔案管理數(shù)字化進(jìn)程中,要克服一蹴而就、一勞永逸的觀念,循序漸進(jìn)地推動(dòng)檔案管理工作建設(shè),邊推進(jìn),邊使用,敢于嘗試,勇于接受新技術(shù)、新觀念,采用多種方法改進(jìn)檔案管理,更好地服務(wù)社會(huì)、服務(wù)大眾。

猜你喜歡
檔案管理數(shù)字化算法
家紡業(yè)亟待數(shù)字化賦能
基于MapReduce的改進(jìn)Eclat算法
高中數(shù)學(xué)“一對(duì)一”數(shù)字化學(xué)習(xí)實(shí)踐探索
Travellng thg World Full—time for Rree
高中數(shù)學(xué)“一對(duì)一”數(shù)字化學(xué)習(xí)實(shí)踐探索
檔案管理中的電子檔案管理
進(jìn)位加法的兩種算法
檔案管理與企業(yè)內(nèi)部控制關(guān)系的思考
數(shù)字化制勝
一種改進(jìn)的整周模糊度去相關(guān)算法
白水县| 陆河县| 博客| 新疆| 鲁甸县| 宕昌县| 厦门市| 邢台县| 邻水| 偏关县| 宜川县| 建昌县| 厦门市| 合川市| 海安县| 沁阳市| 慈利县| 林州市| 龙口市| 金乡县| 天等县| 浏阳市| 乐陵市| 望江县| 怀安县| 教育| 都匀市| 盐城市| 普兰店市| 秀山| 衡山县| 澳门| 灵山县| 乳山市| 鄂伦春自治旗| 房山区| 卢氏县| 渑池县| 甘南县| 固镇县| 宜兴市|