国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘技術(shù)在檔案管理系統(tǒng)中的應(yīng)用

2020-01-02 03:53王仡捷
梧州學(xué)院學(xué)報 2020年3期
關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)據(jù)庫檔案管理

王仡捷

(安徽廣播電視大學(xué) 信息技術(shù)與網(wǎng)絡(luò)管理中心,安徽 合肥 230041)

以大數(shù)據(jù)為基礎(chǔ)的計算機數(shù)據(jù)挖掘技術(shù)給傳統(tǒng)的檔案管理帶來巨大的沖擊,也在很大層面上影響和改變了傳統(tǒng)檔案管理的理念和方式。應(yīng)用大數(shù)據(jù)挖掘技術(shù),能提高檔案管理中的數(shù)據(jù)檢索、查詢性能,并構(gòu)建自動化、數(shù)字化相結(jié)合的檔案信息管理機制。

1 基于大數(shù)據(jù)的計算機數(shù)據(jù)挖掘技術(shù)

1.1 以計算機技術(shù)為基礎(chǔ)的數(shù)據(jù)挖掘

數(shù)據(jù)挖掘指的是從海量的、不規(guī)則的隨機數(shù)據(jù)中提取出滿足人們信息、知識需求的數(shù)據(jù),挖掘出來的知識往往具有潛在的、隱性特征。計算機的普及應(yīng)用為數(shù)據(jù)挖掘技術(shù)提供了技術(shù)和平臺保障,基于計算機的數(shù)據(jù)挖掘?qū)⑷斯ぶ悄堋⒔y(tǒng)計學(xué)知識和技能進行有機結(jié)合,利用計算機檢索的自動化功能,對原有的海量數(shù)據(jù)進行高度分析,推理和挖掘出數(shù)據(jù)信息的潛在性能,從而為人們決策提供信息支撐。數(shù)據(jù)挖掘技術(shù)是隨著信息技術(shù)的發(fā)展而不斷改進和普及的,起初在20世紀末,數(shù)據(jù)挖掘技術(shù)主要應(yīng)用在較小范圍內(nèi)的研究階段,后來隨著信息技術(shù)創(chuàng)新和人工智能發(fā)展逐步應(yīng)用到各行各業(yè)。數(shù)據(jù)挖掘技術(shù)常用方法為分類法、關(guān)聯(lián)法、序列模式法和聚類分析法等,對采集的數(shù)據(jù)進行多維度的整合分析,挖掘數(shù)據(jù)中的信息、知識和模式等,為決策者提供參考依據(jù)。

1.1.1 分類形式。該形式是數(shù)據(jù)挖掘技術(shù)的核心,更是計算機數(shù)據(jù)挖掘技術(shù)在實務(wù)應(yīng)用中的重要組成部分,其核心理念是分析數(shù)據(jù)屬性,將不同的元祖數(shù)據(jù)劃分到不同類別中,分類是數(shù)據(jù)挖掘的起始部分,更關(guān)系到數(shù)據(jù)收集的整體質(zhì)量[1]。在應(yīng)用過程中,分類所體現(xiàn)的是對數(shù)據(jù)的歸納、提煉,從而確定同類事物的劃分依據(jù)即同種數(shù)據(jù)的共性。具體操作中,操作人員要挖掘數(shù)據(jù)的共同特征,利用相關(guān)程序進行最終檢測,核定數(shù)據(jù)的共同特性,從而進行具體分類。

1.1.2 關(guān)聯(lián)形式。關(guān)聯(lián)原則是數(shù)據(jù)挖掘技術(shù)中較為簡單的操作形式,是通過對相關(guān)數(shù)據(jù)的準確描述,實現(xiàn)對同類數(shù)據(jù)的分析、歸納和提煉。具體應(yīng)用中,要對某一類數(shù)據(jù)對象進行描述和分析,將同種屬性糅合起來,然后通過總結(jié)和歸納,得出對象的共有屬性或機制。關(guān)聯(lián)形式可以直接應(yīng)用到數(shù)據(jù)分析過程中,將不同事物產(chǎn)生的海量數(shù)據(jù)進行統(tǒng)一的記錄整合,減少分散數(shù)據(jù)的存儲量,實現(xiàn)系統(tǒng)的良好運行。

1.1.3 粗糙集法。粗糙集法相當(dāng)于數(shù)據(jù)挖掘技術(shù)中的數(shù)學(xué)工具,能研究數(shù)據(jù)隊形中的不確定知識、規(guī)則,其運算過程相對簡單容易操作,不需要確定相應(yīng)的研究信息,因而能為大多數(shù)用戶提供便利[2]。粗糙集法的應(yīng)用范圍較廣,由于客觀世界規(guī)則都具有不明確性,因而都可以用粗糙集法進行研究,同時粗糙集法可以排除數(shù)據(jù)庫中的干擾信息,發(fā)現(xiàn)數(shù)據(jù)中的共性,并以表格的形式進行整理,形成可供決策者直觀的決策表格。

1.2 大數(shù)據(jù)背景下的檔案管理工作內(nèi)涵

大數(shù)據(jù)的發(fā)展推動了檔案管理的改革和發(fā)展,信息技術(shù)和數(shù)據(jù)庫的應(yīng)用促使檔案管理在統(tǒng)一的平臺進行數(shù)據(jù)收集、分析和處理,并以信息技術(shù)為動力推動檔案管理的效率提升。在大數(shù)據(jù)背景下,傳統(tǒng)的檔案管理模式顯現(xiàn)出滯后性,檔案的信息載體也從最原始的紙質(zhì)文件向電子文件、數(shù)字文件轉(zhuǎn)變。結(jié)合大數(shù)據(jù)和云計算的共同作用,現(xiàn)代化檔案管理以大數(shù)據(jù)技術(shù)為支撐,對紙質(zhì)文檔進行數(shù)字化存檔,并借助數(shù)據(jù)平臺的開放性、交互性,為檔案用戶提供便捷、快速、高效和人性化的檔案服務(wù)。

2 計算機挖掘技術(shù)在檔案信息系統(tǒng)中應(yīng)用的積極意義

2.1 提高檔案信息的安全性和準確性

其一是通過對紙質(zhì)檔案實現(xiàn)電子化,有效減少對紙質(zhì)檔案的二次損壞,并能確保對紙質(zhì)檔案的規(guī)范化錄入、保存和檢索,達到保護紙質(zhì)檔案的目的。

其二是需要通過使用計算機技術(shù)提升電子檔案的保密性、安全性,以及實現(xiàn)對電子檔案的智能化管理,提高電子檔案的應(yīng)用效率,充分發(fā)揮數(shù)據(jù)信息的應(yīng)用價值。

其三是通過使用計算機技術(shù),把涉密的數(shù)據(jù)處理過程嚴格控制在內(nèi)部實現(xiàn),從而解決涉密數(shù)據(jù)的有效管控,嚴防數(shù)據(jù)泄密,達到提升檔案安全性的目的。

2.2 提高檔案的使用效率,放大檔案的功能價值

檔案的重要性和應(yīng)用價值在于存儲信息可以為決策者和信息需求者提供服務(wù),而大部分檔案信息具有一定的保密要求,不同類別、集體的檔案是不可能向全社會進行公開的,檔案的保護、管理、查閱都有一定的權(quán)限,這就導(dǎo)致檔案管理工作和查閱使用之間存在一定的矛盾沖突,引發(fā)兩方的溝通難題。如一旦溝通不暢,檔案查閱的需求和檔案管理的調(diào)取結(jié)果不一定完全對等,就會增大檔案管理的工作量,增加管理和查閱兩方的溝通次數(shù)。而計算機數(shù)據(jù)挖掘技術(shù)則可以通過對檔案數(shù)據(jù)的分類、關(guān)聯(lián)幫助管理者明確查閱者的信息需求,或者構(gòu)建專門的檔案信息供應(yīng)渠道,減少傳統(tǒng)檔案查閱中的查詢、檢索環(huán)節(jié),提高檔案利用效率,增強檔案的信息服務(wù)功能。

2.3 提高檔案管理的自動化、智能化和數(shù)字化水平

信息技術(shù)時代,檔案管理和信息技術(shù)的融合是必然趨勢,更是創(chuàng)新檔案管理理念、模式,提高檔案管理效率和質(zhì)量的必然途徑?;诖髷?shù)據(jù)的計算機數(shù)據(jù)挖掘技術(shù)的應(yīng)用首先要有大量的數(shù)據(jù)信息、檔案信息為前提,繼而應(yīng)用計算機數(shù)據(jù)挖掘技術(shù)對檔案進行篩選、分析和整合,從而得到想要的結(jié)果。數(shù)據(jù)挖掘技術(shù)可以在檔案管理的過程控制、信息控制、數(shù)據(jù)整合、查詢檢索、分析決策等多個方面進行具體應(yīng)用,涵蓋范圍廣泛。同時,計算機數(shù)據(jù)挖掘技術(shù)是一個跨學(xué)科的信息技術(shù),是計算機、人工智能、數(shù)據(jù)庫和統(tǒng)計學(xué)原理的綜合應(yīng)用,并涉及到神經(jīng)網(wǎng)絡(luò)、遺傳算法等學(xué)科[3]。數(shù)據(jù)挖掘技術(shù)的應(yīng)用不僅提高了檔案管理的效率,更從某個層面為檔案管理系統(tǒng)的改革和創(chuàng)新提供技術(shù)動力,促使檔案管理系統(tǒng)進行全方位改革,在具體的檔案管理工作中,推動工作人員創(chuàng)新工作理念,樹立信息化的檔案管理意識。

2.4 提高檔案管理的服務(wù)性,增強用戶體驗

將計算機挖掘技術(shù)應(yīng)用到檔案管理系統(tǒng)中,可以在很大程度上提高檔案管理的效率,相較于傳統(tǒng)的檔案管理技術(shù),數(shù)據(jù)挖掘可以實現(xiàn)檔案管理的人性化、智能化,以數(shù)據(jù)挖掘為基礎(chǔ)設(shè)計的檔案數(shù)據(jù)挖掘體系,可以以用戶的使用體驗為出發(fā)點,強調(diào)最大限度地滿足用戶的真實需求,這種人性化設(shè)計是傳統(tǒng)的檔案管理技術(shù)所欠缺的。首先它可以以多元用戶的個性化需求為特點進行針對性的數(shù)據(jù)收集和處理,不僅能提高檔案數(shù)據(jù)的搜集、整合效率,還能實現(xiàn)檔案數(shù)據(jù)處理的針對性和個性化,增強用戶的體驗滿意度。其次,多元用戶的信息需求也是有關(guān)聯(lián)的,檔案數(shù)據(jù)挖掘技術(shù)可以以全網(wǎng)用戶的信息檢索數(shù)據(jù)為依據(jù),挖掘和分析不同用戶之間的聯(lián)系、共性和工作內(nèi)容,從而為檔案管理系統(tǒng)的再次升級、更新提供數(shù)據(jù)支撐,推進檔案管理的持續(xù)發(fā)展。而且數(shù)據(jù)挖掘系統(tǒng)可以將相似信息匯總起來,構(gòu)架大數(shù)據(jù)倉庫,便于檔案管理技術(shù)人員對數(shù)據(jù)進行分析、歸納和整合,以加強對檔案用戶群體的了解。

3 數(shù)據(jù)挖掘技術(shù)在檔案信息化管理的應(yīng)用技法

3.1 分類法在檔案管理中的應(yīng)用

檔案分類是對檔案進行現(xiàn)代化、智能化管理的前提和基礎(chǔ),數(shù)據(jù)挖掘技術(shù)中的決策樹算法以一定規(guī)則將不同特性種類的檔案進行快速區(qū)分,并將同一種類的檔案進行歸類,能快速提高檔案檢索的效率。

其應(yīng)用過程主要是根據(jù)分類形式將大量的檔案分門別類。將具有相似屬性的檔案劃歸到一個類別中,增強檔案數(shù)據(jù)的規(guī)范性和標準性,讓現(xiàn)代化檔案管理具有更加高的效率,檔案管理人員可以按照不同的標準實現(xiàn)對檔案的快速檢索和查詢。

3.2 收集法在檔案收集中的應(yīng)用

收集法以神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)庫為基礎(chǔ)。首先分析大數(shù)據(jù)庫中的既有數(shù)據(jù),并以該數(shù)據(jù)為對象構(gòu)建概念模型,以該模型為標準對比分析每個測試樣本,如果該模型和數(shù)據(jù)樣本的主要特征相吻合,即該數(shù)據(jù)模型通過檢測測試,能夠?qū)?shù)據(jù)樣本進行正確的描述和分析,那么就以該模型對未來的數(shù)據(jù)對象進行分類。如,檔案管理人員以1 000名檔案會員為樣本進行數(shù)據(jù)統(tǒng)計,以用戶的年齡、性別、學(xué)歷、瀏覽或借閱記錄等數(shù)據(jù)為訓(xùn)練集,創(chuàng)建針對該檔案館用戶的借閱模型,并將該模型應(yīng)用到對新用戶群體分析中。如果有新用戶的相關(guān)信息輸入到該模型中,則該模型會根據(jù)新用戶的年齡、性別、學(xué)歷推斷出符合他們愛好、需求的借閱偏好,繼而進行針對性推薦,實現(xiàn)檔案服務(wù)的個性化和差異化。

(三)保留法在檔案保管中的應(yīng)用

保留法是保留住既有用戶,控制老客戶檔案流失的高效應(yīng)用技法。尤其對企業(yè)發(fā)展而言,保留老用戶的成本要遠遠低于開發(fā)新用戶的成本,因此進行客戶保留是企業(yè)發(fā)展中必不可少的檔案信息處理環(huán)節(jié)。

企業(yè)可以根據(jù)收集到的老用戶信息進行數(shù)據(jù)挖掘,分析引起老用戶流失的主要原因,繼而采取針對性措施,保留老用戶,防止老用戶檔案流失。

4 計算機數(shù)據(jù)挖掘技術(shù)在檔案管理系統(tǒng)中的應(yīng)用展望

4.1 實現(xiàn)數(shù)據(jù)來源的多樣性

數(shù)據(jù)挖掘的前提和基礎(chǔ)是數(shù)據(jù),只有收集大量的數(shù)據(jù)才能確保數(shù)據(jù)挖掘結(jié)果的準確性。從當(dāng)前的情況來看,檔案信息化管理中數(shù)據(jù)私密化、歷史數(shù)據(jù)積累等還有很多不足,這些都是數(shù)據(jù)挖掘技術(shù)在檔案信息化管理應(yīng)用中亟待解決的問題。同時,對于數(shù)據(jù)挖掘技術(shù)而言,最基本的要求是處理好多種類型的數(shù)據(jù)庫,但是目前多樣化的數(shù)據(jù)庫包含了多元化、復(fù)雜化的數(shù)據(jù)類型,如多媒體數(shù)據(jù)、文本數(shù)據(jù)、時態(tài)數(shù)據(jù)、空間數(shù)據(jù)等,而不同的數(shù)據(jù)類型中對數(shù)據(jù)記錄的標準也不一樣,如何協(xié)調(diào)好不同來源的數(shù)據(jù),使多元類型數(shù)據(jù)能夠?qū)崿F(xiàn)快速轉(zhuǎn)化、對接,也是未來數(shù)據(jù)挖掘技術(shù)中要重點解決的問題[3]。從目前的數(shù)據(jù)挖掘技術(shù)來看,通過一個系統(tǒng)實現(xiàn)對所有類型的數(shù)據(jù)的挖掘、處理和分析是不現(xiàn)實的,因此要挖掘特定類型數(shù)據(jù),則要創(chuàng)建與之相適應(yīng)的數(shù)據(jù)挖掘系統(tǒng)。

4.2 數(shù)據(jù)挖掘算法的研究

數(shù)據(jù)挖掘算法是數(shù)據(jù)挖掘技術(shù)的核心,好的算法會直接影響數(shù)據(jù)挖掘的效率和質(zhì)量。尤其是隨著數(shù)據(jù)庫的建立,不同的數(shù)據(jù)庫中包含有海量的數(shù)據(jù)屬性和數(shù)據(jù)記錄,而不同的數(shù)據(jù)表中又包含復(fù)雜的關(guān)聯(lián),這就會導(dǎo)致數(shù)據(jù)挖掘過程中的搜索空間和搜索維度激增。因此為從不同的數(shù)據(jù)庫中發(fā)掘信息,應(yīng)當(dāng)開發(fā)更加有效的數(shù)據(jù)算法,剔除其中的不確定和病態(tài)數(shù)據(jù)。

4.3 數(shù)據(jù)可視化和人機交互的發(fā)展方向

數(shù)據(jù)挖掘的過程比較復(fù)雜,每一個環(huán)節(jié)都需要工作人員的參與。因此未來的數(shù)據(jù)挖掘技術(shù)在檔案信息化管理中的應(yīng)用有可能朝向人機交互、數(shù)據(jù)可視化的方向發(fā)展。一方面,數(shù)據(jù)可視化可以將抽象的、復(fù)雜的數(shù)據(jù)轉(zhuǎn)變?yōu)槿藗兛梢灾苯永斫獾臄?shù)據(jù),進而通過簡單的方法操作系統(tǒng),滿足用戶的檢索、查詢等需求。另一方面,人機交互可以通過界面將數(shù)據(jù)的生成結(jié)果直接提供給用戶,友好界面能有效提升用戶體驗,讓用戶通過可視化界面直觀地看到數(shù)據(jù)挖掘的成果。

總之,計算機數(shù)據(jù)挖掘技術(shù)涉及到較多學(xué)科,是計算機技術(shù)、云計算、神經(jīng)網(wǎng)絡(luò)、遺傳算法、統(tǒng)計技能和大數(shù)據(jù)庫有機結(jié)合的科學(xué)技術(shù)。將數(shù)據(jù)挖掘應(yīng)用到具體工作中,探究和創(chuàng)建新的工作理念和工作模式有助于實現(xiàn)服務(wù)的差異化、個性化,從而提高工作效率。數(shù)據(jù)挖掘技術(shù)對檔案管理的沖擊是巨大的,也從根本上創(chuàng)建和締造了全新的檔案管理和服務(wù)體系,為大數(shù)據(jù)背景下的檔案信息化、智能化和數(shù)字化提供了技術(shù)和平臺支撐,實現(xiàn)檔案服務(wù)的個性化特征,縮減檔案管理成本,提高檔案的安全性、準確性。當(dāng)然在數(shù)據(jù)挖掘技術(shù)的應(yīng)用過程中,由于所涉及的數(shù)據(jù)巨大,任何一點細微誤差都可能造成重大漏洞,因此需要技術(shù)人員對數(shù)據(jù)挖掘技術(shù)進行深入研究,掌握相關(guān)技術(shù)知識,提高技術(shù)服務(wù)和管理能力,從而提高檔案信息的自動化管理水平。

猜你喜歡
數(shù)據(jù)挖掘數(shù)據(jù)庫檔案管理
改進支持向量機在特征數(shù)據(jù)挖掘中的智能應(yīng)用
事業(yè)單位檔案管理的難點及對策實踐
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
如何規(guī)范檔案管理
基于事故數(shù)據(jù)挖掘的AEB路口測試場景
檔案管理與企業(yè)內(nèi)部控制關(guān)系的思考
數(shù)據(jù)庫
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
數(shù)據(jù)庫
數(shù)據(jù)庫
遂宁市| 灵武市| 襄樊市| 郁南县| 南阳市| 睢宁县| 南漳县| 烟台市| 易门县| 开封县| 沂源县| 大方县| 崇文区| 越西县| 阿合奇县| 武强县| 永清县| 东丰县| 巴林左旗| 襄垣县| 井陉县| 察隅县| 广安市| 东乡县| 友谊县| 石泉县| 建宁县| 堆龙德庆县| 祁连县| 扶沟县| 平安县| 乐安县| 宜宾县| 承德县| 开封市| 屏山县| 基隆市| 琼中| 陆良县| 芒康县| 北辰区|