国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)倉庫技術(shù)與檔案管理工作淺析

2015-05-30 22:29:49李曉琦
關(guān)鍵詞:檔案工作數(shù)據(jù)倉庫信息化

李曉琦

摘 ?要:隨著時(shí)代的發(fā)展,社會(huì)信息需求呈全面增長的態(tài)勢,檔案管理活動(dòng)中不斷增長的電子文件信息,向檔案管理活動(dòng)提出了挑戰(zhàn),而海量數(shù)據(jù)分散存儲(chǔ)與用戶要求面向主題集中利用的矛盾,也對(duì)檔案服務(wù)工作提出考驗(yàn)。作為被廣泛應(yīng)用于企業(yè)競爭活動(dòng)中的數(shù)據(jù)倉庫技術(shù)的引入,為檔案管理活動(dòng)打開了另一條思路。

關(guān)鍵詞:數(shù)據(jù)倉庫;檔案工作;信息化

中圖分類號(hào):TP311 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ?文章編號(hào):1006-8937(2015)02-0144-02

1 ?數(shù)據(jù)倉庫的概念及檔案信息的特點(diǎn)

隨著信息化進(jìn)程的不斷推進(jìn),當(dāng)今人類社會(huì)正逐步步入一個(gè)以科學(xué)技術(shù)為主導(dǎo)的知識(shí)經(jīng)濟(jì)時(shí)代。而檔案工作作為一種社會(huì)現(xiàn)象,伴隨著歷史車輪的前進(jìn),其自身技術(shù)手段與管理模式也在不斷的更新之中。但這種變化反過來卻又無法滿足人們對(duì)檔案信息的科學(xué)性、系統(tǒng)性、集中面向主題的現(xiàn)實(shí)需求。為此,檔案工作可以引入數(shù)據(jù)倉庫技術(shù)來解決這一矛盾。

數(shù)據(jù)倉庫概念最早是由Devlin和Murphy在上世紀(jì)八十年代提出的,而數(shù)據(jù)倉庫之父W.H.Inmon在其著作《Building the Data Warehouse》中為數(shù)據(jù)倉庫所下的定義則被人們廣為接受。他將數(shù)據(jù)倉庫定義為:“一個(gè)面向主題的、集成的、隨時(shí)間變化的、非易失性數(shù)據(jù)的集合,用于支持管理層的決策過程”。由此概念我們可以發(fā)現(xiàn)數(shù)據(jù)倉庫的一些重要特性,即面向主題性、數(shù)據(jù)集成性、數(shù)據(jù)的時(shí)變性、數(shù)據(jù)的非易失性、數(shù)據(jù)的集合性與支持決策作用。如果我們將這些特性與檔案工作內(nèi)容相結(jié)合,便可得出在數(shù)據(jù)倉庫環(huán)境下,檔案信息具有的特點(diǎn):

①檔案信息內(nèi)容面向主題,并以某種數(shù)據(jù)集合的形式存儲(chǔ)。在數(shù)據(jù)倉庫中檔案信息的存儲(chǔ)并非面向某一具體應(yīng)用程序,而是以主題為歸類標(biāo)準(zhǔn),每一主題面向一個(gè)宏觀的分析領(lǐng)域,例如:檔案工作中不同性質(zhì)的檔案、檔案來源所在地、檔案流轉(zhuǎn)方式以及檔案用戶各項(xiàng)具體信息等均可作為主題組織數(shù)據(jù),一切以便于有效檢索利用為宜。②來源于不同結(jié)構(gòu)和系統(tǒng)的檔案信息的數(shù)據(jù)結(jié)構(gòu)與編碼的標(biāo)準(zhǔn)是統(tǒng)一的,并且具有某種程度上的綜合。③檔案信息中存在保存價(jià)值的歷史數(shù)據(jù)具有穩(wěn)定性。④檔案信息隨時(shí)間推移而不斷增長,且數(shù)據(jù)單元都具有時(shí)間標(biāo)記(時(shí)間戳)。⑤對(duì)檔案信息資源的數(shù)據(jù)挖掘可以用來預(yù)測用戶需求,提高檔案工作的社會(huì)服務(wù)能力,推動(dòng)社會(huì)的發(fā)展與進(jìn)步。

檔案信息的這些特點(diǎn)對(duì)于檔案工作的開展是非常有利的,如果將這種特點(diǎn)具體到檔案管理工作的各個(gè)環(huán)節(jié)中去,并結(jié)合數(shù)據(jù)倉庫的體系結(jié)構(gòu),便可大致構(gòu)造出以下的流程模式如圖1所示。

2 ?檔案的收集工作

該步驟對(duì)應(yīng)于數(shù)據(jù)倉庫的源數(shù)據(jù)部分。從所收集檔案信息的來源角度我們可以把源數(shù)據(jù)分為外部檔案信息和內(nèi)部檔案信息兩部分。所謂外部檔案信息即不為本數(shù)據(jù)倉庫所屬機(jī)構(gòu)所操作、擁有、控制的檔案信息及其元數(shù)據(jù);內(nèi)部檔案信息則與之相反,包括機(jī)構(gòu)內(nèi)的各種信息以及信息的元數(shù)據(jù)。從所收集信息的載體形式角度我們則可將源數(shù)據(jù)劃分為紙質(zhì)文件信息與電子文件信息。為了提高檔案的管理、檢索、傳輸與利用效率,大多數(shù)具有保存價(jià)值的紙質(zhì)檔案,在保證其真實(shí)性與完整性的前提下,通常會(huì)進(jìn)行數(shù)字化處理,將其轉(zhuǎn)換為電子文件,與紙質(zhì)檔案一同進(jìn)行雙套制保管。檔案的收集工作除了要面向歷史,反映人類社會(huì)原始的歷史記錄之外,更要以信息主體的需求為本,大力豐富和優(yōu)化館藏資源。

3 ?檔案的整理、鑒定工作

由于檔案信息最初收集到一處時(shí)是雜亂狀態(tài),需要進(jìn)一步條理化,有序化,區(qū)分具有不同保存價(jià)值的檔案信息入庫保管。在這一過程中,由于檔案部門使用的軟件型號(hào)不一,規(guī)格各異,無法相互兼容,致使源數(shù)據(jù)可能是來自不同的數(shù)據(jù)庫系統(tǒng)和操作系統(tǒng),在編碼、特性、命名規(guī)則等方面具有差異性。

①需要針對(duì)多個(gè)數(shù)據(jù)源,使用合適的技術(shù)進(jìn)行數(shù)據(jù)抽取。②對(duì)于抽取得到的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換。在轉(zhuǎn)換過程中,第一步要對(duì)不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行清理,排除多個(gè)系統(tǒng)中抽取出重復(fù)檔案信息的可能,檢查多個(gè)數(shù)據(jù)源之間編碼或者壓縮格式的矛盾,然后實(shí)施數(shù)據(jù)轉(zhuǎn)化,將抽取到的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,并按主題組合。③將匯總完畢的數(shù)據(jù)裝載到數(shù)據(jù)倉庫之中。在此處,數(shù)據(jù)裝載包括兩個(gè)層次,第一層是在數(shù)據(jù)倉庫設(shè)計(jì)和建設(shè)完畢的時(shí)候使用大量時(shí)間將大量數(shù)據(jù)裝載到數(shù)據(jù)倉庫中;第二層是在數(shù)據(jù)倉庫開始工作后,繼續(xù)收集來自不同信息源的檔案信息,并按數(shù)據(jù)倉庫的要求對(duì)其進(jìn)行轉(zhuǎn)化之后追加到數(shù)據(jù)倉庫中。

4 ?檔案的保管工作

數(shù)據(jù)倉庫正式運(yùn)行之后,我們同樣面臨著傳統(tǒng)檔案工作檔案的保存與管理問題。由于檔案信息內(nèi)容具有不同的保存價(jià)值與保密程度,所以需要進(jìn)行分級(jí)管理。這就涉及到數(shù)據(jù)倉庫中的數(shù)據(jù)分區(qū)問題。恰當(dāng)?shù)臄?shù)據(jù)分區(qū)可以提高系統(tǒng)的安全性和穩(wěn)定性,提高數(shù)據(jù)倉庫各種數(shù)據(jù)處理功能的效率,使得數(shù)據(jù)增長和管理的實(shí)現(xiàn)變得容易。通常依據(jù)檔案在數(shù)據(jù)倉庫中的時(shí)間特性標(biāo)準(zhǔn)來進(jìn)行系統(tǒng)層與應(yīng)用層劃分,將不同歸檔時(shí)間、不同保管期限的檔案區(qū)分開來,利于保管與利用。在數(shù)據(jù)倉庫中,數(shù)據(jù)被組織為早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)節(jié)級(jí)、輕度綜合級(jí)和高度綜合級(jí)四個(gè)級(jí)別。源數(shù)據(jù)最初通過集成進(jìn)入數(shù)據(jù)倉庫時(shí),處于當(dāng)前細(xì)節(jié)級(jí),根據(jù)系統(tǒng)需要,再對(duì)當(dāng)前細(xì)節(jié)級(jí)的數(shù)據(jù)進(jìn)行輕度或高度的綜合,得到的綜合級(jí)別稱為粒度,粒度設(shè)計(jì)的好壞,則直接影響數(shù)據(jù)倉庫所要存儲(chǔ)的數(shù)據(jù)量以及系統(tǒng)能回答的查詢類型,所以,為滿足不同層次的需求,數(shù)據(jù)倉庫在組織數(shù)據(jù)的時(shí)候,一般需要根據(jù)當(dāng)前狀況進(jìn)行多粒度級(jí)設(shè)計(jì)。對(duì)檔案的銷毀工作也是檔案管理中不得不面對(duì)的步驟。對(duì)于一些喪失保存利用價(jià)值的檔案如果繼續(xù)保存在數(shù)據(jù)倉庫中,不僅占用存儲(chǔ)空間,對(duì)其的維護(hù)工作也是一項(xiàng)相當(dāng)大的系統(tǒng)開銷。為此,數(shù)據(jù)倉庫中的數(shù)據(jù),一旦老化(保存年限已經(jīng)滿足檔案信息最初進(jìn)入數(shù)據(jù)倉庫時(shí)所預(yù)設(shè)的年限),便進(jìn)入早期細(xì)節(jié)級(jí),系統(tǒng)管理人員可以請相關(guān)人士對(duì)檔案做出鑒定,如有繼續(xù)保存價(jià)值則可存檔到一個(gè)更低持久性、但更大I/O承受能力的始終可用以進(jìn)行用戶查詢的子系統(tǒng)中,如無保存價(jià)值,則即刻銷毀。

5 ?檔案的利用工作

檔案的服務(wù)利用是檔案工作的總目的,充分利用檔案信息資源,可以提高政府機(jī)關(guān)行政效率、提升企業(yè)競爭力、增強(qiáng)信息優(yōu)勢、推動(dòng)社會(huì)政治經(jīng)濟(jì)科學(xué)文化發(fā)展。由于檔案服務(wù)對(duì)象的年齡層次不同、智力水平不同、知識(shí)結(jié)構(gòu)不同,于是用戶對(duì)檔案信息的需求也不盡相同。這給檔案利用服務(wù)工作提出了很大的挑戰(zhàn)?;跀?shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)、聯(lián)機(jī)分析處理技術(shù)(OLAP)、多維數(shù)據(jù)庫管理系統(tǒng)等技術(shù)可以改善面向用戶的服務(wù)質(zhì)量。通過對(duì)數(shù)據(jù)的分類挖掘和聚類挖掘可以獲得隱藏在檔案信息中、人們所感興趣的有用的信息和知識(shí),解決數(shù)據(jù)過量但可用信息匱乏的矛盾。通過建立基礎(chǔ)事實(shí)表與維表的范式,可以建立多維空間,通過鉆取、卷起、切片。切塊與旋轉(zhuǎn)等基本活動(dòng)讓用戶可以從不同角度、不同細(xì)節(jié)程度觀察數(shù)據(jù),拓寬用戶的視野。

數(shù)據(jù)倉庫技術(shù)是在傳統(tǒng)的數(shù)據(jù)庫基礎(chǔ)上發(fā)展起來的,以上僅僅是一些數(shù)據(jù)倉庫知識(shí)加諸于檔案管理過程中構(gòu)建的一種簡單模式,數(shù)據(jù)倉庫技術(shù)在檔案管理領(lǐng)域的廣泛推展和使用還需要大批的尖端技術(shù)人員的開發(fā)與相應(yīng)軟硬件系統(tǒng)的配合才能完成。

參考文獻(xiàn):

[1] 馬費(fèi)成.信息管理學(xué)基礎(chǔ)[M].武漢:武漢大學(xué)出版社,2008.

[2] 陳京民.數(shù)據(jù)倉庫原理、設(shè)計(jì)與應(yīng)用[M].北京:中國水利水電出版社,2004.

[3] Paulraj ponniah(美).Data warehousing fundamentals[M].北京:電子工業(yè)出版社,2004.

[4] 教育部考試中心.數(shù)據(jù)庫工程師[M].北京:高等教育出版社,2007.

[5] 馮惠玲,張輯哲.檔案學(xué)概論[M].北京:中國人民大學(xué)出版社,2006.

猜你喜歡
檔案工作數(shù)據(jù)倉庫信息化
月“睹”教育信息化
幼兒教育信息化策略初探
甘肅教育(2020年18期)2020-10-28 09:06:02
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
電子制作(2016年15期)2017-01-15 13:39:15
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
淺談實(shí)現(xiàn)檔案工作規(guī)范化管理的路徑
人間(2016年24期)2016-11-23 19:23:22
探析全程管理視角下如何貫徹落實(shí)“344”制度
藝術(shù)檔案工作重要性研究
試析機(jī)關(guān)檔案管理工作的創(chuàng)新
基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實(shí)踐
衡山县| 祁门县| 嵩明县| 泊头市| 凌云县| 威海市| 漳平市| 乌海市| 治县。| 旺苍县| 西城区| 建平县| 新巴尔虎右旗| 南丹县| 仲巴县| 平安县| 恩平市| 屏东市| 柳河县| 芜湖县| 淮北市| 托里县| 云南省| 淅川县| 读书| 鄯善县| 大厂| 南靖县| 伊宁市| 民县| 伊通| 沭阳县| 金沙县| 安阳县| 聂拉木县| 滦南县| 石城县| 绥江县| 名山县| 商城县| 泉州市|