国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時代檔案工作的挑戰(zhàn)與展望

2014-03-04 00:01:32舒濤羅浚溢趙永鑫
關(guān)鍵詞:檔案資料檔案管理分析

舒濤, 羅浚溢, 趙永鑫

(1. 成都大學(xué)檔案館, 四川 成都 610106; 2 成都大學(xué)電子信息工程學(xué)院, 四川 成都 610106)

大數(shù)據(jù)時代檔案工作的挑戰(zhàn)與展望

舒濤1, 羅浚溢2, 趙永鑫2

(1. 成都大學(xué)檔案館, 四川 成都 610106; 2 成都大學(xué)電子信息工程學(xué)院, 四川 成都 610106)

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展, 獲取信息的途徑越來越多, 大數(shù)據(jù)時代的到來使得人們能夠獲取的信息量越來越大. 對大數(shù)據(jù)的理念對傳統(tǒng)的檔案工作的重要性、檔案存儲、分析與管理、檔案資源的利用、檔案工作方式等各個方面帶來的挑戰(zhàn)進行分析, 將為我國檔案工作帶來新的機遇與挑戰(zhàn).

大數(shù)據(jù); 檔案工作; 檔案資源的利用

1 引言

隨著信息化技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展, 現(xiàn)代社會的檔案資料已經(jīng)實現(xiàn)了電子化和數(shù)據(jù)化, 以數(shù)字形式存儲的檔案資料使用戶可以很方便進行檢索和查閱, 但是隨著電子檔案存儲數(shù)據(jù)量的逐年增加, 檔案數(shù)據(jù)資料具有大數(shù)據(jù)的特點, 必須使用新的技術(shù)與結(jié)構(gòu)來實現(xiàn)檔案信息的管理.

大數(shù)據(jù)指的是呈指數(shù)增長且有廣泛可用性的數(shù)字數(shù)據(jù), 由于其特殊性不能使用傳統(tǒng)的軟件工具和技術(shù)對這種大數(shù)據(jù)進行管理與分析. 對這種大數(shù)據(jù)進行分析和處理的最大困難是這種數(shù)據(jù)的量增長過快而現(xiàn)有的計算資源卻相對較少. 大數(shù)據(jù)不僅僅是指數(shù)據(jù)的量, 同時還具有多樣性、大量化、高速率、價值密度低等特征.

2 大數(shù)據(jù)對檔案工作的重要性

信息化技術(shù)的發(fā)展產(chǎn)生了大量的數(shù)據(jù), 我們身處于一個數(shù)據(jù)的海洋, 為了方便用戶對檔案或者文獻資料的查詢與獲取, 需要把數(shù)據(jù)盡可能多的存儲, 例如, 谷歌公司每天要處理幾百萬次的后臺操作和近百萬次的檢索服務(wù). 讓谷歌公司保持正常運行的核心技術(shù)是三個全球最大的LINUX數(shù)據(jù)庫, 其容量分別為7.8T, 18.5TB, 24.7TB;IEEE數(shù)據(jù)庫可以查詢上世紀40年代以來的原始科研檔案與文獻資料. 這些檔案資料有的需要長時間的存儲, 有的隨時都在發(fā)生變化, 并且現(xiàn)代社會的檔案資料類型繁多不僅僅指文字型檔案, 同時包含視頻、音頻、圖片等等檔案資料, 從數(shù)據(jù)結(jié)構(gòu)上看, 電子檔案數(shù)據(jù)類型包含未加工數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)等等,傳統(tǒng)的檔案系統(tǒng)無法對這些數(shù)據(jù)進行分析與處理. 使用大數(shù)據(jù)分析系統(tǒng)不僅是分析整個大數(shù)據(jù)來對檔案進行有效管理, 同時還能夠延長檔案的存儲時間. 大數(shù)據(jù)系統(tǒng)可以對海量數(shù)據(jù)進行有效的分析與處理, 解決了傳統(tǒng)系統(tǒng)由于缺乏存儲設(shè)備和分析技術(shù)只能提取部分數(shù)據(jù)進行分析與處理的缺點, 在檔案管理領(lǐng)域具有廣闊的應(yīng)用前景.

3 大數(shù)據(jù)時代檔案工作面臨的挑戰(zhàn)

1)隱私與安全

隱私與安全是大數(shù)據(jù)時代檔案工作面臨的嚴峻挑戰(zhàn), 它不僅僅是理念和技術(shù)層面, 同時也涉及法律問題.

大數(shù)據(jù)時代的檔案開放標準必須要嚴格定義. 大數(shù)據(jù)系統(tǒng)在方便人們獲得相關(guān)檔案資料的同時由于大數(shù)據(jù)系統(tǒng)的一些特殊性使得任何檔案被輕易獲得成為可能. 從國家層面講, 一些國家機密檔案被泄漏, 會造成國家財產(chǎn)重大損失, 嚴重的甚至可能危及國家安全. 就個人而言, 一些本該屬于隱私的個人信息被他人輕易得到, 會對個人及其家庭帶來災(zāi)難性后果. 例如, 英國一個女高中生因為其隱私照片被泄漏, 最后不堪重負自殺身亡. 據(jù)不完全統(tǒng)計, 2013年我國就有近千萬公民個人信息泄漏, 造成經(jīng)濟損失高達數(shù)十億元.

2)文獻獲取與資源共享

獲取檔案資料的目的之一是為了能夠從檔案中獲得有用的信息, 幫助個人或者企業(yè)做出準確的、及時的決策. 要完成上述功能, 就必須保證獲取到的檔案資料應(yīng)具有準確性、完整性與及時性, 這需要檔案管理機構(gòu)要保證檔案資料更加具有開放性, 這就必然會導(dǎo)致數(shù)據(jù)分析與處理系統(tǒng)的結(jié)構(gòu)更加復(fù)雜, 增加檔案管理機構(gòu)的運營成本.

為了能夠更好的利用檔案資源為社會經(jīng)濟服務(wù), 檔案管理機構(gòu)應(yīng)該走出去, 要改變以往的各自為政檔案管理模式, 建立全國性的檔案數(shù)據(jù)庫, 方便用戶能及時、準確獲取相關(guān)檔案資料.

3)存儲與處理

面對呈指數(shù)增長的檔案數(shù)據(jù), 檔案管理機構(gòu)現(xiàn)有的存儲設(shè)備不足以有效和完整地存儲整個檔案數(shù)據(jù). 即使使用云盤也無法解決這個難題. 因為大數(shù)據(jù)系統(tǒng)需要分析所有的相關(guān)數(shù)據(jù), 然后根據(jù)相應(yīng)的算法提取出重要的信息. 把TB級的數(shù)據(jù)上傳到云盤需要大量的時間, 而且這些數(shù)據(jù)又是在快速的變化, 因此無法保證上傳到云盤數(shù)據(jù)的實時性. 同時, 云計算的分布式性質(zhì)對于大數(shù)據(jù)的分析也存在問題.

大數(shù)據(jù)在處理數(shù)據(jù)時需要把數(shù)據(jù)從存儲點傳輸?shù)教幚睃c, 如果數(shù)據(jù)流量大會造成數(shù)據(jù)堵塞影響處理速度.一種解決方式是不需要把數(shù)據(jù)從存儲點傳輸?shù)教幚睃c處理, 而是直接在存儲點處理, 僅僅只是把處理的結(jié)果傳輸出去. 但是這種處理方法需要保持數(shù)據(jù)的完整性和來源.

大數(shù)據(jù)的處理需要大量的時間. 為了找到適合的檔案, 需要對整個數(shù)據(jù)集進行掃描, 這顯然是不可能的. 因此在獲取和存儲數(shù)據(jù)之初就建立索引可以有效地減少處理時間.

4)技術(shù)挑戰(zhàn)

①容錯率: 由于大數(shù)據(jù)的容錯計算相當(dāng)困難, 涉及復(fù)雜的算法. 而且根本不可能設(shè)計出絕對安全、100%可靠的容錯設(shè)備或者軟件. 因此, 系統(tǒng)主要的任務(wù)是減少失敗的概率為“可接受”的水平. 不幸的是, 越是努力降低這個概率, 系統(tǒng)的成本較高. 目前, 檔案系統(tǒng)中使用最為廣泛的增加容錯率的方法是將整個計算任務(wù)分配到不同的節(jié)點進行計算. 其中一個節(jié)點作為觀察節(jié)點, 用于監(jiān)測其他節(jié)點是否正常工作. 如果有錯誤發(fā)生, 也只有特定的節(jié)點才會從零開始. 但是, 有時整體計算任務(wù)不能被分成單個相對獨立的任務(wù). 有些任務(wù)具有遞歸性質(zhì), 先前任務(wù)的輸出是后續(xù)任務(wù)的輸入, 因此重新啟動整個計算任務(wù)將會是非常繁瑣的事情. 應(yīng)用上述的監(jiān)測節(jié)點可以有效地避免整個任務(wù)重啟. 如果出現(xiàn)任何故障, 從最近一個監(jiān)測點開始重啟, 前面已經(jīng)完成的任務(wù)則保持不變.

②可擴展性: 在一個傳統(tǒng)的檔案系統(tǒng)中, 平行運算是通過昂貴的硬件來實現(xiàn), 如大規(guī)模并行處理系統(tǒng)或?qū)ΨQ多處理系統(tǒng). 而目前使用的基于大數(shù)據(jù)分析的檔案管理系統(tǒng)是通過通用的硬件和新一代的分析軟件來實現(xiàn)平行運算.

大數(shù)據(jù)背景下的檔案系統(tǒng)采用的是云計算, 因為云計算可以把各種不相同的工作負載聚集起來. 這就要求更高層次的資源共享, 必然導(dǎo)致系統(tǒng)成本增加, 而且在大數(shù)據(jù)模式下系統(tǒng)出現(xiàn)故障的頻率也會更加頻繁.

目前, 固態(tài)硬盤和相變技術(shù)已經(jīng)取代了傳統(tǒng)硬盤. 固態(tài)硬盤和相變技術(shù)在順序和隨機數(shù)據(jù)傳輸之間不具有相同的性能, 因此到底使用哪一種存儲設(shè)備是檔案管理系統(tǒng)面臨的一個大問題.

③數(shù)據(jù)質(zhì)量: 海量數(shù)據(jù)的獲取及其存儲都是一筆不小的開銷. 獲取的有用數(shù)據(jù)量越大對于決策的制定是極為有力的. 那么檔案管理系統(tǒng)就應(yīng)該把獲取的數(shù)據(jù)進行篩選, 盡可能多存儲有價值的數(shù)據(jù), 對于沒有價值或者價值小的數(shù)據(jù)則應(yīng)當(dāng)丟棄. 檔案管理系統(tǒng)在數(shù)據(jù)存儲上最大的問題是如何決定哪些數(shù)據(jù)是有用的, 哪些是無用的?到底需要多少數(shù)據(jù)才能有利于一個正確的決策或者前景分析.

④異構(gòu)數(shù)據(jù): 現(xiàn)代檔案數(shù)據(jù)的種類繁多, 包括結(jié)構(gòu)數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)等等. 結(jié)構(gòu)化數(shù)據(jù)具有嚴格的機械性和管理性. 結(jié)構(gòu)數(shù)據(jù)與數(shù)據(jù)庫有良好的集成特點, 而非結(jié)構(gòu)化數(shù)據(jù)則是未加工的、無組織性數(shù)據(jù). 處理非結(jié)構(gòu)數(shù)據(jù)相當(dāng)繁瑣且成本高, 但是把所有的非結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)數(shù)據(jù)同樣是不可實現(xiàn)的.

5)人才要求

大數(shù)據(jù)背景下檔案管理部門不僅需要掌握傳統(tǒng)檔案管理方式的人才, 也需要掌握各種技術(shù)專門人才. 例如,現(xiàn)代檔案管理需要能夠?qū)Υ髷?shù)據(jù)進行深度分析的高級數(shù)據(jù)分析工程師;需要精通如何申請、使用大數(shù)據(jù)分析的高級管理人才;需要大數(shù)據(jù)獲取與實現(xiàn)的軟、硬件工程師. 此外, 由于現(xiàn)代檔案的類型涵蓋非常廣泛, 我們生活、生產(chǎn)、學(xué)習(xí)的方方面面都可以是現(xiàn)代檔案的信息來源, 那么現(xiàn)代檔案管理工作所需的高端專業(yè)人才不能僅僅只包括軟硬件工程師、數(shù)據(jù)庫工程師和檔案服務(wù)等人才, 同時數(shù)學(xué)家、物理學(xué)家、生物學(xué)家、醫(yī)療工作者、病例學(xué)家、社會學(xué)家等等幾乎所有的與人們生活、工作、學(xué)習(xí)息息相關(guān)的各方面的優(yōu)秀人才都應(yīng)該是現(xiàn)代檔案工作所需要的. 隨著我國信息化、網(wǎng)絡(luò)化的加速發(fā)展, 大數(shù)據(jù)背景下的檔案工作具有廣闊的商業(yè)前景.

4 結(jié)論

現(xiàn)在的世界是一個“數(shù)據(jù)”的世界, 我們處于一個由各種數(shù)據(jù)類型組成的大數(shù)據(jù)包圍之中. 就信息獲取而言,大數(shù)據(jù)的興起使我們獲取信息的途徑變得簡單, 通過網(wǎng)絡(luò)可以輕松得到幾乎任何想得到的資料與信息. 大數(shù)據(jù)是一種新的技術(shù)與新的概念, 在給我們帶來方便與利益的同時也產(chǎn)生了一些嚴重的社會問題與技術(shù)難題, 比如,在大數(shù)據(jù)環(huán)境下如何保證人們的隱私安全;如何對呈指數(shù)增長的海量數(shù)據(jù)進行有效存儲與分析, 加快數(shù)據(jù)的處理速度等. 大數(shù)據(jù)正在改變我們的生活方式, 改變我們的思維.

[1] L BREIMAN. Random forests[J]. Machine Learning, 2001, 45(1):5-32.

[2] A HALEVY, P NORVIG, F PEREIRA. The unreasonable effectiveness of data[J]. IEEE Intelligent Systems, 2009, 24(2):8-12.

[3] T JOACHIMS, L GRANKA, B PAN, et al. Evaluating the accuracy of implicit feedback from clicks and query reformulations in Web search[J]. ACM TOIS, 2007, 25(2):1-27.

[4] B PANG, L LEE. Opinion mining and sentiment analysis[J]. FnTIR, 2008, 2(1-2):1-135.

[5] R BEKKERMAN, M GAVISH. High-precision phrase-based document classi_cation on a modern scale[M]. KDD, 2011: 101-107.

[6] C BISHOP. Pattern Recognition and Machine Learning[M]. Springer-Verlag, 2006.

[7] L BOTTOU. Large-scale machine learning with stochastic gradient descent[M]. COMPSTAT, 2010.

[8] T BRANTS, A POPAT, P XU, et al. Dean. Large language models in machine translation[M]. EMNLP, 2007.

[9] 王珊, 王會舉, 覃雄派, 等. 架構(gòu)大數(shù)據(jù): 挑戰(zhàn)、現(xiàn)狀與展望[J]. 計算機學(xué)報, 2011(10):1468- 1472.

[10] 馬帥, 李建欣, 胡春明. 大數(shù)據(jù)科學(xué)與工程的挑戰(zhàn)與思考[J].中國計算機通訊協(xié)會, 2012(8):22-30.

[11] CT論壇. 華為SMARTVISION大數(shù)據(jù)解決方案[EB/OL]. (2012-9-6)[2014-4-15].HTTP://EC.CTIFORUM.COM.

[12] 大數(shù)據(jù)解決之道: 華為OCEANSTOR MVX存儲系統(tǒng)技術(shù)漫談[EB/OL]. (2012-9-10).[2014-4-15]. HTTP: //DIGI.TECH.QQ. COM/A/20120910/001487.HTM.

[13] 夏巖, 趙慧英, 賈軍帥. 數(shù)據(jù)挖掘發(fā)展綜述[J]. 通信與計算技術(shù), 2009:367-341.

[14] 郭海濤, 段禮祥, 閆春穎. 數(shù)據(jù)挖掘方法綜述[J]. 計算機科學(xué), 2009(36):323-326.

[15] 李翠平, 王敏峰. 大數(shù)據(jù)機遇與挑戰(zhàn)[J]. 科研信息化技術(shù)與應(yīng)用, 2013, 4(1): 12–18.

Challenges and prospects of the age of big data archives

SHU Tao, LUO Jun-yi, ZHAO Yong-xin
(Chengdu University, Chengdu 610106, P.R.C.)

With the rapid development of Internet technology, there are more and more simple ways to obtain information. The coming of the age of big data enables people to obtain increasingly bigger amount of information. The concept of big data challenges various aspects of archive work, such as storage, analysis and management, utilization, and will bring new opportunity and challenge to the archive work of our country.

big data; archive; utilization of archives resources

TP311.13

A

1003-4271(2014)04-0564-03

10.3969/j.issn.1003-4271.2014.04.18

2014-05-13

舒濤(1964-), 女, 漢族, 四川成都人, 中教高級, 研究方向: 檔案管理工作及研究, 郵箱: 253546198@qq.com.

成都市龍泉驛區(qū)科技局軟科學(xué)項目: 汽車電子技術(shù)工程創(chuàng)新人才培養(yǎng)研究.

猜你喜歡
檔案資料檔案管理分析
公路工程檔案資料管理的信息化創(chuàng)新
中國公路(2021年7期)2021-04-02 08:51:35
隱蔽失效適航要求符合性驗證分析
地質(zhì)檔案資料的保密工作探析
檔案管理中的電子檔案管理
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
檔案管理與企業(yè)內(nèi)部控制關(guān)系的思考
簡述基建工程檔案資料的科學(xué)化管理策略
山西建筑(2017年6期)2017-04-06 15:08:04
電力系統(tǒng)及其自動化發(fā)展趨勢分析
建筑工程檔案資料有效管理措施的應(yīng)用研究
健康檔案管理的“云”前景
大丰市| 莱芜市| 长丰县| 临洮县| 陆丰市| 长岛县| 昭苏县| 灵宝市| 毕节市| 抚州市| 勐海县| 清涧县| 海淀区| 旺苍县| 怀安县| 罗源县| 云霄县| 青田县| 靖安县| 石狮市| 五河县| 南开区| 曲靖市| 彭泽县| 阜新| 宁明县| 马鞍山市| 报价| 津市市| 承德市| 中牟县| 安龙县| 克拉玛依市| 钦州市| 元谋县| 东乡族自治县| 林口县| 安平县| 化隆| 万州区| 喀喇沁旗|