国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)處理方法的檔案價值開發(fā)研究

2021-12-31 08:55:05汪前珍
內(nèi)蒙古科技與經(jīng)濟 2021年4期
關鍵詞:體量數(shù)據(jù)處理價值

汪前珍

(廣西民族大學 圖書館,廣西 南寧 530006)

檔案對人類活動進行了客觀的記錄,具有原始的證據(jù)價值。然而,當前檔案的存儲模式及管理限制,檔案的價值沒有得到充分的開發(fā)和利用。大數(shù)據(jù)概念的提出以及大數(shù)據(jù)處理非規(guī)范的、海量的數(shù)據(jù)的方法,為檔案價值的開發(fā)提供了新的思路和新的方法。

1 大數(shù)據(jù)及大數(shù)據(jù)處理

1.1 概念及特點

關于大數(shù)據(jù)定義,不同研究主體的研究背景和研究目的不同,對于大數(shù)據(jù)概念的描述存在差異,目前學術界尚未形成比較一致的定義,但對大數(shù)據(jù)有比較認同的幾種特征[1]。

體量巨大(Volume):以前用海量數(shù)據(jù)即大海的博深浩大來描述數(shù)據(jù)的體量巨大,大數(shù)據(jù)則是在數(shù)據(jù)的體量方面比海量數(shù)據(jù)更為巨大,如果用空間來描述其體量,可以形容為宇宙級的數(shù)據(jù),浩瀚無邊的數(shù)據(jù)。在大數(shù)據(jù)的集合里,任何我們想象到的信息都有可能找到。

類型繁多(Variety):包含所有的數(shù)據(jù)類型,結(jié)構化和非結(jié)構化數(shù)據(jù),文字、圖像、視頻、音頻。

產(chǎn)生速度快(Velocity):數(shù)據(jù)的產(chǎn)生速度快,數(shù)據(jù)量呈指數(shù)級的速度增長。

價值密度低(Value):單位數(shù)據(jù)里包含的有價值信息非常稀少,就像砂金礦,品位很低。

1.2 大數(shù)據(jù)處理

通常,人們認為數(shù)據(jù)處理就是數(shù)據(jù)的統(tǒng)計、分析。21世紀互聯(lián)網(wǎng)及計算機技術的飛速發(fā)展,引發(fā)了數(shù)據(jù)規(guī)模的爆發(fā)式增長,各行各業(yè)都引入數(shù)據(jù)分析和數(shù)據(jù)統(tǒng)計,重視和應用大數(shù)據(jù)必將給我們的生活帶來深刻的變革,大數(shù)據(jù)及大數(shù)據(jù)處理將扮演越發(fā)舉足輕重的作用。所謂大數(shù)據(jù)處理,應該包含兩個方面,即大數(shù)據(jù)的處理方法和處理能力。

然而,學術界常常將大數(shù)據(jù)和大數(shù)據(jù)的數(shù)據(jù)處理方法等同或混合起來。從嚴格意義上講,大數(shù)據(jù)指的是客觀對象,就是具有上述特征的數(shù)據(jù);而大數(shù)據(jù)的處理則更強調(diào)的是對浩大的數(shù)據(jù)體量和復雜的數(shù)據(jù)類型的高效的處理方法和高速的處理能力,而從中提取有價值信息的能力。

2 檔案和大數(shù)據(jù)的關系

2.1 從檔案數(shù)據(jù)分析

已有研究表明,從大數(shù)據(jù)的特征和大數(shù)據(jù)挖掘來看,檔案數(shù)據(jù)與之不符[2]。石刻檔案、甲骨檔案、紙質(zhì)檔案、縮微檔案以及特殊檔案如郵票、商標、書稿、字畫、碑帖、照片、實物等[3]不同形式的檔案,只要轉(zhuǎn)化為計算機能夠處理的電子形式,就是計算機科學里的數(shù)據(jù)。只要是電子數(shù)據(jù),都是大數(shù)據(jù)的數(shù)據(jù)來源,就像小河是江海的水源來源,檔案數(shù)據(jù)自然是大數(shù)據(jù)的來源了。

2.2 從檔案體量分析

從體量來看,檔案數(shù)據(jù)的體量遠遠小于大數(shù)據(jù)所要求的體量,充其量只是滄海一粟;從產(chǎn)生速度來看,檔案數(shù)據(jù)主要來源于上述各種形式檔案的轉(zhuǎn)變以及新生成的電子檔案,相比于互聯(lián)網(wǎng)上數(shù)據(jù)的產(chǎn)生速度,檔案數(shù)據(jù)的產(chǎn)生速度完全不是一個數(shù)量級的;從價值密度來看,檔案數(shù)據(jù)都是對事實的描述、記載,真實可靠,可以說是數(shù)據(jù)領域的原生金礦,含金量極高,而大數(shù)據(jù)可以說是沙金礦里的貧礦,含金量極低,只有通過特殊的手段,才能提取到有價值的信息。

因此,從大數(shù)據(jù)的4個特征看,檔案數(shù)據(jù)從體量、產(chǎn)生速度、價值密度幾方面都不符合,從這個意義上看檔案數(shù)據(jù)與大數(shù)據(jù)是2個內(nèi)涵不同的概念。

3 阻礙檔案價值開發(fā)的因素

3.1 檔案的保存模式及阻礙

目前,檔案主體仍是紙質(zhì)檔案,電子檔案所占比例不高[2]。而大數(shù)據(jù)處理方法要求檔案資料必須轉(zhuǎn)化為電子數(shù)據(jù),且能夠流通,才可通過互聯(lián)網(wǎng)上不同地理位置的大型計算機分工協(xié)作,其采用獨有數(shù)據(jù)采集處理方法,如爬蟲程序?qū)崿F(xiàn)數(shù)據(jù)采集、清洗,應用分布式文件系統(tǒng)存儲數(shù)據(jù),構建大數(shù)據(jù)分析模型及模型檢驗方法和優(yōu)化方法[4],否則無法發(fā)揮其強大的數(shù)據(jù)采集、存儲、分析能力,其優(yōu)勢也無法體現(xiàn)。

因此,紙質(zhì)為主的檔案資料存儲現(xiàn)狀,決定了只能用傳統(tǒng)的人工、手工的方式來挖掘檔案的價值,而無法利用計算機互聯(lián)網(wǎng)工具以及大數(shù)據(jù)處理分析方法更深層次、更快捷、更大范圍的挖掘檔案的價值。

3.2 檔案的管理特點及阻礙

“確保‘檔案安全’一直是檔案工作的主旋律”[5]。《檔案館通則》第二十一條規(guī)定“利用者查閱、摘錄或復制檔案,必須持本單位的正式介紹信,注明利用者的身份和利用檔案的目的與范圍。大量利用檔案進行專題研究,必須事先將上級批準的研究計劃抄送有關檔案館”,顯然,當前的檔案管理理念、檔案管理規(guī)定都是趨向于“保護、保密、保守”[5]。對檔案利用者施加了過多的限制、約束條款,大大減少了檔案利用者的范圍及人數(shù),降低了檔案的使用頻率、使用效率。這些規(guī)定也限制了計算機互聯(lián)網(wǎng)工具、大數(shù)據(jù)處理方法的使用,現(xiàn)在幾乎是不可能使用大數(shù)據(jù)處理方法來處理,檔案資料的價值自然難以得到應有的挖掘和利用。

許多研究成果也表明,法律體系不完善、國家保密范圍設定與解密制度的嚴格規(guī)定、鑒定機構設置不合理、檔案資料開放的意識不夠普及等,嚴重影響了檔案資料的開放、開發(fā)和利用[6,7]。實際是,即便是利用者親自到檔案館也未必能夠獲準查閱、復印??梢哉f,檔案管理現(xiàn)狀與現(xiàn)代信息開發(fā)利用技術的高效快捷形成了鮮明的對比,與人們對檔案開發(fā)利用的強烈愿望形成了巨大的壓力差,一旦把其間的籓拆除,必將會產(chǎn)生巨大的社會效益和經(jīng)濟效益,造福社會。

4 應用大數(shù)據(jù)方法挖掘檔案價值的思路

綜上分析,我們認為應從創(chuàng)造大數(shù)據(jù)挖掘的基本條件、研究針對檔案數(shù)據(jù)的大數(shù)據(jù)處理方法兩個層面來解決檔案數(shù)據(jù)的價值挖掘問題。

4.1 創(chuàng)造大數(shù)據(jù)挖掘的基本條件

實現(xiàn)大數(shù)據(jù)處理數(shù)據(jù)的方法,①獲得訪問數(shù)據(jù)的相應權限;②要求處理對象電子化。

目前,對于檔案及檔案數(shù)據(jù)的訪問權限,不論是制度層面還是管理層面仍處于保護、保密、保守的狀態(tài)。對于檔案資料的電子化,目前比例仍然很低,絕大多數(shù)檔案還處于實物、紙本等狀態(tài),計算機無法處理。在采用復印、掃描、錄入、攝像等電子轉(zhuǎn)化過程中,面臨轉(zhuǎn)化成本高,轉(zhuǎn)化效率低,轉(zhuǎn)化經(jīng)濟效益、社會效益實現(xiàn)周期長、轉(zhuǎn)化信息失真等問題,這些都大大制約、限制了電子轉(zhuǎn)化的范圍。

因此,要真正做到對于相應權力的利用者完全開放其應擁有的權限,我們建議從制度方面和管理方面一定要保證開放到位;同時,針對不同密級的檔案,引入相適應的市場競爭機制,加快檔案的電子轉(zhuǎn)化和開放開發(fā),激發(fā)檔案的市場活力。探索由政府及檔案管理部門主導下的市場主體實現(xiàn)檔案的經(jīng)濟效益和社會效益的具體途徑和方法,從根本上解決檔案轉(zhuǎn)化資金匱乏、轉(zhuǎn)化技術原始落后、轉(zhuǎn)化效益難以實現(xiàn)等問題??梢苑蛛A段、分區(qū)域先行試驗、試點,由點到面,逐步推廣。

4.2 加大大數(shù)據(jù)方法在檔案領域的專項研究力度

開展針對檔案數(shù)據(jù)的大數(shù)據(jù)處理方法的專項研究。檔案數(shù)據(jù)是大數(shù)據(jù)的重用組成部分,具有許多自身獨有的特點,如轉(zhuǎn)化為電子數(shù)據(jù)后可能成為識別難度大的圖片、圖像、音頻、視頻等形式、單位價值含量高、有一定的失真等。因此,針對這些數(shù)據(jù),開展大數(shù)據(jù)處理方法的專項研究,從信息保真、信息識別的精準度,信息處理的算法、價值挖掘的方法等方面,探索這類具有特殊性的數(shù)據(jù)的大數(shù)據(jù)分析處理方法。

4.3 加大檔案數(shù)據(jù)與其他來源數(shù)據(jù)的關聯(lián)性研究

由于檔案數(shù)據(jù)的真實可靠性、價值密度高、體量小等特點,將其與其他來源數(shù)據(jù)進行對比,研究其間的相關關系,可能會產(chǎn)生更大的價值;換言之,就是檔案數(shù)據(jù)的價值鏈會大大延長,檔案數(shù)據(jù)將產(chǎn)生極大的外延價值。例如,西方普遍采用的個人信用檔案,當其與個人的工作、生活等方面公開的數(shù)據(jù)(如上班地點、上下班時間、購物記錄、旅行情況等)相聯(lián)系,就可能推測出其家庭財政收支情況、未來職業(yè)發(fā)展方向、家庭未來計劃等重要信息,為銀行信貸、公司招聘、政府規(guī)劃等提供決策信息,其適用性很強。

猜你喜歡
體量數(shù)據(jù)處理價值
認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
砳建筑:在“鵝卵石”體量中實現(xiàn)綠色節(jié)能辦公
超長無縫鋼結(jié)構在超大體量工程中的應用
一粒米的價值
“給”的價值
基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應用
打造體量感的褲裝2016春夏女褲流行前瞻
導語:小體量的大道理
新聞傳播(2015年8期)2015-07-18 11:08:24
基于POS AV610與PPP的車輛導航數(shù)據(jù)處理
青阳县| 乐安县| 七台河市| 桐柏县| 石屏县| 闸北区| 涟源市| 保德县| 大丰市| 沙雅县| 扶绥县| 东至县| 南部县| 和静县| 全南县| 安顺市| 北川| 招远市| 南川市| 五指山市| 大英县| 西藏| 马关县| 博湖县| 衡山县| 安陆市| 常宁市| 葫芦岛市| 额尔古纳市| 铁岭县| 昭觉县| 夏津县| 栾城县| 蓬溪县| 温宿县| 抚顺市| 巴青县| 沙田区| 澳门| 广宗县| 铜山县|