国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時(shí)代存量檔案數(shù)字化信息采集

2018-06-09 03:43王鋼領(lǐng)
東方教育 2018年13期
關(guān)鍵詞:數(shù)字化

摘要:紙質(zhì)檔案的利用存在諸多不便,大數(shù)據(jù)時(shí)代對(duì)檔案數(shù)據(jù)信息綜合利用提出了更高的要求,通過(guò)檔案數(shù)字化信息采集才能實(shí)現(xiàn)檔案數(shù)據(jù)信息的綜合利用,檔案數(shù)字化信息的采集是一項(xiàng)非常重要的基本工作。存量檔案作為常年積累下來(lái)的檔案,存量檔案數(shù)據(jù)信息的采集是檔案工作的基礎(chǔ),工作流程包括掃描、著錄、數(shù)據(jù)存儲(chǔ)、校對(duì)、OCR文字識(shí)別等,每個(gè)環(huán)節(jié)嚴(yán)謹(jǐn)?shù)墓ぷ髦贫群鸵?guī)范的工作紀(jì)律是保證準(zhǔn)確率的基本條件,新技術(shù)的應(yīng)用亦必不可少。

關(guān)鍵詞:存量檔案;數(shù)字化;掃描;OCR文字識(shí)別

一、引言

隨著計(jì)算機(jī)信息化技術(shù)的應(yīng)用和普及,大數(shù)據(jù)時(shí)代的到來(lái),國(guó)家提出了“互聯(lián)網(wǎng)+”的發(fā)展戰(zhàn)略,適應(yīng)了現(xiàn)實(shí)的迫切需求,現(xiàn)如今,不管是生活上(如網(wǎng)上購(gòu)物、手機(jī)APP叫外賣、網(wǎng)上約出租車、共享單車),還是工作上(如財(cái)務(wù)信息系統(tǒng)、人事管理系統(tǒng)、質(zhì)量管理系統(tǒng)、檔案信息系統(tǒng)、科技信息系統(tǒng)),信息化為我們提供高效服務(wù)的同時(shí),也在深刻的改變和影響著我們每一個(gè)人。進(jìn)入大數(shù)據(jù)時(shí)代,大規(guī)模數(shù)字存儲(chǔ)系統(tǒng)實(shí)現(xiàn)應(yīng)用降低了數(shù)據(jù)存儲(chǔ)的成本,許多以前無(wú)法存儲(chǔ)的數(shù)字信息也可以保存下來(lái)[1],檔案的數(shù)字化同樣產(chǎn)生了大量的數(shù)字信息,在大數(shù)字時(shí)代的檔案利用會(huì)越來(lái)越便捷。

檔案信息化系統(tǒng)正是基于信息化大發(fā)展的背景下大力建設(shè)的,檔案信息化系統(tǒng)可有效避免紙質(zhì)檔案在利用的過(guò)程中遭到損壞,以確保檔案完整性,改善存量檔案的存儲(chǔ)環(huán)境,檔案信息化系統(tǒng)的實(shí)現(xiàn),使檔案的利用效率更高,跨越了時(shí)間和空間的限制,節(jié)省了大量人力資源,有效降低了檔案保管單位的利用成本[2],方便統(tǒng)計(jì)和進(jìn)行遠(yuǎn)程查詢。存量檔案數(shù)據(jù)信息的采集是主要包括掃描、著錄、數(shù)據(jù)存儲(chǔ)、校對(duì)、OCR文字識(shí)別等工作流程,本文將進(jìn)行詳細(xì)分析。

二、存量檔案掃描

(一)掃描準(zhǔn)備

增量檔案的信息化掃描工作是業(yè)主方的常態(tài)工作內(nèi)容,掃描工作量比較固定,可以由業(yè)主方安排專門的人員完成,但在承擔(dān)掃描工作前,一定要進(jìn)行前期的培訓(xùn),使其符合檔案掃描崗位的要求。相對(duì)而言,存量檔案的掃描工作量特別大,耗費(fèi)時(shí)間長(zhǎng),業(yè)主方的工作通常是定人定崗,一般難以抽調(diào)大量人力完成存量檔案的掃描工作。存量檔案掃描應(yīng)建立在預(yù)先制定的規(guī)則之上,最好外包至專業(yè)的掃描公司。掃描公司自身有一套具體的人員和工作質(zhì)量管控的辦法,執(zhí)行力強(qiáng),業(yè)主方需安排專人配合,操作檔案信息管理系統(tǒng),確保檔案信息管理系統(tǒng)正確操作、保證信息安全,業(yè)主方內(nèi)部人員進(jìn)行掃描圖片、著錄條目的檢查、修改、打印工作,第一輪檢查工作完成后,將糾錯(cuò)結(jié)果返還至掃描公司,由掃描公司進(jìn)行確認(rèn)修改,修改后的內(nèi)容再由業(yè)主方進(jìn)行確認(rèn),執(zhí)行嚴(yán)格到位的情況下,即可保證存量檔案掃描工作的準(zhǔn)確無(wú)誤。

掃描場(chǎng)地要根據(jù)業(yè)主單位及掃描公司投入的設(shè)備及人力確定適宜的面積,準(zhǔn)備掃描場(chǎng)地。掃描場(chǎng)地要具有良好的采光、通風(fēng)條件以及消防、防盜設(shè)施,場(chǎng)地位置應(yīng)距離庫(kù)房較近,便于檔案的調(diào)卷及還卷,防止運(yùn)輸過(guò)程中損壞檔案,確保檔案的安全[3]。

(二)掃描過(guò)程注意事項(xiàng)

檔案信息化一定要保證質(zhì)量的情況下,提高數(shù)量,即使檔案糾錯(cuò)及質(zhì)檢非常嚴(yán)格,也難以完全應(yīng)對(duì)錯(cuò)誤百出的情況,不僅降低了檔案信息化工作的準(zhǔn)確度,也占用了大量從事糾錯(cuò)和質(zhì)檢的人力資源,降低了工作效率,再者,檔案掃描工作完成后,即錄入檔案信息管理系統(tǒng),如果在檔案信息系統(tǒng)利用的過(guò)程中,發(fā)現(xiàn)電子檔案的錯(cuò)誤之處,返工的成本則會(huì)成倍增加。

掃描工作進(jìn)行的過(guò)程中,要確保掃描儀、掃描軟件的正確操作,選購(gòu)掃描儀要注重儀器的掃描速度、圖片效果及公司的售后服務(wù),選購(gòu)品質(zhì)、技術(shù)和服務(wù)有保障的品牌,保證掃描圖片的質(zhì)量及正常運(yùn)行,使圖片曝光和色調(diào)合適,圖片不容許歪斜。

存量檔案通常年代久遠(yuǎn),紙質(zhì)檔案存放時(shí)間長(zhǎng),可能會(huì)導(dǎo)致檔案的質(zhì)量較差,檔案由于其不可再生的屬性,且諸多檔案原件具有法律效力和歷史意義,在進(jìn)行掃描時(shí)要特別小心謹(jǐn)慎,稍有不慎就可能造成損壞。根據(jù)存量檔案的原文類型,掃描人員可選用黑白、灰度、彩色三種掃描方式。大多數(shù)檔案圖文是黑白文稿,可選用黑白掃描方式。對(duì)于存在灰度變化的檔案圖文,如黑白照片,則選用灰度掃描方式,許多檔案存在手寫方式不同、字跡不清的情況,亦須采用灰度掃描方式,增強(qiáng)其逼真性。彩色的檔案圖文,掃描時(shí)采用彩色掃描方式[4]。

(三)掃描文件存儲(chǔ)

由于TIFF格式的圖像具有較高的位信息,還能以無(wú)損壓縮的方式存儲(chǔ),較適合作為保真要求高的檔案圖文,應(yīng)用廣泛。由于檔案掃描后需占用大量的存儲(chǔ)空間,需根據(jù)業(yè)主方要求及顯示效果,設(shè)定合適的分辨率,一般大于200dpi,過(guò)大的分辨率不僅造成了存儲(chǔ)空間的浪費(fèi),還會(huì)占用檔案信息系統(tǒng),使服務(wù)器負(fù)擔(dān)過(guò)重,造成系統(tǒng)響應(yīng)遲緩。

在應(yīng)用的實(shí)踐中,可以將TIFF格式的圖像轉(zhuǎn)換成PDF文件,這樣可以將擁有一定數(shù)量頁(yè)碼的檔案文件合成為一個(gè)PDF文件,既能降低檔案電子文件所占用的空間,又能方便使用。由于檔案文件種類繁多、數(shù)量非常多,服務(wù)器存儲(chǔ)空間有限,不能大量長(zhǎng)期存儲(chǔ),無(wú)法滿足存量檔案的存儲(chǔ)要求。實(shí)際操作中,需采用多個(gè)移動(dòng)硬盤進(jìn)行存儲(chǔ),還需要備份,以免移動(dòng)硬盤受到意外或不可抗力造成數(shù)據(jù)的損壞。采用光盤刻錄存儲(chǔ),存儲(chǔ)空間大,不易損壞,也不失為一種較好的存儲(chǔ)方式。在實(shí)際應(yīng)用中,采用異地備用存儲(chǔ)的方式,能進(jìn)一步保障檔案數(shù)據(jù)存儲(chǔ)的安全性。

(四)掃描過(guò)程監(jiān)督

外包至掃描公司首先要保證檔案信息的安全性,與掃描公司及具體在業(yè)主方實(shí)地工作的人員簽訂保密協(xié)議,掃描的數(shù)據(jù)不能帶出業(yè)主方指定的地點(diǎn),掃描公司所使用的電腦USB數(shù)據(jù)傳輸口應(yīng)封掉,不應(yīng)接入互聯(lián)網(wǎng),業(yè)主方應(yīng)進(jìn)行巡查及抽查,掃描公司應(yīng)承擔(dān)主體責(zé)任和義務(wù)。

許多存量檔案是經(jīng)過(guò)鑒定、整理后形成的長(zhǎng)期的、系統(tǒng)的材料,自身具有完整性和系統(tǒng)性,切不可打亂了檔案自身的內(nèi)部聯(lián)系,保證存量檔案掃描后的電子文件齊全完整,是存量檔案利用的前提[5]。對(duì)于存量檔案中可能夾雜的一些涉密檔案,在檔案調(diào)出庫(kù)房的同時(shí),應(yīng)由業(yè)主方所派人員即時(shí)檢查撿出,由業(yè)主方內(nèi)部進(jìn)行處理。

三、電子數(shù)據(jù)處理

掃描所產(chǎn)生的大量檔案電子數(shù)據(jù)的處理,直接關(guān)系到數(shù)據(jù)掛接的正確率。首先要檢查掃描數(shù)據(jù)的正確性。所獲得的掃描數(shù)據(jù)一般為圖片格式,單張圖片為一頁(yè),每卷案卷包含一個(gè)或多個(gè)文件,然后將圖片按照案卷目錄中文件個(gè)數(shù)轉(zhuǎn)換成PDF格式,處理完成的PDF文件,為了便于保存、核對(duì),通常將封頁(yè)與第一個(gè)文件合并在一起,封頁(yè)包括封面、目錄和封底(包含備考表),置于第一個(gè)文件前部,這樣所合成PDF的數(shù)據(jù)等于文件的數(shù)量,數(shù)據(jù)掛接前,可以檢查文件數(shù)與PDF數(shù)是否匹配,能夠方便快捷的發(fā)現(xiàn)問(wèn)題。每卷案卷的封面一般采用牛皮紙打印,目錄和內(nèi)容一般采用普通的白色紙張打印,封面與目錄和內(nèi)容表觀上存在明顯差異,通過(guò)預(yù)覽PDF文件,即可輕易找到不符合要求的每卷案卷的第一個(gè)文件,便于核查。

由于掃描數(shù)據(jù)量非常大,通常無(wú)法進(jìn)行逐頁(yè)檢查,一般采用抽查的方式進(jìn)行檢查,政策規(guī)定抽查率最低為5%,一般操作過(guò)程中,抽查率為10%左右,掃描過(guò)程中可能出現(xiàn)漏頁(yè)、重復(fù)、內(nèi)容顯示不完整等情況,通過(guò)檢查以后,要及時(shí)整改。如果發(fā)現(xiàn)某個(gè)區(qū)塊的數(shù)據(jù)集中爆發(fā)錯(cuò)誤或某掃描操作人員重復(fù)發(fā)生類似的錯(cuò)誤,則需提高抽查率、及時(shí)與相關(guān)掃描操作人員進(jìn)行溝通,將錯(cuò)誤全部改正,嚴(yán)防類似錯(cuò)誤再次發(fā)生。

四、OCR文字識(shí)別

采用OCR文字識(shí)別軟件,將所掃描的圖片,轉(zhuǎn)換成文字信息,通過(guò)關(guān)鍵詞的搜索,即可將平時(shí)通過(guò)搜索題名和文件名無(wú)法檢索到的內(nèi)容,呈現(xiàn)在管理人員眼前,方便利用者使用,尤其適用于題名、文件名錄入不準(zhǔn)確、不能正確反應(yīng)文件內(nèi)容、利用率高的重要檔案。

現(xiàn)在仍需解決,檔案數(shù)據(jù)量大、文字識(shí)別軟件對(duì)于檔案中手寫字識(shí)別難道大、識(shí)別后所生成的文件格式不正確等問(wèn)題,需要進(jìn)行人工選取和校對(duì)。鑒于OCR文字識(shí)別軟件存在的技術(shù)瓶頸和現(xiàn)實(shí)問(wèn)題,建議先通過(guò)OCR文字識(shí)別軟件將所掃描的檔案全部轉(zhuǎn)換為文字保存,要標(biāo)記檔號(hào)、件號(hào)等出處,方便查找原始圖片及檔案。將由檔案圖片所轉(zhuǎn)換成的文字保存建立一個(gè)數(shù)據(jù)庫(kù),需要通過(guò)人工檢查、改正一些明顯的錯(cuò)誤,人工校對(duì)僅作為OCR文字識(shí)別的補(bǔ)充,過(guò)多的人工介入則會(huì)很大程度上降低檔案數(shù)字化處理工作的效率[6]。

在檔案利用的過(guò)程中,如果確有檔案中,無(wú)法通過(guò)題名和文件名檢索,則可以通過(guò)檢索OCR文字識(shí)別數(shù)據(jù)庫(kù)進(jìn)行查找,可以作為現(xiàn)今檔案利用檢索手段的補(bǔ)充。由于OCR文字識(shí)別技術(shù)僅僅是作為現(xiàn)今檔案利用檢索手段的補(bǔ)充,僅需保證一定的準(zhǔn)確率,就可以發(fā)揮OCR文字識(shí)別技術(shù)不可替代的優(yōu)勢(shì),能夠提高檔案利用程度,待技術(shù)發(fā)展更加成熟,將會(huì)在大數(shù)據(jù)時(shí)代發(fā)揮更大的作用。

大數(shù)據(jù)時(shí)代對(duì)于檔案的信息化提出了更高的要求,識(shí)別利用率高的重要檔案中的文字非常重要,將能夠挖掘現(xiàn)今檔案利用時(shí)無(wú)法檢索的數(shù)據(jù),實(shí)現(xiàn)檔案信息資源社會(huì)化、共享化、數(shù)字化[7]。大數(shù)據(jù)時(shí)代檔案利用的趨勢(shì)是,將檔案的數(shù)字化實(shí)現(xiàn)檢索、計(jì)算、分析、便捷利用的檔案數(shù)字化數(shù)據(jù),而不僅限于圖像文件、題名、文件名和目錄的文字、關(guān)鍵詞檢索。政府部門、企事業(yè)單位的檔案往往包羅萬(wàn)象,包含種類眾多的類別。如高校保存的檔案中,通常包含黨群、行政、教學(xué)、科學(xué)研究、基本建設(shè)、儀器設(shè)備、出版、外事、財(cái)會(huì)、人物、聲像、實(shí)物等類別,每個(gè)類別下面又分為數(shù)個(gè)小的類別,高校往往人員眾多,學(xué)生數(shù)萬(wàn)人,教職工數(shù)千人,實(shí)施的業(yè)務(wù)種類豐富。在這種情況下,高校亟待推進(jìn)檔案大數(shù)據(jù)的綜合利用,以便為高校管理人員、教師、學(xué)生提供優(yōu)質(zhì)的檔案利用服務(wù),尤其是通過(guò)大數(shù)據(jù)的分析為管理人員提供學(xué)校發(fā)展規(guī)劃的決策建議、為教師提供個(gè)人發(fā)展規(guī)劃的建議、為學(xué)生制定課程選擇、個(gè)人升學(xué)、就業(yè)規(guī)劃的建議。要實(shí)現(xiàn)這些檔案大數(shù)據(jù)的深度利用,就需要得到盡可能齊全的檔案數(shù)據(jù),若將本校保存的所有檔案數(shù)據(jù)數(shù)字化,將可實(shí)現(xiàn)檔案數(shù)據(jù)的檢索、計(jì)算、分析、便捷利用創(chuàng)新多樣化服務(wù)方式,開(kāi)展多層次、多方位的網(wǎng)絡(luò)檔案信息服務(wù)[8]。

參考文獻(xiàn):

[1]陳明潔. 大數(shù)據(jù)時(shí)代對(duì)檔案現(xiàn)代化影響和要求[J].檔案管理, 2013(6):48-49.

[2]張靈. 高校檔案數(shù)字化管理之我見(jiàn)[J].檔案管理, 2014(1):91-92.

[3]蘇金華. 檔案掃描項(xiàng)目的有效組織與實(shí)施[J].新東方, 2008(1):20-23.

[4]王曉燕. 檔案全文掃描錄入工作流程(上)[J].湖南檔案, 2002(12):27-28.

[5]王燕, 李夢(mèng)軍. 檔案全文掃描的實(shí)踐與思考[J].數(shù)字與縮微影像, 2006(3):60-61.

[6]許呈辰. 檔案數(shù)字化過(guò)程中OCR技術(shù)的應(yīng)用[J].檔案管理, 2011(1):38-40.

[7]宮毅敏. 大檔案視角下的高校檔案信息化建設(shè)[J].山西檔案, 2017(5):77-79.

[8]陳曉媛. 信息化背景下高校檔案利用模式的發(fā)展與創(chuàng)新[J].山西檔案, 2016(5):47-49.

作者簡(jiǎn)介:王鋼領(lǐng),男,碩士,上海大學(xué)檔案館教師,主要從事檔案信息化的工作。

猜你喜歡
數(shù)字化
讓工業(yè)互聯(lián)網(wǎng)成為城市經(jīng)濟(jì)數(shù)字化的新引擎
“2021中國(guó)數(shù)字企業(yè)峰會(huì)”在太原舉行
揭示數(shù)字化轉(zhuǎn)型的內(nèi)在邏輯
從千人千面到千店千策
數(shù)字化起舞
廠家如何布局營(yíng)銷數(shù)字化
高中數(shù)學(xué)“一對(duì)一”數(shù)字化學(xué)習(xí)實(shí)踐探索
中國(guó)民族語(yǔ)言的標(biāo)準(zhǔn)與數(shù)字化
基于數(shù)字化校園的學(xué)科融合教學(xué)與實(shí)踐
高中數(shù)學(xué)“一對(duì)一”數(shù)字化學(xué)習(xí)實(shí)踐探索
湖口县| 仁布县| 尚义县| 务川| 韶关市| 罗源县| 久治县| 富平县| 海淀区| 阿拉善左旗| 德钦县| SHOW| 辽中县| 徐闻县| 巫山县| 罗平县| 西贡区| 吐鲁番市| 达拉特旗| 明溪县| 广平县| 延长县| 美姑县| 乌拉特前旗| 达拉特旗| 华坪县| 武冈市| 故城县| 潜江市| 新和县| 余姚市| 灵川县| 叶城县| 闸北区| 阳新县| 洱源县| 延边| 昌都县| 铜梁县| 岑溪市| 桐乡市|