基于DBnet和眾籌策略的氣象紙質(zhì)表格快速數(shù)字化方法及系統(tǒng)

2022-04-28 09:06韓瑞李強(qiáng)顧春利沈晨笛石明遠(yuǎn)

氣象科技 2022年2期

韓瑞李強(qiáng) 顧春利沈晨笛石明遠(yuǎn)

(1 國(guó)家氣象信息中心,北京 100081；2 清華大學(xué)環(huán)境學(xué)院,北京 100084；3 中國(guó)移動(dòng)智慧家庭運(yùn)營(yíng)中心,北京 100053；4 北京應(yīng)用氣象研究所,北京 100029；5 中國(guó)氣象局公共氣象服務(wù)中心,北京 100081)

引言

紙質(zhì)氣象表格資料是一種通過(guò)表格形式，記錄規(guī)定時(shí)間段內(nèi)各地氣象要素、大氣狀況及變化的數(shù)據(jù)[1]，是臺(tái)站觀測(cè)人員手工記錄的第一手原始?xì)庀笥^測(cè)資料?，F(xiàn)存于中國(guó)氣象局氣象檔案館最早的紙質(zhì)表格資料始于1796年法國(guó)的《氣象觀測(cè)公告》，至今已有200多年歷史。由于經(jīng)歷歷史滄桑和保管條件所限，氣象檔案館保存的紙質(zhì)氣象資料已普遍出現(xiàn)紙質(zhì)老化、變脆、破損以及字跡退化等現(xiàn)象。這些資料都是寶貴的歷史遺產(chǎn)，具有極其重要的科學(xué)和歷史價(jià)值，所以中國(guó)氣象局從2007年2月正式啟動(dòng)了氣象數(shù)字檔案(Digital Archive)項(xiàng)目，致力于紙質(zhì)氣象資料的數(shù)字化工作，至今仍在通過(guò)該項(xiàng)目對(duì)紙質(zhì)氣象表格資料進(jìn)行拯救、保護(hù)和開(kāi)發(fā)利用工作[2]。

數(shù)字檔案這一用語(yǔ)是20世紀(jì)90年代誕生的英譯詞匯[3]，日本將其定義為“收集、保存和提供各類數(shù)字信息資源的方法的總體”[4]；《圖書(shū)館情報(bào)學(xué)用語(yǔ)辭典(第五版)》中將其定義為：“以數(shù)字信息的形式記錄有形或無(wú)形的文化遺產(chǎn)，在進(jìn)行無(wú)變質(zhì)地永久保存的同時(shí)，提供互聯(lián)網(wǎng)使用。最初以紙質(zhì)資料數(shù)字化的形式生產(chǎn)的文化遺產(chǎn)也屬于數(shù)字檔案的對(duì)象?！盵5]在歐美國(guó)家，像這樣將文化遺產(chǎn)數(shù)字化的信息資源被稱為“數(shù)字遺產(chǎn)(Digital Heritage)”[6]。2012年，聯(lián)合國(guó)教科文組織公開(kāi)的“數(shù)字遺產(chǎn)”的定義是：“以計(jì)算機(jī)技術(shù)為基礎(chǔ)，具有永恒價(jià)值并應(yīng)為下一代保存的資料。”[7]而紙質(zhì)氣象表格資料的數(shù)字化就是數(shù)字遺產(chǎn)的一部分。

紙質(zhì)氣象表格是傳統(tǒng)的氣象觀測(cè)數(shù)據(jù)記載方式，歷史悠久，且現(xiàn)存待數(shù)字化資料多為手寫(xiě)，其中還不乏書(shū)寫(xiě)不規(guī)范、筆跡壓線、涂改等情況，而目前OCR(光學(xué)字符識(shí)別)技術(shù)手寫(xiě)識(shí)別精度遠(yuǎn)低于印刷體；同時(shí)由于歷史原因，許多觀測(cè)員在記錄氣象要素信息時(shí)，存在不少專有字符和約定記錄方式，OCR無(wú)法識(shí)別；所以目前氣象數(shù)字檔案工作方式相對(duì)原始，采用的主要技術(shù)包括：掃描技術(shù)、錄入技術(shù)、質(zhì)檢技術(shù)[8]。其中，掃描技術(shù)是人工將檔案原件利用掃描儀，以圖像方式存儲(chǔ)在計(jì)算機(jī)內(nèi)或其他存儲(chǔ)介質(zhì)上；錄入技術(shù)目前主要使用錄入員手工鍵入，將圖像上的數(shù)據(jù)錄入到電子表格或文件中；質(zhì)檢技術(shù)是將掃描后數(shù)字化的集成結(jié)果，通過(guò)人工抽取一定比例的樣本，進(jìn)行圖像與錄入結(jié)果的人工肉眼對(duì)比檢查，用以判斷檢查錄入的質(zhì)量。簡(jiǎn)而言之：紙質(zhì)氣象表格資料的數(shù)字檔案工作是一種采用人工主導(dǎo)掃描、錄入、質(zhì)檢的傳統(tǒng)方法。由于工作效率和數(shù)據(jù)安全等方面的要求，這種工作方式采取開(kāi)辟封閉場(chǎng)地，掃描、錄入和質(zhì)檢人員聚集于場(chǎng)地內(nèi)同場(chǎng)作業(yè)的模式。

突如其來(lái)的新冠疫情以及嚴(yán)格的防疫措施，讓原有的工作方式難以為繼；以酸雨資料為例，原需要13人的錄入團(tuán)隊(duì)，連續(xù)工作9個(gè)月完成約502320頁(yè)“一錄(錄入一次)”的工作任務(wù)；然根據(jù)復(fù)工后的防控要求，目前錄入團(tuán)隊(duì)人數(shù)驟減至7人，因而完成時(shí)間也延遲至22個(gè)月?，F(xiàn)實(shí)表明，現(xiàn)有工作模式已無(wú)法保障原有工作的進(jìn)度安排；同時(shí)，復(fù)工后為了追趕進(jìn)度，人工一錄出錯(cuò)率也由4.4%上升至6.9%，這與數(shù)字檔案0.3%的出錯(cuò)率要求存在顯著差距。

結(jié)合后疫情帶來(lái)的外在影響和手工錄入本身存在的問(wèn)題，急需另辟蹊徑，應(yīng)用先進(jìn)的技術(shù)方法改進(jìn)原有工作模式。

隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展，雖然在文字識(shí)別上還有一定距離，但基于機(jī)器學(xué)習(xí)的表格識(shí)別、字符定位技術(shù)日漸成熟，可以彌補(bǔ)原有霍夫變換等技術(shù)的不足，尤其是利用大數(shù)據(jù)訓(xùn)練最優(yōu)模塊，有效提高了表格線識(shí)別和字符定位的精度；而有向單連通鏈技術(shù)(DSCC)提供了一種能夠分離交疊字線的算法，一定程度上改善了手寫(xiě)體側(cè)壓表格線時(shí)的提取問(wèn)題[9]；這些都為傳統(tǒng)人工數(shù)字檔案工作中的各個(gè)環(huán)節(jié)注入了新的技術(shù)。

本文旨在提出一種快速數(shù)字化方法及系統(tǒng)，基于DBnet模型，結(jié)合有向單連通鏈技術(shù)，通過(guò)字符定位氣象紙質(zhì)表格資料；進(jìn)行碎片處理，以“眾籌”方式完成圖像數(shù)字化和檢驗(yàn)過(guò)程；通過(guò)分段式處理的方法，解放原有手工錄入作業(yè)，最終完成氣象紙質(zhì)表格類資料的數(shù)字檔案工作。

1 面臨的問(wèn)題和解決思路

1.1 面臨問(wèn)題

目前，氣象紙質(zhì)表格資料無(wú)法應(yīng)用自動(dòng)識(shí)別錄入技術(shù)，主要源于2個(gè)問(wèn)題：①手寫(xiě)體對(duì)OCR技術(shù)的應(yīng)用存在精度限制：根據(jù)2020年《紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識(shí)別(OCR)工作規(guī)范》[10]要求，手寫(xiě)體識(shí)別精度的合格標(biāo)準(zhǔn)是大于80%，疫情之前的人工錄入數(shù)字檔案最高出錯(cuò)率為4.4%；而目前基于深度學(xué)習(xí)的手寫(xiě)體識(shí)別精度最高可以達(dá)到93.5%[11]，也就是說(shuō)手寫(xiě)體自動(dòng)識(shí)別的最低出錯(cuò)率是6.5%，較人工錄入為低。由于氣象紙質(zhì)表格資料多為手寫(xiě)體，以酸雨氣象表格資料為例，需錄入共計(jì)502320頁(yè)。其中有482730頁(yè)為手寫(xiě)體；約占總數(shù)的96.1%；所以這也是之前數(shù)字檔案仍為人工錄入和抽查工作模式，而沒(méi)有采用自動(dòng)化技術(shù)的原因之一。②表格類型眾多分類復(fù)雜：紙質(zhì)表格資料隨著對(duì)觀測(cè)要素的不斷細(xì)化，記錄條目也不斷增加；再以酸雨資料為例，涉及數(shù)字檔案工作的資料包括酸雨觀測(cè)記錄簿(TB0)和酸雨月報(bào)表(TB1)2類，資料橫跨1982—2018年，共計(jì)存在過(guò)的表格種類就有32種；圖1表示各省酸雨月報(bào)表應(yīng)用表格類型及轉(zhuǎn)換次數(shù),由圖可得，各省使用不同類型表格種類最多為10種；除了應(yīng)用種類不統(tǒng)一以外，各省不同類型的表格應(yīng)用時(shí)段也不統(tǒng)一；由類型轉(zhuǎn)換次數(shù)可知，最多轉(zhuǎn)換51次，這給基于深度學(xué)習(xí)的識(shí)別訓(xùn)練工作帶來(lái)很大難度。

圖1 各省酸雨月報(bào)表應(yīng)用表格類型及轉(zhuǎn)換次數(shù)

1.2 解決思路

基于目前現(xiàn)狀，手寫(xiě)體識(shí)別準(zhǔn)確性是數(shù)字檔案工作無(wú)法自動(dòng)化處理的瓶頸之一，那么是否可以進(jìn)行“分段”處理？本文的解決思路是將人工數(shù)字化工作劃分成“碎片、錄入、自?！?，由“字符定位、字線分離” 等自動(dòng)化方式實(shí)現(xiàn)碎片過(guò)程，通過(guò)“眾籌”方式完成錄入、自校過(guò)程。其中字符定位、字線分離方案，選取了深度學(xué)習(xí)中DBnet模型，結(jié)合DSCC算法[12]完成碎片準(zhǔn)備工作。

1.2.1 DBnet模型字符定位

DBnet模型[13-17]字符定位采用了基于語(yǔ)義分割的方法。即將待數(shù)字化的圖像按照不同比例輸入到圖像訓(xùn)練集中，經(jīng)過(guò)特征提取和上采樣合并操作后得到圖2中全藍(lán)色的特征圖F，然后使用F預(yù)測(cè)出概率圖P；使用F預(yù)測(cè)出閾值圖T，最后通過(guò)P和T計(jì)算出文本框[18-20]。具體步驟:①采集字符定位數(shù)據(jù)集,DBnet模型的訓(xùn)練依賴于大量的數(shù)據(jù)，因此制作字符定位數(shù)據(jù)集是至關(guān)重要的一步。隨機(jī)選取掃描獲取的表格文檔圖像，并進(jìn)行標(biāo)簽的勾畫(huà)，對(duì)要識(shí)別的字符部分進(jìn)行標(biāo)注，使每一張圖像對(duì)應(yīng)一張字符標(biāo)注后標(biāo)簽。②基于深度學(xué)習(xí)算法，構(gòu)建字符提取和定位的DBnet模型。本步驟中，以Tensorflow平臺(tái)為開(kāi)發(fā)環(huán)境，搭建DBnet模型，對(duì)字符定位數(shù)據(jù)集進(jìn)行學(xué)習(xí)和訓(xùn)練。③基于所采信的字符定位數(shù)據(jù)集，對(duì)DBnet模型進(jìn)行訓(xùn)練。④采用訓(xùn)練獲得的DBnet模型，對(duì)所述表格文檔圖像進(jìn)行字符定位。

圖2 DBnet模型

1.2.2 DSCC算法字線分離

有向單連通鏈分為橫向單連通鏈和縱向單連通鏈2種,分別用于檢測(cè)橫線和豎線[11]，對(duì)輸入圖像進(jìn)行有向單連通鏈的提取，得到大量的單連通鏈，通過(guò)判斷多個(gè)游程項(xiàng)是否組成一個(gè)序列，來(lái)判斷是否單連通鏈，及判斷表格線，進(jìn)而完成字線分離。具體步驟如圖3所示。

圖3 DSCC算法步驟

2 方法和流程

本文采用深度學(xué)習(xí)DBnet模型，從字符本身出發(fā)，自主學(xué)習(xí)和挖掘字符特征，結(jié)合字符多尺度特征，獲取更精準(zhǔn)的字符位置，實(shí)現(xiàn)表格字符的高精度定位。同時(shí)應(yīng)用DSCC算法進(jìn)行字線分離。按照規(guī)定的圖像命名規(guī)范，對(duì)數(shù)字化圖像進(jìn)行分割裁剪并用訓(xùn)練后的模型進(jìn)行識(shí)別并存儲(chǔ)，完成碎片化處理流程。采用同一碎片多用戶分組進(jìn)行統(tǒng)計(jì)，即通過(guò)眾籌式人工輸入對(duì)字符進(jìn)行錄入工作，完成數(shù)字化處理流程；根據(jù)批量處理，直至形成最終唯一的統(tǒng)計(jì)結(jié)果，完成了氣象紙質(zhì)表格資料的數(shù)字檔案工作。

圖4是氣象紙質(zhì)表格資料快速數(shù)字化系統(tǒng)的方案流程圖，所述快速數(shù)字化系統(tǒng)涉及如下部分：表格文檔圖像獲取、圖像預(yù)處理、表格線提取、字符定位及提取、圖像切割、眾籌式錄入、校驗(yàn)及輸出數(shù)字化結(jié)果?？焖贁?shù)字化系統(tǒng)流程步驟：①表格文檔圖像獲取，獲取所述氣象紙質(zhì)表格文檔的圖像，一般通過(guò)掃描獲取表格文檔圖像。②圖像預(yù)處理, 對(duì)表格文檔圖像進(jìn)行預(yù)處理,包括對(duì)獲取的表格文檔圖像進(jìn)行降噪、傾斜校正等處理。同時(shí)，本文采用中值濾波算法對(duì)表格文檔圖像降噪，獲得平滑的表格文檔圖像。③字符定位,基于深度學(xué)習(xí)的DBnet模型，實(shí)現(xiàn)表格字符的定位。④表格線提取,從完成了上述處理的表格文檔圖像中提取表格線?；贒SCC算法提取字線分離，并對(duì)其進(jìn)行優(yōu)化。⑤對(duì)完成了上述處理的表格文檔圖像進(jìn)行切割，并基于切割后的子圖像(圖像碎片)發(fā)起眾籌，對(duì)每個(gè)子圖像進(jìn)行文字錄入。⑥搭建可視化展示框架，基于數(shù)據(jù)中心相關(guān)標(biāo)準(zhǔn)和要求設(shè)置統(tǒng)一訪問(wèn)接口，通過(guò)統(tǒng)一訪問(wèn)接口為用戶提供數(shù)據(jù)獲取功能，包括表格文檔圖像路徑查詢、特殊符號(hào)圖標(biāo)查詢、各省紙質(zhì)表格文檔圖像匯總情況查詢等。⑦當(dāng)某一子圖像的眾籌錄入次數(shù)大于A次，且一致率大于a%時(shí)，確定該子圖像眾籌錄入通過(guò)檢驗(yàn)，將錄入結(jié)果存儲(chǔ)于臨時(shí)文檔中。若校驗(yàn)不通過(guò)，則返回錄入操作重新錄入。⑧遍歷所有子圖像且全部校驗(yàn)通過(guò)時(shí)，將所有錄入結(jié)果發(fā)送給輸出文件,作為當(dāng)前氣象紙質(zhì)表格文檔的數(shù)字化處理結(jié)果。

圖4 氣象紙質(zhì)表格資料快速數(shù)字化系統(tǒng)的方案流程

3 系統(tǒng)設(shè)計(jì)

根據(jù)上述的8個(gè)步驟進(jìn)行功能分類，最終將其封裝到3個(gè)部分中，分別為：碎片處理、登錄系統(tǒng)和分析庫(kù)。在應(yīng)用層，利用HTML5和CSS3的優(yōu)勢(shì)，同時(shí)兼容多類型、多版本瀏覽器訪問(wèn)，具有跨平臺(tái)、易拓展、兼容性好等優(yōu)勢(shì)；在服務(wù)層，使用Rest和Web Service相結(jié)合的方式提供統(tǒng)一訪問(wèn)接口；在數(shù)據(jù)層，基于Oracle數(shù)據(jù)庫(kù)存儲(chǔ)，提供數(shù)據(jù)獲取功能，包括圖片信息查詢、數(shù)字化圖像匯總情況查詢等，根據(jù)不同的應(yīng)用模式和開(kāi)發(fā)運(yùn)行環(huán)境，提供多種服務(wù)方式，以URI方式在頁(yè)面中直接查詢接口，數(shù)據(jù)實(shí)現(xiàn)前后臺(tái)交互使用，并以統(tǒng)一的JSON、數(shù)組格式封裝返回?cái)?shù)據(jù)，保障數(shù)據(jù)的標(biāo)準(zhǔn)化和兼容性。具體封裝和系統(tǒng)架構(gòu)如圖5、6所示。

圖5 功能封裝

3.1 碎片處理

碎片處理涉及圖像預(yù)處理、表格檢測(cè)、圖像切割、圖像修正4個(gè)部分。其中：圖像預(yù)處理是指在表格文檔掃描成圖像的過(guò)程中，或多或少會(huì)出現(xiàn)一定角度的傾斜。這個(gè)問(wèn)題會(huì)直接給單元格定位、字符定位等造成困難，因此對(duì)圖像應(yīng)用霍夫變換方法進(jìn)行圖像的傾斜校正。預(yù)處理部分還應(yīng)用了中值濾波算法對(duì)表格圖像降噪，獲得平滑的表格圖像。表格檢測(cè)采用DBnet字符定位技術(shù)；圖像切割則是根據(jù)定位結(jié)果進(jìn)行圖像碎片化處理；圖像修正就是對(duì)于碎片后圖像中有表格線的地方，應(yīng)用DSCC算法進(jìn)行字線分離。技術(shù)路線及部分實(shí)現(xiàn)界面如圖7所示。

圖7 技術(shù)路線及部分實(shí)現(xiàn)界面

3.2 登錄系統(tǒng)及分析庫(kù)

登錄系統(tǒng)及分析庫(kù)的流程與實(shí)現(xiàn)如圖8所示。從碎片處理的最后一個(gè)環(huán)節(jié)“待數(shù)字化圖片庫(kù)”開(kāi)始，步驟如下：①設(shè)置氣象特定標(biāo)識(shí)庫(kù)，將已知的氣象符號(hào)以圖片的形式放入標(biāo)識(shí)庫(kù)，并將符號(hào)意義和圖片建立映射關(guān)系；基于關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ)，提供符號(hào)圖標(biāo)查詢獲取功能。②設(shè)計(jì)數(shù)據(jù)庫(kù)表，將分割的圖片按照?qǐng)D片id、圖片名、圖片路徑等信息進(jìn)行入庫(kù)；同時(shí)對(duì)數(shù)字化校驗(yàn)數(shù)據(jù)錄入進(jìn)行庫(kù)表設(shè)計(jì)。為使檢索效率更加高效，在存儲(chǔ)數(shù)據(jù)時(shí)，按照實(shí)際業(yè)務(wù)數(shù)據(jù)進(jìn)行分表分類存儲(chǔ)；同時(shí)編寫(xiě)設(shè)計(jì)用戶校驗(yàn)與統(tǒng)計(jì)的處理方法。③登陸系統(tǒng)，在Linux服務(wù)器上搭建圖片訪問(wèn)服務(wù)器，統(tǒng)一訪問(wèn)接口，搭建可視化展示框架。④錄入結(jié)果對(duì)比及統(tǒng)計(jì)。

圖8 登錄系統(tǒng)及分析庫(kù)的流程與實(shí)現(xiàn)界面

4 試驗(yàn)與結(jié)果

快速數(shù)字化系統(tǒng)通過(guò)嵌入其他網(wǎng)站，以驗(yàn)證碼的形式向系統(tǒng)用戶展現(xiàn)，通過(guò)系統(tǒng)全部用戶的登錄行為實(shí)現(xiàn)“眾籌錄入”。本文中網(wǎng)站選取“全國(guó)數(shù)據(jù)資源在線匯交平臺(tái)”(http://idata.com/datasource/login.html，簡(jiǎn)稱：匯交系統(tǒng))作為試驗(yàn)平臺(tái)，對(duì)快速數(shù)字檔案系統(tǒng)進(jìn)行測(cè)試，并對(duì)數(shù)字檔案的正確性進(jìn)行測(cè)試，對(duì)時(shí)效性進(jìn)行預(yù)估判斷。

4.1 輸出結(jié)果

圖9是完成上述處理過(guò)程后的酸雨月報(bào)表，其中，第1個(gè)紅框截取原始掃描圖像；中間為數(shù)字檔案的錄入結(jié)果；第2個(gè)紅框?qū)υ紙D像碎片處理后的切片圖。通過(guò)快速數(shù)字化系統(tǒng)，當(dāng)數(shù)據(jù)錄入次數(shù)和一致率達(dá)到設(shè)定閾值后，確認(rèn)錄入結(jié)果，該表快速數(shù)字化處理工作完成。

圖9 數(shù)字檔案后的酸雨月報(bào)表

4.2 正確性驗(yàn)證

由于在實(shí)際字符定位與字線分離的技術(shù)中，有可能有碎片不完整的情況產(chǎn)生，所以在登錄系統(tǒng)界面中，設(shè)計(jì)了圖片不完整的選項(xiàng)(圖10)，以便用戶眾籌錄入中出現(xiàn)上述原因，作為反饋改進(jìn)機(jī)制。本測(cè)試中有效錄入數(shù)計(jì)算如下：

圖10 圖片不完整的反饋機(jī)制

有效錄入數(shù)=碎片總數(shù)-圖片不完整數(shù)

(1)

一錄正確率是指對(duì)圖片進(jìn)行錄入1次時(shí)的正確性，所以一錄正確率計(jì)算如下：

(2)

事實(shí)上，本系統(tǒng)在設(shè)計(jì)錄入次數(shù)的同時(shí)，還設(shè)計(jì)了多次錄入同一碎片的一致率，對(duì)同一碎片的多次錄入，錄入結(jié)果之間是一個(gè)驗(yàn)證的過(guò)程，同時(shí)也是一個(gè)查錯(cuò)的反饋機(jī)制，通過(guò)這種方式既可以提高正確率，也可以增加數(shù)字檔案工作的準(zhǔn)確性。

通過(guò)試驗(yàn)結(jié)果可以看出(表1)：測(cè)試樣本為2056張碎片，除由于圖片碎片處理不完整導(dǎo)致43張圖片無(wú)法識(shí)別外，其余共有2013張有效錄入張數(shù)；

表1 測(cè)試結(jié)果

其中，有2007張圖片正確錄入；一錄正確率為99.70%，滿足了數(shù)字化工作小于0.3%的出錯(cuò)率。對(duì)不正確的圖片，再次發(fā)起眾籌錄入及正確性驗(yàn)證；經(jīng)過(guò)多次錄入，正確性可達(dá)到100%。

4.3 時(shí)效性預(yù)估

表2是人工數(shù)字化工作在疫情前后與快速數(shù)字化系統(tǒng)在完成時(shí)效上的對(duì)比分析。樣本選自酸雨數(shù)字檔案錄入任務(wù)，共計(jì)需要完成502320頁(yè)的酸雨紙質(zhì)表格圖像資料。

表2 人工和系統(tǒng)完成數(shù)字檔案工作的對(duì)比

人工數(shù)字化公司需要對(duì)掃描后的圖像資料完成手工錄入；于2019年10月啟動(dòng)工作任務(wù)，當(dāng)時(shí)預(yù)計(jì)9個(gè)月工期，但是之后由于疫情原因及防控要求，更改了原定工作任務(wù)安排由“全部錄入”改為“錄入其中30萬(wàn)頁(yè)”，所以該項(xiàng)工作于2021年7月結(jié)束。

本測(cè)試以快速數(shù)字化系統(tǒng)正式運(yùn)行預(yù)估，快速數(shù)字化系統(tǒng)和人工錄入工作一樣，也是對(duì)502320頁(yè)完成錄入工作。首先要進(jìn)行碎片處理，處理后約60278400張碎片，將其導(dǎo)入?yún)R交系統(tǒng)眾籌錄入；快速數(shù)字化搭載的匯交系統(tǒng)，用戶涵蓋全國(guó)31個(gè)省，涉及國(guó)家級(jí)、省級(jí)填報(bào)人員2464人，其中，基層臺(tái)站為7×24 h倒班值班，若按照2423人次測(cè)算，令網(wǎng)站登錄時(shí)效為10 min，則平均每周預(yù)計(jì)錄入碎片為2423人×6次×24 h×7 d+41人×6次×8 h×5 d=2452224條，全部完成耗時(shí)為60278400÷2452224≈24.6周≈7個(gè)月。時(shí)效遠(yuǎn)高于人工數(shù)字化處理工作。

4.4 安全性

氣象數(shù)據(jù)安全是氣象網(wǎng)絡(luò)安全的重要組成部分，關(guān)于本方案的安全性問(wèn)題，也做了相應(yīng)的研究工作，結(jié)論認(rèn)為：方案采用圖像最小碎片化、待錄入圖像混淆和調(diào)用源安全審計(jì)3種方法，可以有效保障氣象圖像數(shù)據(jù)資料的安全性。

雖然本方案將碎片化處理后的圖像數(shù)據(jù)提供給參與眾籌識(shí)別的網(wǎng)上公眾，但參與眾籌識(shí)別者欲借助圖像碎片拼接合成獲取原始信息，卻存在巨大的困難。

首先，本方案的圖像最小碎片化方法將待處理圖像數(shù)據(jù)進(jìn)行最小化切分，以本方案中酸雨數(shù)字化為例，約502320頁(yè)資料(每頁(yè)120個(gè)碎片圖像)全部碎片化后形成近60278400張碎片，而還原1張?jiān)急硇枰钠唇臃桨笖?shù)如下所示：

(3)

其中，n為全部碎片后形成的碎片張數(shù)，r為每頁(yè)資料碎片后的碎片張數(shù)。

因此，通過(guò)圖像碎片拼接還原來(lái)得到原始表格中的完整信息，需要巨大的計(jì)算處理能力，以目前計(jì)算機(jī)體系架構(gòu)所形成的計(jì)算處理能力而言，這是一個(gè)天文數(shù)字，幾乎不可能完成。故圖像最小碎片化方法保障了碎片化后的圖像數(shù)據(jù)已經(jīng)喪失其實(shí)際數(shù)據(jù)分析意義和價(jià)值。同時(shí)，待錄入圖像混淆方法將切分后的多年、多站點(diǎn)碎片化圖像數(shù)據(jù)進(jìn)行隨機(jī)編碼和混淆，破壞原有碎片化數(shù)據(jù)間的順序和關(guān)聯(lián)性。這也進(jìn)一步增加了拼接還原的難度。最后，調(diào)用源安全審計(jì)方法將判斷調(diào)用方的IP源地址等信息，對(duì)可疑的調(diào)用地址進(jìn)行自動(dòng)封堵和服務(wù)拒絕?？蓪?duì)行為不軌者進(jìn)行主動(dòng)防御。綜上，本方案的氣象數(shù)據(jù)安全問(wèn)題是可以保證的。

5 結(jié)論與討論

本文基于互聯(lián)網(wǎng)思維模式，使用人工智能技術(shù)手段，提出了一種針對(duì)氣象紙質(zhì)表格文檔的快速數(shù)字化方法及系統(tǒng)；利用分段式處理的方法，解放原有手工錄入作業(yè)，最終完成數(shù)字檔案工作。

經(jīng)酸雨紙質(zhì)表格圖像資料代入系統(tǒng)驗(yàn)證表明：①快速數(shù)字化系統(tǒng)實(shí)驗(yàn)樣本的一錄正確性，正確率大于99.7%；達(dá)到數(shù)字化工作容錯(cuò)率0.3%的標(biāo)準(zhǔn)；②快速數(shù)字化系統(tǒng)實(shí)驗(yàn)樣本的時(shí)效性，約為目前人工處理時(shí)長(zhǎng)的1/3；同時(shí)比疫情前人工處理時(shí)效也提高了22.2%。綜上，該系統(tǒng)在確保了數(shù)據(jù)正確性的同時(shí)；有效提高了工作效率，實(shí)現(xiàn)了氣象紙質(zhì)表格資料快速形成數(shù)字檔案的目標(biāo)；特別在新冠疫情常態(tài)化工作場(chǎng)景下，降低了傳統(tǒng)數(shù)字化的人工聚集風(fēng)險(xiǎn)，為數(shù)字檔案工作提供了新的思路。

本文涉及的方法及系統(tǒng)在正確性和時(shí)效性上還有可改進(jìn)的空間。①錄入正確性方面：在測(cè)試中，通過(guò)對(duì)“圖片不完整”情況的分析，認(rèn)為DBnet算法對(duì)不規(guī)則表格及字線的提取仍然存在一些問(wèn)題，還需對(duì)剪切圖片不完整的完整數(shù)字化圖像再訓(xùn)練，并對(duì)模型參數(shù)進(jìn)行調(diào)整和完善；②錄入時(shí)效性方面：本系統(tǒng)時(shí)效性的改進(jìn)主要依賴網(wǎng)站的訪問(wèn)量，本文以“匯交系統(tǒng)”進(jìn)行測(cè)算，若以月均訪問(wèn)量大于1500萬(wàn)次的中國(guó)氣象數(shù)據(jù)網(wǎng)(http://data.cma.cn)為例測(cè)算，預(yù)計(jì)4.1個(gè)月就完成本研究工作；若各網(wǎng)站多平臺(tái)并行，時(shí)效還可以再提高。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡