韓瑞 李強(qiáng) 顧春利 沈晨笛 石明遠(yuǎn)
(1 國(guó)家氣象信息中心,北京 100081;2 清華大學(xué)環(huán)境學(xué)院,北京 100084;3 中國(guó)移動(dòng)智慧家庭運(yùn)營(yíng)中心,北京 100053;4 北京應(yīng)用氣象研究所,北京 100029;5 中國(guó)氣象局公共氣象服務(wù)中心,北京 100081)
紙質(zhì)氣象表格資料是一種通過(guò)表格形式,記錄規(guī)定時(shí)間段內(nèi)各地氣象要素、大氣狀況及變化的數(shù)據(jù)[1],是臺(tái)站觀測(cè)人員手工記錄的第一手原始?xì)庀笥^測(cè)資料?,F(xiàn)存于中國(guó)氣象局氣象檔案館最早的紙質(zhì)表格資料始于1796年法國(guó)的《氣象觀測(cè)公告》,至今已有200多年歷史。由于經(jīng)歷歷史滄桑和保管條件所限,氣象檔案館保存的紙質(zhì)氣象資料已普遍出現(xiàn)紙質(zhì)老化、變脆、破損以及字跡退化等現(xiàn)象。這些資料都是寶貴的歷史遺產(chǎn),具有極其重要的科學(xué)和歷史價(jià)值,所以中國(guó)氣象局從2007年2月正式啟動(dòng)了氣象數(shù)字檔案(Digital Archive)項(xiàng)目,致力于紙質(zhì)氣象資料的數(shù)字化工作,至今仍在通過(guò)該項(xiàng)目對(duì)紙質(zhì)氣象表格資料進(jìn)行拯救、保護(hù)和開(kāi)發(fā)利用工作[2]。
數(shù)字檔案這一用語(yǔ)是20世紀(jì)90年代誕生的英譯詞匯[3],日本將其定義為“收集、保存和提供各類數(shù)字信息資源的方法的總體”[4];《圖書(shū)館情報(bào)學(xué)用語(yǔ)辭典(第五版)》中將其定義為:“以數(shù)字信息的形式記錄有形或無(wú)形的文化遺產(chǎn),在進(jìn)行無(wú)變質(zhì)地永久保存的同時(shí),提供互聯(lián)網(wǎng)使用。最初以紙質(zhì)資料數(shù)字化的形式生產(chǎn)的文化遺產(chǎn)也屬于數(shù)字檔案的對(duì)象?!盵5]在歐美國(guó)家,像這樣將文化遺產(chǎn)數(shù)字化的信息資源被稱為“數(shù)字遺產(chǎn)(Digital Heritage)”[6]。2012年,聯(lián)合國(guó)教科文組織公開(kāi)的“數(shù)字遺產(chǎn)”的定義是:“以計(jì)算機(jī)技術(shù)為基礎(chǔ),具有永恒價(jià)值并應(yīng)為下一代保存的資料。”[7]而紙質(zhì)氣象表格資料的數(shù)字化就是數(shù)字遺產(chǎn)的一部分。
紙質(zhì)氣象表格是傳統(tǒng)的氣象觀測(cè)數(shù)據(jù)記載方式,歷史悠久,且現(xiàn)存待數(shù)字化資料多為手寫(xiě),其中還不乏書(shū)寫(xiě)不規(guī)范、筆跡壓線、涂改等情況,而目前OCR(光學(xué)字符識(shí)別)技術(shù)手寫(xiě)識(shí)別精度遠(yuǎn)低于印刷體;同時(shí)由于歷史原因,許多觀測(cè)員在記錄氣象要素信息時(shí),存在不少專有字符和約定記錄方式,OCR無(wú)法識(shí)別;所以目前氣象數(shù)字檔案工作方式相對(duì)原始,采用的主要技術(shù)包括:掃描技術(shù)、錄入技術(shù)、質(zhì)檢技術(shù)[8]。其中,掃描技術(shù)是人工將檔案原件利用掃描儀,以圖像方式存儲(chǔ)在計(jì)算機(jī)內(nèi)或其他存儲(chǔ)介質(zhì)上;錄入技術(shù)目前主要使用錄入員手工鍵入,將圖像上的數(shù)據(jù)錄入到電子表格或文件中;質(zhì)檢技術(shù)是將掃描后數(shù)字化的集成結(jié)果,通過(guò)人工抽取一定比例的樣本,進(jìn)行圖像與錄入結(jié)果的人工肉眼對(duì)比檢查,用以判斷檢查錄入的質(zhì)量。簡(jiǎn)而言之:紙質(zhì)氣象表格資料的數(shù)字檔案工作是一種采用人工主導(dǎo)掃描、錄入、質(zhì)檢的傳統(tǒng)方法。由于工作效率和數(shù)據(jù)安全等方面的要求,這種工作方式采取開(kāi)辟封閉場(chǎng)地,掃描、錄入和質(zhì)檢人員聚集于場(chǎng)地內(nèi)同場(chǎng)作業(yè)的模式。
突如其來(lái)的新冠疫情以及嚴(yán)格的防疫措施,讓原有的工作方式難以為繼;以酸雨資料為例,原需要13人的錄入團(tuán)隊(duì),連續(xù)工作9個(gè)月完成約502320頁(yè)“一錄(錄入一次)”的工作任務(wù);然根據(jù)復(fù)工后的防控要求,目前錄入團(tuán)隊(duì)人數(shù)驟減至7人,因而完成時(shí)間也延遲至22個(gè)月?,F(xiàn)實(shí)表明,現(xiàn)有工作模式已無(wú)法保障原有工作的進(jìn)度安排;同時(shí),復(fù)工后為了追趕進(jìn)度,人工一錄出錯(cuò)率也由4.4%上升至6.9%,這與數(shù)字檔案0.3%的出錯(cuò)率要求存在顯著差距。
結(jié)合后疫情帶來(lái)的外在影響和手工錄入本身存在的問(wèn)題,急需另辟蹊徑,應(yīng)用先進(jìn)的技術(shù)方法改進(jìn)原有工作模式。
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,雖然在文字識(shí)別上還有一定距離,但基于機(jī)器學(xué)習(xí)的表格識(shí)別、字符定位技術(shù)日漸成熟,可以彌補(bǔ)原有霍夫變換等技術(shù)的不足,尤其是利用大數(shù)據(jù)訓(xùn)練最優(yōu)模塊,有效提高了表格線識(shí)別和字符定位的精度;而有向單連通鏈技術(shù)(DSCC)提供了一種能夠分離交疊字線的算法,一定程度上改善了手寫(xiě)體側(cè)壓表格線時(shí)的提取問(wèn)題[9];這些都為傳統(tǒng)人工數(shù)字檔案工作中的各個(gè)環(huán)節(jié)注入了新的技術(shù)。
本文旨在提出一種快速數(shù)字化方法及系統(tǒng),基于DBnet模型,結(jié)合有向單連通鏈技術(shù),通過(guò)字符定位氣象紙質(zhì)表格資料;進(jìn)行碎片處理,以“眾籌”方式完成圖像數(shù)字化和檢驗(yàn)過(guò)程;通過(guò)分段式處理的方法,解放原有手工錄入作業(yè),最終完成氣象紙質(zhì)表格類資料的數(shù)字檔案工作。
目前,氣象紙質(zhì)表格資料無(wú)法應(yīng)用自動(dòng)識(shí)別錄入技術(shù),主要源于2個(gè)問(wèn)題:①手寫(xiě)體對(duì)OCR技術(shù)的應(yīng)用存在精度限制:根據(jù)2020年《紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識(shí)別(OCR)工作規(guī)范》[10]要求,手寫(xiě)體識(shí)別精度的合格標(biāo)準(zhǔn)是大于80%,疫情之前的人工錄入數(shù)字檔案最高出錯(cuò)率為4.4%;而目前基于深度學(xué)習(xí)的手寫(xiě)體識(shí)別精度最高可以達(dá)到93.5%[11],也就是說(shuō)手寫(xiě)體自動(dòng)識(shí)別的最低出錯(cuò)率是6.5%,較人工錄入為低。由于氣象紙質(zhì)表格資料多為手寫(xiě)體,以酸雨氣象表格資料為例,需錄入共計(jì)502320頁(yè)。其中有482730頁(yè)為手寫(xiě)體;約占總數(shù)的96.1%;所以這也是之前數(shù)字檔案仍為人工錄入和抽查工作模式,而沒(méi)有采用自動(dòng)化技術(shù)的原因之一。②表格類型眾多分類復(fù)雜:紙質(zhì)表格資料隨著對(duì)觀測(cè)要素的不斷細(xì)化,記錄條目也不斷增加;再以酸雨資料為例,涉及數(shù)字檔案工作的資料包括酸雨觀測(cè)記錄簿(TB0)和酸雨月報(bào)表(TB1)2類,資料橫跨1982—2018年,共計(jì)存在過(guò)的表格種類就有32種;圖1表示各省酸雨月報(bào)表應(yīng)用表格類型及轉(zhuǎn)換次數(shù),由圖可得,各省使用不同類型表格種類最多為10種;除了應(yīng)用種類不統(tǒng)一以外,各省不同類型的表格應(yīng)用時(shí)段也不統(tǒng)一;由類型轉(zhuǎn)換次數(shù)可知,最多轉(zhuǎn)換51次,這給基于深度學(xué)習(xí)的識(shí)別訓(xùn)練工作帶來(lái)很大難度。
圖1 各省酸雨月報(bào)表應(yīng)用表格類型及轉(zhuǎn)換次數(shù)
基于目前現(xiàn)狀,手寫(xiě)體識(shí)別準(zhǔn)確性是數(shù)字檔案工作無(wú)法自動(dòng)化處理的瓶頸之一,那么是否可以進(jìn)行“分段”處理?本文的解決思路是將人工數(shù)字化工作劃分成“碎片、錄入、自?!?,由“字符定位、字線分離” 等自動(dòng)化方式實(shí)現(xiàn)碎片過(guò)程,通過(guò)“眾籌”方式完成錄入、自校過(guò)程。其中字符定位、字線分離方案,選取了深度學(xué)習(xí)中DBnet模型,結(jié)合DSCC算法[12]完成碎片準(zhǔn)備工作。
1.2.1 DBnet模型字符定位
DBnet模型[13-17]字符定位采用了基于語(yǔ)義分割的方法。即將待數(shù)字化的圖像按照不同比例輸入到圖像訓(xùn)練集中,經(jīng)過(guò)特征提取和上采樣合并操作后得到圖2中全藍(lán)色的特征圖F,然后使用F預(yù)測(cè)出概率圖P;使用F預(yù)測(cè)出閾值圖T,最后通過(guò)P和T計(jì)算出文本框[18-20]。具體步驟:①采集字符定位數(shù)據(jù)集,DBnet模型的訓(xùn)練依賴于大量的數(shù)據(jù),因此制作字符定位數(shù)據(jù)集是至關(guān)重要的一步。隨機(jī)選取掃描獲取的表格文檔圖像,并進(jìn)行標(biāo)簽的勾畫(huà),對(duì)要識(shí)別的字符部分進(jìn)行標(biāo)注,使每一張圖像對(duì)應(yīng)一張字符標(biāo)注后標(biāo)簽。②基于深度學(xué)習(xí)算法,構(gòu)建字符提取和定位的DBnet模型。本步驟中,以Tensorflow平臺(tái)為開(kāi)發(fā)環(huán)境,搭建DBnet模型,對(duì)字符定位數(shù)據(jù)集進(jìn)行學(xué)習(xí)和訓(xùn)練。③基于所采信的字符定位數(shù)據(jù)集,對(duì)DBnet模型進(jìn)行訓(xùn)練。④采用訓(xùn)練獲得的DBnet模型,對(duì)所述表格文檔圖像進(jìn)行字符定位。
圖2 DBnet模型
1.2.2 DSCC算法字線分離
有向單連通鏈分為橫向單連通鏈和縱向單連通鏈2種,分別用于檢測(cè)橫線和豎線[11],對(duì)輸入圖像進(jìn)行有向單連通鏈的提取,得到大量的單連通鏈,通過(guò)判斷多個(gè)游程項(xiàng)是否組成一個(gè)序列,來(lái)判斷是否單連通鏈,及判斷表格線,進(jìn)而完成字線分離。具體步驟如圖3所示。
圖3 DSCC算法步驟
本文采用深度學(xué)習(xí)DBnet模型,從字符本身出發(fā),自主學(xué)習(xí)和挖掘字符特征,結(jié)合字符多尺度特征,獲取更精準(zhǔn)的字符位置,實(shí)現(xiàn)表格字符的高精度定位。同時(shí)應(yīng)用DSCC算法進(jìn)行字線分離。按照規(guī)定的圖像命名規(guī)范,對(duì)數(shù)字化圖像進(jìn)行分割裁剪并用訓(xùn)練后的模型進(jìn)行識(shí)別并存儲(chǔ),完成碎片化處理流程。采用同一碎片多用戶分組進(jìn)行統(tǒng)計(jì),即通過(guò)眾籌式人工輸入對(duì)字符進(jìn)行錄入工作,完成數(shù)字化處理流程;根據(jù)批量處理,直至形成最終唯一的統(tǒng)計(jì)結(jié)果,完成了氣象紙質(zhì)表格資料的數(shù)字檔案工作。
圖4是氣象紙質(zhì)表格資料快速數(shù)字化系統(tǒng)的方案流程圖,所述快速數(shù)字化系統(tǒng)涉及如下部分:表格文檔圖像獲取、圖像預(yù)處理、表格線提取、字符定位及提取、圖像切割、眾籌式錄入、校驗(yàn)及輸出數(shù)字化結(jié)果??焖贁?shù)字化系統(tǒng)流程步驟:①表格文檔圖像獲取,獲取所述氣象紙質(zhì)表格文檔的圖像,一般通過(guò)掃描獲取表格文檔圖像。②圖像預(yù)處理, 對(duì)表格文檔圖像進(jìn)行預(yù)處理,包括對(duì)獲取的表格文檔圖像進(jìn)行降噪、傾斜校正等處理。同時(shí),本文采用中值濾波算法對(duì)表格文檔圖像降噪,獲得平滑的表格文檔圖像。③字符定位,基于深度學(xué)習(xí)的DBnet模型,實(shí)現(xiàn)表格字符的定位。④表格線提取,從完成了上述處理的表格文檔圖像中提取表格線?;贒SCC算法提取字線分離,并對(duì)其進(jìn)行優(yōu)化。⑤對(duì)完成了上述處理的表格文檔圖像進(jìn)行切割,并基于切割后的子圖像(圖像碎片)發(fā)起眾籌,對(duì)每個(gè)子圖像進(jìn)行文字錄入。⑥搭建可視化展示框架,基于數(shù)據(jù)中心相關(guān)標(biāo)準(zhǔn)和要求設(shè)置統(tǒng)一訪問(wèn)接口,通過(guò)統(tǒng)一訪問(wèn)接口為用戶提供數(shù)據(jù)獲取功能,包括表格文檔圖像路徑查詢、特殊符號(hào)圖標(biāo)查詢、各省紙質(zhì)表格文檔圖像匯總情況查詢等。⑦當(dāng)某一子圖像的眾籌錄入次數(shù)大于A次,且一致率大于a%時(shí),確定該子圖像眾籌錄入通過(guò)檢驗(yàn),將錄入結(jié)果存儲(chǔ)于臨時(shí)文檔中。若校驗(yàn)不通過(guò),則返回錄入操作重新錄入。⑧遍歷所有子圖像且全部校驗(yàn)通過(guò)時(shí),將所有錄入結(jié)果發(fā)送給輸出文件,作為當(dāng)前氣象紙質(zhì)表格文檔的數(shù)字化處理結(jié)果。
圖4 氣象紙質(zhì)表格資料快速數(shù)字化系統(tǒng)的方案流程
根據(jù)上述的8個(gè)步驟進(jìn)行功能分類,最終將其封裝到3個(gè)部分中,分別為:碎片處理、登錄系統(tǒng)和分析庫(kù)。在應(yīng)用層,利用HTML5和CSS3的優(yōu)勢(shì),同時(shí)兼容多類型、多版本瀏覽器訪問(wèn),具有跨平臺(tái)、易拓展、兼容性好等優(yōu)勢(shì);在服務(wù)層,使用Rest和Web Service相結(jié)合的方式提供統(tǒng)一訪問(wèn)接口;在數(shù)據(jù)層,基于Oracle數(shù)據(jù)庫(kù)存儲(chǔ),提供數(shù)據(jù)獲取功能,包括圖片信息查詢、數(shù)字化圖像匯總情況查詢等,根據(jù)不同的應(yīng)用模式和開(kāi)發(fā)運(yùn)行環(huán)境,提供多種服務(wù)方式,以URI方式在頁(yè)面中直接查詢接口,數(shù)據(jù)實(shí)現(xiàn)前后臺(tái)交互使用,并以統(tǒng)一的JSON、數(shù)組格式封裝返回?cái)?shù)據(jù),保障數(shù)據(jù)的標(biāo)準(zhǔn)化和兼容性。具體封裝和系統(tǒng)架構(gòu)如圖5、6所示。
圖5 功能封裝
碎片處理涉及圖像預(yù)處理、表格檢測(cè)、圖像切割、圖像修正4個(gè)部分。其中:圖像預(yù)處理是指在表格文檔掃描成圖像的過(guò)程中,或多或少會(huì)出現(xiàn)一定角度的傾斜。這個(gè)問(wèn)題會(huì)直接給單元格定位、字符定位等造成困難,因此對(duì)圖像應(yīng)用霍夫變換方法進(jìn)行圖像的傾斜校正。預(yù)處理部分還應(yīng)用了中值濾波算法對(duì)表格圖像降噪,獲得平滑的表格圖像。表格檢測(cè)采用DBnet字符定位技術(shù);圖像切割則是根據(jù)定位結(jié)果進(jìn)行圖像碎片化處理;圖像修正就是對(duì)于碎片后圖像中有表格線的地方,應(yīng)用DSCC算法進(jìn)行字線分離。技術(shù)路線及部分實(shí)現(xiàn)界面如圖7所示。
圖7 技術(shù)路線及部分實(shí)現(xiàn)界面
登錄系統(tǒng)及分析庫(kù)的流程與實(shí)現(xiàn)如圖8所示。從碎片處理的最后一個(gè)環(huán)節(jié)“待數(shù)字化圖片庫(kù)”開(kāi)始,步驟如下:①設(shè)置氣象特定標(biāo)識(shí)庫(kù),將已知的氣象符號(hào)以圖片的形式放入標(biāo)識(shí)庫(kù),并將符號(hào)意義和圖片建立映射關(guān)系;基于關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ),提供符號(hào)圖標(biāo)查詢獲取功能。②設(shè)計(jì)數(shù)據(jù)庫(kù)表,將分割的圖片按照?qǐng)D片id、圖片名、圖片路徑等信息進(jìn)行入庫(kù);同時(shí)對(duì)數(shù)字化校驗(yàn)數(shù)據(jù)錄入進(jìn)行庫(kù)表設(shè)計(jì)。為使檢索效率更加高效,在存儲(chǔ)數(shù)據(jù)時(shí),按照實(shí)際業(yè)務(wù)數(shù)據(jù)進(jìn)行分表分類存儲(chǔ);同時(shí)編寫(xiě)設(shè)計(jì)用戶校驗(yàn)與統(tǒng)計(jì)的處理方法。③登陸系統(tǒng),在Linux服務(wù)器上搭建圖片訪問(wèn)服務(wù)器,統(tǒng)一訪問(wèn)接口,搭建可視化展示框架。④錄入結(jié)果對(duì)比及統(tǒng)計(jì)。
圖8 登錄系統(tǒng)及分析庫(kù)的流程與實(shí)現(xiàn)界面
快速數(shù)字化系統(tǒng)通過(guò)嵌入其他網(wǎng)站,以驗(yàn)證碼的形式向系統(tǒng)用戶展現(xiàn),通過(guò)系統(tǒng)全部用戶的登錄行為實(shí)現(xiàn)“眾籌錄入”。本文中網(wǎng)站選取“全國(guó)數(shù)據(jù)資源在線匯交平臺(tái)”(http://idata.com/datasource/login.html,簡(jiǎn)稱:匯交系統(tǒng))作為試驗(yàn)平臺(tái),對(duì)快速數(shù)字檔案系統(tǒng)進(jìn)行測(cè)試,并對(duì)數(shù)字檔案的正確性進(jìn)行測(cè)試,對(duì)時(shí)效性進(jìn)行預(yù)估判斷。
圖9是完成上述處理過(guò)程后的酸雨月報(bào)表,其中,第1個(gè)紅框截取原始掃描圖像;中間為數(shù)字檔案的錄入結(jié)果;第2個(gè)紅框?qū)υ紙D像碎片處理后的切片圖。通過(guò)快速數(shù)字化系統(tǒng),當(dāng)數(shù)據(jù)錄入次數(shù)和一致率達(dá)到設(shè)定閾值后,確認(rèn)錄入結(jié)果,該表快速數(shù)字化處理工作完成。
圖9 數(shù)字檔案后的酸雨月報(bào)表
由于在實(shí)際字符定位與字線分離的技術(shù)中,有可能有碎片不完整的情況產(chǎn)生,所以在登錄系統(tǒng)界面中,設(shè)計(jì)了圖片不完整的選項(xiàng)(圖10),以便用戶眾籌錄入中出現(xiàn)上述原因,作為反饋改進(jìn)機(jī)制。本測(cè)試中有效錄入數(shù)計(jì)算如下:
圖10 圖片不完整的反饋機(jī)制
有效錄入數(shù)=碎片總數(shù)-圖片不完整數(shù)
(1)
一錄正確率是指對(duì)圖片進(jìn)行錄入1次時(shí)的正確性,所以一錄正確率計(jì)算如下:
(2)
事實(shí)上,本系統(tǒng)在設(shè)計(jì)錄入次數(shù)的同時(shí),還設(shè)計(jì)了多次錄入同一碎片的一致率,對(duì)同一碎片的多次錄入,錄入結(jié)果之間是一個(gè)驗(yàn)證的過(guò)程,同時(shí)也是一個(gè)查錯(cuò)的反饋機(jī)制,通過(guò)這種方式既可以提高正確率,也可以增加數(shù)字檔案工作的準(zhǔn)確性。
通過(guò)試驗(yàn)結(jié)果可以看出(表1):測(cè)試樣本為2056張碎片,除由于圖片碎片處理不完整導(dǎo)致43張圖片無(wú)法識(shí)別外,其余共有2013張有效錄入張數(shù);
表1 測(cè)試結(jié)果
其中,有2007張圖片正確錄入;一錄正確率為99.70%,滿足了數(shù)字化工作小于0.3%的出錯(cuò)率。對(duì)不正確的圖片,再次發(fā)起眾籌錄入及正確性驗(yàn)證;經(jīng)過(guò)多次錄入,正確性可達(dá)到100%。
表2是人工數(shù)字化工作在疫情前后與快速數(shù)字化系統(tǒng)在完成時(shí)效上的對(duì)比分析。樣本選自酸雨數(shù)字檔案錄入任務(wù),共計(jì)需要完成502320頁(yè)的酸雨紙質(zhì)表格圖像資料。
表2 人工和系統(tǒng)完成數(shù)字檔案工作的對(duì)比
人工數(shù)字化公司需要對(duì)掃描后的圖像資料完成手工錄入;于2019年10月啟動(dòng)工作任務(wù),當(dāng)時(shí)預(yù)計(jì)9個(gè)月工期,但是之后由于疫情原因及防控要求,更改了原定工作任務(wù)安排由“全部錄入”改為“錄入其中30萬(wàn)頁(yè)”,所以該項(xiàng)工作于2021年7月結(jié)束。
本測(cè)試以快速數(shù)字化系統(tǒng)正式運(yùn)行預(yù)估,快速數(shù)字化系統(tǒng)和人工錄入工作一樣,也是對(duì)502320頁(yè)完成錄入工作。首先要進(jìn)行碎片處理,處理后約60278400張碎片,將其導(dǎo)入?yún)R交系統(tǒng)眾籌錄入;快速數(shù)字化搭載的匯交系統(tǒng),用戶涵蓋全國(guó)31個(gè)省,涉及國(guó)家級(jí)、省級(jí)填報(bào)人員2464人,其中,基層臺(tái)站為7×24 h倒班值班,若按照2423人次測(cè)算,令網(wǎng)站登錄時(shí)效為10 min,則平均每周預(yù)計(jì)錄入碎片為2423人×6次×24 h×7 d+41人×6次×8 h×5 d=2452224條,全部完成耗時(shí)為60278400÷2452224≈24.6周≈7個(gè)月。時(shí)效遠(yuǎn)高于人工數(shù)字化處理工作。
氣象數(shù)據(jù)安全是氣象網(wǎng)絡(luò)安全的重要組成部分,關(guān)于本方案的安全性問(wèn)題,也做了相應(yīng)的研究工作,結(jié)論認(rèn)為:方案采用圖像最小碎片化、待錄入圖像混淆和調(diào)用源安全審計(jì)3種方法,可以有效保障氣象圖像數(shù)據(jù)資料的安全性。
雖然本方案將碎片化處理后的圖像數(shù)據(jù)提供給參與眾籌識(shí)別的網(wǎng)上公眾,但參與眾籌識(shí)別者欲借助圖像碎片拼接合成獲取原始信息,卻存在巨大的困難。
首先,本方案的圖像最小碎片化方法將待處理圖像數(shù)據(jù)進(jìn)行最小化切分,以本方案中酸雨數(shù)字化為例,約502320頁(yè)資料(每頁(yè)120個(gè)碎片圖像)全部碎片化后形成近60278400張碎片,而還原1張?jiān)急硇枰钠唇臃桨笖?shù)如下所示:
(3)
其中,n為全部碎片后形成的碎片張數(shù),r為每頁(yè)資料碎片后的碎片張數(shù)。
因此,通過(guò)圖像碎片拼接還原來(lái)得到原始表格中的完整信息,需要巨大的計(jì)算處理能力,以目前計(jì)算機(jī)體系架構(gòu)所形成的計(jì)算處理能力而言,這是一個(gè)天文數(shù)字,幾乎不可能完成。故圖像最小碎片化方法保障了碎片化后的圖像數(shù)據(jù)已經(jīng)喪失其實(shí)際數(shù)據(jù)分析意義和價(jià)值。同時(shí),待錄入圖像混淆方法將切分后的多年、多站點(diǎn)碎片化圖像數(shù)據(jù)進(jìn)行隨機(jī)編碼和混淆,破壞原有碎片化數(shù)據(jù)間的順序和關(guān)聯(lián)性。這也進(jìn)一步增加了拼接還原的難度。最后,調(diào)用源安全審計(jì)方法將判斷調(diào)用方的IP源地址等信息,對(duì)可疑的調(diào)用地址進(jìn)行自動(dòng)封堵和服務(wù)拒絕??蓪?duì)行為不軌者進(jìn)行主動(dòng)防御。綜上,本方案的氣象數(shù)據(jù)安全問(wèn)題是可以保證的。
本文基于互聯(lián)網(wǎng)思維模式,使用人工智能技術(shù)手段,提出了一種針對(duì)氣象紙質(zhì)表格文檔的快速數(shù)字化方法及系統(tǒng);利用分段式處理的方法,解放原有手工錄入作業(yè),最終完成數(shù)字檔案工作。
經(jīng)酸雨紙質(zhì)表格圖像資料代入系統(tǒng)驗(yàn)證表明:①快速數(shù)字化系統(tǒng)實(shí)驗(yàn)樣本的一錄正確性,正確率大于99.7%;達(dá)到數(shù)字化工作容錯(cuò)率0.3%的標(biāo)準(zhǔn);②快速數(shù)字化系統(tǒng)實(shí)驗(yàn)樣本的時(shí)效性,約為目前人工處理時(shí)長(zhǎng)的1/3;同時(shí)比疫情前人工處理時(shí)效也提高了22.2%。綜上,該系統(tǒng)在確保了數(shù)據(jù)正確性的同時(shí);有效提高了工作效率,實(shí)現(xiàn)了氣象紙質(zhì)表格資料快速形成數(shù)字檔案的目標(biāo);特別在新冠疫情常態(tài)化工作場(chǎng)景下,降低了傳統(tǒng)數(shù)字化的人工聚集風(fēng)險(xiǎn),為數(shù)字檔案工作提供了新的思路。
本文涉及的方法及系統(tǒng)在正確性和時(shí)效性上還有可改進(jìn)的空間。①錄入正確性方面:在測(cè)試中,通過(guò)對(duì)“圖片不完整”情況的分析,認(rèn)為DBnet算法對(duì)不規(guī)則表格及字線的提取仍然存在一些問(wèn)題,還需對(duì)剪切圖片不完整的完整數(shù)字化圖像再訓(xùn)練,并對(duì)模型參數(shù)進(jìn)行調(diào)整和完善;②錄入時(shí)效性方面:本系統(tǒng)時(shí)效性的改進(jìn)主要依賴網(wǎng)站的訪問(wèn)量,本文以“匯交系統(tǒng)”進(jìn)行測(cè)算,若以月均訪問(wèn)量大于1500萬(wàn)次的中國(guó)氣象數(shù)據(jù)網(wǎng)(http://data.cma.cn)為例測(cè)算,預(yù)計(jì)4.1個(gè)月就完成本研究工作;若各網(wǎng)站多平臺(tái)并行,時(shí)效還可以再提高。