黃梓航,陳令羽,蔣秉川
(1.戰(zhàn)略支援部隊信息工程大學 研究生院,河南 鄭州 450001;2.戰(zhàn)略支援部隊信息工程大學 地理空間信息學院,河南 鄭州 450001)
圖表將繁冗的數(shù)據(jù)以直觀形象的形式展現(xiàn)出來,在地理信息表達和傳輸?shù)阮I域應用廣泛[1-2]。隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,泛在圖表成為大眾接收各類信息的主要渠道之一,包含了大量具有重要價值的各類信息,通過爬取解譯可為具體應用提供數(shù)據(jù)支撐。圖表數(shù)據(jù)和時空數(shù)據(jù)相結(jié)合,可以極大程度提升人類的空間感知和認知能力。特別是人工智能技術的不斷進步,為計算機快速理解和應用這類圖表數(shù)據(jù)提供了新的技術支持,豐富了圖表數(shù)據(jù)的應用領域和層次。
網(wǎng)絡數(shù)據(jù)中的泛在圖表按照數(shù)據(jù)類型可以分為2 種:一種是矢量型圖表,數(shù)據(jù)可以通過訪問對應的數(shù)據(jù)庫直接進行提??;另一種是柵格型圖表,本質(zhì)上就是柵格型數(shù)據(jù)圖像,文件中記錄的是不同位置上的像素值,依靠計算機視覺技術進行信息提取。矢量數(shù)據(jù)的解析主要停留在數(shù)據(jù)層面的處理上,方法相對成熟,研究柵格類圖表數(shù)據(jù)的智能解析成為熱點和難點問題[3-7]。
圖表數(shù)據(jù)在形成過程中經(jīng)過了一定程度的綜合,實現(xiàn)柵格圖表的完全解譯難度很大。針對海量泛在圖表,能夠快速根據(jù)特征標簽檢索出對應的信息,再進行針對性的數(shù)據(jù)解譯更符合時空大數(shù)據(jù)的研究規(guī)律。本文通過分析圖表結(jié)構(gòu),解析關鍵文本信息,抽取圖表中的關鍵知識,構(gòu)建圖表特征標簽體系,具體方法如圖1所示。
圖1 柵格類圖表數(shù)據(jù)知識標簽體系構(gòu)建流程
圖表文本定位與矢量化是從柵格圖表中提取出文字信息的位置和內(nèi)容,將圖表中的所有可能的知識識別出來,為知識標簽判斷提供基礎,包括離線識別和在線識別2 種方法。在線識別主要是借助主流的云工具,例如騰訊云、百度云、阿里云等,提供了相應的文字信息位置判斷和識別的在線服務,能夠為圖像數(shù)據(jù)中文字信息的快速識別和分析提供相應接口,且具有很高的準確性和效率,但僅支持互聯(lián)網(wǎng)情況下的識別,對應的離線工具價格昂貴。離線識別不需要連接互聯(lián)網(wǎng),主要通過文本檢測和內(nèi)容識別2個環(huán)節(jié)抽取文本信息[8-11]。綜合分析現(xiàn)有方法和圖表數(shù)據(jù)的特點,采用CRAFT+CRNN 的方法進行文本定位與矢量化[12-14]。
基于CRAFT檢測文字區(qū)域的基本原理是設計一個深度神經(jīng)網(wǎng)絡,通過預測單個字符的高斯熱圖以及字符間的連接性來檢測文本。其主要思想是:
1)圖像分割,采用u-net結(jié)構(gòu),先下采樣再上采樣,聚合深層和淺層特征。
2)非像素級分割,將一個字符視為一個檢測目標對象,而不是一個詞組(所有的詞組都由若干個字符構(gòu)成),即不把文本框當作目標。
3)標注時采用文本框級別的標注,而非字符級別的標注,并使用了一種弱監(jiān)督學習思路(先利用合成樣本進行預訓練,再將預訓練模型對真實數(shù)據(jù)集進行檢測,得到預測結(jié)果,經(jīng)過處理后得到高斯熱度圖作為真實數(shù)據(jù)集的字符級標簽)。
由于CRAFT 方法具有先進的性能和良好的泛化性,特別適合于柵格類圖表中各類文本的檢測和定位。
文字識別是對序列的預測方法,CRNN 采用了對序列預測的RNN 網(wǎng)絡。通過CNN 將圖片的特征提取出來后采用RNN對序列進行預測,最后通過一個CTC的翻譯層得到最終結(jié)果。主要采用的是CNN+RNN+CTC三層網(wǎng)絡結(jié)構(gòu),從下到上,依次為:
1)卷積層,使用CNN,從輸入圖像中提取特征序列。
2)循環(huán)層,使用RNN,預測從卷積層獲取的特征序列的標簽(真實值)分布。
3)轉(zhuǎn)錄層,使用CTC,把從循環(huán)層獲取的標簽分布通過重新整合等操作轉(zhuǎn)換成最終的識別結(jié)果。
泛在柵格類圖表的質(zhì)量難以得到保證,噪聲和干擾信息多、圖像不清楚的情況普遍存在。在進行文本矢量化之前,可先進行灰度變換、濾波操作、圖像二值化等圖像預處理,減少無關信息,在一定程度上恢復包含的文本特征信息從而增強特征可檢測性和矢量化效果,提高提取的效率與準確率。
圖表隸屬于視覺傳達信息的范疇,將知識、信息的概念和統(tǒng)計數(shù)據(jù)等進行視覺整理,用形狀、顏色和文字、數(shù)字來表達,視覺化某種事物的現(xiàn)象或某種思維的抽象觀念,以生動的表達形式傳遞信息,蘊含豐富的知識體系和內(nèi)容,具有直觀性和易懂性的特征。通過對圖表的結(jié)構(gòu)進行拆分,從各個文本塊對應的結(jié)構(gòu)特征上對圖表的信息表達進行研究,是進行知識標簽構(gòu)建的關鍵環(huán)節(jié)[15]。
根據(jù)表現(xiàn)形式,可以將圖表分為柱狀類圖表、線狀類圖表、點狀類圖表、多邊形類圖表和其他類圖表等6 種類型。圖表蘊含的豐富信息,主要通過圖表結(jié)構(gòu)形式表現(xiàn)出來,不同的結(jié)構(gòu)中包含的文字、數(shù)字內(nèi)容,能夠解譯出不同的信息內(nèi)容。
表1 圖表結(jié)構(gòu)(元素)解析
知識標簽的內(nèi)容主要通過圖表中的文字信息體現(xiàn),不同位置的文字信息對應知識標簽的價值含量也不相同。泛在圖表的知識抽取是在圖表結(jié)構(gòu)解析的基礎上,通過自動化的方式提取圖表中的文字信息,并自動判別其對應的圖表結(jié)構(gòu),判斷信息的價值含量?;舅悸肥鞘紫葘D表中的所有文本信息識別出來并記錄其對應的位置信息,然后根據(jù)統(tǒng)計規(guī)則或者機器學習的方式進行結(jié)構(gòu)識別,提取對應的底層特征信息,并進行文本矢量化,抽取核心關鍵信息。
文本塊類別判斷是在文本識別的基礎上,根據(jù)文本塊特征,基于相應類型圖表的結(jié)構(gòu)判斷其對應的結(jié)構(gòu)特征。主要有基于機器學習和基于模板匹配2 種方法。
2.2.1 基于模板進行類別的快速判斷
基于模板的類別判斷主要是在文字信息識別和圖表結(jié)構(gòu)解析的基礎上,進行文本塊的類別判斷。相較于普通圖像,圖表數(shù)據(jù)的設計和生成具有明顯的規(guī)律性,特別是基于常用的軟件工具生成時,提供了固定的模板,可以快速進行底層特征的類別判斷。在總結(jié)分析大量圖表數(shù)據(jù)的基礎上,得到了主要圖表數(shù)據(jù)的結(jié)構(gòu)分布模板,表2 為主要圖表類型中圖名和圖例的分布情況統(tǒng)計。
表2 常用圖表的結(jié)構(gòu)模版
基于表2,結(jié)合文本塊的位置信息,可以快速進行文本塊的類別識別,并進行知識的抽取和利用。
2.2.2 基于機器學習的方法進行類別判斷
基于模板進行文本塊的類別判斷便捷迅速,針對特定軟件生成的圖表數(shù)據(jù)準確率高,但是存在不同類別數(shù)據(jù)之間的模板位置有交叉,面向泛在圖表數(shù)據(jù)的準確率會降低等問題。根據(jù)文本塊的幾何信息,基于統(tǒng)計學和機器學習的方法,判斷其對應的圖表結(jié)構(gòu)要素,可以有效解決這一問題。主要步驟如下:
1)通過手工標注的表示,建立了特定類別圖表的結(jié)構(gòu)樣本集。因為分布特征差異明顯,不同類別的圖表建立不同的結(jié)構(gòu)樣本集。
2)將標注的樣本轉(zhuǎn)化為特征數(shù)據(jù),并計算特征值,選取文本塊的起始點位置和長寬作為特征。記錄圖表數(shù)據(jù)中對應的位置信息、矢量化結(jié)果和對應結(jié)構(gòu)類型。
3)構(gòu)建CNN 神經(jīng)網(wǎng)絡,對樣本數(shù)據(jù)進行訓練和測試,并進行新數(shù)據(jù)的結(jié)構(gòu)預測。
根據(jù)2 種方法的特點,可以發(fā)現(xiàn)基于模板進行類別判斷的方法主要適用于規(guī)則圖表,特別適用于特定軟件自動生成的圖表數(shù)據(jù),能夠快速準確地進行類別判斷,不同軟件生成的圖表在結(jié)構(gòu)模板上會有部分不同;基于機器學習的方法進行類別判斷適用于各類泛在圖表,具有較強的普適性,但是準確性和訓練模型強相關。
圖表的知識標簽主要對應時間、地點、人物、事件、事物、現(xiàn)象、場景等社會七要素[16],是表示圖表某類關鍵知識特征的詞語。知識標簽抽取是結(jié)合文本塊類型,對文本塊的矢量化結(jié)果進行分詞,并判斷其對應的知識標簽屬性,具體過程如圖2所示。
圖2 知識標簽抽取流程
將矢量化進行分詞,并根據(jù)分詞結(jié)果進行詞性和特征標簽判斷是知識標簽抽取的難點和重點,綜合比較目前的分詞工具,選用哈工大LTP分詞工具,可進行詞語屬性的識別和判斷。根據(jù)圖表結(jié)構(gòu)解析結(jié)果,設定兩級標簽體系:一級標簽對應圖名、圖例兩個圖表結(jié)構(gòu)中的知識標簽,是圖表的主要知識標簽;二級標簽對應圖表區(qū)和坐標軸等其他內(nèi)容,是圖表的次要知識標簽。
利用CRAFT 方法,對柵格類圖表進行文本定位,得到的結(jié)果如圖3所示。
圖3 CRAFT算法的圖表文本定位結(jié)果
采用CRNN 方法進行文字識別,為提高識別效率,首先將本文塊進行二值化,然后再進行矢量化,得到的結(jié)果如圖4所示。
圖4 基于CRNN的柵格文本塊矢量化結(jié)果
分析圖3、4 可以發(fā)現(xiàn):利用CRAFT+CRNN 的方法對柵格類圖表中的文本進行定位和識別,具有較高的準確度。分別對100 張柵格類圖表進行文本定位和識別測試,定位準確率和識別準確率均達到90%以上的圖表數(shù)量為93張,說明了該方法的有效性。
以柱狀圖和餅狀圖為例,通過手工標注,建立了圖表結(jié)構(gòu)樣本集。其中,柱狀圖按照標題、X 軸、Y軸、圖例、圖表區(qū)5 類結(jié)構(gòu)進行構(gòu)建,訓練集包括250個樣本,測試集包括30個樣本;餅狀圖按照標題、圖例、圖表區(qū)3類結(jié)構(gòu)進行構(gòu)建,訓練集包括130個樣本,測試集包括30個樣本。測試集的30個樣本中,包含Office、Echart和泛在圖表各10個。分別利用模板和機器學習方法進行測試,得到結(jié)果如表3所示。
表3 結(jié)構(gòu)類別判斷結(jié)果/%
分析表3 可以發(fā)現(xiàn)針對常見軟件生成的規(guī)范圖表,基于模板和機器學習方法進行圖表結(jié)構(gòu)解析得到的準確率基本相同,但是基于模板的方法所消耗的時間和空間資源遠小于機器學習方法;針對隨意性更強的泛在圖表,機器學習方法準確性更高,要明顯優(yōu)于模板方法。在實際應用中可以根據(jù)具體需求選擇不同的判斷方法。
根據(jù)圖2,構(gòu)建圖表的兩級知識標簽體系,以圖5為例,得到結(jié)果如表4所示。
表4 知識標簽構(gòu)建體系
分析表4,可以發(fā)現(xiàn)圖5中的主要信息均被抽取出來,形成了能夠表達圖表核心內(nèi)容的兩級知識標簽體系。
作為泛在信息的一種主要類型,柵格類圖表包含了豐富的時空信息。本文設計并實現(xiàn)了一種柵格圖表知識抽取方法,將文本信息作為理解圖表數(shù)據(jù)的主要內(nèi)容,結(jié)合柵格類圖表的特點,采用CRAFT和CRNN方法分別進行文本定位和內(nèi)容矢量化,解決了柵格圖表中關鍵信息的矢量化問題。通過對圖表結(jié)構(gòu)進行解析,總結(jié)圖表數(shù)據(jù)的結(jié)構(gòu)特點,根據(jù)不同情況選擇模板匹配和機器學習2 種方法能夠進行文本塊的類別判斷。利用自然語言處理技術,實現(xiàn)了知識的自動理解和抽取,建立柵格類圖表的知識標簽,有助于海量數(shù)據(jù)的快速檢索和理解,可以為泛在信息特別是圖像類數(shù)據(jù)的智能解譯提供一種新的思路。