李家辰 張一凡 曠遠(yuǎn)有 張雪海 沈沂亭
摘要:基于圖像處理和版面分割等技術(shù),提出一種可快速檢索中文期刊論文得到題目、作者、摘要等結(jié)構(gòu)化數(shù)據(jù)的方法。該方法可以對(duì)中文期刊論文的PDF文件或圖像文件進(jìn)行分析處理,自動(dòng)形成一些結(jié)構(gòu)化的圖像塊數(shù)據(jù),最終轉(zhuǎn)化為結(jié)構(gòu)化的文字?jǐn)?shù)據(jù),以幫助用戶準(zhǔn)確地獲取或檢索論文信息。實(shí)驗(yàn)結(jié)果表明,本方法對(duì)中文期刊論文進(jìn)行數(shù)據(jù)采集具有一定的有效性。
關(guān)鍵詞:圖像處理;版面分析;投影法;中文期刊
中圖分類號(hào):TP317 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)35-0188-02
1 概述
隨著學(xué)術(shù)期刊與學(xué)術(shù)論文日趨增多,用戶在學(xué)術(shù)期刊中準(zhǔn)確快速提取出論文基本信息的需求也日益增強(qiáng)。目前的論文多以圖像的形式儲(chǔ)存,而文字形式是人們檢索論文信息所需要的主要顯示類型。而將圖像信息轉(zhuǎn)化成文字信息常采用OCR技術(shù)。OCR是指通過(guò)掃描、拍照等光學(xué)輸入方式將印刷文字最終轉(zhuǎn)化為可編輯的數(shù)字化信息[1]。在OCR識(shí)別之前,通常需要對(duì)文字版面進(jìn)行分析。
版面分割是對(duì)版面內(nèi)的圖像、文本、表格等信息和位置關(guān)系所進(jìn)行的自動(dòng)分析、識(shí)別和理解的過(guò)程。最終是將圖像分成若干個(gè)不相關(guān)的區(qū)域。由于這關(guān)系到文字識(shí)別的準(zhǔn)確性和正確的數(shù)據(jù)采集順序,版面分析在操作過(guò)程中是不可或缺的。本項(xiàng)目中選用的是邊緣檢測(cè)版面分析。基于邊緣檢測(cè)的分割方法試圖通過(guò)檢測(cè)不同區(qū)域的邊緣來(lái)解決問(wèn)題,通常不同的區(qū)域之間的邊緣上灰度值的變化往往比較大,這是邊緣檢測(cè)方法得以實(shí)現(xiàn)的主要假設(shè)之一。[2]
因此,為獲得期刊論文基本信息,需要先將通常儲(chǔ)存的圖像信息依次進(jìn)行灰度二值化,灰度直方圖生成,版面分析,再將得到的結(jié)構(gòu)化圖像塊轉(zhuǎn)換為文字信息,最后將所得到的基本信息數(shù)據(jù)呈現(xiàn)給用戶。這樣便能夠更迅捷,更清晰地讀取并判斷出該論文是否為自己所需求的材料。僅需少量的人工步驟即可實(shí)現(xiàn)該效果,因此該方法更能滿足用戶對(duì)于信息檢索、判斷的需求。
2 論文基本信息的特征分析
2.1頁(yè)眉的檢測(cè)
頁(yè)眉是位于文章首頁(yè)上方,用直線分割的一片區(qū)域。一般地,在其中記錄了出版時(shí)間,出版社名稱,版號(hào)等信息。但相對(duì)于正文信息而言,頁(yè)眉頁(yè)腳具有獨(dú)立性。在基于OCR和版面分析的一些應(yīng)用中,需將頁(yè)眉頁(yè)腳和主體分離并單獨(dú)處理。根據(jù)直線的所在位置和頁(yè)面的最上端劃出頁(yè)眉范圍,將整個(gè)版面一分為二。進(jìn)一步根據(jù)灰度直方圖分別分割頁(yè)眉上的信息。
2.2論文題目、作者、關(guān)鍵詞等的特征分析
通常情況下,論文題目位于首頁(yè)的居中位置,是論文主題內(nèi)容的體現(xiàn),與之后的文章內(nèi)容有明顯間隔,字號(hào)相對(duì)較大,可依據(jù)此來(lái)進(jìn)行投影得到論文題目范圍之后進(jìn)行文字識(shí)別。論文題目之后是作者,同樣借助投影得到行間距,劃分區(qū)域,進(jìn)行文字識(shí)別,而在論文作者下的單位可以通過(guò)單位兩邊的括號(hào)作為特征標(biāo)識(shí)來(lái)進(jìn)行分割與處理。同理,關(guān)鍵詞、DOI號(hào)等論文信息也可以以此確定其內(nèi)容。識(shí)別后的字符通過(guò)ASCALL碼值判斷可區(qū)別其中英文,進(jìn)而得到結(jié)果。
3 論文信息提取的算法
基于對(duì)論文所需信息的特征分析,給出整個(gè)論文信息提取的算法及流程。
3.1論文信息提取的算法流程
傳入的PDF文件經(jīng)過(guò)版面分析,得到論文有關(guān)信息的位置和屬性。對(duì)有效信息區(qū)進(jìn)行二維坐標(biāo)下的行投影,確定并統(tǒng)計(jì)、提取特征值,再根據(jù)統(tǒng)計(jì)得來(lái)的特征值,進(jìn)行孤立行分析,并依據(jù)判定的孤立行,對(duì)文本進(jìn)行區(qū)域的分割,進(jìn)而得到版面分析的分割結(jié)果。[3]根據(jù)區(qū)域上下邊界尋找論文信息有關(guān)區(qū)域,通過(guò)分割線檢測(cè)及分析區(qū)域特征,以此判斷文本域?yàn)楹畏N論文信息。判別算法流程如圖2。
3.2圖像處理
圖像處理需先將RGB轉(zhuǎn)灰度,再將圖片進(jìn)行灰度二值化處理。灰度直方圖是基于二值化后的圖像生成的表示灰度值分布的直方圖。將每個(gè)像素點(diǎn)按照行或列的形式顯示為一張橫軸表示灰度值,縱軸為灰度出現(xiàn)次數(shù)的圖像稱為灰度直方圖?;叶戎狈綀D直觀地顯示了文字在文章版面內(nèi)的分布情況,在之后的版面分析中有了最直接的分析依據(jù)。
3.3投影法判別論文基本信息
將論文圖像轉(zhuǎn)灰后,灰度級(jí)范圍為[O,L-1]的數(shù)字圖像的直方圖是離散函數(shù)h(rk)=nk,其中rk是笫k級(jí)灰度值nk是圖像中灰度為rk的像素個(gè)數(shù)。在實(shí)踐中,經(jīng)常用乘積MN表示的圖像像素的總數(shù)除它的每個(gè)分量來(lái)歸一化直方圖,通常M和N是圖像的行和列的維數(shù)。因此,歸一化后的直方圖由p(rk)=nk/MN給出,其中k=0,1,…,L-1[4]。在得到直方圖后,通過(guò)投影法得到每個(gè)所需區(qū)域的行高和行距。在這里舉例介紹論文題目、作者、關(guān)鍵詞的判別思路。
(1)論文題目區(qū)域的特征分析:
設(shè)LineHeight行高,PreSpace為當(dāng)前塊前行距,NextSpace為當(dāng)前塊后行距,isChinese與isEnglish的值可用來(lái)判斷行內(nèi)文本是否為純英文。
● 單行論文題目判別:
通過(guò)大量的論文數(shù)據(jù)可知在得到論文投影數(shù)據(jù)后,論文題目通常情況下集中出現(xiàn)在都滿足以下的條件的塊中:
據(jù)此可以基本得到論文題目數(shù)據(jù)。
● 雙行論文題目判別:
論文題目會(huì)占用雙行,在這種情況下,不但滿足單行論文題目的限制條件,而且通常會(huì)有的特征出現(xiàn),同上處理并與第一行標(biāo)題合并可以得到雙行論文題目數(shù)據(jù)。得到論文題目文本后,將其在軟件界面上進(jìn)行顯示與儲(chǔ)存。
(2)論文作者、關(guān)鍵詞等特征分析:
論文作者通常出現(xiàn)在論文題目下方,即滿足條件論文作者行為論文題目下的首個(gè)中文行,且其字高必小于標(biāo)題字高,對(duì)應(yīng)作者位置必低于其對(duì)應(yīng)標(biāo)題位置,論文作者該行的前行距Rect.PreSpace大于通常的行間距。在查找到所需數(shù)據(jù)后,將其后數(shù)據(jù)通過(guò)OCR識(shí)別,并且可以通過(guò)isChinese與isEnglish值判斷出論文作者的中英文形式,最終可將此塊數(shù)據(jù)歸類與儲(chǔ)存。
同樣,關(guān)鍵詞等論文數(shù)據(jù)的所在位置一般固定。通過(guò)遍歷論文首頁(yè)投影圖像,找到識(shí)別主體與論文正文之間的分割線,再查找到其確切位置,進(jìn)行識(shí)別、獲取文本即可。
4 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證該程序的有效性,我們收集大量論文來(lái)進(jìn)行識(shí)別實(shí)驗(yàn),結(jié)果見(jiàn)表1:
5 結(jié)束語(yǔ)
本文提出一種分割論文并識(shí)別內(nèi)容的方法,根據(jù)論文信息的特征提出了相關(guān)內(nèi)容的約束條件,并通過(guò)大量測(cè)試驗(yàn)證,該方法可以識(shí)別較多格式標(biāo)準(zhǔn)的中文論文,但對(duì)于部分排版更加靈活的中英文論文仍無(wú)法做到準(zhǔn)確識(shí)別,此問(wèn)題還有待后續(xù)解決。
參考文獻(xiàn):
[1]李小鋒.基于非文本圖像優(yōu)先的中文版面分析技術(shù)研究和應(yīng)用[D].北京:北方工業(yè)大學(xué),2010.
[2]許新征,丁世飛,史忠植,等.圖像分割的新理論和新方法[J].電子學(xué)報(bào),2010,38(2A):76-82.
[3]王莉麗,陳曄,劉玲.基于投影輪廓分析的文本圖像版面分割算法研究[J].數(shù)字技術(shù)與應(yīng)用,2017(3):164-165.
[4]Rafael C.Gonzalez Richard E.Woods.數(shù)字圖像處理[M].北京:電子工業(yè)出版社,2011:72-76.
【通聯(lián)編輯:唐一東】
收稿日期:2019-08-15
基金項(xiàng)目:本項(xiàng)目受北京市大學(xué)生科學(xué)研究與創(chuàng)業(yè)行動(dòng)計(jì)劃資助
作者簡(jiǎn)介:李家辰(2000-),男,河南濟(jì)源人,學(xué)生,本科,主要研究方向?yàn)閳D像處理。