中文期刊論文數(shù)據(jù)采集技術(shù)研究

2019-03-07 05:22:18李家辰張一凡曠遠(yuǎn)有張雪海沈沂亭

電腦知識(shí)與技術(shù) 2019年35期

關(guān)鍵詞：圖像處理

李家辰張一凡曠遠(yuǎn)有張雪海沈沂亭

摘要：基于圖像處理和版面分割等技術(shù)，提出一種可快速檢索中文期刊論文得到題目、作者、摘要等結(jié)構(gòu)化數(shù)據(jù)的方法。該方法可以對(duì)中文期刊論文的PDF文件或圖像文件進(jìn)行分析處理，自動(dòng)形成一些結(jié)構(gòu)化的圖像塊數(shù)據(jù)，最終轉(zhuǎn)化為結(jié)構(gòu)化的文字?jǐn)?shù)據(jù)，以幫助用戶準(zhǔn)確地獲取或檢索論文信息。實(shí)驗(yàn)結(jié)果表明，本方法對(duì)中文期刊論文進(jìn)行數(shù)據(jù)采集具有一定的有效性。

關(guān)鍵詞：圖像處理;版面分析;投影法;中文期刊

中圖分類號(hào)：TP317 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2019）35-0188-02

1 概述

隨著學(xué)術(shù)期刊與學(xué)術(shù)論文日趨增多，用戶在學(xué)術(shù)期刊中準(zhǔn)確快速提取出論文基本信息的需求也日益增強(qiáng)。目前的論文多以圖像的形式儲(chǔ)存，而文字形式是人們檢索論文信息所需要的主要顯示類型。而將圖像信息轉(zhuǎn)化成文字信息常采用OCR技術(shù)。OCR是指通過(guò)掃描、拍照等光學(xué)輸入方式將印刷文字最終轉(zhuǎn)化為可編輯的數(shù)字化信息[1]。在OCR識(shí)別之前，通常需要對(duì)文字版面進(jìn)行分析。

版面分割是對(duì)版面內(nèi)的圖像、文本、表格等信息和位置關(guān)系所進(jìn)行的自動(dòng)分析、識(shí)別和理解的過(guò)程。最終是將圖像分成若干個(gè)不相關(guān)的區(qū)域。由于這關(guān)系到文字識(shí)別的準(zhǔn)確性和正確的數(shù)據(jù)采集順序，版面分析在操作過(guò)程中是不可或缺的。本項(xiàng)目中選用的是邊緣檢測(cè)版面分析。基于邊緣檢測(cè)的分割方法試圖通過(guò)檢測(cè)不同區(qū)域的邊緣來(lái)解決問(wèn)題，通常不同的區(qū)域之間的邊緣上灰度值的變化往往比較大，這是邊緣檢測(cè)方法得以實(shí)現(xiàn)的主要假設(shè)之一。[2]

因此，為獲得期刊論文基本信息，需要先將通常儲(chǔ)存的圖像信息依次進(jìn)行灰度二值化，灰度直方圖生成，版面分析，再將得到的結(jié)構(gòu)化圖像塊轉(zhuǎn)換為文字信息，最后將所得到的基本信息數(shù)據(jù)呈現(xiàn)給用戶。這樣便能夠更迅捷，更清晰地讀取并判斷出該論文是否為自己所需求的材料。僅需少量的人工步驟即可實(shí)現(xiàn)該效果，因此該方法更能滿足用戶對(duì)于信息檢索、判斷的需求。

2 論文基本信息的特征分析

2.1頁(yè)眉的檢測(cè)

頁(yè)眉是位于文章首頁(yè)上方，用直線分割的一片區(qū)域。一般地，在其中記錄了出版時(shí)間，出版社名稱，版號(hào)等信息。但相對(duì)于正文信息而言，頁(yè)眉頁(yè)腳具有獨(dú)立性。在基于OCR和版面分析的一些應(yīng)用中，需將頁(yè)眉頁(yè)腳和主體分離并單獨(dú)處理。根據(jù)直線的所在位置和頁(yè)面的最上端劃出頁(yè)眉范圍，將整個(gè)版面一分為二。進(jìn)一步根據(jù)灰度直方圖分別分割頁(yè)眉上的信息。

2.2論文題目、作者、關(guān)鍵詞等的特征分析

通常情況下，論文題目位于首頁(yè)的居中位置，是論文主題內(nèi)容的體現(xiàn)，與之后的文章內(nèi)容有明顯間隔，字號(hào)相對(duì)較大，可依據(jù)此來(lái)進(jìn)行投影得到論文題目范圍之后進(jìn)行文字識(shí)別。論文題目之后是作者，同樣借助投影得到行間距，劃分區(qū)域，進(jìn)行文字識(shí)別，而在論文作者下的單位可以通過(guò)單位兩邊的括號(hào)作為特征標(biāo)識(shí)來(lái)進(jìn)行分割與處理。同理，關(guān)鍵詞、DOI號(hào)等論文信息也可以以此確定其內(nèi)容。識(shí)別后的字符通過(guò)ASCALL碼值判斷可區(qū)別其中英文，進(jìn)而得到結(jié)果。

3 論文信息提取的算法

基于對(duì)論文所需信息的特征分析，給出整個(gè)論文信息提取的算法及流程。

3.1論文信息提取的算法流程

傳入的PDF文件經(jīng)過(guò)版面分析，得到論文有關(guān)信息的位置和屬性。對(duì)有效信息區(qū)進(jìn)行二維坐標(biāo)下的行投影，確定并統(tǒng)計(jì)、提取特征值，再根據(jù)統(tǒng)計(jì)得來(lái)的特征值，進(jìn)行孤立行分析，并依據(jù)判定的孤立行，對(duì)文本進(jìn)行區(qū)域的分割，進(jìn)而得到版面分析的分割結(jié)果。[3]根據(jù)區(qū)域上下邊界尋找論文信息有關(guān)區(qū)域，通過(guò)分割線檢測(cè)及分析區(qū)域特征，以此判斷文本域?yàn)楹畏N論文信息。判別算法流程如圖2。

3.2圖像處理

圖像處理需先將RGB轉(zhuǎn)灰度，再將圖片進(jìn)行灰度二值化處理。灰度直方圖是基于二值化后的圖像生成的表示灰度值分布的直方圖。將每個(gè)像素點(diǎn)按照行或列的形式顯示為一張橫軸表示灰度值，縱軸為灰度出現(xiàn)次數(shù)的圖像稱為灰度直方圖?；叶戎狈綀D直觀地顯示了文字在文章版面內(nèi)的分布情況，在之后的版面分析中有了最直接的分析依據(jù)。

3.3投影法判別論文基本信息

將論文圖像轉(zhuǎn)灰后，灰度級(jí)范圍為[O，L-1]的數(shù)字圖像的直方圖是離散函數(shù)h（rk）=nk，其中rk是笫k級(jí)灰度值nk是圖像中灰度為rk的像素個(gè)數(shù)。在實(shí)踐中，經(jīng)常用乘積MN表示的圖像像素的總數(shù)除它的每個(gè)分量來(lái)歸一化直方圖，通常M和N是圖像的行和列的維數(shù)。因此，歸一化后的直方圖由p（rk）=nk/MN給出，其中k=0，1，…，L-1[4]。在得到直方圖后，通過(guò)投影法得到每個(gè)所需區(qū)域的行高和行距。在這里舉例介紹論文題目、作者、關(guān)鍵詞的判別思路。

（1）論文題目區(qū)域的特征分析：

設(shè)LineHeight行高，PreSpace為當(dāng)前塊前行距，NextSpace為當(dāng)前塊后行距，isChinese與isEnglish的值可用來(lái)判斷行內(nèi)文本是否為純英文。

● 單行論文題目判別：

通過(guò)大量的論文數(shù)據(jù)可知在得到論文投影數(shù)據(jù)后，論文題目通常情況下集中出現(xiàn)在都滿足以下的條件的塊中：

據(jù)此可以基本得到論文題目數(shù)據(jù)。

● 雙行論文題目判別：

論文題目會(huì)占用雙行，在這種情況下，不但滿足單行論文題目的限制條件，而且通常會(huì)有的特征出現(xiàn)，同上處理并與第一行標(biāo)題合并可以得到雙行論文題目數(shù)據(jù)。得到論文題目文本后，將其在軟件界面上進(jìn)行顯示與儲(chǔ)存。

（2）論文作者、關(guān)鍵詞等特征分析：

論文作者通常出現(xiàn)在論文題目下方，即滿足條件論文作者行為論文題目下的首個(gè)中文行，且其字高必小于標(biāo)題字高，對(duì)應(yīng)作者位置必低于其對(duì)應(yīng)標(biāo)題位置，論文作者該行的前行距Rect.PreSpace大于通常的行間距。在查找到所需數(shù)據(jù)后，將其后數(shù)據(jù)通過(guò)OCR識(shí)別，并且可以通過(guò)isChinese與isEnglish值判斷出論文作者的中英文形式，最終可將此塊數(shù)據(jù)歸類與儲(chǔ)存。

同樣，關(guān)鍵詞等論文數(shù)據(jù)的所在位置一般固定。通過(guò)遍歷論文首頁(yè)投影圖像，找到識(shí)別主體與論文正文之間的分割線，再查找到其確切位置，進(jìn)行識(shí)別、獲取文本即可。

4 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證該程序的有效性，我們收集大量論文來(lái)進(jìn)行識(shí)別實(shí)驗(yàn)，結(jié)果見(jiàn)表1：

5 結(jié)束語(yǔ)

本文提出一種分割論文并識(shí)別內(nèi)容的方法，根據(jù)論文信息的特征提出了相關(guān)內(nèi)容的約束條件，并通過(guò)大量測(cè)試驗(yàn)證，該方法可以識(shí)別較多格式標(biāo)準(zhǔn)的中文論文，但對(duì)于部分排版更加靈活的中英文論文仍無(wú)法做到準(zhǔn)確識(shí)別，此問(wèn)題還有待后續(xù)解決。

參考文獻(xiàn)：

[1]李小鋒.基于非文本圖像優(yōu)先的中文版面分析技術(shù)研究和應(yīng)用[D].北京：北方工業(yè)大學(xué)，2010.

[2]許新征，丁世飛，史忠植，等.圖像分割的新理論和新方法[J].電子學(xué)報(bào)，2010，38（2A）：76-82.

[3]王莉麗，陳曄，劉玲.基于投影輪廓分析的文本圖像版面分割算法研究[J].數(shù)字技術(shù)與應(yīng)用，2017（3）：164-165.

[4]Rafael C.Gonzalez Richard E.Woods.數(shù)字圖像處理[M].北京：電子工業(yè)出版社，2011：72-76.

【通聯(lián)編輯：唐一東】

收稿日期：2019-08-15

基金項(xiàng)目：本項(xiàng)目受北京市大學(xué)生科學(xué)研究與創(chuàng)業(yè)行動(dòng)計(jì)劃資助

作者簡(jiǎn)介：李家辰（2000-），男，河南濟(jì)源人，學(xué)生，本科，主要研究方向?yàn)閳D像處理。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

中文期刊論文數(shù)據(jù)采集技術(shù)研究