国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文期刊論文數(shù)據(jù)采集技術(shù)研究

2019-03-07 05:22:18李家辰張一凡曠遠(yuǎn)有張雪海沈沂亭
電腦知識(shí)與技術(shù) 2019年35期
關(guān)鍵詞:圖像處理

李家辰 張一凡 曠遠(yuǎn)有 張雪海 沈沂亭

摘要:基于圖像處理和版面分割等技術(shù),提出一種可快速檢索中文期刊論文得到題目、作者、摘要等結(jié)構(gòu)化數(shù)據(jù)的方法。該方法可以對(duì)中文期刊論文的PDF文件或圖像文件進(jìn)行分析處理,自動(dòng)形成一些結(jié)構(gòu)化的圖像塊數(shù)據(jù),最終轉(zhuǎn)化為結(jié)構(gòu)化的文字?jǐn)?shù)據(jù),以幫助用戶準(zhǔn)確地獲取或檢索論文信息。實(shí)驗(yàn)結(jié)果表明,本方法對(duì)中文期刊論文進(jìn)行數(shù)據(jù)采集具有一定的有效性。

關(guān)鍵詞:圖像處理;版面分析;投影法;中文期刊

中圖分類號(hào):TP317 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2019)35-0188-02

1 概述

隨著學(xué)術(shù)期刊與學(xué)術(shù)論文日趨增多,用戶在學(xué)術(shù)期刊中準(zhǔn)確快速提取出論文基本信息的需求也日益增強(qiáng)。目前的論文多以圖像的形式儲(chǔ)存,而文字形式是人們檢索論文信息所需要的主要顯示類型。而將圖像信息轉(zhuǎn)化成文字信息常采用OCR技術(shù)。OCR是指通過(guò)掃描、拍照等光學(xué)輸入方式將印刷文字最終轉(zhuǎn)化為可編輯的數(shù)字化信息[1]。在OCR識(shí)別之前,通常需要對(duì)文字版面進(jìn)行分析。

版面分割是對(duì)版面內(nèi)的圖像、文本、表格等信息和位置關(guān)系所進(jìn)行的自動(dòng)分析、識(shí)別和理解的過(guò)程。最終是將圖像分成若干個(gè)不相關(guān)的區(qū)域。由于這關(guān)系到文字識(shí)別的準(zhǔn)確性和正確的數(shù)據(jù)采集順序,版面分析在操作過(guò)程中是不可或缺的。本項(xiàng)目中選用的是邊緣檢測(cè)版面分析。基于邊緣檢測(cè)的分割方法試圖通過(guò)檢測(cè)不同區(qū)域的邊緣來(lái)解決問(wèn)題,通常不同的區(qū)域之間的邊緣上灰度值的變化往往比較大,這是邊緣檢測(cè)方法得以實(shí)現(xiàn)的主要假設(shè)之一。[2]

因此,為獲得期刊論文基本信息,需要先將通常儲(chǔ)存的圖像信息依次進(jìn)行灰度二值化,灰度直方圖生成,版面分析,再將得到的結(jié)構(gòu)化圖像塊轉(zhuǎn)換為文字信息,最后將所得到的基本信息數(shù)據(jù)呈現(xiàn)給用戶。這樣便能夠更迅捷,更清晰地讀取并判斷出該論文是否為自己所需求的材料。僅需少量的人工步驟即可實(shí)現(xiàn)該效果,因此該方法更能滿足用戶對(duì)于信息檢索、判斷的需求。

2 論文基本信息的特征分析

2.1頁(yè)眉的檢測(cè)

頁(yè)眉是位于文章首頁(yè)上方,用直線分割的一片區(qū)域。一般地,在其中記錄了出版時(shí)間,出版社名稱,版號(hào)等信息。但相對(duì)于正文信息而言,頁(yè)眉頁(yè)腳具有獨(dú)立性。在基于OCR和版面分析的一些應(yīng)用中,需將頁(yè)眉頁(yè)腳和主體分離并單獨(dú)處理。根據(jù)直線的所在位置和頁(yè)面的最上端劃出頁(yè)眉范圍,將整個(gè)版面一分為二。進(jìn)一步根據(jù)灰度直方圖分別分割頁(yè)眉上的信息。

2.2論文題目、作者、關(guān)鍵詞等的特征分析

通常情況下,論文題目位于首頁(yè)的居中位置,是論文主題內(nèi)容的體現(xiàn),與之后的文章內(nèi)容有明顯間隔,字號(hào)相對(duì)較大,可依據(jù)此來(lái)進(jìn)行投影得到論文題目范圍之后進(jìn)行文字識(shí)別。論文題目之后是作者,同樣借助投影得到行間距,劃分區(qū)域,進(jìn)行文字識(shí)別,而在論文作者下的單位可以通過(guò)單位兩邊的括號(hào)作為特征標(biāo)識(shí)來(lái)進(jìn)行分割與處理。同理,關(guān)鍵詞、DOI號(hào)等論文信息也可以以此確定其內(nèi)容。識(shí)別后的字符通過(guò)ASCALL碼值判斷可區(qū)別其中英文,進(jìn)而得到結(jié)果。

3 論文信息提取的算法

基于對(duì)論文所需信息的特征分析,給出整個(gè)論文信息提取的算法及流程。

3.1論文信息提取的算法流程

傳入的PDF文件經(jīng)過(guò)版面分析,得到論文有關(guān)信息的位置和屬性。對(duì)有效信息區(qū)進(jìn)行二維坐標(biāo)下的行投影,確定并統(tǒng)計(jì)、提取特征值,再根據(jù)統(tǒng)計(jì)得來(lái)的特征值,進(jìn)行孤立行分析,并依據(jù)判定的孤立行,對(duì)文本進(jìn)行區(qū)域的分割,進(jìn)而得到版面分析的分割結(jié)果。[3]根據(jù)區(qū)域上下邊界尋找論文信息有關(guān)區(qū)域,通過(guò)分割線檢測(cè)及分析區(qū)域特征,以此判斷文本域?yàn)楹畏N論文信息。判別算法流程如圖2。

3.2圖像處理

圖像處理需先將RGB轉(zhuǎn)灰度,再將圖片進(jìn)行灰度二值化處理。灰度直方圖是基于二值化后的圖像生成的表示灰度值分布的直方圖。將每個(gè)像素點(diǎn)按照行或列的形式顯示為一張橫軸表示灰度值,縱軸為灰度出現(xiàn)次數(shù)的圖像稱為灰度直方圖?;叶戎狈綀D直觀地顯示了文字在文章版面內(nèi)的分布情況,在之后的版面分析中有了最直接的分析依據(jù)。

3.3投影法判別論文基本信息

將論文圖像轉(zhuǎn)灰后,灰度級(jí)范圍為[O,L-1]的數(shù)字圖像的直方圖是離散函數(shù)h(rk)=nk,其中rk是笫k級(jí)灰度值nk是圖像中灰度為rk的像素個(gè)數(shù)。在實(shí)踐中,經(jīng)常用乘積MN表示的圖像像素的總數(shù)除它的每個(gè)分量來(lái)歸一化直方圖,通常M和N是圖像的行和列的維數(shù)。因此,歸一化后的直方圖由p(rk)=nk/MN給出,其中k=0,1,…,L-1[4]。在得到直方圖后,通過(guò)投影法得到每個(gè)所需區(qū)域的行高和行距。在這里舉例介紹論文題目、作者、關(guān)鍵詞的判別思路。

(1)論文題目區(qū)域的特征分析:

設(shè)LineHeight行高,PreSpace為當(dāng)前塊前行距,NextSpace為當(dāng)前塊后行距,isChinese與isEnglish的值可用來(lái)判斷行內(nèi)文本是否為純英文。

● 單行論文題目判別:

通過(guò)大量的論文數(shù)據(jù)可知在得到論文投影數(shù)據(jù)后,論文題目通常情況下集中出現(xiàn)在都滿足以下的條件的塊中:

據(jù)此可以基本得到論文題目數(shù)據(jù)。

● 雙行論文題目判別:

論文題目會(huì)占用雙行,在這種情況下,不但滿足單行論文題目的限制條件,而且通常會(huì)有的特征出現(xiàn),同上處理并與第一行標(biāo)題合并可以得到雙行論文題目數(shù)據(jù)。得到論文題目文本后,將其在軟件界面上進(jìn)行顯示與儲(chǔ)存。

(2)論文作者、關(guān)鍵詞等特征分析:

論文作者通常出現(xiàn)在論文題目下方,即滿足條件論文作者行為論文題目下的首個(gè)中文行,且其字高必小于標(biāo)題字高,對(duì)應(yīng)作者位置必低于其對(duì)應(yīng)標(biāo)題位置,論文作者該行的前行距Rect.PreSpace大于通常的行間距。在查找到所需數(shù)據(jù)后,將其后數(shù)據(jù)通過(guò)OCR識(shí)別,并且可以通過(guò)isChinese與isEnglish值判斷出論文作者的中英文形式,最終可將此塊數(shù)據(jù)歸類與儲(chǔ)存。

同樣,關(guān)鍵詞等論文數(shù)據(jù)的所在位置一般固定。通過(guò)遍歷論文首頁(yè)投影圖像,找到識(shí)別主體與論文正文之間的分割線,再查找到其確切位置,進(jìn)行識(shí)別、獲取文本即可。

4 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證該程序的有效性,我們收集大量論文來(lái)進(jìn)行識(shí)別實(shí)驗(yàn),結(jié)果見(jiàn)表1:

5 結(jié)束語(yǔ)

本文提出一種分割論文并識(shí)別內(nèi)容的方法,根據(jù)論文信息的特征提出了相關(guān)內(nèi)容的約束條件,并通過(guò)大量測(cè)試驗(yàn)證,該方法可以識(shí)別較多格式標(biāo)準(zhǔn)的中文論文,但對(duì)于部分排版更加靈活的中英文論文仍無(wú)法做到準(zhǔn)確識(shí)別,此問(wèn)題還有待后續(xù)解決。

參考文獻(xiàn):

[1]李小鋒.基于非文本圖像優(yōu)先的中文版面分析技術(shù)研究和應(yīng)用[D].北京:北方工業(yè)大學(xué),2010.

[2]許新征,丁世飛,史忠植,等.圖像分割的新理論和新方法[J].電子學(xué)報(bào),2010,38(2A):76-82.

[3]王莉麗,陳曄,劉玲.基于投影輪廓分析的文本圖像版面分割算法研究[J].數(shù)字技術(shù)與應(yīng)用,2017(3):164-165.

[4]Rafael C.Gonzalez Richard E.Woods.數(shù)字圖像處理[M].北京:電子工業(yè)出版社,2011:72-76.

【通聯(lián)編輯:唐一東】

收稿日期:2019-08-15

基金項(xiàng)目:本項(xiàng)目受北京市大學(xué)生科學(xué)研究與創(chuàng)業(yè)行動(dòng)計(jì)劃資助

作者簡(jiǎn)介:李家辰(2000-),男,河南濟(jì)源人,學(xué)生,本科,主要研究方向?yàn)閳D像處理。

猜你喜歡
圖像處理
海戰(zhàn)場(chǎng)偵察圖像處理技術(shù)圖譜及應(yīng)用展望
基于ARM嵌入式的關(guān)于圖像處理的交通信號(hào)燈識(shí)別
電子制作(2019年15期)2019-08-27 01:12:12
基于圖像處理的機(jī)器人精確抓取的設(shè)計(jì)與實(shí)現(xiàn)
機(jī)器學(xué)習(xí)在圖像處理中的應(yīng)用
電子制作(2018年18期)2018-11-14 01:48:20
Bayesian-MCMC算法在計(jì)算機(jī)圖像處理中的實(shí)踐
改進(jìn)壓縮感知算法的圖像處理仿真研究
模糊圖像處理,刑事偵查利器
圖像處理技術(shù)的實(shí)戰(zhàn)應(yīng)用
遙感圖像處理軟件在文物高光譜數(shù)據(jù)分析中的應(yīng)用
基于圖像處理的定位器坡度計(jì)算
電氣化鐵道(2016年4期)2016-04-16 05:59:46
郸城县| 内乡县| 洛扎县| 沧源| 阿尔山市| 志丹县| 五常市| 治多县| 伊金霍洛旗| 安吉县| 巩留县| 海盐县| 赤壁市| 伊宁市| 延吉市| 托克托县| 肥城市| 平塘县| 互助| 宁海县| 安庆市| 平南县| 清原| 巴青县| 会理县| 湖北省| 宁武县| 都兰县| 布拖县| 临清市| 玉屏| 怀远县| 哈巴河县| 南丹县| 阜新| 鸡西市| 荔浦县| 兴文县| 津市市| 九龙县| 宜黄县|