国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的數(shù)學(xué)公式粘連符號的切分?

2019-11-12 06:38郭蓉蓉
計算機與數(shù)字工程 2019年10期
關(guān)鍵詞:數(shù)學(xué)公式公式符號

郭蓉蓉 李 濤 魏 琦

(西安郵電大學(xué)計算機學(xué)院 西安 710100)

1 引言

科技文獻檢索以及查重一直是人們關(guān)注的問題,在將書籍資料從紙質(zhì)到電子文檔轉(zhuǎn)換的過程中OCR技術(shù)逐步成熟,但是對數(shù)學(xué)公式識別效果并不理想。主要原因有:1)數(shù)學(xué)公式具有復(fù)雜的二維嵌套結(jié)構(gòu),容易導(dǎo)致符號之間的粘連。2)數(shù)學(xué)符號種類繁多,包括特殊符號、數(shù)字、希臘字母、英文字符等。3)數(shù)學(xué)公式符號含義具有多樣性,如:‘s’,和‘sin’里面的‘s’所表示的含義完全不同。4)字符之間的邏輯關(guān)系種類多樣。數(shù)學(xué)公式通常是一些科技文獻的核心,而手工輸入數(shù)學(xué)公式又比較繁瑣,另外數(shù)學(xué)公式以圖片格式存儲需要占用大量空間,所以對數(shù)學(xué)公式的識別尤為重要,在數(shù)學(xué)公式識別中粘連符號的切分對符號識別有很大的影響。

Anderson[1]于1968 年 首 次 提 出 數(shù) 學(xué) 公 式 識別。不論是印刷體的數(shù)學(xué)公式識別還是手寫體數(shù)學(xué)公式識別,國內(nèi)外學(xué)者都做了大量的工作,他們使用不同的方法對數(shù)學(xué)公式進行識別。隨著Anderson 對這一問題的提出,進入90 年代,人們對數(shù)學(xué)符號分割尤其是粘連符號分割的研究不斷增加,國外較早的是文獻[2~3]提出的基于圖像分析的直接切分法,主要是通過分析圖像來尋找字符之間較為合理的切分點。Okamoto[4~5]等采用遞歸的水平和垂直投影切割方法對符號進行切分。Garain[6]提出了基于模糊多因子的粘連切分方法,其主要從水平、垂直、和對角線三個方向?qū)φ尺B符號切分。而國內(nèi)李寧[7]提出了基于模糊多音字的粘連符號切分方法,切分方向和文獻[6]相同。侯利昌[8]和朱并隊[9]提出了一種新的SOM 神經(jīng)網(wǎng)絡(luò)權(quán)值更新算法,其主要使用于印刷體粘連字符分割,也稱為修改的自組織特征映射,簡稱M-SOM。

分析上述方法后,不難發(fā)現(xiàn)國內(nèi)外數(shù)學(xué)符號分割一直是停留在傳統(tǒng)的分割上面,對數(shù)學(xué)公式粘連符號的處理效果一直不是很好。本文利用Faster R-CNN 網(wǎng)絡(luò)對數(shù)學(xué)符號進行分割,為了滿足深度學(xué)習(xí)訓(xùn)練需要的大量數(shù)據(jù),本文制定了一系列建立數(shù)據(jù)庫的方法和規(guī)范,由此提高分割的正確率。

2 FasterR-CNN網(wǎng)絡(luò)結(jié)構(gòu)

Faster R-CNN[10]從2015 年底至今已經(jīng)接近兩年,但依舊還是目標檢測領(lǐng)域的主流框架之一,雖然后續(xù)推出了R-FCN[11],Mask R-CNN[12]等改進框架,但是基本結(jié)構(gòu)變化不大。同時也有SSD[13],YOLO[14]等針對目標檢測的框架,但是在精度上面依然以Faster R-CNN 為最好,因此本文選用它作為數(shù)學(xué)符號分割的網(wǎng)絡(luò)。

Faster R-CNN 主要是由RPN(Region Proposal Network)候選框模塊和Fast R-CNN 檢測模塊兩大模塊組成,RPN 為全卷積神經(jīng)網(wǎng)絡(luò),主要用于提取候選框;Fast R-CNN 主要是將提取的候選框傳輸給RPN,它的另外一個作用是:檢測并識別候選框中的目標,具體如圖1所示。

圖1 Faster R-CNN模型

由圖1 可知Faster R-CNN 可以分成四個主要內(nèi)容:

1)Conv layers。卷積層是CNN 網(wǎng)絡(luò)目標檢測的一種方法。Faster R-CNN 首先使用一組基礎(chǔ)的conv+relu+pooling 層提取圖像的特征圖,這些特征圖會被用于后續(xù)RPN層和全連接層。

2)Region Proposal Networks。RPN 網(wǎng)絡(luò)主要用于生成候選區(qū)域。該層通過soft max判斷anchor屬于前景或者屬于背景,接著利用邊框回歸修正anchors獲得精確的候選窗口。

3)ROI Pooling。該層收集輸入的特征圖和候選窗口,綜合這些信息后提取候選窗口的特征圖,送入后續(xù)全連接層判定目標類別。

4)Classification。利用候選窗口的特征圖計算窗口的類別,同時再次對邊框回歸獲得檢測最終的精確位置。

Faster R-CNN 與Ross Girshick 提出的另外 兩個網(wǎng)絡(luò)R-CNN[15]和Faste R-CNN[16]相比最大的改進就是提出了RPN 網(wǎng)絡(luò),RPN 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。

圖2 RPN網(wǎng)絡(luò)結(jié)構(gòu)

由圖2可知RPN 網(wǎng)絡(luò)分為兩條線,上面一條通過softmax分類anchors,獲得前后背景,下面一條用于計算對于anchors 的邊框回歸偏移量以獲得精確的候選窗口,由此可知anchors是RPN網(wǎng)絡(luò)的核心,在進行目標檢測的時候需要確定每個滑窗中心對應(yīng)感受野是否存在目標,因為目標大小和寬度不一,需要多個尺度的窗,Anchors恰好可以解決這個問題,它給出一個基準窗大小,按照倍數(shù)和長度比例得到不同大小的窗如。在文獻[10]中基準窗大小為16,給了三種尺度{1282,2562,5122},三種比例{1:1,1:2,2:1}因此每個位置都有3*3=9 個anchor,如圖3。

圖3 9種anchor

9 種anchors 主要作用如圖4 所示,在遍歷卷積層獲得特征圖以后,為每一個點配置9種anchors作為初始的檢測框。

圖4 RPN網(wǎng)絡(luò)

給每個anchor后面連接兩部分,一個是二分類soft max,有兩個score 輸出用來表示其是一個物體的概率與不是一個物體的概率(pi)。另一個是邊框的回歸輸出代表一個anchor 的4 個坐標位置(ti),因此RPN的總體LOSS函數(shù)可以定義為

上述式(1)里面的i表示有i個anchor,pi是anchor預(yù)測為目標的概率,p*i表示如下:

由式(2)可知當anchor 為正樣本的時候p*i為1,當anchor 為負樣本的時候p*i為0。ti={tx,ty,tw,th}是一個向量,表示預(yù)測框相對于anchor 框的偏移,而t*i表示標定的框相對于anchor 框的偏移,ti和t*i具體計算如下:

式(3)里面的x,y,w,h 是框的中心坐標、寬、高,整體表示為χ ,變量χ 指預(yù)測框,變量χa表示錨點,而變量χ*是指標定的框。

式(1)里面的Lcls(pi,p*i)是指目標和非目標的對數(shù)損失,而Lreg(ti,t*i)是指回歸損失,這兩個損失的表示如式(4):

3 數(shù)學(xué)公式數(shù)據(jù)集建立

為了實現(xiàn)數(shù)學(xué)符號的分割,本文數(shù)據(jù)庫共包含30530 張圖像,這些數(shù)據(jù)可以分成兩部分,第一部分是帶標記的測試和驗證的數(shù)據(jù);第二部分是沒有進行標記的測試數(shù)據(jù)。在進行數(shù)學(xué)符號分割的時候,創(chuàng)建了四組圖像,分別如下:

1)train:訓(xùn)練數(shù)據(jù);

2)Val:驗證數(shù)據(jù)。驗證數(shù)據(jù)可用于額外的訓(xùn)練數(shù)據(jù);

3)trainval:訓(xùn)練數(shù)據(jù)(train)和驗證數(shù)據(jù)(val)相加的總數(shù)據(jù)集;

4)test:測試數(shù)據(jù)。數(shù)據(jù)庫中沒有提供測試集,這個數(shù)據(jù)集合是在進行測試的時候隨機可以產(chǎn)生的數(shù)據(jù)。

因為數(shù)學(xué)符號的多樣性,所以在進行數(shù)學(xué)公式分割的時候,不僅需要考慮各種類型的公式,如:分式,根式以及積分等,另外還需要包含所有類型的符號,比如字母,數(shù)字,希臘字母等,詳細如表1 所示。

表1 數(shù)學(xué)符號分類

從表1可知數(shù)學(xué)符號總共178類。起初建立數(shù)據(jù)庫里面包含了134類字符集,每類字符包含了45種字體,總共6030 種,后面為了使得數(shù)據(jù)庫完善又陸續(xù)增加44 類字符集,如此單個數(shù)學(xué)符號總共建立8010 種。因為需要進行的數(shù)學(xué)公式分割,所以使 用 了Suzuke 等 人 為Infty 項 目[17]創(chuàng) 建 的InftyCDB-1數(shù)據(jù)集,此數(shù)據(jù)集主要包括字符信息以及一些特征,如邊框、大小、與父符號的關(guān)系等,它摘自與30 篇發(fā)表的英文科學(xué)論文。雖然InftyCDB-1里面包含的公式類型比較多,但是如果要進行深度學(xué)習(xí)訓(xùn)練數(shù)據(jù)量遠遠不夠,因此為了定向的產(chǎn)生所需要的不同類型的數(shù)學(xué)公式,本文利用C 語言結(jié)合Latex 創(chuàng)建出不同類型的數(shù)學(xué)公式,創(chuàng)建公式的流程如下:

1)首先利用C 語言輸出Latex 格式的數(shù)學(xué)公式,分別用不同函數(shù)創(chuàng)建分式,根式,積分,指數(shù)等,然后將其組合起來,形成多個不同形式的數(shù)學(xué)公式。

2)將C 語言輸出的Latex 格式的數(shù)學(xué)公式輸出到txt 文檔里面,接著利用WinEdt7.0 將Latex 格式的數(shù)學(xué)公式轉(zhuǎn)換成標準數(shù)學(xué)公式,最后以pdf 格式輸出

3)利用shutter 截取pdf 文檔里面的公式,如此獲得數(shù)學(xué)公式數(shù)據(jù)集。

雖然利用Latex 可以創(chuàng)建大量數(shù)學(xué)公式,但是創(chuàng)建出來的數(shù)據(jù)都是標準的數(shù)學(xué)公式,不會產(chǎn)生粘連的數(shù)學(xué)符號,因此為了實現(xiàn)對粘連符號的分割,本文單獨建立粘連符號數(shù)據(jù)庫500張。

為了獲取到更多的數(shù)據(jù)集,對已創(chuàng)建的數(shù)據(jù)(除了數(shù)學(xué)符號以外)進行各種圖像處理,如:加噪和濾波等。本文主要通過對原圖像增加椒鹽、斑點和高斯噪聲,另外分別對原圖像、斑點圖像和高斯圖像進行濾波。

整理上述方法,匯總出數(shù)據(jù)獲得的方法以及總的數(shù)據(jù)集,如表2所示。

表2 數(shù)據(jù)集

數(shù)據(jù)集除了圖像數(shù)據(jù)外還包括標簽數(shù)據(jù),本文通過LabelImage 來標定圖像中的目標進而獲取到標簽數(shù)據(jù)。LabelImag 是一個可視化的圖像標定工具,本文在Ubuntu16.04下安裝配置了它,因為通過LabelImage 制作的格式和PASCALVOC 一樣,所以將它用于Faster R-CNN 目標檢測非常方便與合適。通過使用此軟件本文總結(jié)了一些使用方法,可以靈活對其操作與修改,總結(jié)如下:

1)在進行標記之前可提前將需要的各個分類存儲在predefined_classes 文檔里面,在進行標注工作的時候直接選擇即可;

2)在進行標記工作的時候可以用快捷鍵w 直接進行繪制標記,另外用a 和d 分別對圖像進行前后頁的切換;

3)當標注出現(xiàn)錯誤的時候可打開file文件下面的Open Annotation對已經(jīng)標記的文件進行修改。

對表2 中的數(shù)學(xué)符號、InftyCDB 數(shù)據(jù)、Latex 獲取的公式以及粘連公式都需要使用LabelImage 進行標記而圖像處理以后的公式則不需要,因為其是通過前面已經(jīng)創(chuàng)建好的公式經(jīng)過圖像處理得到的,圖像里面需要標記的目標坐標未發(fā)生改變,因此可直接使用之前已經(jīng)標記好的文件。因為Faster R-CNN 數(shù)據(jù)集要求的是統(tǒng)一的命名格式,所以本文使用Replace Pionner對數(shù)據(jù)集進行統(tǒng)一的命名。

4 實驗結(jié)果

4.1 實驗配置及數(shù)據(jù)

實驗的機器軟硬件配置見表1 所示。本文使用的是深度學(xué)習(xí)計算框架Caffe,并參考使用了Caffe上面的一些層次結(jié)構(gòu),實驗配置如表3所示。

表3 實驗配置

4.2 實驗數(shù)據(jù)及結(jié)果

為了測試深度學(xué)習(xí)是否可以對數(shù)學(xué)公式進行分割,本文首先對普通的數(shù)學(xué)符號進行了分割,接著對粘連符號進行分割。本文將粘連符號分成三類:水平粘連,垂直粘連和對角線粘連。為了能夠準確描述分割的精確度,本文引入了符號切分正確率(Accurate Rate,AR)這個性能指標,AR 是指系統(tǒng)正確切分的符號數(shù)在總測試樣本里面所占的比例,其定義為

上述公式中WN 表示的是公式里面總的符號數(shù),AN 表示正確分割的符號數(shù)。AR 越大,那么表示符號分割算法設(shè)計的越合理,通過實驗對比得出如表4。

表4 分割結(jié)果

圖5~6 是數(shù)學(xué)公式符號分割的最終效果圖,通過實驗數(shù)據(jù)可知,深度學(xué)習(xí)能夠有效地對數(shù)學(xué)公式符號進行定位與分割,尤其是在對粘連符號進行分割的時候,降低了分割的難度,提高符號分割的正確率。

圖5 無粘連數(shù)學(xué)符號切分結(jié)果

圖6 粘連數(shù)學(xué)符號切分結(jié)果

5 結(jié)語

本文利用深度學(xué)習(xí)Faster R-CNN 網(wǎng)絡(luò)對數(shù)學(xué)符號進行了分割,為了建立完善的數(shù)據(jù)集制定了一系列的規(guī)范,以方便其他人對數(shù)據(jù)集的增加以及修改。在對水平粘連符號進行分割的時候因為其多變性導(dǎo)致分割不是很理想,在接下來的研究中將著重解決這一問題。

猜你喜歡
數(shù)學(xué)公式公式符號
形神兼?zhèn)?,聚焦小學(xué)數(shù)學(xué)公式定律教學(xué)策略
組合數(shù)與組合數(shù)公式
排列數(shù)與排列數(shù)公式
學(xué)符號,比多少
“+”“-”符號的由來
數(shù)學(xué)難題解開啦
例說:二倍角公式的巧用
活用數(shù)學(xué)公式 優(yōu)化數(shù)學(xué)課堂
草繩和奇怪的符號
中國符號,太美了!
繁峙县| 临夏县| 昌乐县| 高密市| 奉化市| 香港| 徐闻县| 翁源县| 汉阴县| 泰州市| 新和县| 汝州市| 房山区| 栖霞市| 大邑县| 广汉市| 库尔勒市| 广德县| 洞口县| 德保县| 甘洛县| 南川市| 枣阳市| 云霄县| 遂川县| 西峡县| 高青县| 海宁市| 新闻| 淅川县| 鹤岗市| 犍为县| 多伦县| 札达县| 绩溪县| 民权县| 绥德县| 九龙城区| 澜沧| 贵南县| 治多县|