国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的數(shù)學(xué)書面作業(yè)智能批閱研究

2020-07-22 09:55黃松豪徐建華杜佳玲
電腦知識(shí)與技術(shù) 2020年12期
關(guān)鍵詞:圖像處理深度學(xué)習(xí)

黃松豪 徐建華 杜佳玲

摘要:針對(duì)深度學(xué)習(xí)如何應(yīng)用于數(shù)學(xué)書面作業(yè)批閱問(wèn)題,通過(guò)對(duì)圖像的預(yù)處理以及優(yōu)化圖片訓(xùn)練集和圖像處理算法,實(shí)現(xiàn)文本字符切割,采用Tesseract-OCR光學(xué)字符識(shí)別方法,訓(xùn)練公式中存在的字符樣本,通過(guò)與紙面上的公式匹配提高識(shí)別的準(zhǔn)確性,最后采用java可視化界面實(shí)現(xiàn)算式識(shí)別的功能,對(duì)不同情況下拍攝的照片進(jìn)行測(cè)試。測(cè)試結(jié)果表明該系統(tǒng)高效、精準(zhǔn)、實(shí)用。

關(guān)鍵詞:深度學(xué)習(xí);圖像處理;光學(xué)字符識(shí)別;算式識(shí)別

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)12-0196-02

教育領(lǐng)域?qū)ψ鳂I(yè)批改智能化的需求越來(lái)越多。教師每天需要批改大量數(shù)學(xué)作業(yè),費(fèi)時(shí)費(fèi)力。將紙質(zhì)作業(yè)拍攝成照片用機(jī)器智能識(shí)別并評(píng)判成為一個(gè)有價(jià)值的課題。當(dāng)前市場(chǎng)上已推出多個(gè)OCR產(chǎn)品廣泛應(yīng)用于車牌識(shí)別、名片識(shí)別、身份證識(shí)別等。但這些OCR產(chǎn)品中,除了Tesseract OCR外,其他均為商業(yè)性軟件,收費(fèi)高。由于并無(wú)與教學(xué)場(chǎng)景具有對(duì)應(yīng)性的專項(xiàng)算式字庫(kù),造成實(shí)際識(shí)別度并不高,無(wú)法直接應(yīng)用于書面作業(yè)的識(shí)別。本文研究如何將OCR技術(shù)運(yùn)用于學(xué)校的數(shù)學(xué)書面作業(yè)批改與分析中,設(shè)計(jì)具有可實(shí)施性的識(shí)別方法。

1方法

1.1作業(yè)圖像處理

由于拍攝受外面環(huán)境的影響,如空氣中的塵埃,光照,攝像頭拍攝角度等因素影響,作業(yè)圖像處理容易受到干擾。為確保圖像質(zhì)量,提高字符識(shí)別度,在機(jī)器進(jìn)行識(shí)別之前需要對(duì)圖像進(jìn)行一定的預(yù)處理。排除對(duì)應(yīng)圖像中存在的各項(xiàng)干擾項(xiàng),以提升圖像處理效果,為字符識(shí)別創(chuàng)造條件。在OCR技術(shù)應(yīng)用時(shí),首先開(kāi)展的預(yù)處理工作流程可以分為讀取圖片、灰度化、二值化、降噪等。

1.1.1作業(yè)圖像灰度化

我們?nèi)粘K?jiàn)的圖片,其實(shí)都是由RGB模型(Red,Green,Blue)組成,如果R=G=B時(shí),則表示一種灰度色,因此各灰度像素可通過(guò)單個(gè)字節(jié)的方式進(jìn)行灰度值存放,相應(yīng)的灰度值結(jié)果介于0至255之間,通常對(duì)圖片進(jìn)行二值化之前都要進(jìn)行灰度化操作,經(jīng)過(guò)灰度化操作的圖像在進(jìn)行二值化處理時(shí)的效率就會(huì)高很多,并且能有效地減少圖像中的噪聲像素,當(dāng)前常見(jiàn)的灰度化算法包括分量法、最大值法、加權(quán)平均法等。在紙面作業(yè)拍攝過(guò)程中,時(shí)常會(huì)遇到圖像亮度分布不均衡的情況,為便于后續(xù)處理,本論文選用加權(quán)平均法的方式進(jìn)行處理,對(duì)坐標(biāo)為(x,y)的像素點(diǎn)進(jìn)行灰度化,見(jiàn)公式(1):

Gray(x,y)=0.31Red(x,y)+0.591Green(x,y)+0.11Blue(x,y)(1)

1.1.2作業(yè)圖像二值化

在作業(yè)圖像處理流程中,圖像二值化是其中的一項(xiàng)重要環(huán)節(jié),在進(jìn)行視覺(jué)檢測(cè)、智能識(shí)別時(shí),都需要開(kāi)展圖像二值化工作?,F(xiàn)階段常見(jiàn)的二值化算法主要包括固定閾值法、雙閾值法、大律法、遞歸閾值法等。在經(jīng)過(guò)上文的灰度化處理之后,本文對(duì)比上述方法發(fā)現(xiàn)圖像采用固定閾值二值化處理會(huì)方便許多,拍攝的紙質(zhì)作業(yè)經(jīng)過(guò)灰度化處理之后,通過(guò)迭代的閾值分析,選取出170作為最優(yōu)閾值,處理之后的圖像效果非常理想。

1.1.3作業(yè)圖像降噪

圖像噪聲主要是指圖片中所出現(xiàn)的不必要、對(duì)圖片質(zhì)量造成干擾的像素信息。在生活中進(jìn)行拍攝或傳輸時(shí),可能形成圖像噪聲,這會(huì)在一定程度上降低圖像質(zhì)量,使得機(jī)器和人眼對(duì)圖像的敏感度下降,成為后期圖像識(shí)別等一系列操作中的難題。圖像降噪處理可以在很大程度上降低這些噪音數(shù)據(jù)給后期進(jìn)行識(shí)別帶來(lái)的麻煩。圖像降噪工作不光可以使得圖像更為平滑,更能突出圖像的主要表達(dá)信息,也是對(duì)圖像進(jìn)行識(shí)別時(shí)需要首先開(kāi)展的前提工作,圖像識(shí)別的前期進(jìn)行降噪處理能夠很好地提高后期識(shí)別的精準(zhǔn)度和識(shí)別速度。

圖像中出現(xiàn)頻率較高的噪聲可以分為椒鹽噪聲、瑞麗噪聲、高斯噪聲等,本文的處理對(duì)象為普通圖像中的椒鹽噪聲。

椒鹽噪聲通常是圖片中在隨機(jī)位置形成的黑點(diǎn)或白點(diǎn)。其產(chǎn)生大部分是由圖片的切割出現(xiàn)問(wèn)題引起,一般對(duì)應(yīng)于這種情況,可以采用中值濾波的方式實(shí)現(xiàn)椒鹽噪聲消除。

中值濾波是將周圍的像素進(jìn)行排序之后進(jìn)行排序取出中值來(lái)替代各點(diǎn)。同時(shí)它也是目前消除圖像噪聲最常用的方法之一,特別是對(duì)于椒鹽噪聲的降噪效果。因此中值濾波進(jìn)行噪聲消除成為本文的首選方法。

1.2作業(yè)圖像OCR技術(shù)

Tesseract是由普惠實(shí)驗(yàn)室進(jìn)行研發(fā)后來(lái)交由谷歌優(yōu)化升級(jí)的開(kāi)源OCR引擎。同時(shí)也是當(dāng)前市場(chǎng)上較少能夠支持漢字的專項(xiàng)開(kāi)源識(shí)別庫(kù)。Tesseract精確性較高,在1995年的全球測(cè)試中排名第三位,其精準(zhǔn)度與商業(yè)領(lǐng)域的OCR技術(shù)引擎十分接近。用戶可以根據(jù)自己的需求有針對(duì)性地進(jìn)行樣本數(shù)據(jù)的訓(xùn)練,并且研發(fā)出滿足自身實(shí)際需要的專用引擎。本文以Tesseract為基礎(chǔ),首先研究作業(yè)批改要進(jìn)行的流程和實(shí)現(xiàn)細(xì)節(jié),然后開(kāi)發(fā)了作業(yè)批改OCR引擎。

Tesseract的識(shí)別主要基于KNN算法。KNN算法又叫K鄰近算法,是分析測(cè)試圖片中的每個(gè)像素點(diǎn)和樣本圖像中對(duì)應(yīng)像素點(diǎn)距離的總和實(shí)現(xiàn)的,一般計(jì)算距離的方式有歐氏距離和曼哈頓距離兩種方式(歐氏距離采用較多),將距離最近的K個(gè)點(diǎn)排序出來(lái),選取其中出現(xiàn)頻率最高的幾個(gè)樣本標(biāo)簽作為預(yù)測(cè)值。Tesseract使用KNN算法來(lái)返回預(yù)測(cè)的值。圖1展示了基于Tesseract的作業(yè)批改OCR引擎訓(xùn)練步驟:

1.2.1字庫(kù)訓(xùn)練步驟

(1)生成Tiff圖片集。在進(jìn)行訓(xùn)練集的生成前,需要先準(zhǔn)備一些自己手寫字符的圖片和電腦印刷體字符的圖片。并確保各字符產(chǎn)生的最低頻次。通常而言,對(duì)于較少出現(xiàn)的字符需保持十次以上的數(shù)量樣本,對(duì)于較多出現(xiàn)的字符需保持二十次以上的數(shù)量樣本。尤其在進(jìn)行字庫(kù)訓(xùn)練時(shí),需將該字庫(kù)中的樣本圖片作出整合,放入專用Tiff圖片集中,以備后期訓(xùn)練時(shí)處理。需要特別注意的是,在一個(gè)字庫(kù)的訓(xùn)練樣本中,要確保文本字體統(tǒng)一。若有多種字體的要求,要分開(kāi)訓(xùn)練成不同的字庫(kù)。把準(zhǔn)備好的同一個(gè)字庫(kù)的樣本圖片整合進(jìn)一個(gè)Tiff圖片集里面,供后面訓(xùn)練使用。實(shí)現(xiàn)步驟首先打開(kāi)JTessBoxEditor,隨后以此打開(kāi)打開(kāi)tools選項(xiàng)和merge tif選項(xiàng),點(diǎn)擊樣本圖片,生成Tiff格式圖片集。

(2)生成Box文件。在字庫(kù)訓(xùn)練過(guò)程中,需要開(kāi)展文本檢測(cè)工作,對(duì)文本做出定位,且形成包圍框。Box文件會(huì)有序的檢索樣本圖片中的字符,并且用藍(lán)框上下左右包圍當(dāng)前字符以及顯示當(dāng)前字符的坐標(biāo)位置。

(3)修正Box文件,更正樣本中存在的各項(xiàng)識(shí)別錯(cuò)誤。修改Box文件,糾正樣本中的識(shí)別錯(cuò)誤問(wèn)題。在識(shí)別復(fù)雜情況下拍攝的圖片時(shí),Tesseract識(shí)別率較低,造成Box文件中出現(xiàn)較多錯(cuò)誤字符。因此需采取手動(dòng)修正的方式進(jìn)行更改。盡管該過(guò)程耗時(shí)較長(zhǎng),但是能夠直接的影響最后識(shí)別效果的精準(zhǔn)度。實(shí)現(xiàn)步驟首先打開(kāi)JTessBoxEditor,選擇BoxEditor選項(xiàng),最后單擊Open,選擇Tiff圖片集。打開(kāi)之后將Tiff圖片集與Box文件處于同一層目錄,否則會(huì)沒(méi)有字符坐標(biāo)、識(shí)別結(jié)果等對(duì)應(yīng)信息。

隨后對(duì)左側(cè)文字識(shí)別錯(cuò)誤做出修改,并且可以通過(guò)Merge、Split、Insert、Delete來(lái)對(duì)識(shí)別框進(jìn)行合并、分離、添加和刪除。

(4)生成Unicharset文件。該文件包括Tesseract引擎在完成訓(xùn)練后所識(shí)別的各字符信息,因此也被視為Tesseract新字庫(kù)中的重要組成項(xiàng)目,該文件會(huì)顯示當(dāng)前文件中存在多少個(gè)字符,以及每個(gè)字符的信息。

(5)創(chuàng)建字體特征專用文件。在日常生產(chǎn)生活中,同一語(yǔ)言可能會(huì)出現(xiàn)手寫體、印刷體等多種字體,因此在訓(xùn)練集中出現(xiàn)的字體形式也較多。創(chuàng)建專用的font.txt文件,里面的內(nèi)容為“”。

其中“font-name”可以表明對(duì)應(yīng)字體的具體名稱,與前面的Box文件名相對(duì)應(yīng)。

(6)編制作業(yè)批改的詞典。為加強(qiáng)搜索效果,Tesseract中的詞典以向無(wú)環(huán)字圖(DAWC)進(jìn)行表示,DAWG可以支持多部詞典搜索,如系統(tǒng)詞典、文檔詞典、用戶自建的單詞詞典等。寫詞典時(shí),首先建一個(gè)TXT文件,每行一個(gè)字,將所有四則運(yùn)算中會(huì)出現(xiàn)的字符都寫入文件中,然后保存為UTF-8文本文件。

(7)整理形成模糊字文件。模糊字文件不是生成最終文字庫(kù)必需的文件,但能夠有效識(shí)別并修改存在的錯(cuò)誤,提高實(shí)際應(yīng)用中的準(zhǔn)確率,保存為UTF-8格式的文本文檔,并以“unicharambigs”進(jìn)行命名,在創(chuàng)建該文件時(shí),需做出多次驗(yàn)證,找尋常見(jiàn)的易錯(cuò)字符,這也是模糊字文件整體形成的關(guān)鍵。

(8)創(chuàng)建.traineddata格式的訓(xùn)練文件。步驟為:首先以“tesser-act名稱,tif名稱nobatchbox.train”的方式創(chuàng)建TR文件;再通過(guò)“mftraining-F font-Unicharset名稱.tr”指令,并將對(duì)應(yīng)的字體加入,tr文件;隨后,啟用“cntraining why4.tr”命令,會(huì)發(fā)現(xiàn)文件夾下生成了很多新文件,對(duì)這些文件加上前綴,以“combine_tessdata why4”命令的方式實(shí)現(xiàn)文件合并,即形成專項(xiàng)字典文件。

2識(shí)別準(zhǔn)確率的驗(yàn)證結(jié)果及分析

為驗(yàn)證該方法的有效性,從南京某校園內(nèi)收集作業(yè)100份,統(tǒng)計(jì)題目共1000條,利用開(kāi)發(fā)的作業(yè)識(shí)別應(yīng)用進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果為其中911條識(shí)別完全正確,另外89條有識(shí)別錯(cuò)誤,準(zhǔn)確率為91.1%。識(shí)別結(jié)果如圖2所示,從圖中可見(jiàn),大部分的識(shí)別能夠保證正確并且也能做出正確判斷,只有少數(shù)的數(shù)據(jù)存在識(shí)別異?;蛘咦R(shí)別錯(cuò)誤的情況,圖中可以看出第三行將“1”識(shí)別成“+”,第五行將“1”識(shí)別成“0”,無(wú)法完成較好的錯(cuò)誤糾正,只能通過(guò)Tesseract判斷,故識(shí)別錯(cuò)誤率較高。圖片清晰度較差也會(huì)對(duì)圖像的處理造成很大的問(wèn)題,添加識(shí)別難度,故圖片拍攝光線較好的情況下識(shí)別正確率會(huì)大大提高。

3討論與總結(jié)

經(jīng)實(shí)驗(yàn)得到總體識(shí)別率能保持在91.1%,精準(zhǔn)度相對(duì)較高,基本滿足正常情況下的應(yīng)用,其中少數(shù)的錯(cuò)誤需要老師或者家長(zhǎng)進(jìn)行手動(dòng)校對(duì),而對(duì)于這些錯(cuò)誤,最根本的辦法就是提高樣本的數(shù)量以及質(zhì)量,在往后實(shí)際應(yīng)用的深度優(yōu)化中擬采用BP算法對(duì)本文進(jìn)行進(jìn)一步的優(yōu)化以提高精準(zhǔn)度,在識(shí)別出現(xiàn)異常時(shí)用BP算法訓(xùn)練的數(shù)據(jù)集來(lái)替代模糊字文件進(jìn)行錯(cuò)誤矯正。

猜你喜歡
圖像處理深度學(xué)習(xí)
基于圖像處理的機(jī)器人精確抓取的設(shè)計(jì)與實(shí)現(xiàn)
機(jī)器學(xué)習(xí)在圖像處理中的應(yīng)用
Bayesian-MCMC算法在計(jì)算機(jī)圖像處理中的實(shí)踐
改進(jìn)壓縮感知算法的圖像處理仿真研究
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
基于圖像處理的定位器坡度計(jì)算
Photo Shop通道在圖像處理中的應(yīng)用
永宁县| 连南| 宁波市| 商丘市| 上犹县| 敦化市| 弥勒县| 平原县| 武安市| 志丹县| 上犹县| 蒲江县| 奉化市| 长汀县| 龙岩市| 志丹县| 玛沁县| 杭锦后旗| 凤庆县| 宜兰县| 灯塔市| 新巴尔虎左旗| 藁城市| 门源| 福贡县| 遵义县| 兖州市| 涞水县| 定边县| 昌邑市| 嘉兴市| 洛川县| 辽阳县| 峨眉山市| 泰来县| 涪陵区| 涿州市| 泰顺县| 延寿县| 垣曲县| 抚宁县|