張楊
摘要:一般來說,傳統(tǒng)的文字識別算法提取存在著識別困難,提取特征難的問題。對此,本文研究一種基于深度學(xué)習(xí)的字符識別方法。在實際應(yīng)用過程中,首先,通過OSTU能夠?qū)ξ淖謪^(qū)域進行全面的提取。而后,借助投影統(tǒng)計法,對單個文字圖片進行切割。切割完成后,能夠?qū)ι窠?jīng)網(wǎng)絡(luò)層的變化情況以及神經(jīng)元數(shù)量進行識別。從而對網(wǎng)絡(luò)模型進行分析。通過研究能夠發(fā)現(xiàn),基于深度學(xué)習(xí)的字符識別能夠有效提升模型識別的正確率,經(jīng)過優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)識別正確率能夠達到99.98%。具有良好的應(yīng)用效果。
關(guān)鍵詞:深度學(xué)習(xí);光學(xué)字符識別;卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP391.41;TP18文獻標識碼:A文章編號:1672-9129(2020)07-0126-01
Abstract:In general, the traditional text recognition algorithm is difficult to extract the recognition, the extraction of features is difficult. In this paper, a character recognition method based on deep learning is studied. In practice, first of all, the text area can be fully extracted by OSTU. Then, with the help of projection statistics, a single text image is cut. After cutting, the changes of the neural network layer and the number of neurons can be identified. Then the network model is analyzed. Through the research, it can be found that the character recognition based on deep learning can effectively improve the accuracy of model recognition, and the optimized convolutional neural network recognition accuracy can reach 99.98%. It has good application effect.
Key words:deep learning;Optical character recognition;Convolutional neural network
1引言
隨著網(wǎng)絡(luò)信息化的迅速發(fā)展,傳統(tǒng)的文字識別算法已經(jīng)逐漸被時代淘汰。由于文字識別算法在實際應(yīng)用中存在特征提取難的問題。由此,為了能夠進一步提升字符識別的效率,本文研究一種基于深度學(xué)習(xí)的字符識別方法。借助神經(jīng)網(wǎng)絡(luò)層,可以對神經(jīng)元數(shù)量進行識別。并且能夠?qū)?yōu)化過后的網(wǎng)絡(luò)模型進行全面的分析。基于深度學(xué)習(xí)的字符識別模型識別率更高,準確率更佳,能夠應(yīng)用到多個領(lǐng)域,具有良好的應(yīng)用效果。
2網(wǎng)絡(luò)結(jié)構(gòu)與優(yōu)化策略
2.1 網(wǎng)絡(luò)優(yōu)化策略。深度學(xué)習(xí)作為當(dāng)代人工智能的一個分支,也是機器學(xué)習(xí)的衍生部分。深度學(xué)習(xí)不僅能夠?qū)崿F(xiàn)任務(wù)學(xué)習(xí),還能夠?qū)W(xué)習(xí)對象的特征、特質(zhì)等進行模仿。而且能夠?qū)W(xué)習(xí)對象的簡單特征進行提取,從而捕捉到更加復(fù)雜的特征,展開學(xué)習(xí)。通過展開網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化,能夠彌補其中存在的問題。本文中通過英語多層神經(jīng)網(wǎng)絡(luò),可以解決運算異常等問題。神經(jīng)網(wǎng)絡(luò)一般采取多層結(jié)構(gòu)。其中,搭建神經(jīng)網(wǎng)絡(luò)的輸入層也是神經(jīng)網(wǎng)絡(luò)的第一層,沒個神經(jīng)層中的神經(jīng)元都有一個與之對應(yīng)的取值。同層節(jié)點之間相互保持獨立,并不存在關(guān)聯(lián)性。依照神經(jīng)層同層的傳遞方向,與后一層的節(jié)點進行連接,最終達到輸出層。也就是神經(jīng)層的最后一層。通常情況下,神經(jīng)層的傳遞都是按照統(tǒng)一的方向性進行的,并且在傳遞的過程中只能夠支持單項的路徑傳遞,傳遞的過程不可逆。隱藏層分布在輸入/輸出層之間。在整個網(wǎng)絡(luò)中,全部的神經(jīng)元都具有同樣的特征,并且結(jié)構(gòu)完全相同。
2.2 參數(shù)取值以及學(xué)習(xí)率的控制。在網(wǎng)絡(luò)優(yōu)化過程中,還需針對網(wǎng)絡(luò)的參數(shù)取值進行合理的選擇[1]。本文中所進行的網(wǎng)絡(luò)優(yōu)化策略中,主要結(jié)合BP算法以及梯度下降法,對網(wǎng)絡(luò)中的參數(shù)進行選取。在應(yīng)用神經(jīng)網(wǎng)絡(luò)的過程中,通過參數(shù)調(diào)優(yōu),能夠有效提升神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效果,并且能夠提升網(wǎng)絡(luò)的優(yōu)化率,將會對神經(jīng)網(wǎng)絡(luò)的識別性能的優(yōu)劣產(chǎn)生直接的影響。參數(shù)調(diào)優(yōu)作為其中最為關(guān)鍵的步驟,采取梯度下降法,可以對神經(jīng)網(wǎng)絡(luò)的識別性能進行優(yōu)化處理。通過將單一的參數(shù)進行迭代,使之更新到最優(yōu)值,可以更加有效的確認參數(shù)取值。與此同時,借助反向傳播算法,與用梯度下降算法相結(jié)合,可以有效地提升參數(shù)取值的整體質(zhì)量。通過學(xué)習(xí)率控制參數(shù)更新的幅度,能夠保證參數(shù)的更新始終維持在一個較為平和的水平范圍內(nèi)。學(xué)習(xí)率作為控制神經(jīng)網(wǎng)絡(luò)最為關(guān)鍵的部分,也是神經(jīng)網(wǎng)絡(luò)的超級參數(shù)。在對學(xué)習(xí)率進行控制時,應(yīng)先設(shè)置初始學(xué)習(xí)率,避免由于學(xué)習(xí)率過大或者過小,造成參數(shù)的浮動范圍變大,參數(shù)的取值不合理等情況出現(xiàn)。
3識別實驗結(jié)果比對
3.1 基于模版的方法kNN。為了能夠?qū)Ρ疚目偹岬降乃惴ㄗR別性能進行驗證,展開識別實驗,并且對最終的實驗結(jié)果進行分析。首先,根據(jù)切割算法及歸一化處理能夠得到,在應(yīng)用切割算法過程中,在規(guī)定的大小區(qū)域中,通過切割所得到的字符相對較為固定。因此,借助模板匹配法結(jié)合kNN算法,對其進行識別。眾所周知,kNN算法也被稱作最近鄰法。由于每個字符的取值不同,因此選取一定數(shù)值并且具有代表性的字符,通過對這些不同相態(tài)的字符進行集合,將之看成是一個標準的模板[2-3]。在進行圖片識別工作時,借助圖片的像素點作為檢測對象,針對模板內(nèi)部的全部圖片,對其像素點進行計算,得到像素點的灰度差值。將計算過后的模板與圖片的灰度差值進行處理,求出像素差值絕對之和選取5張模版,與待識別圖片像素差值絕對值之和最小的圖片展開統(tǒng)計,并且對圖片進行歸類。最終可以根據(jù)排序的結(jié)果,作為判斷的依據(jù)。
3.2 卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)在近幾年得到了較為迅猛的發(fā)展,此種神經(jīng)網(wǎng)絡(luò)也是一種深度前饋人工神經(jīng)網(wǎng)絡(luò)。在實際應(yīng)用過程中,具有無可替代的優(yōu)勢。首先,選擇應(yīng)用卷積神經(jīng)網(wǎng)絡(luò),借助神經(jīng)網(wǎng)絡(luò)中特有的卷積層,能夠?qū)⒉煌窠?jīng)層的輸入/出進行連接。下一層的輸出層可以與上一層的輸入層進行連接。與此同時,借助權(quán)值共享,能夠刪減掉不必要的網(wǎng)絡(luò)參數(shù)量。這樣一來,就減少了網(wǎng)絡(luò)的冗余。卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)包括輸入層、全連接層以及卷積層。其中輸入層中包含卷積層以及池化層。在神經(jīng)網(wǎng)絡(luò)運行過程中,往往需要經(jīng)過多次的卷積層、池化層處理,卷積神經(jīng)網(wǎng)絡(luò)在輸出前通常會經(jīng)過全連接層。本次實驗中為了能夠更好的對神經(jīng)網(wǎng)絡(luò)的字符識別進行研究,選用了8層的卷積網(wǎng)絡(luò),其中包含3個池化層以及2個卷積層。
3.3 實驗結(jié)果以及分析。通過展開深度學(xué)習(xí)的字符識別實驗,能夠看出,借助神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí),能夠有效提升字符識別的效率。并且借助深度學(xué)習(xí)的特性,避免了以往字符識別檢測提取過程的繁瑣。通過分析實驗結(jié)果,能夠看出,使用神經(jīng)網(wǎng)絡(luò)識別識別正確率更高,識別速度更快,具有良好的應(yīng)用前景。
4結(jié)論
綜上所述,深度學(xué)習(xí)作為人工智能的一個分支,在計算機技術(shù)發(fā)展日益加快的今天,具有重要意義、對此,本文主要研究一種基于深度學(xué)習(xí)的字符識別方法,并且展開了相關(guān)的實驗。通過分析實驗結(jié)果能夠看出,基于深度學(xué)習(xí)的字符識別方法識別效果更佳,正確率更高。
參考文獻:
[1]王光軍. 基于神經(jīng)網(wǎng)絡(luò)的自然場景中的字符識別算法的研究與實現(xiàn)[D].電子科技大學(xué),2020.
[2]李穎. 基于BERT-DPCNN的垃圾彈幕識別改進及應(yīng)用[D].上海師范大學(xué),2020.
[3]陳澤瀛.一種基于自適應(yīng)非極大值抑制的文本檢測算法[J].數(shù)字技術(shù)與應(yīng)用,2020,38(03):117-120.