国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的手寫(xiě)英文字體識(shí)別研究

2021-04-27 20:50:52高燕超
粘接 2021年7期
關(guān)鍵詞:深度學(xué)習(xí)

高燕超

摘 要:針對(duì)化學(xué)信息手寫(xiě)英文字體識(shí)別準(zhǔn)確率低,缺少類(lèi)別信息的問(wèn)題,本研究基于深度學(xué)習(xí),在傳統(tǒng)降噪自動(dòng)編碼器的基礎(chǔ)上,提出一種組合降噪自動(dòng)編碼和分類(lèi)降噪編碼的組合自編碼網(wǎng)絡(luò)算法,實(shí)現(xiàn)了對(duì)化學(xué)信息手寫(xiě)英文字體的數(shù)據(jù)特征提取和類(lèi)別特征提取。通過(guò)MNIST數(shù)據(jù)集和Chars74K數(shù)據(jù)集測(cè)試了該算法與分類(lèi)降噪自動(dòng)編碼算法在不同迭代次數(shù)、網(wǎng)絡(luò)結(jié)構(gòu)和降噪比例下對(duì)數(shù)據(jù)集的識(shí)別結(jié)果和識(shí)別性能。實(shí)驗(yàn)結(jié)果表明,本研究提出的組合自編碼算法的識(shí)別錯(cuò)誤率整體偏低,準(zhǔn)確包含了化學(xué)信息手寫(xiě)英文字體的類(lèi)別信息,證明該算法具有良好的手寫(xiě)英文字體識(shí)別效果。

關(guān)鍵詞:深度學(xué)習(xí);手寫(xiě)英文字體;自動(dòng)編碼器;組合自編碼網(wǎng)絡(luò)

中圖分類(lèi)號(hào):TP391 ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?? ? ? ? ? ? ? ? ? 文章編號(hào):1001-5922(2021)07-0084-04

Research on Handwritten English Font Recognition Baesd on Deep Learning

Gao Yanchao

(Baoji Vocational and Technical College, Baoji 721000, China)

Abstract:In order to solve the problem of low recognition accuracy and lack of category information of handwritten English fonts for chemical information, this study is based on deep learning, and on the basis of traditional noise reduction autoencoders, a combined self-encoding network algorithm combining noise reduction automatic coding and classification noise reduction coding is proposed, , which realizes the data feature extraction and category feature extraction of chemical information handwritten English font. MNIST data set and Chars74k data set are used to test the recognition results and recognition performance of the algorithm and classification noise reduction automatic coding algorithm under different iteration times, network structure and noise reduction ratio. The experimental results show that the recognition error rate of the combined self coding algorithm is low as a whole, and contains the chemical information of handwritten English fonts accurately, which proves that the algorithm has a good recognition effect of handwritten English fonts.

Key words:deep learning; handwritten English font; automatic encoder; combined self coding network

化學(xué)書(shū)稿中的手寫(xiě)英文字體包含了書(shū)寫(xiě)者個(gè)人的書(shū)寫(xiě)方式和書(shū)寫(xiě)習(xí)慣,為字體識(shí)別造成了一定程度的識(shí)別困難。傳統(tǒng)的圖像識(shí)別方法,如Hinton根據(jù)多層神經(jīng)網(wǎng)絡(luò)構(gòu)建的深度置信網(wǎng)絡(luò)[1],以及具有表征學(xué)習(xí)能力的卷積神經(jīng)網(wǎng)絡(luò)[2]。這些算法雖然在圖像識(shí)別過(guò)程中具有良好的特征提取能力,但隨著訓(xùn)練維度的增加,其處理的成本和復(fù)雜度更高,同時(shí)也無(wú)法解決手寫(xiě)體字符識(shí)別正確率低的問(wèn)題。因此,為解決以上問(wèn)題,本研究基于自動(dòng)編碼器,通過(guò)改進(jìn)分類(lèi)降噪自動(dòng)編碼算法,提出一種組合自編碼網(wǎng)絡(luò)算法,實(shí)現(xiàn)了對(duì)化學(xué)書(shū)稿中手寫(xiě)英文字體的數(shù)據(jù)特征提取和類(lèi)別特征提取,提高了對(duì)手寫(xiě)英文字體識(shí)別的正確率,降低了處理此類(lèi)信息的成本和復(fù)雜度。

1 基本算法

1.1 分類(lèi)降噪自動(dòng)編碼算法

分類(lèi)降噪自動(dòng)編碼器主要包括輸入層、隱藏層、輸出層三層結(jié)構(gòu)[3],輸入層的節(jié)點(diǎn)數(shù)和輸出層的節(jié)點(diǎn)數(shù)分別由輸入圖像維度和輸出圖像類(lèi)別數(shù)決定,并與之相同。令輸入數(shù)據(jù)為x,將x的分量隨機(jī)置為0得到? ? ,輸入? ?到分類(lèi)降噪自動(dòng)編碼器中,可得到輸出層第k個(gè)節(jié)點(diǎn)的輸出值為:

式(1)中,n表示隱藏層節(jié)點(diǎn)數(shù),vkj表示輸出層節(jié)點(diǎn)k與隱藏層節(jié)點(diǎn)j的連接權(quán)重,aj表示隱藏層節(jié)點(diǎn)j的激活值。

為使分類(lèi)降噪自動(dòng)編碼器中的隱藏層重構(gòu)的數(shù)據(jù)與實(shí)際類(lèi)別標(biāo)簽一一對(duì)應(yīng),即輸出層的輸出值與輸入數(shù)據(jù)的類(lèi)別實(shí)際值相近,還需通過(guò)訓(xùn)練網(wǎng)絡(luò)參數(shù)來(lái)使代價(jià)函數(shù)最小。代價(jià)函數(shù)J可表示為:

式(2)中,i 表示類(lèi)別個(gè)數(shù)。在訓(xùn)練網(wǎng)絡(luò)參數(shù)過(guò)程中,最小化代價(jià)函數(shù)的大小通過(guò)調(diào)整誤差的負(fù)梯度實(shí)現(xiàn)[4]。其中,輸入層節(jié)點(diǎn)i與隱藏層節(jié)點(diǎn)j的參數(shù)梯度更新公式如(3)(4),隱藏層節(jié)點(diǎn)j和輸出層節(jié)點(diǎn)k的參數(shù)梯度更新公式如(5)(6)。

式中,t表示迭代次數(shù),η表示學(xué)習(xí)步長(zhǎng),zj(t)表示輸入層的組合值,ek(t)表示實(shí)際值? ? 與預(yù)測(cè)值 yk在t次迭代后的誤差,zk(t)表示t次迭代后的隱藏層輸出組合值。

分類(lèi)降噪自動(dòng)編碼算法通過(guò)訓(xùn)練可獲得較多的類(lèi)別特征[5],但在實(shí)際應(yīng)用中,該算法容易忽略原始數(shù)據(jù)的數(shù)據(jù)特征,導(dǎo)致識(shí)別準(zhǔn)確率不高,故本研究對(duì)該算法進(jìn)行了改進(jìn),將結(jié)合標(biāo)準(zhǔn)降噪自動(dòng)編碼與分類(lèi)降噪自動(dòng)編碼,形成組合自編碼網(wǎng)絡(luò)算法,以提高算法識(shí)別的準(zhǔn)確率。

1.2 算法改進(jìn)

組合自編碼網(wǎng)絡(luò)算法包括降噪自動(dòng)編碼器、分類(lèi)降噪自動(dòng)編碼器、組合特征分類(lèi)器3個(gè)部分[7]。預(yù)訓(xùn)練過(guò)程中,降噪自動(dòng)編碼與分類(lèi)降噪自動(dòng)編碼各自獨(dú)立完成數(shù)據(jù)特征提取和類(lèi)別特征提取,并按照特征比例進(jìn)行拼接得到組合特征。然后,組合特征會(huì)進(jìn)入分類(lèi)器進(jìn)行訓(xùn)練,此時(shí),算法會(huì)根據(jù)最小化代價(jià)函數(shù)對(duì)模型參數(shù)進(jìn)行更新。最后,通過(guò)一定迭代次數(shù)的訓(xùn)練,得到識(shí)別結(jié)果。組合自編碼網(wǎng)絡(luò)算法結(jié)構(gòu)如圖1所示。

組合自編碼網(wǎng)絡(luò)算法流程首先是對(duì)輸入化學(xué)信息手寫(xiě)英文字體進(jìn)行預(yù)訓(xùn)練,然后從樣本集中隨機(jī)選取一個(gè)批次樣本進(jìn)行降噪處理,將降噪后得到的數(shù)據(jù)作為組合自編碼網(wǎng)絡(luò)的輸入,并通過(guò)向前傳播提取到數(shù)據(jù)特征和類(lèi)別特征[8]。最后,根據(jù)類(lèi)別特征比重對(duì)特征進(jìn)行重新組合,并計(jì)算出代價(jià)函數(shù)。若代價(jià)函數(shù)小于設(shè)定值或網(wǎng)絡(luò)迭代次數(shù)達(dá)到最大值,則訓(xùn)練結(jié)束;若代價(jià)函數(shù)大于閾值,則重復(fù)以上步驟直至訓(xùn)練結(jié)束。組合自編碼算法網(wǎng)絡(luò)算法具體步驟如圖2所示。

2 圖像預(yù)處理

在利用組合自編碼網(wǎng)絡(luò)算法進(jìn)行識(shí)別前,還需要對(duì)手寫(xiě)英文字體圖像進(jìn)行預(yù)處理,從而提高圖像處理的正確性。對(duì)此,本文采用灰度化、平滑去噪、二值化處理的方式對(duì)手寫(xiě)英文字體圖像進(jìn)行處理。

2.1 灰度化處理

圖像灰度化處理即使原始圖像的RGB分量全部相等[9]。由于手寫(xiě)英文字體識(shí)別只需識(shí)別圖像的形態(tài)信息,RGB并不能反映其形態(tài)特征,故采用圖像灰度化可除去對(duì)原始圖像中含有的不必要信息,進(jìn)而提高圖像的識(shí)別效率。目前,常用的圖像灰度化處理方法由分量法、最大值法等。

2.2 平滑去噪

平滑去噪即利用平滑濾波去除圖像中的噪聲。由于原始圖像采集過(guò)程中無(wú)法避免噪聲,這些噪聲對(duì)圖像特征提取產(chǎn)生影響,故需要進(jìn)行去噪處理。平滑去噪是圖像去噪常用的方法之一,其通過(guò)將原始圖像像素至與模板進(jìn)行對(duì)應(yīng),計(jì)算出輸出圖像的像素值。

2.3 二值化處理

圖像二值化處理即圖像的像素值只能為0或255[10]。二值化處理的主要方法是在原始圖像中設(shè)置適合圖像的閾值,并通過(guò)與閾值比較進(jìn)行二值映射。二值映射函數(shù)可表示為:

式(7)中,g(x,y)表示二值化后像素值,f (x,y)表示原始像素值,T表示閾值。

3 仿真實(shí)驗(yàn)

3.1 數(shù)據(jù)來(lái)源

本研究實(shí)驗(yàn)在MATLAB R2014a上進(jìn)行,并通過(guò)調(diào)用MATLAB中函數(shù)對(duì)化學(xué)書(shū)稿中的手寫(xiě)英文字體圖像進(jìn)行了預(yù)處理。實(shí)驗(yàn)數(shù)據(jù)集選自NIST數(shù)據(jù)集中的MNIST子庫(kù)。該數(shù)據(jù)集子庫(kù)包括不同書(shū)寫(xiě)風(fēng)格和不同書(shū)寫(xiě)習(xí)慣的手寫(xiě)體字符,其中有4萬(wàn)個(gè)訓(xùn)練樣本和2萬(wàn)個(gè)測(cè)試樣本,共6萬(wàn)個(gè)樣本。樣本包括含訓(xùn)練樣本圖像庫(kù)、測(cè)試樣本圖像庫(kù)、訓(xùn)練樣本標(biāo)簽庫(kù)、測(cè)試樣本標(biāo)簽庫(kù)四個(gè)文件。為測(cè)試算法在更多類(lèi)別的手寫(xiě)英文體字符的識(shí)別性能,本研究還在Chars74K手寫(xiě)英文字符數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集含26個(gè)類(lèi)別,對(duì)應(yīng)英文26個(gè)大寫(xiě)字母;每個(gè)類(lèi)別含55個(gè)字符圖片,部分字母圖片如圖3所示。

為提高算法的訓(xùn)練速度,在利用各算法進(jìn)行測(cè)試前,需要將MNIST數(shù)據(jù)集和Chars74k數(shù)據(jù)集的像素大小和文字大小的數(shù)據(jù)值縮小到一定范圍內(nèi)。本研究根據(jù)MNIST數(shù)據(jù)集和Chars74k數(shù)據(jù)集像素值實(shí)際大小[0,255],使用簡(jiǎn)單縮放將圖像數(shù)據(jù)像素值縮放到[0,1],并進(jìn)行仿真實(shí)驗(yàn)。

3.2 仿真結(jié)果

為驗(yàn)證本文提出的組合自編碼網(wǎng)絡(luò)識(shí)別手寫(xiě)英文字體的有效性,本研究首先比較了該算法與單一特征提取算法分類(lèi)編碼器在不同迭代次數(shù)、網(wǎng)絡(luò)結(jié)構(gòu)和降噪比例下對(duì)數(shù)據(jù)集的識(shí)別結(jié)果,然后在Chars74K數(shù)據(jù)集測(cè)試了該算法在類(lèi)別復(fù)雜的情況下對(duì)手寫(xiě)英文文字體圖像分類(lèi)識(shí)別性能。

3.2.1 不同迭代次數(shù)下各算法結(jié)果分析

令迭代次數(shù)為100,經(jīng)過(guò)編碼器預(yù)訓(xùn)練后,可得到初始化參數(shù),此時(shí)不同迭代次數(shù)中的各算法的識(shí)別錯(cuò)誤率就反映了它們各自的初始化效果和特征提取能力。圖4表示組合自編碼網(wǎng)絡(luò)與分類(lèi)編碼器算法的識(shí)別錯(cuò)誤率。

由圖4可知,組合自編碼網(wǎng)絡(luò)的在MNIST數(shù)據(jù)集上的識(shí)別錯(cuò)誤率明顯低于分類(lèi)降噪自動(dòng)編碼器的識(shí)別錯(cuò)誤率,說(shuō)明組合組合自編碼網(wǎng)絡(luò)可有效提高手寫(xiě)英文字體識(shí)別的準(zhǔn)確率;組合自編碼網(wǎng)絡(luò)在迭代次數(shù)為20后逐漸趨于穩(wěn)定,而分類(lèi)降噪自動(dòng)編碼器在迭代次數(shù)為40后逐漸趨于穩(wěn)定,說(shuō)明組合自編碼網(wǎng)絡(luò)算法的波動(dòng)性更小,具有良好的穩(wěn)定性。

3.2.2 不同網(wǎng)絡(luò)結(jié)構(gòu)下各算法結(jié)果分析

測(cè)試節(jié)點(diǎn)數(shù)決定了特征提取過(guò)程中特征的維數(shù),影響著算法的識(shí)別率,而不同的網(wǎng)絡(luò)結(jié)構(gòu)具有不同數(shù)量的測(cè)試節(jié)點(diǎn)。本研究將不同網(wǎng)絡(luò)結(jié)構(gòu)的算法在MINST數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),得到如表1所示的識(shí)別錯(cuò)誤率。

由表1可知,不同網(wǎng)絡(luò)結(jié)構(gòu)中,組合自編碼網(wǎng)絡(luò)算法的識(shí)別錯(cuò)誤率在0.012左右,分類(lèi)降噪自動(dòng)編碼器的識(shí)別錯(cuò)誤率在0.016左右,可見(jiàn)組合自編碼網(wǎng)絡(luò)算法的識(shí)別錯(cuò)誤率整體上低于分類(lèi)降噪自動(dòng)編碼器,說(shuō)明不同的網(wǎng)絡(luò)結(jié)構(gòu)中,組合自編碼網(wǎng)絡(luò)算法具有更好的適用性。

3.2.3 不同降噪比例下各算法結(jié)果分析

通過(guò)改變降噪比例在區(qū)間[0,0.9]內(nèi)變化,得到各算法的識(shí)別結(jié)果如圖5所示。

由圖5可知,組合自編碼網(wǎng)絡(luò)算法的識(shí)別錯(cuò)誤率在0.012~0.018之間,分類(lèi)降噪自動(dòng)編碼器的識(shí)別錯(cuò)誤率在0.016~0.022之間,可見(jiàn)不同降噪比例下,組合自編碼網(wǎng)絡(luò)算法的性能優(yōu)于分類(lèi)降噪自動(dòng)編碼器,且穩(wěn)定性更強(qiáng)。

3.2.4 Chars74K數(shù)據(jù)集測(cè)試結(jié)果分析

通過(guò)比較組合自編碼網(wǎng)絡(luò)算法和分類(lèi)降噪自動(dòng)編碼器最后一個(gè)隱藏層不同節(jié)點(diǎn)數(shù)的分類(lèi)錯(cuò)誤率,得到各算法在Chars74K數(shù)據(jù)集上的識(shí)別錯(cuò)誤率結(jié)果,如圖6所示。

由圖6可知,Chars74K數(shù)據(jù)集中,組合自編碼網(wǎng)絡(luò)算法在不同網(wǎng)絡(luò)結(jié)構(gòu)下的識(shí)別錯(cuò)誤率均低于分類(lèi)降噪自動(dòng)編碼器,說(shuō)明組合自編碼算法在特征提取過(guò)程中可以增加特征的多樣性,從而降低了識(shí)別錯(cuò)誤率,進(jìn)而證明了組合自編碼算法的可行性和有效性。此外,當(dāng)最后一層隱藏層節(jié)點(diǎn)數(shù)為80時(shí),組合自編碼算法和分類(lèi)降噪自動(dòng)編碼器均取得了較好的識(shí)別效果,說(shuō)明適當(dāng)增加節(jié)點(diǎn)數(shù)可提高算法識(shí)別性能,而過(guò)度增加節(jié)點(diǎn)數(shù)會(huì)造成過(guò)度擬合,進(jìn)而降低算法的識(shí)別性能。

4 結(jié)論

手寫(xiě)英文字體識(shí)別化學(xué)書(shū)稿,是為更好促進(jìn)化學(xué)信息的交流與應(yīng)用。本研究基于深度學(xué)習(xí)的特征提取算法提出組合自編碼網(wǎng)絡(luò)算法,通過(guò)對(duì)化學(xué)書(shū)稿中手寫(xiě)英文字體特征的組合,實(shí)現(xiàn)對(duì)化學(xué)書(shū)稿手寫(xiě)英文字體識(shí)別。為檢驗(yàn)本研究提出的組合自編碼算法的有效性,通過(guò)MNIST手寫(xiě)英文字體數(shù)據(jù)集測(cè)試了該算法與分類(lèi)降噪自動(dòng)編碼算法在不同迭代次數(shù)、網(wǎng)絡(luò)結(jié)構(gòu)和降噪比例下對(duì)數(shù)據(jù)集的識(shí)別結(jié)果,并在Chars74K數(shù)據(jù)集測(cè)試了該算法在類(lèi)別復(fù)雜的情況下對(duì)手寫(xiě)英文文字體圖像分類(lèi)識(shí)別性能。實(shí)驗(yàn)結(jié)果表明,本研究提出的組合自編碼算法的識(shí)別錯(cuò)誤率整體偏低,證明該算法具有良好的手寫(xiě)英文字體識(shí)別效果。

參考文獻(xiàn)

[1]董麗麗,楊丹,張翔.基于深度學(xué)習(xí)的大規(guī)模語(yǔ)義文本重疊區(qū)域檢索[J/OL].吉林大學(xué)學(xué)報(bào)(工學(xué)版):1-6[2020-10-04].

[2]吳睿智,朱大勇,王春雨,等.基于圖卷積神經(jīng)網(wǎng)絡(luò)的位置語(yǔ)義推斷[J].電子科技大學(xué)學(xué)報(bào),2020,49(05):739-744.

[3]徐琴珍,楊綠溪.基于改進(jìn)的混合學(xué)習(xí)模型的手寫(xiě)阿拉伯?dāng)?shù)字識(shí)別方法[J].電子與信息學(xué)報(bào),2010,32(02):433-438.

[4]李其娜,李廷會(huì).基于深度學(xué)習(xí)的情境感知推薦系統(tǒng)研究進(jìn)展[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(02):1-8.

[5]陳廣,韓衛(wèi)占,張文志.基于深度學(xué)習(xí)的加密流量分類(lèi)與入侵檢測(cè)[J].計(jì)算機(jī)測(cè)量與控制,2020,28(01):54-60.

[6]張尚田,陳光,邱天.基于融合特征的LSTM評(píng)分預(yù)測(cè)[J].計(jì)算機(jī)與現(xiàn)代化,2020(03):49-53+59.

[7]李良福,宋睿,馮建云,等.基于深度降噪自編碼器的多特征目標(biāo)融合跟蹤算法[J].光電子·激光,2020,31(02):175-186.

[8]龐傳軍,余建明,馮長(zhǎng)有,等.基于LSTM自動(dòng)編碼器的電力負(fù)荷聚類(lèi)建模及特性分析[J/OL].電力系統(tǒng)自動(dòng)化:1-11[2020-10-03].

[9]徐其華,孫波.基于深度學(xué)習(xí)和證據(jù)理論的表情識(shí)別模型[J/OL].計(jì)算機(jī)工程與科學(xué):1-10[2020-10-03].

[10]王生生,張航,潘彥岑.基于改進(jìn)SPNs的深度自動(dòng)編碼器及短文本情感分析應(yīng)用[J/OL].哈爾濱工程大學(xué)學(xué)報(bào):1-8[2020-10-03].

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類(lèi)器的圖書(shū)館亂架圖書(shū)檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
阳西县| 师宗县| 敦化市| 安丘市| 平原县| 新巴尔虎右旗| 新巴尔虎左旗| 宾川县| 新沂市| 花垣县| 措勤县| 平乡县| 海阳市| 雅安市| 罗平县| 子长县| 敦煌市| 垣曲县| 河间市| 三明市| 呼和浩特市| 山阴县| 昌江| 潮安县| 湖州市| 昌图县| 巴青县| 都昌县| 澳门| 宜黄县| 崇信县| 安乡县| 滦南县| 慈溪市| 孟村| 庆安县| 黄冈市| 凤冈县| 凌云县| 兴安县| 高州市|