国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于級(jí)聯(lián)分類器的手寫(xiě)體數(shù)字識(shí)別研究

2016-08-19 20:39:17黃晨曦郝泳濤
電腦知識(shí)與技術(shù) 2016年20期
關(guān)鍵詞:小波分析支持向量機(jī)特征提取

黃晨曦++郝泳濤

摘要:以手寫(xiě)體數(shù)字的識(shí)別為研究中心,研究了針對(duì)手寫(xiě)體數(shù)字的特征提取和特征識(shí)別。利用像素點(diǎn)統(tǒng)計(jì)特征,圖像結(jié)構(gòu)交截特征,小波分析特征提取出了多維特征。介紹了級(jí)聯(lián)分類的思想,引入拒識(shí)率的概念。提出了基于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)級(jí)聯(lián)的手寫(xiě)體數(shù)字識(shí)別系統(tǒng)。實(shí)驗(yàn)驗(yàn)證,該方法能有效提高字符分類的識(shí)別率。

關(guān)鍵詞:特征提?。恍〔ǚ治?;神經(jīng)網(wǎng)絡(luò);支持向量機(jī);級(jí)聯(lián)分類

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)20-0180-03

ABSTRACT:Taking handwritten numeral recognition as the research center, the feature extraction and feature recognition of handwritten numerals are studied. Based on the statistical characteristics of pixels, the cross section characteristics of image structure, the feature of wavelet analysis the feature is extracted. This paper introduces the idea of cascade classification, and introduces the concept of rejection rate. A handwritten numeral recognition system based on improved BP neural network and support vector machine cascade classifiers is proposed. Experimental results show that the proposed method can effectively improve the recognition rate of the character classification.

Key words: feature extraction , wavelet analysis, neural network , support vector machine , cascade classify

1 概述

手寫(xiě)數(shù)字識(shí)別是光學(xué)字符識(shí)別的一個(gè)重要組成部分,是模式識(shí)別的一個(gè)經(jīng)典問(wèn)題。其目的是將手寫(xiě)的阿拉伯?dāng)?shù)字掃描入計(jì)算機(jī)中,再通過(guò)所建立的模式識(shí)別系統(tǒng),自動(dòng)識(shí)別出所對(duì)應(yīng)數(shù)字。手寫(xiě)體數(shù)字識(shí)別涉及多個(gè)學(xué)科,包括模式識(shí)別,統(tǒng)計(jì)決策,圖像處理等等,是結(jié)合基礎(chǔ)研究與應(yīng)用研究的一門(mén)綜合性技術(shù)。

2 手寫(xiě)體數(shù)字分類訓(xùn)練測(cè)試集的準(zhǔn)備和評(píng)價(jià)指標(biāo)

2.1 實(shí)驗(yàn)準(zhǔn)備

本文的實(shí)驗(yàn)數(shù)據(jù)是基于 MNIST 手寫(xiě)數(shù)字圖像集。該數(shù)據(jù)集是當(dāng)前比較熱門(mén)的,共包含 60,000 訓(xùn)練樣本和 10,000 個(gè)測(cè)試樣本。數(shù)據(jù)集中所有的手寫(xiě)數(shù)字圖片的尺寸都標(biāo)準(zhǔn)化到 28×28 像素的大小,圖像類型是 bmp 圖片。提取出來(lái)的圖片分別裝在訓(xùn)練集和測(cè)試集兩個(gè)文檔里面,以備方便實(shí)驗(yàn)進(jìn)行。但考慮到計(jì)算機(jī)的內(nèi)存和性能問(wèn)題,在訓(xùn)練集中我們分別對(duì)0到9個(gè)數(shù)字選取500張圖片,共5000張圖片;而在測(cè)試集中我們分別對(duì)0到9個(gè)數(shù)字選取200張圖片,共計(jì)2000張圖片。本文實(shí)驗(yàn)所使用的編程工具是 matlabR2011b 版本,基于 OpenCV(Open Source Computer Vision Library)視覺(jué)庫(kù)開(kāi)發(fā)。

2.2 評(píng)價(jià)指標(biāo)

一般對(duì)分類性能的評(píng)價(jià)指標(biāo)有正確識(shí)別率和誤識(shí)率,兩者相加應(yīng)得到100%

(1)識(shí)別率:

識(shí)別率=正確識(shí)別樣本數(shù)/全部樣本數(shù)*100%

(2)誤識(shí)率:

誤識(shí)率=誤識(shí)樣本數(shù)/全部樣本數(shù)*100%

3 預(yù)處理和特征提取

3.1 基于像素點(diǎn)的粗網(wǎng)格統(tǒng)計(jì)特征的提取

所謂的粗網(wǎng)格特征,我們把圖像劃分成n×n的網(wǎng)格,然后計(jì)算每個(gè)n*n的網(wǎng)格內(nèi)白像素的個(gè)數(shù),網(wǎng)格特征就用我們得到的這個(gè)數(shù)值來(lái)表示。傳統(tǒng)的字符特征提取方法是將字符分割后的圖像一次性地分為n×n的網(wǎng)格,然后分別統(tǒng)計(jì)出每個(gè)網(wǎng)格中字符所占像素點(diǎn)個(gè)數(shù)與網(wǎng)格像素點(diǎn)總數(shù)之比,最后得到n×n維的統(tǒng)計(jì)向量,將得到的n×n維統(tǒng)計(jì)量作為神經(jīng)網(wǎng)絡(luò)的輸入量。由于不同的網(wǎng)格劃分方式劃分出的網(wǎng)格圖像大小不同,造成網(wǎng)格圖像有重疊,利用這種重疊特點(diǎn)對(duì)網(wǎng)格逐一進(jìn)行特征提取,充分利用網(wǎng)格中字符所占像素點(diǎn)在網(wǎng)格中的分布位置特征,從單一字符圖像中提取到更多的字符特征信息。本文對(duì)64×64的像素點(diǎn)的圖片分別采用三種粗網(wǎng)格進(jìn)行提取出70個(gè)粗網(wǎng)格統(tǒng)計(jì)特征。

3.2 基于圖像結(jié)構(gòu)交截結(jié)構(gòu)特征的提取

字符圖像的交截特征分為橫向交截特征和縱向交截特征,以及對(duì)角線交截特征。所謂交截特征即是指交截線和字符像素點(diǎn)的交點(diǎn)個(gè)數(shù),這是一種基于像素點(diǎn)結(jié)構(gòu)的特征。對(duì)字符的交截特征,我們分別提取了豎直中線的交點(diǎn)數(shù),豎直1|4處的交點(diǎn)數(shù),豎直3|4的交點(diǎn)數(shù),水平中線的交點(diǎn)數(shù),水平1|4處的交點(diǎn)數(shù),水平3|4的交點(diǎn)數(shù),以及圖像的主對(duì)角線和次對(duì)角線,共得到8個(gè)基于圖像結(jié)構(gòu)的交截特征。

3.3 基于小波分析的特征提取

在利用小波提取特征向量的方法中,提取的特征其實(shí)是統(tǒng)計(jì)特征和結(jié)構(gòu)特征的綜合,小波分析能夠?qū)崿F(xiàn)字符圖像的結(jié)構(gòu)分析,小波的分解子圖能夠從不同的角度把字符圖像中的像素點(diǎn)之間的跳躍變化反映出來(lái),在這里我們采取的是小波分解算法。

多分辨分析只對(duì)低頻空間進(jìn)行進(jìn)一步的分解,使頻率的分辨率變得越來(lái)越高。這里我們主要采取提取數(shù)字的低頻系數(shù)作為它的特征向量。

首先我們以0數(shù)字為例分別提取出它一級(jí)小波和二級(jí)小波的低頻系數(shù),水平高頻系數(shù),垂直高頻系數(shù),對(duì)角線高頻系數(shù)得到一級(jí)和二級(jí)小波的分解圖如圖:

從 64×64 的圖片中提取的特征矩陣為10×10,這樣我們就得到了100個(gè)基于小波的特征向量。

綜上所述,經(jīng)過(guò)基于像素的粗網(wǎng)格統(tǒng)計(jì)特征我們提取了70個(gè)特征,基于交截線的結(jié)構(gòu)特征我們提取了8個(gè)特征,基于圖像小波分解的特征我們提取了100個(gè)特征,然后我們對(duì)上述70,8,100個(gè)特征進(jìn)行融合得到178維的特征向量作為后續(xù)神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)分類器的輸入量。

4 基于級(jí)聯(lián)分類器的手寫(xiě)體數(shù)字識(shí)別系統(tǒng)

4.1 級(jí)聯(lián)分類的思想

單級(jí)的分類器無(wú)法做到識(shí)別率和識(shí)別速度的兼顧,因而在使用推廣上,就有必要加以完善針對(duì)這種情況。其次不同的分類器級(jí)聯(lián)能夠互相彌補(bǔ)單個(gè)分類器上的弱點(diǎn),有效提升分類準(zhǔn)確率。我們?cè)谑熘鱾€(gè)分類器性能的基礎(chǔ)上提出一種基于級(jí)連分組網(wǎng)的手寫(xiě)數(shù)字識(shí)別的新方法。這里我們將系統(tǒng)分為兩個(gè)級(jí)別。第一級(jí)根據(jù)拒識(shí)率和確信度的值選取出較難識(shí)別出的字符將其輸出到拒識(shí)出口。被拒識(shí)的字符進(jìn)行第二級(jí)的精確分類。精確分類可以犧牲相對(duì)應(yīng)的時(shí)間而獲取較大的準(zhǔn)確識(shí)別率。因?yàn)檫M(jìn)入細(xì)分類的字符個(gè)數(shù)已經(jīng)很少了。本文提出建立了基于BP神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)的二級(jí)手寫(xiě)體數(shù)字識(shí)別系統(tǒng)

4.2 拒識(shí)模式的概率統(tǒng)計(jì)

在這里我要引入兩個(gè)概念即確信度和拒識(shí)率,所謂確信度就是我們?cè)谏窠?jīng)網(wǎng)絡(luò)中輸出的向量中我們選擇最大值的位置作為輸出,但是較易誤識(shí)的圖像往往是最大值和次大值相差較小的,所以這里我們?cè)O(shè)定一個(gè)相差值的閾值作為確信度。這個(gè)確信度應(yīng)能讓拒識(shí)率控制在25%左右,也就是有25%的字符能輸出到精確分類器中。在本系統(tǒng)的識(shí)別階段,改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)分類器作為兩級(jí)分類器的粗分類器,其輸出結(jié)果根據(jù)預(yù)先設(shè)置的確信度r,來(lái)決策是否最終識(shí)別結(jié)果輸出或者是否需要進(jìn)入支持向量機(jī)分類器來(lái)進(jìn)行二類分類,即如果兩個(gè)最大概率結(jié)果之差小于確信度,則需要經(jīng)過(guò)細(xì)分類器的二級(jí)識(shí)別,反之,系統(tǒng)將粗分類器的最大識(shí)別結(jié)果作為最終結(jié)果輸出。這個(gè)確信度,就是根據(jù)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練過(guò)程中的訓(xùn)練結(jié)果和隨機(jī)森林分類器的訓(xùn)練結(jié)果來(lái)預(yù)先設(shè)置的。

4.3 基于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)級(jí)聯(lián)的手寫(xiě)體數(shù)字識(shí)別系統(tǒng)

我們得知BP神經(jīng)網(wǎng)絡(luò)分類器能達(dá)到80%的分類效果且在時(shí)間上較短,而支持向量機(jī)能達(dá)到89%但是時(shí)間較長(zhǎng),于是本文采取先利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行粗分類。在BP神經(jīng)網(wǎng)絡(luò)的輸出值中我們是采取對(duì)輸出的列向量取其中的最大值并返回它所處位置的情況來(lái)判斷其值大小的,分析可知絕大多數(shù)的分類失誤率都出現(xiàn)在最大值不明顯的位置上。因此本文擬采用先用sort函數(shù)對(duì)其大小進(jìn)行排序然后選取其最大值和次大值,并進(jìn)行相減,并通過(guò)事先設(shè)置的閾值來(lái)判定是否對(duì)他進(jìn)行分離出來(lái)進(jìn)行支持向量機(jī)強(qiáng)分類。閾值的設(shè)定既不能太大也不能太小。太大了會(huì)導(dǎo)致在第一級(jí)拒識(shí)的數(shù)量太大,增大下一級(jí)支持向量機(jī)的分類壓力,從而增加了所用時(shí)間,而太小了的話則會(huì)導(dǎo)致第二級(jí)分類器的樣本較少,從而降低分類準(zhǔn)確率。經(jīng)過(guò)本文的實(shí)驗(yàn)當(dāng)閾值設(shè)定小于0.2時(shí),測(cè)試數(shù)據(jù)的拒識(shí)數(shù)達(dá)到974個(gè),而當(dāng)閾值設(shè)定小于0.1時(shí)時(shí),測(cè)試數(shù)據(jù)的拒識(shí)數(shù)為523。所以我們?cè)O(shè)定的閾值為0.1。接著我們將被BP神經(jīng)網(wǎng)絡(luò)拒識(shí)的數(shù)據(jù)輸入到支持向量機(jī)中,利用網(wǎng)格參數(shù)尋優(yōu)方法對(duì)其進(jìn)行分類,最后綜合比較級(jí)聯(lián)的分類效果。

二級(jí)分類器實(shí)驗(yàn)步驟分為訓(xùn)練階段和實(shí)驗(yàn)階段。

訓(xùn)練階段:

BP神經(jīng)網(wǎng)絡(luò):

①將5000個(gè)包含178維特征向量的實(shí)驗(yàn)數(shù)據(jù)輸入到BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練網(wǎng)絡(luò)的權(quán)重。

②將測(cè)試數(shù)據(jù)輸入到訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)里,分析分類錯(cuò)誤的數(shù)據(jù)從而確定好拒識(shí)率的閾值。

支持向量機(jī):

將較小的訓(xùn)練數(shù)據(jù)集輸入到其中進(jìn)行訓(xùn)練,得到訓(xùn)練好的支持向量機(jī)。

圖4 基于BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)級(jí)聯(lián)的二級(jí)分類器流程圖

測(cè)試階段:

①將2000個(gè)包含178維特征向量的實(shí)驗(yàn)數(shù)據(jù)輸入到BP神經(jīng)網(wǎng)絡(luò)中進(jìn)行測(cè)試;

②分析BP神經(jīng)網(wǎng)絡(luò)測(cè)試后的輸出值,挑選閾值小于0.1的測(cè)試數(shù)據(jù)分流到下一級(jí)分類器中;

③將分流走的測(cè)試數(shù)據(jù)輸入到支持向量機(jī)中再進(jìn)行分類;

④將級(jí)聯(lián)分類的測(cè)試結(jié)果綜合分析得到最后測(cè)試數(shù)據(jù)集的分類結(jié)果。

4.4 實(shí)驗(yàn)結(jié)果對(duì)比分析

本章節(jié)采用二級(jí)級(jí)聯(lián)分類系統(tǒng)進(jìn)行分類,我們可以看出采用BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的分類系統(tǒng)能夠得到88.3%的分類準(zhǔn)確度,高于單獨(dú)使用BP神經(jīng)網(wǎng)絡(luò)的80%的識(shí)別率實(shí)驗(yàn)證明本文提出的引入拒識(shí)率的二級(jí)級(jí)聯(lián)分類系統(tǒng)相比傳統(tǒng)單一的分類器性能要好。

5 結(jié)束語(yǔ)

針對(duì)分割后的字符,本文重點(diǎn)研究了手寫(xiě)體字符識(shí)別。首先通過(guò)對(duì)基于統(tǒng)計(jì),交截,小波,矩的四個(gè)特征進(jìn)行提取,并對(duì)它們特征提取出的效果進(jìn)行分析,最后以其中三個(gè)特征融合組成178維的特征向量作為分類器的輸入向量。并根據(jù)各種分類器的性能提出了二級(jí)級(jí)聯(lián)分類器,利用了BP神經(jīng)網(wǎng)絡(luò)分類器分類速度快的特點(diǎn),引入拒識(shí)率的概念,在第一級(jí)中拒識(shí)出大概25%的數(shù)據(jù)進(jìn)入到擁有強(qiáng)分類能力的支持向量機(jī)中,實(shí)驗(yàn)證明通過(guò)兩級(jí)級(jí)聯(lián)的分類器比通過(guò)單一分類器的識(shí)別率有較大提升,能達(dá)到95%的識(shí)別率。

參考文獻(xiàn):

[1] 陳軍勝.組合結(jié)構(gòu)特征的自由手寫(xiě)體數(shù)字識(shí)別算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(5):179-184,194.

[2] 金忠,胡鐘山,楊靜宇,等.手寫(xiě)體數(shù)字有效鑒別特征的抽取與識(shí)別[J].計(jì)算機(jī)研究與發(fā)展,1999,36(12):1484-1489.

[3] 趙萬(wàn)鵬,古樂(lè)野.基于 Adaboost的手寫(xiě)體數(shù)字識(shí)別[J].計(jì)算機(jī)應(yīng)用,2005,25(10):2413-2414,2417.

[4] 王有偉,劉捷.手寫(xiě)體數(shù)字識(shí)別中一種新的傾斜校正的方法[J].計(jì)算機(jī)工程,2004,30(11):128-129,137.

[5] 吳茹石,彭力.基于量子神經(jīng)網(wǎng)絡(luò)的手寫(xiě)體數(shù)字識(shí)別方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(18):4462-4465.

[6] 李瓊,陳利,王維虎,等.基于SVM的手寫(xiě)體數(shù)字快速識(shí)別方法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,(2):205-208.

[7] 鐘樂(lè)海,胡偉.手寫(xiě)體數(shù)字識(shí)別系統(tǒng)中一種新的特征提取方法[J].四川大學(xué)學(xué)報(bào):自然科學(xué)版,2007,44(5):1000-1004.

[8] 婁震,胡鐘山,楊靜宇,等.基于輪廓分段特征的手寫(xiě)體阿拉伯?dāng)?shù)字識(shí)別[J].計(jì)算機(jī)學(xué)報(bào),1999,22(10):1065-1073.

猜你喜歡
小波分析支持向量機(jī)特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
小波分析在橋梁健康檢測(cè)中的應(yīng)用探析
動(dòng)態(tài)場(chǎng)景中的視覺(jué)目標(biāo)識(shí)別方法分析
論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
晉西北偏關(guān)縣55年降水周期分析
基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
小波分析在圖像處理中的應(yīng)用
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
球床反應(yīng)堆內(nèi)氣—液兩相流壓差波動(dòng)信號(hào)時(shí)域特性研究
科技視界(2016年12期)2016-05-25 00:42:48
长阳| 河东区| 元氏县| 巫山县| 清镇市| 乌鲁木齐县| 吉林省| 天等县| 平南县| 龙陵县| 阿拉善左旗| 千阳县| 德化县| 汪清县| 元朗区| 河津市| 聊城市| 台江县| 荥经县| 平江县| 澄迈县| 嘉禾县| 莆田市| 平遥县| 黄大仙区| 本溪| 元阳县| 嘉善县| 潼关县| 抚远县| 邢台县| 卫辉市| 都安| 蓬莱市| 门源| 丰城市| 广水市| 周口市| 龙岩市| 兰溪市| 龙游县|