国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

手寫體數(shù)字筆畫特征提取改進方案*

2015-07-12 17:11:14鄭子偉
通化師范學(xué)院學(xué)報 2015年8期
關(guān)鍵詞:手寫體手寫識別率

陳 奮,鄭子偉

(廈門城市職業(yè)學(xué)院 電子與信息工程系,福建 廈門 361008)

手寫體數(shù)字筆畫特征提取改進方案*

陳 奮,鄭子偉

(廈門城市職業(yè)學(xué)院 電子與信息工程系,福建 廈門 361008)

手寫數(shù)字識別是一個很有潛力和挑戰(zhàn)的研究方向,對于相關(guān)行業(yè)有著實質(zhì)性的影響,其中手寫體數(shù)字特征的提取是識別中至關(guān)重要的一步.該文分析了傳統(tǒng)的特征提取方法的不足,提出了手寫體數(shù)字筆畫特征提取改進方案,并利用VC++編程工具建立識別系統(tǒng)做實驗分析,與傳統(tǒng)的特征提取方法進行了比較,提高了手寫數(shù)字識別率,在實驗中取得了較好的效果.

特征提??;手寫數(shù)字識別;改進方案

1 概述

手寫數(shù)字識別作為計算機模式識別領(lǐng)域的熱點研究方向一直被科研人員關(guān)注著,雖然手寫數(shù)字個數(shù)少,貌似很容易識別,但事實并非如此,經(jīng)過測試總結(jié)得出,手寫數(shù)字的正確識別率并不高,比聯(lián)機手寫漢字的識別率還要低.

目前手寫體數(shù)字識別主要的應(yīng)用領(lǐng)域[1]:①在海量數(shù)據(jù)統(tǒng)計中的應(yīng)用,如人口普查、行業(yè)年檢等;②在財務(wù)、稅務(wù)、金融領(lǐng)域應(yīng)用,如自動處理大量的稅務(wù)、財務(wù)、支票等;③在快遞郵件分揀中的應(yīng)用.因此,提高手寫數(shù)字識別率就顯得尤為重要,能夠大大減輕工作量.

在模式識別領(lǐng)域中,特征提取是一個重要環(huán)節(jié),手寫體數(shù)字識別也不例外.特征提取是影響識別效果的一個關(guān)鍵步驟,本文通過分析與總結(jié)前人的成果提出一種適應(yīng)性較好、識別率較高的特征提取改進方案,并利用VC++編程工具建立識別系統(tǒng)做實驗分析.

特征提取的目的就是分析數(shù)字的拓撲結(jié)構(gòu),提取出其結(jié)構(gòu)特征,減小手寫體數(shù)字的位移、大小變化等干擾,把反映圖像特征的信息提供給神經(jīng)網(wǎng)絡(luò),經(jīng)過特征提取后的數(shù)字圖像,會明顯減少數(shù)據(jù)量,神經(jīng)網(wǎng)絡(luò)規(guī)模也會大大減小.特征提取的優(yōu)劣決定著網(wǎng)絡(luò)的規(guī)模與最終識別的效果,所以所選用的特征必須能充分反映字符的本質(zhì)特征.提取的特征一般具有以下原則:

(1)充分性原則[2]:提取的特征能充分保持原模式的信息量;滿足充分性的基礎(chǔ)上,盡量減小特征維數(shù).

(2)方便性原則:為了不影響速度,提取特征的計算量不能太大;特征的抽取速度要快,穩(wěn)定性能好,分類能力強.

(3)正交性原則:特征之間的相關(guān)性越小越好.

2 常用的特征提取方法

目前手寫數(shù)字特征向量提取方法通常有以下幾種方法:

(1)逐像素特征提取法[3]:此方法是掃描圖像每行每列,黑像素令特征值為1,白像素令特征值為0,之后形成了像素點個數(shù)與維數(shù)相同的特征向量矩陣.此方法的特點是簡單,速度快,神經(jīng)網(wǎng)絡(luò)收斂效果好,訓(xùn)練效果好,但適應(yīng)性不強.

(2)骨架特征提取法[3]:此法是利用細化的方法來提取骨架.對兩張圖像進行細化線條后,使它們有相同的寬度,然后把骨架作為特征的提取,適應(yīng)性得到了加強,不足的是圖像如果出現(xiàn)偏移識別就困難了.

(3)垂直方向數(shù)據(jù)統(tǒng)計特征提取法[3]:此方法是自左向右逐列掃描圖像,得出每列黑像素的數(shù)據(jù),接著自上而下逐行掃描圖像,得出每行黑像素的數(shù)據(jù),把結(jié)果作為特征向量進行提取,但此方法得出的結(jié)果適應(yīng)性不強.

3 手寫數(shù)字筆畫特征提取法

上述的特征點提取法都在一定程度上存在適應(yīng)性不強及識別率相對較低的不足[4],本文提出一種適應(yīng)性較好且識別率較高的手寫數(shù)字筆畫特征提取法.

由于數(shù)字筆畫簡單,因可以從橫、豎、撇、捺、環(huán)等5個特征著手,可以用1、2、3、4、5來定義這5個筆畫的特征值.假設(shè)被處理的點為P0和它周圍的8個點分別稱為P1、P2、P3、P4、P5、P6、P7、P8,形成一個3×3的9點矩陣[5],如圖1所示.

圖1 9點矩陣

定義縱切點是弧線段與垂直線的切點,橫切點是弧線段與水平線的切點,以手寫體數(shù)字“6”為例,如圖2所示.假設(shè)處理點P0為1,計算P1,P2,P3,P4,P5,P6,P7,P8的和;若和為1則P0為始端點,和為2則P0為一般連點,和為3則P0為三叉點,和為4則P0為四叉點.

圖2 數(shù)字“6”縱切點、橫切點

圖3 筆畫橫、豎、撇、捺

由于一個環(huán)上有兩個縱切點和至少一個橫切點,根據(jù)上文的假設(shè),存在將一個環(huán)上的兩個縱切點之間的兩段弧線誤判為橫筆畫的可能或?qū)蓚€橫切點之間的兩段弧線誤判為豎筆畫的可能.為了處理這個問題,在識別筆畫時,對環(huán)進行優(yōu)先識別,判斷橫切點和縱切點的個數(shù),以及它們之間的相對位置,若識別出環(huán)后,環(huán)上的橫縱切點就不計,不作為進行其他筆畫識別的依據(jù).

根據(jù)以上描述,一個手寫數(shù)字最多有5個筆畫,每個筆畫的特征值也已給出,將0補在少于5個筆畫的特征值之后.為了減小網(wǎng)絡(luò)規(guī)模、提高網(wǎng)絡(luò)識別的速度,輸入筆畫特征值可以按照從上到下、從左到右的順序進行.對于5個筆畫其中的環(huán),數(shù)字“6”、“8”、“9”均有環(huán)筆畫,容易被誤判,所以只把這5個特征值作為特征輸入還不能達到理想的識別效果,為了解決這一問題,增加各數(shù)字的環(huán)個數(shù)作為一個特征值輸入,這樣加上前述的5個筆畫特征共構(gòu)成6個特征值輸入,將把環(huán)數(shù)作為第一個特征輸入,緊接著輸入剩下的5個筆畫的特征值.以數(shù)字“6”為例,經(jīng)過一系列的預(yù)處理后,得到5×6的二值化點陣,可以判斷點(1,4)為端點;兩個橫切點和兩個縱切點,而且有環(huán)筆畫,環(huán)個數(shù)為1;點(1,4)與點(3,1)之間的像素點組成筆畫撇.因此,數(shù)字“6”的筆畫特征值按照從上到下、從左到右的順序,依次為:撇-環(huán),如圖4所示.這樣,[1,3,5,0,0,0]T則為神經(jīng)網(wǎng)絡(luò)輸入特征向量.

圖4 數(shù)字“6”筆畫

4 建立識別系統(tǒng)

4.1 系統(tǒng)簡介

本識別系統(tǒng)是筆者利用VisualC++6.0編寫而成,系統(tǒng)由圖像預(yù)處理和神經(jīng)網(wǎng)絡(luò)識別兩塊,預(yù)處理是對手寫數(shù)字圖像特征向量的提取,識別系統(tǒng)分別進行手寫數(shù)字筆畫特征、骨架特征、逐像素特征,以及垂直方向數(shù)據(jù)統(tǒng)計特征的提取,特征向量提取后就由BP神經(jīng)網(wǎng)絡(luò)來訓(xùn)練和識別,最后輸出識別結(jié)果,流程如圖5所示:

圖5 識別系統(tǒng)設(shè)計流程

其中,測試樣本和訓(xùn)練樣本經(jīng)過都是經(jīng)過規(guī)一化、二值化、平滑、細化24*33處理后的圖像[6],預(yù)處理后再提取特征向量值,接著訓(xùn)練樣本,訓(xùn)練之后保存為指定格式的識別網(wǎng)絡(luò)文件,然后去選擇已保存的網(wǎng)絡(luò)文件對已經(jīng)過預(yù)處理待識別的手寫數(shù)字圖像進行識別,最后輸出識別結(jié)果,共有10個輸出,代表了0到9共10個數(shù)字,如圖7所示.

4.2 實驗結(jié)果

系統(tǒng)啟動初始界面,選擇網(wǎng)絡(luò)選項,如圖6所示.

圖6 網(wǎng)絡(luò)選項

識別界面,網(wǎng)絡(luò)輸出最高值為識別結(jié)果,如圖7所示.

圖7 系統(tǒng)主界面

實驗結(jié)果得出,相對于其他的特征提取方法,采用數(shù)字筆畫特征提取方法,加快了識別速度,明顯減少特征提取時間,識別率也得到了提高,實驗結(jié)果如圖8所示.

圖8 幾種特征提取訓(xùn)練速度、識別率比較

5 結(jié)束語

綜上所述,采用數(shù)字筆畫特征提取方法,可以減少樣本訓(xùn)練的次數(shù),縮短樣本訓(xùn)練的時間,提高了識別率.識別率方面,雖然對樣本與測試集的識別率較高,但是對于其他較為復(fù)雜的手寫數(shù)字圖像識別率就相對較低,可以通過增加一些比較復(fù)雜的手寫數(shù)字圖像樣本來提高識別率,當(dāng)然,提高識別率最為關(guān)鍵的特征提取方法也有待進一步地研究與改善.

[1]吳佑壽,丁曉青.漢字識別-原理、方法與實現(xiàn)[M].北京:高等教育出版社,1992.

[2]鄧麗華,等.基于人工神經(jīng)網(wǎng)絡(luò)的手寫體數(shù)字識別[J].三峽大學(xué)學(xué)報(自然科學(xué)學(xué)報),2005,27(3):254-256.

[3]曾旭峰.一種新的特征提取法在手寫數(shù)字識別中的運用[J].電腦知識與技術(shù),2009(5):1207-1208.

[4]宋日聰,胡偉.手寫體數(shù)字識別系統(tǒng)中一種新的特征提取方案[J].計算機科學(xué),2007(9).

[5]鄧麗華,崔志強.手寫體數(shù)字識別系統(tǒng)中一種新的特征提取方案[J].湖州師范學(xué)院學(xué)報,2005,27(2).

[6]楊淑瑩.VC++圖像處理程序設(shè)計[M].北京:清華大學(xué)出版社,2003.

10.13877/j.cnki.cn22-1284.2015.08.016

2015-03-28

福建省教育廳 B 類科技研究項目“基于移動App 的廈門城市職業(yè)學(xué)院品牌傳播”( JB13679S );廈門城市職業(yè)學(xué)院院級課題“HTML5 應(yīng)用研究”(KYKJ2014-3)

陳奮,福建莆田人,講師;鄭子偉,福建莆田人,副教授.

TP391.1

A

1008-7974(2015)04-0040-03

猜你喜歡
手寫體手寫識別率
手寫比敲鍵盤更有助于學(xué)習(xí)和記憶
哐當(dāng)(外一首)
哐當(dāng)(外一首)
我手寫我心
抓住身邊事吾手寫吾心
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
計算機工程(2020年3期)2020-03-19 12:24:50
基于大數(shù)據(jù)下的手寫體識別的設(shè)計與研發(fā)
披著書法外衣的手寫體
中國篆刻(2019年6期)2019-12-08 15:56:23
基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
基于集成學(xué)習(xí)的MINIST手寫數(shù)字識別
電子制作(2018年18期)2018-11-14 01:48:08
荃湾区| 天台县| 加查县| 石家庄市| 中牟县| 双峰县| 阿拉善左旗| 南丰县| 河西区| 盈江县| 六安市| 江华| 江陵县| 和田县| 三台县| 新疆| 二连浩特市| 闸北区| 舞阳县| 贵定县| 丹凤县| 疏勒县| 安平县| 天气| 新平| 松桃| 揭阳市| 彭泽县| 兰溪市| 无为县| 东辽县| 靖宇县| 奇台县| 永城市| 宜黄县| 如皋市| 昂仁县| 赣榆县| 溆浦县| 津南区| 望奎县|