国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop平臺(tái)的圖像識(shí)別

2017-03-23 23:35趙禎
現(xiàn)代電子技術(shù) 2017年4期
關(guān)鍵詞:字符識(shí)別圖像識(shí)別

趙禎

摘 要: 基于Hadoop平臺(tái)以字符識(shí)別為例建立圖像識(shí)別系統(tǒng)。所設(shè)計(jì)的系統(tǒng)在借鑒云平臺(tái)高擴(kuò)展性以及高效性等優(yōu)勢(shì)的基礎(chǔ)上,有效地解決了傳統(tǒng)字符識(shí)別系統(tǒng)在計(jì)算效率以及數(shù)據(jù)處理方面所存在的不足。通過(guò)實(shí)例驗(yàn)證了基于Hadoop平臺(tái)進(jìn)行圖像識(shí)別相比單機(jī)圖像識(shí)別系統(tǒng)具有更高的效率:在僅具有2個(gè)節(jié)點(diǎn)的Hadoop圖像識(shí)別平臺(tái)上進(jìn)行字符圖像的識(shí)別時(shí),由于節(jié)點(diǎn)數(shù)較少,在2臺(tái)計(jì)算機(jī)中消耗的數(shù)據(jù)交換時(shí)間使得Hadoop圖像識(shí)別平臺(tái)進(jìn)行圖像識(shí)別的總時(shí)間甚至超過(guò)了單臺(tái)計(jì)算機(jī)所使用的時(shí)間,而在具有4個(gè)節(jié)點(diǎn)、6個(gè)節(jié)點(diǎn)和8個(gè)節(jié)點(diǎn)的Hadoop圖像識(shí)別平臺(tái)上,處理相同圖像所使用的時(shí)間隨著節(jié)點(diǎn)數(shù)量增多而降低。

關(guān)鍵詞: 字符識(shí)別; Hadoop平臺(tái); 圖像識(shí)別; 數(shù)據(jù)交換時(shí)間

中圖分類號(hào): TN911?34; U495 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)04?0128?04

Image recognition based on Hadoop platform

ZHAO Zhen

(Department of Software Engineering, Inner Mongolia Electronic Information Vocational Technical College, Hohhot 010000, China)

Abstract: The image recognition system was established based on Hadoop platform, which takes the character recognition as an example. The system based on the advantages of good scalability and high efficiency of the cloud platform can effectively eliminate the shortcomings of the traditional character recognition system in the aspects of computing efficiency and data processing. The fact that the efficiency of the image recognition system based on Hadoop platform is higher than that of the stand?alone image recognition system is verified with an instance. The data exchange time consumed in two computers makes the total time of the image recognition based on Hadoop image recognition platform with only two nodes longer than the use time of the image recognition based on single computer due to the less node quantity, when the character image is recognized on Hadoop image recognition platform with two nodes. The use time for processing the same image on Hadoop image recognition platform with four nodes, six nodes or eight nodes is deduced with the increase of the node quantity.

Keywords: character recognition; Hadoop platform; image recognition; data exchange time

在對(duì)互聯(lián)網(wǎng)圖片進(jìn)行匹配和分類的過(guò)程中,單臺(tái)計(jì)算機(jī)已經(jīng)無(wú)法滿足相應(yīng)的需求,而分布式計(jì)算框架能夠穩(wěn)定和高效地匹配和分配大量的互聯(lián)網(wǎng)圖片,具有顯著的優(yōu)勢(shì)[1?2]。本文基于Hadoop平臺(tái),以字符識(shí)別為例建立圖像識(shí)別系統(tǒng)。本文所設(shè)計(jì)的系統(tǒng)在借鑒云平臺(tái)高擴(kuò)展性以及高效性等優(yōu)勢(shì)的基礎(chǔ)上有效的解決在計(jì)算效率以及數(shù)據(jù)處理方面?zhèn)鹘y(tǒng)字符識(shí)別系統(tǒng)所存在的不足。主要體現(xiàn)在以下兩個(gè)方面:利用Hadoop能夠在平臺(tái)各個(gè)節(jié)點(diǎn)中分配字符識(shí)別任務(wù),對(duì)于任務(wù)執(zhí)行時(shí)間的縮短有非常積極的作用,還能夠提升系統(tǒng)處理大型數(shù)據(jù)集的效率;能夠在普通的PC機(jī)上搭建Hadoop平臺(tái),同時(shí)節(jié)點(diǎn)數(shù)可以根據(jù)數(shù)據(jù)量大小以及任務(wù)需求來(lái)靈活的減小,相比于一些昂貴的服務(wù)器,其具有非常顯著的成本優(yōu)勢(shì)。另外,在互聯(lián)網(wǎng)技術(shù)逐漸發(fā)展和完善的過(guò)程中傳統(tǒng)的單機(jī)離線識(shí)別系統(tǒng)已經(jīng)不能滿足現(xiàn)代化的需求,所以以云平臺(tái)為基礎(chǔ)對(duì)字符識(shí)別系統(tǒng)進(jìn)行研究具有顯著的現(xiàn)實(shí)意義和實(shí)用價(jià)值[3?4]。

1 基于Hadoop平臺(tái)圖像識(shí)別系統(tǒng)框架

1.1 傳統(tǒng)圖像識(shí)別框架

傳統(tǒng)圖像識(shí)別框架如圖1所示。

傳統(tǒng)圖像識(shí)別框架主要由圖像預(yù)處理模塊、相關(guān)特征提取模塊和分類器訓(xùn)練分類模塊組成[5]。

(1) 圖像預(yù)處理模塊。通過(guò)圖像預(yù)處理模塊能夠轉(zhuǎn)換用戶所選擇的彩色圖片,并將轉(zhuǎn)換得到的灰度圖像在內(nèi)存中進(jìn)行讀入,為下一步的計(jì)算做好準(zhǔn)備工作。

(2) 相關(guān)特征提取模塊。通過(guò)相關(guān)特征提取模塊能夠運(yùn)算讀入到內(nèi)存中的圖像數(shù)據(jù),進(jìn)而保證所獲取的圖像特征能夠滿足用戶需求。通過(guò)該模塊能夠向量化用戶提供所需要的特征。

(3) 分類器訓(xùn)練分類模塊。通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)等機(jī)器學(xué)習(xí)算法的應(yīng)用,該模塊能夠訓(xùn)練所提取的樣本數(shù)據(jù),同時(shí)根據(jù)實(shí)際的需求用戶可以對(duì)相關(guān)的算法訓(xùn)練分類器進(jìn)行選擇。能夠在本地文件系統(tǒng)中以文件的形式將這些訓(xùn)練得到的分類器儲(chǔ)存起來(lái)。在實(shí)現(xiàn)前兩個(gè)模塊的功能以后就可以使用分類器判決特征向量,進(jìn)而對(duì)輸入圖像的類別進(jìn)行識(shí)別。

在利用傳統(tǒng)圖像分類系統(tǒng)進(jìn)行圖像分類的過(guò)程中,圖像特性提取過(guò)程需要耗費(fèi)非常長(zhǎng)的時(shí)間,另外在對(duì)較大數(shù)據(jù)量的特征矩陣進(jìn)行計(jì)算時(shí)需要讀寫系統(tǒng)硬盤與內(nèi)存,這就直接增加了程序的出錯(cuò)率,降低了系統(tǒng)的穩(wěn)定性和可靠性。

在訓(xùn)練分類模型的過(guò)程中用戶可以利用傳統(tǒng)圖像分類系統(tǒng)對(duì)不同類型的分類器模型進(jìn)行選擇。但是不同的分類器采用了不同的訓(xùn)練算法,使得所選取的參數(shù)以及模型存在著一定的差距,如果不能保證所選取分類器模型的適用性,沒有充分地優(yōu)化模型參數(shù),就會(huì)降低分類器的正確率。

1.2 基于hadoop平臺(tái)圖像識(shí)別系統(tǒng)框架

基于Hadoop平臺(tái)的圖像識(shí)別系統(tǒng)整體框圖如圖2所示[6]。在Hadoop平臺(tái)上進(jìn)行圖像識(shí)別主要分為以下5個(gè)過(guò)程[7]:

(1) 用戶提交圖像分類請(qǐng)求。通過(guò)Job Client就可以從Hadoop的Job Tracker中獲取新的圖像分類作業(yè)ID。然后工程JAR包可以由圖像分類作業(yè)運(yùn)行,通過(guò)Job Client能夠?qū)⒊绦蛞蕾嚨膱D像特征分類數(shù)據(jù)以及配置文件復(fù)制到HDFS中。完成以上過(guò)程以后,Job Client就可以將作業(yè)提交到Job Tracker中,Job Tracker首先對(duì)作業(yè)的相關(guān)信息進(jìn)行檢查,然后輸入數(shù)據(jù)的劃分情況就可以從HDFS中獲取,做好作業(yè)執(zhí)行的準(zhǔn)備工作。

(2) 圖像分類作業(yè)的任務(wù)分配與初始化。在接收到Job Client提交的作業(yè)之后,Job Tracker就會(huì)對(duì)作業(yè)進(jìn)行初始化操作,并在一個(gè)內(nèi)部的任務(wù)隊(duì)列中放置該作業(yè)。利用Hadoop的作業(yè)調(diào)度器可以調(diào)度這個(gè)隊(duì)列中的任務(wù)。根據(jù)Task Tracker的心跳情況Job Tracker就可以在相應(yīng)的集群節(jié)點(diǎn)上分配相關(guān)的作業(yè)任務(wù),由于部分特征數(shù)據(jù)是存放在DataNode上的,因此在進(jìn)行MapTask的過(guò)程中Job Tracker能夠從本次直接獲取輸入數(shù)據(jù),這樣能夠有效地減少數(shù)據(jù)傳輸過(guò)程中所產(chǎn)生的網(wǎng)絡(luò)損耗。

(3) 圖像分類任務(wù)的Map階段。在獲取到Job Tracker所分配的任務(wù)以后,程序的相關(guān)數(shù)據(jù)以及JAR文件就可以自動(dòng)地從HDFS中獲取,并在本地的文件磁盤中進(jìn)行儲(chǔ)存,通過(guò)對(duì)本地的Java虛擬機(jī)進(jìn)行執(zhí)行就可以對(duì)JAR文件和數(shù)據(jù)進(jìn)行加載,這樣運(yùn)行任務(wù)實(shí)例的Task Tracker中就可以接收到數(shù)據(jù)塊。在對(duì)Map任務(wù)進(jìn)行執(zhí)行的過(guò)程中,應(yīng)當(dāng)對(duì)特征庫(kù)中的圖像特征與對(duì)應(yīng)類下輸入圖像的特征之間的距離進(jìn)行計(jì)算,并將特征圖像庫(kù)中的圖像類別以及計(jì)算得到的距離作為輸出結(jié)果的鍵值對(duì),并在本地文件磁盤中存儲(chǔ)得到的結(jié)果。

(4) 圖像分類任務(wù)的Reduce階段。在獲取Map任務(wù)計(jì)算得到的圖像特征向量的中間臨時(shí)鍵值對(duì)之后,就可以進(jìn)行圖像的分類。MapReduce框架按照其對(duì)應(yīng)的鍵值對(duì)這些特征向量進(jìn)行分類,當(dāng)中間結(jié)果的鍵值一致時(shí)就會(huì)整理和合并鍵值對(duì)的特征向量,并由ReduceTask來(lái)處理合并之后的結(jié)果。利用ReduceTask可以排序MapTask的輸出,并獲取圖像分類的結(jié)果,同時(shí)將結(jié)果寫入到HDFS中。

(5) 圖像分類任務(wù)的完成:完成Reduce階段以后,JobTracker就會(huì)識(shí)別到任務(wù)已經(jīng)完成,并進(jìn)行相應(yīng)的表示,另外用戶利用JobTracker可以獲取作業(yè)運(yùn)行的相關(guān)參數(shù)。最后,利用JobTracker清空所有作業(yè)狀態(tài),利用TaskTracker刪除Map階段產(chǎn)生的中間結(jié)果,這樣用戶就可以在HDFS上對(duì)結(jié)果文件進(jìn)行查看。

2 字符圖像識(shí)別方法

通常情況下,對(duì)字符進(jìn)行識(shí)別,會(huì)使用神經(jīng)網(wǎng)絡(luò)和字符識(shí)別兩種方法。神經(jīng)網(wǎng)絡(luò)的識(shí)別效率很低,但是擁有較好的容錯(cuò)性能;字符識(shí)別形式簡(jiǎn)單,運(yùn)行速度快,應(yīng)用比較廣泛。在文中對(duì)字符進(jìn)行識(shí)別,使用文獻(xiàn)[8]提到的模板匹配和字符圖像特征統(tǒng)計(jì)相結(jié)合的方法。通過(guò)確定分析樣本和輸入形式之間的相似度,將相似程度最高的確定為輸入模型類型。在特征的提取過(guò)程中,會(huì)使用字符的最直接形象,在識(shí)別過(guò)程中會(huì)用到內(nèi)容匹配原理。也就是說(shuō),在完成匹配的時(shí)候,要將標(biāo)準(zhǔn)形式的字符和需要輸入的字符放到相同的分類器中。相關(guān)匹配方法表示如下:

假設(shè)以輸入函數(shù)表示輸入字符,函數(shù)表示標(biāo)準(zhǔn)模板,為通過(guò)相關(guān)器比較得到的輸出。相關(guān)器的輸出表示為:

3 Hadoop平臺(tái)圖像識(shí)別過(guò)程實(shí)現(xiàn)

為了保證Hadoop平臺(tái)能夠并行地識(shí)別字符圖像,應(yīng)當(dāng)以MapReduce框架為基礎(chǔ)進(jìn)行Reduce()和Map()函數(shù)的編寫,其中輸入和數(shù)據(jù)鍵值對(duì)的設(shè)計(jì)對(duì)于Map()和Reduce()函數(shù)的編寫非常關(guān)鍵[9]。

將Keyin設(shè)定為Text 類型來(lái)對(duì)字符圖像的文件名進(jìn)行儲(chǔ)存;將Valuein設(shè)置為Image 類型來(lái)對(duì)字符圖像數(shù)據(jù)進(jìn)行儲(chǔ)存。在將圖像數(shù)據(jù)從HDFS中批量讀入以后,Map()函數(shù)就可以將其解析為相應(yīng)的鍵值對(duì),通過(guò)Exif信息提取的執(zhí)行就可以識(shí)別字符,同時(shí)在中間結(jié)果Keyj中存儲(chǔ)所識(shí)別的字符,在中間結(jié)果Valuej中存儲(chǔ)圖像文件名以及拍攝時(shí)間,經(jīng)過(guò)Collect,Spill,Combine過(guò)程Reduce()函數(shù)就可以接收到最終的結(jié)果。在執(zhí)行Map Tasks的過(guò)程中,輸入圖像的數(shù)量控制著所產(chǎn)生的Map 任務(wù)個(gè)數(shù),同時(shí)這些Map 任務(wù)具有相互獨(dú)立的特點(diǎn)。Map任務(wù)數(shù)據(jù)流處理過(guò)程如圖3所示[10?11]。

其中,字符識(shí)別功能可以通過(guò)Map()函數(shù)來(lái)實(shí)現(xiàn),每個(gè)Map 任務(wù)由單獨(dú)的鍵值對(duì)來(lái)啟動(dòng),采用下面兩個(gè)步驟處理解析出的圖像。首先通過(guò)調(diào)用metadata?extractor就可以將拍攝文件名和時(shí)間提取出來(lái)。然后通過(guò)算法的執(zhí)行來(lái)對(duì)圖像中的字符進(jìn)行識(shí)別。最后在鍵值對(duì)中寫入結(jié)果,并將其作為Reduce()函數(shù)的輸入[12]。

在完成Map()函數(shù)的執(zhí)行以后就需要將輸出的中間值Valuej以及keyj傳遞到Reduce Task,不同的Keyj下的Valuej由不同的Reduce Task來(lái)負(fù)責(zé),在執(zhí)行完所有的Map()函數(shù)以后就可以在Reduce()函數(shù)中合并和排序處理收集到的鍵值對(duì)。Reduce任務(wù)數(shù)據(jù)流處理過(guò)程如圖4所示。

其中,通過(guò)應(yīng)用冒泡法Reduce()函數(shù)可以排序Value 值中的時(shí)間參數(shù),并將拍攝時(shí)間與文件名以及字符以文本的形式進(jìn)行輸出[13]。

4 基于Hadoop平臺(tái)圖像識(shí)別效率分析

本文通過(guò)實(shí)例對(duì)比分析基于Hadoop平臺(tái)以及單機(jī)圖像識(shí)別平臺(tái)的識(shí)別效率。

單機(jī)圖像識(shí)別平臺(tái)和Hadoop圖像識(shí)別平臺(tái)中主從機(jī)均使用相同配置的計(jì)算機(jī)。在Hadoop平臺(tái)中節(jié)點(diǎn)計(jì)算機(jī)上安裝Hadoop 1.0.0版本平臺(tái)系統(tǒng),并對(duì)Hadoop平臺(tái)系統(tǒng)進(jìn)行配置。

將采集到的字符圖像分為四組,各組中分別包含了200,500,1 000和2 000張字符圖像,分別使用單機(jī)圖像識(shí)別平臺(tái)以及配置有2,4,6和8個(gè)節(jié)點(diǎn)的Hadoop圖像識(shí)別平臺(tái)進(jìn)行圖像識(shí)別,分別得到各種識(shí)別平臺(tái)下的識(shí)別時(shí)間如圖5所示。

從各識(shí)別平臺(tái)的識(shí)別效率對(duì)比曲線可以看出,在僅具有2個(gè)節(jié)點(diǎn)的Hadoop圖像識(shí)別平臺(tái)上進(jìn)行字符圖像的識(shí)別時(shí),由于節(jié)點(diǎn)數(shù)較少,在兩臺(tái)計(jì)算機(jī)中消耗的數(shù)據(jù)交換時(shí)間使得Hadoop圖像識(shí)別平臺(tái)進(jìn)行圖像識(shí)別的總時(shí)間甚至超過(guò)了單臺(tái)計(jì)算機(jī)所使用的時(shí)間,而在具有4個(gè)節(jié)點(diǎn)、6個(gè)節(jié)點(diǎn)和8個(gè)節(jié)點(diǎn)的Hadoop圖像識(shí)別平臺(tái)上,處理相同圖像所使用的時(shí)間隨著節(jié)點(diǎn)數(shù)量增多而降低。

5 結(jié) 論

在對(duì)互聯(lián)網(wǎng)圖片進(jìn)行匹配和分類的過(guò)程中,單臺(tái)計(jì)算機(jī)已經(jīng)無(wú)法滿足相應(yīng)的需求,而分布式計(jì)算框架能夠穩(wěn)定和高效地匹配和分配大量的互聯(lián)網(wǎng)圖片,具有顯著的優(yōu)勢(shì)。本文基于Hadoop平臺(tái),以字符識(shí)別為例建立圖像識(shí)別系統(tǒng)。本文所設(shè)計(jì)的系統(tǒng)在借鑒云平臺(tái)高擴(kuò)展性以及高效性等優(yōu)勢(shì)的基礎(chǔ)上有效地解決在計(jì)算效率以及數(shù)據(jù)處理方面?zhèn)鹘y(tǒng)字符識(shí)別系統(tǒng)所存在的不足。通過(guò)實(shí)例驗(yàn)證了基于Hadoop平臺(tái)進(jìn)行圖像識(shí)別相比單機(jī)圖像識(shí)別系統(tǒng)具有更高的效率。

參考文獻(xiàn)

[1] 王自昊.基于Hadoop的圖像分類與匹配研究[D].北京:北京郵電大學(xué),2015.

[2] 梁世磊.基于Hadoop平臺(tái)的隨機(jī)森林算法研究及圖像分類系統(tǒng)實(shí)現(xiàn)[D].廈門:廈門大學(xué),2014.

[3] 呂聯(lián)盟.基于云計(jì)算的人臉識(shí)別系統(tǒng)研究與設(shè)計(jì)[D].西安:長(zhǎng)安大學(xué),2014.

[4] 李潔.基于Hadoop的海量視頻的分布式存儲(chǔ)與檢索研究[D].南京:南京郵電大學(xué),2015.

[5] 陳永權(quán).基于Hadoop的圖像檢索算法研究與實(shí)現(xiàn)[D].廣州:華南理工大學(xué),2013.

[6] 李彬.嵌入式車牌識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].西安:西安工業(yè)大學(xué),2013.

[7] 陳洪.基于云計(jì)算的大規(guī)模圖像檢索后臺(tái)處理系統(tǒng)實(shí)現(xiàn)[D].成都:西南交通大學(xué),2013.

[8] 陳聰,姚大志.高靈敏度CCD和圖像特征在車牌識(shí)別中的應(yīng)用[J].計(jì)算機(jī)仿真,2015,32(11):164?168.

[9] 潘天工.汽車牌照自動(dòng)識(shí)別系統(tǒng)的研究[D].哈爾濱:哈爾濱理工大學(xué),2006.

[10] 李科.基于FPGA和DSP的車牌識(shí)別系統(tǒng)的硬件設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2007.

[11] 王彤.車牌識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].蘇州:蘇州大學(xué),2009.

[12] 李顏.基于云平臺(tái)的車牌識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].桂林:桂林電子科技大學(xué),2015.

[13] 章為川.基于神經(jīng)網(wǎng)絡(luò)的車牌識(shí)別系統(tǒng)的研究與設(shè)計(jì)[D].成都:西南交通大學(xué),2006.

猜你喜歡
字符識(shí)別圖像識(shí)別
基于Resnet-50的貓狗圖像識(shí)別
高速公路圖像識(shí)別技術(shù)應(yīng)用探討
圖像識(shí)別在物聯(lián)網(wǎng)上的應(yīng)用
圖像識(shí)別在水質(zhì)檢測(cè)中的應(yīng)用
一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識(shí)別
淺談模式識(shí)別在圖像識(shí)別中的應(yīng)用
基于自動(dòng)智能分類器的圖書館亂架圖書檢測(cè)
儀表字符識(shí)別中的圖像處理算法研究
基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識(shí)別
基于多組合內(nèi)容的圖像識(shí)別機(jī)制
景宁| 阳东县| 阜康市| 海淀区| 特克斯县| 贵德县| 元谋县| 遂昌县| 稻城县| 民和| 宜昌市| 牟定县| 玉龙| 东港市| 竹溪县| 上犹县| 绍兴县| 昆山市| 翼城县| 萝北县| 白城市| 星子县| 武乡县| 涞源县| 贡嘎县| 全州县| 义乌市| 若羌县| 清新县| 鞍山市| 库尔勒市| 辉县市| 巩留县| 西丰县| 广宁县| 皮山县| 柘城县| 兴业县| 望城县| 开封市| 莱芜市|