南京大學(xué)(蘇州)高新技術(shù)研究院 徐自遠(yuǎn)
人工智能是當(dāng)今科技時(shí)代的寵兒,促進(jìn)了國(guó)家與社會(huì)的快速發(fā)展,為人們的生活出行提供便利。圖像識(shí)別技術(shù)在人工智能領(lǐng)域已經(jīng)有了廣泛的應(yīng)用,如利用指紋、面部特征識(shí)別身份信息、快速搜索圖片、監(jiān)測(cè)環(huán)境等。圖形識(shí)別是在圖形特征的基礎(chǔ)之上,通過(guò)算法在互聯(lián)網(wǎng)上進(jìn)行快速識(shí)別的技術(shù)。在此背景下,文中首先簡(jiǎn)要介紹圖片識(shí)別的基本原理,然后對(duì)網(wǎng)絡(luò)識(shí)別技術(shù)展開(kāi)分析,最后重點(diǎn)分析了圖形識(shí)別的實(shí)現(xiàn)過(guò)程。
圖像識(shí)別,顧名思義,就是對(duì)采取到的圖片信息進(jìn)行處理,根據(jù)圖像的特征進(jìn)行識(shí)別。作為人工智能的代表技術(shù)之一,圖像識(shí)別與人們的生活息息相關(guān),包括人臉掃描、指紋識(shí)別、條碼掃描等。圖像掃描有著光明的發(fā)展前景,可以極大地提高企業(yè)的服務(wù)效率、改善人們的生活方式。因此,深入研究基于人工智能算法的圖像識(shí)別技術(shù)具有十分重要的現(xiàn)實(shí)意義。
圖像識(shí)別技術(shù),最早只能識(shí)別一些文字、數(shù)字和符號(hào),識(shí)別對(duì)象僅限于文字印刷體和手寫(xiě)文字。1965年,圖像識(shí)別發(fā)展進(jìn)入到數(shù)字圖像處理與識(shí)別階段,此時(shí)的圖像識(shí)別技術(shù)初步具備存儲(chǔ)、可壓縮、傳輸失真低、便于處理等優(yōu)勢(shì)。如今,圖像識(shí)別為高級(jí)計(jì)算機(jī)建立了對(duì)三維世界的感知和認(rèn)識(shí),為人工智能的發(fā)展作出了巨大貢獻(xiàn)[1]。
圖像識(shí)別的基本原理是利用計(jì)算機(jī)軟件程序圖片進(jìn)行信息處理,由人工智能算法對(duì)圖片信息進(jìn)行特征提取,經(jīng)智能處理之后達(dá)到圖像識(shí)別的目的。圖片識(shí)別的整個(gè)過(guò)程原理較為簡(jiǎn)單,可以將計(jì)算機(jī)看成一個(gè)人,人的眼睛可以對(duì)圖像進(jìn)行識(shí)別,人的大腦經(jīng)過(guò)分析對(duì)比可以得出眼前圖像的基本特征,并與人腦中的信息進(jìn)行對(duì)比和分析。圖像識(shí)別技術(shù)和這一過(guò)程類(lèi)似,只不過(guò)該技術(shù)是讓計(jì)算機(jī)模仿人類(lèi)的行為和思維,利用人工智能算法處理圖像的信息和分類(lèi),達(dá)到實(shí)現(xiàn)人工智能圖像識(shí)別的目的。然而值得一提的是,計(jì)算機(jī)提取的圖像信息和特征和人類(lèi)大腦相比存在著不穩(wěn)定性,這些不穩(wěn)定因素會(huì)影響圖像識(shí)別的效率和準(zhǔn)確性,所以基于人工智能算法的圖像識(shí)別技術(shù)需要不斷地學(xué)習(xí)和訓(xùn)練來(lái)減小誤差。
神經(jīng)網(wǎng)絡(luò)圖像識(shí)別[2],是傳統(tǒng)圖形識(shí)別與網(wǎng)絡(luò)神經(jīng)算法結(jié)合的一種新型識(shí)別方式,BP神經(jīng)網(wǎng)絡(luò)算法通過(guò)模仿生物的神經(jīng)網(wǎng)絡(luò)分布進(jìn)行圖像識(shí)別,可以提高圖像識(shí)別過(guò)程的穩(wěn)定性,使得高級(jí)計(jì)算機(jī)的行為和思維更接近于人類(lèi)。神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別技術(shù)實(shí)現(xiàn)較為復(fù)雜,成本相對(duì)較高,但是識(shí)別效果更加精準(zhǔn)和高效。目前神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別技術(shù)在各大領(lǐng)域應(yīng)用廣泛,如道路交通領(lǐng)域中的交通管理系統(tǒng)、車(chē)輛視頻安全檢測(cè)等,可以快速識(shí)別道路上行駛的車(chē)輛信息,便于交通管理。
神經(jīng)網(wǎng)絡(luò)是模擬人類(lèi)的神經(jīng)元進(jìn)行數(shù)據(jù)處理,同時(shí)具備自主學(xué)習(xí)的功能。如表1所示,神經(jīng)網(wǎng)絡(luò)會(huì)在訓(xùn)練后明顯提升識(shí)別率。神經(jīng)網(wǎng)絡(luò)圖像識(shí)別技術(shù)可以識(shí)別和處理更為復(fù)雜的圖像,由于其性能卓越使得該技術(shù)的應(yīng)用成本較高。
表1 神經(jīng)網(wǎng)絡(luò)隱含層節(jié)點(diǎn)數(shù)目不同時(shí)的識(shí)別結(jié)果Tab.1 Identification results of different number of hidden layer nodes in neural network
非線(xiàn)性降維在圖像識(shí)別技術(shù)中是常用的手段之一。計(jì)算機(jī)對(duì)復(fù)雜圖像的處理成本較高,且在計(jì)算機(jī)識(shí)別高維圖像的特性時(shí)會(huì)存在因一些外在風(fēng)險(xiǎn)影響圖像識(shí)別的效率的準(zhǔn)確性,通過(guò)對(duì)圖像的降維技術(shù)可以有效解決這些問(wèn)題。
降維是通過(guò)將高維的圖像數(shù)據(jù)轉(zhuǎn)化成高維空間中的數(shù)據(jù)集合。非線(xiàn)性降維的圖像識(shí)別技術(shù)可以根據(jù)一維的特征表達(dá)量進(jìn)行數(shù)據(jù)識(shí)別。理論上,線(xiàn)性降維的圖像識(shí)別技術(shù)具有簡(jiǎn)單和易于理解的優(yōu)點(diǎn)。但是人們通過(guò)采用線(xiàn)性降維的方法進(jìn)行圖像識(shí)別,發(fā)現(xiàn)該技術(shù)的計(jì)算過(guò)程較為復(fù)雜、耗費(fèi)空間和時(shí)間資源,不能很好地滿(mǎn)足各大領(lǐng)域?qū)τ趫D像識(shí)別技術(shù)的需求,于是人們便采用了非線(xiàn)性降維進(jìn)行圖像識(shí)別(如圖1所示)。非線(xiàn)性降維的圖像識(shí)別技術(shù)不僅精準(zhǔn)高效,且不存在線(xiàn)性降維存在的問(wèn)題。以人臉識(shí)別系統(tǒng)為例,識(shí)別這種高維度的復(fù)雜圖像需經(jīng)過(guò)大量的時(shí)間進(jìn)行運(yùn)算,通過(guò)非線(xiàn)性降維的圖像識(shí)別技術(shù)可以較好地提高人臉識(shí)別系統(tǒng)的工作效率。
圖1 非線(xiàn)性降維技術(shù)Fig.1 Nonlinear dimensionality reduction technique
模式識(shí)別在圖像識(shí)別方面的應(yīng)用效果非常顯著,一般多應(yīng)用于醫(yī)療行業(yè)中的器械、醫(yī)學(xué)和實(shí)驗(yàn)檢測(cè)等。在模式識(shí)別的技術(shù)基礎(chǔ)上,我國(guó)研究學(xué)者提出了仿生模式識(shí)別理論,其是從數(shù)學(xué)角度進(jìn)行推理,結(jié)合圖像特征的一種圖像識(shí)別技術(shù)。以臨床醫(yī)學(xué)檢測(cè)為例,識(shí)別X射線(xiàn)以及核磁共振等圖像可以科學(xué)地輔助醫(yī)生完成診斷,根據(jù)圖像特征的數(shù)據(jù)情況,快速匹配病癥。
當(dāng)前,模式識(shí)別分為兩個(gè)階段:第一階段是學(xué)習(xí)階段,在此階段中,是對(duì)信息圖像進(jìn)行信息特征的采集和存儲(chǔ),通過(guò)計(jì)算機(jī)將特征信息進(jìn)行分類(lèi),并根據(jù)特征規(guī)律進(jìn)行快速識(shí)別。第二階段是實(shí)現(xiàn)階段,在此階段中,通過(guò)識(shí)別程序識(shí)別圖像的特征信息,需與規(guī)定的模版完全符合,避免計(jì)算中出現(xiàn)誤差。識(shí)別模式的系統(tǒng)框圖如圖2所示。
圖2 識(shí)別模式的系統(tǒng)框圖Fig.2 System block diagram of pattern recognition
貝葉斯分析是整個(gè)機(jī)器學(xué)習(xí)的基礎(chǔ)框架[3],其以概率學(xué)理論對(duì)模式識(shí)別方法進(jìn)行推理,根據(jù)被識(shí)別圖像的特征和類(lèi)型進(jìn)行觀(guān)測(cè)和學(xué)習(xí)。貝葉斯定理具有方法簡(jiǎn)單、計(jì)算效率高等優(yōu)點(diǎn),在近年來(lái)得以快速發(fā)展,并衍生出了貝葉斯分類(lèi)算法,其已廣泛應(yīng)用于多個(gè)領(lǐng)域。
隨著人工智能的發(fā)展,圖像識(shí)別技術(shù)自誕生后發(fā)展愈發(fā)成熟,目前該技術(shù)具有和人腦相似的圖像識(shí)別過(guò)程,其識(shí)別過(guò)程如圖3所示。
圖3 圖像識(shí)別過(guò)程圖Fig.3 Image recognition process diagram
首先通過(guò)傳感器獲取數(shù)據(jù)信息的基本圖像。在信息數(shù)據(jù)傳遞的過(guò)程中,傳感器將聲音或光信號(hào)轉(zhuǎn)換成電信號(hào),即完成計(jì)算機(jī)不被識(shí)別的信號(hào)轉(zhuǎn)換成可識(shí)別信號(hào)的過(guò)程。計(jì)算機(jī)在接收到信號(hào)之后與計(jì)算機(jī)內(nèi)儲(chǔ)存的特征數(shù)據(jù)對(duì)比,然后進(jìn)行特征提取和處理。
圖像預(yù)處理,是指圖像數(shù)據(jù)傳輸?shù)接?jì)算機(jī)內(nèi)部后的抗干擾處理過(guò)程,包括濾波、平滑、增強(qiáng)等。經(jīng)過(guò)抗干擾的處理過(guò)程可以排除掉圖像中不必要的干擾因素,快速提取到有效數(shù)據(jù),提升圖像識(shí)別過(guò)程的準(zhǔn)確性。
圖像特征提取是指計(jì)算機(jī)程序通過(guò)對(duì)獲取的圖像特征進(jìn)行分類(lèi)、計(jì)算和處理,最后得出圖片與計(jì)算機(jī)內(nèi)部?jī)?chǔ)存相匹配的特征。特征提取是圖像識(shí)別最為重要的一個(gè)環(huán)節(jié),提取和選擇到的特征是否精準(zhǔn)將直接影響到圖像識(shí)別的匹配程度。特征提取的算法包括有卷積神經(jīng)網(wǎng)絡(luò)、深度殘差網(wǎng)絡(luò)、深度殘差收縮網(wǎng)絡(luò)等。
圖像匹配分類(lèi)需利用有效程序制定標(biāo)準(zhǔn)的識(shí)別規(guī)則,避免盲目識(shí)別造成的數(shù)據(jù)誤差[4]。按照標(biāo)準(zhǔn)的識(shí)別規(guī)則可以突顯出相似的特征種類(lèi)。對(duì)圖像匹配分類(lèi)需要圖像識(shí)別過(guò)程具有很好的辨識(shí)度,不僅需要標(biāo)準(zhǔn)的識(shí)別規(guī)則,還需要設(shè)計(jì)合適的分類(lèi)器。
常用的分類(lèi)器有Adaboost分類(lèi)器和SVM分類(lèi)器。前者利用迭代的分類(lèi)方法,自適應(yīng)組合精度更高的弱分類(lèi)器,合成一個(gè)功能強(qiáng)大的分類(lèi)器;后者利用二分類(lèi)算法,獲取小數(shù)據(jù)集的分類(lèi)精度,同時(shí)可以支持線(xiàn)性和非線(xiàn)性分類(lèi)。
圖像識(shí)別技術(shù)作為科技發(fā)展的新生力量,伴隨著該技術(shù)的完善和普及,人臉識(shí)別和指紋解鎖已經(jīng)成為人們?nèi)粘VЦ逗万?yàn)證的常規(guī)安全手段,極大提高了用戶(hù)的信息安全服務(wù)體驗(yàn),提高了大眾的生活質(zhì)量[5]。在未來(lái),伴隨著人工智能技術(shù)水平的不斷提高,圖像識(shí)別技術(shù)也會(huì)愈發(fā)趨于完善,在各領(lǐng)域得到推廣和應(yīng)用,滿(mǎn)足廣大人民的生產(chǎn)、生活需求。
引用
[1] 蔣樹(shù)強(qiáng),閔巍慶,王樹(shù)徽.面向智能交互的圖像識(shí)別技術(shù)綜述與展望[J].計(jì)算機(jī)研究與發(fā)展,2016,53(1):113-122.
[2] 李萍,徐安林.基于BP神經(jīng)網(wǎng)絡(luò)的智能制造系統(tǒng)圖像識(shí)別技術(shù)[J].現(xiàn)代電子技術(shù),2016,39(18):107-109.
[3] 葛瑋,吳佳.關(guān)于計(jì)算機(jī)智能圖像識(shí)別的算法及技術(shù)分析[J].無(wú)線(xiàn)互聯(lián)技,2014(10):82.
[4] 陳波光,劉姝姝,蔡揚(yáng)亞.計(jì)算機(jī)的智能化圖像識(shí)別技術(shù)的理論性突破[J].電子制作,2013(15):69.
[5] 張家怡.圖像識(shí)別的技術(shù)現(xiàn)狀和發(fā)展趨勢(shì)[J].電腦知識(shí)與技術(shù),2010,6(21):6045-6046.