楊遠(yuǎn)興
摘要:文章以人工智能技術(shù)領(lǐng)域中的圖像識(shí)別技術(shù)為研究對(duì)象,首先對(duì)人工智能領(lǐng)域下的圖像識(shí)別技術(shù)發(fā)展階段進(jìn)行了詳細(xì)的闡述分析,隨后分析研究了當(dāng)下常見的人工智能領(lǐng)域中圖像識(shí)別技術(shù)形式以供參考。
關(guān)鍵詞:人工智能;圖像識(shí)別技術(shù);發(fā)展研究
前言
如今在科學(xué)技術(shù)不斷發(fā)展的大背景之下,人工智能領(lǐng)域中的圖像識(shí)別技術(shù)也得到了顯著的發(fā)展,在圖像識(shí)別類型上也變得更加多樣化。從平安證券《通信行業(yè)人工智能圖像識(shí)別專題報(bào)告》中我們可以看到,如今的圖像識(shí)別可分為物體與場(chǎng)景識(shí)別、生物識(shí)別及視頻識(shí)別。其中對(duì)于生物識(shí)別技術(shù)來說,預(yù)計(jì)到2020年,其市場(chǎng)規(guī)模將達(dá)到250億美元。由此可以看出,圖像識(shí)別技術(shù)正在逐漸融入我們的日常生活中,無論是人臉識(shí)別還是視頻識(shí)別,我們已經(jīng)不再感到陌生,因此加強(qiáng)人工智能技術(shù)領(lǐng)域中對(duì)圖像識(shí)別技術(shù)的研究與探討,對(duì)于推動(dòng)圖像識(shí)別技術(shù)在我們?nèi)粘Ia(chǎn)生活中進(jìn)一步實(shí)現(xiàn)廣泛的應(yīng)用是非常有意義的。
一、人工智能領(lǐng)域下的圖像識(shí)別技術(shù)發(fā)展階段
(一)圖像識(shí)別發(fā)展初級(jí)階段
在移動(dòng)互聯(lián)網(wǎng)不斷發(fā)展成熟、智能手機(jī)不斷普及的大背景之下,人們接受信息方式不再僅限于文字,圖像、視頻等多種信息表現(xiàn)形式逐漸在人們?nèi)粘P畔⒔邮罩谐蔀槌B(tài),例如我國(guó)最大的社交媒體平臺(tái)之一微信,就是以圖片分享作為主要的信息交流方式。并且相對(duì)于繁瑣的文字而言,圖像信息更易于用戶理解、接受,再加上智能手機(jī)的普及,更加方便人們進(jìn)行拍攝照片與截屏,從而有效幫助人們更快的利用圖片進(jìn)行信息的記錄、采集、分享、傳播。但新的問題又隨之出現(xiàn),如今在互聯(lián)網(wǎng)之上,我們可以輕易利用文字進(jìn)行信息的搜索,從而找到我們需要的內(nèi)容,但我們卻無法直接對(duì)圖片中的信息進(jìn)行檢索,圖片為我們帶來的更加快捷的信息記錄與分享方式,卻降低了我們的信息檢索效率。在這一形勢(shì)之下,人工智能領(lǐng)域中的圖像識(shí)別技術(shù)的重要性便凸顯出來。
人工智能領(lǐng)域中的圖像識(shí)別技術(shù)即是通過借助計(jì)算機(jī)強(qiáng)大的運(yùn)算功能,對(duì)圖像信息進(jìn)行分析、處理、理解,以達(dá)到圖像識(shí)別翻譯的一種技術(shù)。初級(jí)階段的圖像識(shí)別技術(shù)僅僅作為一項(xiàng)輔助工具存在,并呈娛樂化、工具化態(tài)勢(shì)發(fā)展。例如在娛樂化方面,以百度魔圖“大咖配功能”為例,它可以根據(jù)用戶上傳的照片,幫助用戶進(jìn)行搜索,并找到與其長(zhǎng)相最為相配的明星。在國(guó)外,F(xiàn)ace Book研發(fā)了“Deep Face”,具備相似的功能,即根據(jù)用戶的照片進(jìn)行人臉匹配。這一階段的圖像識(shí)別技術(shù)還有一個(gè)重要的細(xì)分領(lǐng)域,同時(shí)也是圖像識(shí)別技術(shù)工具化的一種體現(xiàn),即Optical Character Recognition(光學(xué)字符識(shí)別),簡(jiǎn)稱OCR,它可以利用計(jì)算機(jī)與光學(xué)設(shè)備,通過對(duì)字符形狀進(jìn)行識(shí)別翻譯,并進(jìn)一步將翻譯結(jié)果轉(zhuǎn)化為計(jì)算機(jī)文字。簡(jiǎn)單來說即是利用計(jì)算機(jī)進(jìn)行文字閱讀。在比特世界,我們可以輕松借助計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)對(duì)文字進(jìn)行處理,然而一旦文字以“形狀化”、“圖像化”形式展現(xiàn)時(shí),針對(duì)文字的處理難度便大大增加。當(dāng)下通過借助OCR技術(shù),我們可以輕松識(shí)別日常生活中出現(xiàn)的物理形態(tài)的文字信息,例如Google可以對(duì)街景圖中出現(xiàn)的門牌號(hào)進(jìn)行輕松識(shí)別,且識(shí)別的正確率高達(dá)90%。
初級(jí)階段的圖像識(shí)別技術(shù)就為我們與外部世界交流的方式帶來了巨大的改變,正如計(jì)算機(jī)、網(wǎng)絡(luò)技術(shù)的橫空出世一樣,使我們把自己部分記憶分包給了搜索引擎,極大擴(kuò)展了我們的“記憶信息存儲(chǔ)空間”;如今隨著人工智能技術(shù)最為重要的組成部分之一圖像識(shí)別技術(shù)的出現(xiàn),使我們把自己部分視力分包給了外部機(jī)器,極大的擴(kuò)展了我們的視野范圍。如今通過在機(jī)器制造上融入圖像識(shí)別技術(shù),賦予了機(jī)器一雙“眼睛”,我們?cè)龠M(jìn)行信息處理時(shí),不需要先運(yùn)用大腦將信息轉(zhuǎn)換為計(jì)算機(jī)可識(shí)別理解的語(yǔ)言,然后實(shí)現(xiàn)與計(jì)算機(jī)的交互,得出最終的結(jié)果,而是簡(jiǎn)化為機(jī)器利用攝像頭對(duì)圖像信息進(jìn)行捕捉、識(shí)別、分析,并直接與計(jì)算機(jī)進(jìn)行信息交互,并自動(dòng)返回最終的結(jié)果。
(二)圖像識(shí)別技術(shù)發(fā)展高級(jí)階段
在未來,圖像識(shí)別技術(shù)進(jìn)入到高級(jí)發(fā)展階段,已經(jīng)不再僅僅作為一種輔助、娛樂性質(zhì)的工具而存在。通過上文敘述我們可知,如今圖像識(shí)別技術(shù)仍處于初級(jí)階段,它只是為我們的視覺提供一個(gè)輔助的作用,一些操作仍需要我們親自動(dòng)手完成。在未來圖像識(shí)別技術(shù)發(fā)展到了高級(jí)階段,機(jī)器可以完全代替我們自主完成所有操作。換句話說,如今的圖像識(shí)別技術(shù)如同盲人手牽的導(dǎo)盲犬,只會(huì)為盲人指引方向,路還是由盲人自己來走;高級(jí)階段的圖像識(shí)別技術(shù)通過與其他人工智能技術(shù)組合,成功進(jìn)化為了盲人的貼身管家,一切行動(dòng)皆交由管家執(zhí)行,不需要盲人再親自行動(dòng)操作?!度斯ぶ悄埽阂环N現(xiàn)代方法》中提出,人工智能要想完全實(shí)現(xiàn),必須要賦予機(jī)器具備感知能力,感知能力主要包含三種,即視覺、聽覺與觸覺,其中視覺最為重要,究其原因在于,從人類感知世界的過程來看,視覺是最直接、最及時(shí)、最準(zhǔn)確的一種渠道,相關(guān)研究也表明,在人類所有感覺信息中,視覺信息占據(jù)80%。因此要想賦予機(jī)器如同人類一般的視覺,圖像識(shí)別技術(shù)不失為一種有效的手段,圖像識(shí)別技術(shù)之于人工智能的重要性,如同視覺之于人類的重要性一樣,在某些應(yīng)用領(lǐng)域,因圖像識(shí)別技術(shù)為機(jī)器帶來的視覺比人類生理視覺更具備優(yōu)勢(shì),更加客觀公正,例如在監(jiān)控中融入成熟的圖像識(shí)別技術(shù)再加上人工智能技術(shù)的支持,不再需要人類通過回放監(jiān)控畫面進(jìn)行判別,而是由計(jì)算機(jī)自行處置,一旦在監(jiān)控中識(shí)別威脅,會(huì)自動(dòng)發(fā)出警報(bào),有效提升監(jiān)控的質(zhì)量。
二、人工智能領(lǐng)域中圖像識(shí)別技術(shù)形式
(一)模式識(shí)別
在圖像識(shí)別技術(shù)中,模式識(shí)別是一項(xiàng)應(yīng)用較為廣泛的圖像識(shí)別方式,它所觀察識(shí)別的內(nèi)容包括了人類感官直接或間接接受的外界信息,模式識(shí)別作為一項(xiàng)有效的圖像識(shí)別模型,主要是通過利用計(jì)算機(jī)來對(duì)人類的識(shí)別能力進(jìn)行模仿,最終達(dá)到辨別圖像的目的。模式識(shí)別一般分為兩個(gè)階段,第一個(gè)階段是學(xué)習(xí)階段,計(jì)算機(jī)在獲取目標(biāo)識(shí)別圖像后,會(huì)對(duì)圖像進(jìn)行信息采集,然后進(jìn)行預(yù)處理,其整個(gè)過程既可以理解為一個(gè)存儲(chǔ)、學(xué)習(xí)的過程,通過對(duì)圖像進(jìn)行二值化、反色等處理后,來獲得識(shí)別圖像的所有特征數(shù)據(jù),即如同人類一樣,先記住一個(gè)相應(yīng)圖像的基本特征,并以這些特征為依據(jù),進(jìn)行后續(xù)與其特征類似的圖像進(jìn)行識(shí)別,記住圖像特征的過程即是學(xué)習(xí)過程。第二個(gè)階段便是實(shí)現(xiàn)圖像識(shí)別的階段,在這一階段中,計(jì)算機(jī)強(qiáng)調(diào)的是所需要識(shí)別的圖像自身特征必須與計(jì)算機(jī)記憶存儲(chǔ)的圖像必須完全相符,才能夠通過圖像識(shí)別程序,完成最終的圖像識(shí)別。計(jì)算機(jī)在圖像識(shí)別過程中,通過將記憶存儲(chǔ)的圖像特征與最新捕捉的圖像信息進(jìn)行一一匹配,如全部匹配成功,即可完成圖像識(shí)別。
(二)神經(jīng)網(wǎng)絡(luò)形式的圖像識(shí)別技術(shù)
所謂神經(jīng)網(wǎng)絡(luò)式的圖像識(shí)別方式,即是通過構(gòu)建模擬人類神經(jīng)網(wǎng)絡(luò),在傳統(tǒng)的圖像識(shí)別技術(shù)上融合神經(jīng)網(wǎng)絡(luò)算法,從而讓計(jì)算機(jī)識(shí)別方式更加接近于人類識(shí)別方式。人工智能領(lǐng)域本就是借助復(fù)雜的機(jī)器與算法對(duì)人類的思考、行為方式進(jìn)行全面的模擬,力圖讓機(jī)器無限接近于人,從而為人們提供更好更全面的服務(wù)。因此神經(jīng)網(wǎng)絡(luò)形式的圖像識(shí)別技術(shù)更加體現(xiàn)出自身具備的“人工智能性”。相對(duì)于傳統(tǒng)的圖像識(shí)別技術(shù),神經(jīng)網(wǎng)絡(luò)形式的圖像識(shí)別技術(shù)能夠通過對(duì)捕捉到的圖像信息利用模擬神經(jīng)網(wǎng)絡(luò)中進(jìn)行映射,圖像識(shí)別機(jī)制更加復(fù)雜,同時(shí)識(shí)別效果也更加準(zhǔn)確,例如當(dāng)前智能汽車監(jiān)控拍攝系統(tǒng)中的圖像識(shí)別便是應(yīng)用的神經(jīng)網(wǎng)絡(luò)形式的圖像識(shí)別技術(shù),它能夠?qū)Ω咚傩旭偟钠囘M(jìn)行精準(zhǔn)抓拍,并從得到的圖像信息中快速識(shí)別出汽車車牌號(hào)信息,以達(dá)到協(xié)同交通管理的作用。
三、總結(jié)
綜上所述,在人工智能領(lǐng)域中,圖像識(shí)別技術(shù)占據(jù)著非常重要的地位,并且應(yīng)經(jīng)在諸多行業(yè)領(lǐng)域中得到廣泛的應(yīng)用。當(dāng)下的圖像識(shí)別技術(shù)仍處于發(fā)展階段,僅僅是作為人們?nèi)粘Ia(chǎn)生活中一項(xiàng)輔助的工具,相信在不久的將來,隨著圖像識(shí)別技術(shù)不斷發(fā)展成熟,再輔以其他人工智能領(lǐng)域中的技術(shù),圖像識(shí)別技術(shù)將會(huì)發(fā)揮更大的價(jià)值,造福更多人類。
參考文獻(xiàn):
[1]StuartJ.Russell,PeterNorvig. 人工智能:一種現(xiàn)代的方法(第3版)[J]. 計(jì)算機(jī)教育,2011(15):68-68.
[2]宋炯,柏松平,王燕華. 基于人工智能的圖像識(shí)別技術(shù)探討[J]. 科技傳播,2018(1)107-107.
[3]翁和王. 關(guān)于人工智能中的圖像識(shí)別技術(shù)的研究[J]. 信息通信,2016(10):191-192.