羅術(shù)通 郝鵬
摘? 要:科學(xué)技術(shù)的進(jìn)步為人們探索人工智能領(lǐng)域提供基礎(chǔ)支撐,作為人工智能領(lǐng)域中的重要分支,計(jì)算機(jī)視覺(jué)產(chǎn)業(yè)的發(fā)展愈發(fā)受到人們的重視。發(fā)展計(jì)算機(jī)視覺(jué)技術(shù),可以讓人工智能具備類人似的視覺(jué)功能,目前人們對(duì)計(jì)算機(jī)視覺(jué)的研究,已經(jīng)在人臉識(shí)別、圖片識(shí)別等方面取得一定成效,并且在科學(xué)技術(shù)日益更迭的背景下,計(jì)算機(jī)視覺(jué)的應(yīng)用會(huì)更為普及。本文立足于計(jì)算機(jī)視覺(jué)與人工智能發(fā)展的分析,在此基礎(chǔ)上闡明人工智能領(lǐng)域中計(jì)算機(jī)視覺(jué)技術(shù)的具體應(yīng)用。
關(guān)鍵詞:計(jì)算機(jī)視覺(jué)? 發(fā)展? 神經(jīng)網(wǎng)絡(luò)? 人工智能
中圖分類號(hào):TP393? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2020)12(b)-0004-03
Abstract: The progress of science and technology provides basic support for people to explore the field of AI. As an important branch in the field of AI, the development of computer vision industry has been paid more and more attention. The development of computer vision technology can make AI have human like visual function. At present, people's research on computer vision has achieved certain results in face recognition, image recognition and so on. Under the background of the increasingly changing science and technology, the application of computer vision will be more popular. Based on the analysis of the development of computer vision and AI, this paper expounds the specific application of computer vision technology in the field of AI.
Key Words: Computer vision; Development; Neural network; AI
人工智能自問(wèn)世到世人皆知,期間發(fā)展年限較多,但取得的成效十分顯著。人工智能的發(fā)展不僅是推動(dòng)社會(huì)進(jìn)步的重要一筆,更是人類邁向智能時(shí)代的關(guān)鍵基礎(chǔ)。對(duì)此,進(jìn)行人工智能與計(jì)算機(jī)視覺(jué)產(chǎn)業(yè)的研究具有至關(guān)重要的意義。
1? 人工智能概述
人工智能簡(jiǎn)稱AI技術(shù),自問(wèn)世后便成為我國(guó)乃至全世界的關(guān)注焦點(diǎn)。隨著資本市場(chǎng)的進(jìn)入,進(jìn)一步推動(dòng)人工智能的發(fā)展。自2005年到現(xiàn)在,東方財(cái)務(wù)通過(guò)數(shù)據(jù)調(diào)查統(tǒng)計(jì)表明,A股榜首為192家相關(guān)研究機(jī)構(gòu),這就意味著各大機(jī)構(gòu)的研究重點(diǎn)紛紛轉(zhuǎn)移至人工智能產(chǎn)業(yè)。截止到目前,國(guó)內(nèi)外諸多大型企業(yè)已經(jīng)著手對(duì)人工智能產(chǎn)業(yè)的布局,如阿里、騰訊、聯(lián)想、英特爾等。相關(guān)公共資料表明,2016年我國(guó)在智能硬件等相關(guān)智能領(lǐng)域的總投資額超過(guò)172億元[1]。
諸多學(xué)者對(duì)人工智能的發(fā)展做出預(yù)測(cè),其中尤瓦爾·赫拉利提出,在未來(lái)發(fā)展中,人類會(huì)依托于人工智能技術(shù)來(lái)實(shí)現(xiàn)身體改造,通過(guò)對(duì)身體結(jié)構(gòu)的智能改造,幫助人類掙脫出生化反應(yīng)的限制。這表明未來(lái)社會(huì)中,新技術(shù)與生命科學(xué)的融合勢(shì)必會(huì)成為一大研究熱點(diǎn)。但是縱觀現(xiàn)階段人工智能的發(fā)展,大部分人對(duì)人工智能的應(yīng)用仍缺乏認(rèn)知,如何借助人工智能技術(shù)來(lái)轉(zhuǎn)變、優(yōu)化產(chǎn)業(yè)發(fā)展,是現(xiàn)階段我國(guó)社會(huì)及其產(chǎn)業(yè)發(fā)展的關(guān)注重點(diǎn)[2]。
2? 人工智能市場(chǎng)切入點(diǎn)分析
人工智能屬于廣義的大概念,目前我國(guó)對(duì)人工智能領(lǐng)域的研究已經(jīng)取得一定的成效。立足于人工智能驅(qū)動(dòng)角度,現(xiàn)階段智投資、智能駕駛、智能語(yǔ)音識(shí)別均為該領(lǐng)域中熱門的研究分支。
以消費(fèi)金融領(lǐng)域?yàn)槔?,在發(fā)展過(guò)程中合理引進(jìn)深度學(xué)習(xí)算法、大數(shù)據(jù)技術(shù)等,可實(shí)現(xiàn)智能控制與智能風(fēng)險(xiǎn)預(yù)防。例如互聯(lián)網(wǎng)金融消費(fèi)者可依托于模型與算法的應(yīng)用進(jìn)行風(fēng)險(xiǎn)評(píng)估,以大數(shù)據(jù)為基礎(chǔ),實(shí)現(xiàn)對(duì)借款人信用風(fēng)險(xiǎn)的智能評(píng)估,達(dá)到有效防控金融風(fēng)險(xiǎn)的目的[3]。在此基礎(chǔ)上,借助相關(guān)智能技術(shù)可實(shí)現(xiàn)自動(dòng)轉(zhuǎn)賬、數(shù)據(jù)傳輸、信用積累等功能的提供。而作為人工智能的重要分支之一,計(jì)算機(jī)視覺(jué)的應(yīng)用目前已經(jīng)在多個(gè)領(lǐng)域取得成效。自2010年深度學(xué)習(xí)算法的問(wèn)世,為計(jì)算機(jī)視覺(jué)的創(chuàng)新與優(yōu)化打下良好基礎(chǔ),也為計(jì)算機(jī)視覺(jué)多領(lǐng)域、多產(chǎn)業(yè)的應(yīng)用提供支撐。
3? 計(jì)算機(jī)視覺(jué)產(chǎn)業(yè)及其衍生品概述
盡管立足于技術(shù)分類角度上而言,機(jī)器視覺(jué)與計(jì)算機(jī)視覺(jué)屬于同一科目,但是二者存在本質(zhì)區(qū)別,計(jì)算機(jī)視覺(jué)的研究重點(diǎn)在于軟件開(kāi)發(fā),具體是進(jìn)行算法的研發(fā),進(jìn)而達(dá)到圖像分析的目的。而機(jī)器視覺(jué)則是軟件和硬件的綜合研究,包括算法研究、鏡頭控制設(shè)備研究、圖像采集設(shè)備研究等。并且,以不同視角去看待二者的區(qū)別,計(jì)算機(jī)視覺(jué)的側(cè)重點(diǎn)在于閱讀后進(jìn)行分析技術(shù)的研究,而機(jī)器視覺(jué)則是以識(shí)別為任務(wù)進(jìn)行操作的研究。
現(xiàn)階段我國(guó)對(duì)于計(jì)算機(jī)視覺(jué)技術(shù)的研究仍處于理論學(xué)術(shù)階段,尚無(wú)法做到對(duì)該技術(shù)的規(guī)?;?。但是因計(jì)算機(jī)視覺(jué)的研究已經(jīng)經(jīng)歷多年,所以誕生諸多高價(jià)值的技術(shù)原理與理論依據(jù),例如近幾年在計(jì)算機(jī)GPU等方面已經(jīng)開(kāi)始嘗試對(duì)計(jì)算機(jī)視覺(jué)技術(shù)的應(yīng)用[4]。
縱觀現(xiàn)階段該技術(shù)相關(guān)的衍生品,其中個(gè)別產(chǎn)品的研發(fā)效果顯著。如2010Kinct在微軟誕生,該技術(shù)具備擬人功能,即通過(guò)運(yùn)用核心技術(shù)進(jìn)行人體運(yùn)動(dòng)的捕捉和模擬,通過(guò)對(duì)玩家動(dòng)作的模擬,實(shí)現(xiàn)玩家可通過(guò)肢體動(dòng)作來(lái)與電腦互動(dòng)。隨后,各大企業(yè)開(kāi)始紛紛在該領(lǐng)域投入更多精力與資源,如蘋果、谷歌等企業(yè)開(kāi)始加大對(duì)深度應(yīng)用相機(jī)的研發(fā)力度。盡管各大企業(yè)對(duì)基礎(chǔ)應(yīng)用的研究取得一定成效,且進(jìn)展十分順利,但是在市場(chǎng)投放時(shí)屢遭困難,無(wú)法將深度視覺(jué)技術(shù)作為單一產(chǎn)品實(shí)現(xiàn)大規(guī)模投放。
再如RGBD攝像機(jī),市面上常見(jiàn)攝像機(jī)類型為RGB,其功能體現(xiàn)為可見(jiàn)光三原色的分辨,而RGBD攝像機(jī)則可以作為常規(guī)相機(jī)的強(qiáng)化版,增設(shè)深度信息加工技術(shù)后可實(shí)現(xiàn)主動(dòng)、被動(dòng)探取,達(dá)到獲取深度圖像信息的目的。RGBD攝像機(jī)在工作時(shí),會(huì)依據(jù)探測(cè)光發(fā)射來(lái)實(shí)現(xiàn)目標(biāo)的探測(cè),并按照接收信息來(lái)完成被動(dòng)接收,無(wú)需通過(guò)發(fā)射能量來(lái)獲取目標(biāo)信息[5]。分析該技術(shù)應(yīng)用原理,主要是將攝像頭安設(shè)于不同的兩個(gè)位置,以圖像特征點(diǎn)的差異位置為依據(jù)來(lái)獲取信息。此原理類似于人眼感知,但是在實(shí)踐應(yīng)用中尚存辨識(shí)度低的問(wèn)題,且必須在標(biāo)準(zhǔn)光線下進(jìn)行。
4? 計(jì)算機(jī)視覺(jué)研究要點(diǎn)分析
針對(duì)計(jì)算機(jī)視覺(jué)的研究,目前仍以圖像理解為該領(lǐng)域的主要研究任務(wù),包括對(duì)視頻、單多幅等類型圖像的處理,所以計(jì)算機(jī)視覺(jué)產(chǎn)業(yè)的發(fā)展的主要服務(wù)目標(biāo)也是圖像的理解與處理。
不同圖像類型的理解方式不同,其中單幅圖像的處理囊括目標(biāo)檢測(cè)、場(chǎng)景分類、語(yǔ)義分割、圖像分類等;多幅圖像處理則以三維重建為主;視頻圖像理解則是以目標(biāo)跟蹤為主。當(dāng)然,語(yǔ)義分割、圖像識(shí)別等在視頻圖像理解中同樣有涉及。
(1)場(chǎng)景分類。
場(chǎng)景分類主要是對(duì)不同場(chǎng)景的識(shí)別,包括室內(nèi)外、山地與城市、廚房或起居室等方面。
(2)目標(biāo)識(shí)別。
理解時(shí)主要目標(biāo)為圖像類別的確定,或者是識(shí)別圖像是否與某物體、物質(zhì)、目標(biāo)之間存在關(guān)聯(lián)。
(3)目標(biāo)定位。
理解時(shí)對(duì)目標(biāo)的位置進(jìn)行精準(zhǔn)定位,此類理解方式多應(yīng)用于單個(gè)目標(biāo)的理解。
(4)目標(biāo)檢測(cè)。
理解時(shí)以圖像位置的確定為主要任務(wù),在識(shí)別過(guò)程中確定目標(biāo)的具體類別,從任務(wù)目標(biāo)角度而言,目標(biāo)檢測(cè)為目標(biāo)定位、識(shí)別的綜合體[6]。
(5)語(yǔ)義分割。
作為圖像理解中的特殊性分類,需要在理解過(guò)程中進(jìn)行圖像像素點(diǎn)的針對(duì)性分類,做到對(duì)每個(gè)像素點(diǎn)進(jìn)行目標(biāo)類別的精準(zhǔn)給定。
(6)三維重建。
所謂三維重建,是指空間物體以視網(wǎng)膜成像的二維圖來(lái)進(jìn)行恢復(fù),通過(guò)將二維圖恢復(fù)成三維表面形狀來(lái)達(dá)到三維重建的目的。而在圖像理解中,三維重建則是指以單、多視圖為依據(jù)進(jìn)行三維信息的重建。
(7)目標(biāo)跟蹤。
主要是依據(jù)視頻圖像序列的處理與分析來(lái)完成目標(biāo)跟蹤,基于復(fù)雜背景下,進(jìn)行運(yùn)動(dòng)目標(biāo)的確定,然后預(yù)測(cè)目標(biāo)在運(yùn)行過(guò)程中存在的規(guī)律,并以此為依據(jù)來(lái)實(shí)現(xiàn)對(duì)目標(biāo)的跟蹤與檢測(cè)[7]。
5? 計(jì)算機(jī)視覺(jué)的人工智能應(yīng)用場(chǎng)景
自深度學(xué)習(xí)問(wèn)世后,計(jì)算機(jī)視覺(jué)得益于深度學(xué)習(xí)的充分應(yīng)用而取得巨大進(jìn)展,其分類、檢測(cè)等方面的精準(zhǔn)性因深度學(xué)習(xí)算法的充分應(yīng)用而得到提升,以此為計(jì)算機(jī)視覺(jué)技術(shù)在各個(gè)人工智能場(chǎng)景中的應(yīng)用打下良好基礎(chǔ)。目前,計(jì)算機(jī)視覺(jué)在以下人工智能場(chǎng)景中的應(yīng)用取得較好成果。
5.1 安全領(lǐng)域
安全領(lǐng)域中計(jì)算機(jī)視覺(jué)的應(yīng)用,主要體現(xiàn)為智能監(jiān)控與智能身份識(shí)別等方面。目前,我國(guó)在視頻監(jiān)控網(wǎng)方面的建設(shè)遙遙領(lǐng)先,安設(shè)的攝像頭數(shù)量超過(guò)2000萬(wàn)個(gè),以其中的道路智能監(jiān)控網(wǎng)為例,在具備機(jī)動(dòng)車、非機(jī)動(dòng)車監(jiān)控功能的同時(shí),能實(shí)現(xiàn)對(duì)行人的有效監(jiān)控,包括對(duì)行人性別、穿著、身份的識(shí)別。以Sense Video系統(tǒng)為例,該系統(tǒng)的功能齊全,包括車輛分類識(shí)別、行人監(jiān)測(cè)等,可實(shí)現(xiàn)運(yùn)行期間進(jìn)進(jìn)行區(qū)域內(nèi)行人、車輛的實(shí)時(shí)跟蹤、抓拍、檢索等,通過(guò)強(qiáng)大的數(shù)據(jù)分析能力,為密集高峰期的車輛識(shí)別、抓拍等提供基礎(chǔ)支撐。再如Face++系統(tǒng),該系統(tǒng)的主要使用場(chǎng)所包括火車站、機(jī)場(chǎng)等場(chǎng)合,其所具備的人臉識(shí)別功能可做到實(shí)時(shí)的大規(guī)模檢測(cè)。系統(tǒng)運(yùn)行期間,可實(shí)現(xiàn)對(duì)人臉的精準(zhǔn)識(shí)別,正確鑒別出人的年齡、性別等。與此同時(shí),將人臉識(shí)別信息與罪犯數(shù)據(jù)庫(kù)進(jìn)行比對(duì),可以實(shí)現(xiàn)對(duì)罪犯的有效識(shí)別,為打擊犯罪事業(yè)的開(kāi)展提供幫助[8]。
5.2 營(yíng)銷及其娛樂(lè)領(lǐng)域
隨著人們對(duì)手機(jī)照相需求的不斷提高,近幾年推出各種多功能照相軟件,以“faceu美顏相機(jī)”為例,該軟件可以在照相時(shí)為人們提供豐富的貼圖、道具功能,如照相時(shí)為對(duì)象提供帽子貼圖,或者是夸張的放大對(duì)象的眼睛。而這些功能的實(shí)現(xiàn)離不開(kāi)對(duì)計(jì)算機(jī)視覺(jué)的影響。通過(guò)為其提供人臉檢測(cè)、識(shí)別技術(shù),實(shí)現(xiàn)精準(zhǔn)識(shí)別對(duì)象五官,并在此基礎(chǔ)上提供貼紙、放大五官的功能。再如小米手機(jī)提供的“一人一相冊(cè)”功能,此功能主要是依據(jù)對(duì)人臉的識(shí)別來(lái)實(shí)現(xiàn)相冊(cè)分類,將云端或者是手機(jī)本地存儲(chǔ)的相冊(cè)進(jìn)行智能分類。
此外,其他企業(yè)也依托于計(jì)算機(jī)視覺(jué)技術(shù)的應(yīng)用開(kāi)發(fā)出諸多趣味應(yīng)用,以“How-old.net”軟件為例,首先將照片上傳于電腦中,然后利用此軟件可實(shí)現(xiàn)對(duì)對(duì)象外觀年齡的判斷。再如“微軟我們”軟件,將帶有人物的圖片上傳于電腦中,此軟件可通過(guò)人臉識(shí)別與分析,判斷人臉之間的相似性。此外,Celebslike、Fetch等軟件也通過(guò)應(yīng)用計(jì)算機(jī)視覺(jué),為人們提供豐富且趣味的功能。
而針對(duì)計(jì)算機(jī)視覺(jué)在營(yíng)銷領(lǐng)域中的應(yīng)用,以YI+為例,可以實(shí)現(xiàn)用戶的邊看邊買,再如優(yōu)酷平臺(tái),充分利用計(jì)算機(jī)視覺(jué),可實(shí)現(xiàn)用戶觀看電影過(guò)程中進(jìn)行明星同款物品的購(gòu)買?;蛘呤且罁?jù)對(duì)視頻內(nèi)容的分析,智能投放相應(yīng)廣告等,提升廣告投放的契合性,避免用戶在觀看電影時(shí)對(duì)廣告的投放產(chǎn)生反感[9]。
5.3 金融領(lǐng)域
京東錢、拉卡拉、借貸寶等軟件中均存在計(jì)算機(jī)視覺(jué)的身影,通過(guò)人臉識(shí)別技術(shù)、證件識(shí)別、身份認(rèn)證等技術(shù),進(jìn)一步提升金融軟件的安全性,并為用戶提供更為智能、多元的金融服務(wù)。
6? 結(jié)語(yǔ)
綜上所述,目前我國(guó)對(duì)計(jì)算機(jī)視覺(jué)與人工智能領(lǐng)域的研究,已經(jīng)取得初步的成效與成果,人類也因人工智能的不斷發(fā)展而邁入新的紀(jì)元。對(duì)此,應(yīng)繼續(xù)加大對(duì)人工智能與計(jì)算機(jī)視覺(jué)的研究力度,以期通過(guò)計(jì)算機(jī)視覺(jué)的廣泛普及來(lái)推動(dòng)社會(huì)發(fā)展。
參考文獻(xiàn)
[1] 劉赟,周爽.人工智能與計(jì)算機(jī)視覺(jué)產(chǎn)業(yè)發(fā)展[J].現(xiàn)代商業(yè),2017(24):20-21.
[2] 王芳芳.計(jì)算機(jī)視覺(jué)在人工智能領(lǐng)域的應(yīng)用和發(fā)展概述[J].科學(xué)與信息化,2019(27):15.
[3] 壽偉義,章正平,潘學(xué)冬,等.杭州市人工智能產(chǎn)業(yè)發(fā)展現(xiàn)狀及對(duì)策研究[J]. 杭州科技,2017(2):11-15.
[4] 黃偉.計(jì)算機(jī)視覺(jué)技術(shù)及產(chǎn)業(yè)化應(yīng)用態(tài)勢(shì)分析[J]. 信息通信技術(shù)與政策,2018,291(9):66-69.
[5] 陳維維.多元智能視域中的人工智能技術(shù)發(fā)展及教育應(yīng)用[J].電化教育研究,2018,39(7):12-19.
[6] 張鵬.亞信軟件應(yīng)江勇:人工智能關(guān)鍵不在技術(shù)而是如何結(jié)合業(yè)務(wù)[J].通信世界,2017(31):47.
[7] 陳小亮,陳彥斌.發(fā)展人工智能的產(chǎn)業(yè)政策存在的問(wèn)題與調(diào)整思路[J].人文雜志,2019(11):25-32.
[8] 胡誠(chéng),朱奧琪,李成.關(guān)于人工智能在計(jì)算機(jī)視覺(jué)及網(wǎng)絡(luò)領(lǐng)域中的應(yīng)用[J].數(shù)字化用戶,2019,25(16):150.
[9] 盧娜,陳勁佑.人工智能時(shí)代計(jì)算機(jī)視覺(jué)中若干問(wèn)題實(shí)現(xiàn)技術(shù)研究[J].數(shù)碼世界, 2020(5):9-10.
科技創(chuàng)新導(dǎo)報(bào)2020年35期