王瑞麗
摘 要:在大數(shù)據(jù)時代背景下,各個行業(yè)中都涉及到更加復雜的管理內(nèi)容,為了實現(xiàn)更加有效的管理,需要行業(yè)具有針對大數(shù)據(jù)管理的方法,而神經(jīng)網(wǎng)絡就是一種針對大數(shù)據(jù)的網(wǎng)絡處理結(jié)構(gòu),其在計算機視覺中的應用也有效提供了計算機技術(shù)的性能,下面,本文就針對基于神經(jīng)網(wǎng)絡的計算機視覺進行探討,來了解其具體的實現(xiàn)和應用。
關(guān)鍵詞:神經(jīng)網(wǎng)絡 計算機視覺 應用探討
中圖分類號:S126 文獻標識碼:A 文章編號:1672-3791(2018)04(b)-0017-02
計算機視覺應用作為一種新型的技術(shù)類型,其受到了人們的歡迎和追捧,為了更好地實現(xiàn)計算機視覺的功能,就可以利用神經(jīng)網(wǎng)絡來建立相應的網(wǎng)絡結(jié)構(gòu)來進行計算機視覺功能的實現(xiàn),但是,由于神經(jīng)網(wǎng)絡還處于一種探索的階段,在探索的過程中國也產(chǎn)生了多種神經(jīng)網(wǎng)絡模型,本文主要針對卷積神經(jīng)網(wǎng)絡在計算機視覺中的應用進行探討,來了解其對計算機視覺的實現(xiàn)。
1 計算機視覺的神經(jīng)網(wǎng)絡模擬發(fā)展現(xiàn)狀
神經(jīng)網(wǎng)絡模擬技術(shù)的發(fā)展還處于一種探索的階段,并沒有達到實時的處理效果,而隨著長期的研究和探索,目前國內(nèi)外對于神經(jīng)網(wǎng)絡在計算機視覺中的應用研究也在不斷進步,計算機視覺主要是將視覺感知到的處理以及表現(xiàn)進行綜合,進而實現(xiàn)其自動化處理的技術(shù),在神經(jīng)網(wǎng)絡的計算機視覺應用中,對于圖像的處理、統(tǒng)計模式的分類以及幾何的建模和處理等技術(shù)都比較實用,但是其研究中依然存在一定的難題。比如:利用相應的神經(jīng)網(wǎng)絡實現(xiàn)了對圖像的恢復,但是其完成任務的過程中,需要神經(jīng)元的數(shù)量過多,即所用的神經(jīng)元數(shù)量至少要等于其輸入的圖像像素的個數(shù)。另外,神經(jīng)網(wǎng)絡的計算機視覺應用中也取得了不錯的效果,比如:利用三層神經(jīng)網(wǎng)絡對其紋理實現(xiàn)了有效分割,利用多值Boltzmann機來對其紋理進行分割,在其有限的迭代次數(shù)下,取得的效果卻不錯,在邊緣的檢測中,也取得了很大的突破[1]。
2 基于神經(jīng)網(wǎng)絡的計算機視覺分析
2.1 神經(jīng)網(wǎng)絡的結(jié)構(gòu)
對于一個簡單的卷積神經(jīng)網(wǎng)絡模型來說,其主要有兩個卷積層(C1,C2)以兩個子采樣層(S1,S2)交替組成。其原始的輸入圖像先經(jīng)過3個可以訓練的卷積核可加偏置的向量來進行相應的卷積運算,進而在C1層呈現(xiàn)出3個具有特征的映射圖,然后針對其每一個特征映射圖局部區(qū)域來進行相應的加權(quán)平均求和,在通過增加相應的偏置后,通過其非線性的激活函數(shù)于S1層呈現(xiàn)出3個新特征的映射圖,這些具有特征的映射圖在C2層3個可訓練的卷積核中進行卷積,再經(jīng)過S2層,輸出相應的3個特征的映射圖,最后S2層3個輸出特征圖像被向量化,輸入到其傳統(tǒng)神經(jīng)網(wǎng)絡進行訓練。
2.2 圖像分類
圖像分類主要是通過對相關(guān)圖像進行分析,進而將相應的圖像劃分為若干類別中某一種,它主要用來強調(diào)圖像整體語義的判定。目前,常用評判圖像的分類算法帶標簽數(shù)據(jù)集有很多種,ImageNet的使用就比較頻繁,其包含了超過15000000張的帶標簽高分辨率的圖像,而這些圖像進一步被劃分成超過22000種類別,在訓練深度神經(jīng)網(wǎng)絡時,一般常用歸一化的輸入數(shù)據(jù)預處理手段,它可以有效地減少網(wǎng)絡的訓練參數(shù)和初始權(quán)重,從而避免對訓練的效果產(chǎn)生影響,加快其收斂的速度,相關(guān)人員也將這種歸一化方法使用到了網(wǎng)絡內(nèi)部激活函數(shù)中,從而實現(xiàn)對層和層之間數(shù)據(jù)傳輸?shù)臍w一化[2]。
2.3 物體檢測
物體檢測相對于圖像分類來說更加復雜,在對于一張圖像的處理中,其還可能具有不同類別多個物體,因此,這就需要針對這些內(nèi)容,進行相應的定位和識別,要想在物體的檢測中取得好良好的效果,就比物體的分類更有難度,在物體檢測中,其深度學習的模型結(jié)構(gòu)和構(gòu)建也就更為復雜。卷積神經(jīng)網(wǎng)絡在物體檢測中的使用,主要是利用R-CNN模型,這一模型是使用Selective search這一種非深度的學習算法來提出相應的待分類候選區(qū)域,進而再將其每一個候選區(qū)域進行輸入于相應的卷積神經(jīng)網(wǎng)絡,并提取其特征,然后將這部分特征輸入于線性支持的向量機進行分類,為了保證其定位準確,R-CNN還訓練了一種線性回歸模型,對候選的區(qū)域坐標實現(xiàn)修正。
2.4 姿態(tài)估計
在計算機視覺呈現(xiàn)中,除了圖像分類以及目標檢測外,對于姿態(tài)的估計也是應用十分廣泛,比如:在很多網(wǎng)絡游戲、動畫視頻等中都需要用到,因此,這就需要計算機視覺快速實現(xiàn)姿態(tài)的估計,在姿態(tài)估計和檢測中,一般包含很多的類別,姿態(tài)估計也是目前計算機視覺實現(xiàn)中最關(guān)鍵的內(nèi)容,主要是由于其應用于人物的追蹤、動作的識別以及視頻分析中,比如:生活中常用到的視頻監(jiān)控以及視頻搜索功能等。對于姿態(tài)估計的網(wǎng)絡結(jié)構(gòu)來說,其主要有5個卷積層以及3個pooling層和3個全連接層來組成,其每一層都能夠提取一定的特征進而進入于下一層的訓練中,再經(jīng)過最后的全連接層得出一個2k維向量,就作為其輸出結(jié)的果,如果想要得出原圖的大小,還需要進行相應的逆操作[3]。
2.5 圖像分割
在以上的基礎上,對計算機視覺功能的發(fā)展就是對相應圖像的每個像素點進行預測,也就是對圖像的分割。對于圖像的分割來說,一張圖像可能會存在多個的物體、多個的人物或者多層的背景,這就需要對原圖上每一個像素點進行分析,進而預測其屬于的哪部分圖像分割內(nèi)容,這也是計算機視覺應用中關(guān)鍵性內(nèi)容。卷積神經(jīng)網(wǎng)絡模型對于圖像分割的實現(xiàn),先使用一些常用分類網(wǎng)絡,保留它們對圖像分類訓練的參數(shù)基礎之上,再進行相應的處理,將其轉(zhuǎn)變成圖像分割模型,然后,再將一些網(wǎng)絡比較深的層特征以及一些比較淺的層特征進行有效結(jié)合,最后再用相應的反卷積層放大到相應的原始圖像大小提供更加準確分割結(jié)果,這種網(wǎng)絡結(jié)構(gòu)也被稱作跳躍結(jié)構(gòu)。
2.6 人臉識別
人臉識別在圖像識別的領(lǐng)域是非常重要研究的內(nèi)容,其在人們生活中也逐漸的得到了使用,人臉圖像功能的實現(xiàn),需要其具有易采集特性,它也受到了很多行業(yè)重點關(guān)注,因此,其具有廣闊的使用前景以及巨大商業(yè)市場。對于人臉識別技術(shù)來說,其主要有人臉檢測、人臉識別以及人臉特征提取3個過程,人臉檢測主要是在輸入圖像以及視頻中,檢測和提取相應的人臉圖像,進而給出相應的人臉位置以及相應的主要的面部器官位置信息,一般采用Haar特征以及Adaboost算法的訓練級聯(lián)分類器來對圖像的各個矩形子區(qū)域?qū)崿F(xiàn)分類,特征提取通過對一組數(shù)據(jù)進行人臉信息的獲取,其主要是提取人臉的特征,人臉特征一般有幾何特征以及表征特征[4]。
3 結(jié)語
神經(jīng)網(wǎng)絡的計算機視覺應用對計算機技術(shù)的發(fā)展具有著重要的意義,其可以有效提高計算機技術(shù)的功能,進而更好地服務于人們,為了更好地促進其應用,需要相關(guān)人員繼續(xù)對神經(jīng)網(wǎng)絡的計算機視覺應用進行研究和探索,這也是其發(fā)展中的重點內(nèi)容。
參考文獻
[1] 盧宏濤,張秦川.深度卷積神經(jīng)網(wǎng)絡在計算機視覺中的應用研究綜述[J].數(shù)據(jù)采集與處理,2016,31(1):1-17.
[2] 李彥冬.基于卷積神經(jīng)網(wǎng)絡的計算機視覺關(guān)鍵技術(shù)研究[D].電子科技大學,2017.
[3] 包曉安,張瑞林,鐘樂海.基于人工神經(jīng)網(wǎng)絡與圖像處理的蘋果識別方法研究[J].農(nóng)業(yè)工程學報,2004,20(3):109-112.
[4] 戴逸松,陳賀新.人工神經(jīng)網(wǎng)絡的研究及在計算機視覺中的應用[J].吉林大學學報,1991(2):102-110.