深度學(xué)習(xí)及其在目標(biāo)和行為識(shí)別中的新進(jìn)展
鄭胤,陳權(quán)崎,章毓晉
摘要:目的:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展以及計(jì)算機(jī)硬件性能的增強(qiáng),人們可以獲得的數(shù)據(jù)量規(guī)模越來越大,同時(shí)處理數(shù)據(jù)的能力也不斷的提升。這兩方面因素使得人們希望從大規(guī)模數(shù)據(jù)中有效的提取信息。深度學(xué)習(xí)是近些年機(jī)器學(xué)習(xí)領(lǐng)域中涌現(xiàn)出來的一個(gè)新的研究領(lǐng)域,它通過構(gòu)建深度網(wǎng)絡(luò)來從數(shù)據(jù)中學(xué)習(xí)特征,而這種特征學(xué)習(xí)的方法在實(shí)踐中被證明十分有效。為了引起更多的計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的研究者對深度學(xué)習(xí)技術(shù)進(jìn)行探索和討論,并推動(dòng)深度學(xué)習(xí)在目標(biāo)識(shí)別和行為識(shí)別領(lǐng)域的進(jìn)展,本文對深度學(xué)習(xí)以及其在目標(biāo)和行為識(shí)別領(lǐng)域的進(jìn)展進(jìn)行概述。方法:本文首先對深度學(xué)習(xí)進(jìn)行概述,介紹深度學(xué)習(xí)與神經(jīng)科學(xué)中哺乳動(dòng)物的信息表達(dá)的關(guān)系,并且指出目前深度學(xué)習(xí)已經(jīng)成為計(jì)算機(jī)視覺中的一個(gè)熱點(diǎn)方向,每年都有大量的研究成果出現(xiàn),產(chǎn)生了諸多深度學(xué)習(xí)的新算法和新方向,而同時(shí)深度學(xué)習(xí)算法的性能也逐漸在一些國際重大評測中超過了其他傳統(tǒng)的方法;接著,本文對深度學(xué)習(xí)的原理進(jìn)行綜述,結(jié)合當(dāng)前深度學(xué)習(xí)的進(jìn)展將深度學(xué)習(xí)技術(shù)進(jìn)行分類歸納,并且對當(dāng)前主流的深度學(xué)習(xí)架構(gòu):基于限制玻爾茲曼機(jī)的深度學(xué)習(xí)架構(gòu),基于自編碼器的深度學(xué)習(xí)架構(gòu)進(jìn)行介紹,并且對訓(xùn)練深度網(wǎng)絡(luò)時(shí)的稀疏性約束進(jìn)行介紹;在此基礎(chǔ)上,本文介紹了目前深度學(xué)習(xí)的新進(jìn)展:用于增強(qiáng)魯棒性的去噪自編碼器、考慮像素之間關(guān)系的三元因子玻爾茲曼機(jī)、通過引入卷積運(yùn)算來共享參數(shù)的卷積受限玻爾茲曼機(jī)以及收到受限玻爾茲曼機(jī)啟發(fā)而提出了神經(jīng)自回歸分布估計(jì)器。接著,本文介紹目前深度學(xué)習(xí)在目標(biāo)識(shí)別和行為識(shí)別中的應(yīng)用:谷歌公司通過計(jì)算機(jī)集群來訓(xùn)練大規(guī)模深度網(wǎng)絡(luò)的“虛擬人腦”項(xiàng)目;深度學(xué)習(xí)在大規(guī)模視覺識(shí)別競賽中取得的進(jìn)展;神經(jīng)自回歸分布估計(jì)器在同時(shí)的圖像分類和標(biāo)注中的應(yīng)用以及深度學(xué)習(xí)在行為識(shí)別中的應(yīng)用。結(jié)果:本文在最后的部分闡述了深度學(xué)習(xí)與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)之間的關(guān)系、深度學(xué)習(xí)的優(yōu)缺點(diǎn),以及目前深度學(xué)習(xí)理論需要解決的主要問題,并且指出深度學(xué)習(xí)的本質(zhì)是學(xué)習(xí)到多層的非線性的函數(shù)關(guān)系,而這種多層的非線性的函數(shù)關(guān)系使得人們能夠更好地對視覺信息進(jìn)行建模,從而更好地理解圖像和視頻。結(jié)論:該文對擬將深度學(xué)習(xí)應(yīng)用于目標(biāo)和行為識(shí)別的研究人員有所幫助。
來源出版物:中國圖象圖形學(xué)報(bào), 2014, 19(2): 175-184
入選年份:2016
基于歐氏距離圖的圖像邊緣檢測
張闖,王婷婷,孫冬嬌,等
摘要:目的:圖像邊緣往往攜帶著圖像的大部分信息,這些邊緣信息是目標(biāo)識(shí)別及圖像分割所依賴的重要特征信息。人類視覺系統(tǒng)可以根據(jù)圖中像素色彩的一致性得到圖像的邊緣信息。為了提高邊緣提取的準(zhǔn)確性,使得提取到的邊緣具有更高的信噪比,本文提出一種基于歐氏距離的圖像邊緣檢測方法,該方法計(jì)算圖像內(nèi)像素點(diǎn)之間的歐氏距離,得到圖像的距離圖,對距離圖進(jìn)行適當(dāng)處理后,即可以得到圖像的邊緣信息。方法:兩個(gè)像素之間的歐氏距離能夠反映兩個(gè)像素之間的相似程度,即數(shù)值越小,兩個(gè)像素之間的差異越小,并且區(qū)域的歐氏距離可以把邊緣像素點(diǎn)差異放大。通過計(jì)算以兩個(gè)像素各自為中心點(diǎn)的7鄰域的歐氏距離,計(jì)算得到整幅圖像的歐氏距離圖。在得到的距離圖中,物體的邊緣被有效地增強(qiáng),邊緣的可靠性顯著提高。進(jìn)而提出一種改進(jìn)的Canny算子,采用3×3鄰域計(jì)算x方向、y方向、45°方向、135°方向、225°方向、315°方向一階偏導(dǎo)數(shù)取其中最大值作為該點(diǎn)的梯度,取 3×3 鄰域局部極大值抑制非極大值,降低了傳統(tǒng)Canny 算子對噪聲的敏感性,使得檢測的邊緣更加精細(xì),有效地提高目標(biāo)的識(shí)別概率。結(jié)果:算法的實(shí)驗(yàn)采用atlab7.0.1,由C語言編寫完成,圖像庫采用tid2008標(biāo)準(zhǔn)圖像庫,對景物大致分為,建筑、肖像、風(fēng)景、靜物、水域5大類,對其分別進(jìn)行了邊緣檢測,檢測結(jié)果與 Canny算子檢測結(jié)果進(jìn)行了對比。并使用‘邊緣點(diǎn)的檢出率’‘邊緣點(diǎn)的誤檢率’及‘信噪比’3個(gè)指標(biāo)進(jìn)行了量化比較。從量化結(jié)果分析,本文方法很好的保持了邊緣的有效信息,可以有效地檢出物體的輪廓。結(jié)論:本文提出的基于歐氏距離圖的圖像邊緣檢測方法,利用了圖像邊緣處小區(qū)域的距離來得到距離圖,距離圖很好的描述了圖中景物的外部輪廓。對距離圖進(jìn)行改進(jìn)的 Canny算子邊緣檢測,可以有效地得到圖中物體的輪廓。與一般的邊緣檢測算法比較,雖然不能檢測到細(xì)節(jié),但是只針對于目標(biāo)輪廓的檢測,更加有利于基于輪廓的圖像目標(biāo)識(shí)別。
來源出版物:中國圖象圖形學(xué)報(bào), 2013, 18(2): 176-183
入選年份:2016