高層次綜合特征檢測算法的FPGA實(shí)現(xiàn)

2018-04-11 03:41:31謝曉燕張玉婷劉鎮(zhèn)弢

實(shí)驗(yàn)室研究與探索 2018年1期

謝曉燕，　張玉婷，　劉鎮(zhèn)弢

(西安郵電大學(xué) 計(jì)算機(jī)學(xué)院，西安 710061)

0　引　言

在機(jī)器視覺領(lǐng)域中，特征檢測算法被廣泛應(yīng)用于虛擬場景重建、運(yùn)動(dòng)估計(jì)、映像配準(zhǔn)等視覺處理任務(wù)[1]。隨著視覺應(yīng)用的實(shí)時(shí)性要求越來越高，近年來基于GPU和FPGA的視覺應(yīng)用加速器成為機(jī)器視覺領(lǐng)域研究的重要內(nèi)容。GPU具有高度的并行計(jì)算能力，可以較好地解決計(jì)算速度的問題，然而基于GPU的視覺系統(tǒng)往往存在功耗較高、體積較大的缺點(diǎn)[2]。而嵌入式系統(tǒng)發(fā)展要求系統(tǒng)具有小型化、可靠性、高速度、低功耗等特點(diǎn)[3]，F(xiàn)PGA作為一種高性能的可編程邏輯器件，可以通過編程修改其內(nèi)部的邏輯功能，從而實(shí)現(xiàn)高速的硬件計(jì)算，是高性能嵌入式視覺系統(tǒng)的一種更加方便的解決方案[4]。目前已有一些工作研究了基于FPGA的特征檢測系統(tǒng)[5-7]，但大都是采用硬件描述語言完成設(shè)計(jì)，其缺點(diǎn)是描述層次低、開發(fā)調(diào)試?yán)щy，如果更換平臺(tái)往往需要大范圍修改邏輯，導(dǎo)致開發(fā)周期較長。

面對(duì)嵌入式系統(tǒng)性能及功能需求的增長，Xilinx推出的全可編程片上系統(tǒng)(All Programmable System on Chip)Zynq-7000[8]提供了“ARM+FPGA”的單片解決方案。借助Xilinx為Zynq-7000推出的HLS、SDSoC高層次設(shè)計(jì)工具，能夠利用計(jì)算機(jī)視覺庫快速開發(fā)算法原型，針對(duì)特定問題探索最佳的解決方案[9]。為了使特征檢測算法在嵌入式領(lǐng)域達(dá)到實(shí)時(shí)處理并且擁有較高的開發(fā)效率，本文選擇Sobel邊緣檢測、Harris角點(diǎn)檢測等兩種經(jīng)典特征檢測算法作為加速對(duì)象，在SDSoC環(huán)境下采用流水線優(yōu)化、循環(huán)展開、軟硬件并行等優(yōu)化方法實(shí)現(xiàn)了算法的硬件加速。

1　算法描述

1.1　Sobel算法

Sobel算子是一個(gè)主要用于邊緣檢測的離散微分算子，它結(jié)合了高斯平滑和微分求導(dǎo)，用來計(jì)算圖像灰度函數(shù)的近似梯度。該算子包含兩組3×3的矩陣，將它與圖像作平面卷積，即可得出橫向及縱向的亮度差分近似值。如果以A代表原始圖像，橫向及縱向邊緣檢測的圖像灰度值Gx及Gy分別為[10-11]：

圖像每一點(diǎn)的梯度值的大小通過下式來計(jì)算，如果某點(diǎn)的梯度G大于給定閾值，則認(rèn)為該點(diǎn)是邊緣點(diǎn)。

|G|=|Gx|+|Gy|

(3)

1.2　Harris算法

Harris角點(diǎn)檢測是一種直接基于灰度圖像的角點(diǎn)提取算法，穩(wěn)定性高，尤其對(duì)L型角點(diǎn)檢測精度高。計(jì)算角點(diǎn)的過程基于下列2×2的矩陣M[12]：

(4)

式中:Ix、Iy分別為圖像在x方向和y方向的導(dǎo)數(shù)，在得到矩陣M之后通過M的響應(yīng)函數(shù)來判斷當(dāng)前點(diǎn)是否為角點(diǎn)。在響應(yīng)函數(shù)中，det(M)代表矩陣M的行列式，trace(M)代表矩陣M的跡，k是一個(gè)可調(diào)整的參數(shù)，取值范圍一般在0.04～0.06內(nèi)，本文中k的取值為0.04。

R(M)=det(M)-k×trace(M)2

(5)

2　算法加速器設(shè)計(jì)

基于上節(jié)分析，Sobel邊緣檢測算法在一個(gè)3×3鄰域中完成每個(gè)像素的卷積運(yùn)算，這就需要對(duì)圖像的局部數(shù)據(jù)進(jìn)行多次訪問。Harris角點(diǎn)檢測算法不僅要完成卷積運(yùn)算，在計(jì)算角點(diǎn)的過程中還需要較多的乘除計(jì)算。對(duì)圖像局部數(shù)據(jù)的多次訪問和較多的計(jì)算造成了軟件實(shí)現(xiàn)算法時(shí)性能不佳。雖然這些算法底層處理的數(shù)據(jù)量較大，但運(yùn)算過程相對(duì)簡單，并且圖像中的所有像素點(diǎn)均可施以同樣的運(yùn)算，這些運(yùn)算可以進(jìn)行并行操作[13]。因此，使用SDSoC提供的循環(huán)流水線優(yōu)化、循環(huán)展開、數(shù)據(jù)傳輸優(yōu)化、軟硬件函數(shù)并行[14]等方法，通過對(duì)指令的合理運(yùn)用，可以改善系統(tǒng)性能，提高系統(tǒng)效率。

2.1　Sobel算法加速器設(shè)計(jì)

2.1.1Sobel算法優(yōu)化

本文描述的Sobel算法是從標(biāo)準(zhǔn)圖像處理庫獲得的軟件實(shí)現(xiàn)代碼[15]，其偽代碼為：

voidSobel( IplImage* img, IplImage* dst){

for (inti=1; i〈img-〉height-1; i++){

for (int j=1; j 〈img-〉width-1; j++){

for(int m=-1; m〈=1; m++){

for(int n=-1; n〈=1; n++){

//calculate X direction gradient

}}

for(int m=-1; m〈=1; m++){

for(int n=-1; n〈=1; n++){

//calculate Y direction gradient

}}}}}

以上代碼使用IplImage結(jié)構(gòu)體描述圖像，而SDSoC在綜合時(shí)不支持該結(jié)構(gòu)體。因此，本文通過用固定大小的數(shù)組替換IplImage指針，并使用sds_lib庫中提供的sds_alloc()[14]函數(shù)，確保數(shù)組被分配到一個(gè)連續(xù)的物理地址空間中。由于圖像數(shù)據(jù)在DDR中存儲(chǔ)，F(xiàn)PGA訪問DDR存儲(chǔ)所花費(fèi)的時(shí)間遠(yuǎn)大于CPU對(duì)DDR的訪問時(shí)間，若每次操作FPGA 都要訪問DDR，將會(huì)產(chǎn)生大量的時(shí)間開銷?；诖?，本文根據(jù)文獻(xiàn)[16]的思想，在FPGA端使用3×IMG_WIDTH的行緩沖區(qū)和一個(gè)3×3的窗口緩沖區(qū)來存儲(chǔ)圖像數(shù)據(jù)。如圖1所示，行緩沖區(qū)用來存儲(chǔ)讀入的圖像數(shù)據(jù)，當(dāng)行緩沖區(qū)中數(shù)據(jù)滿足卷積操作所需數(shù)據(jù)時(shí)，把這些數(shù)據(jù)存放在窗口緩沖區(qū)中以便進(jìn)行下一步操作。每完成一次卷積運(yùn)算，窗口緩沖區(qū)右移，然后用行緩沖區(qū)中的數(shù)據(jù)更新窗口緩沖區(qū)。通過行緩沖區(qū)和窗口緩沖區(qū)的協(xié)同處理，可以訪問數(shù)據(jù)流中的局部數(shù)據(jù)，降低訪問內(nèi)存的時(shí)間開銷，提高系統(tǒng)性能。

圖1緩沖結(jié)構(gòu)及相應(yīng)操作

在獲取到圖像的局部數(shù)據(jù)之后，需要進(jìn)行卷積運(yùn)算求出X、Y兩個(gè)方向的梯度值。原始代碼中分別利用兩個(gè)嵌套for循環(huán)計(jì)算梯度值，由于這兩個(gè)循環(huán)有相同的界限，并且循環(huán)之間不存在數(shù)據(jù)相關(guān)性，本文通過合并循環(huán)對(duì)該過程進(jìn)行簡化，減少計(jì)算的時(shí)延。其偽代碼為：

voidsobel(unsigned char* img_in, unsigned char* img_out, int width, int height){

for(row = 0; row 〈 height; row++){

for(col = 0; col 〈 width; col++){

//load data to win_buf and line_buf

for(i=0; i〈 3; i++){

for(j = 0; j 〈 3; j++){

//calculate X direction gradient

//calculate Y direction gradient

}}}}}

2.1.2軟硬件協(xié)同實(shí)現(xiàn)

在SDSoC中使用上述中行緩沖和窗口緩沖協(xié)同處理的方法獲取像素?cái)?shù)據(jù)后，用不同的卷積模板求出水平和垂直方向梯度的值并對(duì)其絕對(duì)值求和得到梯度值，然后對(duì)梯度進(jìn)行閾值處理，最后輸出像素點(diǎn)的值。算法的實(shí)現(xiàn)流程如圖2所示，在PS(Processing System)端完成像素?cái)?shù)據(jù)的讀寫和灰度轉(zhuǎn)換，在PL(Programmable Logic)端完成Sobel算法的卷積運(yùn)算和閾值處理。

圖2Sobel算法加速器流程

Sobel邊緣檢測算法需要循環(huán)處理圖像的局部像素，在沒有使用循環(huán)優(yōu)化指令的情況下，每次迭代都會(huì)使用相同的硬件狀態(tài)和資源。由于相鄰像素點(diǎn)的梯度計(jì)算不存在數(shù)據(jù)相關(guān)性，為更進(jìn)一步優(yōu)化性能，在主循環(huán)中使用了SDSoC中提供的AP PIPELINE循環(huán)優(yōu)化指令讓操作進(jìn)行流水線處理。在計(jì)算卷積的過程中，卷積模板與窗口緩沖區(qū)內(nèi)的數(shù)據(jù)需要進(jìn)行9次乘法運(yùn)算。在該循環(huán)中使用循環(huán)優(yōu)化指令A(yù)P UNROLL，可以對(duì)循環(huán)內(nèi)的操作進(jìn)行展開，同時(shí)使用HLS INLINE指令將計(jì)算卷積的函數(shù)內(nèi)聯(lián)到Sobel頂層函數(shù)中。通過這些優(yōu)化指令的使用，優(yōu)化了卷積的計(jì)算速度，有效地減少了時(shí)延。在主循環(huán)中使用循環(huán)優(yōu)化指令的偽代碼如下：

for(row = 0; row 〈 height; row++){

for(col = 0; col 〈 width; col++){

pragma AP PIPELINE II = 1

//processing code

}}

2.2　Harris算法加速器設(shè)計(jì)

2.2.1Harris算法的并行性分析

Harris角點(diǎn)檢測算法由梯度計(jì)算、矩陣乘、高斯濾波、計(jì)算角點(diǎn)量和閾值化五部分組成，為了充分利用硬件的加速性能，以下對(duì)該算法的并行性進(jìn)行分析。

(1) 流水并行。在處理梯度計(jì)算、矩陣乘以及高斯濾波、響應(yīng)值計(jì)算等不同階段時(shí)，后一階段無需等待前一階段處理完整幅圖片即可開始，從而構(gòu)成流水并行方式。各階段可同時(shí)處理一幀圖像的不同部分，并且其內(nèi)部運(yùn)算結(jié)構(gòu)也可以進(jìn)一步劃分成更細(xì)的流水段。

(2) 任務(wù)并行。在角點(diǎn)計(jì)算過程中，梯度計(jì)算、矩陣乘和高斯濾波每個(gè)階段內(nèi)部的計(jì)算是獨(dú)立的，沒有相關(guān)性，可構(gòu)成任務(wù)級(jí)并行。

2.2.2軟硬件協(xié)同實(shí)現(xiàn)

根據(jù)1.2、2.1.1中的算法分析和并行性分析，在SDSoC中角點(diǎn)檢測算法的實(shí)現(xiàn)可分為以下幾個(gè)步驟來完成，整個(gè)算法的實(shí)現(xiàn)流程如圖3所示。

(1) 對(duì)圖像進(jìn)行Sobel卷積操作，求出每個(gè)像素點(diǎn)所在位置x方向和y方向的梯度值Ix和Iy。Sobel算法的原理和優(yōu)化見1.1、2.1節(jié)。

(2) 對(duì)Ix、Iy進(jìn)行乘法操作，分別得出dxx、dxy和dyy。

(3) 將dxx、dxy和dyy矩陣分別進(jìn)行高斯濾波得到Ixx、Ixy和Iyy。

高斯濾波是角點(diǎn)檢測中的步驟之一，它是一種線性平滑濾波，主要用來消除高斯噪聲。本文中高斯濾波的實(shí)現(xiàn)原理與Sobel邊緣檢測類似，通過使用行緩沖區(qū)和窗口緩沖區(qū)完成對(duì)局部數(shù)據(jù)的處理。

(4) 根據(jù)濾波后Ixx、Ixy和Iyy得到矩陣M，并計(jì)算當(dāng)前點(diǎn)的響應(yīng)函數(shù)R(M)。選取合適的閾值，根據(jù)閾值判斷當(dāng)前點(diǎn)是否為角點(diǎn)。

(5) 根據(jù)角點(diǎn)位置在原圖上將其像素值置為255，即用白色點(diǎn)標(biāo)記出來。

在SDSoC中，如果硬件函數(shù)的輸入輸出包含數(shù)據(jù)

圖3Harris算法加速器流程

流，可以直接把一個(gè)硬件函數(shù)的輸出流當(dāng)作另一個(gè)硬件函數(shù)的輸入流。這樣該硬件函數(shù)的數(shù)據(jù)處理完后無需傳給ARM端處理，而是會(huì)按照流水線的方式，從這個(gè)函數(shù)直接傳入后續(xù)的硬件函數(shù)繼續(xù)被處理。如圖3所示，實(shí)現(xiàn)Harris算法需要經(jīng)過梯度求值、矩陣乘法、高斯濾波和響應(yīng)函數(shù)計(jì)算等步驟。將這些函數(shù)一起放在FPGA中加速，sdscc工具鏈會(huì)自動(dòng)連接這些硬件函數(shù)，在它們之間形成數(shù)據(jù)流，最后一個(gè)硬件函數(shù)處理完后通過數(shù)據(jù)移動(dòng)器將數(shù)據(jù)回傳到ARM中。硬件函數(shù)直連可以減少數(shù)據(jù)在傳輸時(shí)間上的浪費(fèi)，從而提高了系統(tǒng)效率。

3　實(shí)驗(yàn)結(jié)果及分析

3.1　實(shí)驗(yàn)環(huán)境

本文分別使用不同分辨率的bmp格式的圖像對(duì)算法結(jié)果進(jìn)行驗(yàn)證，添加相應(yīng)的支持庫實(shí)現(xiàn)對(duì)bmp圖像的讀寫操作。為了更加直觀地驗(yàn)證算法檢測邊緣和角點(diǎn)的效果，將處理后的圖像二值化，并將二值圖像與OpenCV GPU庫的實(shí)驗(yàn)結(jié)果作對(duì)比，以此來驗(yàn)證本文算法的正確性。實(shí)驗(yàn)環(huán)境如下：

GPU：NVIDIA GTX650 1 059 MHz，1 024 MB global memory

軟硬件協(xié)同(ZC706)[8]：XC7Z045 FFG900-2，ARM Cortex-A9 800 MHz，F(xiàn)PGA 200 MHz，DDR3 1GB

3.2　實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果如圖4、5所示。通過對(duì)比可以看出本文加速器對(duì)算法的實(shí)現(xiàn)結(jié)果與CUDA庫基本一致，即該設(shè)計(jì)有良好的邊緣和角點(diǎn)檢測效果。

3.3　算法性能與分析

本文算法的軟件實(shí)現(xiàn)在ARM端完成，軟硬件協(xié)同同時(shí)使用了ARM和FPGA端。為了比較本文提出的算法加速器的加速效果，使用SDSoC提供的sds_clock_counter()函數(shù)來對(duì)CPU時(shí)鐘進(jìn)行統(tǒng)計(jì)。表1為OpenCV視覺庫中兩種特征檢測算法在PC機(jī)上的實(shí)現(xiàn)、本文ARM軟件實(shí)現(xiàn)與FPGA實(shí)現(xiàn)處理一幅512×512大小的圖像的時(shí)間性能對(duì)比。

從表1的數(shù)據(jù)可以看出FPGA加速器對(duì)Sobel、Harris算法的加速性能可以達(dá)到2.30 ms、3.78 ms，相比在ARM平臺(tái)上的軟件實(shí)現(xiàn)方式，加速比分別達(dá)到了7.37、19.41。由于Sobel邊緣檢測算法將圖像流數(shù)據(jù)存儲(chǔ)在行緩沖區(qū)和窗口緩沖區(qū)之后，分別計(jì)算X方向和Y方向的梯度并將其絕對(duì)值求和，最后進(jìn)行閾值運(yùn)算得到二值圖像。在這個(gè)過程中使用的是3×3的卷積核進(jìn)行卷積運(yùn)算，因此得到每個(gè)像素的輸出值都要經(jīng)過18個(gè)乘加運(yùn)算。而Harris角點(diǎn)檢測算法由梯度計(jì)算、矩陣乘、高斯濾波、計(jì)算角點(diǎn)量和閾值化五部分組成，在這個(gè)過程中需要較多的乘除運(yùn)算，因此造成算法在PC和ARM端運(yùn)行性能不佳。

算法PC機(jī)實(shí)現(xiàn)/msARM軟件實(shí)現(xiàn)/msFPGA實(shí)現(xiàn)/msSobel15．3216．942．30Harris37．2573．383．78

使用SDSoC提供的流水線優(yōu)化指令對(duì)算法中計(jì)算密集的部分進(jìn)行優(yōu)化處理之后可以大幅縮短算法的執(zhí)行時(shí)間，改善算法性能。假設(shè)每個(gè)卷積操作需要20個(gè)時(shí)鐘周期，在512×512分辨率下如果沒有使用優(yōu)化指令則需要5 242 880個(gè)時(shí)鐘周期，使用流水線優(yōu)化指令之后僅需要262 164個(gè)時(shí)鐘，性能提升接近20倍。本文使用sds_clock_counter()函數(shù)獲得加速器的執(zhí)行時(shí)間，得到的時(shí)間包括數(shù)據(jù)從DDR傳遞到FPGA端的時(shí)間，因此實(shí)際加速比小于理論最大值。

本文使用ZC706開發(fā)板作為硬件環(huán)境，其板載XC7Z045 FFG900-2芯片提供了可編程邏輯陣列單元。在生成的工程報(bào)告文件中查看算法加速器的資源占用信息，對(duì)一幅512×512大小的圖像進(jìn)行特征檢測的具體硬件資源使用量和FPGA端資源總量如表2所示。

表2　算法資源占用

從表2中可以看出本文在占用少量FPGA資源的前提下實(shí)現(xiàn)了算法的硬件加速。算法加速器對(duì)BRAM_18K器件的使用率較低，可見行緩沖區(qū)和窗口緩沖區(qū)的協(xié)同處理對(duì)FPGA端存儲(chǔ)資源的節(jié)省起到了很大的作用。與Sobel算法相比，Harris算法需要更多的乘除運(yùn)算，造成DSP48E器件的一些消耗，該器件的使用基本上反應(yīng)了算法的計(jì)算量。

圖6所示為本文FPGA加速器與OpenCV的GPU庫相關(guān)函數(shù)(即CUDA實(shí)現(xiàn))的加速性能對(duì)比，由圖6可知，特征檢測算法的FPGA加速器相比CUDA實(shí)現(xiàn)有良好的加速效果，并且NVIDIA GTX650的最大功耗為64 W，而FPGA對(duì)一幅512×512大小的圖像進(jìn)行邊緣檢測和角點(diǎn)檢測僅需0.098 W和0.334 W的功耗，在顯著降低功耗的前提下提高了系統(tǒng)性能。

圖6　FPGA加速與CUDA庫性能對(duì)比

Chaple等[5-7]使用硬件描述語言完成了Sobel和Harris算法的FPGA加速器，Monson等[17]使用Vivado HLS將C代碼實(shí)現(xiàn)的Sobel算法轉(zhuǎn)化成RTL實(shí)現(xiàn)。表3、4為本文算法加速器處理640×480大小的圖像與文獻(xiàn)[5-7,17]的性能對(duì)比。

表3　Sobel算法FPGA加速器性能對(duì)比

表4　Harris算法FPGA加速器性能對(duì)比

實(shí)驗(yàn)數(shù)據(jù)表明，本文設(shè)計(jì)的FPGA加速器在200 MHz的綜合頻率下對(duì)Sobel、Harris算法的加速達(dá)到了376 f/s和230 f/s，基本可以達(dá)到與文獻(xiàn)[5-7,17]中加速器相近的性能。文獻(xiàn)[17]根據(jù)HLS綜合報(bào)告得出的時(shí)間不包括數(shù)據(jù)傳輸時(shí)間，而本文統(tǒng)計(jì)的時(shí)間性能包括數(shù)據(jù)從DDR里傳輸?shù)紽PGA的時(shí)間，因此時(shí)間略高。本文與文獻(xiàn)[17]都是基于高層次綜合完成加速器的設(shè)計(jì)，但是其使用Vivado HLS工具的最終輸出為IP核，如果要實(shí)現(xiàn)一個(gè)完整的嵌入式系統(tǒng)，還需在Vivado中完成硬件設(shè)計(jì)，并且要對(duì)不同的IP核開發(fā)相應(yīng)的驅(qū)動(dòng)和設(shè)備等。而SDSoC環(huán)境集成了整套的開發(fā)步驟，可以通過對(duì)應(yīng)的軟件算法直接生成在硬件平臺(tái)上運(yùn)行的文件，擁有較高的開發(fā)效率。文獻(xiàn)[5-7]中使用硬件描述語言實(shí)現(xiàn)算法加速器，需要對(duì)硬件執(zhí)行細(xì)節(jié)有深入的理解。本文通過高層次綜合工具在更高層次的抽象環(huán)境下加速算法，根據(jù)應(yīng)用的不同需求選擇算法運(yùn)行的平臺(tái)，對(duì)數(shù)據(jù)進(jìn)行簡單運(yùn)算且需要大量隨機(jī)訪問的函數(shù)在ARM端實(shí)現(xiàn)，若需要進(jìn)行較多的數(shù)值計(jì)算則在FPGA端實(shí)現(xiàn)，并且通過優(yōu)化指令控制綜合過程，實(shí)現(xiàn)了一個(gè)高性能、低功耗的硬件加速器。

4　結(jié)　語

本文實(shí)現(xiàn)了基于高層次綜合的邊緣檢測和角點(diǎn)檢測的FPGA加速器，并利用SDSoC開發(fā)環(huán)境提供的優(yōu) 化指令對(duì)算法進(jìn)行優(yōu)化。與軟件實(shí)現(xiàn)的算法相比，使

用軟硬件協(xié)同處理對(duì)算法的加速效果很明顯。與CUDA實(shí)現(xiàn)方式相比，在降低功耗的同時(shí)提高了系統(tǒng)性能。與硬件描述語言實(shí)現(xiàn)的加速器相比，擁有較高的開發(fā)效率，縮短了開發(fā)周期，滿足了機(jī)器視覺領(lǐng)域的實(shí)時(shí)性需求。

參考文獻(xiàn)(References)：

[1]肖漢,周清雷,張祖勛. 基于多GPU的Harris角點(diǎn)檢測并行算法[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2012(7):876-881.

[2]Possa P R, Mahmoudi S A, Harb N, et al. A multi-resolution FPGA-based architecture for real-time edge and corner detection[J]. IEEE Transactions on Computers, 2013, 63(10):2376-2388.

[3]沈緒榜. 嵌入式計(jì)算機(jī)系統(tǒng)的展望[J]. 單片機(jī)與嵌入式系統(tǒng)應(yīng)用,2001(1):5-6.

[4]Todman T J, Constantinides G A, Wilton S J E, et al. Reconfigurable computing: Architectures and design methods[J]. IEE Proceedings - Computers and Digital Techniques, 2006, 152(2):193-207.

[5]Chaple G, Daruwala R D.Design of Sobel operator based image edge detection algorithm on FPGA[C]// International Conference on Communications and Signal Processing. IEEE, 2014:788-792.

[6]Chao T I, Wong K H. An efficient FPGA implementation of the Harris corner feature detector[C]∥Machine Vision Applications (MVA).2015 14th IAPR International Conference, 2015: 89-93.

[7]Hsiao P Y, Lu C L, Fu L C. Multilayered image processing for multiscale harris corner detection in digital realization[J]. Industrial Electronics IEEE Transactions on, 2010, 57(5):1799-1805.

[8]Xilinx, ZynqArchitecture[EB/OL].[2016-1-26].https://www.xilinx.com/products/silicon-devices/soc/zynq-7000.html.

[9]Crockett L H. The Zynqbook:embedded processing with the ARM Cortex-A9 on the Xilinx Zynq-7000 all programmable SoC[M]. Strathclyde Academic Media, 2014.

[10]Qian W,Mei J.Design of video acquisition identification system based on Zynq-7000 Soc Platform[J].Proceedings of International Conference on Informationence & Computer Application,2013,92:208-213.

[12]Harris C. A combined corner and edge detector[J]. ProcAlvey Vision Conf, 1988, 1988(3):147-151.

[13]DonaldG.Bailey. 基于FPGA的嵌入式圖像處理系統(tǒng)設(shè)計(jì)[M]. 北京：電子工業(yè)出版社, 2013.

[14]Xilinx, SDSoC Environment User Guide[EB/OL].[2016-1-26].https://www.xilinx.com/cgi-bin/docs/rdoc?v=2016.2;d=ug1027-sdsoc-user-guide.pdf.

[15]Ramirez G A. (2009, April) sobel.cpp. [EB/OL].[2017-2-24].http://www.cs.utep.edu/ofuentes/AI/sobel.cpp

[16]Abdelgawad H M, Safar M, Wahba A M. High Level Synthesis of Canny Edge Detection Algorithm on ZynqPlatform[J].2015 33rd IEEE International Conference on Computer Design (ICCD).

[17]Monson J, Wirthlin M, Hutchings B L. Optimization techniques for a high level synthesis implementation of the Sobelfilter[C]∥2013 International Conference on Reconfigurable Computing and FPGAs (ReConFig). Cancun, 2013: 1-6.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

高層次綜合特征檢測算法的FPGA實(shí)現(xiàn)

0 引 言

1 算法描述

1.1 Sobel算法

1.2 Harris算法

2 算法加速器設(shè)計(jì)

2.1 Sobel算法加速器設(shè)計(jì)

2.2 Harris算法加速器設(shè)計(jì)

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)環(huán)境

3.2 實(shí)驗(yàn)結(jié)果

3.3 算法性能與分析

4 結(jié) 語