陳浩林,王擎宇,盧振坤,董艷珂
(廣西民族大學(xué) 電子信息學(xué)院,廣西 南寧 530000)
隨著計算機視覺的發(fā)展,近年來目標檢測技術(shù)被廣泛應(yīng)用于軍工系統(tǒng)、安防系統(tǒng)以及精密儀器檢測等領(lǐng)域,目標檢測技術(shù)對圖像處理速度和識別精確度的要求也與日俱增[1,2],要求圖像算法盡可能占用較低的時間和空間復(fù)雜度,并要求硬件系統(tǒng)資源豐富以及處理速度足夠快[3,4]。其實現(xiàn)方案通常采用指令計數(shù)器(Program counter,PC)端的軟件實現(xiàn),普通計算機的中央處理器(Central processing unit,CPU)主頻雖能達到GHz級別,但受限于馮·諾依曼的體系結(jié)構(gòu),處理像素矩陣的速度較慢,而圖形處理器(Graphics processing unit,GPU)的浮點運算雖然快,但體積和功耗相對較高[5,6]。
針對基于現(xiàn)場可編程門陣列(Field programmable gate array,FPGA)的視頻圖像目標檢測技術(shù),國內(nèi)外的學(xué)者做了相關(guān)的研究工作。其中文獻[7,8]分析了圖像處理流水線思想和不同的圖像格式對后續(xù)邊緣特征提取效率影響的大小,并使用YUV、YCbCr或原始RAW相機輸出格式來代替紅綠藍(Red green blue,RGB)格式,提高了算法系統(tǒng)在FPGA的運行速度。在數(shù)據(jù)存取技術(shù)方面,文獻[9]針對數(shù)據(jù)存取速度是制約FPGA目標檢測系統(tǒng)運行速度的重要因素問題,設(shè)計乒乓存儲電路對數(shù)據(jù)進行連續(xù)存取,提高了數(shù)據(jù)存取速度。針對目標檢測核心算法部分,文獻[10]采用背景和幀間差分法來實現(xiàn)目標跟蹤任務(wù)。雖然背景和幀間差分法對于靜態(tài)鏡頭和非復(fù)雜動態(tài)目標具有良好的捕捉能力,但在搭載云臺舵機的攝像頭進行動態(tài)跟蹤以及靜態(tài)目標的搜尋情況下的表現(xiàn)還需改善。此外,基于FPGA的目標檢測系統(tǒng)常采用空域點處理法,該方法在搭載云臺舵機的攝像頭進行動態(tài)跟蹤以及靜態(tài)目標的搜尋情況下表現(xiàn)較好,但由于空域點處理法對圖像質(zhì)量要求較高,對像素噪聲比較敏感,因此對系統(tǒng)濾波算法提出了更高的要求。對此,文獻[11]提出一種基于大尺寸單幅圖像計算加速雙邊濾波的去霧狀噪聲的方案,對均勻分布的霧狀噪聲去除效果良好。文獻[12]設(shè)計了快速中值濾波的FPGA實現(xiàn),該方法在速度具有一定的優(yōu)勢,且處理一般椒鹽噪點效果較好,但噪點較大或者噪聲表現(xiàn)出一定連續(xù)性時去噪效果較為一般。文獻[13]設(shè)計的系統(tǒng)應(yīng)用了均值濾波算法,原理簡單,易于實現(xiàn),但容易受兩極像素值和高濃度椒鹽噪聲影響,導(dǎo)致圖像過于模糊和邊界特征損耗較為嚴重。
針對濾波算法去噪問題,本系統(tǒng)提出了一種以3*3快速中值濾波和4*4快速分權(quán)均值濾波結(jié)合的雙濾波算法,能夠有效提高特征圖像信噪比和目標檢測準確度,為目標檢測與跟蹤領(lǐng)域提供了一種行之有效的新方法。
本系統(tǒng)所采用的核心芯片為Intel公司的Cyclone IV EP4CE10F17C8,開發(fā)環(huán)境為QuartusII 13.0,主要研究分辨率為800*480的彩色視頻圖像中目標的檢測技術(shù)。硬件系統(tǒng)主要由圖像采集、存取、處理以及顯示4個單元構(gòu)成,其系統(tǒng)架構(gòu)圖如圖1所示。其中圖像傳感器的寄存器初始化由SCCB協(xié)議進行參數(shù)配置,數(shù)字顯示接口(Digital video port,DVP)控制器對8位輸入并行圖像數(shù)據(jù)進行采集與位寬轉(zhuǎn)換,并通過調(diào)用多個先進先出(First input first output,FIFO)的IP核進行時序同步處理,基于SDRAM手冊設(shè)計SDRAM控制器對數(shù)據(jù)流進行實時存儲于交換,在FPGA上實現(xiàn)相應(yīng)圖像處理算法,其中包括圖像灰階化算法、雙濾波算法、Sobel邊緣特征檢測算法和目標檢測標定算法,并根據(jù)VGA控制時序設(shè)計VGA驅(qū)動程序進行信息交互顯示驅(qū)動。
圖1 系統(tǒng)框架圖
本系統(tǒng)采用OV5640圖像采集傳感器進行圖像采集,并設(shè)計串行攝像機控制總線(Serial camera control bus,SCCB)協(xié)議對其進行OV5640寄存器工作模式、曝光時間、開窗大小等參數(shù)進行初始化配置。設(shè)計速度為400 kHz傳輸標準的SCCB,從機通過時鐘線SIO_C的上升沿觸發(fā)讀取指令命令,配置信息通過八位SIO_D總線發(fā)送給從機,根據(jù)總線最后的寫命令和地址位信息快速定位目標寄存器,緊接著進行數(shù)據(jù)寫入,完成圖像開窗大小800*480、RGB三通道輸出、翻轉(zhuǎn)和鏡像等配置;其中SCCB狀態(tài)的轉(zhuǎn)換由狀態(tài)機控制方法實現(xiàn)。
OV5640攝像頭傳感器像素數(shù)據(jù)輸出協(xié)議為DVP,根據(jù)該輸出協(xié)議本文設(shè)計了一種圖像采集模塊。
如圖2所示,設(shè)計的SDRAM頂層模塊包括FIFO乒乓存取模塊、SDRAM控制模塊和PLL鎖相環(huán)模塊;SDRAM控制模塊包括狀態(tài)控制、尋址以及數(shù)據(jù)輸入模塊[14,15]。SDRAM狀態(tài)控制模塊為核心單元,進行SDRAM初始化以及控制讀寫狀態(tài)轉(zhuǎn)換,采用三段有限狀態(tài)機技術(shù)對復(fù)雜的狀態(tài)轉(zhuǎn)換進行有序控制,設(shè)計的SDRAM狀態(tài)機狀態(tài)轉(zhuǎn)換關(guān)系如圖3所示。
單個異步讀寫FIFO的數(shù)據(jù)存在排隊問題,影響讀寫速率以及實時性,本文設(shè)計一種高實時性乒乓存儲系統(tǒng),在整個時間域上進行不間斷存取數(shù)據(jù),提高了系統(tǒng)實時性。
圖2 SDRAM模塊功能圖
圖3 SDRAM控制狀態(tài)圖
設(shè)計4個深度為512words,寬度為16 bits異步FIFO IP,將上一級pipeline圖像數(shù)據(jù)打入FIFO_READ1,然后通過PLL倍頻至100 MHz的時鐘傳存進SDRAM的BANK1區(qū),與此同時FIFO_WRITE1讀出數(shù)據(jù),并利用錯位時間命令FIFO_READ2讀進數(shù)據(jù),而后存進SDRAM的BANK3區(qū),與此同時讀FIFO_WRITE2依次讀取,本系統(tǒng)由此實現(xiàn)數(shù)據(jù)的乒乓存取,提高數(shù)據(jù)傳輸?shù)膶崟r性。另外考慮系統(tǒng)傳輸路徑延時情況,對SDRAM的時鐘通過鎖相環(huán)(Phase locked loop,PLL)進行90°的相位偏移,SDRAM乒乓操作如圖4所示。
圖4 SDRAM乒乓操作圖
設(shè)計了VGA時序控制和數(shù)據(jù)輸出模塊,其輸出RGB888 pipline至DAC數(shù)模轉(zhuǎn)換器GM7123,最后輸出至支持VGA協(xié)議的顯示器進行交互。在VGA驅(qū)動模塊設(shè)計中,充分利用線性序列機的思想,分別設(shè)計深度為12的x和y方向計數(shù)器跟隨矩陣像素,名為xcount_r[11∶0]和ycount_r[11∶0],以行、幀同步時序為作為VGA_BLANK置位的判斷條件,接著輸出有效數(shù)據(jù),由此循環(huán)實現(xiàn)VGA以幀為單位的連續(xù)顯示。
基于FPGA進行算法設(shè)計,需依據(jù)硬件平臺本身的資源可利用空間為資源上限進行設(shè)計,并移植MATLAB仿真算法RTL實現(xiàn),然后對每一個模塊進行功能驗證、綜合約束、靜態(tài)時序分析、板級驗證和在線調(diào)試。充分利用FPGA的流水線操作優(yōu)勢,達到同步處理與高速輸出的效果,處理并行數(shù)據(jù)速率遠高于CPU。
為實現(xiàn)目標檢測系統(tǒng),本圖像處理單元需要對輸入的彩色視頻流數(shù)據(jù)進行一系列的處理。首先在基本保有原信息量的基礎(chǔ)上,為減少像素數(shù)據(jù)位寬,提取Ycbcr的亮度分量進行灰階化處理;其次,由于系統(tǒng)采集的圖像數(shù)據(jù)隨機噪聲多,不經(jīng)處理無法進行目標準確檢測與標記,但普通單濾波算法無法滿足本系統(tǒng)要求,因此提出并設(shè)計了雙濾波算法進行濾波處理;目標邊緣特征提取部分采用Sobel算子進行實現(xiàn);最后設(shè)計了一種目標標定方法進行目標的標定顯示。
1.4.1Ycbcr灰階化實現(xiàn)
原始的彩色圖像數(shù)值量大,不易進行運算,將彩色圖像灰階化實現(xiàn)很有必要,在降低圖像位寬的同時,灰度圖還保留了圖像的細節(jié)特征,能有效減少運算量,提高數(shù)據(jù)處理速度,減少圖像存儲空間,便于后面的算法處理。
彩色圖像灰階化常用的方法有:三色均值法、最大分量法、加權(quán)平均法和轉(zhuǎn)換到其他顏色空間法。本文采用加權(quán)平均進行圖像灰階化處理,將R、G和B三通道按照一定的權(quán)值比例映射到Y(jié)、Cb和Cr上,其中提取Y分量為亮度分量,其保留了圖像完整的信息。由于硬件實現(xiàn)位數(shù)相同的需要,對輸入RGB565采用末尾補0的方式輸出RGB888,依據(jù)BT709協(xié)議,分量信息提取如式(1)所示
(1)
由于FPGA不支持浮點運算,因此需要對計算過程關(guān)鍵數(shù)倍乘整數(shù)化,對式(1)等號右邊乘以256后如式(2)所示,輸出Y后再復(fù)原,為減少FPGA片內(nèi)運算單元,本處采用移位寄存器實現(xiàn)除法運算功能,Y?8,提高運算速度,減少計算時延。經(jīng)過4個時鐘周期后可依次輸出Y[7∶0]灰階圖像素點。
(2)
1.4.2 雙濾波算法設(shè)計及其實現(xiàn)
因圖像采集系統(tǒng)采集進來的實際圖像數(shù)據(jù)隨機噪聲繁雜,需要設(shè)計針對性的濾波算法進行濾除,常用的空域單濾波算法有:中值、均值、高斯、巴特沃斯等濾波算法。其中中值濾波對椒鹽噪聲抑制效果較好,但對于表現(xiàn)出一定連續(xù)特性的高斯噪聲濾除效果較為乏力。均值濾波算法有較好的平滑效果,對表現(xiàn)出一定連續(xù)性的高斯噪聲平滑效果比中值濾波好,但高濃度椒鹽噪聲對平滑效果影響較大,容易導(dǎo)致感興趣特征區(qū)域過度模糊或丟失,影響后續(xù)的特征提取,以至于導(dǎo)致目標檢測效果不佳。因此本系統(tǒng)提出一種雙濾波算法,采用快速中值濾波和快速分權(quán)均值濾波聯(lián)合算法進行噪音濾除,在濾除大部分椒鹽噪聲的同時,同時對高斯噪聲進行有效的壓制,其中快速分權(quán)均值濾波比原有均值單濾波算法更能保護圖像細節(jié),以至于更精確地對目標進行特征提取和跟蹤標定[16]。
中值濾波是一種非線性低通濾波器,中值濾波器能夠有效去除孤立點的椒鹽噪聲,并能有效保護圖像高頻部分的細節(jié),但容易造成圖像的不連續(xù)性,以及對非孤立噪聲難以濾除[17]。本系統(tǒng)前置濾波采用3*3卷積核模板進行中值濾波,應(yīng)用shift register IP核進行3行緩存方式臨時動態(tài)存儲,對模板內(nèi)的9個數(shù)值進行快速排序硬件化實現(xiàn),并取中間值代替實時位置像素點,實現(xiàn)中值濾波效果,3*3卷積核生成模板如圖5所示。
圖5 3*3快速中值濾波模板
常規(guī)的中值濾波算法是對整個卷積核的數(shù)據(jù)進行遍歷排序求中值,這種方法工作原理雖然簡單,但是其運算速度慢,時間復(fù)雜度較高,嚴重影響系統(tǒng)性能。本系統(tǒng)采用三級流水線進行中值計算,僅約90 ns即可完成一個像素的中值的計算,提高系統(tǒng)實時性。其中第一級對三行分別通過選擇電路進行數(shù)值大小判別,得出一行的最大、中間以及最小值,同理分別求出第二行和第三行;第二級流水線對每行的最大、中間以及最小值再進行由大到小的排序;第三級再對比每一列的中間值推算真實中間值,根據(jù)可能的3種情況進行多路判斷輸出。
均值濾波器也是一種低通濾波器,能夠平滑大部分集中在幅度譜高頻和中頻段的噪聲,具有較好的平滑效果。針對通過中值濾波后已去除大部分孤立的大值椒鹽噪聲點的數(shù)據(jù),再進行均值濾波,將提高圖像平滑后的圖像質(zhì)量,但均值濾波器不可避免的會對圖像邊緣造成不同程度的破壞[18-21],因此本系統(tǒng)利用shift register IP 核設(shè)計一種4*4快速分權(quán)均值濾波器。4*4快速分權(quán)均值濾波模板如圖6所示,在成功濾除大量隨機噪聲的同時,保護邊界特征,不影響目標檢測的精度。其數(shù)學(xué)表達式如式(3)所示,P(x,y)表示4*4卷積核的首個像素點,由式(3)實現(xiàn)圖像分權(quán)均值濾波功能。
圖6 4*4快速分權(quán)均值濾波模板
(3)
如圖6所示,首先設(shè)置一個四通道,寬度為8位,深度為800的每行可溢出數(shù)據(jù)的移位寄存器,數(shù)據(jù)隨33.3 MHz的CLK時鐘信號逐個輸入,溢出部分傳遞到Ⅱ形成4*4均值濾波模板,對Ⅱ各位置的數(shù)值進行Ⅲ步驟所示的分權(quán)計算。對四角的像素進行去除操作,緊接著對中心2*2的像素數(shù)據(jù)進行2倍乘操作,這樣做的好處是減少4*4均值計算模板帶來的邊緣模糊,方便后續(xù)的算法處理。
此部分通過三級流水線進行實現(xiàn),其中第一級流水線對每行進行分權(quán)求和運算,第二級對每行的和進行求總和,第三級對總和值求平均。FPGA 調(diào)用乘除運算耗費時間較長,面積和功耗較高,在第一級內(nèi)用加法資源代替2乘計算,在第三級作均值求平均的除法操作時,充分利用FPGA移位寄存器的便利性,去除輸出口mean_data低三位,既是mean_data?3,達到除以16的等價效果,并有效減少了系統(tǒng)時延。
由快速中值濾波和分權(quán)均值濾波算法共同組成的雙濾波算法FPGA實現(xiàn)流程如圖7所示,可實現(xiàn)可調(diào)控像素位寬的輸入輸出控制,整個流程采用流水線思想進行設(shè)計,有效提升算法在FPGA上運行時的最高主頻,提高系統(tǒng)運行速度,采用時序邏輯可以有效減少競爭冒險現(xiàn)象以及較好的濾除毛刺,減少亞穩(wěn)態(tài)的產(chǎn)生以及傳播,以保證時序電路的質(zhì)量。
圖7 雙濾波算法FPGA實現(xiàn)流程
1.4.3 Sobel算子實現(xiàn)
圖像邊緣檢測技術(shù)是圖像處理和計算機視覺等領(lǐng)域中最基本的技術(shù),其效果直接影響著后續(xù)圖像識別的準確性。目前圖像邊緣檢測技術(shù)大致分為三類:第一類是借助于空域差分卷積或類似卷積的運算來實現(xiàn)的方法,第二類是從能量的角度考慮以能量最小化為準則的分割算法,第三類是以小波變換為代表的分割算法[22]。本系統(tǒng)采用的邊緣檢測算法為第一類的Sobel算法,來提取感興趣區(qū)域(Region of interest,ROI)區(qū)域的邊緣。
假設(shè)連續(xù)函數(shù)為f(x,y),函數(shù)在(x,y)處的梯度是具有方向和大小的梯度矢量,如式(4)所示
(4)
為了提高運行速率,采用簡化計算方法,如式(5)所示
(5)
運算后的f(x,y)如式(6)的矩陣數(shù)據(jù)所示,其中滿足{f(x,y)|x∈[1,m],y∈[1,n]}。
f(x,y)=
(6)
計算出的grad[f(x,y)]值即為圖像的邊緣數(shù)據(jù),因為式(6)是對連續(xù)的圖像的邊緣信息。在實際應(yīng)用中,采集的圖像為一定像素大小離散數(shù)據(jù),因此在圖像處理中,常用相鄰或間隔像素差分值來代表圖像的邊緣信息。而Sobel算子是對離散數(shù)據(jù)進行加權(quán)計算,采用3*3的分別為水平方向和垂直方向的卷積模板,利用模板與對應(yīng)的圖像數(shù)據(jù)進行加權(quán)計算,這2個方向模板分別為水平方向和豎直方向邊緣檢測。
其硬件實現(xiàn)步驟如下:
第一級將移位寄存器shift register溢出的3*3實時數(shù)據(jù)與垂直和水平梯度方向3*3的矩陣算子作對應(yīng)值作卷積運算;
第二級分別對水平和垂直卷行積結(jié)果進行相加求和;
第三級調(diào)用SQRT IP核進行開方求實時像素梯度值,作為圖像的灰度值,并設(shè)定閾值A(chǔ)bs_mag,取值20 1.4.4 目標標記 目標標記的方式為外接最小矩形框,這個矩形框可以跟隨目標自動移動,達到目標標定跟蹤的效果。 其實現(xiàn)過程是:基于濾波算法以及形態(tài)學(xué)邊緣檢測后的邊緣特征灰度圖像上,根據(jù)FPGA流水線思想,從(0,0)開始到最后一位像素值進行遍歷,并匹配每一位像素,每當遇到一個有效數(shù)據(jù),比當前存儲的橫坐標最大值大及最小值小,縱坐標最大值大及最小值小時,則將其同步計數(shù)器所產(chǎn)生的坐標數(shù)據(jù)和其像素值進行存儲,最后得到每一幀圖像的目標四個最邊界有效坐標點,以四者為其邊緣限定進行矩形框框定,并通過平均思想求得近似形心(Central_X,Central_Y),可以根據(jù)其離中心像素(400,240)的差值來確定位置,并輸出相應(yīng)的PWM波形來控制二自由度云臺舵機進行目標的物理跟蹤,直到形心離中心點x方向為±5,y方向為±5內(nèi),視為目標收斂,舵機停止運動。 系統(tǒng)主要包括圖像采集、圖像存取、圖像處理以及圖像顯示四大模塊,首先通過MATLAB軟件進行系統(tǒng)仿真,計算系統(tǒng)運行速度,并與FPGA進行速度對比,然后對圖像處理的算法效率分別進行仿真比較,最后對系統(tǒng)進行FPGA板級驗證效果對比。 PC端硬件系統(tǒng)核心為i7-7700CPU,最高主頻3.60 GHz,在PC端MATLAB中測試十組800*480的圖像,調(diào)用tic、toc運行時間函數(shù),統(tǒng)計運行時間,根據(jù)試驗數(shù)據(jù)求出平均速度為0.455 s,FPGA系統(tǒng)運行目標檢測任務(wù)速度可達0.016 s,FPGA是PC端運行速度的28.4倍,具有一定的速度優(yōu)勢,。 為了檢驗系統(tǒng)去噪效果,采用峰值信噪比(Peak signal noise ratio,PSNR)作為衡量噪聲指標[23],其值越高,表明在同等情況下去噪效果越好。由于目標檢測標記的準確度直接與邊緣特征圖的質(zhì)量相關(guān),將4種不同的濾波算法對同一張加了不同椒鹽濃度的圖進行濾波,并將邊緣檢測后的特征圖進行信噪比分析,MATLAB仿真測驗的結(jié)果如圖8所示。 圖8 各算法峰值信噪比 由圖8可分析出濾波后的圖像效果:在噪聲主要發(fā)生帶即椒鹽噪聲濃度為20~70%之間,采用的5*5高斯濾波以及傳統(tǒng)4*4均值濾波表現(xiàn)欠佳,3*3中值濾波表現(xiàn)總體上優(yōu)于5*5高斯濾波以及4*4均值濾波,但雙濾波算法總體上優(yōu)于其他3種濾波,計算并統(tǒng)計圖8的平均信噪比,算得雙濾波算法比其他3種單濾波算法的平均信噪比高出約2.6倍,具有一定的優(yōu)勢。通過對整個系統(tǒng)流水線Register延遲計算,得出正常傳輸狀態(tài)下數(shù)據(jù)從OV5640攝像頭輸入到VGA顯示響應(yīng)過程延遲約為10.742 μs,而人眼可感知視覺延遲需到毫秒級別,因此本設(shè)計滿足系統(tǒng)實時性要求。 將主觀評判對比分為兩組,在同一帶污漬墻壁背景下,(a)、(b)組和(c)、(d)組分別是第一和第二組,有目標組目標為二自由度舵機云臺,如圖9所示。 圖9 試驗結(jié)果對比 圖9中,(a)和(b)對比了雙濾波算法和3種單濾波算法中平均信噪比最高的中值濾波算法噪聲濾除效果,若濾波后依然有噪聲,則噪聲會被綠色框標記顯示;(c)和(d)對比了雙濾波算法和中值濾波算法在有目標條件下,對比目標檢測的準確度,突顯出濾波算法的優(yōu)劣。 首先,從圖9(a)中可以觀察到,使用雙濾波算法無包圍盒產(chǎn)生,即無信號被檢測,而圖9(b)產(chǎn)生包圍盒,表明濾波后依然有隨機噪聲,引起誤差。從圖9(c)中可以觀察到,二自由度云臺舵機被包圍盒準確標記,而圖9(d)的二自由度云臺舵機被過度標記,無法定位具體目標位置。 由FPGA板級驗證測得,根據(jù)仿真信噪比排名次優(yōu)的中值濾波算法無法滿足實際要求,目標標定效果差,而雙濾波算法可以滿足系統(tǒng)要求,能夠像如圖9(c)準確跟蹤目標。因此,雙濾波算法具有更好的去噪效果,能顯著提高后續(xù)目標檢測與標記的精度,雙濾波算法比其他3種濾波算法適合本目標檢測系統(tǒng),具有較高的應(yīng)用價值。 針對目標檢測系統(tǒng)對速度和精度要求高的問題,本系統(tǒng)采用了FPGA平臺進行處理,利用其高效的并行計算以及流水線架構(gòu),有較高的速度優(yōu)勢,并與PC端MATLAB仿真進行對比,突出本系統(tǒng)速度優(yōu)勢。本文提出的雙濾波算法,在系統(tǒng)中去噪效果較好,設(shè)計的雙濾波算法用于特征圖比其他3種單濾波算法的平均信噪比高出約2.6倍,目標檢測精度高,為目標檢測與跟蹤領(lǐng)域提高了一種行之有效的新方法。2 仿真及試驗驗證
2.1 算法仿真
2.2 試驗驗證
3 結(jié)論