基于時空鄰域關(guān)聯(lián)去噪時間面的事件數(shù)據(jù)表示

2024-12-30 00:00:00林凱濱陳云華鐘金煜魏鵬飛

計算機應(yīng)用研究 2024年12期

摘要：

事件相機具有超高動態(tài)范圍和超低延遲等優(yōu)勢，通過事件流分割、過濾與事件表示來提取事件相機輸出數(shù)據(jù)的有效時空特征是發(fā)揮其優(yōu)勢的關(guān)鍵?，F(xiàn)有基于時間戳采用指數(shù)核函數(shù)計算時間面的事件表示方法，可以保留事件中更多的有效信息，但仍然存在事件冗余度高、容易受到噪聲事件的影響等問題。針對現(xiàn)有的事件流分割與過濾方法存在冗余度高的問題，提出一種新的基于密度排序的事件降尺度算法，通過分析事件流中的時空鄰域關(guān)系計算時空關(guān)聯(lián)密度，并根據(jù)時空關(guān)聯(lián)密度進(jìn)行密度排序，從而減少冗余事件，降低計算資源的消耗。針對現(xiàn)有事件表示易受噪聲事件影響的問題，提出一種基于時空鄰域關(guān)聯(lián)去噪時間面的事件數(shù)據(jù)表示，考慮時空間上的關(guān)聯(lián)性來形成時間面上的事件簇，從而篩選出有效事件，在提高時間面信噪比的同時降低計算復(fù)雜度。該方法在三個主流的神經(jīng)形態(tài)數(shù)據(jù)集上取得了SOTA的分類準(zhǔn)確率。對事件相機目標(biāo)分類的事件流數(shù)據(jù)降維和事件表示方向進(jìn)行研究，有效提高了事件相機目標(biāo)分類的效率和精度。

關(guān)鍵詞：事件相機；目標(biāo)分類；事件表示

中圖分類號：TP391.41"" 文獻(xiàn)標(biāo)志碼：A""" 文章編號：1001-3695（2024）12-025-3716-06

doi： 10.19734/j.issn.1001-3695.2024.04.0117

Event data representation based on spatiotemporal neighborhood-associated denoising time surfaces

Lin Kaibin， Chen Yunhua， Zhong Jinyu， Wei Pengfei

（School of Computer Science， Guangdong University of Technology， Guangzhou 510006， China）

Abstract：

Event cameras possess advantages such as ultra-high dynamic range and ultra-low latency. Extracting effective spatio-temporal features from the output data of event cameras through event stream segmentation， filtering and event representation is crucial to leverage these advantages. While existing event representation methods based on timestamps and exponential kernel functions for calculating time surfaces can preserve more informative details in events， they still face issues like high event redundancy and vulnerability to noise events. To address the high redundancy in existing event stream segmentation and filtering methods， this paper proposed a novel event downscaling algorithm based on density sorting. This algorithm analyzed the spatio-temporal neighborhood relationships within the event stream to calculate spatio-temporal correlation density and performed density sorting accordingly， thereby reducing redundant events and minimizing the consumption of computational resources. Furthermore， to address the vulnerability of existing event representations to noise events， this paper introduced an event data representation method based on spatio-temporal neighborhood correlation for denoising on the time surface. This method considered spatio-temporal correlations to form event clusters on the time surface， effectively selecting valid events and enhancing the signal-to-noise ratio while reducing computational complexity. The proposed methods had achieved state-of-the-art （SOTA） classification accuracy on three mainstream neuromorphic datasets. In summary， this paper focused on the research of event stream data dimensionality reduction and event representation for event camera object classification， effectively improving the efficiency and accuracy of event camera object classification.

Key words：event camera; target classification; event representation

0 引言

事件相機［1］是一種生物啟發(fā)式動態(tài)視覺傳感器，能夠以像素為單位實時捕捉動態(tài)場景中光線的變化，具有微秒級的超低響應(yīng)延遲和高達(dá)120 dB的超高動態(tài)范圍。相比于傳統(tǒng)相機，事件相機不僅能夠捕捉到高速運動的物體，而且能夠同時“看到”曝光過度和曝光不足的區(qū)域。這使得事件相機相較于傳統(tǒng)相機，更適用于對響應(yīng)延遲要求苛刻且光照條件復(fù)雜的場景。

在ADAS（advanced driver assistance systems）［1］自動駕駛感知系統(tǒng)中，事件相機被廣泛應(yīng)用于實時環(huán)境感知和場景理解。然而，由于事件相機產(chǎn)生的事件數(shù)據(jù)具有高動態(tài)分辨率和豐富的信息量，傳統(tǒng)的數(shù)據(jù)處理分析方法往往面臨計算資源消耗高、處理效率低的挑戰(zhàn)。此外，現(xiàn)有的事件檢測和分類方法在行人和障礙物等目標(biāo)的識別上準(zhǔn)確率和效率仍然存在提升空間。因此，對事件流數(shù)據(jù)的處理和事件表示進(jìn)行研究對于提升ADAS系統(tǒng)的性能至關(guān)重要。

首先，通過對事件數(shù)據(jù)的處理，能夠有效地減少數(shù)據(jù)的維度和冗余信息，從而提高數(shù)據(jù)處理的效率和速度。其次，采用有效的事件表示方法，可以從事件數(shù)據(jù)中提取關(guān)鍵的時空特征，如運動目標(biāo)、周圍環(huán)境等信息。這些特征對于自動駕駛車輛進(jìn)行實時的行人識別、車道線檢測等任務(wù)至關(guān)重要，有助于提升ADAS系統(tǒng)的感知能力和交通安全性。因此，開展事件數(shù)據(jù)的降維和事件表示的研究不僅能夠優(yōu)化ADAS系統(tǒng)的數(shù)據(jù)處理性能，還能夠提升其在復(fù)雜交通場景下的感知能力和自動駕駛性能。

但由于事件相機產(chǎn)生的是一個稀疏離散的事件流，事件流中的事件僅包含了位置坐標(biāo)、時間戳和極性信息，單個事件包含的信息非常有限。因此如何提取事件數(shù)據(jù)中的時空信息特征是一個難點問題?，F(xiàn)有的事件數(shù)據(jù)表示通常包含兩個階段：a）事件流分割與事件過濾；b）事件表示。

事件相機具有微秒級的低延遲響應(yīng)和高動態(tài)范圍的特性，一個像素每秒最多可以產(chǎn)生100多萬個事件，且數(shù)據(jù)以流的方式輸出。傳統(tǒng)的數(shù)據(jù)處理方式難以應(yīng)對稀疏離散的大量事件數(shù)據(jù)，因此需要對事件流進(jìn)行分割和過濾。在事件流分割方面，常見的方法包括Liu等人［2］提出的固定時間分割和Moeys等人［3］提出的固定事件數(shù)量分割。固定時間分割雖能輕松劃分出長度一致的時間塊，但當(dāng)運動目標(biāo)速度差異顯著時，可能導(dǎo)致時間間隔劃分不當(dāng)。而固定事件數(shù)量分割則面臨全局性的挑戰(zhàn)，對于特征數(shù)量變化巨大的場景，難以設(shè)定一個合適的全局閾值。根據(jù)Gruel等人［4］對現(xiàn)有事件過濾方法進(jìn)行的研究總結(jié)，當(dāng)前的事件過濾技術(shù)主要包括Lenz等人［5］提出的空間降尺度和Gruel等人［4］提出的事件計數(shù)方法?？臻g降尺度方法通過減少像素區(qū)域來簡化數(shù)據(jù)量，但這種方法可能犧牲邊緣信息等關(guān)鍵細(xì)節(jié)。事件計數(shù)方法雖然考慮了事件的數(shù)量信息，卻忽略了事件數(shù)據(jù)的時空密度等高級特性，這可能導(dǎo)致關(guān)鍵信息的遺漏。

事件表示是將稀疏離散的事件數(shù)據(jù)處理成網(wǎng)絡(luò)輸入所需的格式，關(guān)鍵在于準(zhǔn)確提取事件數(shù)據(jù)中的時空特征信息。事件表示主要有以下幾種：文獻(xiàn)［6］提出了活動事件表面（SAE），這種方法保留了最近事件的時間信息，但忽略了事件的時空歷史關(guān)聯(lián)性；Gehrig等人［7］則使用可學(xué)習(xí)的核函數(shù)處理事件的時間戳，提出事件脈沖張量（EST），EST實現(xiàn)了事件數(shù)據(jù)的端到端學(xué)習(xí)，但引入了計算損耗并且在聚合的過程中存在丟失事件信息的問題；Zhu等人［8］通過固定核函數(shù)將事件轉(zhuǎn)換成體素網(wǎng)格（voxel grid）表示，這種表示保留了事件在時空維度上的分布，但忽略了事件的極性信息；Baldwin等人［9］通過保留最近K個事件的信息構(gòu)建一個兩通道的時間排序的最近事件表示（TORE），然而，Baldwin的方法拋棄了事件流中大量寶貴的時間信息。另一類方法是基于時間戳采用指數(shù)核函數(shù)來計算時間面（time surface）［10］進(jìn)行事件表示，旨在保留事件中更多的有效信息。這類方法不需要額外的事件計數(shù)通道，更能體現(xiàn)出事件相機低延遲低功耗的特性。Lagorce等人［10］提出了層次結(jié)構(gòu)的時間面，保留事件在時空上的分布信息，但忽略了時空上的關(guān)聯(lián)性，將整個時空鄰域作為有效值進(jìn)行計算，引入了計算損耗和延遲。Baldwin等人［11］根據(jù)事件的時間序列關(guān)系，提出了感知事件時間面（IETS），但沒有考慮到事件的空間關(guān)聯(lián)性，可能導(dǎo)致細(xì)節(jié)信息的丟失。Sironi等人［12］基于空間鄰域關(guān)聯(lián)關(guān)系，提出了平均直方圖時間面，該方法雖然剔除了空間上冗余的事件點，但未能充分考慮時間上的冗余事件點，導(dǎo)致時間面的值容易受到噪聲事件的影響。

在綜合現(xiàn)有文獻(xiàn)的深入分析后，本文發(fā)現(xiàn)當(dāng)前事件數(shù)據(jù)的處理和時間面方法存在以下顯著不足：a）現(xiàn)有事件數(shù)據(jù)處理方法僅僅采用降低像素尺度或者計算事件數(shù)量的方式，忽視了事件數(shù)據(jù)中的時空密度關(guān)聯(lián)等關(guān)鍵信息的重要性和作用；b）現(xiàn)有時間面方法雖基于空間或時間關(guān)系編碼信息，但缺乏對時空關(guān)系上冗余點和噪點進(jìn)行有效過濾的機制，導(dǎo)致表示結(jié)果不準(zhǔn)確，進(jìn)而影響了分類等后續(xù)任務(wù)的準(zhǔn)確度。

基于以上問題，本文作出以下幾點貢獻(xiàn)：a）針對需要降低事件數(shù)量尺度且保留關(guān)鍵信息的問題，分析并計算了事件流時空信息分布密度，提出了基于密度排序的事件流降尺度方法，有效地去除了冗余事件，降低了計算資源損耗；b）針對現(xiàn)有時間面噪點冗余點多和表示不準(zhǔn)確的問題，提出了基于事件簇的時空鄰域關(guān)聯(lián)去噪時間面方法，降低了噪聲的影響，準(zhǔn)確地提取了事件的時空信息；c）在三個主流的神經(jīng)形態(tài)數(shù)據(jù)集上進(jìn)行實驗，取得了SOTA的效果。

1 算法框架

本文提出時空關(guān)聯(lián)去噪時間面STDTS（spatio-temporal denoised time surface），是一種基于時空領(lǐng)域篩選時間面的事件數(shù)據(jù)分類方法，共包括事件流自適應(yīng)分割、密度估計事件降維、時間面表示和網(wǎng)絡(luò)分類四個模塊，其算法整體框架如圖1所示。

該算法框架的模塊分為數(shù)據(jù)加載、事件流處理、基于時空鄰域關(guān)聯(lián)去噪時間面以及直接訓(xùn)練脈沖神經(jīng)網(wǎng)絡(luò)分類四個主要模塊。整個算法是端到端的事件數(shù)據(jù)目標(biāo)分類。

訓(xùn)練過程首先由數(shù)據(jù)加載模塊負(fù)責(zé)從訓(xùn)練集中加載多個樣本的事件流數(shù)據(jù)。然后，這些數(shù)據(jù)被傳入事件流處理模塊，進(jìn)行事件數(shù)據(jù)的分割和降尺度操作，以獲得降尺度和分割后的事件點集。由事件表示模塊處理這些事件點，包括關(guān)聯(lián)事件簇的計算，從而得到相關(guān)的簇計算結(jié)果。隨后，基于時空鄰域關(guān)聯(lián)去噪時間面模塊計算時間值，并將多個不同樣本的數(shù)據(jù)計算得到的時間面組織成多個維度為［T，B，2，H，W］的幀序列，作為數(shù)據(jù)輸入到網(wǎng)絡(luò)進(jìn)行訓(xùn)練。最后，訓(xùn)練完的模型加載測試集的事件數(shù)據(jù)進(jìn)行分類，輸出分類結(jié)果。

2 事件流處理

在每個時刻，當(dāng)像素的亮度變化超過閾值θ時，事件相機就會生成一個單獨的事件。其表示方式如下：

log（I（x，y，t+Δt））－log（I（x，y，t））gt;pθ（1）

其中：Δt代表同一像素坐標(biāo)產(chǎn)生的當(dāng)前事件距離上一個事件的時間差；（x，y）表示事件在像素坐標(biāo)上的位置；t表示事件輸出的時刻；p表示事件的極性；+1表示光照強度增加；－1表示光照強度減小。

2.1 事件流自適應(yīng)分割

在事件表示之前通常需要進(jìn)行事件流分割。本文采用了 Li等人［13］提出的自適應(yīng)事件采樣方法進(jìn)行事件流分割，其具體步驟如下：首先，從每個標(biāo)簽的起始時間戳開始積累事件，并根據(jù)預(yù)設(shè)閾值進(jìn)行分割。一旦時空窗口Ωi中的事件數(shù)Ni接近自適應(yīng)閾值時，將觸發(fā)一個新的時間分段Si={xn，yn，tn∈Γi：n=1，…，Ni}。該自適應(yīng)閾值計算公式為

Δ t*i=argminΔ ti|θ+η（Δ ti-1-Δ ti）+#{Ne|Ne∈Γi} |（2）

其中：Δti是生成時間塊的持續(xù)時間，單位為μs；#{}表示時空窗口Γi中的事件計數(shù)；θ是預(yù)設(shè)閾值；η是用于調(diào)整持續(xù)時間{Δt1，Δt2，…，Δtn} 以保持時間一致性的時間反饋控制參數(shù)。在初始化階段，本文將η設(shè)置為0，并在事件數(shù) N0達(dá)到θ時觸發(fā)第一個時間塊。自適應(yīng)采樣方案將事件流分割為時間塊，這些塊可以是不連續(xù)的或彼此重疊的。

2.2 基于密度排序的事件流降尺度

根據(jù)事件相機的特性，每秒鐘輸入到硬件中的事件數(shù)量可達(dá)25 M。然而，現(xiàn)有的事件表示方法，例如時間面［10］，在處理155 K事件數(shù)時，平均需要1.12 s的延遲。過多的事件數(shù)量會給硬件帶來極大的計算負(fù)擔(dān)。因此，需要在對事件進(jìn)行事件表示前舍棄冗余事件，提取有用的事件數(shù)據(jù)。

經(jīng)過自適應(yīng)時間分割后的事件塊包含了同一時間段內(nèi)的所有事件。大多數(shù)現(xiàn)有的方法都是通過簡單地縮小空間尺度來減少事件數(shù)據(jù)，這實際上是事件域中的最大池化操作。然而，事件相機中采集的目標(biāo)事件往往集中在特定的空間區(qū)域。通過對事件點的空間密度進(jìn)行分析，可以避免在稀疏的區(qū)域上進(jìn)行多余的計算，從而提高處理效率。因此，本文提出了基于密度排序的事件過濾方法，包含事件核密度估計和排序選擇兩個部分，如圖2所示。

1）事件核密度估計

計算公式表示為

f（x）=1N∑Ni=1K（（x-Xi）（t-Ti）H）（3）

其中： f（x）為在坐標(biāo)x處的密度估計； n為事件塊的事件數(shù)量；Xi 為事件塊中其余事件的空間位置；Ti為事件塊中其余事件的時間戳；K為高斯核函數(shù)；H為帶寬參數(shù)。步驟如圖2所示，經(jīng)過事件塊的計算，得到了各個事件塊的空間密度值。

2）核密度估計排序

在獲得了各個事件塊的空間密度值之后，本文根據(jù)這些估計的空間密度值對事件塊進(jìn)行排序，如圖2（b）所示。為了篩選出有效的事件，本文引入了一個比例參數(shù)R，用于指定本文所需的事件比例。公式表示為

{Se}=select（sort（f（Si））ni=1）top（R×Ne）（4）

其中：Se為最終選擇的事件集合，通過選取R比例的事件，可以濾除其余的事件，從而減少計算消耗和降低延遲。

經(jīng)過在CIFAR10-DVS、DVS128 Gestures數(shù)據(jù)集上多次對比實驗，R取1/3時，性能最優(yōu)。

3 時空鄰域關(guān)聯(lián)去噪時間面

Lagorce等人［10］引入時間面的概念，用于描述事件周圍的局部時空模式。時間面可以被形式化為一個作用于事件ei的局部空間算子Tei（ζ，q）：［－p，p］2×{－1，+1}，其中p是用于計算事件面空間鄰域的半徑。Lagorce中的時間面僅考慮時間面上像素xi鄰域內(nèi)最后接收到的事件的時間值來構(gòu)建描述符，這會導(dǎo)致描述符對噪聲或事件流中的微小變化過于敏感，Sironi等人［12］通過考慮大小為Δt的時間窗口內(nèi)的歷史事件來計算時間面，以事件點數(shù)量的平均時間值作為時間面的取值，但是當(dāng)事件數(shù)較少時，與噪聲的區(qū)分度就會降低。

因此，本文提出了時空鄰域關(guān)聯(lián)去噪時間面的方法（圖3），包括基于時空鄰域關(guān)聯(lián)的事件簇和時空鄰域去噪時間面的計算兩部分。通過考慮事件的時空鄰域的關(guān)聯(lián)性，從而選擇出有效的正確事件點來計算時間面的值，實現(xiàn)去除事件點噪聲［14］的效果，提高事件表示的準(zhǔn)確性。

3.1 基于時空鄰域關(guān)聯(lián)的事件簇

給定一個事件集合：

{Se}={ei|ei=［xi，ti，pi］T，i∈［1，m］}（5）

其中：單個事件ei=［xi，ti，pi］； xi=（xi，yi）∈［1，…，M］×［1，…，N］是產(chǎn)生事件的像素的坐標(biāo)；ti≥0是事件的時間戳，滿足當(dāng)ti≤tj，i≤j。對于ilt;j，pi∈{－1，+1} 是事件的極性，－1 和+1分別表示 OFF 和 ON 事件，N是事件的總數(shù)，用{ei}來指代一組事件。

噪聲事件比起非噪聲事件［15］有著較強的時空間孤立性，因此本方法將考慮時空上的關(guān)聯(lián)性來篩選有效事件。事件的鄰域被定位為半徑為ε的圓形區(qū)域，有效事件數(shù)大于等于Ns的事件簇稱為有效事件簇。

具體步驟描述如下：

a）選擇時間窗口Δt中的同一極性p的事件ei作為形成事件簇的處理窗口。

b）對于事件流{ei|i∈（1，2，…，n）}中的每個事件e，如果半徑ε的鄰域內(nèi)至少包含min_samples事件，則稱e為核心事件。

c）如果點ej在點ek的ε鄰域內(nèi)，并且點ek為核心點，則稱事件ej為ek的直接鄰接事件。

d）如果存在一組事件e1，e2，…，en，其中e1=ek，en=ej，且對于任意1≤i≤n－1，都有ei 和 ei+1 是直接鄰接，則稱點ej是ek的間接鄰接事件。

e）由鄰接關(guān)系得到的最大的鄰接集合即為一個簇，當(dāng)簇的事件數(shù)量N≥Ns時，則認(rèn)定為有效事件簇。

計算過程如算法1所示。

算法1 基于時空鄰域關(guān)聯(lián)的事件簇去噪算法

輸入：事件集合ei，鄰域半徑eps，簇群最小數(shù)min_samples。

輸出：過濾后的事件集合e*i。

//1～8行：初始化參數(shù)并統(tǒng)一時空間尺度

1 e*i←;

2 for each e in ei do

3 "Pointe←（e.x，e.y，e.t）;

4 "xd max←（Pointe.x）－min（Pointe.x）;

5 "td max←（Pointe.t）－min（Pointe.t）;

6 "tscale←td/xd;

7 "Normalize（Pointe，tscale）;

8 Neighbor_Model←NearestNeighbors（eps，algorithm）;

//9～13行：構(gòu)建最近鄰模型，形成有效事件簇

9 for each Point in Pointse do

10 NeighborModel.Fit（Point）;

11 Neighborhood←Neighbor_model.radius（Point）;

12 core_samples←Found（Neighborhood，eps）;

13 Neighbor_Model.fit（core_samples）;

//14～20行：過濾噪聲事件并選擇非噪聲事件

14Mask←zeros_like（Neighbor_Model.Label）;

15Create_Mask（Mask，Neighbor_model.indices）;

16Pointfilt←filter（Pointse，Mask）

17for （i，e） in enumerate （ei） do

18 if Mask［i］ do

19" "e*i.add （e）;

20return e*i

下面對算法1的時間復(fù)雜度和空間復(fù)雜度進(jìn)行分析。對每個事件點進(jìn)行最近鄰模型的構(gòu)建和查詢，其時間復(fù)雜度為O（n×log（n）），其中 n 為事件點的數(shù)量。過濾操作需要遍歷所有事件點，其時間復(fù)雜度為 O（n），因此，時間復(fù)雜度為 O（n×log（n））。算法中需要存儲的數(shù)據(jù)結(jié)構(gòu)主要是事件點集合以及最近鄰模型，它們的空間復(fù)雜度分別為 O（n）和 O（n），整個算法的空間復(fù)雜度為 O（n）。

3.2 時空鄰域關(guān)聯(lián)去噪時間面計算

現(xiàn)有的時間面方法在計算時間面時通常使用單個指數(shù)核對多個事件進(jìn)行卷積。單個指數(shù)核的響應(yīng)主要取決于時間與當(dāng)前時間點之間的時間差，這意味著對事件的時間順序不敏感。因此，當(dāng)事件數(shù)據(jù)中存在快速連續(xù)的變化時，單個指數(shù)核可能無法有效區(qū)分這些事件，導(dǎo)致信息損失，無法適應(yīng)更細(xì)粒度時間分辨率的應(yīng)用場景。本文通過引入多個指數(shù)核，能夠更好地捕獲事件數(shù)據(jù)中的時間變化，并且對于不同時間尺度的變化能夠有針對性地進(jìn)行響應(yīng)，從而更準(zhǔn)確地表示事件的時間動態(tài)特性。

根據(jù)時空鄰域關(guān)聯(lián)簇篩選，得到降噪事件點集合e*i。對于由（xi，yi，ti，pi）給出的事件ei，以及（z，q）∈［－p，p］2×-1，+1，時間面的值Tei為

Euclid Math OneTApei（z，q）=e－ti－t′（xi+z，q）τ1－τ1τ2e－ti－t′（xi+z，q）τ2 if pi=q0otherwise （6）

其中：ti－t′（xi+z，q）表示當(dāng)前事件的時間與局部內(nèi)存中其他事件的時間之間的差異；τ1和τ2是衰減因子，指數(shù)衰減擴(kuò)大了過去事件的活動范圍，并強調(diào)了鄰近區(qū)域活動歷史的相關(guān)信息，公式中包括一個正核和一個負(fù)核，這兩個核的作用是相互平衡。當(dāng)事件數(shù)據(jù)的頻率保持一致時，這兩個核的計算和會使得最終的輸出為零。該內(nèi)核通過過濾掉恒定發(fā)放率的脈沖，對隨時間變化的發(fā)射率脈沖序列產(chǎn)生了較高的響應(yīng)速度。該時間面公式能更穩(wěn)健地描述場景的真實動態(tài)，同時抵御噪聲和事件的微小變化，正確表達(dá)目標(biāo)事件的時間動態(tài)信息。

4 實驗與結(jié)果分析

4.1 數(shù)據(jù)集和評價指標(biāo)

為了驗證本文方法的有效性，在公開的CIFAR10-DVS、DVS128 Gesture和N-Caltech 101數(shù)據(jù)集上進(jìn)行了實驗。這些數(shù)據(jù)集由事件相機采集而成，包含了不同類型的目標(biāo)，如表1所示。

CIFAR10-DVS數(shù)據(jù)集是用于物體分類的事件流數(shù)據(jù)集，其分辨率為128×128像素，包含10個不同類別的物體。

DVS128 Gesture數(shù)據(jù)集用于手勢識別，分為11個類別，每個類別包含120個樣本。

N-Caltech 101數(shù)據(jù)集是用于對象分類的事件流數(shù)據(jù)集，由ATIS事件相機采集得到。它保留了Caltech 101數(shù)據(jù)集的類別和標(biāo)簽。

事件相機數(shù)據(jù)集的可視化效果如圖4所示。

4.2 實驗配置

實驗使用了顯存為40 GB的NVIDIA A100 Tensor Core GPU進(jìn)行訓(xùn)練和測試。訓(xùn)練階段采用了Adam優(yōu)化器進(jìn)行網(wǎng)絡(luò)訓(xùn)練，設(shè)置批量大?。╞atch_size）為10，并進(jìn)行了1 024個epochs的迭代訓(xùn)練，學(xué)習(xí)率設(shè)置為0.001。本文采用準(zhǔn)確度（accuracy，acc）作為評估模型性能的指標(biāo)，準(zhǔn)確度表示模型在測試集上正確分類的樣本比例，計算公式如下：

accuracy=TrueTotal（7）

其中：True表示模型在測試集上正確分類的樣本數(shù)量；Total 表示測試集的總樣本數(shù)量。

4.3 實驗方法

4.3.1 數(shù)據(jù)導(dǎo)入

利用PyTorch框架的數(shù)據(jù)讀取庫對所使用的公共數(shù)據(jù)集進(jìn)行批量讀取，并將數(shù)據(jù)集文件分割成訓(xùn)練集和測試集，以備后續(xù)數(shù)據(jù)處理和網(wǎng)絡(luò)訓(xùn)練測試使用。

4.3.2 數(shù)據(jù)預(yù)處理與事件表示

數(shù)據(jù)讀取后，進(jìn)行事件流處理和事件表示。事件流被分割并降維，存儲為事件塊，并進(jìn)行時間面的表示。最終，時間面通過矩陣變換組織為維度為X=［T， B， 2， H， W］的數(shù)據(jù)格式，其中T為時間步，B為批量大小，2表示事件數(shù)據(jù)的極性（正極性和負(fù)極性），H和W分別為時間面的高度和寬度。

4.3.3 直接訓(xùn)練的脈沖神經(jīng)網(wǎng)絡(luò)分類

本文采用VGGNet-11直接訓(xùn)練的脈沖神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。網(wǎng)絡(luò)結(jié)構(gòu)為Input-AP2-64C3-128C3-AP2-256C3-256C3-AP2-512C3-512C3-AP2-512C3-512C3-AP2-512FC-output （類別數(shù)）。

4.3.4 損失函數(shù)與分類結(jié)果

本文采用spike mean-square-error （SMSE）作為損失函數(shù)，可通過以下公式計算：

L=1T∑T－1t=0Lt=1T∑T－1t=01C∑C－1i=0（st，i－gt，i）2（8）

其中：T表示模擬時間步長；C是標(biāo)簽數(shù)；S表示網(wǎng)絡(luò)輸出；g表示獨熱編碼的目標(biāo)標(biāo)簽。為了估計分類準(zhǔn)確率，定義預(yù)測標(biāo)簽lp是具有最高發(fā)放率的神經(jīng)元的索引lp=maxi1T∑T-1t=0st，i，通過比較索引和標(biāo)簽類別的統(tǒng)計結(jié)果來計算實驗準(zhǔn)確率。

4.4 事件流處理的消融實驗

本節(jié)將本文提出的基于密度估計排序的事件流降維方法與現(xiàn)有的事件降維方法在DVS128 Gesture數(shù)據(jù)集上進(jìn)行比較。統(tǒng)計了不同降維方法后的平均事件數(shù)量，并計算了在相同時間面表示下不同降維方法的計算時間。同時，本文采用了VGG-11結(jié)構(gòu)直接訓(xùn)練的脈沖神經(jīng)網(wǎng)絡(luò)進(jìn)行分類精度的對比，如表2所示。

在現(xiàn)有方法中，SEF（simple event funnelling）通過聚合具有相似空間或時間特征的事件，從中提取信息或特征，但其對提取信息的降維可能會導(dǎo)致高密度事件信息的損失。而Tonic方法則通過控制粒度來聚合事件信息形成更大的時間窗口或空間區(qū)域，但其參數(shù)設(shè)置可能會影響聚合關(guān)注的特征信息，從而降低事件數(shù)據(jù)的完整性和準(zhǔn)確性。相比之下，本文方法采用基于密度估計排序的方式，通過對時空密度進(jìn)行排序，能夠有效選取高價值的信息進(jìn)行處理。

從表2的結(jié)果可以看出，本文方法在降低事件數(shù)量的同時，其分類精度均優(yōu)于之前的事件流降維方法。

4.5 時間面的消融實驗

本節(jié)對本文提出的基于時空鄰域關(guān)聯(lián)去噪的時間面方法與目前事件相機目標(biāo)分類方法中代表性的事件時間面表示方法進(jìn)行了對比實驗，實驗采用了公開數(shù)據(jù)集CIFAR10-DVS、DVS128 Gesture和N-Caltech 101，并在VGG-11結(jié)構(gòu)直接訓(xùn)練的脈沖神經(jīng)網(wǎng)絡(luò)上進(jìn)行了分類。對比實驗結(jié)果如表3所示。

根據(jù)表3的實驗結(jié)果，可以得出結(jié)論：本文提出的時空鄰域關(guān)聯(lián)去噪時間面事件表示方法在三個數(shù)據(jù)集上的分類精度均表現(xiàn)最優(yōu)。具體而言，在公共的數(shù)據(jù)集DVS128 Gesture上，分類精度達(dá)到了99.05%；在CIFAR10-DVS上，達(dá)到了81.30%；在N-Caltech 101上，達(dá)到了82.11%。這些結(jié)果均優(yōu)于之前采用的時間面方法。

從圖5可以看出，當(dāng)事件數(shù)量相同時，本文提出的時間面方法在CIFAR10-DVS公開數(shù)據(jù)集上取得了最高的分類精度。同時，在延遲方面，本文的本地降噪時間面在事件數(shù)量增多的情況下，能夠?qū)崿F(xiàn)最低的時間延遲。

本文算法在CIFAR10-DVS公開數(shù)據(jù)集上的降噪效果如圖6所示。圖6（a）為原始圖像未經(jīng)過時間面降噪的結(jié)果，圖6（b）為經(jīng)過時間面降噪后的效果?？梢杂^察到，在事件數(shù)量龐大且存在大量噪點的情況下，本文算法成功篩選出了目標(biāo)物體的紋理特征，并有效消除了大量的噪點事件。

綜上所述，本文提出的時間面方法能夠充分利用時間信息并提高分類精度。這是因為時空鄰域關(guān)聯(lián)時間面不僅保留了事件時序關(guān)系，還計算了事件之間的時空關(guān)聯(lián)性，從而舍棄了無關(guān)的事件，提取出了更為精確的事件目標(biāo)特征。

4.6 本文算法與其他算法對比

本節(jié)對本文算法與多個事件相機數(shù)據(jù)分類方法進(jìn)行了比較，包括HFirst［16］、HOTS［10］、HATS［12］和Gabor-SNN［17］等。

HFirst［16］方法中，事件表示方法僅考慮第一個到達(dá)的事件，忽略了后續(xù)事件，導(dǎo)致處理效果不佳。而Gabor-SNN結(jié)合了Gabor濾波器，利用傳統(tǒng)的計算機視覺算法來提取特征信息，但其參數(shù)的選擇可能會導(dǎo)致模型在不同數(shù)據(jù)集上的過擬合，進(jìn)而影響表示效果。相比之下，HATS和HOTS等方法在處理事件時考慮了所有事件，包括噪點事件和冗余事件，導(dǎo)致事件表示方法的準(zhǔn)確性不高。這些方法所采用的分類器結(jié)構(gòu)較為簡單，無法取得很好的分類效果。

通過對比實驗結(jié)果（表4）可知，本文方法在三個數(shù)據(jù)集上的分類準(zhǔn)確度明顯高于HFirst、HOTS等傳統(tǒng)事件表示方法。

對比使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行事件表示的方法，EST算法通過將事件點采樣到網(wǎng)格中構(gòu)建事件表示，但在處理大量的事件數(shù)據(jù)時會增加空間上的內(nèi)存負(fù)擔(dān)，降低處理效率。STES則通過編碼事件流的時空特征來進(jìn)行學(xué)習(xí)，IETS通過時間面到事件數(shù)據(jù)集，然而，以上兩個方法都沒有考慮到噪聲對時間面特征的影響，在噪聲干擾環(huán)境下表現(xiàn)不佳，TORE提出時間排序的方法來處理異步事件并計算事件的時間值，但其數(shù)據(jù)結(jié)構(gòu)限制了時間靈敏度，導(dǎo)致事件信息的丟失。相比之下，本文方法通過對事件流數(shù)據(jù)進(jìn)行降維，并考慮了事件數(shù)據(jù)中時空關(guān)聯(lián)，構(gòu)造具有降噪功能的時間面，在計算損耗較低的情況下，本文方法能夠有效地去除噪聲事件，并保留時間數(shù)據(jù)的特征。通過對比實驗結(jié)果（表4）可知，本文方法在三個數(shù)據(jù)集上的分類準(zhǔn)確度都達(dá)到了最高水平。

綜上所述，與現(xiàn)有的事件表示方法相比，本文方法取得了在數(shù)據(jù)集N-Caltech 101、CIFAR10-DVS和DVS128 Gesture上的SOTA分類精度。

5 結(jié)束語

綜合上述內(nèi)容，本文研究了事件相機分類任務(wù)中事件數(shù)據(jù)的冗余噪點和事件表示等問題。為解決事件數(shù)據(jù)冗余所導(dǎo)致的大量計算損耗以及事件表示中的噪點影響問題，本文提出了一種針對事件數(shù)據(jù)的新的事件表示方法。該方法包括基于密度估計排序的事件流處理和基于時空鄰域關(guān)聯(lián)降噪時間面，旨在節(jié)省計算資源并更好地提取事件流中的重要信息，從而提高響應(yīng)速度和分類精度。通過在不同數(shù)據(jù)集上的實驗驗證，本文的方法在延遲和分類精度方面表現(xiàn)出明顯的優(yōu)勢，進(jìn)一步證實了方法的有效性和優(yōu)越性。

參考文獻(xiàn)：

［1］桑永勝，李仁昊，李耀仟，等. 神經(jīng)形態(tài)視覺傳感器及其應(yīng)用研究［J］. 物聯(lián)網(wǎng)學(xué)報， 2019， 3（4）： 63-71. （Sang Yongsheng， Li Renhao， Li Yaoqian， et al. Yao MAO. Research on neuromorphic vision sensor and its applications ［J］. Chinese Journal on Internet of Things， 2019， 3（4）： 63-71.）

［2］Liu Min， Delbruck T. Adaptive time-slice block-matching optical flow algorithm for dynamic vision sensors ［C］// Proc of British Mahine Vision Conference（BMVC）. Berlin： Springer， 2018.

［3］Moeys D P， Corradi F， Kerr E， et al. Steering a predator robot using a mixed frame/event-driven convolutional neural network ［C］// Proc of the 2nd International Conference on Event-based Control， Communication， and Signal Processing （EBCCSP）. Piscataway， NJ： IEEE Press， 2016： 1-8.

［4］Gruel A， Martinet J， Linares-Barranco B， et al. Performance compa-rison of DVS data spatial downscaling methods using spiking neural networks ［C］// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway， NJ： IEEE Press， 2023： 6494-6502.

［5］Lenz G， Chaney K， Shrestha S B， et al. Tonic： event-based datasets and transformations ［EB/OL］. （2021）. https：//tonic.readthedocs.io.

［6］Chen Yunhua， Mai Yingchao， Feng Ren， et al. An adaptive thres-hold mechanism for accurate and efficient deep spiking convolutional neural networks ［J］. Neurocomputing， 2022， 469： 189-197.

［7］Gehrig D， Loquercio A， Derpanis K G， et al. End-to-end learning of representations for asynchronous event-based data ［C］// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway， NJ： IEEE Press， 2019： 5633-5643.

［8］Zhu A Z， Yuan Liangzhe， Chaney K， et al. EV-FlowNet： self-supervised optical flow estimation for event-based cameras ［EB/OL］. （2018-02-19）. https：//arxiv.org/abs/1802.06898.

［9］Baldwin R W， Liu Ruixu， Almatrafi M， et al. Time-ordered recent event （TORE） volumes for event cameras ［J］. IEEE Trans on Pattern Analysis and Machine Intelligence， 2022， 45（2）： 2519-2532.

［10］Lagorce X， Orchard G， Galluppi F， et al. HOTS： a hierarchy of event-based time-surfaces for pattern recognition ［J］. IEEE Trans on Pattern Analysis and Machine Intelligence， 2016， 39（7）： 1346-1359.

［11］Baldwin R W， Almatrafi M， Kaufman J R， et al. Inceptive event time-surfaces for object classification using neuromorphic cameras ［C］// Proc of the 16th International Conference， ICIAR. Cham： Springer， 2019： 395-403.

［12］Sironi A， Brambilla M， Bourdis N， et al. HATS： histograms of ave-raged time surfaces for robust event-based object classification ［C］// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2018： 1731-1740.

［13］Li Jianing， Li Jia， Zhu Lin， et al. Asynchronous spatio-temporal memory network for continuous event-based object detection ［J］. IEEE Trans on Image Processing， 2022， 31： 2975-2987.

［14］肖進(jìn)勝，姜紅，彭紅，等. 一種改進(jìn)的3維塊匹配視頻去噪算法［J］. 工程科學(xué)與技術(shù)， 2014， 46（4）： 81-86. （Xiao Jinsheng， Jiang Hong， Peng Hong， et al. An improved video denoising algorithm based on 3D block matching［J］. Advanced Engineering Sciences， 2014， 46： 81-86.）

［15］肖進(jìn)勝，李文昊，姜紅，等. 基于雙域濾波的三維塊匹配視頻去噪算法［J］. 通信學(xué)報， 2015， 36（9）： 91-97. （Xiao Jinsheng， Li Wenhao， Jiang Hong， et al. Three dimensional block-matching video denoising algorithm based on dual-domain filtering ［J］. Journal on Communications， 2015， 36（9）： 91-97.）

［16］Orchard G， Meyer C， Etienne-Cummings R， et al. HFirst： a temporal approach to object recognition ［J］. IEEE Trans on Pattern Analysis and Machine Intelligence， 2015， 37（10）： 2028-2040.

［17］Deng Yongjian， Chen Hao， Li Youfu. MVF-Net： a multi-view fusion network for event-based object classification ［J］. IEEE Trans on Circuits and Systems for Video Technology， 2021， 32（12）： 8275-8284.

［18］Dong Junfei， Jiang Runhao， Xiao Rong， et al. Event stream learning using spatio-temporal event surface ［J］. Neural Networks， 2022， 154： 543-559.

［19］Liu Min， Delbruck T. Block-matching optical flow for dynamic vision sensors： algorithm and FPGA implementation ［C］// Proc of IEEE International Symposium on Circuits and Systems （ISCAS）. Pisca-taway， NJ： IEEE Press， 2017： 1-4.

［20］Lichtensteiner P， Posch C， Delbruck T. A 128x128 120 dB 15μs latency asynchronous temporal contrast vision sensor ［J］. IEEE Journal of Solid-State Circuits， 2008 （2）： 566-576.

［21］孔德磊，方正. 基于事件的視覺傳感器及其應(yīng)用綜述［J］. 信息與控制， 2021， 50（1）： 1-19. （Kong Delei， Fang Zheng. A review of event-based vision sensors and their applications ［J］. Information and Control， 2021， 50（1）： 1-19.）

［22］Bi Yin， Chadha A， Abbas A， et al. Graph-based spatio-temporal feature learning for neuromorphic vision sensing ［J］. IEEE Trans on Image Processing， 2020， 29： 9084-9098.

［23］Li Zhengqi， Niklaus S， Snavely N， et al. Neural scene flow fields for space-time view synthesis of dynamic scenes ［C］// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2021： 6498-6508.

［24］Maqueda A I， Loquercio A， Gallego G， et al. Event-based vision meets deep learning on steering prediction for self-driving cars ［C］// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2018： 5419-5427.

［25］Bai Weijie， Chen Yunhua， Feng Ren， et al. Accurate and efficient frame-based event representation for AER object recognition ［C］// Proc of International Joint Conference on Neural Networks. Piscataway， NJ： IEEE Press， 2022： 1-6.

［26］肖進(jìn)勝，張舒豪，陳云華，等. 雙向特征融合與特征選擇的遙感影像目標(biāo)檢測［J］. 電子學(xué)報， 2022， 50（2）： 267-272. （Xiao Jinsheng， Zhang Shuhao， Chen Yunhua， et al. Remote sensing image object detection based on bidirectional feature fusion and feature selection ［J］. Acta Electronica Sinica， 2022， 50（2）： 267-272.）

計算機應(yīng)用研究2024年12期

計算機應(yīng)用研究的其它文章: 基于多尺度視覺信息和非局部目標(biāo)挖掘的腫瘤分割; 基于CLIP的視頻時刻檢索預(yù)訓(xùn)練模型; 多模態(tài)嵌入與軌跡修正的三維多目標(biāo)跟蹤; 基于高階紋理與結(jié)構(gòu)特征交互的瓦當(dāng)圖像修復(fù); 基于推遲重采樣的時空路徑復(fù)用蓄水池算法; 抗惡意敵手的多方概率門限隱私集合交集方法

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于時空鄰域關(guān)聯(lián)去噪時間面的事件數(shù)據(jù)表示