wordpress調(diào)用指定文章內(nèi)容seo優(yōu)化網(wǎng)站推廣全域營銷獲客公司
摘要
??基于事件的視覺受到人類視覺系統(tǒng)的啟發(fā),提供了變革性的功能,例如低延遲、高動態(tài)范圍和降低功耗。本文對事件相機進行了全面的調(diào)查,并追溯了事件相機的發(fā)展歷程。它介紹了事件相機的基本原理,將其與傳統(tǒng)的幀相機進行了比較,并強調(diào)了它的獨特性和操作差異。調(diào)查涵蓋了來自領先制造商的各種事件相機型號、關鍵技術里程碑和有影響力的研究貢獻。它探索了不同領域的各種應用,并討論了促進研究發(fā)展所必需的真實世界和合成數(shù)據(jù)集。此外,還討論了事件相機模擬器在測試和開發(fā)中的作用。這項調(diào)查旨在鞏固事件相機的現(xiàn)狀,并激發(fā)這個快速發(fā)展領域的進一步創(chuàng)新。為了支持研究社區(qū),GitHub 頁面對過去和未來的研究文章進行了分類并整合了寶貴的資源。
1 理解基于事件的視覺——引言
??基于事件的視覺代表了視覺傳感技術的范式轉(zhuǎn)變,其靈感來源于人類視覺系統(tǒng)檢測和響應環(huán)境變化的能力(因此也被稱為神經(jīng)形態(tài)視覺)。和以固定時間間隔捕捉靜態(tài)圖像的傳統(tǒng)幀式相機不同,基于事件的視覺技術則利用事件相機連續(xù)監(jiān)測每個像素的光強變化。這些相機僅在發(fā)生重大變化時才會產(chǎn)生 “事件”,從而生成反映實時場景動態(tài)的動態(tài)數(shù)據(jù)流?;谑录囊曈X模仿了人類感知的異步性質(zhì),即對每個像素獨立檢測和記錄變化。這種方法具有極高的時間分辨率,這對于準確捕捉快速移動的物體和動態(tài)場景至關重要,而不會出現(xiàn)幀相機通常伴隨的運動模糊現(xiàn)象。事件相機僅關注變化而不關注靜態(tài)信息,因此能更有效地管理數(shù)據(jù),從而顯著降低冗余和帶寬要求。
??對事件的實時捕捉和處理可實現(xiàn)對場景變化的即時響應,因此基于事件的視覺技術特別適用于需要快速決策的應用。該技術側(cè)重于檢測對數(shù)尺度(log函數(shù))而非絕對值的變化,因此能夠有效處理各種照明條件,避免了傳統(tǒng)系統(tǒng)中常見的曝光過度或曝光不足等問題。這種適應性在室外光線條件惡劣的環(huán)境中尤為重要。此外,由于事件相機只處理變化,因此與傳統(tǒng)相機相比,它們所需的數(shù)據(jù)帶寬和計算能力更低。這種效率可顯著節(jié)省能源,使基于事件的視覺成為電池供電設備和長期監(jiān)控應用的理想選擇。異步特性還有助于高效處理和分析數(shù)據(jù),專注于相關變化,實現(xiàn)更快、更準確的處理。
??事件相機具有低延遲、高動態(tài)范圍、低功耗和高效數(shù)據(jù)處理等顯著特點,因此被廣泛應用于各種應用領域,包括物體檢測 [72]、移動物體分割 [167-169,190]、物體跟蹤 [211,283]、物體分類 [12,235]、 手勢/動作識別 [6,46,141]、流量/深度/姿勢估計 [11,174,175,301,302]、語義分割 [4,243]、視頻去模糊 [107,139]、視頻生成 [145,258]、神經(jīng)輻射場 (NERF) [119,217]、視覺里程計 [25,279,298,306]、高分辨率視頻重建 [29,249,289] 和運動捕捉 [90,166,274]。
??本綜述旨在讓研究人員全面了解事件相機的現(xiàn)狀。它提供了研究趨勢的背景,以說明人們對該領域日益增長的興趣(第 2 節(jié))。本綜述解釋了事件相機的工作原理(第 3 節(jié)),并將其與傳統(tǒng)幀相機進行了對比(第 4 節(jié))。它研究了來自領先制造商的各種事件相機型號,提供了功能方面的比較以幫助選擇相機(第 5 節(jié))。概述了關鍵的里程碑工作,為未來的研究方向奠定了基礎(第 6 節(jié))。此外,本綜述討論了基于事件的視覺的各種應用領域,介紹了不同領域的杰出工作(第 7 節(jié))。還包括對關鍵的基于事件的數(shù)據(jù)集(第 8 節(jié))和推進研究和開發(fā)所必需的模擬器的概述(第 9 節(jié))。
??本次調(diào)查的目的是整合基于事件的視覺系統(tǒng)資源,強調(diào)技術進步和實際應用,同時作為該領域功能和選項的全面指南。GitHub 資源頁面是本次調(diào)查的補充,它將定期更新,為研究人員提供基于事件的視覺的最新發(fā)展,促進明智的決策并推動持續(xù)創(chuàng)新。
2 基于事件的視覺的興起:背景
??近年來,基于事件的視覺研究界取得了重大進展,發(fā)表的論文數(shù)量不斷增加就是明證(見圖 1)。從 2010 年的少量論文開始,該領域不斷擴大,到 2023 年學術活動大幅增加,達到頂峰。這一顯著增長,尤其是從 2019 年開始,歸功于各個供應商提供的事件相機可用性的增加,以及引入先進的基于事件的模擬器。CVPR、ECCV、ICCV 和 WACV 等主要計算機視覺會議上,基于事件的視覺研究論文數(shù)量顯著增加。例如,在 CVPR 上發(fā)表的基于事件的視覺論文數(shù)量顯著增加,從 2018 年的幾篇增加到 2024 年的相當多的數(shù)量。專門針對基于事件的視覺研討會進一步促進了該領域研究的傳播。這一趨勢表明,在更廣泛的計算機視覺社區(qū)中,該領域的影響力不斷擴大,認可度不斷提高。。
??在 20 世紀 90 年代末和 21 世紀初,神經(jīng)形態(tài)視覺領域取得了顯著進展,包括開發(fā)機器人神經(jīng)形態(tài)傳感器 [81]、脈沖神經(jīng)控制器 [57]、仿生視覺傳感器 [237] 和神經(jīng)形態(tài)視覺開源工具包 [104]。關鍵工作還包括對人工人類視覺技術的綜述[47]、嵌入式實時跟蹤系統(tǒng) [140] 和基于脈沖處理的多芯片系統(tǒng) [253]。此外,還討論了無幀動態(tài)數(shù)字視覺 [44],為平衡機器人引入了 AER 動態(tài)視覺傳感器 [38,39],開發(fā)了動態(tài)立體視覺系統(tǒng) [225],并引入了活動驅(qū)動傳感器 [43]。值得注意的是,[19] 組織了一次關于仿生視覺的研討會。
??從 2010 年代初到 2020 年,顯著的進展包括探索基于事件的異步雙目立體匹配 [216]、人形機器人的嵌入式神經(jīng)形態(tài)視覺 [10]、多核卷積處理器模塊 [21]、微粒子跟蹤的高速視覺 [181]、時間相關特征提取 [14, 137] 和識別算法 [158]。研究人員在基于事件的視覺流 [11]、SLAM [267]/3D SLAM [266]、具有快速反應能力的機器人守門員[42],以及關于視網(wǎng)膜傳感器的綜述 [199]等方面采用了先進技術。此外,2010 年代中期還探索了用于高速視覺特征跟蹤的多核算法 [125]、連續(xù)時間軌跡估計 [173]、事件壽命估計和視覺跟蹤 [172]、立體匹配 [56] 和 三維感知的脈沖神經(jīng)網(wǎng)絡模型 [185]。出現(xiàn)了事件驅(qū)動分類器 [240]、用于減少噪聲的時空濾波器 [112]、低延遲線跟蹤 [54]、基于圖的物體分類 [12] 和步態(tài)識別 [262] 等創(chuàng)新技術。2010 年代后期,人們對基于事件的視覺 [61] 和用于自動駕駛的神經(jīng)形態(tài)視覺 [28] ,以及用于神經(jīng)形態(tài)視覺感知的時空特征學習 [13]進行了全面的研究。在2020 年代初,事件相機和模擬器的迅速出現(xiàn)對該領域產(chǎn)生了重大影響,并取得了第 6 節(jié)中論述的里程碑式的成就。
3. 事件相機的工作原理:內(nèi)部剖析
??基于事件的視覺在處理場景的方式上與傳統(tǒng)的基于幀的視覺有著根本的不同。受人類視網(wǎng)膜的啟發(fā),視桿細胞、雙極細胞和視網(wǎng)膜神經(jīng)節(jié)細胞可獨立檢測和傳輸視覺信號(見圖 2 (a)),傳感器中每個像素的作用都是異步捕捉場景中視覺信息的任何變化。傳感器的這種自主原理為實時處理視覺數(shù)據(jù)提供了一種獨特而有效的方法。事件相機的工作機制包括幾個關鍵步驟。每個像素都獨立、連續(xù)且異步地處理進入的光線。光子撞擊每個像素中的光電二極管,被轉(zhuǎn)換為電流,并轉(zhuǎn)化為電壓信號。產(chǎn)生的電壓與每個像素的參考電壓進行連續(xù)比較,以檢測光強度的對數(shù)變化。
??如圖 2 (b) 所示,每當電壓差超過預定閾值時,就會觸發(fā)一個事件 ?x, y, p, t?,記錄像素坐標 (x, y)、變化時間 t 和極性 p ∈ {?1, +1}表示光強度的增加或減少。這些事件在發(fā)生時輸出,通過連續(xù)的數(shù)據(jù)流而不是一系列靜態(tài)幀來反映場景隨時間的變化。數(shù)據(jù)流可視化為 3D 空間中的雙通道表示。其中,兩個維度構成了捕捉事件在圖像坐標中位置的空間部分,第三個維度表示其時間坐標,精確指示事件發(fā)生的時間。這種空間-時間表示法最大限度地減少了數(shù)據(jù)冗余,并通過其稀疏結(jié)構實現(xiàn)了對場景動態(tài)方面的高效處理。
4. 事件相機與幀相機:比較
??與傳統(tǒng)的幀式相機相比,事件相機因其獨特的工作原理而具有多項優(yōu)勢。事件相機中的每個像素都會在檢測到變化的瞬間將其記錄下來,因此可以捕捉到快速移動的物體和動態(tài)場景,從而實現(xiàn)高時間分辨率(>10,000 fps)。運動模糊是基于幀的系統(tǒng)中常見的問題 [40] ,當物體在相機的曝光時間內(nèi)快速移動時,就會發(fā)生運動模糊,導致物體在圖像中模糊不清。然而,幀式相機的每個像素都必須等待幀的整體曝光時間,而事件相機則不同,它能立即對場景中的變化做出反應。這種即時響應有助于事件相機實現(xiàn)低延遲,并顯著減少運動模糊,如圖 3 所示。在機器人和自動駕駛等需要實時監(jiān)控和快速響應的應用中,這種能力至關重要 [55, 187]。
??雖然現(xiàn)代幀式相機可以實現(xiàn)高幀率,但其代價是需要很大的帶寬和存儲空間,這可能會限制其性能。與傳統(tǒng)的幀式相機相比,事件相機只記錄場景中的變化,產(chǎn)生的數(shù)據(jù)更少。數(shù)據(jù)帶寬的減少使得事件相機成為帶寬或存儲容量有限的應用的理想選擇。對變化而非絕對光照度的關注進一步確保了只捕捉相關信息,減少了冗余。這些優(yōu)勢對嵌入式系統(tǒng)和邊緣設備系統(tǒng)最為重要,因為它們的處理能力、內(nèi)存和存儲能力通常有限,而高效、精簡的數(shù)據(jù)輸出可使它們受益匪淺[75, 120, 134, 219, 238]。
??此外,事件相機可在各種照明條件下有效工作。事件相機專注于光照強度的對數(shù)變化,從而避免了曝光過度、曝光不足和光照條件突變(突然變化)等通常會影響傳統(tǒng)相機的問題。事件傳感器的高動態(tài)范圍(>120 dB)遠遠超過了不超過 95 dB 的高質(zhì)量幀相機的動態(tài)范圍[91]。這使它們適用于具有挑戰(zhàn)性光照的環(huán)境(見圖 3),如光照變化的室外場景。其出色的低照度截止(0.08 Lux)促使人們進一步探索各種低照度應用 [159,278,288]??傊?#xff0c;這些優(yōu)勢使事件相機成為各種應用的理想選擇。
5. 事件相機模型(型號):概述
??2017 年,開創(chuàng)性研究 [6, 175] 采用了早期的事件相機,如 DVS 128 [93] 和 DAVIS 240 [92],為該領域的高級應用奠定了基礎。此后,事件相機技術取得了長足進步,iniVation [101]、Prophesee [207]、Lucid Vision Lab (TRT009S-EC、TRT003S-EC) [124]、Celepixe (CeleX5-MIP、CeleX-V) 和 Insightness (SiliconEye Rino 3 EVK) [103] 等知名制造商推出了創(chuàng)新的事件相機模型。其中,iniVation 和 Prophesee 已成為領導者,DAVIS 346 [97]、Prophesee EVK4 [203] 和 DAVIS 240 [92] 等模型在研究界越來越受到重視。本節(jié)將評述 iniVation 和 Prophesee 的各種事件相機。
??iniVation 是神經(jīng)形態(tài)視覺系統(tǒng)領域的領先公司,因其生物啟發(fā)技術而聞名,該技術可提供超低延遲、高動態(tài)范圍和低功耗。他們目前的產(chǎn)品系列包括具有 VGA 分辨率、110 dB 動態(tài)范圍和每秒 1.65 億個事件的 DVXplorer [98];具有 QVGA 分辨率、110 dB 動態(tài)范圍和每秒 1 億個事件的 DVXplorer Lite [99];具有 QVGA 分辨率、110 dB 動態(tài)范圍和每秒 1 億個事件的 DVXplorer Lite [99];具有 QVGA+ 分辨率和每秒多達 1200 萬個事件的 DAVIS 346 [97];以及具有 120 dB 動態(tài)范圍的DAVIS 346 AER,它提供事件和幀的輸出 [94]。此外,DVXplorer S Duo[100]將基于事件的傳感器與全局快門彩色圖像傳感器集成在一起,并由 Nvidia Jetson Nano SOM 驅(qū)動。此外,他們的 Stereo Kit [102] 包括兩個設備、鏡頭、三腳架和其他用于高級立體視覺探索的配件。請注意,一些早期產(chǎn)品,如 DVXplorer Mini、DVS 240、DAVIS 240、eDVS、DVS 128、DVL-5000,已被 iniVation 停產(chǎn),不再可用。此外,iniVation 還提供軟件解決方案,如用于用戶友好可視化的 DV [95]、用于基于 C++/Python 處理的 DV-Processing [96]、ROS 集成,以及用于事件相機使用的底層庫。表 1 總結(jié)了 iniVation 事件相機的主要特點和功能。
??Prophesee 提供用于探索基于事件的視覺的評估套件,包括 USB 攝像頭和嵌入式啟動套件。USB 攝像頭包括配備 IMX636 傳感器(1280x720px)[208] 的 Metavision EVK4-HD [203],可提供高動態(tài)范圍(>120 dB)和低像素延遲(<100 μs); 配備 GenX320 傳感器(320x320px)[201]的 Metavision EVK3- GENX320以超低功耗(低至 36 μW)和高動態(tài)范圍(>120 dB)而聞名;以及配備 IMX636 傳感器和 USB 3.0 接口的 Metavision EVK3-HD [202]。嵌入式入門套件包括 Metavision 入門套件–AMD Kria KV260 [205],結(jié)合了 IMX636 [236] 和 GenX320 傳感器,適用于基于 FPGA 的開發(fā);以及 Metavision 入門套件–STM32F7 [206],針對 STM32-F7 MCU 和 GenX320 傳感器進行了優(yōu)化,適用于低功耗應用。Metavision SDK [204] 提供了一套全面的工具,包括可視化應用程序、編程指南以及用于定制解決方案開發(fā)和樣本記錄的 C++ 和 Python API。表 2 總結(jié)了 Prophesee 事件相機的主要特點和功能。
6. 開拓進取:基于事件的視覺里程碑
??本節(jié)將回顧在 2017 年至 2024 年(7 月)期間,基于事件的視覺領域具有里程碑意義的重要作品,重點介紹塑造該領域的關鍵進展,如圖 4 所示。2017 年,[6] 推出了一個使用 TrueNorth 處理器的低功耗、完全基于事件的手勢識別系統(tǒng),以最小的功耗實現(xiàn)了實時準確性。[175]發(fā)布了一個綜合數(shù)據(jù)集和模擬器,結(jié)合了全局快門和基于事件的傳感器,推進了機器人和視覺應用的算法。[129]開發(fā)了 CIFAR10-DVS 數(shù)據(jù)集,將 CIFAR-10 圖像轉(zhuǎn)換為事件流,利用基于幀圖像的重復閉環(huán)平滑(RCLS)運動,為事件驅(qū)動的物體分類提供了寶貴的基準。
??2018 年,[161] 通過調(diào)整深度神經(jīng)網(wǎng)絡來處理事件數(shù)據(jù),增強了自動駕駛汽車的轉(zhuǎn)向預測能力。[235] 推出了 HATS,這是一種特征表示和機器學習架構,可提高物體分類準確性,,并發(fā)布了首個基于事件的大型真實世界數(shù)據(jù)集。[300]發(fā)布了多車輛立體事件相機數(shù)據(jù)集(MVSEC),為 3D 感知任務提供同步事件流和 IMU 數(shù)據(jù)。[212]開發(fā)了用于生成高質(zhì)量合成事件數(shù)據(jù)的開源模擬器 ESIM,[301]還推出了用于從事件流中進行光流估計的自監(jiān)督框架 EV-FlowNet。2019 年,[302] 提出了一種無監(jiān)督學習框架,利用離散體積表示法從事件流中預測光流和深度。[213]開發(fā)了一種利用遞歸神經(jīng)網(wǎng)絡從事件數(shù)據(jù)重建高質(zhì)量視頻的方法,用于物體分類和視覺慣性里程測量。[189]引入了基于事件的雙積分(EDI)模型,從單個模糊幀和事件數(shù)據(jù)生成清晰的高幀率視頻,解決了運動模糊問題。此外,[214] 利用在模擬數(shù)據(jù)上訓練的遞歸網(wǎng)絡改進了強度圖像和彩色視頻重建。
??2020 年,[196] 發(fā)布了高分辨率(1Mpx)數(shù)據(jù)集和具有時間一致性損失的遞歸結(jié)構,從而改進了物體檢測。[68]將傳統(tǒng)視頻數(shù)據(jù)集轉(zhuǎn)換為用于檢測和分割任務的合成事件數(shù)據(jù),加強了模型訓練,而[224]則開發(fā)了一種神經(jīng)網(wǎng)絡,用于從事件數(shù)據(jù)中快速高效地重建圖像。2021 年,[71] 引入了高分辨率 DSEC 立體數(shù)據(jù)集,以改善具有挑戰(zhàn)性照明條件下的自動駕駛。[85]開發(fā)了 v2e 工具箱,用于從強度幀生成逼真的合成 DVS 事件,從而提高物體檢測能力,尤其是在夜間。[251] 提出了 “時間透鏡”,這是一種幀插值方法,可提高圖像質(zhì)量并處理動態(tài)場景。[298]提出了一種具有實時魯棒性的基于事件的立體視覺里程測量系統(tǒng)。[113]引入了 N-ImageNet 數(shù)據(jù)集,以支持使用事件攝像機進行細粒度物體識別。
??2022 年,[283] 推出了 STNet,這是一種用于單目標跟蹤的脈沖變換器網(wǎng)絡,它結(jié)合了全局空間和時間線索,具有極高的準確性和速度。[241]開發(fā)了 EFNet,這是一種利用跨模態(tài)注意力的兩階段復原網(wǎng)絡,利用 REBlur 數(shù)據(jù)集設定了運動去模糊的新基準。[222]提出了 AEGNN,通過將事件處理為稀疏、不斷演化的時空圖,降低了計算復雜度和延遲。[249]提出了 Time Lens++,利用參數(shù)非線性流和多尺度融合增強幀插值。2023 年,[217] 提出了 EventNeRF,它使用單色事件流實現(xiàn)了具有高質(zhì)量 RGB 渲染的密集 3D 重建。[72]開發(fā)了循環(huán)視覺變換器(RVT),達到了最先進的物體檢測性能,同時縮短了推理時間并提高了參數(shù)效率。[89]引入了 Ev-NeRF,將神經(jīng)輻射場與事件數(shù)據(jù)相適應,以改進極端條件下的強度圖像重建。
??2024 年,[261] 引入了高分辨率數(shù)據(jù)和分層知識提煉,以提高視覺對象跟蹤的速度和準確性。文獻[2](SEVD)提供了用于穩(wěn)健交通參與者檢測的合成多視角數(shù)據(jù),而文獻[252](eTraM)則提供了 10 小時基于事件的交通監(jiān)控數(shù)據(jù),展示了事件相機在不同場景中的有效性。這些里程碑式的事件展示了基于事件的視覺技術的快速進步和不斷增長的潛力。
7. 事件攝像機的實際應用:多樣化的任務和影響
??基于事件的視覺技術通過在檢測、跟蹤、分類、識別和估算等廣泛任務中引入新功能,正在為眾多領域帶來變革。本節(jié)重點介紹圖 5 所示的關鍵任務,并探討其對不同應用領域的重大影響。在檢測和跟蹤方面,具有高時間分辨率和低延遲的事件相機推動了物體檢測、關鍵點檢測和跟蹤方面的進步。場景自適應稀疏變換器[194]、脈沖[283]和遞歸視覺變換器[72]以及自監(jiān)督學習[66]等創(chuàng)新技術提高了這些領域的準確性,使監(jiān)控和自動駕駛[26]等應用受益匪淺。在分類和識別方面,事件相機明顯改善了物體分類、手勢和步態(tài)識別以及動作識別,尤其是在動態(tài)或復雜場景中。通過平均時間表面直方圖 [235] 和時空事件云[260],事件相機捕捉詳細時間信息的能力提高了物體分類能力。
??此外,事件相機還能大大增強光流、運動/姿勢和深度估計等估計任務。事件相機的高速和低延遲特性允許精確計算運動、方位和深度,這對理解場景動態(tài)和改善三維感知至關重要。主要進展包括用于運動估計的漸進式時空對齊[86]、全局最優(yōu)對比度最大化[142]以及用于光流的切向拉長高斯信念傳播[226]。這些發(fā)展對于機器人、增強現(xiàn)實和自主導航領域的應用至關重要。在立體和光度分析方面,基于事件的視覺支持事件立體[32]、光度立體[280]等先進技術、事件相機能夠根據(jù)偏振估計物體的偏振和形狀 [176],提供高分辨率深度圖和詳細的表面屬性。對于分割任務,包括語義分割 [243]、運動/物體分割 [239] 和分割任何模型 [30],事件相機在動態(tài)和高速場景中表現(xiàn)出色,能夠精確地理解場景并隔離物體。將基于事件的數(shù)據(jù)與傳統(tǒng)的基于幀的數(shù)據(jù)[273]、激光雷達或紅外數(shù)據(jù)[73, 294]融合,可通過結(jié)合互補信息進一步增強環(huán)境制圖等應用。
??基于事件的視覺技術極大地推動了重建和圖像處理任務,為視頻重建[268, 303]、圖像重建[191, 259]、視頻幀插值[150, 281]、事件去噪[9]和運動去模糊[33, 241]做出了貢獻。在與生成相關的任務中,它有助于視頻生成和增強[145, 258]、視頻到事件的轉(zhuǎn)換[68]和超分辨率[88, 153],從而促進高質(zhì)量內(nèi)容的創(chuàng)建和分析。在里程測量和 SLAM 方面,基于事件的視覺在視覺里程測量 [311] 和同步定位與映射 [27] 中發(fā)揮了關鍵作用,提供了精確的導航和映射能力。表 3 重點介紹了在各種任務和應用領域中使用事件相機的著名作品,強調(diào)了基于事件的視覺在應對復雜挑戰(zhàn)和推動創(chuàng)新方面的變革性影響。
8. 數(shù)據(jù)促進創(chuàng)新:基于事件的視覺數(shù)據(jù)集
??基于事件的視覺數(shù)據(jù)集為訓練和評估算法提供了資源,對推動該領域的發(fā)展至關重要。使用事件相機拍攝的真實世界數(shù)據(jù)集涵蓋了各種場景,而來自模擬器的合成數(shù)據(jù)集則為實驗提供了可控數(shù)據(jù)。本節(jié)回顧了著名的數(shù)據(jù)集,總結(jié)見表 4 和表 5,詳細列表請參見 GitHub 頁面。
8.1 真實世界數(shù)據(jù)集
??EventVOT [261] 數(shù)據(jù)集使用 Prophesee EVK4 高清攝像機提供高分辨率視覺物體跟蹤數(shù)據(jù),涵蓋無人機、行人、車輛和球類運動等各種目標類別,并跨越各種運動速度和照明條件。 eTraM [252] 數(shù)據(jù)集提供了一個全面的交通監(jiān)控數(shù)據(jù)集,包含 Prophesee EVK4 高清攝像機提供的 10 小時數(shù)據(jù),其中包括跨越八個交通參與者類別的 200 萬個邊界框注釋。SeAct [295] 引入了一個語義豐富的數(shù)據(jù)集,用于事件文本動作識別,該數(shù)據(jù)集由 DAVIS 346 攝像機收集,并使用 GPT-4 生成的動作說明進行了增強。DVS-Lip [247] 是使用 DAVIS 346 攝像機記錄的讀唇數(shù)據(jù)集,包含 100 個單詞和細粒度的動作信息。DSEC [71] 提供了駕駛場景的立體數(shù)據(jù),包括激光雷達和 GPS 測量數(shù)據(jù),在各種光照條件下收集了 53 個序列。GEN1 [41] 提供了一個大規(guī)模汽車檢測數(shù)據(jù)集,在不同駕駛條件下收集了超過 39 小時的數(shù)據(jù)。
??1 MPX [196] 數(shù)據(jù)集包括來自 100 萬像素事件攝像頭的高分辨率數(shù)據(jù),為汽車場景中的物體檢測提供了 2500 萬個邊界框。N-Cars[235]通過 ATIS 攝像機采集了 80 分鐘的視頻,記錄了城市環(huán)境中的物體分類。MVSEC [300] 包含同步立體數(shù)據(jù),用于在不同環(huán)境中進行 3D 感知,而 DDD17 [15] 則提供基于事件和幀的駕駛數(shù)據(jù),記錄時間超過 12 小時。DvsGesture [6]是一個手勢識別數(shù)據(jù)集,包含在不同光照條件下使用 DVS 128 攝像機記錄的 11 種手勢和手臂手勢的 1 342 個實例。此外,Event Camera Dataset [175] 提供了使用 DAVIS 攝像機進行姿態(tài)估計、視覺里程測量和 SLAM 的數(shù)據(jù)。
8.2 合成數(shù)據(jù)集
??SEVD 數(shù)據(jù)集[2]在 CARLA 模擬器中使用多個 DVS 攝像機提供了一個全面的基于事件的合成視覺數(shù)據(jù)集。該數(shù)據(jù)集可捕捉各種照明和天氣條件下的多視角數(shù)據(jù),用于自我和固定交通感知,包括 RGB 圖像、深度圖、光流和分割注釋,以促進多樣化的交通監(jiān)控。事件-KITTI[294]數(shù)據(jù)集通過從白天生成事件流和合成夜間圖像對 KITTI 進行了擴展,有助于場景流分析和運動融合。ESfP-Synthetic [176] 數(shù)據(jù)集通過使用偏振器渲染場景并使用 ESIM 模擬事件,重點關注偏振產(chǎn)生的形狀。
??N-ImageNet [113] 數(shù)據(jù)集來自 ImageNet,使用移動事件相機設置,是細粒度物體識別的基準,解決了顯示器刷新機制帶來的偽影問題。CIFAR10-DVS [129] 數(shù)據(jù)集將 CIFAR-10 轉(zhuǎn)換為事件流,通過逼真的圖像運動為事件驅(qū)動的物體分類提供了一個中等難度數(shù)據(jù)集。最后,N-MNIST 和 N-Caltech [184] 數(shù)據(jù)集利用云臺相機平臺將 MNIST 和 Caltech101 轉(zhuǎn)換為脈沖神經(jīng)形態(tài)數(shù)據(jù)集,促進了神經(jīng)形態(tài)視覺和傳感器運動的研究。這些合成數(shù)據(jù)集共同推進了基于事件的視覺,為各種應用提供了支持。
9. 模擬現(xiàn)實:基于事件的模擬器
??基于事件的模擬器對于推進基于事件的視覺系統(tǒng)至關重要,它以可控、經(jīng)濟高效的方式為算法驗證和應用探索提供合成數(shù)據(jù)。著名的模擬器包括 DAVIS 模擬器 [175],該模擬器通過時間插值生成高時間精度的事件流、強度幀和深度圖。ESIM [212] 對其進行了擴展,提供了一個開源平臺,用于對三維場景中的攝像機運動進行建模,生成事件和全面的地面實況數(shù)據(jù)。
??v2e 模擬器[85]將傳統(tǒng)視頻幀轉(zhuǎn)換為基于事件的真實數(shù)據(jù),解決了高斯事件閾值不匹配等非理想問題。ICNS 模擬器[111]通過整合真實像素噪聲分布,提高了噪聲精度。DVS-Voltmeter [138]采用隨機方法模擬現(xiàn)實事件,將高幀率視頻中的電壓變化和噪聲效應納入其中。V2CE 工具箱[291]通過動態(tài)感知時間戳推理改進了視頻到事件的轉(zhuǎn)換。此外,CARLA DVS 攝像頭[234]實現(xiàn)了用高頻執(zhí)行模擬事件生成,以模擬微秒分辨率并根據(jù)場景動態(tài)調(diào)整傳感器頻率,而 Prophesee 視頻到事件模擬器[200]提供了一個 Python 腳本,用于將基于幀的視頻轉(zhuǎn)換為基于事件的對應視頻。這些模擬器對于開發(fā)和測試基于事件的視覺系統(tǒng)至關重要,推動了該領域的創(chuàng)新。表6 總結(jié)了最常用的基于事件的模擬器。
10. 結(jié)論
??事件相機對視覺傳感技術產(chǎn)生了重大影響,本綜述概述了事件相機的演變過程,解釋了其工作原理,并重點介紹了事件相機與傳統(tǒng)幀式相機的不同之處。它回顧了各種模型和關鍵里程碑,全面概述了當今基于事件的視覺技術。事件相機在不同領域的廣泛應用證明了其靈活性和潛力。本書強調(diào)了真實世界和合成數(shù)據(jù)集在推動該領域發(fā)展方面的重要性,以及模擬器在改進測試和開發(fā)方面的作用。隨著研究的不斷深入,鞏固和共享知識對于應對新挑戰(zhàn)和促進進一步創(chuàng)新至關重要。所提供的 GitHub 頁面將成為研究界的寶貴資源,可訪問過去的研究,并不斷更新正在進行的研究和其他相關資料。