網(wǎng)站建設(shè)需要多少錢小江網(wǎng)頁設(shè)計seo網(wǎng)絡(luò)推廣外包公司
3D檢測:DETR3D
- 前言
- Method
- Image Feature Extracting
- 2D-to-3D Feature Transformation
- Loss
- 實驗結(jié)果
前言
在這篇paper,作者提出了一個更優(yōu)雅的2D與3D之間轉(zhuǎn)換的算法在自動駕駛領(lǐng)域,它不依賴于深度信息的預測,這個框架被稱之為DETR3D。這個方法主要是為了蔥多視角獲取 scene-specific information,作者把首先生成3D的query,生成3d reference point,通過相機參數(shù)矩陣投影到2D拿到相應(yīng)的2D feature。
主要貢獻:
-
我們提出了一個基于RGB圖像進行3D目標檢測的改進模型。與現(xiàn)有的那些在最后階段融合不同相機圖像的目標預測的工作不同,我們的方法在每一層計算中都融合了所有相機的信息。據(jù)我們所知,這是將多相機檢測轉(zhuǎn)換為3D set-to-set預測問題的首次嘗試。
-
我們提出了一種通過逆幾何投影將提取的2D特征和3D包絡(luò)框預測連接在一起的模塊。它不受二階段網(wǎng)絡(luò)不準確的深度預測的影響,并且通過將3D信息反投影到所有可用幀上來無縫使用多個相機的信息。
和Object DGCNN類似,我們的方法不需要后處理,比如融合每個圖像或全局NMS,并且性能和現(xiàn)有基于NMS方法相當。在相機視野的重疊區(qū)域, 我們方法明顯優(yōu)于其它方法。 -
我們發(fā)布了代碼來促進復現(xiàn)性和未來的研究。
Method
Image Feature Extracting
輸入圖像經(jīng)過ResNet + FPN后生成了多尺度的特征圖。
2D-to-3D Feature Transformation
目前已經(jīng)存在的自底向上的方法會為每張image預測dense的 bounding box,并且需要一個post- processing 去處理,這種方法存在兩個缺點:
- 依賴于depth 預測。
- NMS-based 方法不支持并行化。
作者為了解決上述問題,提出了自頂向下的方法,它的Decoder部分與Detr類似需要迭代六次,也可以理解為一共有6層,每一層的step如下:
-
隨機生成 N個 object queries 并與 bounding box centre 關(guān)聯(lián)。
-
把這些 centre point 通過 全連接層 生成BEV空間的 reference point,然后通過相機參數(shù)矩陣投影到2D 坐標。
-
獲取從多尺度PV feature,這些2d坐標可能存在一些小數(shù)或者超過圖像范圍的值,前者利用bilinear interpolation ,后者通過二進制參數(shù)判斷,越界置0,然后對同一個query映射到不同相機不同level的feature求和取均值。
-
第一步的另一個分支,把 N個object queries 通過 Self- Multi-head-Attention內(nèi)部交互,避免不同的queries 預測同一個bounding box。
-
把 3 ,4 步結(jié)果相加獲得下一層 object queries的input。
-
經(jīng)過attention更新后的object query通過兩個MLP網(wǎng)絡(luò)來分別預測對應(yīng)物體的class和bounding box的參數(shù)。
Loss
損失函數(shù)的設(shè)計也主要受DETR的啟發(fā),我們在所有object queries預測出來的檢測框和所有的ground-truth bounding box之間利用匈牙利算法進行二分圖匹配,找到使得loss最小的最優(yōu)匹配,并計算classification focal loss和L1 regression loss。