
發(fā)布
注冊
/
登錄2D/3D目標(biāo)檢測的案例
3D目標(biāo)檢測綜述:從數(shù)據(jù)集到2D和3D方法
4.1 使用 RGB 圖像的目標(biāo)檢測
RGB 圖像包含充足的語義信息,因此非常適合目標(biāo)檢測。圖 2 展示了一個使用 2D 圖像檢測目標(biāo)的示例。3D-GCK [29] 等方法僅使用單目 RGB 圖像就能實現(xiàn)實時的汽車檢測:它首先預(yù)測 2D 邊界框,然后使用神經(jīng)網(wǎng)絡(luò)來估計缺失的深度信息,將 2D 邊界框提升到 3D 空間。
圖 2:使用 2D 圖像的目標(biāo)檢測示例
近期一項研究 [30] 使用了 RGB-D 傳感器,但只使用了灰度信息來識別無紋理的目標(biāo)。它首先將傳感器獲得的 RGB 圖像轉(zhuǎn)換成灰度圖像,然后再分割背景和前景。在移除噪聲后,再使用 5 個分類模型執(zhí)行特征提取,最終預(yù)測出目標(biāo)的類別。
4.2 使用點云的目標(biāo)檢測
僅使用點云數(shù)據(jù)的分類網(wǎng)絡(luò)主要有兩種。第一種是直接使用三維點云數(shù)據(jù)。這類方法沒有信息丟失的問題,但是由于 3D 數(shù)據(jù)非常復(fù)雜,所以往往計算成本較高。第二種方法則是將點云處理成二維數(shù)據(jù),這可以降低計算量,但不可避免地會丟失原始數(shù)據(jù)的一些特征。圖 3 給出了一個使用 3D 激光雷達(dá)點云數(shù)據(jù)執(zhí)行檢測的例子。
圖 3:通過 YOLO 使用 3D 點云的目標(biāo)檢測示例
將點云處理成二維數(shù)據(jù)的方法有很多。Jansen [31] 提出從多個 2D 角度表示 3D 點云。在其數(shù)據(jù)預(yù)處理階段,通過取點云圖像的中心作為原點,并通過旋轉(zhuǎn)固定的弧度角來截取 64 張不同角度的點云圖像。
展開 Transformer在BEV、2D/3D檢測上的應(yīng)用、量化與加速!
主要將任務(wù)分為3類:
3D和一般感知任務(wù)(包括目標(biāo)檢測、跟蹤和3D分割);
2D和平面任務(wù)(包括車道線檢測、分割和高清(HD)地圖生成);
其他任務(wù)(包括軌跡預(yù)測、行為預(yù)測和端到端任務(wù))。
2.2、3D和一般的感知任務(wù)
3D和一般感知,包括目標(biāo)檢測、跟蹤和3D分割任務(wù)。這是過去幾年中開發(fā)的基于Transformer的模型最受歡迎的研究領(lǐng)域之一。這類任務(wù)旨在分割、識別和跟蹤物體,如車輛、行人和環(huán)境中的其他元素。
在各種基于Transformer的模型中,DETR是一個早期的重要模型,它啟發(fā)了許多后續(xù)工作,盡管它最初是為2D檢測而設(shè)計的。DETR將目標(biāo)檢測視為一個使用預(yù)生成框的預(yù)測問題,并消除了傳統(tǒng)的Anchor。它采用了基于匈牙利算法的二分匹配方法來直接預(yù)測一對一的目標(biāo)集。
已經(jīng)提出了諸如可變形DETR之類的變體模型,通過引入可變形注意力來提高模型的收斂速度和位置查詢模糊性。在DETR架構(gòu)的基礎(chǔ)上,DETR3D將Transformer應(yīng)用于多個相機,用于鳥瞰(BEV)空間中的3D目標(biāo)檢測。它首先將點云數(shù)據(jù)(來自激光雷達(dá))轉(zhuǎn)換為3D體素表示,然后將其輸入到修改的DETR架構(gòu)中,該架構(gòu)使用多尺度特征融合來捕獲全局和局部上下文信息。
FUTR在架構(gòu)上也與DETR相似,但使用了多傳感器(圖像+激光雷達(dá)+雷達(dá))。多模態(tài)輸入被融合成BEV特征,然后被提升以實現(xiàn)3D BBOX。在FUTR的基礎(chǔ)上,F(xiàn)UTR3D將3D目標(biāo)檢測擴展到多模式融合。它在結(jié)構(gòu)上類似于DETR3D,但增加了模態(tài)不可知特征采樣器(MAFS),能夠處理各種傳感器配置并融合不同的模態(tài),包括2D相機、3D激光雷達(dá)、3D雷達(dá)和4D成像雷達(dá)。
展開