
發(fā)布
注冊
/
登錄三維目標檢測
關注創(chuàng)建者:匿名 創(chuàng)建時間:2021-11-30

三維目標檢測的實例教程
來源 |
AI修煉之路
介紹
三維目標檢測是自動駕駛和虛擬現(xiàn)實中重要的場景理解任務。考慮到激光雷達成本昂貴,本文提出一個基于立體視覺的3D目標檢測方法。針對目標深度估計是影響三維目標檢測性能的關鍵因素,提出了一種基于「實例深度感知」、「視差自適應」和「匹配代價調(diào)整」的三維包圍盒中心深度預測模塊。此外,我們的模型是一個「端到端」的學習框架,不需要多個階段或后處理算法。我們在KITTI基準上進行了詳細的實驗,與現(xiàn)有的基于圖像的方法相比,取得了顯著的改進。
代碼開源:https://github.com/swords123/IDA-3D
一、引言
在本工作中,我們提出了一種基于立體視覺的三維目標檢測方法,該方法在訓練過程中不依賴于激光雷達數(shù)據(jù)作為輸入或監(jiān)督,而只使用帶有相應標注的三維邊界盒的RGB圖像作為訓練數(shù)據(jù)。
首先利用立體區(qū)域提議網(wǎng)絡(RPN)從背景中提取目標,消除其對三維目標檢測的干擾。由于對象實例的深度估計是影響三維對象檢測性能的關鍵因素,因此我們設計了一個獨立的 「實例深度感知(IDA)」 模塊來預測對象三維邊界盒的中心深度。
不像以前基于立體的方法計算圖像之間每個像素的對應關系,我們測量每個實例的對應關系,把更多關注放在對象的全局空間信息。
為了減小對遠處目標深度估計的誤差,我們根據(jù)目標的位置「自適應地調(diào)整代價體中的視差等級的范圍」,并將視差等級的均勻量化轉(zhuǎn)換為非均勻量化。「匹配代價也被重新加權(quán)」,通過懲罰對對象實例不是唯一的深度級別,并提升具有高概率的深度級別,從而使深度估計更具鑒別性。所提出的體系結(jié)構(gòu)的概述如圖1所示。
展開 損失函數(shù)部分
檢測網(wǎng)絡的損失函數(shù)一般都是有分類和回歸兩部分組成,分類損失用于給出目標的類別,回歸損失用于給出目標的位置,而三維目標檢測相比圖像的二維檢測多了3個參數(shù)。
首先,從概念上來講,視頻目標檢測要解決的問題是對于視頻中每一幀目標的正確識別和定位。那么和其他領域如圖像目標檢測、目標跟蹤有什么區(qū)別呢?
1.與圖像目標檢測的區(qū)別
如Naiyan Wang 大佬所說,視頻中多了時序上下文關系(Temporal Context)。充分利用好時序上下文關系,可以解決視頻中連續(xù)幀之間的大量冗余的情況,提高檢測速度;還可以提高檢測質(zhì)量,解決視頻相對于圖像存在的運動模糊、視頻失焦、部分遮擋以及奇異姿勢等問題。
(圖片來源于Flow-Guided Feature Aggregation for Video Object Detection)
2. 與目標跟蹤的區(qū)別
目標跟蹤通常可分為單目標跟蹤和多目標跟蹤兩類,解決的任務和視頻目標檢測相同的點在于都需要對每幀圖像中的目標精準定位,不同點在于目標跟蹤不考慮目標的識別問題。
3. 視頻目標檢測進展情況
與光流結(jié)合的方法
一直在follow MSRA的Jifeng Dai大佬(大佬主頁)的工作。
該工作的優(yōu)勢是利用了連續(xù)幀冗余信息減少了大量運算,檢測速度很快。
FGFA(Flow Guided Feature Aggregation)出發(fā)點主要在于,提高特征質(zhì)量,改善視頻中存在的運動模糊,視頻失焦等問題,其方法特點在于更好的融合前后幀的信息。借助于注意力模型的思想,計算當前幀與前后幀之間的每個空間位置余弦相似度作為自適應權(quán)重,使通過warp的特征圖與當前幀越近的權(quán)重越大。
該工作由于對每幀都做了特征提取,計算開支很大,檢測速度不高。
展開 你可以想象,為目標檢測而手動標注一幅圖像需要整整幾分鐘,而不是像用于分類那樣需要幾秒鐘。那么像這樣的大型數(shù)據(jù)集從何而來呢?
目標檢測數(shù)據(jù)集:真實
讓我們首先看看我們有什么樣的使用真實目標和人工標注的目標檢測數(shù)據(jù)集。首先,讓我們快速回顧最流行的數(shù)據(jù)集。
ImageNet數(shù)據(jù)集作為ImageNet大規(guī)模視覺識別挑戰(zhàn)(ILSVRC)的關鍵部分而受到歡迎,這是2010年至2017年舉辦的一系列比賽。ILSVRC系列見證了一些卷積神經(jīng)網(wǎng)絡中最有趣的進展:AlexNet、VGG、GoogLeNet、ResNet和其他著名的架構(gòu)都在這里首次亮相。
一個不太為人所知的事實是ILSVRC也一直有一個物體檢測競賽,而ILSVRC系列實際上是與另一個著名的競賽合作發(fā)展起來的,2005年至2012年舉辦的PASCAL Visual Object Classes (VOC) Challenge。這些挑戰(zhàn)也從一開始就體現(xiàn)了目標檢測,這就是第一個著名的數(shù)據(jù)集的由來,通常被稱為PASCAL VOC數(shù)據(jù)集。以下是“飛機”和“自行車”類別的一些示例圖片:
按照今天的標準,PASCAL VOC是相當小的:20個類,只有11530張圖片,27450個目標標注,這意味著PASCAL VOC每幅圖片只有不到2.5個目標。目標通常是相當大的和突出的照片,所以PASCAL VOC是一個“容易”的數(shù)據(jù)集。盡管如此,在很長一段時間里,它仍然是最大的手動標注的目標檢測數(shù)據(jù)集之一,并在數(shù)百篇關于目標檢測的論文中默認使用。
在規(guī)模和復雜性方面的下一步是Microsoft Common Objects in Context (Microsoft COCO)數(shù)據(jù)集。
展開 目標通常是相當大的和突出的照片,所以PASCAL VOC是一個“容易”的數(shù)據(jù)集。盡管如此,在很長一段時間里,它仍然是最大的手動標注的目標檢測數(shù)據(jù)集之一,并在數(shù)百篇關于目標檢測的論文中默認使用。
在規(guī)模和復雜性方面的下一步是Microsoft Common Objects in Context (Microsoft COCO)數(shù)據(jù)集。到目前為止,它已經(jīng)超過200K帶有150萬個目標實例的標記圖像,它不僅提供了邊界框,而且還提供了(相當粗糙的)分割輪廓。以下是一些示例圖片:
正如你所看到的,現(xiàn)在的目標更加多樣化,它們可以有非常不同的大小。這實際上是一個物體檢測的大問題:很難讓一個單一的網(wǎng)絡同時檢測大大小小的物體,這也是為什么MS COCO被證明是一個比PASCAL VOC更難的數(shù)據(jù)集的主要原因。數(shù)據(jù)集仍然是非常相關的,在目標檢測,實例分割和其他賽道每年舉行比賽。
我想談論的最后一個通用目標檢測數(shù)據(jù)集是目前最大的可用數(shù)據(jù)集:谷歌的Open Images Dataset。到目前為止,他們到了Open Images V6,它有大約190萬張圖片和1600萬個邊界框600個目標類。這相當于每幅圖像有8.4個邊界框,所以場景相當復雜,物體的數(shù)量也更加均勻分布:
這些例子看起來有趣、多樣,有時非常復雜:
實際上,Open Images之所以成為可能,是因為目標檢測本身的進步。如上所述,手工繪制邊界框非常耗時。
展開 
三維目標檢測的最新內(nèi)容
摘要:本文詳細介紹了一種基于人類視覺系統(tǒng)特性的紅外弱小目標檢測算法——Multiscale patch-based contrast measure (MPCM)。該算法通過增強目標與背景的對比度,有效檢測紅外圖像中的弱小目標,并在MATLAB環(huán)境中進行了復現(xiàn)與實驗驗證。
關鍵詞:紅外檢測、弱小目標、圖像處理、模式識別、自適應檢測
參考文獻:Y. Wei, X. You, and H. Li
特別是,這里將有利于三維目標檢測的圖像語義分割任務結(jié)果作為特征級表示,因為這些“目標級”特征與整個任務的最終目標級提議不同。
深度融合。深度融合方法在激光雷達分支的特征級對跨模態(tài)數(shù)據(jù)融合,但在圖像分支的數(shù)據(jù)級和特征級做融合。例如,一些方法使用特征提取器分別獲取激光雷達點云和攝像頭圖像的嵌入表示,并通過一系列下游模塊將特征融合到兩種模式中。
來源 |
半日閑心
@知乎
過去,無需nms的目標檢測,很美很純粹,但幾乎沒人想過應用到業(yè)務上。然而經(jīng)過近些年的發(fā)展,性能甚至超過了nms-base。站在2021年的尾巴,回顧nms-free的發(fā)展,期待2022有更好的發(fā)展。
本文脈絡
什么是nms,為什么需要nms
什么是nms-free,有啥好處
作者 | Aimme
出品 | 焉知
一直想通過計算機視覺的角度好好地把其在自動駕駛視覺檢測、追蹤及融合上的原理進行詳細闡述,對于下一代自動駕駛系統(tǒng)來說,會采用集中式方案進行攝像頭的原始感知信息輸入和原始雷達目標的輸入。對于純攝像頭的感知方案通常采用針孔相機模型進行相機標定,在本文中,將研究相機配準和雷達傳感器融合的整體過程。了解其對于掌握后續(xù)關于測量提取和傳感器校準的討論是必要的
來源 | CV研習社
導讀:3D目標檢測的主要應用場景就是自動駕駛,雖然現(xiàn)階段基于點云的3D目標檢測的方法的性能不斷提升,但相比于激光雷達高昂的造價以及在復雜天氣情況下的敏感性。研究人員將目光投向了基于視覺的方案,因此單目3D目標檢測逐漸成為了研究熱點。小編今天將為大家分享一篇名為Is Pseudo-Lidar needed
來源 |
AI修煉之路
介紹
三維目標檢測是自動駕駛和虛擬現(xiàn)實中重要的場景理解任務。考慮到激光雷達成本昂貴,本文提出一個基于立體視覺的3D目標檢測方法。針對目標深度估計是影響三維目標檢測性能的關鍵因素,提出了一種基于「實例深度感知」、「視差自適應」和「匹配代價調(diào)整」的三維包圍盒中心深度預測模塊。
江波,屈若錕*,李彥冬,李誠龍
中國民用航空飛行學院,廣漢 618307
摘 要:目標檢測是提高無人機(UAV)感知能力的關鍵技術之一,其研究對于無人機的應用有著重要意義。與基于手工特征的傳統(tǒng)方法相比,基于卷積神經(jīng)網(wǎng)絡的深度學習方法具有強大的特征學習和表達能力,成為目前目標檢測任務的主流算法。近年來,目標檢測技術已經(jīng)在自然場景圖像上取得了一系列突破性進展,在無人機領域的研究也逐漸成為熱點。
作者 | 維維@知乎
來源 | https://zhuanlan.zhihu.com/p/402128801
1. 點云分類(羅蒙諾索夫莫斯科國立大學)
Legend: red — ground, black — building, navy — car, green — tree, cyan — low-vegetation
01 3D點云檢測的現(xiàn)狀如何
最近幾年點云的三維目標檢測一直很火,從早期的PointNet、PointNet++,到體素網(wǎng)格的VoxelNet,后來大家覺得三維卷積過于耗時,又推出了Complex-yolo等模型把點云投影到二維平面,用圖像的方法做目標檢測,從而加速網(wǎng)絡推理。
來源 | 深度學習與計算機視覺
作者:Naiyan Wang
https://www.zhihu.com/question/52185576/answer/155679253
抽空來簡答一下這個問題,恰好也是我們比較關注的一個方向。
簡單來說,視頻檢測是比單張圖片檢測多了Temporal Context(時間上下文)的信息。不同方法想利用這些