
發布
注冊
/
登錄3D目標檢測的案例
DD3D:基于預訓練的單目3D目標檢測
來源 | CV研習社
導讀:3D目標檢測的主要應用場景就是自動駕駛,雖然現階段基于點云的3D目標檢測的方法的性能不斷提升,但相比于激光雷達高昂的造價以及在復雜天氣情況下的敏感性。研究人員將目光投向了基于視覺的方案,因此單目3D目標檢測逐漸成為了研究熱點。小編今天將為大家分享一篇名為Is Pseudo-Lidar needed for Monocular 3D Object detection的文章,文中提出了DD3D的方法,讓我們一起來學習一下吧。
Part 01 3D目標檢測應用背景
3D目標檢測目前應用的主要場景就是自動駕駛,汽車在行駛過程中,需要時刻感知周圍的環境,并及時獲取障礙物的3維信息。3維信息的獲取通常會依靠3D傳感器,如激光雷達,雙目相機等,但此類傳感器成本通常較高。低成本的方案是通過單目相機結合深度估計的方式,目前該方案也在大力發展中。3D目標檢測所使用的數據集大部分也就是自動駕駛數據集,類別主要是車輛和行人。通過3D目標檢測算法,可以給出障礙物的3D bbox,可以精準的判斷物體的位置和朝向,將該信息提供給規劃模塊,就可以對車輛的行駛路線進行合理的規劃。
展開 3D目標檢測綜述:從數據集到2D和3D方法
圖 4:使用 MV3D 的目標檢測示例
PointPillar:利用偽圖像高效實現3D目標檢測
隨著人工智能算法的不斷推進,更多的研究者將目光聚焦到了3D任務,那么在3D視覺任務中,2D卷積神經網絡的神話能否延續呢?答案是肯定的!今天小編將分享一篇3D點云檢測論文—Pointpillars,看看作者如何巧妙的只使用2D卷積,卻實現了高效的3D目標檢測。
01 3D點云檢測的現狀如何
最近幾年點云的三維目標檢測一直很火,從早期的PointNet、PointNet++,到體素網格的VoxelNet,后來大家覺得三維卷積過于耗時,又推出了Complex-yolo等模型把點云投影到二維平面,用圖像的方法做目標檢測,從而加速網絡推理。
所以在點云上實現3D目標檢測通常就是這三種做法:3D卷積、投影到前視圖或者鳥瞰圖(Bev)。
3D卷積的缺點是計算量較大,導致網絡的推理速度較慢。投影的方式受到點云的稀疏性的限制,使得卷積無法較好的提取特征,效率低下。而后來研究熱點轉向了采用鳥瞰圖(Bev)的方式,但存在的明顯的缺點就是需要手動提取特征,不利于推廣到其他的雷達上使用。
撥開那些花里胡哨的網絡,有什么更靠譜的模型能夠權衡速度和精度做三維目標檢測呢?
02橫空殺出的PointPillars
這是一篇前兩年的點云目標檢測網絡,為什么重溫它是因為小編在學習百度Apollo 6.0時發現它被集成進去作為激光雷達的檢測模型了。在這里給大家解析一下該網絡模型,看看有啥特點!
Pointpillars的創新點在于:提出了一種新的編碼方式,利用柱狀物的方式生成偽圖像。
展開 基于立體視覺的自動駕駛三維目標檢測,精度可媲美激光雷達!
來源 |
AI修煉之路
介紹
三維目標檢測是自動駕駛和虛擬現實中重要的場景理解任務。考慮到激光雷達成本昂貴,本文提出一個基于立體視覺的3D目標檢測方法。針對目標深度估計是影響三維目標檢測性能的關鍵因素,提出了一種基于「實例深度感知」、「視差自適應」和「匹配代價調整」的三維包圍盒中心深度預測模塊。此外,我們的模型是一個「端到端」的學習框架,不需要多個階段或后處理算法。我們在KITTI基準上進行了詳細的實驗,與現有的基于圖像的方法相比,取得了顯著的改進。
代碼開源:https://github.com/swords123/IDA-3D
一、引言
在本工作中,我們提出了一種基于立體視覺的三維目標檢測方法,該方法在訓練過程中不依賴于激光雷達數據作為輸入或監督,而只使用帶有相應標注的三維邊界盒的RGB圖像作為訓練數據。
首先利用立體區域提議網絡(RPN)從背景中提取目標,消除其對三維目標檢測的干擾。由于對象實例的深度估計是影響三維對象檢測性能的關鍵因素,因此我們設計了一個獨立的 「實例深度感知(IDA)」 模塊來預測對象三維邊界盒的中心深度。
不像以前基于立體的方法計算圖像之間每個像素的對應關系,我們測量每個實例的對應關系,把更多關注放在對象的全局空間信息。
為了減小對遠處目標深度估計的誤差,我們根據目標的位置「自適應地調整代價體中的視差等級的范圍」,并將視差等級的均勻量化轉換為非均勻量化。「匹配代價也被重新加權」,通過懲罰對對象實例不是唯一的深度級別,并提升具有高概率的深度級別,從而使深度估計更具鑒別性。所提出的體系結構的概述如圖1所示。
展開 
近期激光雷達點云的3D目標檢測方法
作者 | 黃浴@知乎
編輯 | 3D視覺工坊
來源 | https://zhuanlan.zhihu.com/p/370650927
知圈 | 進“激光雷達社群”請加微信13636581676,備注激光
看到的一些近期激光雷達做目標檢測的論文。
1 Offboard 3D Object Detection from Point Cloud Sequences, 3, 2021.
這是講自動標注。
3D Auto Labeling pipeline
static object auto labeling
dynamic object auto labeling
2 SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud, 3, 2021.
預測前景點的空間形狀,提取結構信息。
Spatial Information Enhancement Network (SIENet)
Network architecture of the HP(hybrid paradigm)-RPN
3 Back-tracing Representative Points for Voting-based 3D Object Detection in Point Clouds, 4, 2021.
展開 3D目標檢測/點云/遙感數據集匯總
3D對象檢測基準由7481個訓練圖像和7518個測試圖像以及相應的點云組成,包括總共80256個帶標簽的對象,單聲道和立體相機數據,包括校準、測程法等等。
在這里插入圖片描述
5. Beyond PASCAL: A Benchmark for 3D Object Detection in the Wild
PASCAL3D +數據集,它是用于3D對象檢測和姿態估計的新穎且具有挑戰性的數據集。PASCAL3D +通過3D注釋增強了PASCAL VOC 2012 [12]的12個剛性類別。此外,從ImageNet 為每個類別添加了更多圖像。與現有的3D數據集相比,PASCAL3D +圖像具有更大的可變性,并且每個類別平均有3,000多個對象實例。該數據集將為研究3D檢測和姿態估計提供豐富的測試平臺,并將有助于顯著推動這一領域的研究。在新的數據集上提供了DPM 的變化結果,用于在不同情況下進行對象檢測和視點估計。
物體檢測和姿態估計的基準(10個類別,每個類別有10個對象實例)
鏈接:
https://cvgl.stanford.edu/projects/pascal3d.html
6. Oakland 3-D Point Cloud Dataset(奧克蘭 )
這個數據庫的采集地點是在美國卡耐基梅隆大學周圍,數據采集使用Navlab11,配備側視SICK LMS激光掃描儀,用于推掃。其中包含了完整數據集、測試集、訓練集和驗證集。
展開 視頻中的目標檢測與圖像中的目標檢測具體有什么區別?
所以引入多幀之后,我們不僅可以獲得好多幀目標的外觀信息,還能獲得目標在幀間的運動信息。于是就有了以下的方法:
第一種:側重于目標的運動信息。
先基于motion segmentation 或是 background extraction(光流法和高斯分布等)實現對前景和背景的分離,也就是說我們借助運動信息挑出了很有可能是目標的區域;再考慮連續幀里目標的持續性(大小,顏色,軌跡的一致性),可以幫助刪去一部分不合格的候選的目標區域;然后對挑出的區域打分做判斷,還是利用外觀信息(單幀里提到的)。
第二種:動靜結合,即在第一種的基礎上,加入目標的外觀形變。
有些目標在視頻中會呈現幅度較大的,有一定規律的形變,比如行人和鳥。這時我們可以通過學習形變規律,總結出目標特殊的運動特征和行為范式,然后看待檢測的目標是否滿足這樣的行為變化。常見的行為特征表示有3D descriptors,Markov-based shape dynamics, pose/primtive action-based histogram等等。這種綜合目標靜態和動態信息來判斷是否是特定目標的方法,有些偏向action classification。
第三種:頻域特征的利用
在基于視頻的目標檢測中,除了可以對目標空間和時間信息進行分析外,目標的頻域信息在檢測過程中也能發揮巨大的作用。比如,在鳥種檢測中,我們可以通過分析翅膀扇動頻率實現鳥種的判別。
值得注意的是這里基于視頻的目標檢測(video-based detection)存在兩種情況,一種是你只想知道這個場景中有沒有這種目標,如果有,它對應的場景位置是哪; 另一種是這個場景有沒有這種目標,它在每一幀中的位置是哪。我們這里介紹的方法側重的是后一種更復雜的。
展開 使用合成數據集來做目標檢測:目標檢測的介紹
目標通常是相當大的和突出的照片,所以PASCAL VOC是一個“容易”的數據集。盡管如此,在很長一段時間里,它仍然是最大的手動標注的目標檢測數據集之一,并在數百篇關于目標檢測的論文中默認使用。
在規模和復雜性方面的下一步是Microsoft Common Objects in Context (Microsoft COCO)數據集。到目前為止,它已經超過200K帶有150萬個目標實例的標記圖像,它不僅提供了邊界框,而且還提供了(相當粗糙的)分割輪廓。以下是一些示例圖片:
正如你所看到的,現在的目標更加多樣化,它們可以有非常不同的大小。這實際上是一個物體檢測的大問題:很難讓一個單一的網絡同時檢測大大小小的物體,這也是為什么MS COCO被證明是一個比PASCAL VOC更難的數據集的主要原因。數據集仍然是非常相關的,在目標檢測,實例分割和其他賽道每年舉行比賽。
我想談論的最后一個通用目標檢測數據集是目前最大的可用數據集:谷歌的Open Images Dataset。到目前為止,他們到了Open Images V6,它有大約190萬張圖片和1600萬個邊界框600個目標類。這相當于每幅圖像有8.4個邊界框,所以場景相當復雜,物體的數量也更加均勻分布:
這些例子看起來有趣、多樣,有時非常復雜:
實際上,Open Images之所以成為可能,是因為目標檢測本身的進步。如上所述,手工繪制邊界框非常耗時。
展開 使用合成數據集來做目標檢測:目標檢測的介紹
這是合成數據的主要特點:一旦你預先投資創建(或者更準
確地說,尋找和調整)你感興趣的目標的3D模型,你就可以擁有盡可能多的數據。如果你做了額外的投資,你甚至可以轉向全尺寸交互式3D世界,但這又是另一個故事了。
英文原文:
https://synthesis.ai/2020/08/05/object-detection-with-synthetic-data-i-introduction-to-object-detection/
Transformer在BEV、2D/3D檢測上的應用、量化與加速!
在自動駕駛應用中,基于Transformer的架構已被廣泛用于各種子任務,包括目標檢測、車道線檢測和分割、跟蹤和定位、路徑規劃和決策。此外,最近的研究探索了Transformer在構建自動駕駛端到端深度學習模型中的應用。這些模型利用注意力機制,進一步提高其專注于相關信息的能力,并在復雜的現實世界駕駛場景中有效執行。
在本節的其余部分中,根據任務回顧了基于Transformer的模型,如表I所示。
主要將任務分為3類:
3D和一般感知任務(包括目標檢測、跟蹤和3D分割);
2D和平面任務(包括車道線檢測、分割和高清(HD)地圖生成);
其他任務(包括軌跡預測、行為預測和端到端任務)。
2.2、3D和一般的感知任務
3D和一般感知,包括目標檢測、跟蹤和3D分割任務。這是過去幾年中開發的基于Transformer的模型最受歡迎的研究領域之一。這類任務旨在分割、識別和跟蹤物體,如車輛、行人和環境中的其他元素。
在各種基于Transformer的模型中,DETR是一個早期的重要模型,它啟發了許多后續工作,盡管它最初是為2D檢測而設計的。DETR將目標檢測視為一個使用預生成框的預測問題,并消除了傳統的Anchor。它采用了基于匈牙利算法的二分匹配方法來直接預測一對一的目標集。
已經提出了諸如可變形DETR之類的變體模型,通過引入可變形注意力來提高模型的收斂速度和位置查詢模糊性。在DETR架構的基礎上,DETR3D將Transformer應用于多個相機,用于鳥瞰(BEV)空間中的3D目標檢測。它首先將點云數據(來自激光雷達)轉換為3D體素表示,然后將其輸入到修改的DETR架構中,該架構使用多尺度特征融合來捕獲全局和局部上下文信息。
展開 目標檢測:Nms-Free時代
proposal會預測一個目標稱為instance。人工標注的框為GT。訓練階段,如何讓具體哪個proposal與哪個GT匹配的策略稱為label assign,上面提到一個GT只跟一個proposal匹配稱為one-to-one(o2o),一個GT匹配多個proposal的方法稱為many-to-one(m2o)。
so,要想實現nms-free,label assign必須是one-to-one的。
什么是nms-free,有啥好處?
nms-free就是不需要nms的目標檢測,甚至可以認為沒有后處理的目標檢測。優勢1.整體框架簡潔,更少超參數。2.目標之間重疊嚴重的話就無法用了。
但目前的主流依然存在nms,足以說明nms的優勢大于劣勢。很多場景的目標檢測,目標是稀疏的,此時many-to-one + nms組合簡直不要太爽。
出現重疊怎么辦?忽略就行,出現概率很低啦。教育甲方不能這樣玩。甲方要退錢了?RotateAnchor
[2]
改一波。
Nice。甲方說不可描述場景依然漏檢,還發來了圖片。
此時,nms黨不慌不忙的掏出了《Detection in Crowded Scenes: One Proposal, Multiple Predictions》
[3]
。每個proposal預測K個instance,意思是該proposal預測的地方可能有K個instance高度重疊。上圖K>=2即可。
展開 
基于重建和不確定性傳播的單目視覺3D物體檢測
編者按:3D物體檢測(目標檢測)是智能汽車感知系統的重要任務。在眾多應用于智能汽車的傳感器中,相機這一視覺傳感器具有分辨率高、成本較低、部署方便等優點。基于相機RGB圖像的低成本3D物體檢測是當下學界和工業界的研究熱點。其中,相比多目視覺3D物體檢測,單目視覺3D物體檢測是更為基礎的問題,其難點在于估計物體的距離。本文將6DoF位姿估計領域常用的稠密關聯方法應用到了交通場景的單目3D物體檢測,并引入了不確定性傳播,可以描述物體位置的不確定性。針對深度回歸問題中偶然不確定性的估計,本文提出了魯棒KL損失,顯著提升了檢測精度,對于一般的不確定性估計網絡有借鑒價值。
摘要:
單目視覺3D物體檢測的主要難點在于物體在3D空間中的定位。近年關于6DoF位姿估計的研究表明,預測圖像與物體3D模型之間的2D-3D稠密關聯(Dense Correspondence)并使用PnP算法求解物體位姿,可以取得很高的定位精度。然而,在這些研究中,模型的訓練均依賴物體的3D模型真值,這一條件在真實的室外場景中難以滿足。為解決這一問題,本文提出了MonoRUn檢測算法,以自監督的形式學習稠密關聯和物體幾何,這一過程中僅需用到物體的3D框標注。本文使用基于不確定性的區域重建網絡回歸與2D像素相關聯的3D坐標。自監督訓練是指將3D坐標重投影以重構圖像的2D坐標。為優化重投影誤差并考慮其不確定性,本文提出了魯棒KL損失。在測試階段,網絡預測的不確定性將傳播至所有下游模塊。具體而言,模型使用不確定性PnP算法估計物體的位姿及其協方差。
展開 2021年小目標檢測最新研究綜述
作者 | 高新波、莫夢竟成、汪海濤、冷佳旭
來源 | 極市平臺、計算機視覺工坊
導讀:與以往將小目標與常規目標等同對待或只關注特定應用場景下的目標檢測綜述不同,本文對小目標檢測這一不可或缺且極具挑戰性的研究領域進行了系統且深入的分析與總結。
文章鏈接:http://sjcj.nuaa.edu.cn/sjcjycl/article/html/202103001
摘要
小目標檢測長期以來是計算機視覺中的一個難點和研究熱點。在深度學習的驅動下,小目標 檢測已取得了重大突破,并成功應用于國防安全、智能交通和工業自動化等領域。為了進一步促進小 目標檢測的發展,本文對小目標檢測算法進行了全面的總結,并對已有算法進行了歸類、分析和比較。首先,對小目標進行了定義,并概述小目標檢測所面臨的挑戰。然后,重點闡述從數據增強、多尺度學習、上下文學習、生成對抗學習以及無錨機制等方面來提升小目標檢測性能的方法,并分析了這些方法的優缺點和關聯性。之后,全面介紹小目標數據集,并在一些常用的公共數據集上對已有算法進行了 性能評估。最后本文對小目標檢測技術的未來發展方向進行了展望。
引言
目標檢測是計算機視覺領域中的一個重要研究方向,也是其他復雜視覺任務的基礎。 作為圖像理解和計算機視覺的基石,目標檢測是解決分割、場景理解、目標跟蹤、圖像描述和事件檢測等更高層次 視覺任務的基礎。小目標檢測長期以來是目標檢測中的一個難點,其旨在精準檢測出圖像中可視化特征極少的小目標(32 像素×32 像素以下的目標)。在現實場景中,由于小目標是的大量存在,因此小目 標檢測具有廣泛的應用前景,在自動駕駛、智慧醫療、缺陷檢測和航拍圖像分析等諸多領域發揮著重要 作用。
展開 基于雙目視覺的目標檢測與追蹤方案詳解
立體視覺測量提取算法示意圖
1)特征提取
特征檢測通常是使用加速段測試 (FAST) 算法中的特征檢測進行的,該檢測器在計算復雜性方面明顯優于其他替代方案,并且專為一致性高的多視圖特征提取而量身定制,這些屬性有利于將 FAST 角點檢測器用于在實時立體視覺中的應用。
使用稀疏特征檢測有一些固有的缺點,其中最值得注意的是無法從低紋理圖像區域收集信息,這可能會阻礙最終準確估計目標范圍的能力。范圍信息應主要從視覺子系統中提取,因為它提供比雷達更高的分辨率。為了減輕可能的負面影響,設置特征檢測閾值以產生半密集信息,即分布在視野中的數千個特征被識別為跟蹤候選。通過這種方法,可以獲得相當準確的范圍信息,而計算需求仍然比密集檢測方法低得多。
2)特征追蹤
算法運行所需的時間數據可通過狀態估計器獲得,該估計器隨時間跟蹤檢測到相應的特征,由此產生的運動信息對于運動物體分割具有重要價值。本文將詳細介紹實現的特征跟蹤框架。
①卡爾曼濾波器
檢測目標的半密集性要求對后續處理進行仔細考慮,可能數以千計的跟蹤特征需要非常有效的狀態估計器。為此,引入了卡爾曼濾波器。卡爾曼濾波器是貝葉斯濾波器遞歸方程的可實現公式,要素不是傳播完整的目標狀態密度,而是采用高斯分布進行近似,即
(9)
其中 N (x; m, P) 表示在具有均值 m 和協方差 P 的向量 x 上定義的高斯分布。卡爾曼濾波器遞歸方程的一個重要約束是它必須保留狀態分布的高斯結構。這意味著動態和測量模型必須是線性高斯變換。
展開 深入了解目標檢測深度學習算法的技術細節
來源 |
新機器視覺
本文將討論目標檢測的基本方法(窮盡搜索、R-CNN、Fast R-CNN和Faster R-CNN),并嘗試理解每個模型的技術細節。為了讓經驗水平各不相同的讀者都能夠理解,文章不會使用任何公式來進行講解。
檢測螺母和螺栓-克里斯·耶茨(Unsplash)
開啟目標檢測的第一步
這是只鳥還是架飛機?—— 圖像分類
目標檢測(或識別)基于圖像分類。圖像分類是通過上圖所示的像素網格,將圖像分類為一個類類別。目標識別是對圖像中的對象進行識別和分類的過程,如下圖所示:
為了使模型能夠學習圖像中對象的類別和位置,目標必須是一個五維標簽(類別,x, y,寬度,長度)。
對象檢測方法的內部工作
一種費機器(奢侈計算)的方法:窮舉搜索
最簡單的目標檢測方法是對圖像的各個子部分使用圖像分類器,讓我們來逐個考慮:
首先,選擇想要執行目標檢測的圖像。
展開