
發布
注冊
/
登錄目標檢測的案例
使用合成數據集來做目標檢測:目標檢測的介紹
目標通常是相當大的和突出的照片,所以PASCAL VOC是一個“容易”的數據集。盡管如此,在很長一段時間里,它仍然是最大的手動標注的目標檢測數據集之一,并在數百篇關于目標檢測的論文中默認使用。
在規模和復雜性方面的下一步是Microsoft Common Objects in Context (Microsoft COCO)數據集。到目前為止,它已經超過200K帶有150萬個目標實例的標記圖像,它不僅提供了邊界框,而且還提供了(相當粗糙的)分割輪廓。以下是一些示例圖片:
正如你所看到的,現在的目標更加多樣化,它們可以有非常不同的大小。這實際上是一個物體檢測的大問題:很難讓一個單一的網絡同時檢測大大小小的物體,這也是為什么MS COCO被證明是一個比PASCAL VOC更難的數據集的主要原因。數據集仍然是非常相關的,在目標檢測,實例分割和其他賽道每年舉行比賽。
我想談論的最后一個通用目標檢測數據集是目前最大的可用數據集:谷歌的Open Images Dataset。到目前為止,他們到了Open Images V6,它有大約190萬張圖片和1600萬個邊界框600個目標類。這相當于每幅圖像有8.4個邊界框,所以場景相當復雜,物體的數量也更加均勻分布:
這些例子看起來有趣、多樣,有時非常復雜:
實際上,Open Images之所以成為可能,是因為目標檢測本身的進步。如上所述,手工繪制邊界框非常耗時。
展開 使用合成數據集來做目標檢測:目標檢測的介紹
你可以想象,為目標檢測而手動標注一幅圖像需要整整幾分鐘,而不是像用于分類那樣需要幾秒鐘。那么像這樣的大型數據集從何而來呢?
目標檢測數據集:真實
讓我們首先看看我們有什么樣的使用真實目標和人工標注的目標檢測數據集。首先,讓我們快速回顧最流行的數據集。
ImageNet數據集作為ImageNet大規模視覺識別挑戰(ILSVRC)的關鍵部分而受到歡迎,這是2010年至2017年舉辦的一系列比賽。ILSVRC系列見證了一些卷積神經網絡中最有趣的進展:AlexNet、VGG、GoogLeNet、ResNet和其他著名的架構都在這里首次亮相。
一個不太為人所知的事實是ILSVRC也一直有一個物體檢測競賽,而ILSVRC系列實際上是與另一個著名的競賽合作發展起來的,2005年至2012年舉辦的PASCAL Visual Object Classes (VOC) Challenge。這些挑戰也從一開始就體現了目標檢測,這就是第一個著名的數據集的由來,通常被稱為PASCAL VOC數據集。以下是“飛機”和“自行車”類別的一些示例圖片:
按照今天的標準,PASCAL VOC是相當小的:20個類,只有11530張圖片,27450個目標標注,這意味著PASCAL VOC每幅圖片只有不到2.5個目標。目標通常是相當大的和突出的照片,所以PASCAL VOC是一個“容易”的數據集。盡管如此,在很長一段時間里,它仍然是最大的手動標注的目標檢測數據集之一,并在數百篇關于目標檢測的論文中默認使用。
在規模和復雜性方面的下一步是Microsoft Common Objects in Context (Microsoft COCO)數據集。
展開 視頻中的目標檢測與圖像中的目標檢測具體有什么區別?
首先,從概念上來講,視頻目標檢測要解決的問題是對于視頻中每一幀目標的正確識別和定位。那么和其他領域如圖像目標檢測、目標跟蹤有什么區別呢?
1.與圖像目標檢測的區別
如Naiyan Wang 大佬所說,視頻中多了時序上下文關系(Temporal Context)。充分利用好時序上下文關系,可以解決視頻中連續幀之間的大量冗余的情況,提高檢測速度;還可以提高檢測質量,解決視頻相對于圖像存在的運動模糊、視頻失焦、部分遮擋以及奇異姿勢等問題。
(圖片來源于Flow-Guided Feature Aggregation for Video Object Detection)
2. 與目標跟蹤的區別
目標跟蹤通常可分為單目標跟蹤和多目標跟蹤兩類,解決的任務和視頻目標檢測相同的點在于都需要對每幀圖像中的目標精準定位,不同點在于目標跟蹤不考慮目標的識別問題。
3. 視頻目標檢測進展情況
與光流結合的方法
一直在follow MSRA的Jifeng Dai大佬(大佬主頁)的工作。
該工作的優勢是利用了連續幀冗余信息減少了大量運算,檢測速度很快。
FGFA(Flow Guided Feature Aggregation)出發點主要在于,提高特征質量,改善視頻中存在的運動模糊,視頻失焦等問題,其方法特點在于更好的融合前后幀的信息。借助于注意力模型的思想,計算當前幀與前后幀之間的每個空間位置余弦相似度作為自適應權重,使通過warp的特征圖與當前幀越近的權重越大。
該工作由于對每幀都做了特征提取,計算開支很大,檢測速度不高。
展開 2021年小目標檢測最新研究綜述
作者 | 高新波、莫夢竟成、汪海濤、冷佳旭
來源 | 極市平臺、計算機視覺工坊
導讀:與以往將小目標與常規目標等同對待或只關注特定應用場景下的目標檢測綜述不同,本文對小目標檢測這一不可或缺且極具挑戰性的研究領域進行了系統且深入的分析與總結。
文章鏈接:http://sjcj.nuaa.edu.cn/sjcjycl/article/html/202103001
摘要
小目標檢測長期以來是計算機視覺中的一個難點和研究熱點。在深度學習的驅動下,小目標 檢測已取得了重大突破,并成功應用于國防安全、智能交通和工業自動化等領域。為了進一步促進小 目標檢測的發展,本文對小目標檢測算法進行了全面的總結,并對已有算法進行了歸類、分析和比較。首先,對小目標進行了定義,并概述小目標檢測所面臨的挑戰。然后,重點闡述從數據增強、多尺度學習、上下文學習、生成對抗學習以及無錨機制等方面來提升小目標檢測性能的方法,并分析了這些方法的優缺點和關聯性。之后,全面介紹小目標數據集,并在一些常用的公共數據集上對已有算法進行了 性能評估。最后本文對小目標檢測技術的未來發展方向進行了展望。
引言
目標檢測是計算機視覺領域中的一個重要研究方向,也是其他復雜視覺任務的基礎。 作為圖像理解和計算機視覺的基石,目標檢測是解決分割、場景理解、目標跟蹤、圖像描述和事件檢測等更高層次 視覺任務的基礎。小目標檢測長期以來是目標檢測中的一個難點,其旨在精準檢測出圖像中可視化特征極少的小目標(32 像素×32 像素以下的目標)。在現實場景中,由于小目標是的大量存在,因此小目 標檢測具有廣泛的應用前景,在自動駕駛、智慧醫療、缺陷檢測和航拍圖像分析等諸多領域發揮著重要 作用。
展開 
3D目標檢測綜述:從數據集到2D和3D方法
來源 |
機器之心
導讀:
本文概述性地總結了一些當前最佳的目標檢測相關的研究。
主要內容包括目標檢測任務常用的數據格式,目標檢測與2D目標檢測相關的技術以及概括性的討論3D目
標檢測這一主題。
目標檢測一直是計算機視覺領域中一大難題。
近日,來自阿爾伯塔大學的研究者對目標檢測領域的近期發展進行了綜述,涵蓋常見數據格式和數據集、2D 目標檢測方法和 3D 目標檢測方法。
論文地址:
https://arxiv.org/abs/2010.15614
目標檢測任務的目標是找到圖像中的所有感興趣區域,并確定這些區域的位置和類別。由于目標具有許多不同的外觀、形狀和姿態,再加上光線、遮擋和成像過程中其它因素的干擾,目標檢測一直以來都是計算機視覺領域中一大挑戰性難題。
本文將概述性地總結一些當前最佳的目標檢測相關研究。第 2 節將簡要介紹目標檢測任務常用的數據格式,同時還會給出一些著名的數據集。
然后會概述一些預處理方法。第 3 節會介紹與 2D 目標檢測相關的技術,包括傳統方法和深度學習方法。最后第 4 節會概括性地討論 3D 目標檢測這一主題。
展開 基于深度學習的無人機航拍目標檢測研究綜述
江波,屈若錕*,李彥冬,李誠龍
中國民用航空飛行學院,廣漢 618307
摘 要:目標檢測是提高無人機(UAV)感知能力的關鍵技術之一,其研究對于無人機的應用有著重要意義。與基于手工特征的傳統方法相比,基于卷積神經網絡的深度學習方法具有強大的特征學習和表達能力,成為目前目標檢測任務的主流算法。近年來,目標檢測技術已經在自然場景圖像上取得了一系列突破性進展,在無人機領域的研究也逐漸成為熱點。首先系統闡述了基于深度學習的目標檢測算法的研究進展,并總結了相關算法的優缺點。對常見的航空影像數據集進行了梳理并介紹了遷移學習的方法;從無人機影像背景復雜、目標較小、視場大、目標具有旋轉性的特點出發,對無人機目標檢測在近期的研究進行了歸納和分析。最后討論了存在的問題和未來可能的發展方向。
關鍵詞:目標檢測;無人機影像;卷積神經網絡;計算機視覺;深度學習;遷移學習
無人機具有成本低、靈活性高、操作簡單、體積小等優點,可以彌補衛星和載人航空遙感技術的不足,催生了更加多元化的應用場景。無人機影像的智能化分析處理不僅可以快速高效地提取地物信息,還能拓展無人機的場景理解能力。目標檢測技術能夠自動化識別和定位圖像中目標,這種技術可以增強弱人機交互下無人機的感知功能[1],為其自主探測和飛行提供基礎的技術支持。
無人機航拍由于成像視角不同于自然場景圖像,一般有以下特點:
1) 背景復雜。無人機的拍攝視角和更大的幅寬可以獲取到更豐富的地物信息,但這種無法突顯目標的拍攝方式也給檢測任務帶來了噪聲干擾。同時,由于無人機的飛行高度相對較低,空域環境較為復雜,因此遮擋現象在無人機航拍影像中較為常見,導致無人機對目標的觀測往往具有不連續性和不完整性。
2) 小目標。無人機圖像中的目標尺度變化大,且小目標的比例遠高于自然場景圖像。
3) 大視場。
展開 12篇論文看盡深度學習目標檢測史
2019: NAS-FPN
NAS-FPN: 學習可擴展特征金字塔結構的目標檢測
PANet的成功引起了一組 NAS 研究人員的注意。他們使用了來自圖像分類網絡 NASNet 的類似的強化學習方法,重點搜索融合單元的最佳組合。這里,融合單元是指 FPN 的基礎構建塊,它將任意兩個輸入特征層融合到一個輸出特征層中。最終的結果證明了 FPN 可以進一步優化的想法,但是復雜的計算機搜索結構使人類難以理解。
總結
目標檢測仍然是一個活躍的研究領域。雖然這個領域總體是由 R-CNN 這樣的兩級檢測器和 YOLO 這樣的單級檢測器構成的,但是我們最好的檢測器仍然遠遠沒有在基準度量上飽和,而且在復雜的背景中漏掉了許多目標。與此同時,像 CenterNet 這樣的anchor-free檢測器向我們展示了一個光明的未來,在那里目標檢測網絡可以變得像圖像分類網絡一樣簡單。目標檢測的其他發展方向,如 few-shot 識和 NAS,仍處于初級階段,我們將在未來幾年內看到它的發展。
展開 DD3D:基于預訓練的單目3D目標檢測
來源 | CV研習社
導讀:3D目標檢測的主要應用場景就是自動駕駛,雖然現階段基于點云的3D目標檢測的方法的性能不斷提升,但相比于激光雷達高昂的造價以及在復雜天氣情況下的敏感性。研究人員將目光投向了基于視覺的方案,因此單目3D目標檢測逐漸成為了研究熱點。小編今天將為大家分享一篇名為Is Pseudo-Lidar needed for Monocular 3D Object detection的文章,文中提出了DD3D的方法,讓我們一起來學習一下吧。
Part 01 3D目標檢測應用背景
3D目標檢測目前應用的主要場景就是自動駕駛,汽車在行駛過程中,需要時刻感知周圍的環境,并及時獲取障礙物的3維信息。3維信息的獲取通常會依靠3D傳感器,如激光雷達,雙目相機等,但此類傳感器成本通常較高。低成本的方案是通過單目相機結合深度估計的方式,目前該方案也在大力發展中。3D目標檢測所使用的數據集大部分也就是自動駕駛數據集,類別主要是車輛和行人。通過3D目標檢測算法,可以給出障礙物的3D bbox,可以精準的判斷物體的位置和朝向,將該信息提供給規劃模塊,就可以對車輛的行駛路線進行合理的規劃。
展開 基于深度學習的目標檢測算法面試必備(RCNN~YOLOv5)
來源 |
深度學習與計算機視覺
鏈接 |
https://zhuanlan.zhihu.com/p/354060133
知圈 |
進“汽車智能互動社群”請加微信13636581676,備注交互
整體框架
目標檢測算法主要包括:【兩階段】目標檢測算法、【多階段】目標檢測算法、【單階段】目標檢測算法
什么是兩階段目標檢測算法,與單階段目標檢測有什么區別?
兩階段目標檢測算法因需要進行兩階段的處理:1)候選區域的獲取,2)候選區域分類和回歸,也稱為基于區域(Region-based)的方。與單階段目標檢測算法的區別:通過聯合解碼同時獲取候選區域、類別
什么是多階段目標檢測算法?
展開 基于MATLAB紅外弱小目標檢測MPCM算法復現
摘要:本文詳細介紹了一種基于人類視覺系統特性的紅外弱小目標檢測算法——Multiscale patch-based contrast measure (MPCM)。該算法通過增強目標與背景的對比度,有效檢測紅外圖像中的弱小目標,并在MATLAB環境中進行了復現與實驗驗證。
關鍵詞:紅外檢測、弱小目標、圖像處理、模式識別、自適應檢測
參考文獻:Y. Wei, X. You, and H. Li, “Multiscale patch-based contrast measure for small infrared target detection,” Pattern Recognit., vol. 58, pp. 216–226, 2016. 本文是對上述文獻中的Multiscale patch-based contrast method, MPCM算法的詳細解析與MATLAB復現,并給出實驗結果。
引言
傳統的紅外目標檢測算法存在一些局限性,如不能有效抑制背景、只能檢測亮目標、平滑目標或耗時等問題。針對這些缺陷,本文提出了MPCM算法,旨在提高檢測率和實時性,同時降低虛警率。
MPCM算法的創新點
1、提出了一種新的衡量目標局部對比度的方法,能夠同時增強亮目標和暗目標,并抑制背景。
2、算法設計易于并行化,具有較好的實時性,適用于高檢測率和低虛警率的應用場景。
相關工作
3.1 Local Contrast Method (LCM)
LCM是最經典的基于人類視覺對比度機制的算法,通過計算目標區域與局部背景區域的對比度,增強目標并抑制背景。然而,LCM存在易受高亮點噪聲干擾和算法實時性差的問題。
展開 PointPillar:利用偽圖像高效實現3D目標檢測
損失函數部分
檢測網絡的損失函數一般都是有分類和回歸兩部分組成,分類損失用于給出目標的類別,回歸損失用于給出目標的位置,而三維目標檢測相比圖像的二維檢測多了3個參數。

基于立體視覺的自動駕駛三維目標檢測,精度可媲美激光雷達!
來源 |
AI修煉之路
介紹
三維目標檢測是自動駕駛和虛擬現實中重要的場景理解任務??紤]到激光雷達成本昂貴,本文提出一個基于立體視覺的3D目標檢測方法。針對目標深度估計是影響三維目標檢測性能的關鍵因素,提出了一種基于「實例深度感知」、「視差自適應」和「匹配代價調整」的三維包圍盒中心深度預測模塊。此外,我們的模型是一個「端到端」的學習框架,不需要多個階段或后處理算法。我們在KITTI基準上進行了詳細的實驗,與現有的基于圖像的方法相比,取得了顯著的改進。
代碼開源:https://github.com/swords123/IDA-3D
一、引言
在本工作中,我們提出了一種基于立體視覺的三維目標檢測方法,該方法在訓練過程中不依賴于激光雷達數據作為輸入或監督,而只使用帶有相應標注的三維邊界盒的RGB圖像作為訓練數據。
首先利用立體區域提議網絡(RPN)從背景中提取目標,消除其對三維目標檢測的干擾。由于對象實例的深度估計是影響三維對象檢測性能的關鍵因素,因此我們設計了一個獨立的 「實例深度感知(IDA)」 模塊來預測對象三維邊界盒的中心深度。
不像以前基于立體的方法計算圖像之間每個像素的對應關系,我們測量每個實例的對應關系,把更多關注放在對象的全局空間信息。
為了減小對遠處目標深度估計的誤差,我們根據目標的位置「自適應地調整代價體中的視差等級的范圍」,并將視差等級的均勻量化轉換為非均勻量化?!钙ヅ浯鷥r也被重新加權」,通過懲罰對對象實例不是唯一的深度級別,并提升具有高概率的深度級別,從而使深度估計更具鑒別性。所提出的體系結構的概述如圖1所示。
展開 目標檢測:Nms-Free時代
proposal會預測一個目標稱為instance。人工標注的框為GT。訓練階段,如何讓具體哪個proposal與哪個GT匹配的策略稱為label assign,上面提到一個GT只跟一個proposal匹配稱為one-to-one(o2o),一個GT匹配多個proposal的方法稱為many-to-one(m2o)。
so,要想實現nms-free,label assign必須是one-to-one的。
什么是nms-free,有啥好處?
nms-free就是不需要nms的目標檢測,甚至可以認為沒有后處理的目標檢測。優勢1.整體框架簡潔,更少超參數。2.目標之間重疊嚴重的話就無法用了。
但目前的主流依然存在nms,足以說明nms的優勢大于劣勢。很多場景的目標檢測,目標是稀疏的,此時many-to-one + nms組合簡直不要太爽。
出現重疊怎么辦?忽略就行,出現概率很低啦。教育甲方不能這樣玩。甲方要退錢了?RotateAnchor
[2]
改一波。
Nice。甲方說不可描述場景依然漏檢,還發來了圖片。
此時,nms黨不慌不忙的掏出了《Detection in Crowded Scenes: One Proposal, Multiple Predictions》
[3]
。每個proposal預測K個instance,意思是該proposal預測的地方可能有K個instance高度重疊。上圖K>=2即可。
展開 深入了解目標檢測深度學習算法的技術細節
來源 |
新機器視覺
本文將討論目標檢測的基本方法(窮盡搜索、R-CNN、Fast R-CNN和Faster R-CNN),并嘗試理解每個模型的技術細節。為了讓經驗水平各不相同的讀者都能夠理解,文章不會使用任何公式來進行講解。
檢測螺母和螺栓-克里斯·耶茨(Unsplash)
開啟目標檢測的第一步
這是只鳥還是架飛機?—— 圖像分類
目標檢測(或識別)基于圖像分類。圖像分類是通過上圖所示的像素網格,將圖像分類為一個類類別。目標識別是對圖像中的對象進行識別和分類的過程,如下圖所示:
為了使模型能夠學習圖像中對象的類別和位置,目標必須是一個五維標簽(類別,x, y,寬度,長度)。
對象檢測方法的內部工作
一種費機器(奢侈計算)的方法:窮舉搜索
最簡單的目標檢測方法是對圖像的各個子部分使用圖像分類器,讓我們來逐個考慮:
首先,選擇想要執行目標檢測的圖像。
展開 幾個攝像頭和雷達融合的目標檢測方法
RODNet,但訓練是通過一個攝像頭-雷達監督算法,無需標注,可實現射頻(RF)圖像的實時目標檢測。