
發(fā)布
注冊
/
登錄小目標檢測的案例
2021年小目標檢測最新研究綜述
作者 | 高新波、莫夢竟成、汪海濤、冷佳旭
來源 | 極市平臺、計算機視覺工坊
導(dǎo)讀:與以往將小目標與常規(guī)目標等同對待或只關(guān)注特定應(yīng)用場景下的目標檢測綜述不同,本文對小目標檢測這一不可或缺且極具挑戰(zhàn)性的研究領(lǐng)域進行了系統(tǒng)且深入的分析與總結(jié)。
文章鏈接:http://sjcj.nuaa.edu.cn/sjcjycl/article/html/202103001
摘要
小目標檢測長期以來是計算機視覺中的一個難點和研究熱點。在深度學(xué)習的驅(qū)動下,小目標 檢測已取得了重大突破,并成功應(yīng)用于國防安全、智能交通和工業(yè)自動化等領(lǐng)域。為了進一步促進小 目標檢測的發(fā)展,本文對小目標檢測算法進行了全面的總結(jié),并對已有算法進行了歸類、分析和比較。首先,對小目標進行了定義,并概述小目標檢測所面臨的挑戰(zhàn)。然后,重點闡述從數(shù)據(jù)增強、多尺度學(xué)習、上下文學(xué)習、生成對抗學(xué)習以及無錨機制等方面來提升小目標檢測性能的方法,并分析了這些方法的優(yōu)缺點和關(guān)聯(lián)性。之后,全面介紹小目標數(shù)據(jù)集,并在一些常用的公共數(shù)據(jù)集上對已有算法進行了 性能評估。最后本文對小目標檢測技術(shù)的未來發(fā)展方向進行了展望。
引言
目標檢測是計算機視覺領(lǐng)域中的一個重要研究方向,也是其他復(fù)雜視覺任務(wù)的基礎(chǔ)。 作為圖像理解和計算機視覺的基石,目標檢測是解決分割、場景理解、目標跟蹤、圖像描述和事件檢測等更高層次 視覺任務(wù)的基礎(chǔ)。小目標檢測長期以來是目標檢測中的一個難點,其旨在精準檢測出圖像中可視化特征極少的小目標(32 像素×32 像素以下的目標)。在現(xiàn)實場景中,由于小目標是的大量存在,因此小目 標檢測具有廣泛的應(yīng)用前景,在自動駕駛、智慧醫(yī)療、缺陷檢測和航拍圖像分析等諸多領(lǐng)域發(fā)揮著重要 作用。
展開 基于深度學(xué)習的無人機航拍目標檢測研究綜述
圖4 sRPN和MDA-NET算法結(jié)構(gòu)
Fig.4 Structure of sRPN and MDA-NET algorithms
在解決無人機影像中的復(fù)雜背景問題時,上下文信息可以幫助模型對目標與背景的理解,從而從提取更好的目標特征,但上下文信息需要進行篩選,通常只有部分信息是對模型有用的;空洞卷積在增加感受野的同時保留細節(jié)信息,為了適應(yīng)無人機影像中的目標分布和遮擋情況,多尺度空洞卷積中提取的特征大小和數(shù)量顯得尤為重要;注意力機制可以有效過濾背景中的無用信息,不過在無人機目標檢測這種特定的場景下需要合理地分配權(quán)重,避免小目標的漏檢或誤報。
復(fù)雜背景中目標的精細檢測算法在交通檢測和城市規(guī)劃中有著廣泛的應(yīng)用前景[43],隨著交通量的日益增長和城市規(guī)模的不斷擴大,航拍影像中非目標噪聲也越來越多,同時由于航拍中難以避免的遮擋問題也會導(dǎo)致目標信息不完整,因此,如何在復(fù)雜的環(huán)境中提取目標特征的研究具有重要的應(yīng)用意義。
2.3.2 無人機影像中的小目標問題
無人機影像中目標的尺度范圍大,建筑與行人、山川與動物經(jīng)常出現(xiàn)在同一圖片中。小目標在圖片中占比極小,提供的分辨率有限,從而造成檢測困難。
較早的一些研究中,Sevo和Avramovic[51]證明了卷積神經(jīng)網(wǎng)絡(luò)可以有效地融入到航空圖像的目標檢測算法中。Sommer等[52]將Fast R-CNN和Faster R-CNN 用于航空圖像中的車輛檢測,通過調(diào)整錨定框的大小和特征圖的分辨率,來適應(yīng)小目標檢測。雖然卷積神經(jīng)網(wǎng)絡(luò)具有一定的泛化能力,但網(wǎng)絡(luò)中的卷積和池化操作使特征圖細節(jié)信息丟失過多,這對小目標檢測來說是十分不利的。
展開 視頻中的目標檢測與圖像中的目標檢測具體有什么區(qū)別?
因為是前兩年在做基于視頻的目標檢測和跟蹤,所用的方法相對于現(xiàn)行的Long Short-Term Memory (LSTM)可能相對老套,但是我覺得題主該是新手,了解一下過去的經(jīng)典還是有意義的,可以作為前期補充。
研究問題
無論是基于視頻還是圖像,我們研究的核心是目標檢測問題,即在圖像中(或視頻的圖像中)識別出目標,并且實現(xiàn)定位。
基于單幀圖像的目標檢測
在靜態(tài)圖像上實現(xiàn)目標檢測,本身是一個滑窗+分類的過程,前者是幫助鎖定目標可能存在的局部區(qū)域,后者則是通過分類器打分,判斷鎖定的區(qū)域是否有(是)我們要尋找的目標。研究的核心多集中于后者,選什么樣的特征表示來描述你鎖定的區(qū)域(HOG, C-SIFT, Haar, LBP, CNN, Deformable Part Models (DPM) and etc.),將這些特征輸入到什么樣的分類器(SVM,Adaboost and etc.)進行打分,判斷是否是我們要找的目標。
盡管我們要檢測的目標可能外形變化多端(由于品種,形變,光照,角度等等),通過大量數(shù)據(jù)訓(xùn)練CNN得到的特征表示還是能很好地幫助實現(xiàn)識別和判定的過程。但是有些極端情況下,如目標特別小,或者目標和背景太相似,或者在這一幀圖像中因為模糊或者其他原因,目標確實扭曲的不成樣子,CNN也會覺得力不從心,認不出來它原來是我們要找的目標呢。另外一種情況是拍攝場景混入了其他和目標外觀很像的東西 (比如飛機和展翅大鳥),這時候也可能存在誤判。
也就是在這幾種情況下,我們可能無法憑借單幀的外觀信息,完成對目標魯棒的檢測。
基于視頻的目標檢測
單幀不夠,多幀來湊。在視頻中目標往往具有運動特性,這些特性來源有目標本身的形變,目標本身的運動,以及相機的運動。
展開 使用合成數(shù)據(jù)集來做目標檢測:目標檢測的介紹
手動標注現(xiàn)在是一個更困難的問題:你必須為每個目標提供一個邊界框,而不僅僅是點擊正確的類標簽,而且在一張照片上可能有許多目標。
下面是一個用于通用目標檢測問題的標注的例子。
你可以想象,為目標檢測而手動標注一幅圖像需要整整幾分鐘,而不是像用于分類那樣需要幾秒鐘。那么像這樣的大型數(shù)據(jù)集從何而來呢?
目標檢測數(shù)據(jù)集:真實
讓我們首先看看我們有什么樣的使用真實目標和人工標注的目標檢測數(shù)據(jù)集。首先,讓我們快速回顧最流行的數(shù)據(jù)集。
ImageNet數(shù)據(jù)集作為ImageNet大規(guī)模視覺識別挑戰(zhàn)(ILSVRC)的關(guān)鍵部分而受到歡迎,這是2010年至2017年舉辦的一系列比賽。ILSVRC系列見證了一些卷積神經(jīng)網(wǎng)絡(luò)中最有趣的進展:AlexNet、VGG、GoogLeNet、ResNet和其他著名的架構(gòu)都在這里首次亮相。
一個不太為人所知的事實是ILSVRC也一直有一個物體檢測競賽,而ILSVRC系列實際上是與另一個著名的競賽合作發(fā)展起來的,2005年至2012年舉辦的PASCAL Visual Object Classes (VOC) Challenge。這些挑戰(zhàn)也從一開始就體現(xiàn)了目標檢測,這就是第一個著名的數(shù)據(jù)集的由來,通常被稱為PASCAL VOC數(shù)據(jù)集。以下是“飛機”和“自行車”類別的一些示例圖片:
按照今天的標準,PASCAL VOC是相當小的:20個類,只有11530張圖片,27450個目標標注,這意味著PASCAL VOC每幅圖片只有不到2.5個目標。
展開 
使用合成數(shù)據(jù)集來做目標檢測:目標檢測的介紹
你可以想象,為目標檢測而手動標注一幅圖像需要整整幾分鐘,而不是像用于分類那樣需要幾秒鐘。那么像這樣的大型數(shù)據(jù)集從何而來呢?
目標檢測數(shù)據(jù)集:真實
讓我們首先看看我們有什么樣的使用真實目標和人工標注的目標檢測數(shù)據(jù)集。首先,讓我們快速回顧最流行的數(shù)據(jù)集。
ImageNet數(shù)據(jù)集作為ImageNet大規(guī)模視覺識別挑戰(zhàn)(ILSVRC)的關(guān)鍵部分而受到歡迎,這是2010年至2017年舉辦的一系列比賽。ILSVRC系列見證了一些卷積神經(jīng)網(wǎng)絡(luò)中最有趣的進展:AlexNet、VGG、GoogLeNet、ResNet和其他著名的架構(gòu)都在這里首次亮相。
一個不太為人所知的事實是ILSVRC也一直有一個物體檢測競賽,而ILSVRC系列實際上是與另一個著名的競賽合作發(fā)展起來的,2005年至2012年舉辦的PASCAL Visual Object Classes (VOC) Challenge。這些挑戰(zhàn)也從一開始就體現(xiàn)了目標檢測,這就是第一個著名的數(shù)據(jù)集的由來,通常被稱為PASCAL VOC數(shù)據(jù)集。以下是“飛機”和“自行車”類別的一些示例圖片:
按照今天的標準,PASCAL VOC是相當小的:20個類,只有11530張圖片,27450個目標標注,這意味著PASCAL VOC每幅圖片只有不到2.5個目標。目標通常是相當大的和突出的照片,所以PASCAL VOC是一個“容易”的數(shù)據(jù)集。盡管如此,在很長一段時間里,它仍然是最大的手動標注的目標檢測數(shù)據(jù)集之一,并在數(shù)百篇關(guān)于目標檢測的論文中默認使用。
在規(guī)模和復(fù)雜性方面的下一步是Microsoft Common Objects in Context (Microsoft COCO)數(shù)據(jù)集。
展開 12篇論文看盡深度學(xué)習目標檢測史
同時,當網(wǎng)格單元包含一個目標(高置信度得分)時,每個單元也將預(yù)測 C 類概率。這種方法后來被描述為稠密的預(yù)測,因為 YOLO 試圖預(yù)測圖像中所有可能位置的類和邊界框。相比之下,R-CNN 依賴于region proposals來過濾背景區(qū)域,因此最終的預(yù)測更加稀疏。
源自論文“You Only Look Once: Unified, Real-Time Object Detection”
在整張圖片上的密集預(yù)測的計算成本很大,為了避免這個問題,YOLO 采用了 GooLeNet 的瓶頸結(jié)構(gòu)。YOLO 的另一個問題是,兩個對象可能落入同一個粗糙的網(wǎng)格單元,所以它不能很好地處理小目標,如一群鳥。盡管精確度較低,但 YOLO 簡單易懂的設(shè)計和實時推理能力使得單階段目標檢測在研究中再次流行起來,同時也是業(yè)界的首選解決方案。
2015: SSD
SSD: 單發(fā)多框檢測器
YOLO v1顯示了單階段檢測的潛力,但和兩階段檢測的性能差距仍然很明顯。在 YOLO v1中,可以將多個目標分配給同一個網(wǎng)格單元。這對于探測微小物體來說是一個巨大的挑戰(zhàn),也成為提高單階段檢測器性能到與兩階段檢測器相當?shù)年P(guān)鍵問題。SSD是一個挑戰(zhàn)者,從三個角度解決這個問題。
源自論文 “SSD: Single Shot MultiBox Detector”
首先,來自 Faster R-CNN 的anchor box 技術(shù)可以緩解這個問題。同一區(qū)域中的對象通常具有不同的可見長寬比。引入anchor box 不僅增加了每個單元的目標檢測數(shù)量,而且利用這個長寬比假設(shè)可以更好地區(qū)分重疊的小目標。
展開 基于深度學(xué)習的目標檢測算法面試必備(RCNN~YOLOv5)
來源 |
深度學(xué)習與計算機視覺
鏈接 |
https://zhuanlan.zhihu.com/p/354060133
知圈 |
進“汽車智能互動社群”請加微信13636581676,備注交互
整體框架
目標檢測算法主要包括:【兩階段】目標檢測算法、【多階段】目標檢測算法、【單階段】目標檢測算法
什么是兩階段目標檢測算法,與單階段目標檢測有什么區(qū)別?
兩階段目標檢測算法因需要進行兩階段的處理:1)候選區(qū)域的獲取,2)候選區(qū)域分類和回歸,也稱為基于區(qū)域(Region-based)的方。與單階段目標檢測算法的區(qū)別:通過聯(lián)合解碼同時獲取候選區(qū)域、類別
什么是多階段目標檢測算法?
展開 目標檢測:Nms-Free時代
proposal會預(yù)測一個目標稱為instance。人工標注的框為GT。訓(xùn)練階段,如何讓具體哪個proposal與哪個GT匹配的策略稱為label assign,上面提到一個GT只跟一個proposal匹配稱為one-to-one(o2o),一個GT匹配多個proposal的方法稱為many-to-one(m2o)。
so,要想實現(xiàn)nms-free,label assign必須是one-to-one的。
什么是nms-free,有啥好處?
nms-free就是不需要nms的目標檢測,甚至可以認為沒有后處理的目標檢測。優(yōu)勢1.整體框架簡潔,更少超參數(shù)。2.目標之間重疊嚴重的話就無法用了。
但目前的主流依然存在nms,足以說明nms的優(yōu)勢大于劣勢。很多場景的目標檢測,目標是稀疏的,此時many-to-one + nms組合簡直不要太爽。
出現(xiàn)重疊怎么辦?忽略就行,出現(xiàn)概率很低啦。教育甲方不能這樣玩。甲方要退錢了?RotateAnchor
[2]
改一波。
Nice。甲方說不可描述場景依然漏檢,還發(fā)來了圖片。
此時,nms黨不慌不忙的掏出了《Detection in Crowded Scenes: One Proposal, Multiple Predictions》
[3]
。每個proposal預(yù)測K個instance,意思是該proposal預(yù)測的地方可能有K個instance高度重疊。上圖K>=2即可。
展開 基于雙目視覺的目標檢測與追蹤方案詳解
立體視覺測量提取算法示意圖
1)特征提取
特征檢測通常是使用加速段測試 (FAST) 算法中的特征檢測進行的,該檢測器在計算復(fù)雜性方面明顯優(yōu)于其他替代方案,并且專為一致性高的多視圖特征提取而量身定制,這些屬性有利于將 FAST 角點檢測器用于在實時立體視覺中的應(yīng)用。
使用稀疏特征檢測有一些固有的缺點,其中最值得注意的是無法從低紋理圖像區(qū)域收集信息,這可能會阻礙最終準確估計目標范圍的能力。范圍信息應(yīng)主要從視覺子系統(tǒng)中提取,因為它提供比雷達更高的分辨率。為了減輕可能的負面影響,設(shè)置特征檢測閾值以產(chǎn)生半密集信息,即分布在視野中的數(shù)千個特征被識別為跟蹤候選。通過這種方法,可以獲得相當準確的范圍信息,而計算需求仍然比密集檢測方法低得多。
2)特征追蹤
算法運行所需的時間數(shù)據(jù)可通過狀態(tài)估計器獲得,該估計器隨時間跟蹤檢測到相應(yīng)的特征,由此產(chǎn)生的運動信息對于運動物體分割具有重要價值。本文將詳細介紹實現(xiàn)的特征跟蹤框架。
①卡爾曼濾波器
檢測目標的半密集性要求對后續(xù)處理進行仔細考慮,可能數(shù)以千計的跟蹤特征需要非常有效的狀態(tài)估計器。為此,引入了卡爾曼濾波器。卡爾曼濾波器是貝葉斯濾波器遞歸方程的可實現(xiàn)公式,要素不是傳播完整的目標狀態(tài)密度,而是采用高斯分布進行近似,即
(9)
其中 N (x; m, P) 表示在具有均值 m 和協(xié)方差 P 的向量 x 上定義的高斯分布。卡爾曼濾波器遞歸方程的一個重要約束是它必須保留狀態(tài)分布的高斯結(jié)構(gòu)。這意味著動態(tài)和測量模型必須是線性高斯變換。
展開 深入了解目標檢測深度學(xué)習算法的技術(shù)細節(jié)
來源 |
新機器視覺
本文將討論目標檢測的基本方法(窮盡搜索、R-CNN、Fast R-CNN和Faster R-CNN),并嘗試理解每個模型的技術(shù)細節(jié)。為了讓經(jīng)驗水平各不相同的讀者都能夠理解,文章不會使用任何公式來進行講解。
檢測螺母和螺栓-克里斯·耶茨(Unsplash)
開啟目標檢測的第一步
這是只鳥還是架飛機?—— 圖像分類
目標檢測(或識別)基于圖像分類。圖像分類是通過上圖所示的像素網(wǎng)格,將圖像分類為一個類類別。目標識別是對圖像中的對象進行識別和分類的過程,如下圖所示:
為了使模型能夠?qū)W習圖像中對象的類別和位置,目標必須是一個五維標簽(類別,x, y,寬度,長度)。
對象檢測方法的內(nèi)部工作
一種費機器(奢侈計算)的方法:窮舉搜索
最簡單的目標檢測方法是對圖像的各個子部分使用圖像分類器,讓我們來逐個考慮:
首先,選擇想要執(zhí)行目標檢測的圖像。
展開 基于MATLAB紅外弱小目標檢測MPCM算法復(fù)現(xiàn)
摘要:本文詳細介紹了一種基于人類視覺系統(tǒng)特性的紅外弱小目標檢測算法——Multiscale patch-based contrast measure (MPCM)。該算法通過增強目標與背景的對比度,有效檢測紅外圖像中的弱小目標,并在MATLAB環(huán)境中進行了復(fù)現(xiàn)與實驗驗證。
關(guān)鍵詞:紅外檢測、弱小目標、圖像處理、模式識別、自適應(yīng)檢測
參考文獻:Y. Wei, X. You, and H. Li, “Multiscale patch-based contrast measure for small infrared target detection,” Pattern Recognit., vol. 58, pp. 216–226, 2016. 本文是對上述文獻中的Multiscale patch-based contrast method, MPCM算法的詳細解析與MATLAB復(fù)現(xiàn),并給出實驗結(jié)果。
引言
傳統(tǒng)的紅外目標檢測算法存在一些局限性,如不能有效抑制背景、只能檢測亮目標、平滑目標或耗時等問題。針對這些缺陷,本文提出了MPCM算法,旨在提高檢測率和實時性,同時降低虛警率。
MPCM算法的創(chuàng)新點
1、提出了一種新的衡量目標局部對比度的方法,能夠同時增強亮目標和暗目標,并抑制背景。
2、算法設(shè)計易于并行化,具有較好的實時性,適用于高檢測率和低虛警率的應(yīng)用場景。
相關(guān)工作
3.1 Local Contrast Method (LCM)
LCM是最經(jīng)典的基于人類視覺對比度機制的算法,通過計算目標區(qū)域與局部背景區(qū)域的對比度,增強目標并抑制背景。然而,LCM存在易受高亮點噪聲干擾和算法實時性差的問題。
展開 
PointPillar:利用偽圖像高效實現(xiàn)3D目標檢測
今天小編將分享一篇3D點云檢測論文—Pointpillars,看看作者如何巧妙的只使用2D卷積,卻實現(xiàn)了高效的3D目標檢測。
01 3D點云檢測的現(xiàn)狀如何
最近幾年點云的三維目標檢測一直很火,從早期的PointNet、PointNet++,到體素網(wǎng)格的VoxelNet,后來大家覺得三維卷積過于耗時,又推出了Complex-yolo等模型把點云投影到二維平面,用圖像的方法做目標檢測,從而加速網(wǎng)絡(luò)推理。
所以在點云上實現(xiàn)3D目標檢測通常就是這三種做法:3D卷積、投影到前視圖或者鳥瞰圖(Bev)。
3D卷積的缺點是計算量較大,導(dǎo)致網(wǎng)絡(luò)的推理速度較慢。投影的方式受到點云的稀疏性的限制,使得卷積無法較好的提取特征,效率低下。而后來研究熱點轉(zhuǎn)向了采用鳥瞰圖(Bev)的方式,但存在的明顯的缺點就是需要手動提取特征,不利于推廣到其他的雷達上使用。
撥開那些花里胡哨的網(wǎng)絡(luò),有什么更靠譜的模型能夠權(quán)衡速度和精度做三維目標檢測呢?
02橫空殺出的PointPillars
這是一篇前兩年的點云目標檢測網(wǎng)絡(luò),為什么重溫它是因為小編在學(xué)習百度Apollo 6.0時發(fā)現(xiàn)它被集成進去作為激光雷達的檢測模型了。在這里給大家解析一下該網(wǎng)絡(luò)模型,看看有啥特點!
Pointpillars的創(chuàng)新點在于:提出了一種新的編碼方式,利用柱狀物的方式生成偽圖像。
展開 幾個攝像頭和雷達融合的目標檢測方法
RODNet,但訓(xùn)練是通過一個攝像頭-雷達監(jiān)督算法,無需標注,可實現(xiàn)射頻(RF)圖像的實時目標檢測。
近期激光雷達點云的3D目標檢測方法
提出了一個統(tǒng)一的分割網(wǎng)絡(luò),速度快,可以在BD表示中做目標中心回歸以及朝向3D框的預(yù)測。
DD3D:基于預(yù)訓(xùn)練的單目3D目標檢測
來源 | CV研習社
導(dǎo)讀:3D目標檢測的主要應(yīng)用場景就是自動駕駛,雖然現(xiàn)階段基于點云的3D目標檢測的方法的性能不斷提升,但相比于激光雷達高昂的造價以及在復(fù)雜天氣情況下的敏感性。研究人員將目光投向了基于視覺的方案,因此單目3D目標檢測逐漸成為了研究熱點。小編今天將為大家分享一篇名為Is Pseudo-Lidar needed for Monocular 3D Object detection的文章,文中提出了DD3D的方法,讓我們一起來學(xué)習一下吧。
Part 01 3D目標檢測應(yīng)用背景
3D目標檢測目前應(yīng)用的主要場景就是自動駕駛,汽車在行駛過程中,需要時刻感知周圍的環(huán)境,并及時獲取障礙物的3維信息。3維信息的獲取通常會依靠3D傳感器,如激光雷達,雙目相機等,但此類傳感器成本通常較高。低成本的方案是通過單目相機結(jié)合深度估計的方式,目前該方案也在大力發(fā)展中。3D目標檢測所使用的數(shù)據(jù)集大部分也就是自動駕駛數(shù)據(jù)集,類別主要是車輛和行人。通過3D目標檢測算法,可以給出障礙物的3D bbox,可以精準的判斷物體的位置和朝向,將該信息提供給規(guī)劃模塊,就可以對車輛的行駛路線進行合理的規(guī)劃。
展開