
發(fā)布
注冊
/
登錄3D物體檢測的案例
基于重建和不確定性傳播的單目視覺3D物體檢測
編者按:3D物體檢測(目標檢測)是智能汽車感知系統(tǒng)的重要任務。在眾多應用于智能汽車的傳感器中,相機這一視覺傳感器具有分辨率高、成本較低、部署方便等優(yōu)點。基于相機RGB圖像的低成本3D物體檢測是當下學界和工業(yè)界的研究熱點。其中,相比多目視覺3D物體檢測,單目視覺3D物體檢測是更為基礎的問題,其難點在于估計物體的距離。本文將6DoF位姿估計領域常用的稠密關聯(lián)方法應用到了交通場景的單目3D物體檢測,并引入了不確定性傳播,可以描述物體位置的不確定性。針對深度回歸問題中偶然不確定性的估計,本文提出了魯棒KL損失,顯著提升了檢測精度,對于一般的不確定性估計網(wǎng)絡有借鑒價值。
摘要:
單目視覺3D物體檢測的主要難點在于物體在3D空間中的定位。近年關于6DoF位姿估計的研究表明,預測圖像與物體3D模型之間的2D-3D稠密關聯(lián)(Dense Correspondence)并使用PnP算法求解物體位姿,可以取得很高的定位精度。然而,在這些研究中,模型的訓練均依賴物體的3D模型真值,這一條件在真實的室外場景中難以滿足。為解決這一問題,本文提出了MonoRUn檢測算法,以自監(jiān)督的形式學習稠密關聯(lián)和物體幾何,這一過程中僅需用到物體的3D框標注。本文使用基于不確定性的區(qū)域重建網(wǎng)絡回歸與2D像素相關聯(lián)的3D坐標。自監(jiān)督訓練是指將3D坐標重投影以重構(gòu)圖像的2D坐標。為優(yōu)化重投影誤差并考慮其不確定性,本文提出了魯棒KL損失。在測試階段,網(wǎng)絡預測的不確定性將傳播至所有下游模塊。具體而言,模型使用不確定性PnP算法估計物體的位姿及其協(xié)方差。
展開 Waymo如何進行3D物體檢測?
這主要是因為當我們拍攝圖像時,在鏡頭中有不同距離和不同比例的物體。
你面前的車看起來會比遠處的車大得多,但你仍然需要考慮這兩方面。
就像我們一樣,當我們看到遠處的人,感覺是自己的朋友,但等走近了確定后才會喊他的名字,對于這種遠處的物體,車輛會缺乏細節(jié)。
為了解決這個問題,我們將從網(wǎng)絡的不同層次中提取和分享信息。在整個網(wǎng)絡中共享信息是一個強大的解決方案,因為神經(jīng)網(wǎng)絡使用固定大小的小檢測器來壓縮圖像,我們越深入到網(wǎng)絡。
意味著早期的層將能夠檢測到小物體,且只能檢測到大物體的邊緣或部分。更深的層將失去小物體,但能夠非常精確地檢測大物體。
這種方法的主要挑戰(zhàn)是通過這些連接將這兩種不同類型的信息結(jié)合起來,LiDAR 3D空間數(shù)據(jù)和更常規(guī)的RGB幀。如前所述,在所有的網(wǎng)絡步驟中使用這兩種信息,是更好地理解整個場景的最好方法。
但我們?nèi)绾尾拍軐蓚€不同的信息流合并起來,并有效地利用時間維度?這兩個分支之間的數(shù)據(jù)轉(zhuǎn)換是網(wǎng)絡在訓練過程中以一種有監(jiān)督的方式學習的,其過程與self-attention機制類似,試圖重新創(chuàng)建世界的真實模型。
展開 基于 LiDAR 點云的 3D 物體檢測算法 | 焉知課堂
LiDAR 的輸出數(shù)據(jù)是 3D 點云,每一個點除了包含 X,Y,Z 坐標,還包含一個反射強度 R,類似與毫米波雷達里的 RCS。3D 物體檢測的目標是要根據(jù)點云數(shù)據(jù)來找到場景中所有感興趣的物體,比如自動駕駛場景中的車輛,行人,靜態(tài)障礙物等等。
下圖以車輛為例,來說明輸出結(jié)果的格式。簡單來說,檢測算法輸出多個 3D 矩形框(術語稱為 3D BoundingBox,簡稱 3D BBox),每個框?qū)粋€場景中的物體。3D BBox 可以有多種表示方法,一般最常用的就是用中心點 3D 坐標,長寬高,以及 3D 旋轉(zhuǎn)角度來表示(簡單一些的話可以只考慮平面內(nèi)旋轉(zhuǎn),也就是下圖中的 θ)。
檢測算法輸出的 3D BBox 與人工標注的數(shù)據(jù)進行對比,一般采用 3D IoU (Intersection over Unoin)來衡量兩個 BBox 重合的程度,高于設定的閾值就被認為是一個成功的檢測,反之則認為物體沒有被檢測到(False Negative)。如果在沒有物體的區(qū)域出現(xiàn)了 BBox 輸出,則被認為是一個誤檢(False Positive)。評測算法會同時考慮這兩個指標,給出一個綜合的分數(shù),比如 AP(Average Precision)以此為標準來評價算法的優(yōu)劣。由于不是本文的重點,具體的細節(jié)這里就不做贅述了。
基于 LiDAR 點云的 3D 物體檢測示意圖
萌芽期 (2017 年之前)
有了前面的鋪墊,下面我們的算法之旅正式開始了。
展開 DD3D:基于預訓練的單目3D目標檢測
來源 | CV研習社
導讀:3D目標檢測的主要應用場景就是自動駕駛,雖然現(xiàn)階段基于點云的3D目標檢測的方法的性能不斷提升,但相比于激光雷達高昂的造價以及在復雜天氣情況下的敏感性。研究人員將目光投向了基于視覺的方案,因此單目3D目標檢測逐漸成為了研究熱點。小編今天將為大家分享一篇名為Is Pseudo-Lidar needed for Monocular 3D Object detection的文章,文中提出了DD3D的方法,讓我們一起來學習一下吧。
Part 01 3D目標檢測應用背景
3D目標檢測目前應用的主要場景就是自動駕駛,汽車在行駛過程中,需要時刻感知周圍的環(huán)境,并及時獲取障礙物的3維信息。3維信息的獲取通常會依靠3D傳感器,如激光雷達,雙目相機等,但此類傳感器成本通常較高。低成本的方案是通過單目相機結(jié)合深度估計的方式,目前該方案也在大力發(fā)展中。3D目標檢測所使用的數(shù)據(jù)集大部分也就是自動駕駛數(shù)據(jù)集,類別主要是車輛和行人。通過3D目標檢測算法,可以給出障礙物的3D bbox,可以精準的判斷物體的位置和朝向,將該信息提供給規(guī)劃模塊,就可以對車輛的行駛路線進行合理的規(guī)劃。
展開 
自動駕駛傳感器融合:激光雷達+攝像頭
不同的融合策略
物體檢測的策略分為:決策層融合,決策+特征層融合,以及特征層融合。在決策層融合中,圖像和點云分別得到物體檢測結(jié)果(BoundingBox),轉(zhuǎn)換到統(tǒng)一坐標系后再進行合并。這種策略中用到的大都是一些傳統(tǒng)的方法,比如IoU計算,卡爾曼濾波等,與深度學習關系不大,本文就不做介紹了。下面重點來講講后兩種融合策略。
2.1 決策+特征層融合
這種策略的主要思路是將先通過一種數(shù)據(jù)生成物體的候選框(Proposal)。如果采用圖像數(shù)據(jù),那么生成的就是2D候選框,如果采用點云數(shù)據(jù),那么生成的就是3D候選框。然后將候選框與另外一種數(shù)據(jù)相結(jié)合來生成最終的物體檢測結(jié)果(也可以再重復利用生成候選框的數(shù)據(jù))。這個結(jié)合的過程就是將候選框和數(shù)據(jù)統(tǒng)一到相同的坐標系下,可以是3D點云坐標(比如F-PointNet),也可以是2D圖像坐標(比如IPOD)。
F-PointNet[2]由圖像數(shù)據(jù)生成2D物體候選框,然后將這些候選框投影到3D空間。每個2D候選框在3D空間對應一個視椎體(Frustum),并將落到視椎體中所有點合并起來作為該候選框的特征。視椎體中的點可能來自前景的遮擋物體或者背景物體,所以需要進行3D實例分割來去除這些干擾,只保留物體上的點,用來進行后續(xù)的物體框估計(類似PointNet中的處理方式)。這種基于視椎的方法,其缺點在于每個視椎中只能處理一個要檢測的物體,這對于擁擠的場景和小目標(比如行人)來說是不能滿足要求的。
F-PointNet網(wǎng)絡結(jié)構(gòu)圖
針對視椎的上述問題,IPOD[3]提出采用2D語義分割來替換2D物體檢測。首先,圖像上的語義分割結(jié)果被用來去除點云中的背景點,這是通過將點云投影到2D圖像空間來完成的。
展開 3D掃描透明物體!Fraunhofer IOF紅外波長新技術
導讀:隨著3D打印的普及,建模技術也有了飛速的發(fā)展。掃描建模是一種新型、快捷的創(chuàng)建3D模型的方式。但是,許多掃描儀器只能掃描沒有光反射的物體,遇到透明物體只能先噴涂一層不反光涂料,然后進行掃描。那么,真的就沒有透明材料掃描儀了么?
南極熊獲悉,德國Fraunhofer Institute應用光學與精密工程學院IOF的研究人員于2021年5月4日宣布開發(fā)了一種新的3D掃描方法,可用于反射物體。借助“ MWIR-3D傳感器”,可以三維掃描物體,而不管是否由透明塑料還是玻璃制成。甚至可以輕松檢測到具有金屬光澤或黑色表面的物體。新的3D紅外傳感器還可以檢測組合了不同材料的物體。
△用MWIR-3D 3D掃描透明物體
傳統(tǒng)的3D掃描
3D掃描是進行逆向工程的重要工具,是產(chǎn)品數(shù)字化的關鍵一步,實現(xiàn)更靈活的制造。如今,有幾種3D掃描方法,但是每種方法都有不同的缺陷。除了僅用于點測的基于“觸摸”的3D掃描之外,大多數(shù)3D掃描系統(tǒng)都使用光學技術。
攝影測量:將一系列2D圖像轉(zhuǎn)換為3D模型
激光掃描:向目標表面發(fā)射光束,雙攝像頭確定每個點的3D位置
結(jié)構(gòu)化的光:在表面上呈現(xiàn)出特定的圖案,利用圖案變形揭示3D幾何形狀
這些方法都有一個難題:反射率和透明度。它們各自依賴于從目標反射回來的光并且以可預測的方式返回到觀察相機。當掃描玻璃時,因為光線在通過時會發(fā)生彎曲,掃描儀無法確定點源,因此無法正確掃描。透明物體甚至輕微反射的物體也會產(chǎn)生類似的效果。由于光路效應,3D掃描類似金屬零件這樣略微發(fā)亮的物體變得具有挑戰(zhàn)性。對于這類問題,解決方法通常是在物體表面噴涂清漆,然后進行掃描。
展開 一種基于超聲波的水箱移動物體液位檢測方法
大多數(shù)水箱都沒有水位檢測控制系統(tǒng),容易造成水箱溢水,浪費水資源,存在一定的安全隱患。而按照現(xiàn)在產(chǎn)品的智能化,水箱通常會有幾種常見的功能,當水箱內(nèi)的水快沒有時,會提示用戶加水?;蛘呤撬鋬?nèi)部徹底沒水時,設備停止工作。下面工采網(wǎng)小編和大家一起看看一種基于超聲波的水箱移動物體液位檢測方法。
對于水箱移動物體液位檢測方法總共有兩種,它們分別是靜態(tài)的水位測量和動態(tài)的水位測量。靜水液位測量(水池、水箱或者液體罐)的時候,測量方法則是用于開放式容器中測量靜止液體的液位時,將水箱液位傳感器垂直放入容器底部并固定,進行測量;動態(tài)的水位測量時需要考慮到水流速度和水位測量環(huán)境。如果水位速度波動很大,我們需要在水流反方向插入一根內(nèi)徑約為50厘米的鋼管,這樣的目的在于水可以順利進入管道,以確保測量的精準度。流體在檢測管中移動,通過觀察流體直截了當?shù)呐袛喑鏊鋬?nèi)的水位的高低,同時通過金屬檢測傳感器將水位信號傳遞給控制室中,方便工人檢測和判斷。
針對上述兩種測量方式工采網(wǎng)推薦美國SENIX 超聲波液位傳感器 - ToughSonic-3的檢測范圍為3英尺(91厘米)。如果您需要更小的檢測范圍或更小的超聲波束尺寸,那么ToughSonic 3是一個很好的選擇。ToughSonic 3具有與ToughSonic 14相同的30毫米不銹鋼外殼。它具有1.75英寸(4.5厘米)的檢測范圍和窄的超聲波束寬度,用于在狹小的空間內(nèi)進行測量。而且,像所有的ToughSonic傳感器一樣,它堅固耐用,在惡劣的工業(yè)環(huán)境中易于使用。它可以完全潛水,耐腐蝕,抗沖擊,并且堅韌。它也可以通過我們的SenixVIEW軟件完全配置。
展開 低延遲高精度 地平線頂尖自動駕駛算法實力解析|Waymo自動駕駛算法挑戰(zhàn)賽
在這個背景下,地平線團隊的算法連續(xù)兩年取得3D物體檢測任務的第一名,證明了其團隊在3D物體檢測這個賽道上世界領先的實力,以及強大的技術和工程能力。此外,地平線此次參賽的方案中融合了很多目前最前沿的物體檢測技術,以及很多精巧的構(gòu)思和設計,個人認為非常值得相關領域的研究者進行進一步的思考,也會對自動駕駛感知算法的研究起到非常大的推動作用。自動駕駛技術的研究以及應用還有很長的路要走,還有很多關鍵問題亟待解決,期望未來會有更多的研究機構(gòu)參與其中,推出更加精準和高效的感知算法,以推動自動駕駛技術給人們的出行帶來更多的安全和便捷。
3D目標檢測綜述:從數(shù)據(jù)集到2D和3D方法
4.3 結(jié)合 RGB 圖像與點云的目標檢測
Frustum PointNets [36] 同時使用 RGB 圖像和激光雷達點云數(shù)據(jù)來執(zhí)行 3D 目標檢測。該算法使用成熟的 2D 目標檢測器來縮小搜索空間。它是通過從圖像檢測器得到的 2D 邊界框來提取 3D 邊界視錐,然后再在經(jīng)過 3D 視錐修整過的 3D 空間中執(zhí)行 3D 目標實例分割。
MV3D [37] 也同時使用 RGB 圖像和激光雷達點云數(shù)據(jù)作為輸入,它是將 3D 點云投影成鳥瞰圖和正視圖。鳥瞰圖表征是通過高度、強度和密度編碼的,而正視圖則是將點云投影到一個圓柱面上生成的。鳥瞰圖可用于生成 3D 先驗邊界框,然后將該 3D 先驗邊界框投影到前視圖和圖像上,這三個輸入生成一個特征圖。該方法采用 ROI 池化來將三個特征圖整合到同一個維度。整合后的數(shù)據(jù)再在網(wǎng)絡上進行融合,然后輸出分類結(jié)果和邊界框。
圖 4:使用 MV3D 的目標檢測示例
展開 瞬間制造空心物體,IBM聲音全息3D打印技術專利
全息投影大家可能都聽說過,利用干涉和衍射原理記錄并再現(xiàn)物體真實的三維圖像的技術。全息投影技術不僅可以產(chǎn)生立體的空中幻象,還可以使幻象與表演者產(chǎn)生互動,一起完成表演,產(chǎn)生令人震撼的演出效果。
那么這種思路能否用于3D打印中呢?通過全息技術直接制造出一個三維物體,而不再需要像當前的3D打印技術一樣還需要一層一層的去制造物體。
2019年1月7日,南極熊從外媒獲悉,2018年12月20日,IBM申請了一項專利,名為“3D printing on the surface of an acoustic hologram”(在聲音全息圖表面上進行3D打?。?。該方法利用聲波發(fā)射器陣列生成由聲輻射力(ARF)組成的3D全息圖。 通過聲波駐波, 在聲波相互作用的地方存在不可見的力,并且精確控制波發(fā)射器允許定義波相互作用的形狀并因此限定全息圖的形狀。 通過在充滿氣態(tài)介質(zhì)的腔室中產(chǎn)生全息圖,可以用反應材料的液滴噴射全息圖,該反應材料在暴露于氣態(tài)介質(zhì)時凝固。 噴霧結(jié)合到聲全息圖的半有形表面并固化成空心殼。
IBM聲全息3D打印機是一項令人難以置信的雄心勃勃的發(fā)明,它提供了在一個步驟中制造空心物體的潛力 - 但它真的可能嗎?
在IBM的專利中,聲學全息圖與激光一樣,由一系列整齊排列的發(fā)射器產(chǎn)生。通過控制由這些發(fā)射器產(chǎn)生的聲波的焦點和范圍,IBM科學家希望創(chuàng)造一種“可觸知”的聲音,可用于對材料施加力和操縱材料 - 想想非牛頓流體的揚聲器+玉米淀粉實驗。
正如專利摘要中所詳述的那樣:“由此產(chǎn)生的全息圖在三維打印區(qū)域內(nèi)創(chuàng)造了一個漂浮在空間中的物體的觸覺錯覺,”
“當3D打印介質(zhì)應用于全息圖的表面時,介質(zhì)在全息圖的表面上凝固,以產(chǎn)生待打印物體形狀的空心殼?!?/span>
展開 3D打印智能墨水,可創(chuàng)造出形狀和變色的物體
2018年4月6日,南極熊獲悉,達特茅斯學院的研究人員最近在開發(fā)新的3D打印材料取得了顯著的突破。
開發(fā)出一種創(chuàng)新的“智能墨水”,3D打印出的物體形狀和顏色隨著時間的推移會發(fā)生改變。這一過程通常被稱為4D打印,下一代增材制造,可以在生物醫(yī)學和能源行業(yè)等領域有各種應用。
“這項技術為3D打印的物體帶來了生機,”達特茅斯大學化學助理教授陳峰科說。 “雖然許多3D打印結(jié)構(gòu)只是不能反映材料分子性質(zhì)的形狀,但這些油墨將功能分子帶到了3D打印領域,現(xiàn)在我們可以打印各種用途的智能對象?!?這個開創(chuàng)性的項目試圖找到一種方法來提供對3D打印物體分子結(jié)構(gòu)的更高級別的控制。 這樣做的好處是巨大的,使設計能力大大增加。
該墨水是基于聚合物的“載體”創(chuàng)建的,該載體可以將智能分子系統(tǒng)整合到打印凝膠中。這允許將它們的功能從納米級轉(zhuǎn)換到宏觀級,3D打印之后不再硬化,材料會進一步發(fā)生化學反應,將活性分子成分鎖定在一起并引發(fā)轉(zhuǎn)化。例如,通過熒光跟蹤器,可以使物體響應于諸如光的外部刺激而改變顏色。
這些3D打印的“4D”物體可以反復膨脹和收縮。這種收縮可以用來將3D打印物體的尺寸減少100倍,提供10倍的分辨率。這意味著使用達特茅斯團隊的墨水可以將普通打印機的功能擴展到更復雜的打印機的水平,使其能夠以更高的分辨率進行打印,而無需更改其操作,因為墨水預先編程轉(zhuǎn)化為對象的能力。
“這個過程可以使用1000美元的打印機來替代前需要10萬美元的打印機,這項技術具有可擴展性,適應性強,可以顯著降低成本?!?盡管距離能夠動態(tài)適應環(huán)境并改變其配置的全功能智能3D系統(tǒng)還有一段時間,但這種新型智能墨水的開發(fā)已經(jīng)具有一定的潛在用途。 目前設想改進的精密過濾器和存儲裝置的制造,是可以從打印后控制結(jié)構(gòu)轉(zhuǎn)換的能力中受益的。
展開 
普渡大學的研究人員致力于打造“智能”物體的多功能3D打印機
普渡大學理工學院和工程學院的研究人員正致力于開發(fā)一種多功能3D打印機,最終可以讓人們打印出“智能”物體,包括整個手機。
該項目將3D結(jié)構(gòu)打印與電子打印甚至算法相結(jié)合,在整個材料中融入傳感,計算和驅(qū)動,形式和功能融合?!拔覀冋诤铣尚虏牧希覀兛梢杂?em>3D打印體現(xiàn)感應,計算和結(jié)構(gòu)?!逼斩纱髮W協(xié)同機器人實驗室負責人Richard Voyles教授說。
Voyles表示,該項目的挑戰(zhàn)在于整合不同的方法,從2D電子設備轉(zhuǎn)向3D的一些棘手問題,以及解決層之間的材料兼容性問題。3D打印機可以減少時間和成本,并簡化原型制作所需的技能,但是在創(chuàng)建產(chǎn)品形式的同時,添加任何必要的功能都是一個完全獨立的過程?!叭绻阈枰M行計算,你創(chuàng)建的一些不錯的設計不包括微處理器,如果你需要感應,就不能包括傳感器,”Voyles說。 “如果你需要實際移動東西,你就沒有馬達?!? 3D打印允許創(chuàng)建具有嵌入式導電部件的結(jié)構(gòu),但是目前市場上沒有3D打印機將結(jié)構(gòu)的打印與電子,感測和其他功能的打印相結(jié)合。如果我們從軟材料,聚合物開始,至少是靈活的,也許我們會更接近一個更大的問題,不僅是液體可以想象,如在終結(jié)者電影中,但如果我們創(chuàng)造這些新的東西將帶我們?nèi)ツ睦铩八季S”的材料分布在他們身上。
作為工作的一部分,研究人員正致力于以可重復的薄層印刷聚合物導電和半導體材料,類似于20世紀60年代和70年代的大規(guī)模晶體管集成電路。他指出了一個開發(fā)具有溫度傳感特性的材料的例子,該材料可根據(jù)用途擴大或縮小?!爱斘覀冮_發(fā)下一代'形式加功能'打印機時,這些是我們想要探索的先驅(qū)?!盫oyles說,他們的工作可以在智能材料和活性材料的基礎聚合物科學等領域?qū)崿F(xiàn)全新的發(fā)現(xiàn)領域。
文章鏈接:中國智能制造網(wǎng) https://www.gkzhan.com/news/detail/111603.html
展開 給3D打印假手裝上攝像頭,智能抓取85.2%的家用物體
肌電假肢是目前殘疾人使用的相對高級的假肢,它通過骨骼肌中產(chǎn)生的肌電圖(EMG)信號控制肌電假手,然而一項更加智能的假肢在3D打印技術的支持下被研發(fā)出來。
據(jù)外媒報道,德國卡爾斯魯厄理工學院(KIT)的研究人員開發(fā)出一種先進的五指3D打印假肢,旨在通過智能機制減輕用戶的認知負擔。他們的3D打印手假肢集成了傳感器,先進的嵌入式系統(tǒng),手掌底部的RGB攝像頭和手背上的彩色顯示屏,可自動抓取物體。
“在機械設計方面,一種自適應的,驅(qū)動的機制被用來讓手指抓取任意形狀的物體,”研究人員解釋說?!皞鞲衅飨到y(tǒng)包括兩個電機中的位置傳感器和用于基于視覺的抓取的RGB相機。板載嵌入式系統(tǒng)通過藍牙集成傳感器信息,視覺信息,用戶反饋和狀態(tài)信息。
研究人員表示,該手部假肢是第一個將相機集成在手掌中的裝置。為了確保人性化的外觀,包括電機,機構(gòu),嵌入式系統(tǒng),傳感器,用戶反饋和用戶界面在內(nèi)的完整硬件被集成到普通男性手掌中。KITUProHand可作為獨立單元完全啟動和控制,無需任何外部計算資源。
假肢外部采用PA2200材料通過選擇性激光燒結(jié)進行3D打印,PA2200是功能原型3D打印中最常用的材料之一。據(jù)研究人員稱,3D打印被選擇作為一種制造方法,以便使用他們的3D打印手為佩戴者進行個性化生產(chǎn)。手指使用PA2200進行3D打印,以匹配手掌的強度和視覺外觀?;赥UAT/Karlsruhe機構(gòu),通過力分配傳動同時驅(qū)動所有四個手指,拇指由第二馬達帶動。該機構(gòu)的結(jié)構(gòu)允許手指在物體周圍自然地成形。
研究人員進行了幾項測試,使用3D打印的手抓取不同形狀的家用物品。
展開 麻省理工3D打印“折紙”機械手,抓起自身重量120倍的物體
在未來,該團隊希望增加一個計算機視覺系統(tǒng),使抓手能夠“看到”它正在做什么,從而可以抓住物體的特定部分。他們還計劃嘗試不同的目標物體接近角度。
“這是一個非常聰明的設備,利用3D打印,真空和軟機器人的力量來解決以全新方式抓取的問題,”加州大學機器人學助理教授Michael Wehner說。圣克魯斯說。 “在接下來的幾年里,我可以想象看到柔軟機器人溫柔靈巧,足以挑選一朵玫瑰,但足夠強大,可以安全地抬起一名醫(yī)院病人?!?編譯自:3ders
Transformer在BEV、2D/3D檢測上的應用、量化與加速!
在自動駕駛應用中,基于Transformer的架構(gòu)已被廣泛用于各種子任務,包括目標檢測、車道線檢測和分割、跟蹤和定位、路徑規(guī)劃和決策。此外,最近的研究探索了Transformer在構(gòu)建自動駕駛端到端深度學習模型中的應用。這些模型利用注意力機制,進一步提高其專注于相關信息的能力,并在復雜的現(xiàn)實世界駕駛場景中有效執(zhí)行。
在本節(jié)的其余部分中,根據(jù)任務回顧了基于Transformer的模型,如表I所示。
主要將任務分為3類:
3D和一般感知任務(包括目標檢測、跟蹤和3D分割);
2D和平面任務(包括車道線檢測、分割和高清(HD)地圖生成);
其他任務(包括軌跡預測、行為預測和端到端任務)。
2.2、3D和一般的感知任務
3D和一般感知,包括目標檢測、跟蹤和3D分割任務。這是過去幾年中開發(fā)的基于Transformer的模型最受歡迎的研究領域之一。這類任務旨在分割、識別和跟蹤物體,如車輛、行人和環(huán)境中的其他元素。
在各種基于Transformer的模型中,DETR是一個早期的重要模型,它啟發(fā)了許多后續(xù)工作,盡管它最初是為2D檢測而設計的。DETR將目標檢測視為一個使用預生成框的預測問題,并消除了傳統(tǒng)的Anchor。它采用了基于匈牙利算法的二分匹配方法來直接預測一對一的目標集。
已經(jīng)提出了諸如可變形DETR之類的變體模型,通過引入可變形注意力來提高模型的收斂速度和位置查詢模糊性。在DETR架構(gòu)的基礎上,DETR3D將Transformer應用于多個相機,用于鳥瞰(BEV)空間中的3D目標檢測。它首先將點云數(shù)據(jù)(來自激光雷達)轉(zhuǎn)換為3D體素表示,然后將其輸入到修改的DETR架構(gòu)中,該架構(gòu)使用多尺度特征融合來捕獲全局和局部上下文信息。
展開