
發布
注冊
/
登錄BEV感知的案例
康謀方案 | BEV感知技術:多相機數據采集與高精度時間同步方案
隨著自動駕駛技術的快速發展,車輛準確感知周圍環境的能力變得至關重要。BEV(Bird's-Eye-View,鳥瞰圖)感知技術,以其獨特的視角和強大的數據處理能力,正成為自動駕駛領域的一大研究熱點。
一、BEV感知技術概述
BEV感知技術,是一種從鳥瞰圖視角(俯視圖)出發的環境感知方法。與傳統的正視圖相比,BEV視角具有尺度變化小、視角遮擋少的顯著優勢,有助于網絡對目標特征的一致性表達?;谶@樣的優勢,可以更有效的對車輛周圍環境進行感知。
圖1:BEV 感知圖
因此,在自動駕駛感知任務中,BEV感知算法通常包括分類、檢測、分割、跟蹤、預測、計劃和控制等多個子任務,共同構建起一個完整的感知框架。
BEV感知算法的數據輸入主要有圖像和點云兩種形式。根據數據源不同,BEV算法主要分為BEV Camera(純視覺)、BEV LiDAR(基于激光雷達)和BEV Fusion(多模態融合)三類。其中,圖像數據具有紋理豐富、成本低的優勢,此外,基于圖像的任務、基礎模型相對成熟和完善,比較容易擴展到 BEV 感知算法中。
為了更好的訓練BEV Camera感知算法,往往需要先搭建一個高質量的數據集。而搭建一套BEV感知數據采集系統,通常包括以下幾個關鍵環節:
1. 硬件選型與集成:選合適的攝像頭和計算采集平臺,集成穩定系統。
2. 數據采集:在實際環境中采集圖像數據,覆蓋不同場景、光照和天氣。
3. 時間同步:確保不同傳感器數據時間精確同步,是后續算法訓練的必要前提。
4. 系統調試和部署:調試系統確保組件協同工作,部署到實際應用環境。
因此,在實際搭建過程中,常會遇到技術復雜性高、成本投入大、數據質量與時間同步實現難、系統穩定性與可靠性要求高等挑戰。
展開 賦能 BEV 感知課題!高??蒲卸鄠鞲衅鲿r間同步方案
<h2><strong>1)引言</strong></h2><p>在<strong>高校自動駕駛實驗室</strong>里,團隊可能常以 <strong>BEV(Bird’s-Eye View)感知架構</strong>為研究主線。旨在通過相機陣列和激光雷達的數據,在空間上重建統一的車周環境,為下游檢測、分割提供高精度“語義地圖”。然而,一旦相機間的時間同步存在<strong>幾十毫秒及以上的誤差</strong>,BEV 投影的理想模型便可能<strong>失效</strong>,引發一系列典型的問題:</p><p>1、多相機拼接的鳥瞰圖在特征層面出現<strong>撕裂</strong>,導致Transformer或者卷積融合網絡在訓練階段<strong>難以收斂</strong>,損失曲線持續振蕩。</p><p>2、采集到的數據因固有延遲而與真實世界的<strong>時序錯位</strong>,當反投影到激光雷達或 IMU 坐標系時,產生明顯<strong>重影現象</strong>,外參標定<strong>不可重復</strong>。</p><p>3、時延隨實驗次序號<strong>隨機漂移</strong>,致使在離線評估中構建的數據時序關系,無法反映實車運行的真實時序狀態,最終導致科研結論<strong>缺乏可重復性</strong>。</p><p>這些消耗巨量算力與人力的痛點,其根源往往不在于算法本身,而在于數據基石存在缺陷 —— 即傳感器間<strong>缺乏統一可信的時間基準</strong>,導致時序準確性無法保障。</p><p>由此可知,對高校自動駕駛實驗室來說,<strong>穩定的時序精度</strong>是BEV感知科研的關鍵,團隊亟需適配多源異構傳感器的高精度時間同步方案,解決數據撕裂、實驗不可復現等痛點。
展開 SimData深度解析:高保真虛擬數據集的構建與評測
2、多源傳感器同步與可視化
工具鏈支持復雜傳感器配置的數據生成與驗證:
傳感器配置:目前支持6路相機、5個Radar、1個LiDAR的多源融合感知。
可視化驗證:內置腳本支持LiDAR點云、Radar PCD文件以及帶3D GT框的圖像/BEV視角可視化,確保數據“所見即所得”。
二、 數據集概覽:豐富場景與高保真環境
基于上述工具鏈,我們構建了SimData數據集,旨在覆蓋高速、城區、停車場等典型及復雜道路環境。
規模統計:包含15個獨立地圖,共計45個場景。
數據體量:單個傳感器輸出約18,000張圖像/幀數據,總樣本量充足。
類別擴展:在nuScenes原有的Car, Pedestrian, Truck, Bus等常見類別基礎上,新增了Van(面包車)類別,共計10類目標,彌補了部分長尾數據的缺失。
10個類別:
{ "Van", "Trailer","Pedestrian", "Car", "Truck", "Bus", "Motorcycle", "Bicycle","TrafficCone","Barricade" }
虛擬數據形象部分示例:
環境多樣性:
Highway:高速公路匝道、施工區。
Urban:擁堵城區、環島、十字路口。
Parking:室內外停車場環境。
地圖示例:
三、 實操評測:SimData 的高保真性
為了驗證SimData在感知算法中的有效性,我們選用BEV感知領域的經典模型 BEVFormer (Tiny版),進行了多維度的對比實驗與分析。
展開 音視頻技術開發周刊 | 292
從這些公開信息來看,也觀察到了一些行業趨勢,例如在線建圖、圖像BEV感知、點圖融合以及車道線矢量拓撲建模等。本文將對相關的學術工作和自動駕駛公司的技術方案進行解讀,以及談談個人的一些思考。
這兩球的顏色是一樣的?不,我不信!
為文本到圖像的 diffusion 模型添加條件控制
本文提出一種神經網絡結構 ControlNet,用來控制預訓練的大型擴散模型,并使其支持額外的輸入條件。此外,訓練 ControlNet 與微調擴散模型一樣快,并且模型可以在個人設備上進行訓練。如果有強大的計算集群,該模型可以擴展到大量數據。此外,Stable diffusion 等大型擴散模型可以用 ControlNet 增強,以實現邊緣圖、分割圖、關鍵點等條件輸入。
全球數字科技十大趨勢、科研實力對比與人才分布
阿里研究院、智譜AI聯合發布了《2023全球數字科技技術發展研究報告》。報告基于AMiner科技情報平臺的數據,利用文獻計量方法,為數字科技研究前沿“畫像”,揭示創新活躍程度,在系統、客觀的分析方法基礎上,總結2023全球數字科技十大趨勢。
只有這個爆款社交應用,中國無法復制,為什么?
Discord可能是非常少有的,在美國已經超過百億美金體量而在中國沒有模仿者跑通的 2C 互聯網平臺級應用。背后的原因,涉及到天時地利人和等多種因素,包括互聯網趨勢的變化、國內外游戲行業生態差異、社交軟件市場差異等等。
音視頻通訊QoS技術及其演進
本文從更宏觀、更寬泛的角度介紹了QoS的概念和分類,從音視頻通訊QoS領域的常用技術到架構的演進過程做了簡單匯總。隨著音視頻通訊新場景的不斷涌現,更實時,更高清變得越來越重要,相關技術也會往這個方向傾斜,同時基于大數據分析的QoS相關技術應用將會逐漸滲透。
展開 
特斯拉AI Day最硬核的解讀來了!清華博導分析6大關鍵點
▲視頻模型訓練的超算中心
總 結
隨著近兩年特斯拉AI Day的內容發布,我們慢慢看清了特斯拉在自動(輔助)駕駛方向上的技術版圖,同時我們也看到特斯拉自己也在不停地自我迭代,例如從2D感知,BEV感知,到Occupancy Network。自動駕駛是一個萬里長征,是什么在支撐特斯拉技術的演進呢?我想是三點:視覺算法帶來的全場景理解能力,強大算力支持的模型迭代速度,海量數據帶來的泛化性。這不就是深度學習時代的三大支柱嗎?
目前,趙行博士的課題組也在做和特斯拉類似的事情,在過去兩年做了一系列視覺為主自動駕駛的工作,簡稱VCAD,Vision-Centric Autonomous Driving(https://vcad-ai.github.io/)。
視覺為中心的自動駕駛VCAD (Vision-Centric Autonomous Driving)是其課題組提出的一個自動駕駛感知技術范式,同時是一個開源開放的研究課題。這個技術范式的特點是,主要利用車載的環視相機來實現自動駕駛對環境的感知和認知,選擇性地融合其他傳感器作為安全性輔助。
相比過分依賴激光雷達和高精度地圖的自動駕駛感知技術,以視覺為中心的技術有更好的泛化能力,各種規格和價位的車都可以使用。現階段,趙行博士的課題組正在招生。
參考文獻
[1] Wang, Y., Guizilini, V.C., Zhang, T., Wang, Y., Zhao, H. and Solomon, J., 2022, January. Detr3d: 3d object detection from multi-view images via 3d-to-2d queries. In Conference on Robot Learning (pp. 180-191). PMLR.
展開 Transformer在BEV、2D/3D檢測上的應用、量化與加速!
多模態融合和可解釋性是該領域日益增長的趨勢,而使用基于Transformer的模型已經成功地完成了感知和預測任務。前景包括優化實時處理和開發端到端學習模型。然而,應對挑戰并利用趨勢和前景需要持續的研究努力。
Transformer模型已經從最初用于3D障礙感知任務發展到各種感知任務。自動駕駛的未來需要更大的系統安全性和確定性,單模態視覺感知在邊際增益方面已經達到飽和。需要多模式融合來提高邊際增益,這對于高水平的自動駕駛至關重要。為了滿足這一需求,未來可能會生成具有4D時空輸入/輸出的更大尺寸、多模式和多任務的Transformer模型。這對模型訓練和加速提出了新的挑戰,需要在算法設計、硬件架構和系統集成方面取得進展。
自動駕駛中的跟蹤、規劃和決策任務也開始從傳統的DNN模型過渡到基于變換的模型??紤]到Transformer模型日益復雜,這可能需要更好的硬件加速方案來提高硬件部署中的模型推理效率。一種很有前途的方法是將多個級別和類型的Transformer模型級聯到一個端到端系統中。然而,這在加速整個系列模型方面帶來了挑戰,因為每個模型可能都有獨特的硬件要求。在基于感知的模型中,主要輸入是圖像或雷達數據,這些數據通過CNN進行處理以提取特征。然后將這些特征輸入到BEV感知Transformer模型中,用于從BEV的角度檢測障礙物和靜態地面標記。將BEV感知結果與高精度地圖相結合,進一步編碼為網格格式,并輸入到類似NLP的Transformer模型中,以完成預測和規劃任務。
除了基本模型的激活函數、LN、Softmax和大矩陣乘法加速之外,自動駕駛任務中的Transformer模型還有一個特殊的可變形注意力算子。其可學習的位置參數會導致與每個查詢相關的數據出現一些不規則性,這增加了圖像數據硬件上的緩存壓力,并使并行加速變得困難。
展開 BEV圖像處理對自動駕駛系統的性能優化
本文以BEV圖像處理原理說明其在自動駕駛感知能力上能解決的場景應用,相信在機器視覺這一領域,BEV的研究成果也可以很好的應用在自動駕駛研究過程中。
大模型技術在自動駕駛中的應用
感知可粗略分為獲取數據、提取特征、完成感知任務三個環節,按照信息融合發生的環節自動駕駛感知技術可以分為前融合、特征融合以及后融合。特征級融合逐步取代后融合,BEV+Transformer 為當前主流方案;特征級融合方案相比于后融合數據損失小、相比于前融合的算力消耗低,自動駕駛感知技術從后融合向特征級融合迭代趨勢明確,目前主流的方案是在 3/4D 空間中進行特征級融合。BEV(Bird's Eye View)鳥瞰圖也可以稱之為“上帝視角”,是一種用于描述感知世界的坐標系,在 BEV 空間中可以進行自動駕駛感知模塊的前融合、特征級融合或者后融合。BEV 鳥瞰圖僅是一種對感知世界的表達方式,因此其也可廣泛應用在純視覺方案、多傳感器融合方案以及車路協同方案中。
在 BEV 空間中做特征級融合早期的代表性算法為英偉達 2020 年提出的 LSS 算法,是基于深度分布估計進行 BEV 空間轉換的開山之作。Transformer 交叉注意力機制對于 BEV 空間轉換任務適配性較高,目前成為特斯拉、小鵬等 自動駕駛廠商主流的技術方案。下圖為特斯拉基于 Transformer 的 BEV 空間轉換架構。高精地圖能夠提供超視距、厘米級相對定位及導航信息,在數據和算法尚未成熟到脫圖之前,尤其針對國內的復雜路況,其對主機廠實現高階自動駕駛功能具有重要意義,現階段國內主機廠實現城市領航輔助駕駛落地的主要基于高精度地圖+單車感知的方案。
自動駕駛感知算法向 BEV+transformer 架構升級,助力城市領航輔助駕駛脫高精度地圖。
展開