
發布
注冊
/
登錄虛擬數據生成
關注創建者:匿名 創建時間:2025-12-15

虛擬數據生成的實例教程
一、前言
在自動駕駛感知系統的研發過程中,模型的性能高度依賴于大規模、高質量的感知數據集。目前業界常用的數據集包括 KITTI、nuScenes、Waymo Open Dataset 等,它們為自動駕駛算法的發展奠定了重要基礎。
然而,構建真實世界的感知數據集并非易事——不僅需要投入大量人力、物力與時間成本,還需要面對數據采集受限、隱私合規、標注耗時以及極端場景(corner case)難以獲取等諸多挑戰。
在此背景下,高保真虛擬數據集正成為自動駕駛感知算法研究的新方向。通過仿真平臺生成的虛擬數據,不僅能夠快速擴充數據規模,還可靈活構造復雜路況、惡劣天氣及罕見事件,為模型提供更全面的訓練樣本。
基于此,本文介紹全新的高保真虛擬數據集——SimData。SimData依托aiSim的高精度物理建模與逼真視覺渲染能力,能夠生成多傳感器同步數據(包括相機、激光雷達、雷達、IMU 等),實現與真實世界數據一致的多模態特性。SimData數據結構嚴格遵循nuScenes數據集格式規范,可直接使用官方nuscenes-devkit工具解析和可視化,大幅降低開發者上手成本。
本文將介紹SimData的核心特性與構建流程,并展示其在典型感知任務中的表現。SimData 正式版及相關對比測試報告將于近期發布。
二、SimData構建過程
1、傳感器布局
在 aiSim 仿真平臺中,我們嚴格復現了 nuScenes 數據集的傳感器布局,以確保數據結構和多模態同步特性的一致性。 仿真車輛共配置了 6 路環視相機、5 個雷達(Radar)、1 個激光雷達(LiDAR)、1 個慣性測量單元(IMU)以及 1 個定位系統(GPS)。 其中,相機與雷達的采樣頻率均為 40 Hz,激光雷達的采樣頻率為 80 Hz,能夠滿足高時序精度的多傳感器同步采集需求。
展開 在復雜裝備制造中,公差分析一直面臨兩個現實問題:一是計算效率低,二是數據用不起來。前者影響工程進度,后者影響質量穩定性。如何同時解決這兩個問題,成為公差工程升級的關鍵方向。
為此,誠智鵬基于MBD(基于模型設計)的公差分析,融合虛擬點建模能力,正在形成兩條并行路徑:一條解決“算得快”,一條解決“數據貫通”。
(圖1 MBD驅動的高效公差計算與數據閉環體系)
在計算側(圖1左側流程),3DCC通過“MBD +虛擬點建?!钡姆绞?,對傳統流程進行了明顯優化。工程師可以直接導入帶PMI標注的三維模型,無需重復定義公差;基于模型特征自動生成裝配約束與測量關系,減少虛擬特征創建;通過高集成度約束算法,降低約束數量和操作步驟。
這一變化的直接結果,是把原來分散、重復的建模工作前移并自動化。在汽車懸架、飛機機身接口等復雜裝配中,尺寸鏈分析效率可提升30%以上,明顯減少人工操作時間。
但在實際工程中,算得快只是第一步。更關鍵的問題是:這些公差數據能不能在后續環節繼續使用。
在數據側(圖1右側流程),MBD的作用開始體現出來。過去,設計用的是CAD模型,公差分析單獨建模,工藝和測量又是另一套數據,信息在不同系統之間反復轉換,不僅效率低,還容易出錯。而基于MBD的方式,是把公差、尺寸和裝配語義直接寫在三維模型里(PMI)。該模型作為統一數據載體,可被設計、仿真、工藝及測量等環節直接復用,避免多源數據重復構建。
以3DCC為例,公差分析直接基于MBD模型開展,可減少約20%的人工補錄,同時保證設計與制造階段的語義一致。在制造階段,測量數據可以回傳,用于驗證分析結果;在后續型號或批次中,這些數據還能作為參考繼續使用。
展開 在自動駕駛感知的下半場,數據已成為驅動算法迭代的核心燃料。然而,真實路測數據面臨著成本高昂、標注困難、極端場景(Corner Cases)難以覆蓋以及安全性受限等“卡脖子”問題。
面對這一核心痛點,虛擬仿真數據已成為解決方案中的關鍵角色,成為確保開發效率與安全性的不可或缺一環。免費獲取 | SimData高保真虛擬數據集開源發布,兼容nuScenes,開箱即用!文章中,簡單介紹了一下SimData數據集情況,本文將深度解析該SimData自動駕駛虛擬數據集——由aiSim仿真平臺構建,從數據生產工具鏈、數據集結構到基于BEVFormer的深度評測,全方位展示高保真合成數據的應用價值。
一、 從仿真到標準格式的工具鏈
虛擬數據要真正落地,首要解決的是與現有主流數據格式的兼容性。SimData方案不僅提供數據,更提供了一套完整的aisim2buscenes自動化轉換工具鏈,并且構建了虛擬數據集的評測流程框架。
虛擬數據集構建以及評測流程框架
1、無縫兼容 nuScenes
我們開發了自動化腳本與GUI工具,實現了從aiSim導出數據到nuScenes標準格式的一鍵轉換。
格式對齊:自動將aiSim原始數據(TGA圖像、LAS點云、Radar JSON)轉換為nuScenes兼容格式(JPG、BIN、PCD)。
結構一致:生成的文件夾結構(maps, samples, sweeps, v1.0-custom)可直接被官方nuscenes-devkit解析,無需修改現有訓練代碼。
智能切片:腳本支持多場景、多地圖轉換,默認每場景40關鍵幀(每10幀抽取1關鍵幀),自動處理非關鍵幀歸檔。
展開 表 2 動態仿真場景要素
環境要素
屬性
光照
強度、顏色、方位
霧/霾
能見度、范圍、濕度、密度、反射衰減
雨雪
降水量、濕度、反射衰減
風
強度、方向
云
相對位置
可以看出,環境場景數據相當復雜,目前行業內尚無通用的環境場景數據格式,在后續的OpenSCENARIO標準中計劃納入該部分數據。
自動駕駛虛擬仿真技術(一):自動駕駛虛擬仿真概述
自動駕駛虛擬仿真技術(二):仿真測試場景設計
新技術的運用,有助于仿真軟件走向智能化
仿真與大數據的碰撞
仿真的目的在于發現問題和預測未來,但在某些情況下,大數據可能做得更好。美國航空航天局(NASA)正是借助大數據來提前預知各種天文奇觀。大數據的出現,對各行業的文化、組織、管理、方法、技術等均提出了挑戰,仿真技術也不例外。
仿真是從模型到數據,而大數據則是數據到模型。大數據對建模仿真的挑戰主要體現在思維方式、科研方式和方法手段等方面,利用現有建模仿真技術處理大數據還存在問題。比如,傳統的仿真思維方式認為仿真是基于模型的活動,其科研方式是根據系統實驗的目標建立系統模型,進而建立仿真系統運行系統模型,最后再分析、處理模型運行結果。
那么,未來,仿真結合大數據會有怎樣的發展?這個問題還在探索中,但從目前來看,至少大數據為仿真結果的分析提供了更好的手段,為復雜系統的建模提供可新的出路,更為長遠地看,大數據有助于人類實現智能仿真。
圖1 仿真與大數據
仿真與虛擬現實的碰撞
虛擬現實是時下非?;鸨募夹g,但是很多人對仿真與虛擬現實都存在認識上的誤差,認為二者說得是一回事。其實,仿真技術與虛擬現實技術有著一定的相似點,但也存在差異性。
在感知方面,仿真以視覺和聽覺為主,而虛擬現實不僅有視覺、聽覺,還有觸覺等方面的感知,可以說仿真基本上將用戶視為“旁觀者”,而虛擬現實則將用戶視為“當局者”;在逼真度方面,仿真技術,仿真技術是對真實物理系統某一層次上的抽象,而虛擬技術采用實時三維圖像與顯示、三維聲音定位與合成技術、傳感器等技術,做到了人與環境的交互性,有非常高的逼真度。
縱觀當下工業仿真軟件,可視化、智能化的仿真已成趨勢,在仿真中運用虛擬現實技術,不僅能更加形象直觀地顯示仿真全過程,而且會讓計算機與人之間的溝通更人性化,增強仿真系統的尋優能力。
展開 
虛擬數據生成的相關專題、標簽、搜索
虛擬數據生成的最新內容
在復雜裝備制造中,公差分析一直面臨兩個現實問題:一是計算效率低,二是數據用不起來。前者影響工程進度,后者影響質量穩定性。如何同時解決這兩個問題,成為公差工程升級的關鍵方向。
為此,誠智鵬基于MBD(基于模型設計)的公差分析,融合虛擬點建模能力,正在形成兩條并行路徑:一條解決“算得快”,一條解決“數據貫通”。
(圖1 MBD驅動的高效公差計算與數據閉環體系)
在自動駕駛感知的下半場,數據已成為驅動算法迭代的核心燃料。然而,真實路測數據面臨著成本高昂、標注困難、極端場景(Corner Cases)難以覆蓋以及安全性受限等“卡脖子”問題。
面對這一核心痛點,虛擬仿真數據已成為解決方案中的關鍵角色,成為確保開發效率與安全性的不可或缺一環。免費獲取 | SimData高保真虛擬數據集開源發布,兼容nuScenes,開箱即用!文章中,簡單介紹了一下SimData
通過仿真平臺生成的虛擬數據,不僅能夠快速擴充數據規模,還可靈活構造復雜路況、惡劣天氣及罕見事件,為模型提供更全面的訓練樣本。
基于此,本文介紹全新的高保真虛擬數據集——SimData。SimData依托aiSim的高精度物理建模與逼真視覺渲染能力,能夠生成多傳感器同步數據(包括相機、激光雷達、雷達、IMU 等),實現與真實世界數據一致的多模態特性。
Virtual Formula 2025 ONLINE Phase
歷經三個月的精心準備和最后的精彩對決,由VI-grade舉辦,丹寧思工程全程贊助的2025年Virtual Formula虛擬方程式大賽-中國站線上賽于9月6日落下帷幕。
我們非常榮幸地宣布本屆虛擬方程式大賽的冠軍是——武漢理工大學油車隊(油車組)和武漢理工大學電車隊(電車組),同時榮獲丹寧思最好開獎的是
<p><br></p><p>如今,各行各業對生成式人工智能(GenAI)的參與度遠超以往。GenAI 發展迅猛,不斷帶來新的機遇與價值。然而,對企業而言,實施 GenAI 常面臨諸多挑戰,或覺其難以駕馭,或擔憂風險過高。</p><p><br></p><p>盡管存在一定局限,但<strong>技術的進步以及知識圖譜等工具的出現,正不斷強化 GenAI 的數據分析能力。</strong>在用戶 AI 環境中引入知識圖譜
在使用 CAD 對工程和地形圖進行繪制的過程中,我們經常需要在圖紙上生成橫斷面數據。那么如何在 CAD 中生成橫斷面數據?本篇文章將介紹幾種常見的生成橫斷面數據的方法:
方法一:使用 CAD 插件
一些 CAD 插件專門用于生成橫斷面數據,特別是用于土木工程和地形圖。這些插件通常提供從已有數據生成橫斷面的功能。
方法二:創建基礎幾何形狀
1. 創建基礎幾何:使用 CAD 中的多段線
自動標注可以解決標注的效率問題,但是對于一些罕見的場景,比如報告中所演示的在高速公路上奔跑的行人,還需要借助模擬器來生成虛擬數據。以上所有這些技術組合起來,才構成了Tesla完整的數據收集和標注系統。
自動標注可以解決標注的效率問題,但是對于一些罕見的場景,比如,中金《人工智能十年展望(三):AI 視角下的自動駕駛行業全解析》報告中所演示的在高速公路上奔跑的行人,還需要借助模擬器來生成虛擬數據。
以上所有這些技術組合起來,才構成了 Tesla 完整的深度學習網絡、數據收集和標注系統。
自動標注可以解決標注的效率問題,但是對于一些罕見的場景,比如報告中所演示的在高速公路上奔跑的行人,還需要借助模擬器來生成虛擬數據。以上所有這些技術組合起來,才構成了Tesla完整的數據收集和標注系統。關于數據的問題,這里只是稍微涉及了一點,完整的工作鏈還是相當復雜的,之后專欄中會有專門的文章進行這方面的探討。
備注:
點擊閱讀原文,關注作者知乎。
圖15,可以從真實數據中生成虛擬數據,幫助Debug
當前,Tesla車端部署的模型早已用上了虛擬數據做訓練,虛擬數據的規模為37.1億張圖片,4.8億標注。這樣的數據,用"核燃料庫"來比喻毫不為過。