
發(fā)布
注冊
/
登錄神經(jīng)渲染的案例
3D Gaussian Splatting從入門到精通——純PyTorch實(shí)現(xiàn)(全套案例) ¥30
在本課程中,你將深入探索3D高斯?jié)姙R這一尖端神經(jīng)渲染技術(shù),親手實(shí)踐每個(gè)環(huán)節(jié):
- 解析COLMAP輸出以獲取相機(jī)姿態(tài)和稀疏重建結(jié)果
- 理解并實(shí)現(xiàn)作為場景表示的3D高斯基元
- 構(gòu)建可訓(xùn)練的神經(jīng)渲染流水線,建模視角相關(guān)輻射
- 編寫高斯?jié)姙R的訓(xùn)練循環(huán)與優(yōu)化策略
- 創(chuàng)建實(shí)時(shí)可微分渲染器,生成照片級真實(shí)感圖像
- 探索復(fù)雜3D數(shù)據(jù)的可視化技術(shù)
本課程非常適合以下人群:
- 希望深入理解3D高斯?jié)姙R算法細(xì)節(jié)的研究人員、研究生和開發(fā)者
- 對神經(jīng)渲染感興趣,或希望從零實(shí)現(xiàn)高級3D視覺技術(shù)的Python/PyTorch開發(fā)者
- 希望避開CUDA密集型代碼庫,轉(zhuǎn)而構(gòu)建清晰、可修改的實(shí)驗(yàn)流水線的人士
- 在計(jì)算機(jī)視覺、圖形學(xué)或AI領(lǐng)域工作,希望探索或擴(kuò)展3DGS方法用于研究或原型開發(fā)的個(gè)體
- 熟悉NeRF或類似方法,希望了解3DGS如何與之比較以及為何在速度和質(zhì)量上表現(xiàn)更優(yōu)的學(xué)習(xí)者
你需要具備:
- Python編程技能
- 熟悉PyTorch和NumPy
課程結(jié)束時(shí),你將擁有一個(gè)完整可運(yùn)行的3D高斯?jié)姙R實(shí)現(xiàn),可用于修改、擴(kuò)展,并作為你自己研究或項(xiàng)目的基礎(chǔ)。
展開 Nerf和3DGS神經(jīng)重建技術(shù)在自動(dòng)駕駛模擬中的應(yīng)用
為此,本文為您介紹神經(jīng)重建如何打破限制,在自動(dòng)駕駛模擬中的具體應(yīng)用。</p><h2>一、神經(jīng)渲染——彌合差距</h2><p>神經(jīng)渲染可以利用深度學(xué)習(xí)技術(shù)來緩解這個(gè)問題,它可以從一個(gè)新的視角上逼真地渲染靜態(tài)(和動(dòng)態(tài))環(huán)境。當(dāng)然這種方法也存在一定的優(yōu)劣點(diǎn):</p><h3>1、優(yōu)點(diǎn):</h3><p>(1)高保真的仿真質(zhì)量:神經(jīng)渲染可以產(chǎn)生幾乎和現(xiàn)實(shí)無異的場景,增強(qiáng)現(xiàn)實(shí)感。</p><p>(2)數(shù)據(jù)驅(qū)動(dòng)和可擴(kuò)展:這種方法具有可擴(kuò)展性,使其適用于實(shí)時(shí)應(yīng)用(如3D高斯?jié)姙R)。</p><h3>2、缺點(diǎn):</h3><p>(1)分布外的對象:神經(jīng)渲染很難將分布外(即以前未見過的)的對象插入 3D 環(huán)境中。</p><p>(2)偽影對動(dòng)態(tài)物體的影響:偽影可能會(huì)影響動(dòng)態(tài)物體的外觀。</p><p>(3)幾何不一致:在深度預(yù)測中,可能會(huì)出現(xiàn)幾何不一致。</p><h2>二、現(xiàn)有生成模型的挑戰(zhàn)</h2><p>目前的生成模型能夠創(chuàng)建高度逼真的圖像和視頻,但它們在幾個(gè)方面存在不足,例如:</p><p>(1)僅 2D 信息:這些模型不提供 3D 信息,僅在 2D 圖像空間中操作。</p><p>(2)射影幾何的空白:更多內(nèi)容請參見https://arxiv.org/abs/2311.17138</p><p>(3)有限的傳感器模態(tài):這些模型不能用于生成其他傳感器模態(tài)(例如,激光雷達(dá))。</p><p>總之,當(dāng)前的生成模型不適合汽車級驗(yàn)證。</p><h2>三、康謀混合解決方案:集成式神經(jīng)重建</h2><p>為了解決這些限制,aiSim5提供了一種混合方案。在成熟的基于物理的渲染方案中集成最前沿的神經(jīng)重建技術(shù),使我們能夠在任意位置虛擬地插入動(dòng)態(tài)對象,調(diào)整環(huán)境條件,并渲染以前未見過的相機(jī)視角。
展開 康謀方案 | 高精LiDAR+神經(jīng)渲染3DGS的完美融合實(shí)踐
本文為大家詳細(xì)介紹如何用傳統(tǒng)與前沿結(jié)合的數(shù)字孿生構(gòu)建流程,再配合3DGS 的神經(jīng)網(wǎng)絡(luò)重建技術(shù),為自動(dòng)駕駛仿真測試注入真正的“現(xiàn)實(shí)之眼”。
一、從點(diǎn)云到高精地圖的重建
依托獨(dú)家的aiData工具鏈與aiSim仿真平臺(tái),本文建立了一套高精度數(shù)字孿生地圖構(gòu)建流程,已經(jīng)廣泛應(yīng)用于布達(dá)佩斯 Kolosy廣場、ZalaZone測試場等真實(shí)道路還原項(xiàng)目。整個(gè)流程包括:
(左)帶有標(biāo)注的HD地圖、(中)裝飾HD地圖、(右)aiSim中渲染
1、數(shù)據(jù)采集
采用搭載激光雷達(dá)(LiDAR)、高精度GNSS/INS系統(tǒng)的測繪車(如康謀DATALynx ATX4)執(zhí)行移動(dòng)激光掃描(MLS),通過aiData Recorder進(jìn)行錄制,主要路線至少繪制兩次,確保厘米級空間精度。
數(shù)采車示意圖
2、點(diǎn)云聚合
使用aiData Annotator將多幀點(diǎn)云拼接為統(tǒng)一的全局坐標(biāo)系,結(jié)合反射率、時(shí)間戳等多通道信息形成高密度、低誤差的空間點(diǎn)集。
Tips:詳細(xì)數(shù)據(jù)采集精度和點(diǎn)云數(shù)據(jù)格式可聯(lián)系康謀技術(shù)團(tuán)隊(duì)獲取,可接受第三方數(shù)據(jù),但建議在采集前與我們技術(shù)團(tuán)隊(duì)溝通優(yōu)化策略。
3、高精地圖建模
基于聚合點(diǎn)云手工標(biāo)注道路元素:車道線、交通標(biāo)志、人行道、護(hù)欄、紅綠燈等。輸出為GeoPackage格式的HD Map,用于自動(dòng)駕駛系統(tǒng)參考。
ZalaZone試驗(yàn)場 LiDAR點(diǎn)云建模
ZalaZone試驗(yàn)場衛(wèi)星參考圖像
4、三維建模與裝飾
借助Atlas程序化建模引擎,生成道路、地形等基礎(chǔ)結(jié)構(gòu),再通過aiSim Unreal插件手工裝飾建筑、植被、街景設(shè)施,最大程度復(fù)現(xiàn)現(xiàn)實(shí)細(xì)節(jié)。
展開 康謀分享 | 汽車仿真與AI的結(jié)合應(yīng)用
aiSim也不例外,因此我們會(huì)更加關(guān)注于多個(gè)因素的協(xié)調(diào),其中,aiSim傳感器實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)渲染仿真方案,在aiSim能夠在現(xiàn)有功能上實(shí)現(xiàn)多用途擴(kuò)展的同時(shí),也可以最大程度上保留原始特性。
一、現(xiàn)有問題
從當(dāng)前學(xué)術(shù)界對于神經(jīng)渲染的研究來看,不同的方案都會(huì)給虛擬世界帶來一定的限制,從而無法讓仿真充分發(fā)揮作用。我們在aiSim中提供了一種不同且具有更高集成度的方案,即aiSim的通用高斯?jié)姙R渲染器(General Gaussian Splatting Renderer),這一方案結(jié)合了渲染速度、集成靈活性和卓越的視覺保真效果,為當(dāng)下的神經(jīng)網(wǎng)絡(luò)三維重建技術(shù)帶來了新的內(nèi)容。
其中一點(diǎn)就是傳統(tǒng)方案中,廣角鏡頭的渲染和處理總是不盡人意,但這一傳感器又是自動(dòng)駕駛仿真中最為常見的用例之一,但在aiSim的方案中我們克服了這一局限性。
二、康謀方案
原始的算法在高斯?jié)姙R投射的處理過程中往往會(huì)引入若干限制,阻礙了傳感器的合理渲染,主要源于是近似誤差(approximation error),當(dāng)處理FOV更大的鏡頭時(shí),誤差會(huì)顯著增大。
左邊是原始解決方案,它無法從六個(gè)攝像頭中一致地生成圖像。右邊是aiSim的解決方案,它消除了這個(gè)問題,并能投射出一致的圖像。
這種獨(dú)有的方案不僅能夠處理相機(jī)傳感器,還能夠處理其他基于光線追蹤的傳感器類型,比如LiDAR和Radar。而在之前的ADAS/AD仿真中,無法擴(kuò)展到不同傳感器模式則是大多數(shù)神經(jīng)渲染解決方案面臨的最大挑戰(zhàn)之一。
為此,我們重現(xiàn)思考了高斯?jié)姙R解決方案,重建算法流程,通過新一套的高斯?jié)姙R渲染器完美解決了前述的限制,完美的組合了各種虛擬鏡頭組合的畸變圖像。
展開 
生成式 AI 重塑自動(dòng)駕駛仿真:4D 場景生成技術(shù)的突破與實(shí)踐
在不同技術(shù)路徑中,上述能力往往由多個(gè)模塊聯(lián)合實(shí)現(xiàn),從數(shù)據(jù)驅(qū)動(dòng)的軌跡預(yù)測模型,到神經(jīng)渲染網(wǎng)絡(luò),再到多模態(tài)融合仿真接口,共同構(gòu)成完整的4D場景生成流水線。
三、核心技術(shù)解析
1、Neural Radiance Fields(NeRF)
NeRF是一種基于神經(jīng)網(wǎng)絡(luò)的體積渲染方法,通過對空間點(diǎn)位置與觀察方向的編碼,學(xué)習(xí)輸出每個(gè)點(diǎn)的顏色與密度,實(shí)現(xiàn)高質(zhì)量的三維重建與新視角圖像合成。
(1)技術(shù)特點(diǎn)
- 具備極高的渲染保真度;
- 支持任意視角合成,適用于多視圖重建任務(wù);
- 對遮擋、反射、透明等復(fù)雜視覺效果建模能力強(qiáng)。
(2)局限性
- 訓(xùn)練效率低,渲染速度慢;
- 不原生支持動(dòng)態(tài)場景;
- 依賴多視角密集數(shù)據(jù)輸入。
NeRF更適合作為小規(guī)模高精重建模塊,用于城市局部區(qū)域或典型交互區(qū)域建模。
EmerNeRF的自動(dòng)駕駛場景重建真值/渲染值對比
2、3D Gaussian Splatting(3DGS)
3D Gaussian Splatting 是近年來提出的高效神經(jīng)渲染方法,由 Inria 團(tuán)隊(duì)于 2023 年發(fā)布。它采用高斯分布建模離散點(diǎn)云,在屏幕空間進(jìn)行潑濺(splatting)操作,從而實(shí)現(xiàn)對三維場景的實(shí)時(shí)渲染。不同于 NeRF 使用體積積分的方式,3DGS 將空間中的顏色和密度建模為可渲染的高斯球體,渲染效率顯著提升。
其主要優(yōu)勢包括:
(1)極高的渲染效率:相比 NeRF 快數(shù)百倍,可實(shí)現(xiàn)實(shí)時(shí)或近實(shí)時(shí)的圖像合成;
(2)訓(xùn)練速度快:幾十秒到幾分鐘即可完成一個(gè)中等規(guī)模場景的建模;
(3)結(jié)構(gòu)緊湊,易于部署:渲染結(jié)構(gòu)不依賴深度網(wǎng)絡(luò)推理,適合本地仿真引擎嵌入;
(4)視覺質(zhì)量優(yōu)異:保留了 NeRF 的軟陰影、光照過渡與遮擋關(guān)系等特性。
展開 解鎖端到端仿真新可能 :全新aiSim 6 即將發(fā)布
01 前言
隨著端到端自動(dòng)駕駛從學(xué)術(shù)探索走向規(guī)模化應(yīng)用,無論是特斯拉 FSD 神經(jīng)模擬器、Waymo 基于 DeepMind Genie 3 的世界模型,還是國內(nèi)主流車企的數(shù)據(jù)閉環(huán)體系,均在表明仿真系統(tǒng)的定位已從傳統(tǒng)測試執(zhí)行工具,升級為支撐算法訓(xùn)練的核心數(shù)據(jù)基礎(chǔ)設(shè)施。
尤其需要重視的是,端到端模型直接消費(fèi)傳感器數(shù)據(jù)進(jìn)行訓(xùn)練,這對仿真提出了三個(gè)過去從未被充分重視的要求:
其一,光照覆蓋的系統(tǒng)性缺口。 3D Gaussian Splatting(3DGS)已成為業(yè)界神經(jīng)場景重建的主流路線之一,但其結(jié)構(gòu)性局限在于:光照信息被"烘焙"進(jìn)點(diǎn)云,無法動(dòng)態(tài)調(diào)整。一條在正午采集的路段,無法在不重新出行采集的情況下還原為夜間或雨后場景——而端到端模型需要在所有光照條件下都有足夠的訓(xùn)練樣本。
其二,長尾邊緣場景的物理真實(shí)性缺失。 落葉被氣流卷起、雨天水花飛濺、井蓋蒸汽彌漫——這些在真實(shí)道路上極低頻率出現(xiàn)的物理現(xiàn)象,恰恰是傳感器容易誤判的高風(fēng)險(xiǎn)場景。傳統(tǒng)仿真無法對這類流體動(dòng)力學(xué)效應(yīng)進(jìn)行物理級建模,導(dǎo)致算法在此類場景下的泛化能力無法被有效驗(yàn)證。
其三,場景生成效率與算法迭代速度的錯(cuò)配。 端到端模型對場景多樣性的需求呈指數(shù)級增長,但 OpenSCENARIO 場景的手工編寫效率幾乎沒有本質(zhì)改變。當(dāng)算法團(tuán)隊(duì)每周迭代,而測試場景庫每季度才能更新,驗(yàn)證管線就會(huì)成為整個(gè)研發(fā)體系的瓶頸。
面向上述背景的下一代自動(dòng)駕駛開發(fā)范式,aiSim 6 針對端到端模型訓(xùn)練與驗(yàn)證的核心痛點(diǎn),進(jìn)行了非常規(guī)版本迭代,而是在神經(jīng)渲染、AI 場景工作流、物理仿真三大領(lǐng)域進(jìn)行系統(tǒng)性重構(gòu),并計(jì)劃于2026 年上半年正式發(fā)布
02 全新aiSim 6即將發(fā)布
這不是一次常規(guī)版本迭代——aiSim 6 是針對下一代自動(dòng)駕駛開發(fā)范式的系統(tǒng)性重構(gòu),在神經(jīng)渲染、AI 原生工作流、物理仿真三個(gè)維度同步推進(jìn)。
展開 aiSim 5.11.0 正式發(fā)布:動(dòng)態(tài)落葉、HiL工具鏈、資產(chǎn)庫全面升級!
aiSim Web 傳感器編輯器更新
地圖編輯方面,神經(jīng)渲染的GS地圖支持從本地導(dǎo)入,完全兼容編輯、烘焙和仿真。用戶可上傳 GLB 格式的自定義 3D 資產(chǎn),像原生資產(chǎn)一樣使用。內(nèi)容瀏覽器也得到優(yōu)化,資產(chǎn)信息增加了語義標(biāo)簽、包圍盒和三角面數(shù)等詳情。
自適應(yīng)泛化功能現(xiàn)支持創(chuàng)建自定義指標(biāo)。aiFab Web 還增加了約束迭代、整型/浮點(diǎn)型參數(shù)支持、貝葉斯優(yōu)化診斷圖、資源顏色標(biāo)記、關(guān)鍵值紅色高亮等功能。
aiFab 工作空間在運(yùn)行四次迭代后
aiSim 內(nèi)容瀏覽器用戶體驗(yàn)更新
其他工具改進(jìn)包括:車輛燈光節(jié)點(diǎn)可重定位并實(shí)時(shí)預(yù)覽;視場角調(diào)整同步影響預(yù)覽面板;自車燈光節(jié)點(diǎn)支持一鍵開關(guān);表達(dá)式支持在 Scenario Context 中計(jì)算;外部控制器目錄可直接加載。
三、更豐富的資產(chǎn)
仿真測試覆蓋的場景越多,算法驗(yàn)證就越充分。
資產(chǎn)庫新增了大量內(nèi)容。動(dòng)物模型包括德國牧羊犬、狍鹿(雄/雌)、馬鹿(雄)和赤狐,每種動(dòng)物帶有不同移動(dòng)速度。
新的森林和城市動(dòng)物模型
車輛模型新增 UD Trucks Quon GW Quester 2022(帶箱體和不帶箱體)、Hyundai Ioniq 5 XRT 2025 和 Kia EV4 Fastback 2025。
同時(shí)新增了建筑、建筑元素、道具、交通標(biāo)志及行人模型。
內(nèi)容管線方面,新增從 GeoPackage 自動(dòng)創(chuàng)建 OpenDRIVE 地圖的管線。Atlas CLI 現(xiàn)支持將 OpenDRIVE 導(dǎo)出為 glTF 文件,也支持從 glTF 導(dǎo)入自定義資產(chǎn)。車輛動(dòng)力學(xué)資產(chǎn)創(chuàng)建工具可一鍵生成動(dòng)力學(xué)數(shù)據(jù)。
展開 NeuroFluid: 流體仿真的人工智能新范式
針對流體力學(xué)模型難以刻畫和求解的問題,本文提出一種名為NeuroFluid的神經(jīng)網(wǎng)絡(luò)方法,實(shí)現(xiàn)流體動(dòng)態(tài)反演(fluid dynamics grounding),即根據(jù)稀疏視角下對流體的2D表觀視覺觀察,推斷推流體內(nèi)在的3D物理運(yùn)動(dòng)狀態(tài),例如粒子的速度和位置等。如圖2所示,NeuroFluid包含基于神經(jīng)網(wǎng)絡(luò)的流體粒子狀態(tài)轉(zhuǎn)移模型(Particle Transition Model)和由粒子驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)渲染器(PhysNeRF),并將二者整合到一個(gè)端到端的聯(lián)合優(yōu)化框架中。優(yōu)化過程包含三個(gè)階段:
1. 模擬:粒子狀態(tài)轉(zhuǎn)移模型根據(jù)初始狀態(tài)(可用立體視覺方法粗估)預(yù)測流體粒子在后續(xù)時(shí)刻的運(yùn)動(dòng)軌跡;
2. 渲染:神經(jīng)網(wǎng)絡(luò)渲染器PhysNeRF(圖2右)根據(jù)粒子的幾何信息將模擬結(jié)果渲染成圖像;
3. 比對:渲染圖像和真實(shí)圖像比對,計(jì)算誤差,通過梯度反向傳遞優(yōu)化模型參數(shù)。
圖2. NeuroFluid的訓(xùn)練過程(圖左)及PhysNeRF的渲染示意(圖右)
本文使用的流體數(shù)據(jù)(HoneyCone、WaterCube、WaterSphere)具有不同的物理屬性(如密度、粘度、顏色)或初始狀態(tài)(如流體粒子位置、整體形態(tài))。
下列的實(shí)驗(yàn)從粒子動(dòng)態(tài)反演、未來狀態(tài)預(yù)測、新視角圖像渲染、PhysNeRF域外場景泛化,驗(yàn)證了NeuroFluid的有效性。
展開 視覺重建到物理仿真,3DGS如何走向工程應(yīng)用?
二、從重建到表達(dá)
3DGS 的核心思想,是使用一組三維高斯對場景進(jìn)行顯式表示,并通過可見性感知的 splatting 渲染,實(shí)現(xiàn)高質(zhì)量的新視角合成。相較于傳統(tǒng) NeRF,3DGS 在訓(xùn)練效率、渲染速度以及細(xì)節(jié)保真度方面表現(xiàn)出明顯優(yōu)勢,因此迅速成為三維重建與神經(jīng)渲染領(lǐng)域的重要路線。
但 3DGS 的真正潛力,并不只體現(xiàn)在渲染效率上。
更關(guān)鍵的是,這種表示方式是顯式的、可編輯的,并且天然適合附加更多屬性。一個(gè)高斯不僅可以用于表達(dá)顏色和密度,還可以逐步綁定與幾何、材質(zhì)、運(yùn)動(dòng)、應(yīng)力相關(guān)的狀態(tài)信息。這意味著,3DGS 不只是一個(gè)“顯示世界”的方法,也有機(jī)會(huì)成為一個(gè)“組織世界”的方法。
從技術(shù)演進(jìn)的角度看,這一點(diǎn)非常重要。因?yàn)橐坏┮环N三維表示既能服務(wù)于重建,又能服務(wù)于交互、光照和物理求解,它就具備了成為統(tǒng)一場景底座的條件。
三、3DGS物理交互與光學(xué)仿真關(guān)鍵技術(shù)
1、3DGS物理交互
在仿真場景中,僅僅完成高保真重建是不夠的。
一個(gè)場景如果只能被觀看,而不能發(fā)生接觸、碰撞、形變和響應(yīng),那么它依然更接近靜態(tài)資產(chǎn),而不是可用于驗(yàn)證的數(shù)字環(huán)境。因此,3DGS 是否能夠進(jìn)入物理交互層,是其能否真正走向仿真的關(guān)鍵一步。
CVPR 2024 的PhysGaussian 提供了一個(gè)具有代表性的方向[1]。這項(xiàng)工作嘗試讓同一組三維高斯同時(shí)承擔(dān)渲染與物理仿真的職責(zé),并通過定制化的 Material Point Method 為高斯附加運(yùn)動(dòng)學(xué)形變和機(jī)械應(yīng)力屬性,以支持彈性體、塑性材料、流體、顆粒體以及碰撞等場景。
這類研究的意義,不在于單純“讓模型動(dòng)起來”,而在于開始打通真實(shí)場景重建與物理動(dòng)態(tài)求解之間的表示鴻溝。過去,真實(shí)世界采集、三維建模和物理仿真往往屬于分離流程,中間需要大量人工建模與數(shù)據(jù)轉(zhuǎn)換。
展開 探討如何構(gòu)建端到端高置信度驗(yàn)證體系?
材質(zhì)誤差:主要體現(xiàn)在物理渲染(PBR)參數(shù)(如基礎(chǔ)色、粗糙度、金屬度)與真實(shí)世界的不符。ASAM OpenMATERIAL等標(biāo)準(zhǔn)的出現(xiàn),旨在通過標(biāo)準(zhǔn)化物理材質(zhì)屬性(如折射率、表面粗糙度)來減少這類偏差[1]。
光照誤差:自然光模型需考慮太陽位置、大氣散射(瑞利/米氏散射)的物理過程。人造光源則需依賴標(biāo)準(zhǔn)的IES光域網(wǎng)文件來描述其空間光強(qiáng)分布。光照模型偏差會(huì)導(dǎo)致場景中的陰影、高光分布失真,干擾依賴視覺特征的算法。
(2)基于真值(GT)通道的誤差評估與新興重建技術(shù)
為量化上述誤差,業(yè)界主要依托GT通道進(jìn)行精準(zhǔn)評估,并運(yùn)用NeRF/GS等新興技術(shù)進(jìn)行高保真重建
GT通道的作用:仿真環(huán)境可以生成完美的像素級真值數(shù)據(jù),如深度圖、法線圖、語義分割圖等。通過對比真實(shí)傳感器采集的深度數(shù)據(jù)與仿真渲染的深度圖,可以精確評估場景的幾何誤差(MAE/RMSE)。
神經(jīng)輻射場(NeRF)/高斯濺射(GS)技術(shù)的應(yīng)用與驗(yàn)證:NeRF/GS等神經(jīng)渲染技術(shù)能夠從多視角圖像中重建出高逼真的三維場景,極大地提升了場景的真實(shí)感和重建效率[2]。但其置信度同樣需要嚴(yán)格驗(yàn)證:
精度評估:通過與高精度激光掃描儀采集的地面真實(shí)點(diǎn)云進(jìn)行對比,評估NeRF/GS重建場景的幾何精度(點(diǎn)云RMSE)[3].
對齊方法:將重建場景與車載高精地圖(HD Map)進(jìn)行坐標(biāo)對齊,確保語義元素(車道線、交通標(biāo)志)位置一致。
驗(yàn)證流程:在重建場景的虛擬相機(jī)位姿下,渲染圖像并與拍攝的真實(shí)照片進(jìn)行光照一致性對比,使用PSNR、SSIM等圖像質(zhì)量指標(biāo)進(jìn)行量化評估。同時(shí),驗(yàn)證其在多模態(tài)傳感器(相機(jī)+LiDAR)下的一致性。
3、動(dòng)態(tài)場景還原偏差
動(dòng)態(tài)場景的挑戰(zhàn)在于時(shí)空四維的精確復(fù)現(xiàn),誤差來源更加復(fù)雜,涉及數(shù)據(jù)采集、軌跡重建和行為建模等多個(gè)環(huán)節(jié)。
展開 自動(dòng)駕駛の核燃料庫!Tesla數(shù)據(jù)標(biāo)注系統(tǒng)解析
圖11,仿真首先需要準(zhǔn)確模擬相機(jī)各種特性
2)逼真的渲染
:仿真需要實(shí)現(xiàn)接近真實(shí)的渲染,不能出現(xiàn)類似于游戲中的那種虛假畫面。為此,Tesla團(tuán)隊(duì)用上了神經(jīng)渲染(Neural Rendering)來保證渲染效果;用光線追蹤(ray tracing)來保證逼真的光照效果。
圖12,渲染效果,你敢相信這個(gè)圖是假的?
3)豐富的場景及演員
。為了防止感知模型過擬合到幾種車型或是單一的場景,Tesla團(tuán)隊(duì)設(shè)計(jì)了很多的“演員”以及“道具”放到虛擬的世界中,包括形形色 色的汽車和穿著各異的行人。
同時(shí)還設(shè)計(jì)了總里程超過2000Miles的虛擬道路,里程相當(dāng)于美國東西海岸之間的距離。
馬老板果然大手筆,有沒有感覺像是一個(gè)活生生的“西部世界”!
圖13,仿真需要多樣的演員和場景
4)大規(guī)模場景生成
。前面提到的虛擬數(shù)據(jù)只是冰山一角,Ashok說到,真實(shí)用來訓(xùn)練模型的數(shù)據(jù)是由這些素材按照一定章程,使用算法生成的。道路的曲率,樹木的形狀和分布,雪糕筒的擺放,電線桿,以及以各種速度前進(jìn)的車輛等等各種交通參與物都可以根據(jù)需要設(shè)置,像天氣和光照條件什么的更不在話下。
隨機(jī)地使用這些素材生成訓(xùn)練數(shù)據(jù)固然可以,但是大多數(shù)生成的場景下模型都可以表現(xiàn)的很好了,所以Tesla團(tuán)隊(duì)會(huì)使用一些基礎(chǔ)的機(jī)器學(xué)習(xí)算法,讓模型找到容易出錯(cuò)的場景,然后根據(jù)相應(yīng)的場景生成跟多數(shù)據(jù),再來訓(xùn)練模型。
這樣,數(shù)據(jù)和模型的閉環(huán)完成了,隨著不斷迭代,性能會(huì)一路提升。
圖14,通過調(diào)整各項(xiàng)參數(shù),可以生成各種場景
5)場景重建。
展開 
萬字長文解析特斯拉自動(dòng)駕駛體系
準(zhǔn)確的傳感器仿真
為了真實(shí)的模擬現(xiàn)實(shí)世界場景,要求仿真渲染要盡可能做到逼真,特斯拉利用神經(jīng)網(wǎng)絡(luò)渲染技術(shù)來提升視覺渲染效果,同時(shí)用光線追蹤的方法來模擬逼真的光照效果。
逼真的視覺渲染
為了避免仿真環(huán)境過于單一,導(dǎo)致感知系統(tǒng)過擬合的問題,特斯拉對仿真環(huán)境參與物進(jìn)行了充分的建模,包括多元交通參與者(例如車、行人等)和靜態(tài)環(huán)境物(例如建筑、樹、道路等)等,截至最新Tesla AI Day公開的信息,特斯拉總共已經(jīng)繪制了2000+公里的道路環(huán)境。
多元交通參與者與地理位置
針對自動(dòng)駕駛可能遇到的各種場景,構(gòu)建了大規(guī)模的可擴(kuò)展場景庫,由計(jì)算機(jī)通過調(diào)整參數(shù)生成不同的場景形態(tài),例如道路曲度等,同時(shí)由于大量的仿真場景可能是無用的,例如實(shí)際該場景下汽車的決策已經(jīng)正確,為了避免計(jì)算資源的浪費(fèi),特斯拉還引入了MLB等神經(jīng)網(wǎng)絡(luò)用來尋找故障點(diǎn),重點(diǎn)圍繞故障點(diǎn)進(jìn)行仿真數(shù)據(jù)創(chuàng)建,反哺實(shí)際規(guī)劃網(wǎng)絡(luò),形成閉環(huán)。
大規(guī)模場景生成
除了直接在虛擬場景中進(jìn)行仿真訓(xùn)練,特斯拉還希望可以在仿真環(huán)境中重現(xiàn)真實(shí)世界場景,以便可以復(fù)現(xiàn)FSD失敗的場景,實(shí)現(xiàn)在仿真環(huán)境下的優(yōu)化迭代后再反哺汽車算法模型,實(shí)現(xiàn)“數(shù)據(jù)閉環(huán)”,因此在完成真實(shí)世界片段的自動(dòng)標(biāo)注重建后,再疊加視覺圖像信息,生成與真實(shí)世界“孿生”的虛擬世界。
場景重現(xiàn)
特斯拉通過仿真獲得的虛擬數(shù)據(jù)規(guī)模已達(dá)到37.1億張圖片及4.8億標(biāo)注,且已實(shí)際融入車端模型中,用以提升FSD性能。
04 算力
上面對特斯拉自動(dòng)駕駛所采用的算法架構(gòu)和數(shù)據(jù)閉環(huán)進(jìn)行了介紹,而超大規(guī)模的數(shù)據(jù)和高性能的算法均需要強(qiáng)大的算力支撐,特斯拉為此自研打造了服務(wù)于自動(dòng)駕駛的全球最強(qiáng)超級計(jì)算機(jī)——Dojo。
展開 回顧特斯拉AutopilotAI總監(jiān)AK上任以來的報(bào)告
AK第一次亮相是在2017.11.11在Medium發(fā)表的文章SW2.0,沒有理解錯(cuò)的話,就是一個(gè)全神經(jīng)網(wǎng)絡(luò)平臺(tái),端到端(E2E)的深度學(xué)習(xí)模型。
他的解釋是:指定一些目標(biāo)(例如,“滿足輸入輸出示例對的數(shù)據(jù)集”或“贏得圍棋比賽”),編寫代碼的粗略骨架(即一種神經(jīng)網(wǎng)絡(luò)架構(gòu)),識(shí)別要搜索的程序空間子集,并使用計(jì)算資源來搜索該空間尋找有效的程序;將搜索限制在程序空間的一個(gè)連續(xù)子集,在神經(jīng)網(wǎng)絡(luò)的搜索通過反向傳播(BP)和隨機(jī)梯度下降(SGD)變得高效。
隨后,2018年在Spark+AI Summit‘18,AK再次闡述了這個(gè)SW 2.0理念:
同時(shí),在這個(gè)Spark有關(guān)的會(huì)議上,他介紹了特斯拉的AI工作:數(shù)據(jù)標(biāo)注和數(shù)據(jù)閉環(huán)引擎。
這個(gè)時(shí)候,他對數(shù)據(jù)的選擇使用的是“notice a problem“。
展開