特斯拉AI Day最硬核的解讀來了!清華博導(dǎo)分析6大關(guān)鍵點
不靠激光雷達(dá)和高精地圖,特斯拉的底氣都在這里。
在剛剛過去的國慶節(jié),特斯拉舉辦了第二屆AI Day活動,在活動上除了展示了其人形機(jī)器人Optimus的原型機(jī)、自研的Dojo超算,還重點介紹了其自動駕駛FSD的更多細(xì)節(jié)。
其自動駕駛相關(guān)負(fù)責(zé)人非常深入的介紹了特斯拉在感知、規(guī)劃、矢量地圖、自動標(biāo)注、仿真和基礎(chǔ)設(shè)施等方面的布局,非常全面的展示了特斯拉FSD算法進(jìn)展。
發(fā)布會結(jié)束后,也引起了國內(nèi)眾多自動駕駛相關(guān)專家學(xué)者的關(guān)注。清華大學(xué)清華大學(xué)交叉信息研究院助理教授,博士生導(dǎo)師趙行博士也非常細(xì)致的梳理的特斯拉AI Day上展示的一些關(guān)鍵技術(shù)和進(jìn)展。
趙行2015年在MIT聯(lián)合開發(fā)了第一門自動駕駛課程,后被推廣到全世界十余所高校進(jìn)行應(yīng)用教學(xué),并在2015年獲得ICCP最佳論文獎。其在2019年博士畢業(yè)于麻省理工學(xué)院。博士期間師從MIT AI+決策系主任Antonio Torralba教授,主要研究方向為計算機(jī)視覺,多模態(tài)和多傳感器的機(jī)器學(xué)習(xí)。
▲清華大學(xué)清華大學(xué)交叉信息研究院助理教授,博士生導(dǎo)師趙行博士
也是在2019年,趙行加入Waymo擔(dān)任研究科學(xué)家,提出了自動駕駛行為預(yù)測中一系列框架型的工作,為行業(yè)大多數(shù)公司所使用或借鑒。其本人也入選2020年福布斯中國U30科學(xué)精英榜。
2021年加入清華大學(xué)擔(dān)任助理教授,研究涵蓋自動駕駛的整個算法棧,以及多模態(tài)和多傳感器的機(jī)器學(xué)習(xí)。在自動駕駛方面,提出了“以視覺為中心的自動駕駛VCAD”方案,被業(yè)界廣泛采納,并落地應(yīng)用。目前在清華大學(xué)組建和指導(dǎo)MARS Lab課題組,主要研究興趣為自動駕駛,多模態(tài)學(xué)習(xí)和計算機(jī)視覺。在國際頂級期刊和會議發(fā)表論文共計40余篇,Google Scholar引用共計8000余次。研究工作曾被BBC,NBC, 麻省理工科技評論等多家主流科技媒體報道。
可以說,趙行博士對于自動駕駛方面有非常深入的研究,對于特斯拉AI Day上展示的技術(shù)也有非常深刻的認(rèn)知。在獲得了趙行博士的同意后,我們轉(zhuǎn)載了其關(guān)于特斯拉AI Day活動的分析文章。
以下為趙行博士原文,為方便理解,車東西做了一些編輯:
9月30日(美國時間)的Tesla AI Day,特斯拉發(fā)布了初版的Optimus機(jī)器人,自動駕駛FSD的更多細(xì)節(jié)也慢慢浮現(xiàn)在大眾的眼前。我整理了Tesla FSD算法方面值得重點關(guān)注的進(jìn)展與大家分享。
Ashok在一開場就講到,特斯拉是一個典型的AI公司,過去一年訓(xùn)練了75000個神經(jīng)網(wǎng)絡(luò),意味著每8分鐘就要出一個新的模型,共有281個模型用到了特斯拉的車上。接下來我們分幾個方面來解讀特斯拉FSD的算法和模型進(jìn)展。
1、感知 Occupancy Network
2、規(guī)劃 Interactive Planning
3、矢量地圖 Lanes Network
4、自動標(biāo)注 Autolabeling
5、仿真 Simulation
6、基礎(chǔ)設(shè)施 Infrastructure
特斯拉今年在感知方面的一個重點技術(shù)就是Occupancy Network (占據(jù)網(wǎng)絡(luò))。研究機(jī)器人技術(shù)的同學(xué)肯定對occupancy grid不會陌生,occupancy表示空間中每個3D體素(voxel)是否被占據(jù),可以是0/1二元表示,也可以是[0, 1]之間的一個概率值。
▲對正在啟動的兩節(jié)公交車的occupancy估計,藍(lán)色表示運動的體素,紅色表示靜止的體素
▲Occupancy Network結(jié)構(gòu)
規(guī)劃 Interactive Planning
▲Interaction Search規(guī)劃模型結(jié)構(gòu)
▲矢量地圖,圓點為車道線關(guān)鍵點,藍(lán)色為車道中心線
▲Lanes Network網(wǎng)絡(luò)結(jié)構(gòu)
▲HDMapGen[7] 矢量地圖生成結(jié)果
▲VectorMapNet[8] 矢量地圖生成結(jié)果
▲Lanes Network自動標(biāo)注。
▲視覺仿真重建的路口。
▲視頻模型訓(xùn)練的超算中心
[1] Wang, Y., Guizilini, V.C., Zhang, T., Wang, Y., Zhao, H. and Solomon, J., 2022, January. Detr3d: 3d object detection from multi-view images via 3d-to-2d queries. In Conference on Robot Learning (pp. 180-191). PMLR.
[2] Li, Z., Wang, W., Li, H., Xie, E., Sima, C., Lu, T., Yu, Q. and Dai, J., 2022. BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers. arXiv preprint arXiv:2203.17270.
[3] Jiang, Y., Zhang, L., Miao, Z., Zhu, X., Gao, J., Hu, W. and Jiang, Y.G., 2022. PolarFormer: Multi-camera 3D Object Detection with Polar Transformers. arXiv preprint arXiv:2206.15398.
[4] Liu, Y., Wang, T., Zhang, X. and Sun, J., 2022. Petr: Position embedding transformation for multi-view 3d object detection. arXiv preprint arXiv:2203.05625.
[5] Cao, A.Q. and de Charette, R., 2022. MonoScene: Monocular 3D Semantic Scene Completion. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 3991-4001).
[6] Zhao, H., Gao, J., Lan, T., Sun, C., Sapp, B., Varadarajan, B., Shen, Y., Shen, Y., Chai, Y., Schmid, C. and Li, C., 2020. Tnt: Target-driven trajectory prediction. In Conference on Robot Learning 2020, arXiv:2008.08294
[7] InterSim, https://tsinghua-mars-lab.github.io/InterSim/
[8] Mi, L., Zhao, H., Nash, C., Jin, X., Gao, J., Sun, C., Schmid, C., Shavit, N., Chai, Y. and Anguelov, D., 2021. HDMapGen: A hierarchical graph generative model of high definition maps. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 4227-4236).
[9] Liu, Y., Wang, Y., Wang, Y. and Zhao, H., 2022. VectorMapNet: End-to-end Vectorized HD Map Learning. arXiv preprint arXiv:2206.08920.
工程師必備
- 項目客服
- 培訓(xùn)客服
- 平臺客服
TOP




















