什么是世界模型?有什么用?

2025年,AI突飛猛進。

大語言模型提高了工作效率,也讓人焦慮:自己好像退化成了AI操作工,離開AI,大腦空空。

但轉念一想,目前它助力甚至取代的似乎只是文字、代碼這種輕辦公。畢竟大語言模型再大,依然還是語言模型,只會耍嘴皮子。

它讀過世界上所有劇本,看過所有小說,對每個學科教材都倒背如流。但,它沒有真正進入過現實世界。

你問它:“杯子從桌上掉下來會怎樣?”它會根據自己讀過的書告訴你:“杯子會碎,水會濺出來。”

這個回答的本質,是它知道在人類的語言習慣里,“杯子掉落”后面通常跟著“碎了”。看似回答很有邏輯,但它并不理解重力,也不理解碰撞。

這也是為什么大語言模型容易一本正經胡說八道,因為它只在乎這話聽起來像不像真的,而不是這件事在現實中能不能發生。

一個人的成長,講究讀萬卷書行萬里路。如果 AI 只讀書不出門,那它就永遠只能活在文字的世界里。所以,研究者開始讓 AI 接觸文字之外的世界:

讓它看視頻,看人唱跳打籃球,看雨滴下落,看木材燃燒……

讓它接收傳感器數據,機械臂的坐標和力反饋,汽車方向盤旋轉的角度,汽車的加速度……

什么是世界模型?有什么用?的圖1

人工帶教,成本高數據少

讓它在虛擬環境中反復試錯,在游戲物理引擎甚至工業仿真軟件生成的虛擬世界中握、抓、撞、摔。

什么是世界模型?有什么用?的圖2

天洑具身智能靈巧手建模及握持模擬

相比視頻,仿真準確度更高。相比人工帶教,仿真成本更低。因此,長期來看基于物理公式的數值仿真將是構建高精度世界模型的地基。

海量數據喂下去,人工智能就會逐漸明白“如果……那么……”的關系:

  • 你一拳打在水里,下一刻會出現水花;
  • 你用手捏氣球,下一刻氣球會變形;

  • 你拋出一個蘋果,蘋果將以什么軌跡上升和下降。

雖然它不見得能寫出N-S方程、應力應變關系、拋物線公式,但它懂得了力的相互作用、質量守恒、能量守恒、熵增原理等等這些統治世界的物理定律

那么此時的模型,就成為了所謂的“世界模型(World Model)”。

什么是世界模型?有什么用?的圖3


你問了,大語言模型能幫我水論文水報告水文章,世界模型能干啥?

很簡單,只要你想 “預測未來”,世界模型就都有用武之地。比如:

  • 視頻制作,一個會生成畫面的世界模型。它知道玻璃杯落地會碎,而且是落地后,而不是落地前。
  • 自動駕駛,一個會開車的世界模型。看到行人在斑馬線行走,它知道汽車應該停在斑馬線前。
  • 游戲開發,一個會做夢的世界模型。游戲中的NPC不再是固定程序,它將能和玩家自然地對話和互動,擁有無限的交互可能。
  • 具身智能,一個會做家務的世界模型。當看到的對象是水杯時,它知道抓取力量應該大點,而對象是人手時,力度就要減小。
  • 工業機器人,一個會打螺絲的世界模型。看到傳送帶不同的零件,它知道應該把它裝在哪,用多大的力。

理論上來說,世界模型的訓練素材來自哪些場景,它最終的應用就有哪些,而且還會更廣泛。

中國也會成為世界模型的練兵場,畢竟中國的制造業總產值占全球的30%以上,2024年工業機器人安裝量也占到全球的54%。

在制造業轉型的浪潮中,我們不僅需要 AI 幫我們寫方案,更需要AI走出屏幕,拿起扳手,幫我們做飯洗衣服搬磚開車,以及建工廠。

登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP