5年內(nèi)實現(xiàn)自動駕駛，世界模型是唯一解

2024-12-22 11:42| 發(fā)布者: admin| 查看: 98| 評論: 0

摘要: 之前的文章我們提到，端到端讓行業(yè)看到了通往自動駕駛的捷徑，但光有端到端還不夠。蔚小理華VS地絕元魔，誰是端到端大模型執(zhí)牛耳者。端到端的“黑盒”特性使得它無法直接約束系統(tǒng)的安全邊界；并且無法復(fù)現(xiàn)復(fù)雜的、偶 ...

之前的文章我們提到，端到端讓行業(yè)看到了通往自動駕駛的捷徑，但光有端到端還不夠。蔚小理華VS地絕元魔，誰是端到端大模型執(zhí)牛耳者。端到端的“黑盒”特性使得它無法直接約束系統(tǒng)的安全邊界；并且無法復(fù)現(xiàn)復(fù)雜的、偶發(fā)的corner case，考驗可解釋性和泛用性能力，把上限提高的同時拉低了下限，存在“蹺蹺板效應(yīng)”。

如何解決這些問題？

于是，世界模型被引入自動駕駛。圓周智行粗略統(tǒng)計，目前已經(jīng)有超過10個車企和自動駕駛公司提出了世界模型。包括特斯拉，英偉達(dá)，蔚來，理想，地平線，商湯，元戎啟行，Momenta。還有很多企業(yè)雖然并未對外傳播世界模型，但其實內(nèi)部也一直在推進(jìn)此事。

那么，到底什么是世界模型？它是如何生成的？又是如何工作的？

在回答這些問題之前，我們先看一個案例，蔚來汽車是如何思考世界模型的？

2023年NIO day上，蔚來就公布了其正在自研世界模型的計劃。2024年7月的科技日上，蔚來智駕負(fù)責(zé)人任少卿釋放了更多技術(shù)細(xì)節(jié)。

在蔚來的理解里，人類大腦具備兩個能力。首先是空間理解能力，也叫想象重建能力。大白話說就是憑空想象能力，你可能沒有見過一棵長了100年的大樹，但是你可以通過大腦想象它的樣子。其次是時間理解能力，或者叫想象推演能力。大白話說就是在大腦里進(jìn)行時空推演，想象一棵樹春夏秋冬的樣子。二者共同組成的能力就叫時空認(rèn)知能力。這是人在三維世界生存的基本技能。這就是人腦構(gòu)建的世界模型。

5年內(nèi)實現(xiàn)自動駕駛，世界模型是唯一解

這個理解和權(quán)威機(jī)構(gòu)對世界模型的定義完全吻合。“World Models”（世界模型）最早出現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域。2018年，機(jī)器學(xué)習(xí)頂會NeurIPS收錄了一篇《Recurrent World Models Facilitate Policy Evolution》論文，以認(rèn)知科學(xué)中人腦mental model來類比世界模型，認(rèn)為mental model參與了人類的認(rèn)知、推理、決策過程，其中最核心的能力在于反事實推理（Counterfactual reasoning），這是一種人類天然具備的能力。

回到自動駕駛，蔚來提出了一個很核心的觀點，自動駕駛?cè)绻麑崿F(xiàn)也必須具備這樣的能力。自動駕駛有很多不常見長尾場景，也就是大家常說的corner case，這樣的長尾場景數(shù)據(jù)獲取非常艱難。業(yè)內(nèi)比較常規(guī)的做法有兩個：一個是3D重建，但是這樣的做法成本高，效率低，并不實用；另一個就是仿真，但是仿真的數(shù)據(jù)根本無法“還原”真實數(shù)據(jù)，對自動駕駛的幫助有限。于是，自動駕駛的“大殺招”世界模型出現(xiàn)了，它可以根據(jù)視頻，圖片，甚至文本描述自動生成視頻數(shù)據(jù)，給自動駕駛提供源源不斷的“燃料”。

在自動駕駛里，世界模型如何發(fā)揮作用，地平線對此給出了更細(xì)致的解釋，世界模型的作用：一是通過生成式大模型生成帶有預(yù)測性質(zhì)的視頻數(shù)據(jù)，實現(xiàn)corner case多樣化訓(xùn)練；二是采用強(qiáng)化學(xué)習(xí)的方法認(rèn)識復(fù)雜駕駛環(huán)境，從視頻輸出駕駛決策。

那么，如何來構(gòu)建世界模型，辦法有兩個：一個是憑空想象，“無中生有”；另一個是根據(jù)現(xiàn)有信息完善信息，比如輸入文本，圖片，視頻，生成更多更豐富的視頻。

對于第一個環(huán)節(jié)，我們需要插入一個容易混淆的概念。很多人認(rèn)為世界模型就是仿真，二者確實有相似之處，世界模型包含了仿真的部分內(nèi)容，但是又完全高于仿真。

任少卿提出了一個很有意思的觀點，自動駕駛發(fā)展了這么多年，本質(zhì)上都是在做空間理解的升級，就是讓系統(tǒng)更理解周圍的世界。最早是通過提升傳感器硬件能力，后來是算法升級，BEV視角轉(zhuǎn)換，OCC 2D變3D，到現(xiàn)在軟硬件能力都已經(jīng)出現(xiàn)瓶頸，但是極端場景數(shù)據(jù)的獲取卻成了大難題。于是，技術(shù)人員就想到了自己“造數(shù)據(jù)”的方式。

當(dāng)然，必須承認(rèn)的是，這項技術(shù)的發(fā)展并不始于自動駕駛領(lǐng)域，世界模型的概念最早在2018年被引入人工智能領(lǐng)域。2022年，Yann LeCun在機(jī)器智能里提出了雙系統(tǒng)的概念，其中的系統(tǒng)二就提到了要用世界模型構(gòu)建未來場景的辦法。但是真正讓這項技術(shù)被更多人熟知的時間要推到2024年，其中的最大功臣自然是Open AI。

2024年2月16日清晨，Open AI公司發(fā)布了一款震驚全世界的視頻生成大模型Sora，它可以根據(jù)文本自動生成一段60秒的視頻。這是世界模型的一個具象體現(xiàn)。

在人工智能領(lǐng)域，世界模型的影響力遠(yuǎn)遠(yuǎn)超過自動駕駛，包括李飛飛的world Labs，谷歌DeepMind等企業(yè)都發(fā)布了世界模型。Yann LeCun的Mate FAIR團(tuán)隊還發(fā)布了導(dǎo)航世界模型，根據(jù)前一秒的導(dǎo)航信息實時生成下一秒的軌跡。想象一下這個技術(shù)一旦成熟，將會給自動駕駛帶來多大的幫助。

這里插一句題外話，如果我們梳理自動駕駛技術(shù)的發(fā)展路線會發(fā)現(xiàn)一個非常有意思的事情。這幾年所有對自動駕駛發(fā)展產(chǎn)生推動的技術(shù)都不源于自動駕駛，而是人工智能，包括transformer，BEV，OCC，到今天的端到端，世界模型。正應(yīng)了那句話，自動駕駛本質(zhì)上是人工智能的一個具身智能體現(xiàn)。所以技術(shù)人員很喜歡說一句話，搞自動駕駛不能只盯著自動駕駛，這樣永遠(yuǎn)搞不好自動駕駛。

在自動駕駛，特斯拉毫無疑問是那個探路者。就像喬布斯帶領(lǐng)蘋果科技惠民一樣，雖然蘋果并不是技術(shù)發(fā)明者，但它確實是將技術(shù)融入產(chǎn)品的最佳實踐者。

世界模型幫助所有智駕玩家打開了一個全新的世界。2023 年，特斯拉自動駕駛負(fù)責(zé)人在 CVPR 上介紹了其正在打造的 “通用世界模型”。該模型可以通過過往的視頻片段和行動提示，生成 “可能的未來” 的全新視頻，其基礎(chǔ)架構(gòu)由多臺攝像機(jī)的視頻流輸入，匯集到一個大型 Transformer 塊中，通過空間注意力和幾何模型等形成特征并進(jìn)行預(yù)測，可用于預(yù)測占用率、體素未來的流動情況以及車道等駕駛所需的任務(wù)。

與此同時，Wayve也在2023 年發(fā)布了 GAIA-1 模型，它可以依靠視頻、文本和動作的輸入生成逼真的視頻，能夠生成分鐘級的視頻以及多種合理的未來場景，幫助自動駕駛模型的訓(xùn)練和仿真。

2024 年 GTC 大會上，英偉達(dá)也展示了其在世界模型領(lǐng)域的新進(jìn)展，通過將多模態(tài)數(shù)據(jù)輸入模型訓(xùn)練并讓模型預(yù)測未來駕駛場景，自動駕駛基礎(chǔ)模型可以穩(wěn)定生成多個攝像頭拍攝到的逼真的駕駛場景演變，并且通過語言提示詞也可以使得模型呈現(xiàn)的場景靈活變化。

在國內(nèi)傳播層面，蔚來汽車是國內(nèi)最早提世界模型的車企。其在2023就表示正在研發(fā)世界模型，2024 年 7 月 27 日，蔚來發(fā)布了中國首個智能駕駛世界模型 NWM 。

華為則是把自動駕駛的視頻生成板塊放在了盤古大模型中，叫做場景生產(chǎn)大模型。華為在2020年開始啟動盤古大模型研發(fā)，并于2021年4月正式發(fā)布，到2022年聚焦行業(yè)應(yīng)用落地。

華為對世界模型的使用更加多元。它從實車數(shù)據(jù)學(xué)習(xí)如何生成新視頻，同時處理重建和渲染，生成數(shù)據(jù)可用于感知算法訓(xùn)練；重建各類障礙物構(gòu)建素材庫，根據(jù)需要構(gòu)造corner case，增強(qiáng)數(shù)據(jù)完備性；針對天氣、晝夜、季節(jié)等環(huán)節(jié)因素對已有場景進(jìn)行變換，構(gòu)造corner case。它基于神經(jīng)網(wǎng)絡(luò)做實車場景，并進(jìn)行重建跟渲染。

有意思的是，在自動駕駛上一直以先鋒自居的小鵬汽車在世界模型上并沒有任何資料流出，不知是在憋大招還是覺得不重要。推測來看，前者的可能性居多。

世界模型的價值如何評估

就在世界模型被瘋狂追捧的同時，一個更深的問題擺在行業(yè)面前：世界模型到底應(yīng)該凌駕于真實數(shù)據(jù)之上，還是僅僅作為真實數(shù)據(jù)的補(bǔ)充。

特斯拉和元戎啟行的思路是用一套系統(tǒng)覆蓋兩種商業(yè)模型，輔助駕駛和Robotaxi。然后用數(shù)據(jù)訓(xùn)練的方式不斷提升系統(tǒng)的能力上限，這種邏輯下世界模型更像是現(xiàn)實世界數(shù)據(jù)的補(bǔ)充。但這似乎低估了世界模型的價值。

“世界模型是最重要的事情，沒有之一?！?/span>

小馬智行CTO樓天城給了世界模型極高的評價，他認(rèn)為世界模型是自動駕駛當(dāng)前最重要的事情。依靠現(xiàn)有的真實數(shù)據(jù)只能讓智駕系統(tǒng)無限接近人，只有世界模型數(shù)據(jù)才能構(gòu)建出更復(fù)雜的世界，最終讓訓(xùn)練出來的系統(tǒng)超越人。理由很簡單，自動駕駛是對人類駕駛行為的學(xué)習(xí)，因為人的駕駛能力有上限，所有自動駕駛的安全邊界也有上限，但樓天城認(rèn)為，自動駕駛的安全必須高于人類才有意義，尤其是L4級自動駕駛。所以必須要有高于人類駕駛行為的世界模型數(shù)據(jù)訓(xùn)練出來的系統(tǒng)才能優(yōu)于人類。按照這個表述，世界模型應(yīng)該凌駕于真實數(shù)據(jù)之上。

這里我們來看看地平線的實踐案例，傳統(tǒng)基于規(guī)則的CNN（卷積神經(jīng)網(wǎng)絡(luò)）學(xué)習(xí)方式，沒有泛化和理解能力。地平線提出了“交互式博弈”，核心在于通過生成數(shù)據(jù)驅(qū)動實現(xiàn)模擬學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。為了避免機(jī)器對數(shù)據(jù)的重復(fù)模仿，它必須要學(xué)會主動理解數(shù)據(jù)。這時候世界模型就承擔(dān)了「駕駛世界觀」的作用。這里我的理解是，地平線已經(jīng)實現(xiàn)了樓天城說的，讓世界模型擔(dān)當(dāng)系統(tǒng)教練的角色，指導(dǎo)系統(tǒng)到底該怎么開。

5年內(nèi)實現(xiàn)自動駕駛，世界模型是唯一解

此外，世界模型還可以作為額外的信息源，為預(yù)測環(huán)節(jié)服務(wù)。當(dāng)?shù)貓D信息和傳感器信息輸入World Model，機(jī)器經(jīng)過處理輸出仿真、想象、演繹甚至腦補(bǔ)過程，支撐系統(tǒng)的交互博弈，為系統(tǒng)兜底。

那么，世界模型的好壞又該如何評估。如果單純從理論層面，很難。世界模型的能力就好像語文作文，很難通過一個量化的指標(biāo)去評估好壞。目前雖然很多車企發(fā)布了世界模型，但是對具體細(xì)節(jié)數(shù)據(jù)展示的不多。這里我們來看看蔚來和商湯的案例。

蔚來對其世界模型的介紹如下：

“能夠在 100 毫秒內(nèi)推演出 216 種可能發(fā)生的場景，并可基于 3 秒的駕駛視頻生成 120 秒的想象視頻，還具備閉環(huán)仿真測試能力。”

商湯絕影對 “開悟”世界模型的介紹如下：

“（視頻生成）時間最長為150秒、分辨率可達(dá)1080P、視角可以實現(xiàn)11V”。

絕影認(rèn)為這個難度很大，行業(yè)普遍都是生成1V或6V視角的視頻，開悟直接干到11V，而且同時生成的視角畫面越多，要保持時空一致性就更難，還要克服魚眼視角的畸變。

雖然沒有準(zhǔn)確的評估辦法，但是他們都強(qiáng)調(diào)了世界模型的幾項能力：準(zhǔn)確性，多樣性，可控性和泛化能力。

目前看來，世界模型的能力還遠(yuǎn)遠(yuǎn)沒有開發(fā)出來。

樓天城提出了一個設(shè)想，世界模型還可以充當(dāng)一個評分體系，對自動駕駛系統(tǒng)的表現(xiàn)做出評價，不斷提升系統(tǒng)的能力。

地平線提出了世界模型的兩個長遠(yuǎn)價值：首先是更準(zhǔn)確的世界理解，幫助減少智駕系統(tǒng)的代碼量，延遲，網(wǎng)絡(luò)負(fù)載，錯誤率等；然后是泛化能力，世界模型可以讓高階智駕形成對復(fù)雜駕駛環(huán)境的通用理解，而非對輸入的重復(fù)依賴。大白話說就是舉一反三。

最近地平線創(chuàng)始人余凱在接受采訪時表示，大規(guī)模L4、L5將會在5年左右實現(xiàn)。而目前行業(yè)形成的一個共識是，自動駕駛實現(xiàn)的一個大前提不僅僅是像人，而是要超越人。真實世界的數(shù)據(jù)只能是無限接近人，要超越人，世界模型是目前技術(shù)人員探索出來的通往自動駕駛的唯一解。