李想：三季度推出無(wú)圖NOA L4級(jí)別自動(dòng)駕駛?cè)陜?nèi)可以實(shí)現(xiàn)

2024-6-10 09:25| 發(fā)布者: admin| 查看: 255| 評(píng)論: 0

摘要: 易車訊 6月8日，理想汽車人CEO李想出席了2024中國(guó)汽車重慶論壇并發(fā)表演講。李想表示，理想汽車將在今年三季度推出無(wú)圖NOA，最早今年年底最晚明年年初，推出基于理想自研大模型和VLM視覺模型的L3級(jí)自動(dòng)駕駛系統(tǒng)。李想 ...

易車訊 6月8日，理想汽車人CEO李想出席了2024中國(guó)汽車重慶論壇并發(fā)表演講。李想表示，理想汽車將在今年三季度推出無(wú)圖NOA，最早今年年底最晚明年年初，推出基于理想自研大模型和VLM視覺模型的L3級(jí)自動(dòng)駕駛系統(tǒng)。李想進(jìn)一步強(qiáng)調(diào)，隨著這套技術(shù)的演進(jìn)、算力的增強(qiáng)、模型的加大，無(wú)監(jiān)督的L4級(jí)別自動(dòng)駕駛至少三年內(nèi)一定可以實(shí)現(xiàn)。

李想：三季度推出無(wú)圖NOA L4級(jí)別自動(dòng)駕駛?cè)陜?nèi)可以實(shí)現(xiàn)

以下為演講原文：

李想表示在過(guò)去半年多的時(shí)間里，理想汽車做出的一項(xiàng)關(guān)于自動(dòng)駕駛的技術(shù)突破，他強(qiáng)調(diào)這里的自動(dòng)駕駛不是智能駕駛，也不是輔助駕駛，而是自動(dòng)駕駛。李想進(jìn)一步談到，我們內(nèi)部從去年9月份開始思考一個(gè)問(wèn)題，并為此專門建立了一個(gè)用于自動(dòng)駕駛研究的團(tuán)隊(duì)。這個(gè)問(wèn)題是人類開車為什么不涉及學(xué)習(xí)corner case（極端情況）？如果我們不能解決這個(gè)問(wèn)題，所有的自動(dòng)駕駛團(tuán)隊(duì)每天干的活，都是靠人工去調(diào)試各種各樣的corner case，而且放的人越多，corner case越多，和真正的自動(dòng)駕駛就越遙遠(yuǎn)。

李想：三季度推出無(wú)圖NOA L4級(jí)別自動(dòng)駕駛?cè)陜?nèi)可以實(shí)現(xiàn)

首先從理論的角度，我們先是從一本書《思考，快與慢》里得到了啟示?！端伎迹炫c慢》講述了我們的大腦日常在工作的時(shí)候，分為系統(tǒng)一和系統(tǒng)二。系統(tǒng)一來(lái)處理一些需要直覺、快速響應(yīng)的事情。就像很多時(shí)候我們?cè)陂_車，開了10分鐘、20分鐘、30分鐘，腦子里在想別的事情，但是我們?nèi)匀荒軌蛱幚砺飞系母鞣N路況。開到家的時(shí)候忘記了過(guò)去這半個(gè)小時(shí)我們是怎么工作的，這時(shí)候意味著我們用系統(tǒng)一在工作，并不是我們的大腦不在工作，而是我們大腦以一種它獨(dú)有的方式，低能耗的方式在工作。

當(dāng)我們?nèi)サ揭粋€(gè)復(fù)雜路況，比如一個(gè)十字路口，或者開車的時(shí)候遇到一個(gè)水坑，這時(shí)候我們的大腦就會(huì)調(diào)用系統(tǒng)二來(lái)工作，用它來(lái)處理這種比較復(fù)雜的邏輯推演的能力，但是它對(duì)大腦消耗比較大，所以不會(huì)一直用系統(tǒng)二的方式進(jìn)行開車。解決各種復(fù)雜路況、泛化問(wèn)題和未知問(wèn)題，大腦會(huì)啟用系統(tǒng)二來(lái)進(jìn)行工作。正常情況我們開車的時(shí)候基本上95%的時(shí)間在使用系統(tǒng)一，5%的時(shí)間使用來(lái)系統(tǒng)二，所以人腦每天并不需要很多的功耗，人也不需要學(xué)習(xí)corner case，就能學(xué)會(huì)開車。

這時(shí)候我們?cè)谙?，如果人類是這樣的工作方式，那么自動(dòng)駕駛應(yīng)該怎么工作呢？什么是自動(dòng)駕駛的系統(tǒng)一？什么是自動(dòng)駕駛的系統(tǒng)二？我們隨著對(duì)各種技術(shù)研究，自動(dòng)駕駛的系統(tǒng)一其實(shí)是現(xiàn)在很多自動(dòng)駕駛團(tuán)隊(duì)都在做的端到端的技術(shù)。端到端意味著把完整的訓(xùn)練片段放進(jìn)來(lái)，最后產(chǎn)生的結(jié)果是，輸入直接產(chǎn)生輸出，而不是像過(guò)往的要分成一個(gè)感知模塊、一個(gè)規(guī)劃模塊、一個(gè)決策的模塊、一個(gè)執(zhí)行的模塊。

（端到端）這樣的效率更高，但是挑戰(zhàn)也來(lái)了，各種人類的規(guī)則不會(huì)發(fā)揮作用。它的挑戰(zhàn)主要來(lái)自于三個(gè)方面：第一個(gè)是需要有真正會(huì)做端到端，包含端到端數(shù)據(jù)訓(xùn)練的人才；第二個(gè)需要真正高質(zhì)量的數(shù)據(jù)；第三個(gè)需要有足夠多的算力。

因?yàn)槎说蕉藢?duì)于算力的需求和以往比，變得完全不一樣了。我們過(guò)去在端到端方面做的研究測(cè)試中，放了大概100萬(wàn)的clips（預(yù)訓(xùn)練模型），用于端到端的訓(xùn)練。大概一個(gè)月只需要做10輪左右的訓(xùn)練，訓(xùn)練卡（Training GPU ）要足夠多，基本上可以完成一個(gè)無(wú)圖NOA相同上限的水平。

但是面對(duì)中國(guó)復(fù)雜路況，只有端到端不夠，所以我們思考什么是系統(tǒng)二。系統(tǒng)二的一個(gè)啟發(fā)是，人類解決各種各樣的corner case和各種泛化問(wèn)題，并不是通過(guò)學(xué)習(xí)corner case。（我身邊的）一個(gè)明顯案例和啟發(fā)是來(lái)源于我的愛人。我愛人剛學(xué)會(huì)開車后在很長(zhǎng)一段時(shí)間甚至連續(xù)很多年，不停地剮蹭。我和她分析下一次怎么不再剮蹭，其實(shí)沒有用，下一次還是剮蹭。我就在想，是不是因?yàn)橘I的車個(gè)頭太大了，一輛寶馬X6，所以我換輛小車，換一輛高爾夫GTI，她仍然會(huì)刮蹭。

這時(shí)候我們會(huì)發(fā)現(xiàn)學(xué)習(xí)corner case沒有用，我們能不能通過(guò)提升能力的方式來(lái)解決，所以當(dāng)時(shí)給我愛人報(bào)了寶馬駕駛培訓(xùn)初級(jí)班。寶馬駕駛培訓(xùn)初級(jí)班一整天通過(guò)各種各樣的方式只教了兩個(gè)（內(nèi)容），第一個(gè)是賽道過(guò)彎、繞樁、處理環(huán)形路面的時(shí)候、打轉(zhuǎn)向之前，眼睛看往哪里，不是看即將通過(guò)的路口而是看接下來(lái)要去的地方；另外一個(gè)能力，就是在各種復(fù)雜的場(chǎng)景里如何把剎車踩到底，包含在濕滑路面，轉(zhuǎn)彎路面、一半鋼板一半道路的路面，如何把剎車踩到底，從而提升一個(gè)人對(duì)于整車剎車能力的認(rèn)知。所以寶馬駕駛培訓(xùn)初級(jí)班一整天時(shí)間只教了兩個(gè)事情，第一個(gè)是教看路的能力，第二個(gè)是教剎車的能力，沒有教任何的corner case。經(jīng)過(guò)一天的訓(xùn)練，我愛人徹底和剮蹭告別了，在接下來(lái)十幾年里沒有出現(xiàn)任何剮蹭。這是人類學(xué)習(xí)開車的一個(gè)方式，我們考慮如何把這樣的一套能力給到車上。我們看到一個(gè)很重要的技術(shù)是VLM的視覺語(yǔ)言模型。為什么不是視覺大語(yǔ)言模型，而是視覺語(yǔ)言模型，是因?yàn)闆]有辦法把一個(gè)大模型放在云端讓車使用，因?yàn)轫憫?yīng)速度會(huì)有比較大的風(fēng)險(xiǎn)。

所以如何把視覺大語(yǔ)言模型進(jìn)行足夠壓縮，最后能夠放到車上，能夠面對(duì)沒有紅綠燈的左轉(zhuǎn)路口提前做出預(yù)判，知道這個(gè)路口如何進(jìn)行特殊處理，進(jìn)行復(fù)雜的處理。它還有另外一個(gè)重要功能，就是告別高精地圖，告別所有輕圖在內(nèi)的方式。為什么？因?yàn)橐曈X語(yǔ)言模型還有一個(gè)最重要的功能，就是能夠像人類一樣去讀懂導(dǎo)航地圖，導(dǎo)航地圖的橫向、縱向、速度、時(shí)間，包含紅綠燈，哪怕有車輛遮擋紅綠燈也不會(huì)再成為問(wèn)題。

我們發(fā)現(xiàn)可以有效地通過(guò)視覺語(yǔ)言模型來(lái)解決系統(tǒng)二的問(wèn)題。一方面為端到端進(jìn)行兜底，另外一方面能解決各種各樣的泛化問(wèn)題。我們發(fā)現(xiàn)非常有意思，我們AD max有兩顆Orin-X芯片，正好一個(gè)Orin-X芯片跑端到端，另外一顆Orin-X芯片可以運(yùn)行一個(gè)壓縮到大概20億規(guī)模的VLM模型。我們驗(yàn)證的結(jié)果其實(shí)是令人非常興奮的，我們認(rèn)為最早在今年年底，最晚在明年上半年，真正的L3我對(duì)L3的定義是有監(jiān)督的自動(dòng)駕駛，就可以批量向用戶交付了，而不是只用于做實(shí)驗(yàn)。

解決這兩個(gè)問(wèn)題以后，其實(shí)還有第三個(gè)問(wèn)題。因?yàn)槎说蕉耸呛诤凶?，VLM其實(shí)也是黑盒子，它跟過(guò)去我們?cè)谧鲋悄荞{駛、輔助駕駛的一個(gè)最大不同是，它不再是功能而是能力。我覺得AI最大的差別是能力，而過(guò)去的編程體系，最重要的是功能，因?yàn)楣δ茉谶^(guò)去是要通過(guò)測(cè)試和實(shí)驗(yàn)來(lái)驗(yàn)證的。但是能力，一個(gè)黑盒子怎么拿測(cè)試和實(shí)驗(yàn)來(lái)驗(yàn)證？這是不可能的。所以這時(shí)候面臨的一個(gè)新的挑戰(zhàn)是，我們用什么樣的技術(shù)方式來(lái)驗(yàn)證能力？這時(shí)候我們又找到了一個(gè)新的方式，主要的原理是來(lái)自于Sora，我們用Diffusion Transformers (DiTs）的方式來(lái)構(gòu)建一個(gè)重要的、小型的世界模型，拿這個(gè)世界模型，讓我們的車在里面考試。

所以，我們模擬人的一套真正的工作原理就開始呈現(xiàn)了。用端到端來(lái)承載人的系統(tǒng)一，VLM來(lái)承載人的系統(tǒng)二。系統(tǒng)一來(lái)解決所有自動(dòng)駕駛的，這些正常的反應(yīng)和駕駛的能力，系統(tǒng)二來(lái)解決兜底和泛化的能力，并應(yīng)用生成式的小的世界模型來(lái)進(jìn)行考試。這是我們?cè)谶^(guò)去的一段時(shí)間里，做的最重要的一個(gè)技術(shù)性的突破，而且我們的研究團(tuán)隊(duì)已經(jīng)通過(guò)了正常的研究驗(yàn)證。

李想表示將在今年第三季度推出全國(guó)無(wú)圖NOA，并同步向測(cè)試用戶推出通過(guò)300萬(wàn)clips訓(xùn)練出來(lái)的端到端+VLM的監(jiān)督型自動(dòng)駕駛體系。最早會(huì)在今年年底，最晚明年年初，我們會(huì)推出大概通過(guò)超過(guò)1000萬(wàn)clips訓(xùn)練出來(lái)的端到端+VLM，整個(gè)帶有監(jiān)督的自動(dòng)駕駛的體系，我們認(rèn)為這套體系會(huì)是未來(lái)整個(gè)物理世界機(jī)器人最重要的技術(shù)架構(gòu)和技術(shù)體系。

李想進(jìn)一步談到，接下來(lái)的一段時(shí)間里，在AI方面的幾個(gè)關(guān)鍵的技術(shù)論壇，我們的技術(shù)研究團(tuán)隊(duì)也會(huì)向整個(gè)行業(yè)來(lái)分享我們對(duì)這方面的所有的研究，包括這里的原理和實(shí)際結(jié)果，把我們進(jìn)行的一些探索與同行們進(jìn)行分享。

李想認(rèn)為，通過(guò)這套技術(shù)，帶有監(jiān)督的L3級(jí)別自動(dòng)駕駛是100%可以實(shí)現(xiàn)的，最早今年年底最晚明年年初，帶有監(jiān)督的L3級(jí)別自動(dòng)駕駛就可以批量向用戶交付。而且隨著這套技術(shù)的演進(jìn)，算力的增強(qiáng)，模型的加大，李想認(rèn)為無(wú)監(jiān)督的L4級(jí)別自動(dòng)駕駛至少三年內(nèi)一定可以實(shí)現(xiàn)。