易車訊 6月8日,理想汽車人CEO李想出席了2024中國(guó)汽車重慶論壇并發(fā)表演講。李想表示,理想汽車將在今年三季度推出無(wú)圖NOA,最早今年年底最晚明年年初,推出基于理想自研大模型和VLM視覺模型的L3級(jí)自動(dòng)駕駛系統(tǒng)。李想進(jìn)一步強(qiáng)調(diào),隨著這套技術(shù)的演進(jìn)、算力的增強(qiáng)、模型的加大,無(wú)監(jiān)督的L4級(jí)別自動(dòng)駕駛至少三年內(nèi)一定可以實(shí)現(xiàn)。 以下為演講原文: 李想表示在過(guò)去半年多的時(shí)間里,理想汽車做出的一項(xiàng)關(guān)于自動(dòng)駕駛的技術(shù)突破,他強(qiáng)調(diào)這里的自動(dòng)駕駛不是智能駕駛,也不是輔助駕駛,而是自動(dòng)駕駛。李想進(jìn)一步談到,我們內(nèi)部從去年9月份開始思考一個(gè)問(wèn)題,并為此專門建立了一個(gè)用于自動(dòng)駕駛研究的團(tuán)隊(duì)。這個(gè)問(wèn)題是人類開車為什么不涉及學(xué)習(xí)corner case(極端情況)?如果我們不能解決這個(gè)問(wèn)題,所有的自動(dòng)駕駛團(tuán)隊(duì)每天干的活,都是靠人工去調(diào)試各種各樣的corner case,而且放的人越多,corner case越多,和真正的自動(dòng)駕駛就越遙遠(yuǎn)。 首先從理論的角度,我們先是從一本書《思考,快與慢》里得到了啟示?!端伎迹炫c慢》講述了我們的大腦日常在工作的時(shí)候,分為系統(tǒng)一和系統(tǒng)二。系統(tǒng)一來(lái)處理一些需要直覺、快速響應(yīng)的事情。就像很多時(shí)候我們?cè)陂_車,開了10分鐘、20分鐘、30分鐘,腦子里在想別的事情,但是我們?nèi)匀荒軌蛱幚砺飞系母鞣N路況。開到家的時(shí)候忘記了過(guò)去這半個(gè)小時(shí)我們是怎么工作的,這時(shí)候意味著我們用系統(tǒng)一在工作,并不是我們的大腦不在工作,而是我們大腦以一種它獨(dú)有的方式,低能耗的方式在工作。 當(dāng)我們?nèi)サ揭粋€(gè)復(fù)雜路況,比如一個(gè)十字路口,或者開車的時(shí)候遇到一個(gè)水坑,這時(shí)候我們的大腦就會(huì)調(diào)用系統(tǒng)二來(lái)工作,用它來(lái)處理這種比較復(fù)雜的邏輯推演的能力,但是它對(duì)大腦消耗比較大,所以不會(huì)一直用系統(tǒng)二的方式進(jìn)行開車。解決各種復(fù)雜路況、泛化問(wèn)題和未知問(wèn)題,大腦會(huì)啟用系統(tǒng)二來(lái)進(jìn)行工作。正常情況我們開車的時(shí)候基本上95%的時(shí)間在使用系統(tǒng)一,5%的時(shí)間使用來(lái)系統(tǒng)二,所以人腦每天并不需要很多的功耗,人也不需要學(xué)習(xí)corner case,就能學(xué)會(huì)開車。 這時(shí)候我們?cè)谙?,如果人類是這樣的工作方式,那么自動(dòng)駕駛應(yīng)該怎么工作呢?什么是自動(dòng)駕駛的系統(tǒng)一?什么是自動(dòng)駕駛的系統(tǒng)二?我們隨著對(duì)各種技術(shù)研究,自動(dòng)駕駛的系統(tǒng)一其實(shí)是現(xiàn)在很多自動(dòng)駕駛團(tuán)隊(duì)都在做的端到端的技術(shù)。端到端意味著把完整的訓(xùn)練片段放進(jìn)來(lái),最后產(chǎn)生的結(jié)果是,輸入直接產(chǎn)生輸出,而不是像過(guò)往的要分成一個(gè)感知模塊、一個(gè)規(guī)劃模塊、一個(gè)決策的模塊、一個(gè)執(zhí)行的模塊。 (端到端)這樣的效率更高,但是挑戰(zhàn)也來(lái)了,各種人類的規(guī)則不會(huì)發(fā)揮作用。它的挑戰(zhàn)主要來(lái)自于三個(gè)方面:第一個(gè)是需要有真正會(huì)做端到端,包含端到端數(shù)據(jù)訓(xùn)練的人才;第二個(gè)需要真正高質(zhì)量的數(shù)據(jù);第三個(gè)需要有足夠多的算力。 因?yàn)槎说蕉藢?duì)于算力的需求和以往比,變得完全不一樣了。我們過(guò)去在端到端方面做的研究測(cè)試中,放了大概100萬(wàn)的clips(預(yù)訓(xùn)練模型),用于端到端的訓(xùn)練。大概一個(gè)月只需要做10輪左右的訓(xùn)練,訓(xùn)練卡(Training GPU )要足夠多,基本上可以完成一個(gè)無(wú)圖NOA相同上限的水平。 但是面對(duì)中國(guó)復(fù)雜路況,只有端到端不夠,所以我們思考什么是系統(tǒng)二。系統(tǒng)二的一個(gè)啟發(fā)是,人類解決各種各樣的corner case和各種泛化問(wèn)題,并不是通過(guò)學(xué)習(xí)corner case。(我身邊的)一個(gè)明顯案例和啟發(fā)是來(lái)源于我的愛人。我愛人剛學(xué)會(huì)開車后在很長(zhǎng)一段時(shí)間甚至連續(xù)很多年,不停地剮蹭。我和她分析下一次怎么不再剮蹭,其實(shí)沒有用,下一次還是剮蹭。我就在想,是不是因?yàn)橘I的車個(gè)頭太大了,一輛寶馬X6,所以我換輛小車,換一輛高爾夫GTI,她仍然會(huì)刮蹭。 這時(shí)候我們會(huì)發(fā)現(xiàn)學(xué)習(xí)corner case沒有用,我們能不能通過(guò)提升能力的方式來(lái)解決,所以當(dāng)時(shí)給我愛人報(bào)了寶馬駕駛培訓(xùn)初級(jí)班。寶馬駕駛培訓(xùn)初級(jí)班一整天通過(guò)各種各樣的方式只教了兩個(gè)(內(nèi)容),第一個(gè)是賽道過(guò)彎、繞樁、處理環(huán)形路面的時(shí)候、打轉(zhuǎn)向之前,眼睛看往哪里,不是看即將通過(guò)的路口而是看接下來(lái)要去的地方;另外一個(gè)能力,就是在各種復(fù)雜的場(chǎng)景里如何把剎車踩到底,包含在濕滑路面,轉(zhuǎn)彎路面、一半鋼板一半道路的路面,如何把剎車踩到底,從而提升一個(gè)人對(duì)于整車剎車能力的認(rèn)知。所以寶馬駕駛培訓(xùn)初級(jí)班一整天時(shí)間只教了兩個(gè)事情,第一個(gè)是教看路的能力,第二個(gè)是教剎車的能力,沒有教任何的corner case。經(jīng)過(guò)一天的訓(xùn)練,我愛人徹底和剮蹭告別了,在接下來(lái)十幾年里沒有出現(xiàn)任何剮蹭。這是人類學(xué)習(xí)開車的一個(gè)方式,我們考慮如何把這樣的一套能力給到車上。我們看到一個(gè)很重要的技術(shù)是VLM的視覺語(yǔ)言模型。為什么不是視覺大語(yǔ)言模型,而是視覺語(yǔ)言模型,是因?yàn)闆]有辦法把一個(gè)大模型放在云端讓車使用,因?yàn)轫憫?yīng)速度會(huì)有比較大的風(fēng)險(xiǎn)。 所以如何把視覺大語(yǔ)言模型進(jìn)行足夠壓縮,最后能夠放到車上,能夠面對(duì)沒有紅綠燈的左轉(zhuǎn)路口提前做出預(yù)判,知道這個(gè)路口如何進(jìn)行特殊處理,進(jìn)行復(fù)雜的處理。它還有另外一個(gè)重要功能,就是告別高精地圖,告別所有輕圖在內(nèi)的方式。為什么?因?yàn)橐曈X語(yǔ)言模型還有一個(gè)最重要的功能,就是能夠像人類一樣去讀懂導(dǎo)航地圖,導(dǎo)航地圖的橫向、縱向、速度、時(shí)間,包含紅綠燈,哪怕有車輛遮擋紅綠燈也不會(huì)再成為問(wèn)題。 我們發(fā)現(xiàn)可以有效地通過(guò)視覺語(yǔ)言模型來(lái)解決系統(tǒng)二的問(wèn)題。一方面為端到端進(jìn)行兜底,另外一方面能解決各種各樣的泛化問(wèn)題。我們發(fā)現(xiàn)非常有意思,我們AD max有兩顆Orin-X芯片,正好一個(gè)Orin-X芯片跑端到端,另外一顆Orin-X芯片可以運(yùn)行一個(gè)壓縮到大概20億規(guī)模的VLM模型。我們驗(yàn)證的結(jié)果其實(shí)是令人非常興奮的,我們認(rèn)為最早在今年年底,最晚在明年上半年,真正的L3我對(duì)L3的定義是有監(jiān)督的自動(dòng)駕駛,就可以批量向用戶交付了,而不是只用于做實(shí)驗(yàn)。 解決這兩個(gè)問(wèn)題以后,其實(shí)還有第三個(gè)問(wèn)題。因?yàn)槎说蕉耸呛诤凶?,VLM其實(shí)也是黑盒子,它跟過(guò)去我們?cè)谧鲋悄荞{駛、輔助駕駛的一個(gè)最大不同是,它不再是功能而是能力。我覺得AI最大的差別是能力,而過(guò)去的編程體系,最重要的是功能,因?yàn)楣δ茉谶^(guò)去是要通過(guò)測(cè)試和實(shí)驗(yàn)來(lái)驗(yàn)證的。但是能力,一個(gè)黑盒子怎么拿測(cè)試和實(shí)驗(yàn)來(lái)驗(yàn)證?這是不可能的。所以這時(shí)候面臨的一個(gè)新的挑戰(zhàn)是,我們用什么樣的技術(shù)方式來(lái)驗(yàn)證能力?這時(shí)候我們又找到了一個(gè)新的方式,主要的原理是來(lái)自于Sora,我們用Diffusion Transformers (DiTs)的方式來(lái)構(gòu)建一個(gè)重要的、小型的世界模型,拿這個(gè)世界模型,讓我們的車在里面考試。 所以,我們模擬人的一套真正的工作原理就開始呈現(xiàn)了。用端到端來(lái)承載人的系統(tǒng)一,VLM來(lái)承載人的系統(tǒng)二。系統(tǒng)一來(lái)解決所有自動(dòng)駕駛的,這些正常的反應(yīng)和駕駛的能力,系統(tǒng)二來(lái)解決兜底和泛化的能力,并應(yīng)用生成式的小的世界模型來(lái)進(jìn)行考試。這是我們?cè)谶^(guò)去的一段時(shí)間里,做的最重要的一個(gè)技術(shù)性的突破,而且我們的研究團(tuán)隊(duì)已經(jīng)通過(guò)了正常的研究驗(yàn)證。 李想表示將在今年第三季度推出全國(guó)無(wú)圖NOA,并同步向測(cè)試用戶推出通過(guò)300萬(wàn)clips訓(xùn)練出來(lái)的端到端+VLM的監(jiān)督型自動(dòng)駕駛體系。最早會(huì)在今年年底,最晚明年年初,我們會(huì)推出大概通過(guò)超過(guò)1000萬(wàn)clips訓(xùn)練出來(lái)的端到端+VLM,整個(gè)帶有監(jiān)督的自動(dòng)駕駛的體系,我們認(rèn)為這套體系會(huì)是未來(lái)整個(gè)物理世界機(jī)器人最重要的技術(shù)架構(gòu)和技術(shù)體系。 李想進(jìn)一步談到,接下來(lái)的一段時(shí)間里,在AI方面的幾個(gè)關(guān)鍵的技術(shù)論壇,我們的技術(shù)研究團(tuán)隊(duì)也會(huì)向整個(gè)行業(yè)來(lái)分享我們對(duì)這方面的所有的研究,包括這里的原理和實(shí)際結(jié)果,把我們進(jìn)行的一些探索與同行們進(jìn)行分享。 李想認(rèn)為,通過(guò)這套技術(shù),帶有監(jiān)督的L3級(jí)別自動(dòng)駕駛是100%可以實(shí)現(xiàn)的,最早今年年底最晚明年年初,帶有監(jiān)督的L3級(jí)別自動(dòng)駕駛就可以批量向用戶交付。而且隨著這套技術(shù)的演進(jìn),算力的增強(qiáng),模型的加大,李想認(rèn)為無(wú)監(jiān)督的L4級(jí)別自動(dòng)駕駛至少三年內(nèi)一定可以實(shí)現(xiàn)。 |
19款電子扎帶
電路板識(shí)別電子標(biāo)簽