作者|翟惠宇 編輯|王博 89.2萬人次,這是今年北京國際汽車展覽會(huì)(以下簡(jiǎn)稱“北京車展”)的觀眾人數(shù),而上一屆北京車展的觀眾人數(shù)是53萬人次。 「甲子光年」在現(xiàn)場(chǎng)觀察到,相比于前幾屆車展燃油車和新能源汽車大戰(zhàn)的場(chǎng)景,今年北京車展完全沒有能源類型的競(jìng)爭(zhēng),幾乎所有車企都在推出新能源車型。 大模型是本次車展的一個(gè)重要主題,很多廠商都把大模型上車作為一個(gè)宣傳亮點(diǎn)。而自從特斯拉開啟了端到端自動(dòng)駕駛潮流,端到端已經(jīng)成為自動(dòng)駕駛領(lǐng)域必須攻克的高地。 元戎啟行、商湯科技、小鵬汽車都在車展上展示了其最新的端到端自動(dòng)(智能)駕駛方案。5月20日,小鵬汽車的AI天璣系統(tǒng)將全量推送覆蓋小鵬 X9、G6 、G9 、P7i四款車型所有的Pro和Max版本。 小鵬汽車董事長(zhǎng)何小鵬在北京車展期間接受媒體群訪時(shí)表示,原先智能駕駛需要大量代碼制定規(guī)則,即使達(dá)到一萬行,可能也只能實(shí)現(xiàn)50%的規(guī)則能力。“2025年智能駕駛會(huì)發(fā)生質(zhì)的改變?,F(xiàn)在看甚至提前一年,因?yàn)榧夹g(shù)比我想象中更快?!焙涡※i說,“隨著端到端技術(shù)的出現(xiàn),我們僅需投入數(shù)十億(元)的訓(xùn)練費(fèi)用,便可以在一年內(nèi)大幅提升產(chǎn)品性能,這將極大加快自動(dòng)駕駛技術(shù)在實(shí)際應(yīng)用中的普及速度。” 但也有人把特斯拉的端到端大模型方案奉為圭臬,認(rèn)為必須按照特斯拉的方案,即傳感器數(shù)據(jù)和車輛狀態(tài)信息輸入單一大模型后直接輸出車輛控制指令,才是真正的端到端自動(dòng)駕駛方案。 這種爭(zhēng)議在機(jī)器人領(lǐng)域也有,比如人形機(jī)器人Figure 01宣稱的“端到端神經(jīng)網(wǎng)絡(luò)”就引發(fā)了討論。 出門問問創(chuàng)始人、CEO李志飛認(rèn)為,原理上,F(xiàn)igure看起來類似于Google在2023年3月發(fā)布的PaLM-E和RT-1的pipeline組合,而不是Google于2023年7月發(fā)布的端到端模型RT-2。 “'端到端'這個(gè)事,不同人的理解不一樣?!北本┐髮W(xué)計(jì)算機(jī)學(xué)院助理教授、博士生導(dǎo)師董豪告訴「甲子光年」,“有的人認(rèn)為RT-2這種直接輸出action的才叫'端到端',但是那種方法缺點(diǎn)很明顯,調(diào)用大模型的頻率比較高,算力消耗特別大,而且很難做到比較高的決策速度。Figure說的‘端到端’,不是指直接輸出action,而是由高頻的模型來輸出action?!?/span> 那么端到端自動(dòng)駕駛技術(shù)是什么?端到端大模型是否是自動(dòng)駕駛最優(yōu)解呢?本文,「甲子智庫」將帶來大模型在自動(dòng)駕駛領(lǐng)域的應(yīng)用和發(fā)展方向分析。 1.自動(dòng)駕駛技術(shù)的迭代與大模型應(yīng)用縱觀自動(dòng)駕駛技術(shù)的發(fā)展歷程,人工智能的不斷突破顯著提升了自動(dòng)駕駛的感知性能。從卷積神經(jīng)網(wǎng)絡(luò)(CNN)的引入,到循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的應(yīng)用,再到結(jié)合鳥瞰圖(BEV)與Transformer模型的創(chuàng)新,每一次的技術(shù)進(jìn)步都在增強(qiáng)自動(dòng)駕駛的精確度與安全性。 特別是基于Transformer的BEV感知模型,已經(jīng)獲得了業(yè)界的廣泛認(rèn)可。大模型技術(shù)不僅加速了自動(dòng)駕駛技術(shù)的演進(jìn),也為城市導(dǎo)航輔助系統(tǒng)(NOA)的普及和深入應(yīng)用打下了堅(jiān)實(shí)的基礎(chǔ),極大提高了智能駕駛產(chǎn)品的用戶滿意度。 當(dāng)前主流自動(dòng)駕駛方案的核心在于“感知-決策規(guī)劃-控制”的模塊化結(jié)構(gòu),其中“感知”是前置模塊且至關(guān)重要。它確保車輛能夠?qū)崟r(shí)、準(zhǔn)確地掌握周圍環(huán)境,是實(shí)現(xiàn)安全無人駕駛的關(guān)鍵前提。 自動(dòng)駕駛感知技術(shù)的發(fā)展已經(jīng)經(jīng)歷了幾個(gè)關(guān)鍵階段:
基于Transformer的BEV感知大模型已經(jīng)成為自動(dòng)駕駛領(lǐng)域的主流技術(shù)趨勢(shì),它推動(dòng)了“重感知、輕地圖”的技術(shù)路徑,并加速了城市導(dǎo)航輔助系統(tǒng)(NOA)的量產(chǎn)與規(guī)?;瘧?yīng)用,進(jìn)而實(shí)現(xiàn)“全國都能開”。AI大模型無疑是自動(dòng)駕駛行業(yè)發(fā)展的有力助推器。 事實(shí)上,在OpenAI推出ChatGPT之前,Transformer架構(gòu)就已在自動(dòng)駕駛感知領(lǐng)域得到推廣與使用,并隨著數(shù)據(jù)量增長(zhǎng)與穩(wěn)定性提升實(shí)現(xiàn)了相關(guān)產(chǎn)品的規(guī)?;渴?。 整體而言,自動(dòng)駕駛中大模型技術(shù)的運(yùn)用可分為云端和車端兩大類: 云端:
車端:
在數(shù)據(jù)驅(qū)動(dòng)的新時(shí)代背景下,自動(dòng)駕駛技術(shù)正在經(jīng)歷一場(chǎng)深刻的技術(shù)變革。大模型技術(shù)的應(yīng)用已經(jīng)從云端向車端延伸,涵蓋了自動(dòng)數(shù)據(jù)標(biāo)注、數(shù)據(jù)挖掘、目標(biāo)感知乃至車道拓?fù)漕A(yù)測(cè)等關(guān)鍵領(lǐng)域。這些應(yīng)用凸顯了大模型技術(shù)在自動(dòng)駕駛領(lǐng)域的關(guān)鍵地位,并展示了其對(duì)行業(yè)的深遠(yuǎn)影響。 在主機(jī)廠與自動(dòng)駕駛廠商對(duì)感知模型的開發(fā)與訓(xùn)練中,Transformer大模型早已不是新客,并已經(jīng)開始在感知模塊之外的其他領(lǐng)域嘗試使用。隨著大模型技術(shù)的進(jìn)步與模型訓(xùn)練方式的進(jìn)一步革新,端到端大模型為自動(dòng)駕駛技術(shù)的進(jìn)一步發(fā)展提供了新的思路。 2.端到端大模型謀劃上車繼BEV+Transformer與OCC占用網(wǎng)絡(luò)之后,端到端自動(dòng)駕駛技術(shù)開始受到廣泛關(guān)注。特斯拉作為行業(yè)的先鋒,其推出的FSD V12系統(tǒng)便是端到端自動(dòng)駕駛技術(shù)的典范。那么端到端自動(dòng)駕駛和模塊化自動(dòng)駕駛有什么不同? 從高精地圖到無圖的“全國都能開”,從高速NOA到城區(qū)NOA,AI大模型的應(yīng)用已經(jīng)幫助行業(yè)L2++級(jí)別的自動(dòng)駕駛功能量產(chǎn)上車并投入規(guī)?;褂茫粩鄾_擊著L3的界限。但如何從L2++真的跨越到L3/L4,始終是橫亙?cè)谧詣?dòng)駕駛從業(yè)者面前的難題。 在ChatGPT的成功之后,由“大算力+大模型+大數(shù)據(jù)”驅(qū)動(dòng)創(chuàng)造的“智能涌現(xiàn)”,為自動(dòng)駕駛帶來了新的路徑選擇。 現(xiàn)階段已經(jīng)上車的智能駕駛產(chǎn)品,絕大多數(shù)采用了“感知-規(guī)劃-控制”串聯(lián)的模塊化架構(gòu)。攝像頭、雷達(dá)、IMU、激光雷達(dá)等傳感器采集到的信息先交由感知模塊進(jìn)行空間感知計(jì)算;感知模型輸出結(jié)果后,再交由基于規(guī)則的規(guī)劃模塊,進(jìn)行相應(yīng)的決策與路徑規(guī)劃;控制模塊再根據(jù)決策規(guī)劃的結(jié)果,最終生成車輛轉(zhuǎn)向角、制動(dòng)力、油門/電門等動(dòng)作。 在當(dāng)前的自動(dòng)駕駛技術(shù)發(fā)展中,深度學(xué)習(xí)算法與大模型仍主要集中在提升“感知”模塊的性能。出于對(duì)行車安全的考量,決策規(guī)劃模塊目前仍然依賴于基于規(guī)則的方法。然而,這種基于規(guī)則的決策模型在應(yīng)對(duì)城市復(fù)雜交通環(huán)境和不斷出現(xiàn)的極端情況(corner case)時(shí)仍顯不足,這導(dǎo)致高級(jí)別的自動(dòng)駕駛在實(shí)際運(yùn)行中難以保證完全不需要人工干預(yù)。 而端到端架構(gòu)則有所不同,它比模塊化的系統(tǒng)架構(gòu)更加簡(jiǎn)潔。狹義的端到端模型并不拆分感知、規(guī)劃、控制等模塊。相反地,端到端模型是一體化的,傳感器信號(hào)作為模型的輸入,輸出則直接用于車輛執(zhí)行器的加減速與轉(zhuǎn)向的指令。在足量?jī)?yōu)質(zhì)數(shù)據(jù)與充沛算力的加持下,進(jìn)行統(tǒng)一訓(xùn)練。隨著自動(dòng)駕駛領(lǐng)域數(shù)據(jù)量的持續(xù)增長(zhǎng),為訓(xùn)練更為先進(jìn)的決策模型提供了條件,使得端到端的自動(dòng)駕駛模型成為可能,為未來徹底解決人工接管問題打好基礎(chǔ)。 特斯拉今年3月在北美地區(qū)全面推送FSD Beta V12.3版本,此次升級(jí)的最大亮點(diǎn)是引入了特斯拉CEO埃隆·馬斯克(Elon Musk)引以為傲的“端到端神經(jīng)網(wǎng)絡(luò)”技術(shù),這一變革被譽(yù)為“改變游戲規(guī)則的技術(shù)”。 特斯拉介紹,F(xiàn)SD Beta V12.3將城市街道駕駛堆棧升級(jí)為一個(gè)在數(shù)百萬視頻片段上訓(xùn)練的端到端神經(jīng)網(wǎng)絡(luò),取代了超過30萬行的顯式C++代碼。這意味著汽車操控邏輯已經(jīng)實(shí)現(xiàn)交由神經(jīng)網(wǎng)絡(luò)處理,而不是由程序員編寫的代碼。 國內(nèi)一些領(lǐng)先的企業(yè)也在跟進(jìn)這一技術(shù)的研發(fā)與部署。剛剛結(jié)束的北京國際汽車展覽會(huì)也印證了這一點(diǎn):商湯科技、元戎啟行等國內(nèi)AI企業(yè)的端到端智能駕駛量產(chǎn)方案在北京車展亮相,“端到端大模型上車”成為熱議話題。元戎啟行展出了基于端到端模型的量產(chǎn)智能駕駛方案DeepRoute IO,商湯絕影也在現(xiàn)場(chǎng)展示了面向量產(chǎn)的端到端自動(dòng)駕駛解決方案 UniAD (Unified Autonomous Driving) 的道路測(cè)試表現(xiàn)。 從開發(fā)的角度來看,“端到端”概念的引入是革命性的。主流的規(guī)劃方案仍然基于手寫規(guī)則,高度依賴提前設(shè)計(jì)的先驗(yàn)規(guī)則與傳統(tǒng)算法的優(yōu)劣,遇到bad case時(shí)需要持續(xù)不斷添加規(guī)則,以打補(bǔ)丁的方式實(shí)現(xiàn)模型調(diào)優(yōu)。 相比之下,沒有進(jìn)行任務(wù)拆分的端到端自動(dòng)駕駛則摒棄了傳統(tǒng)自動(dòng)駕駛中感知、規(guī)劃、控制各大模塊及下邊的各類子任務(wù),能夠?qū)崿F(xiàn)輸入傳感器數(shù)據(jù)可直接輸出車輛動(dòng)作控制。 整體來看,端到端的優(yōu)點(diǎn)包括但不限于:
3.端到端大模型面臨的挑戰(zhàn)端到端自動(dòng)駕駛系統(tǒng)的優(yōu)勢(shì)日益明顯,其借助大模型技術(shù)的深入應(yīng)用,為自動(dòng)駕駛技術(shù)的進(jìn)一步發(fā)展提供了一條高效率的途徑。然而,端到端是否成為自動(dòng)駕駛未來發(fā)展的唯一道路,目前還存在一些疑問。 當(dāng)前端到端自動(dòng)駕駛系統(tǒng)的開發(fā)和實(shí)施正面臨一系列挑戰(zhàn)。 首先,端到端大模型的解釋性不足,這對(duì)于將安全性放在首位的自動(dòng)駕駛領(lǐng)域是一個(gè)亟待解決的問題。當(dāng)端到端系統(tǒng)出現(xiàn)問題時(shí),它不像模塊化系統(tǒng)那樣能夠逐步分析中間結(jié)果,從而定位問題源頭。在文本和圖像生成等場(chǎng)景中,大模型的容錯(cuò)成本較低,但在自動(dòng)駕駛領(lǐng)域,一旦出錯(cuò),代價(jià)卻極為昂貴。這成為了端到端系統(tǒng)通過驗(yàn)證測(cè)試并實(shí)現(xiàn)產(chǎn)業(yè)化的關(guān)鍵障礙。 其次,端到端自動(dòng)駕駛大模型,類似于大語言模型,其核心在于對(duì)海量?jī)?yōu)質(zhì)駕駛視頻片段的學(xué)習(xí)和提煉,這需要極大的高質(zhì)量數(shù)據(jù)集。 以特斯拉的FSD V12系統(tǒng)為例,它需要神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)百萬的視頻片段。這不僅涉及到數(shù)據(jù)采集的挑戰(zhàn),還包括從海量數(shù)據(jù)中篩選和清洗出高質(zhì)量數(shù)據(jù)的難題。FSD是特斯拉的選裝功能,但由于價(jià)格過高,F(xiàn)SD的選裝率常年在低位徘徊。即便在比例較高的美國,F(xiàn)SD的選裝率也不足20%。為了加強(qiáng)FSD的吸引力,幫助特斯拉獲得更多訓(xùn)練數(shù)據(jù),特斯拉FSD的美國售價(jià)已經(jīng)快速“腰斬”:2023年9月,F(xiàn)SD套餐價(jià)格從15000美元降至12000美元,又在今年4月降至8000美元;月度訂閱價(jià)格也在4月從199美元/月降至99美元/月。 而在北京車展上,極越宣布將于2026年量產(chǎn)上車英偉達(dá)1000TFLOPS高性能計(jì)算平臺(tái)Thor,滿足未來全場(chǎng)景端到端的智駕需求,“為用戶帶來安全、先進(jìn)的智能移動(dòng)出行體驗(yàn)”。而對(duì)于端到端大模型的數(shù)據(jù)問題,極越CEO夏一平今年3月曾對(duì)「甲子光年」表示,大模型訓(xùn)練比較核心的東西不是數(shù)據(jù)比誰多,而是比誰有更多的高質(zhì)量數(shù)據(jù),“數(shù)據(jù)質(zhì)量很重要。數(shù)據(jù)質(zhì)量不好,訓(xùn)練出的模型可能就是有缺陷的?!?/span> 最后,大模型的訓(xùn)練需要巨大的投資,包括高質(zhì)量視頻數(shù)據(jù)的采集和算力資源的大幅增加。埃隆·馬斯克曾提出,到2024年底,特斯拉的訓(xùn)練算力將達(dá)到100EFLOPS,這是一個(gè)令人震驚的目標(biāo)。對(duì)于國內(nèi)企業(yè)來說,算力資源的積累問題將變得更加突出。 盡管如此,端到端技術(shù)以其創(chuàng)新的理念,為實(shí)現(xiàn)完全無人駕駛的目標(biāo)提供了新的可能性。隨著技術(shù)的不斷進(jìn)步和行業(yè)的共同努力,這些挑戰(zhàn)有望被逐一克服。特斯拉計(jì)劃推出的robotaxi產(chǎn)品,顯示了其在自動(dòng)駕駛領(lǐng)域的雄心壯志,預(yù)示著技術(shù)正朝著更高級(jí)的階段邁進(jìn)。同時(shí),商湯科技、元戎啟行、毫末智行等國內(nèi)企業(yè)的積極參與,也展現(xiàn)了中國在自動(dòng)駕駛技術(shù)領(lǐng)域的潛力和決心。 “2024年誰還沒落地‘智駕全國都能開’,誰就會(huì)掉隊(duì)?!边@是夏一平今年3月受訪時(shí)的表達(dá)的觀點(diǎn)。 不過,何小鵬在北京車展期間談到端到端技術(shù)應(yīng)用時(shí)也很明確地指出:“目前,許多企業(yè)聲稱他們能在全國范圍內(nèi)提供服務(wù),但實(shí)際上他們?nèi)匀灰蕾囉诟呔貓D,看起來速度快但高精地圖目前僅覆蓋全國公路的不到1%。當(dāng)車輛從A路開到B路時(shí),如果沒有高精地圖的支持,服務(wù)就會(huì)立即中斷。只有完全擺脫對(duì)高精地圖的依賴,才能在雜場(chǎng)景下得到應(yīng)用?!?/span> 如同今年年初汽車行業(yè)的價(jià)格戰(zhàn)一樣,接下來,主機(jī)廠及供應(yīng)商在自動(dòng)(智能)駕駛方面的競(jìng)爭(zhēng)勢(shì)必會(huì)更加激烈。 不要忘了,馬斯克前段時(shí)間來了北京,特斯拉FSD在中國落地或許就在不遠(yuǎn)的將來。 (封面圖由AI生成) |
19款電子扎帶
電路板識(shí)別電子標(biāo)簽