97国产精品一区二区视频_国产午夜毛片色哟哟_惠民福利国产91精品看黄网站在线观看_搡老熟女老女人一区二区三区_国产做a∨在线视频观看免费_日韩 综合 婷婷 图_成人黄色一级毛片片_萧山本地第一网络媒体_亚洲国产精品无码久久久曰_亚洲欧美日韩岛国色图

快捷導(dǎo)航

蘋果自動(dòng)駕駛新進(jìn)展:36塊錢訓(xùn)練百萬公里數(shù)據(jù),10天跑完16億公里

2025-2-25 07:52| 發(fā)布者: admin| 查看: 113| 評(píng)論: 0
摘要: 車東西作者 | Janson編輯 | 志豪一天訓(xùn)練950年駕駛經(jīng)驗(yàn),蘋果讓自動(dòng)駕駛自己“修仙”。車東西2月24日消息,日前,蘋果在機(jī)器學(xué)習(xí)研究頁(yè)面公布了一項(xiàng)其在自動(dòng)駕駛領(lǐng)域最新的研究論文。蘋果自動(dòng)駕駛前沿進(jìn)展在Apple ...

蘋果自動(dòng)駕駛新進(jìn)展:36塊錢訓(xùn)練百萬公里數(shù)據(jù),10天跑完16億公里


車東西

作者 | Janson

編輯 | 志豪

一天訓(xùn)練950年駕駛經(jīng)驗(yàn),蘋果讓自動(dòng)駕駛自己“修仙”。

車東西2月24日消息,日前,蘋果在機(jī)器學(xué)習(xí)研究頁(yè)面公布了一項(xiàng)其在自動(dòng)駕駛領(lǐng)域最新的研究論文。

蘋果自動(dòng)駕駛新進(jìn)展:36塊錢訓(xùn)練百萬公里數(shù)據(jù),10天跑完16億公里


蘋果自動(dòng)駕駛前沿進(jìn)展在Apple官網(wǎng)

該論文的創(chuàng)新之處在于提出了一種全新的大規(guī)模自博弈強(qiáng)化學(xué)習(xí)框架GIGAFLOW,并證明其能夠有效訓(xùn)練出通用且具備魯棒性的駕駛策略。

數(shù)據(jù)顯示,通過這一套自監(jiān)督訓(xùn)練體系,每10天即可完成16億公里的訓(xùn)練,等效約9500年的駕駛經(jīng)驗(yàn),換算成一天就相當(dāng)于1.6億公里和950年駕駛經(jīng)驗(yàn)。

而這樣的訓(xùn)練,成本控制也十分突出,每百萬公里的模擬成本低于5美元(約合人民幣36.1元),且不需要真實(shí)世界數(shù)據(jù)。

這項(xiàng)研究的公布也證明了蘋果即使在放棄了造車之后,也還沒有完全停止對(duì)于汽車行業(yè)的關(guān)注,或許未來蘋果也會(huì)在自動(dòng)駕駛領(lǐng)域拿出令人震驚的新產(chǎn)品。

蘋果造車歷程始于 2008 年喬布斯親自啟動(dòng)的 “泰坦計(jì)劃”,歷經(jīng)多次戰(zhàn)略調(diào)整、團(tuán)隊(duì)重組和領(lǐng)導(dǎo)層變動(dòng),目標(biāo)從全自動(dòng)駕駛轉(zhuǎn)向技術(shù)開發(fā),但因戰(zhàn)略模糊和執(zhí)行不力,始終未能推出實(shí)質(zhì)性產(chǎn)品。

終于在2024年初,蘋果正式放棄電動(dòng)汽車開發(fā),據(jù)媒體報(bào)道,當(dāng)時(shí)的蘋果在造車項(xiàng)目上至少已經(jīng)投入了100億美元(約合人民幣721億元)。這樣的結(jié)局也引發(fā)了馬斯克、雷軍等不少科技圈大佬的集體感懷。

一、引入自博弈訓(xùn)練設(shè)計(jì) 短時(shí)間可獲大量訓(xùn)練經(jīng)驗(yàn)


GIGAFLOW是一個(gè)高度并行化的模擬器和強(qiáng)化學(xué)習(xí)框架,專門為自博弈訓(xùn)練而設(shè)計(jì)。其主要目標(biāo)是通過模擬數(shù)十億公里的駕駛數(shù)據(jù),訓(xùn)練出一種能夠適應(yīng)多種交通參與者和駕駛風(fēng)格的通用駕駛策略,同時(shí)這也是一種不需要真實(shí)世界數(shù)據(jù)的訓(xùn)練模型。

GIGAFLOW能夠在8塊GPU上同時(shí)模擬3.84萬個(gè)虛擬環(huán)境,每小時(shí)生成4.4億次狀態(tài)轉(zhuǎn)換,這相當(dāng)于42年的駕駛經(jīng)驗(yàn)。

值得一提的是GIGAFLOW的模擬環(huán)境設(shè)計(jì)簡(jiǎn)潔,但通過大規(guī)模自博弈的方式彌補(bǔ)了其設(shè)計(jì)上的簡(jiǎn)化。

蘋果自動(dòng)駕駛新進(jìn)展:36塊錢訓(xùn)練百萬公里數(shù)據(jù),10天跑完16億公里


GIGAFLOW的環(huán)境模擬

GIGAFLOW使用了8張基本地圖,每張地圖的車道總長(zhǎng)度在4到40公里之間。這些地圖經(jīng)過隨機(jī)變換(例如縮放和翻轉(zhuǎn))生成新的變體,形成一個(gè)總長(zhǎng)136公里的道路網(wǎng)絡(luò)。

在這樣的“世界”中,每個(gè)智能體從隨機(jī)位置出發(fā),目標(biāo)是到達(dá)地圖中隨機(jī)生成的目的地,途中需要經(jīng)過若干個(gè)中間點(diǎn)。

蘋果自動(dòng)駕駛新進(jìn)展:36塊錢訓(xùn)練百萬公里數(shù)據(jù),10天跑完16億公里


GIGAFLOW的不同駕駛風(fēng)格

從交互決策的角度來看,這樣的環(huán)境中最多可以同時(shí)存在150個(gè)智能體(包括車輛和行人等),所有參與者均由同一策略控制,但通過參數(shù)化條件展現(xiàn)出多樣化的行為模式,如激進(jìn)駕駛和守法駕駛等。

在訓(xùn)練過程中,智能體通過自博弈逐步學(xué)會(huì)了復(fù)雜的駕駛行為。

這些行為包括在擁堵路段執(zhí)行“拉鏈?zhǔn)健辈⒕€、在環(huán)島中協(xié)調(diào)通行、在狹窄空間中執(zhí)行多點(diǎn)掉頭,以及在發(fā)生事故或遇到路障時(shí)重新規(guī)劃路徑。

要知道,所有這些復(fù)雜行為均是在沒有預(yù)設(shè)腳本或人類示例的情況下,通過自博弈自然涌現(xiàn)的。

二、多項(xiàng)措施優(yōu)化訓(xùn)練開銷 成本表現(xiàn)突出


從能力上看,GIGAFLOW在單節(jié)點(diǎn)上進(jìn)行3.84萬個(gè)并行環(huán)境的模擬,通過GPU加速的物理計(jì)算和動(dòng)態(tài)狀態(tài)壓縮,顯著降低了內(nèi)存占用和通信開銷。

在訓(xùn)練資源配置方面,GIGAFLOW完整訓(xùn)練需要2000GPU小時(shí)(大約10天完成),總計(jì)算量約為2.3×10^19FLOP,訓(xùn)練數(shù)據(jù)總量為16億公里。

根據(jù)AWS p4d實(shí)例(8 GPU/節(jié)點(diǎn))的價(jià)格估算,總訓(xùn)練成本約為4.8萬美元(約合人民幣34.56萬元),低于同類強(qiáng)化學(xué)習(xí)方案。

蘋果自動(dòng)駕駛新進(jìn)展:36塊錢訓(xùn)練百萬公里數(shù)據(jù),10天跑完16億公里


GIGAFLOW訓(xùn)練量對(duì)比其他模型

此外,依賴人類數(shù)據(jù)的模仿學(xué)習(xí)通常需要高昂的數(shù)據(jù)標(biāo)注成本,而GIGAFLOW則避免了這一部分開銷。

為了進(jìn)一步提升效率,GIGAFLOW采用了優(yōu)勢(shì)過濾技術(shù),通過動(dòng)態(tài)閾值丟棄低優(yōu)勢(shì)樣本,減少約80%的反向傳播計(jì)算量,再加上所有交通代理(包括車輛和行人)共享同一策略網(wǎng)絡(luò),避免了多模型訓(xùn)練的開銷。

蘋果自動(dòng)駕駛新進(jìn)展:36塊錢訓(xùn)練百萬公里數(shù)據(jù),10天跑完16億公里


所有交通參與者共享同一策略網(wǎng)絡(luò)

此外,GIGAFLOW通過離線生成地圖的柵格化特征(如車道拓?fù)浜徒煌粑恢茫﹥?yōu)化也可以減少實(shí)時(shí)計(jì)算負(fù)載。

然而,GIGAFLOW仍存在一些成本局限性,例如對(duì)8 GPU節(jié)點(diǎn)級(jí)算力的依賴,還有一定門檻,該策略的魯棒性需要超過15億公里的訓(xùn)練量,短周期訓(xùn)練難以收斂。

再加上車輛動(dòng)力學(xué)和獎(jiǎng)勵(lì)函數(shù)的實(shí)時(shí)隨機(jī)化會(huì)增加約15%的計(jì)算負(fù)載,可以說這個(gè)系統(tǒng)是目前自動(dòng)駕駛訓(xùn)練一個(gè)不錯(cuò)的發(fā)展方向,但還遠(yuǎn)未到達(dá)“革命性”時(shí)刻。

三、能力超越基準(zhǔn) 未來仍有改進(jìn)空間


在基準(zhǔn)測(cè)試中,GIGAFLOW策略的零樣本泛化能力在三個(gè)主流自動(dòng)駕駛基準(zhǔn)上得到了驗(yàn)證,包括CARLA、nuPlan和Waymax。

CARLA基于手工設(shè)計(jì)的駕駛場(chǎng)景,主要評(píng)估長(zhǎng)距離駕駛中的表現(xiàn);nuPlan基于記錄的真實(shí)駕駛數(shù)據(jù),評(píng)估短距離駕駛中的表現(xiàn);Waymax則使用Waymo Open Motion Dataset構(gòu)建的模擬環(huán)境,評(píng)估復(fù)雜場(chǎng)景中的駕駛表現(xiàn)。

蘋果自動(dòng)駕駛新進(jìn)展:36塊錢訓(xùn)練百萬公里數(shù)據(jù),10天跑完16億公里


GIGAFLOW在CARLA的測(cè)試表現(xiàn)

測(cè)試結(jié)果顯示,GIGAFLOW的策略在所有基準(zhǔn)上均超越了特定于基準(zhǔn)的專家模型,展現(xiàn)出較強(qiáng)的零樣本泛化能力,甚至在未針對(duì)任何特定基準(zhǔn)進(jìn)行微調(diào)的情況下,其表現(xiàn)仍優(yōu)于那些專門為基準(zhǔn)優(yōu)化的模型。

在CARLA中,GIGAFLOW的策略能夠有效處理突發(fā)的行人穿越和擁堵的交叉路口等復(fù)雜場(chǎng)景。

GIGAFLOW在其他基準(zhǔn)下的測(cè)試表現(xiàn)

而在nuPlan和Waymax的基準(zhǔn)測(cè)試中,GIGAFLOW策略展現(xiàn)了自然且魯棒的駕駛行為。

進(jìn)一步分析表明,GIGAFLOW策略在長(zhǎng)期駕駛魯棒性方面也表現(xiàn)優(yōu)秀,在降低動(dòng)態(tài)噪聲和提高控制頻率的條件下,智能體平均可以連續(xù)駕駛1750萬公里才發(fā)生一次事故,而美國(guó)人類駕駛者的平均事故發(fā)生率為每82.9萬公里一次。

蘋果自動(dòng)駕駛新進(jìn)展:36塊錢訓(xùn)練百萬公里數(shù)據(jù),10天跑完16億公里


GIGAFLOW在模擬/決策不同值情況下模型的事故率

此外,研究者還深入探討了GIGAFLOW策略的行為特性,包括其長(zhǎng)遠(yuǎn)決策能力,能夠根據(jù)未來可能發(fā)生的事件(如150米外的路障)調(diào)整當(dāng)前的駕駛行為;多樣化駕駛風(fēng)格,策略可以通過調(diào)整參數(shù)化條件展現(xiàn)從謹(jǐn)慎到激進(jìn)的多種駕駛風(fēng)格;以及在需要多主體協(xié)調(diào)的復(fù)雜場(chǎng)景(如車流合并)中,策略展現(xiàn)出靈活且自然的行為。

不過,這樣的成就在該項(xiàng)目團(tuán)隊(duì)中也還有不少進(jìn)展空間,盡管這種方法的優(yōu)勢(shì)在于減少了對(duì)人工數(shù)據(jù)采集的依賴,能夠生成多樣化的駕駛行為,但是研究仍存在局限性。

首先,純模擬訓(xùn)練的策略尚未在現(xiàn)實(shí)世界中進(jìn)行驗(yàn)證,因此其在實(shí)際應(yīng)用中的表現(xiàn)仍然未知。

此外,研究假設(shè)感知系統(tǒng)是完美的,但在現(xiàn)實(shí)中,傳感器噪聲和環(huán)境的不確定性可能會(huì)顯著影響策略的表現(xiàn)。

最后,盡管自博弈展現(xiàn)了強(qiáng)大的泛化能力,但如何將其與基于人類數(shù)據(jù)的模仿學(xué)習(xí)相結(jié)合,仍然是未來研究的重要方向。

結(jié)語(yǔ):蘋果仍在繼續(xù)發(fā)力汽車行業(yè)


這篇論文通過GIGAFLOW框架展示了自博弈在自動(dòng)駕駛領(lǐng)域的巨大潛力。不過,目前該模型仍有諸如真實(shí)世界的驗(yàn)證和感知系統(tǒng)的集成等許多挑戰(zhàn)需要解決。

從蘋果的角度來看,盡管其已經(jīng)官宣停止造車項(xiàng)目,但從目前來看還并沒有放棄在機(jī)器學(xué)習(xí)領(lǐng)域的前沿追求,仍在繼續(xù)發(fā)力汽車行業(yè)。

GIGAFLOW框架的研究為未來的自動(dòng)駕駛研究開辟了新的方向,也為其他多智能體協(xié)作領(lǐng)域提供了的啟發(fā)。我們不妨期待蘋果在自動(dòng)駕駛領(lǐng)域給行業(yè)帶來的更多震撼。

路過

雷人

握手

鮮花

雞蛋

關(guān)注我們:東遠(yuǎn)物聯(lián)

抖音

微信咨詢

咨詢電話:

199-2833-9866

D-Think | 廣州東遠(yuǎn)智能科技有限公司

地址:廣州市白云區(qū)北太路1633號(hào)廣州民營(yíng)科技園科創(chuàng)中心2棟16樓

電話:+86 020-87227952 Email:[email protected]

Copyright  ©2020  東遠(yuǎn)科技  粵ICP備2024254589號(hào)

免責(zé)申明:部分圖文表述來自于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系作者刪除!