97国产精品一区二区视频_国产午夜毛片色哟哟_惠民福利国产91精品看黄网站在线观看_搡老熟女老女人一区二区三区_国产做a∨在线视频观看免费_日韩 综合 婷婷 图_成人黄色一级毛片片_萧山本地第一网络媒体_亚洲国产精品无码久久久曰_亚洲欧美日韩岛国色图

快捷導(dǎo)航

世界模型技術(shù)持續(xù)升級(jí) 自動(dòng)駕駛汽車(chē)還能跑得更快些

2025-1-15 15:56| 發(fā)布者: admin| 查看: 72| 評(píng)論: 0
摘要: 從ChatGPT到Sora,人工智能(AI)似乎總愛(ài)在歲末更迭之際帶來(lái)一些驚喜。2024年底,AI同樣沒(méi)有缺席。不久前,人工智能科學(xué)家李飛飛發(fā)布了首個(gè)空間智能項(xiàng)目成果——用單張靜態(tài)圖片生成3D世界的AI產(chǎn)品。借助這一AI工具 ...

世界模型技術(shù)持續(xù)升級(jí) 自動(dòng)駕駛汽車(chē)還能跑得更快些



世界模型技術(shù)持續(xù)升級(jí) 自動(dòng)駕駛汽車(chē)還能跑得更快些

從ChatGPT到Sora,人工智能(AI)似乎總愛(ài)在歲末更迭之際帶來(lái)一些驚喜。2024年底,AI同樣沒(méi)有缺席。不久前,人工智能科學(xué)家李飛飛發(fā)布了首個(gè)空間智能項(xiàng)目成果——用單張靜態(tài)圖片生成3D世界的AI產(chǎn)品。借助這一AI工具,不僅可生成3D場(chǎng)景,而且所生成的場(chǎng)景還具有交互性、可修改。當(dāng)一張圖、一句話(huà)便可生成一個(gè)可互動(dòng)的虛擬世界,自動(dòng)駕駛又會(huì)因此如何進(jìn)化?

圖生世界

自動(dòng)駕駛新機(jī)涌現(xiàn)


“AI教母”、華裔科學(xué)家李飛飛籌資2.3億美元所構(gòu)建的大世界模型(Large World Model,LWM)可以通過(guò)一張圖片便生成一個(gè)3D游戲世界。李飛飛等人聯(lián)合創(chuàng)辦的空間智能公司W(wǎng)orld Labs的內(nèi)部人士表示,一旦生成,該3D世界就會(huì)進(jìn)行實(shí)時(shí)渲染,且用戶(hù)可通過(guò)模擬景深效果、模擬滑動(dòng)變焦的方式精準(zhǔn)控制。此外,用戶(hù)還可改變其中物體顏色,動(dòng)態(tài)調(diào)整背景光影,在場(chǎng)景中插入其他對(duì)象等。

值得一提的是,與此前大多數(shù)生成模型不同,LWM可直接預(yù)測(cè)3D場(chǎng)景而非像素。因此,場(chǎng)景在人移開(kāi)視線再回來(lái)時(shí)不會(huì)發(fā)生變化,并遵循基本的3D幾何物理規(guī)則。李飛飛表示,LWM僅僅是World Lab的第一步,后續(xù)公司還將把場(chǎng)景設(shè)計(jì)融入AR、機(jī)器人、自動(dòng)駕駛等場(chǎng)景中。


世界模型技術(shù)持續(xù)升級(jí) 自動(dòng)駕駛汽車(chē)還能跑得更快些

無(wú)獨(dú)有偶,谷歌旗下人工智能研究機(jī)構(gòu)DeepMind不久前同樣發(fā)布了能夠“圖生世界”的新型模型Genie 2。據(jù)悉,Genie 2可根據(jù)用戶(hù)輸入的文本描述和圖像,實(shí)時(shí)生成交互式的三維場(chǎng)景。DeepMind表示,Genie 2可以生成具有不同視角的連貫世界,如第一人稱(chēng)視角和等距視角,持續(xù)時(shí)間可達(dá)1分鐘。在生成過(guò)程中,Genie 2還可模擬物體交互、動(dòng)畫(huà)、光照、物理反射以及非玩家角色(NPC)的行為。

李飛飛曾表示,實(shí)現(xiàn)通用人工智能(AGI)的關(guān)鍵一環(huán)是空間智能,盡管Sora模型可以實(shí)現(xiàn)文生視頻,但就本質(zhì)而言,它仍屬于平面二維模型,沒(méi)有三維立體理解能力。只有通過(guò)空間智能,才能看到世界、感知世界、理解世界并讓機(jī)器人做事,從而形成良性閉環(huán)。聚焦汽車(chē)產(chǎn)業(yè),空間智能究竟能給帶來(lái)何種影響?

對(duì)此,商湯絕影高級(jí)總監(jiān)武偉告訴記者,李飛飛空間智能模型主要有兩大亮點(diǎn)。第一,該模型將世界模型的范式從文生視頻拓展到文生4D空間,即3D+時(shí)序可交互;第二,時(shí)序上的空間一致性得到了很好的保持,具備一定的空間記憶能力。在該負(fù)責(zé)人看來(lái),該技術(shù)能夠應(yīng)用于自動(dòng)駕駛的閉環(huán)仿真測(cè)試。利用空間智能范式能夠在線生成多樣化的3D空間且實(shí)時(shí)交互,在端到端仿真Worldsim(人為預(yù)設(shè)場(chǎng)景)上是一條有希望的新路徑。

可以預(yù)見(jiàn),隨著技術(shù)不斷成熟,空間智能將給自動(dòng)駕駛帶來(lái)更多想象空間。目前,已有車(chē)企迫不及待進(jìn)行空間智能上車(chē)實(shí)踐。在國(guó)際消費(fèi)電子展(CES 2025)現(xiàn)場(chǎng),長(zhǎng)城汽車(chē)便推出空間語(yǔ)言智能體(ASL)。長(zhǎng)城汽車(chē)首席技術(shù)官吳會(huì)肖稱(chēng),ASL建立在空間智能之上,采用人類(lèi)自然語(yǔ)言作為附加輸入和輸出。配備ASL的汽車(chē),基于多維數(shù)據(jù),更能以人為本,量身定制每一趟旅途。

多方涉足

世界模型潛力無(wú)窮


作為構(gòu)建空間智能的核心,世界模型自然備受關(guān)注。早在2018年,世界模型的概念便開(kāi)始被廣泛提及。南京大學(xué)人工智能學(xué)院教授俞揚(yáng)曾指出,世界模型的核心作用是進(jìn)行反事實(shí)推理,即在模型中模擬和推理出在現(xiàn)實(shí)世界中未見(jiàn)過(guò)的決策結(jié)果。能在模型中推理和預(yù)測(cè)并由此迅速做出決策,這無(wú)疑對(duì)自動(dòng)駕駛領(lǐng)域有著極強(qiáng)吸引力,不少車(chē)企、自動(dòng)駕駛企業(yè)因此開(kāi)始涉足世界模型。

2023年,特斯拉在CVPR 2023上便介紹了通用世界模型,該模型可通過(guò)過(guò)往的視頻片段和行動(dòng)提示,生成“可能的未來(lái)”全新視頻。同年,蔚來(lái)汽車(chē)在NIO Day上表示其正在自研世界模型。一年之后,2024年7月,蔚來(lái)汽車(chē)發(fā)布中國(guó)首個(gè)智能駕駛世界模型NWM(NIO World Model)。據(jù)介紹,NWM能夠在0.1秒內(nèi)推演出216種車(chē)輛可能發(fā)生的軌跡,并尋找出最佳決策。作為生成式模型,NWM還具有強(qiáng)大的生成能力,只需將3秒鐘的駕駛視頻作為Prompt(提示),就能生成長(zhǎng)達(dá)120秒的視頻。

隨后,2024年8月,地平線推出全場(chǎng)景智能駕駛解決方案HSD,其核心突破便在于創(chuàng)新的端到端世界模型。據(jù)地平線介紹,該模型不僅讓車(chē)輛具備了全面的環(huán)境感知能力,更使車(chē)輛能夠像經(jīng)驗(yàn)豐富的駕駛員一樣,理解并預(yù)測(cè)周?chē)澜绲膭?dòng)態(tài)變化,從而做出更為合理和高效的駕駛決策。

2024年11月,在2024“絕影實(shí)力AI DAY”上,商湯絕影“開(kāi)悟”世界模型正式亮相。據(jù)介紹,開(kāi)悟世界模型可生成仿真數(shù)據(jù),與量產(chǎn)實(shí)車(chē)采集的真實(shí)數(shù)據(jù)結(jié)合,共同重建物理世界。依托多模態(tài)大模型技術(shù)和大裝置算力集群的基建,該世界模型是業(yè)內(nèi)首個(gè)同時(shí)滿(mǎn)足11V空間一致、2.5分鐘長(zhǎng)時(shí)序、1080P高分辨率和多模態(tài)可控的世界模型。


世界模型技術(shù)持續(xù)升級(jí) 自動(dòng)駕駛汽車(chē)還能跑得更快些

進(jìn)入2025年,世界模型的熱度依然不減。1月7日,英偉達(dá)在CES 2025上推出Cosmos世界模型,專(zhuān)為理解物理世界打造,可預(yù)測(cè)和生成“物理感知”的視頻。英偉達(dá)表示,Cosmos的數(shù)據(jù)來(lái)自2000萬(wàn)小時(shí)的真實(shí)世界人類(lèi)互動(dòng)、環(huán)境、工業(yè)、機(jī)器人和駕駛數(shù)據(jù)。目前,已有Wayve、Uber等多家企業(yè)承諾在各種用例中使用Cosmos,從視頻搜索和策劃到為自動(dòng)駕駛汽車(chē)構(gòu)建AI大模型。

“現(xiàn)階段看到的多是基于視覺(jué)的世界模型,通過(guò)圖像來(lái)生成、預(yù)測(cè)世界三維場(chǎng)景?!?/span>中國(guó)科學(xué)院雄安創(chuàng)新研究院研究員、認(rèn)知智能重點(diǎn)實(shí)驗(yàn)室副主任黃武陵表示,在基于視覺(jué)方式(端到端)實(shí)現(xiàn)的自動(dòng)駕駛方案中,世界模型主要有三大潛在價(jià)值。

第一,基于自動(dòng)駕駛世界模型,通過(guò)混合來(lái)自仿真軟件和真實(shí)世界的視覺(jué)數(shù)據(jù)來(lái)學(xué)習(xí)生成多樣化的駕駛場(chǎng)景,可以用于場(chǎng)景數(shù)據(jù)增強(qiáng)、危險(xiǎn)場(chǎng)景生成、算法評(píng)測(cè)等應(yīng)用,有效降低自動(dòng)駕駛研發(fā)中訓(xùn)練數(shù)據(jù)成本;第二,自動(dòng)駕駛世界模型還可解決錯(cuò)誤高效重放、測(cè)試與學(xué)習(xí)的鏈路難點(diǎn),能夠解決此類(lèi)場(chǎng)景下實(shí)際采集數(shù)據(jù)不完整等傳統(tǒng)方法缺陷,充分利用基于世界模型準(zhǔn)確預(yù)測(cè)未來(lái)場(chǎng)景能力;第三,通過(guò)自動(dòng)駕駛世界模型對(duì)于真實(shí)世界的模擬,可以預(yù)測(cè)不同駕駛行為對(duì)應(yīng)的未來(lái)狀態(tài),可以用作輸出反饋給智能體的訓(xùn)練和決策過(guò)程,增強(qiáng)自動(dòng)駕駛決策魯棒性。

前路未明

“終極方案”尚待時(shí)日


“世界模型是在下一階段用來(lái)超越人類(lèi)的,但是它對(duì)于當(dāng)下的核心意義究竟是什么,目前并不能看得明晰。”智駕領(lǐng)域?qū)<姨K輝認(rèn)為,自動(dòng)駕駛實(shí)現(xiàn)的前提是要超越人,而真實(shí)世界的數(shù)據(jù)只能無(wú)限接近于人。從這一角度出發(fā),世界模型確實(shí)具有重大意義。不過(guò),就當(dāng)下來(lái)看,世界模型仍然存在較大難點(diǎn),發(fā)展世界模型到底要解決自動(dòng)駕駛哪些問(wèn)題,仍然沒(méi)有準(zhǔn)確答案。

蘇輝表示,目前看來(lái),世界模型似乎只能作為輔助,不能單純依靠它進(jìn)行自動(dòng)駕駛訓(xùn)練。在自動(dòng)駕駛的早期階段,應(yīng)主要依賴(lài)真實(shí)數(shù)據(jù)。后期可能會(huì)出現(xiàn)世界模型中訓(xùn)練的情況或者大模型教稍小一些模型的情況?!案兄幕A(chǔ)模型應(yīng)該需要在真實(shí)數(shù)據(jù)下訓(xùn)練完成,如量產(chǎn)的BEV、OCC算法大多采用這種模式。”蘇輝告訴記者,隨著技術(shù)不斷發(fā)展,大模型未來(lái)會(huì)像人類(lèi)一樣,對(duì)感知環(huán)境的真實(shí)度并不敏感,可以在不太逼真但3D結(jié)構(gòu)正確的環(huán)境中學(xué)習(xí)駕駛策略,正如人類(lèi)在駕駛模擬器里面練習(xí)開(kāi)車(chē)。然而,世界模型的思路恰恰與之相反,其3D結(jié)構(gòu)無(wú)法保障,但逼真程度很高,當(dāng)下意義并不大。


世界模型技術(shù)持續(xù)升級(jí) 自動(dòng)駕駛汽車(chē)還能跑得更快些

另外,黃武陵指出,現(xiàn)有已發(fā)布的世界模型前提是基于視覺(jué)(端到端)實(shí)現(xiàn)自動(dòng)駕駛方案,仍存在以下幾點(diǎn)問(wèn)題:第一,基于2D圖像生成的三維空間缺乏自動(dòng)駕駛特定場(chǎng)景下所需的3D空間的精準(zhǔn)度要求;第二,現(xiàn)有世界模型缺乏長(zhǎng)時(shí)序的預(yù)測(cè),預(yù)測(cè)是否適用于極端場(chǎng)景也需要進(jìn)一步進(jìn)行驗(yàn)證。除長(zhǎng)時(shí)序預(yù)測(cè)之外,世界模型高分辨高精度、模型多視一致、模型可控等特性同樣需要進(jìn)一步實(shí)現(xiàn)及驗(yàn)證;第三,現(xiàn)有世界模型對(duì)環(huán)境空間的建模缺乏各類(lèi)交通參與者的隨機(jī)性學(xué)習(xí),而現(xiàn)實(shí)世界的交通復(fù)雜度恰恰更來(lái)自于各類(lèi)交通參與者隨機(jī)、多樣的行動(dòng)?!盎诮煌▓?chǎng)景分層理論,未來(lái)生成式的世界模型要能夠覆蓋世界多樣性,能夠基于知識(shí)驅(qū)動(dòng)的方式實(shí)現(xiàn)更多層面的交通場(chǎng)景覆蓋,其所生成和預(yù)測(cè)的場(chǎng)景才有價(jià)值?!彼f(shuō)道。

目前,世界模型在自動(dòng)駕駛領(lǐng)域的應(yīng)用仍處于早期階段。武偉表示,依托于海量的數(shù)據(jù)采集或數(shù)據(jù)回流,自動(dòng)駕駛端到端大模型在模型泛化性上獲得了長(zhǎng)足進(jìn)步。

不過(guò),在模仿學(xué)習(xí)的框架下,也遇到了數(shù)據(jù)質(zhì)量要求高、長(zhǎng)尾數(shù)據(jù)比例低等發(fā)展制約因素。而世界模型可成為一條新的數(shù)據(jù)供給范式,提供大量平衡的困難樣本數(shù)據(jù),為端到端模型突破現(xiàn)有能力上限提供更多可能。以開(kāi)悟世界模型為例,通過(guò)多模態(tài)大模型,開(kāi)悟世界模型可支持多樣化的自動(dòng)駕駛場(chǎng)景及Corner case的可控生成。目前商湯絕影基于1024類(lèi)場(chǎng)景,能夠泛化出更多的平行世界,打造了千萬(wàn)級(jí)的生成場(chǎng)景庫(kù),預(yù)計(jì)2025年對(duì)行業(yè)開(kāi)放。

面向未來(lái),世界模型帶領(lǐng)自動(dòng)駕駛駛向終點(diǎn)的路依然漫長(zhǎng)?!熬拖裰暗脑钪?,世界模型是用于未來(lái)的技術(shù),持續(xù)發(fā)展是必然的,但世界模型更可能率先用于機(jī)器人等領(lǐng)域。自動(dòng)駕駛最大的難點(diǎn)是它工作在世界范圍,就像預(yù)期功能安全中所提到的一樣,未知場(chǎng)景需要通過(guò)在實(shí)際道路上長(zhǎng)期運(yùn)行來(lái)發(fā)現(xiàn)。”蘇輝稱(chēng)。

文:張奕雯 編輯:黃蓓 版式:李沛洋


給小編加個(gè)雞腿!



鮮花

握手

雷人

路過(guò)

雞蛋

關(guān)注我們:東遠(yuǎn)物聯(lián)

抖音

微信咨詢(xún)

咨詢(xún)電話(huà):

199-2833-9866

D-Think | 廣州東遠(yuǎn)智能科技有限公司

地址:廣州市白云區(qū)北太路1633號(hào)廣州民營(yíng)科技園科創(chuàng)中心2棟16樓

電話(huà):+86 020-87227952 Email:[email protected]

Copyright  ©2020  東遠(yuǎn)科技  粵ICP備2024254589號(hào)

免責(zé)申明:部分圖文表述來(lái)自于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系作者刪除!