97国产精品一区二区视频_国产午夜毛片色哟哟_惠民福利国产91精品看黄网站在线观看_搡老熟女老女人一区二区三区_国产做a∨在线视频观看免费_日韩 综合 婷婷 图_成人黄色一级毛片片_萧山本地第一网络媒体_亚洲国产精品无码久久久曰_亚洲欧美日韩岛国色图

快捷導(dǎo)航

具身智能出不來「 ChatGPT」,為什么?

2024-12-19 16:50| 發(fā)布者: admin| 查看: 85| 評(píng)論: 0
摘要: 2024 年,具身智能無疑是 AI 領(lǐng)域里最火熱的新賽道之一。相較于目前大語(yǔ)言模型在數(shù)字世界里帶來的技術(shù)變革,具身智能描繪了通往未來世界的另一條路徑:大量具有智慧的機(jī)器人出現(xiàn)在真實(shí)的物理空間中,通過參與到人類 ...
2024 年,具身智能無疑是 AI 領(lǐng)域里最火熱的新賽道之一。

相較于目前大語(yǔ)言模型在數(shù)字世界里帶來的技術(shù)變革,具身智能描繪了通往未來世界的另一條路徑:大量具有智慧的機(jī)器人出現(xiàn)在真實(shí)的物理空間中,通過參與到人類生產(chǎn)、生活的各個(gè)環(huán)節(jié),改變?nèi)祟惖纳罘绞健?br>
但和大語(yǔ)言模型可以利用海量互聯(lián)網(wǎng)文本、圖像資源進(jìn)行快速學(xué)習(xí)不同,在具身智能領(lǐng)域里,機(jī)器人缺少低成本、高效率、多樣性、可泛化的學(xué)習(xí)數(shù)據(jù)。

如果只基于 Transformer 架構(gòu)的大語(yǔ)言模型(如 ChatGPT),人類無法實(shí)現(xiàn)具身智能。海量物理正確的訓(xùn)練數(shù)據(jù)如何快速獲取,是邁向具身智能前的世界級(jí)難題。

13 年前,黃曉煌回國(guó)創(chuàng)業(yè)?;貒?guó)前,他在美國(guó)伊利諾伊大學(xué)學(xué)習(xí) GPU 計(jì)算,也在英偉達(dá)做過云計(jì)算。他一開始的創(chuàng)業(yè)方式,是希望用 GPU、云計(jì)算來做物理仿真,但在當(dāng)時(shí),極少有人可以理解 GPU 通用計(jì)算的價(jià)值。于是,黃曉煌用 GPU 進(jìn)行光學(xué)仿真,并應(yīng)用對(duì)家裝場(chǎng)景里,把過往需要幾十分鐘的渲染提速到了 10 余秒,自此開始了群核科技的創(chuàng)業(yè)之路。

多年后,憑借著在家裝渲染、工業(yè) 4.0 生產(chǎn)對(duì)接中積累的海量數(shù)據(jù),在具身智能的技術(shù)巨浪襲來時(shí),群核科技終于脫下「家裝公司」的外殼,浮出水面。他們希望可以在數(shù)字世界和物理世界中間,搭起一道橋梁,通過海量可交互的、物理正確的三維數(shù)據(jù),推動(dòng)具身智能的發(fā)展。

以下是群核科技聯(lián)合創(chuàng)始人兼董事長(zhǎng)黃曉煌在 IF 2025 主舞臺(tái)的演講全文。在演講中,黃曉煌分享了群核科技的創(chuàng)業(yè)故事,以及他們對(duì)具身智能時(shí)代的思考。由極客公園整理。

ChatGPT 解決不了的 「疊被子困境」


大家好,我是極客公園的老朋友,來自群核科技的黃曉煌。今天我介紹的主題是:如何讓 AI 從數(shù)字世界走向物理世界。

大模型到來之后,所有人都想知道它能為我們做什么。我們的下一代已經(jīng)成為了「AI 原生娃」。我女兒剛學(xué)會(huì)認(rèn)字,但她已經(jīng)能很自然地對(duì)著各種鏡子和屏幕喊「小度小度」或者「小愛同學(xué)」了。

但他們目前還只能跟虛擬人物進(jìn)行溝通,我們更希望孩子們跟物理世界有更多互動(dòng),有真實(shí)的陪伴??上Ъ幢?AI 現(xiàn)在已經(jīng)可以吟詩(shī)作畫,但就算疊被子這么簡(jiǎn)單的家務(wù),機(jī)器人都實(shí)現(xiàn)不了。

當(dāng)我們談到具身智能或者機(jī)器人的時(shí)候,「疊被子困境」是一個(gè)非常典型的場(chǎng)景。

目前的 ChatGPT 大語(yǔ)言模型,可以很容易地讓機(jī)器人理解人類的指令,「給我疊一個(gè)被子」,它也可以通過視覺判斷哪床被子是疊好的、哪床被子沒疊好,但它很難執(zhí)行。或者當(dāng)它學(xué)會(huì)疊一床被子后,換個(gè)形狀可能就又不會(huì)了。

機(jī)器人的大腦在數(shù)字世界里,但身體卻在物理世界中。解決這類問題,最關(guān)鍵的是在物理世界和數(shù)字世界里面建立一個(gè)橋梁。而 ChatGPT 一類的大語(yǔ)言模型是無法實(shí)現(xiàn)的,我們需要一個(gè)全新的大模型。

讓機(jī)器人正確理解物理世界,關(guān)鍵是要有海量可交互的三維數(shù)據(jù)。很多大語(yǔ)言模型都是根據(jù)互聯(lián)網(wǎng)上的語(yǔ)料信息、圖片或視頻訓(xùn)練出來的,但這些內(nèi)容只是一堆靜態(tài)的記憶,訓(xùn)練出來的東西跟物理世界是相違背的。

這里有一個(gè)簡(jiǎn)單的例子,左邊是由 Stable Diffusion 大模型生成的臥室場(chǎng)景,右邊是由我們的矩陣 CAD 引擎生成的。乍一看都挺漂亮的,但左邊這張存在多處物理不正確的地方:比如有的床頭柜懸空、有的柜門無法打開。我們需要在大模型腦海里呈現(xiàn)右邊這種內(nèi)容,來指導(dǎo)真實(shí)的生產(chǎn)制造。

具身智能出不來「 ChatGPT」,為什么?


Diffusion 模型生成的圖片和視頻,目前還存在和許多物理 bug | 圖片來源:群核科技

群核的創(chuàng)業(yè)之路:家裝公司收到硅谷來信


說說我的個(gè)人經(jīng)歷吧。我一開始在美國(guó)伊利諾伊大學(xué)香檳分校學(xué)習(xí) GPU 高性能計(jì)算;后來去英偉達(dá)做了 CUDA;回國(guó)后成立群核科技,做了 3D 云設(shè)計(jì)平臺(tái);現(xiàn)在又在關(guān)注具身智能。

經(jīng)常有朋友問我,為什么你選擇這樣的創(chuàng)業(yè)路線?我想說,在中國(guó)創(chuàng)業(yè)沒辦法太陽(yáng)春白雪,要腳踏實(shí)地跟著時(shí)代走。

剛開始創(chuàng)業(yè)的時(shí)候,我想用 GPU、云計(jì)算來做物理仿真。但是回國(guó)一看,發(fā)現(xiàn)當(dāng)時(shí)投資圈熱門的都是移動(dòng)互聯(lián)網(wǎng)、O2O,我所想做的項(xiàng)目根本融不到錢。跟投資人講 GPU 通用計(jì)算,在那個(gè)年代幾乎就是對(duì)牛彈琴,更不要提物理仿真了。

后來,我們想到了用 GPU 來做光學(xué)仿真,把原來需要幾十分鐘、一個(gè)小時(shí)的效果圖渲染提速到了 10 秒鐘,為家裝設(shè)計(jì)師提速。這個(gè)「家裝 OTO」的概念,很快成為了資本最推崇的項(xiàng)目,幫我們?nèi)诘搅撕芏噘Y金,讓酷家樂成功上線并成為了設(shè)計(jì)師首選的設(shè)計(jì)工具。

下一步,我們抓住了工業(yè) 4.0 改革里,傳統(tǒng)工廠打造柔性生產(chǎn)線的需求,用我們的數(shù)據(jù)幫助工廠進(jìn)行升級(jí)。我們用物理仿真、數(shù)字孿生,把每一件商品拆解成一個(gè)個(gè)零件,通過流水線機(jī)器人以及傳送帶實(shí)現(xiàn)柔性生產(chǎn)。

但這依然不夠,因?yàn)檫@些工廠里所有的機(jī)械臂都是沒有智慧的。你告訴它往左就往左、往右就往右,機(jī)械臂是沒有智能的。一旦進(jìn)行微小的改動(dòng),所有一切都要重來。所以,現(xiàn)在的無人工廠實(shí)際上還不是真正的無人工廠。

那段時(shí)間我非常苦惱,但我們已經(jīng)見識(shí)到了物理正確數(shù)據(jù)的價(jià)值。直到有一天,我看到馬斯克提出用人形機(jī)器人在工廠生產(chǎn)汽車,就覺得工業(yè) 4.0 的下一步是把流水線機(jī)器人變成人形機(jī)器人。我覺得這是未來,而群核科技就是這些所有機(jī)器人訓(xùn)練的「道場(chǎng)」。

具身智能出不來「 ChatGPT」,為什么?


群核科技的空間智能探索之路 | 圖片來源:極客公園

這些年我們做 3D 云設(shè)計(jì)平臺(tái),盡管路徑一些曲折,但也積累了海量的三維數(shù)據(jù):3.2 億個(gè) 3D 模型、不計(jì)其數(shù)的物理正確的三維場(chǎng)景、月活接近 8000 萬(wàn),服務(wù)了 200 多個(gè)國(guó)家和地區(qū)。我們?cè)谶@個(gè)過程中始終相信,物理正確的空間數(shù)據(jù)是可以用來訓(xùn)練大模型的,我們的科研人員也一直在訓(xùn)練,在等待一個(gè)機(jī)會(huì)。

2018 年,我們的科研人員跟帝國(guó)理工、南加州大學(xué)共同發(fā)布了一個(gè)室內(nèi)智能數(shù)據(jù)集方案。這是當(dāng)時(shí)全球最大的室內(nèi)場(chǎng)景認(rèn)知深度學(xué)習(xí)數(shù)據(jù)集,一下子在學(xué)術(shù)界很熱。

有一天,我們收到了一封硅谷最大公司的郵件,希望跟我們進(jìn)行空間智能的合作。當(dāng)然我們甚至懷疑是騙子。幾萬(wàn)億美元的大公司,怎么會(huì)找一家創(chuàng)業(yè)公司合作空間智能。但這的確是真的。在合作的過程中,我們發(fā)現(xiàn)了這些大公司在解決了算力、算法問題之后,他們面臨的問題是,缺少海量的、可交互的、物理正確的三維數(shù)據(jù)。

我們跟目前全球這個(gè)領(lǐng)域最靠前的公司基本都達(dá)成了合作。這兩年,中國(guó)的空間智能、具身智能也爆發(fā)式地增長(zhǎng),我們也跟國(guó)內(nèi)頭部公司達(dá)成了合作。這個(gè)時(shí)候,我覺得技術(shù)奇點(diǎn)到來了,我們的機(jī)會(huì)也來了。

具身智能的世界級(jí)難題:數(shù)據(jù)


我們發(fā)現(xiàn),現(xiàn)在不管是空間智能還是具身智能,有四個(gè)最關(guān)鍵的問題需要解決:算法、算力、數(shù)據(jù)、機(jī)器人硬件。

算法層面,目前是百花爭(zhēng)鳴的狀態(tài),有非常多算法。

算力層面,國(guó)外以英偉達(dá)為代表,國(guó)內(nèi)也有地平線等公司在快速地解決這個(gè)問題。我覺得算力已經(jīng)過了技術(shù)的奇點(diǎn),可以支撐人造的智慧了。

機(jī)器人硬件層面,中國(guó)更是獨(dú)霸全球。

而目前世界級(jí)難題的是:如何給機(jī)器人提供用來訓(xùn)練的可交互的數(shù)據(jù)?這就是我們要去解決的。

具身智能出不來「 ChatGPT」,為什么?


群核科技聯(lián)合創(chuàng)始人兼董事長(zhǎng)黃曉煌 | 圖片來源:極客公園

目前用來訓(xùn)練具身智能的方式,主要有兩種:

第一種,以斯坦福大學(xué)的 Moblile Aloha 為代表,它通過用設(shè)備來采集人在物理空間中的動(dòng)作,來訓(xùn)練機(jī)器人。但是它的采集成本非常高,而且空間非常受限。

第二種,也是目前學(xué)術(shù)界比較火熱的,通過仿真數(shù)據(jù)來做機(jī)器人的訓(xùn)練。目前新一代的算法論文都是基于這個(gè)邏輯,李飛飛的文章也都是這個(gè)邏輯。因?yàn)樗耪嬲梢詫?shí)現(xiàn)在海量的空間里面做物理訓(xùn)練,讓機(jī)器人能夠擁有足夠多的適應(yīng)性。

相比真實(shí)的訓(xùn)練環(huán)境,仿真訓(xùn)練主要有以下四個(gè)巨大的優(yōu)勢(shì):

第一,低成本。假如用一個(gè)真實(shí)的空間訓(xùn)練一個(gè)機(jī)器人,那么每訓(xùn)練一個(gè)場(chǎng)景都要蓋一個(gè)真實(shí)的房間,那這個(gè)成本實(shí)在太高了。

第二,高效率。在物理世界里,時(shí)空是確定的。如果訓(xùn)練一個(gè)機(jī)器人需要 1 天,那么訓(xùn)練 1 萬(wàn)次就得 1 萬(wàn)天,時(shí)間沒有辦法壓縮。但在數(shù)字世界里,時(shí)間是可以被壓縮的,物理世界里要用 1 萬(wàn)天跑完的數(shù)據(jù),數(shù)字世界里也許 1 天就可以跑完。

第三,多樣性。在現(xiàn)實(shí)世界里面,要找到各種各樣不同場(chǎng)景是非常困難的。如果我們想訓(xùn)練一個(gè)機(jī)器人去火星上幫人類干活,但沒有辦法先把一堆設(shè)備送到火星上去提前訓(xùn)練。合成數(shù)據(jù)解決了多樣性問題。

第四,可泛化性。李飛飛發(fā)表的文章里提到了「數(shù)字表親」的概念,可以生產(chǎn)類似的場(chǎng)景進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)舉一反三。否則我們訓(xùn)練出來的機(jī)器人只能在一模一樣的房間里干活,離開了那個(gè)房間,還是啥都不會(huì)。

具身智能出不來「 ChatGPT」,為什么?


相比真實(shí)場(chǎng)景,仿真數(shù)據(jù)用于具身智能訓(xùn)練擁有諸多優(yōu)勢(shì) | 圖片來源:極客公園

那么,群核科技的核心優(yōu)勢(shì)是什么?我們?yōu)槭裁茨芤黄饏⑴c這個(gè)有意思的征程呢?

我們通過多年的 3D 云設(shè)計(jì)平臺(tái),積累了海量數(shù)據(jù),用這些數(shù)據(jù)訓(xùn)練了自己 CAD 的大模型。這些大模型可以閱讀人類的 CAD 文件、圖片、手繪等,然后把這些內(nèi)容再轉(zhuǎn)換成物理正確的空間場(chǎng)景。我們也自建了 1 萬(wàn)多臺(tái)高性能計(jì)算服務(wù)器,專門用來訓(xùn)練、推理、渲染。我們希望用物理正確的合成數(shù)據(jù),來幫助所有具身智能的機(jī)器實(shí)現(xiàn)訓(xùn)練。

今年,我們推出了新版本的 SpatialVerse 來賦能 AI 空間智能。因?yàn)閭鹘y(tǒng)的三維數(shù)據(jù)太「干凈」了,沒有辦法直接用來訓(xùn)練機(jī)器人。我們需要 AI 對(duì)這些原始的數(shù)據(jù)進(jìn)行物理增強(qiáng):告訴機(jī)器人哪里是抽屜可以打開,可以打開多少程度;物體的重力是多少;哪里是門可以打開,是往里開還是往外開等等。

其次,在機(jī)器人訓(xùn)練的時(shí)候需要有各種語(yǔ)義信息在里面,過去都是人工標(biāo)注,現(xiàn)在要用 AI 給它自動(dòng)標(biāo)注好。

另外,環(huán)境加強(qiáng)也很重要。我們平常人生活的環(huán)境不是像 3D 世界里面那么純凈的,包括你的房間里面有紙巾、有動(dòng)物的毛發(fā)等,但是在數(shù)字世界里沒有,你要把它以某種方式加回去,讓一個(gè)空間不是一個(gè)純凈的空間,它需要更接近于真實(shí)的空間。

最后是隱私問題。前陣子全球最著名的公司之一被曝出在采集物理數(shù)據(jù)的時(shí)候,不小心拍到了房屋主人上廁所的視頻。合成數(shù)據(jù)就沒有這個(gè)問題,它不會(huì)涉及到人類隱私的問題。

我們今年和上海人工智能實(shí)驗(yàn)室一起發(fā)布了具身智能訓(xùn)練的新范式,多模態(tài)的 3D 數(shù)據(jù)解決方案,就是大規(guī)模的動(dòng)態(tài)場(chǎng)景生成,渲染+物理真實(shí)感以及高分辨率的場(chǎng)景分割。這里面的空間場(chǎng)景都是基于我們 SpatialVerse 的解決方案。

具身智能出不來「 ChatGPT」,為什么?


具身智能未來將進(jìn)入更多場(chǎng)景中 | 圖片來源:極客公園

我以上展示的這些肯定不是空間智能、具身智能的全部,它只是開始。具身智能還會(huì)進(jìn)入到我們更多的場(chǎng)景,除了在我們工廠里面工作,還會(huì)進(jìn)入到我們的商業(yè)空間里、辦公室里,家庭里。未來,我們的生活場(chǎng)景里面會(huì)充滿了空間智能、具身智能的機(jī)器人。

當(dāng)然,所有的使用場(chǎng)景都需要豐富的物理正確的三維數(shù)據(jù)給它們訓(xùn)練,因?yàn)榇蠹也幌M粋€(gè)沒有訓(xùn)練過的機(jī)器人在你家里面。一個(gè) 300 公斤重的機(jī)器人,萬(wàn)一發(fā)起瘋來,誰(shuí)都受不了,所以我們得確保它在足夠多的空間里訓(xùn)練過,才能夠進(jìn)入到我們工作生活的環(huán)境里,這是非常重要的。

我相信未來肯定是具身智能、空間智能的時(shí)代,我相信從生產(chǎn)制造再到商業(yè)空間再到我們家庭場(chǎng)景,它會(huì)充斥到我們每一個(gè)角落,就像疊被子那一刻被機(jī)器人完美地解決了之后,機(jī)器人就會(huì)解決我們?nèi)粘I钪懈鞣N各樣所需要的問題,我也希望群核科技能夠成為中間重要的推力之一。

歡迎各位小伙伴跟群核一起走向技術(shù)的彼岸。

鮮花

握手

雷人

路過

雞蛋

關(guān)注我們:東遠(yuǎn)物聯(lián)

抖音

微信咨詢

咨詢電話:

199-2833-9866

D-Think | 廣州東遠(yuǎn)智能科技有限公司

地址:廣州市白云區(qū)北太路1633號(hào)廣州民營(yíng)科技園科創(chuàng)中心2棟16樓

電話:+86 020-87227952 Email:[email protected]

Copyright  ©2020  東遠(yuǎn)科技  粵ICP備2024254589號(hào)

免責(zé)申明:部分圖文表述來自于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系作者刪除!