具身智能出不來「 ChatGPT」，為什么？

2024-12-19 16:50| 發(fā)布者: admin| 查看: 85| 評(píng)論: 0

摘要: 2024 年，具身智能無疑是 AI 領(lǐng)域里最火熱的新賽道之一。相較于目前大語(yǔ)言模型在數(shù)字世界里帶來的技術(shù)變革，具身智能描繪了通往未來世界的另一條路徑：大量具有智慧的機(jī)器人出現(xiàn)在真實(shí)的物理空間中，通過參與到人類 ...

2024 年，具身智能無疑是 AI 領(lǐng)域里最火熱的新賽道之一。

相較于目前大語(yǔ)言模型在數(shù)字世界里帶來的技術(shù)變革，具身智能描繪了通往未來世界的另一條路徑：大量具有智慧的機(jī)器人出現(xiàn)在真實(shí)的物理空間中，通過參與到人類生產(chǎn)、生活的各個(gè)環(huán)節(jié)，改變?nèi)祟惖纳罘绞健?br>
但和大語(yǔ)言模型可以利用海量互聯(lián)網(wǎng)文本、圖像資源進(jìn)行快速學(xué)習(xí)不同，在具身智能領(lǐng)域里，機(jī)器人缺少低成本、高效率、多樣性、可泛化的學(xué)習(xí)數(shù)據(jù)。

如果只基于 Transformer 架構(gòu)的大語(yǔ)言模型（如 ChatGPT），人類無法實(shí)現(xiàn)具身智能。海量物理正確的訓(xùn)練數(shù)據(jù)如何快速獲取，是邁向具身智能前的世界級(jí)難題。

13 年前，黃曉煌回國(guó)創(chuàng)業(yè)?；貒?guó)前，他在美國(guó)伊利諾伊大學(xué)學(xué)習(xí) GPU 計(jì)算，也在英偉達(dá)做過云計(jì)算。他一開始的創(chuàng)業(yè)方式，是希望用 GPU、云計(jì)算來做物理仿真，但在當(dāng)時(shí)，極少有人可以理解 GPU 通用計(jì)算的價(jià)值。于是，黃曉煌用 GPU 進(jìn)行光學(xué)仿真，并應(yīng)用對(duì)家裝場(chǎng)景里，把過往需要幾十分鐘的渲染提速到了 10 余秒，自此開始了群核科技的創(chuàng)業(yè)之路。

多年后，憑借著在家裝渲染、工業(yè) 4.0 生產(chǎn)對(duì)接中積累的海量數(shù)據(jù)，在具身智能的技術(shù)巨浪襲來時(shí)，群核科技終于脫下「家裝公司」的外殼，浮出水面。他們希望可以在數(shù)字世界和物理世界中間，搭起一道橋梁，通過海量可交互的、物理正確的三維數(shù)據(jù)，推動(dòng)具身智能的發(fā)展。

以下是群核科技聯(lián)合創(chuàng)始人兼董事長(zhǎng)黃曉煌在 IF 2025 主舞臺(tái)的演講全文。在演講中，黃曉煌分享了群核科技的創(chuàng)業(yè)故事，以及他們對(duì)具身智能時(shí)代的思考。由極客公園整理。

ChatGPT 解決不了的「疊被子困境」

大家好，我是極客公園的老朋友，來自群核科技的黃曉煌。今天我介紹的主題是：如何讓 AI 從數(shù)字世界走向物理世界。

大模型到來之后，所有人都想知道它能為我們做什么。我們的下一代已經(jīng)成為了「AI 原生娃」。我女兒剛學(xué)會(huì)認(rèn)字，但她已經(jīng)能很自然地對(duì)著各種鏡子和屏幕喊「小度小度」或者「小愛同學(xué)」了。

但他們目前還只能跟虛擬人物進(jìn)行溝通，我們更希望孩子們跟物理世界有更多互動(dòng)，有真實(shí)的陪伴?？上Ъ幢?AI 現(xiàn)在已經(jīng)可以吟詩(shī)作畫，但就算疊被子這么簡(jiǎn)單的家務(wù)，機(jī)器人都實(shí)現(xiàn)不了。

當(dāng)我們談到具身智能或者機(jī)器人的時(shí)候，「疊被子困境」是一個(gè)非常典型的場(chǎng)景。

目前的 ChatGPT 大語(yǔ)言模型，可以很容易地讓機(jī)器人理解人類的指令，「給我疊一個(gè)被子」，它也可以通過視覺判斷哪床被子是疊好的、哪床被子沒疊好，但它很難執(zhí)行。或者當(dāng)它學(xué)會(huì)疊一床被子后，換個(gè)形狀可能就又不會(huì)了。

機(jī)器人的大腦在數(shù)字世界里，但身體卻在物理世界中。解決這類問題，最關(guān)鍵的是在物理世界和數(shù)字世界里面建立一個(gè)橋梁。而 ChatGPT 一類的大語(yǔ)言模型是無法實(shí)現(xiàn)的，我們需要一個(gè)全新的大模型。

讓機(jī)器人正確理解物理世界，關(guān)鍵是要有海量可交互的三維數(shù)據(jù)。很多大語(yǔ)言模型都是根據(jù)互聯(lián)網(wǎng)上的語(yǔ)料信息、圖片或視頻訓(xùn)練出來的，但這些內(nèi)容只是一堆靜態(tài)的記憶，訓(xùn)練出來的東西跟物理世界是相違背的。

這里有一個(gè)簡(jiǎn)單的例子，左邊是由 Stable Diffusion 大模型生成的臥室場(chǎng)景，右邊是由我們的矩陣 CAD 引擎生成的。乍一看都挺漂亮的，但左邊這張存在多處物理不正確的地方：比如有的床頭柜懸空、有的柜門無法打開。我們需要在大模型腦海里呈現(xiàn)右邊這種內(nèi)容，來指導(dǎo)真實(shí)的生產(chǎn)制造。

具身智能出不來「 ChatGPT」，為什么？

Diffusion 模型生成的圖片和視頻，目前還存在和許多物理 bug | 圖片來源：群核科技

群核的創(chuàng)業(yè)之路：家裝公司收到硅谷來信

說說我的個(gè)人經(jīng)歷吧。我一開始在美國(guó)伊利諾伊大學(xué)香檳分校學(xué)習(xí) GPU 高性能計(jì)算；后來去英偉達(dá)做了 CUDA；回國(guó)后成立群核科技，做了 3D 云設(shè)計(jì)平臺(tái)；現(xiàn)在又在關(guān)注具身智能。

經(jīng)常有朋友問我，為什么你選擇這樣的創(chuàng)業(yè)路線？我想說，在中國(guó)創(chuàng)業(yè)沒辦法太陽(yáng)春白雪，要腳踏實(shí)地跟著時(shí)代走。

剛開始創(chuàng)業(yè)的時(shí)候，我想用 GPU、云計(jì)算來做物理仿真。但是回國(guó)一看，發(fā)現(xiàn)當(dāng)時(shí)投資圈熱門的都是移動(dòng)互聯(lián)網(wǎng)、O2O，我所想做的項(xiàng)目根本融不到錢。跟投資人講 GPU 通用計(jì)算，在那個(gè)年代幾乎就是對(duì)牛彈琴，更不要提物理仿真了。

后來，我們想到了用 GPU 來做光學(xué)仿真，把原來需要幾十分鐘、一個(gè)小時(shí)的效果圖渲染提速到了 10 秒鐘，為家裝設(shè)計(jì)師提速。這個(gè)「家裝 OTO」的概念，很快成為了資本最推崇的項(xiàng)目，幫我們?nèi)诘搅撕芏噘Y金，讓酷家樂成功上線并成為了設(shè)計(jì)師首選的設(shè)計(jì)工具。

下一步，我們抓住了工業(yè) 4.0 改革里，傳統(tǒng)工廠打造柔性生產(chǎn)線的需求，用我們的數(shù)據(jù)幫助工廠進(jìn)行升級(jí)。我們用物理仿真、數(shù)字孿生，把每一件商品拆解成一個(gè)個(gè)零件，通過流水線機(jī)器人以及傳送帶實(shí)現(xiàn)柔性生產(chǎn)。

但這依然不夠，因?yàn)檫@些工廠里所有的機(jī)械臂都是沒有智慧的。你告訴它往左就往左、往右就往右，機(jī)械臂是沒有智能的。一旦進(jìn)行微小的改動(dòng)，所有一切都要重來。所以，現(xiàn)在的無人工廠實(shí)際上還不是真正的無人工廠。

那段時(shí)間我非常苦惱，但我們已經(jīng)見識(shí)到了物理正確數(shù)據(jù)的價(jià)值。直到有一天，我看到馬斯克提出用人形機(jī)器人在工廠生產(chǎn)汽車，就覺得工業(yè) 4.0 的下一步是把流水線機(jī)器人變成人形機(jī)器人。我覺得這是未來，而群核科技就是這些所有機(jī)器人訓(xùn)練的「道場(chǎng)」。

具身智能出不來「 ChatGPT」，為什么？

群核科技的空間智能探索之路 | 圖片來源：極客公園

這些年我們做 3D 云設(shè)計(jì)平臺(tái)，盡管路徑一些曲折，但也積累了海量的三維數(shù)據(jù)：3.2 億個(gè) 3D 模型、不計(jì)其數(shù)的物理正確的三維場(chǎng)景、月活接近 8000 萬(wàn)，服務(wù)了 200 多個(gè)國(guó)家和地區(qū)。我們?cè)谶@個(gè)過程中始終相信，物理正確的空間數(shù)據(jù)是可以用來訓(xùn)練大模型的，我們的科研人員也一直在訓(xùn)練，在等待一個(gè)機(jī)會(huì)。

2018 年，我們的科研人員跟帝國(guó)理工、南加州大學(xué)共同發(fā)布了一個(gè)室內(nèi)智能數(shù)據(jù)集方案。這是當(dāng)時(shí)全球最大的室內(nèi)場(chǎng)景認(rèn)知深度學(xué)習(xí)數(shù)據(jù)集，一下子在學(xué)術(shù)界很熱。

有一天，我們收到了一封硅谷最大公司的郵件，希望跟我們進(jìn)行空間智能的合作。當(dāng)然我們甚至懷疑是騙子。幾萬(wàn)億美元的大公司，怎么會(huì)找一家創(chuàng)業(yè)公司合作空間智能。但這的確是真的。在合作的過程中，我們發(fā)現(xiàn)了這些大公司在解決了算力、算法問題之后，他們面臨的問題是，缺少海量的、可交互的、物理正確的三維數(shù)據(jù)。

我們跟目前全球這個(gè)領(lǐng)域最靠前的公司基本都達(dá)成了合作。這兩年，中國(guó)的空間智能、具身智能也爆發(fā)式地增長(zhǎng)，我們也跟國(guó)內(nèi)頭部公司達(dá)成了合作。這個(gè)時(shí)候，我覺得技術(shù)奇點(diǎn)到來了，我們的機(jī)會(huì)也來了。

具身智能的世界級(jí)難題：數(shù)據(jù)

我們發(fā)現(xiàn)，現(xiàn)在不管是空間智能還是具身智能，有四個(gè)最關(guān)鍵的問題需要解決：算法、算力、數(shù)據(jù)、機(jī)器人硬件。

算法層面，目前是百花爭(zhēng)鳴的狀態(tài)，有非常多算法。

算力層面，國(guó)外以英偉達(dá)為代表，國(guó)內(nèi)也有地平線等公司在快速地解決這個(gè)問題。我覺得算力已經(jīng)過了技術(shù)的奇點(diǎn)，可以支撐人造的智慧了。

機(jī)器人硬件層面，中國(guó)更是獨(dú)霸全球。

而目前世界級(jí)難題的是：如何給機(jī)器人提供用來訓(xùn)練的可交互的數(shù)據(jù)？這就是我們要去解決的。

具身智能出不來「 ChatGPT」，為什么？

群核科技聯(lián)合創(chuàng)始人兼董事長(zhǎng)黃曉煌 | 圖片來源：極客公園

目前用來訓(xùn)練具身智能的方式，主要有兩種：

第一種，以斯坦福大學(xué)的 Moblile Aloha 為代表，它通過用設(shè)備來采集人在物理空間中的動(dòng)作，來訓(xùn)練機(jī)器人。但是它的采集成本非常高，而且空間非常受限。

第二種，也是目前學(xué)術(shù)界比較火熱的，通過仿真數(shù)據(jù)來做機(jī)器人的訓(xùn)練。目前新一代的算法論文都是基于這個(gè)邏輯，李飛飛的文章也都是這個(gè)邏輯。因?yàn)樗耪嬲梢詫?shí)現(xiàn)在海量的空間里面做物理訓(xùn)練，讓機(jī)器人能夠擁有足夠多的適應(yīng)性。

相比真實(shí)的訓(xùn)練環(huán)境，仿真訓(xùn)練主要有以下四個(gè)巨大的優(yōu)勢(shì)：

第一，低成本。假如用一個(gè)真實(shí)的空間訓(xùn)練一個(gè)機(jī)器人，那么每訓(xùn)練一個(gè)場(chǎng)景都要蓋一個(gè)真實(shí)的房間，那這個(gè)成本實(shí)在太高了。

第二，高效率。在物理世界里，時(shí)空是確定的。如果訓(xùn)練一個(gè)機(jī)器人需要 1 天，那么訓(xùn)練 1 萬(wàn)次就得 1 萬(wàn)天，時(shí)間沒有辦法壓縮。但在數(shù)字世界里，時(shí)間是可以被壓縮的，物理世界里要用 1 萬(wàn)天跑完的數(shù)據(jù)，數(shù)字世界里也許 1 天就可以跑完。

第三，多樣性。在現(xiàn)實(shí)世界里面，要找到各種各樣不同場(chǎng)景是非常困難的。如果我們想訓(xùn)練一個(gè)機(jī)器人去火星上幫人類干活，但沒有辦法先把一堆設(shè)備送到火星上去提前訓(xùn)練。合成數(shù)據(jù)解決了多樣性問題。

第四，可泛化性。李飛飛發(fā)表的文章里提到了「數(shù)字表親」的概念，可以生產(chǎn)類似的場(chǎng)景進(jìn)行訓(xùn)練，從而實(shí)現(xiàn)舉一反三。否則我們訓(xùn)練出來的機(jī)器人只能在一模一樣的房間里干活，離開了那個(gè)房間，還是啥都不會(huì)。

具身智能出不來「 ChatGPT」，為什么？

相比真實(shí)場(chǎng)景，仿真數(shù)據(jù)用于具身智能訓(xùn)練擁有諸多優(yōu)勢(shì) | 圖片來源：極客公園

那么，群核科技的核心優(yōu)勢(shì)是什么？我們?yōu)槭裁茨芤黄饏⑴c這個(gè)有意思的征程呢？

我們通過多年的 3D 云設(shè)計(jì)平臺(tái)，積累了海量數(shù)據(jù)，用這些數(shù)據(jù)訓(xùn)練了自己 CAD 的大模型。這些大模型可以閱讀人類的 CAD 文件、圖片、手繪等，然后把這些內(nèi)容再轉(zhuǎn)換成物理正確的空間場(chǎng)景。我們也自建了 1 萬(wàn)多臺(tái)高性能計(jì)算服務(wù)器，專門用來訓(xùn)練、推理、渲染。我們希望用物理正確的合成數(shù)據(jù)，來幫助所有具身智能的機(jī)器實(shí)現(xiàn)訓(xùn)練。

今年，我們推出了新版本的 SpatialVerse 來賦能 AI 空間智能。因?yàn)閭鹘y(tǒng)的三維數(shù)據(jù)太「干凈」了，沒有辦法直接用來訓(xùn)練機(jī)器人。我們需要 AI 對(duì)這些原始的數(shù)據(jù)進(jìn)行物理增強(qiáng)：告訴機(jī)器人哪里是抽屜可以打開，可以打開多少程度；物體的重力是多少；哪里是門可以打開，是往里開還是往外開等等。

其次，在機(jī)器人訓(xùn)練的時(shí)候需要有各種語(yǔ)義信息在里面，過去都是人工標(biāo)注，現(xiàn)在要用 AI 給它自動(dòng)標(biāo)注好。

另外，環(huán)境加強(qiáng)也很重要。我們平常人生活的環(huán)境不是像 3D 世界里面那么純凈的，包括你的房間里面有紙巾、有動(dòng)物的毛發(fā)等，但是在數(shù)字世界里沒有，你要把它以某種方式加回去，讓一個(gè)空間不是一個(gè)純凈的空間，它需要更接近于真實(shí)的空間。

最后是隱私問題。前陣子全球最著名的公司之一被曝出在采集物理數(shù)據(jù)的時(shí)候，不小心拍到了房屋主人上廁所的視頻。合成數(shù)據(jù)就沒有這個(gè)問題，它不會(huì)涉及到人類隱私的問題。

我們今年和上海人工智能實(shí)驗(yàn)室一起發(fā)布了具身智能訓(xùn)練的新范式，多模態(tài)的 3D 數(shù)據(jù)解決方案，就是大規(guī)模的動(dòng)態(tài)場(chǎng)景生成，渲染+物理真實(shí)感以及高分辨率的場(chǎng)景分割。這里面的空間場(chǎng)景都是基于我們 SpatialVerse 的解決方案。

具身智能出不來「 ChatGPT」，為什么？

具身智能未來將進(jìn)入更多場(chǎng)景中 | 圖片來源：極客公園

我以上展示的這些肯定不是空間智能、具身智能的全部，它只是開始。具身智能還會(huì)進(jìn)入到我們更多的場(chǎng)景，除了在我們工廠里面工作，還會(huì)進(jìn)入到我們的商業(yè)空間里、辦公室里，家庭里。未來，我們的生活場(chǎng)景里面會(huì)充滿了空間智能、具身智能的機(jī)器人。

當(dāng)然，所有的使用場(chǎng)景都需要豐富的物理正確的三維數(shù)據(jù)給它們訓(xùn)練，因?yàn)榇蠹也幌Ｍ粋€(gè)沒有訓(xùn)練過的機(jī)器人在你家里面。一個(gè) 300 公斤重的機(jī)器人，萬(wàn)一發(fā)起瘋來，誰(shuí)都受不了，所以我們得確保它在足夠多的空間里訓(xùn)練過，才能夠進(jìn)入到我們工作生活的環(huán)境里，這是非常重要的。

我相信未來肯定是具身智能、空間智能的時(shí)代，我相信從生產(chǎn)制造再到商業(yè)空間再到我們家庭場(chǎng)景，它會(huì)充斥到我們每一個(gè)角落，就像疊被子那一刻被機(jī)器人完美地解決了之后，機(jī)器人就會(huì)解決我們?nèi)粘Ｉ钪懈鞣N各樣所需要的問題，我也希望群核科技能夠成為中間重要的推力之一。

歡迎各位小伙伴跟群核一起走向技術(shù)的彼岸。