新質(zhì)觀察｜具身智能的時(shí)代已來(lái)，AI正在邁出關(guān)鍵一步

2025-3-18 11:15| 發(fā)布者: admin| 查看: 88| 評(píng)論: 0

摘要: 2024年7月6日，上海，2024世界人工智能大會(huì)，人工智能機(jī)器人伸出仿生機(jī)械手與參觀的小朋友握手。視覺(jué)中國(guó) 資料圖1997年，IBM的深藍(lán)戰(zhàn)勝國(guó)際象棋大師加里·卡斯帕羅夫，震驚世界。2016年，“阿爾法圍棋”（AlphaGo） ...

2024年7月6日，上海，2024世界人工智能大會(huì)，人工智能機(jī)器人伸出仿生機(jī)械手與參觀的小朋友握手。視覺(jué)中國(guó) 資料圖

1997年，IBM的深藍(lán)戰(zhàn)勝國(guó)際象棋大師加里·卡斯帕羅夫，震驚世界。2016年，“阿爾法圍棋”（AlphaGo）又讓圍棋冠軍李世石束手無(wú)策。從此，人工智能成為全球熱議的話題。但那時(shí)的AI，只是一個(gè)會(huì)計(jì)算的“頭腦”，它能分析棋盤局勢(shì)，卻摸不著棋子。

AlphaGo能夠在服務(wù)器上快速訓(xùn)練數(shù)千場(chǎng)棋局，甚至擊敗世界冠軍。但它本質(zhì)上仍是純粹的算法系統(tǒng)，缺乏在物理世界中執(zhí)行動(dòng)作的能力。每當(dāng)它下棋時(shí)，必須依賴一位工作人員在場(chǎng)上幫它落子。這正是AI 發(fā)展的第一階段——信息智能。它擅長(zhǎng)處理數(shù)據(jù)，卻無(wú)法直接影響現(xiàn)實(shí)。

如果 AI的發(fā)展是一場(chǎng)馬拉松，那么第一階段，我們?cè)斐隽艘粋€(gè)超凡的大腦?，F(xiàn)在，它正在迎來(lái)第二階段——具身智能（Embodied AI），也就是物理智能。這一階段，AI不再局限于數(shù)據(jù)中心和屏幕，而是擁有了感知、長(zhǎng)出了手腳，開(kāi)始與物理世界交互。2025年，《政府工作報(bào)告》首次將“具身智能”寫入其中，提出建立未來(lái)產(chǎn)業(yè)投入增長(zhǎng)機(jī)制，重點(diǎn)培育生物制造、量子科技、具身智能和6G等未來(lái)產(chǎn)業(yè)。這一政策信號(hào)，標(biāo)志著具身智能正從實(shí)驗(yàn)室走向現(xiàn)實(shí)，成為人工智能發(fā)展的重要方向。

從算法到動(dòng)作，AI 邁出關(guān)鍵一步

想象一下，你走進(jìn)一家餐廳，點(diǎn)了一杯咖啡。一臺(tái)機(jī)器人服務(wù)員優(yōu)雅地端著托盤，將熱騰騰的咖啡放在你面前，沒(méi)有灑出一滴。這件事，一個(gè)普通人輕松能做到，但對(duì)AI來(lái)說(shuō)，卻是一個(gè)天大的難題。

過(guò)去幾十年，計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理等信息智能取得了驚人的進(jìn)展。AI可以識(shí)別圖像、理解語(yǔ)言，甚至與人類流暢對(duì)話。然而，這些技術(shù)依然停留在數(shù)據(jù)世界。它們可以“看懂”一杯咖啡，但無(wú)法真正端起一杯咖啡。要讓AI走出屏幕、影響現(xiàn)實(shí)，它必須學(xué)會(huì)如何在物理世界中行動(dòng)。

這正是物理智能面臨的核心難題。拿起一杯咖啡，這個(gè)看似簡(jiǎn)單的動(dòng)作，實(shí)則涉及復(fù)雜的傳感、肌肉控制、平衡調(diào)整。AI需要精準(zhǔn)感知杯子的形狀、材質(zhì)、重量，計(jì)算手指施加的力度，同時(shí)調(diào)整身體平衡，以確保液體不會(huì)灑出。而這些，對(duì)人類來(lái)說(shuō)幾乎是本能，對(duì)AI而言，卻需要從零開(kāi)始學(xué)習(xí)。

如果說(shuō)，信息智能的AI是生活在“理想國(guó)”里的哲學(xué)家，那么物理智能的AI，就是要下地干活的工人。而現(xiàn)實(shí)世界，比數(shù)據(jù)世界復(fù)雜得多，也更加不可預(yù)測(cè)。

最典型的例子，就是波士頓動(dòng)力（Boston Dynamics）的機(jī)器人。它們能奔跑，跳躍，甚至做后空翻，看上去仿佛已掌握了物理智能。但你如果讓它去開(kāi)門，擰螺絲，或者在濕滑的地面上奔跑，它可能就會(huì)摔得四腳朝天。動(dòng)作的流暢性不等于真正的靈活性，要讓機(jī)器人適應(yīng)復(fù)雜的現(xiàn)實(shí)環(huán)境，仍然存在巨大挑戰(zhàn)。

為了讓機(jī)器人更好地執(zhí)行日常任務(wù)，斯坦福大學(xué)李飛飛團(tuán)隊(duì)提出了一種全身操作綜合框架——行為機(jī)器人套件（BRS）。該框架旨在提升機(jī)器人在家庭環(huán)境中的自主執(zhí)行能力，使其能夠完成倒垃圾、整理衣物、刷馬桶等多樣化的家務(wù)任務(wù)。這項(xiàng)研究是具身智能突破的典型案例，它不僅讓機(jī)器人“理解”任務(wù)，還讓它們真正具備“動(dòng)手”能力，使AI逐步邁向現(xiàn)實(shí)世界的高效執(zhí)行者。

AI的關(guān)鍵，不只在于思考，更在于行動(dòng)

信息智能讓AI成為“世界上最聰明的讀書人”，但僅僅會(huì)思考，無(wú)法改變世界。真正的變革，來(lái)自行動(dòng)。具身智能，才是AI走向現(xiàn)實(shí)的關(guān)鍵。

回顧人類的進(jìn)化歷程，我們是因?yàn)闀?huì)思考而強(qiáng)大，還是因?yàn)闀?huì)行動(dòng)而強(qiáng)大？

牛頓發(fā)現(xiàn)了萬(wàn)有引力定律，這是劃時(shí)代的突破；但如果沒(méi)有工程師們?cè)O(shè)計(jì)并制造出飛機(jī)引擎，我們依然無(wú)法飛翔于藍(lán)天。愛(ài)因斯坦提出了相對(duì)論，這是科學(xué)史上的偉大突破；但如果沒(méi)有物理學(xué)家和工程師的不斷努力，我們也無(wú)法享受到GPS技術(shù)帶來(lái)的便捷。知識(shí)塑造世界，但最終推動(dòng)世界前行的，是實(shí)踐。

人工智能亦是如此。信息智能讓AI理解世界，物理智能讓AI改造世界。今天，我們可以用Deepseek生成一篇文章，用豆包AI畫一張圖。但我們還無(wú)法讓AI蓋一座房子、做一頓飯、或?yàn)椴∪送瓿梢粓?chǎng)手術(shù)。未來(lái)，具身智能的突破，才是真正讓AI進(jìn)入日常生活的關(guān)鍵。

2025年3月，谷歌與機(jī)器人開(kāi)發(fā)公司Apptronik合作，推出了兩個(gè)基于Gemini 2.0的機(jī)器人AI模型——Gemini Robotics和Gemini Robotics-Embodied Reasoning（ER），旨在幫助機(jī)器人執(zhí)行比以往更多的現(xiàn)實(shí)任務(wù)。

這兩款模型的核心目標(biāo)，是讓機(jī)器人不僅能聽(tīng)懂指令，還能理解并適應(yīng)新的環(huán)境和任務(wù)，這是物理智能發(fā)展的關(guān)鍵一步。測(cè)試表明，Gemini Robotics具備更強(qiáng)的泛化能力，能夠處理未經(jīng)過(guò)訓(xùn)練的任務(wù)，如折紙、將眼鏡放入盒中、打開(kāi)瓶蓋等。相比之下，Gemini Robotics-ER版本更側(cè)重于空間感知和任務(wù)規(guī)劃，可供受信任的機(jī)器人開(kāi)發(fā)者集成到自身系統(tǒng)中。這些技術(shù)突破，標(biāo)志著機(jī)器人在現(xiàn)實(shí)環(huán)境中的適應(yīng)能力和執(zhí)行力取得了重要進(jìn)展，使AI進(jìn)一步從虛擬世界邁向物理世界。

具身智能面前的“三座大山”

AI要真正進(jìn)入物理世界，最大的挑戰(zhàn)是什么？目前來(lái)看，主要有三座大山：感知能力、運(yùn)動(dòng)控制和學(xué)習(xí)能力。這三者的突破，正在讓具身智能從“實(shí)驗(yàn)室玩具”蛻變?yōu)椤叭苤帧薄?br>
第一座山：感知能力的進(jìn)化，從“盲人摸象”到“眼觀六路”

感知能力是機(jī)器人邁向現(xiàn)實(shí)世界的首要難題。人類的大腦，依靠眼睛、耳朵、皮膚等多種傳感器感知世界，而機(jī)器人也需要類似的“感官”——攝像頭、激光雷達(dá)、觸覺(jué)和壓力傳感器等等。但問(wèn)題在于，人類的感知能力是動(dòng)態(tài)、綜合且可適應(yīng)的，而當(dāng)前的AI感知系統(tǒng)通常是單一的、割裂的。

未來(lái)的機(jī)器人需要具備更強(qiáng)的泛化能力，能夠適應(yīng)從未見(jiàn)過(guò)的任務(wù)，并且在新的環(huán)境中迅速理解和反應(yīng)。例如，機(jī)器人需要能夠在面對(duì)不同物體、復(fù)雜場(chǎng)景或陌生環(huán)境時(shí)，快速識(shí)別并采取適當(dāng)?shù)男袆?dòng)。未來(lái)的家庭機(jī)器人管家需要在昏暗臥室避開(kāi)滿地樂(lè)高，抱起嬰兒時(shí)自動(dòng)調(diào)節(jié)力度，煮咖啡時(shí)根據(jù)香氣調(diào)整萃取時(shí)間。這要求AI具備真正的全模態(tài)感知能力，讓機(jī)器人像人類一樣“眼耳鼻舌身意”俱全，在真實(shí)世界中精準(zhǔn)感知、靈活應(yīng)對(duì)。

第二座山：運(yùn)動(dòng)控制的革命，從“機(jī)械舞者”到“靈活工匠”

如果說(shuō)感知能力決定了機(jī)器人能“看見(jiàn)”世界，那么運(yùn)動(dòng)控制決定了它能否與世界互動(dòng)。你有沒(méi)有注意到，今天的機(jī)器人能做許多事情，但它們的動(dòng)作總顯得有些生硬。這主要是因?yàn)槿祟惖倪\(yùn)動(dòng)控制非常靈活，我們的肌肉、神經(jīng)系統(tǒng)能夠?qū)崟r(shí)調(diào)整，而現(xiàn)有的AI運(yùn)動(dòng)系統(tǒng)仍顯得粗糙。人類行走時(shí)，每步涉及200多塊肌肉的毫秒級(jí)協(xié)調(diào)，而機(jī)器人要實(shí)現(xiàn)這種行云流水的動(dòng)作，必須突破動(dòng)態(tài)平衡、精細(xì)操作和能量效率三重難關(guān)。

隨著技術(shù)的進(jìn)步，機(jī)器人在動(dòng)作控制方面的靈活性也在不斷提升。未來(lái)的機(jī)器人能夠精細(xì)地完成一些復(fù)雜的任務(wù)，如折紙、拿起易碎物品，甚至像人類一樣操作物品。要實(shí)現(xiàn)這一點(diǎn)，機(jī)器人不僅需要精準(zhǔn)的動(dòng)作控制，還需要對(duì)周圍環(huán)境做出實(shí)時(shí)的感知和調(diào)整。這種靈活性將使機(jī)器人更好地適應(yīng)真實(shí)世界中的多變場(chǎng)景，執(zhí)行需要高度協(xié)調(diào)和精密操作的任務(wù)。只有真正做到這一點(diǎn)，機(jī)器人才能適應(yīng)真實(shí)世界的多變場(chǎng)景，從流水線上的機(jī)械臂，進(jìn)化為可以勝任各種精細(xì)任務(wù)的“靈活工匠”。

第三座山：學(xué)習(xí)能力的蛻變，從“死記硬背”到“見(jiàn)機(jī)行事”

學(xué)習(xí)能力是機(jī)器人面臨的第三大挑戰(zhàn)。人類的學(xué)習(xí)，往往是通過(guò)試錯(cuò)、經(jīng)驗(yàn)積累和直覺(jué)判斷等多種方式結(jié)合的，而現(xiàn)有的AI雖然可以通過(guò)強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練動(dòng)作，但它們?nèi)匀蝗狈φ嬲摹爸庇X(jué)”和“經(jīng)驗(yàn)”，使得它們?cè)诿鎸?duì)環(huán)境變化時(shí)常常無(wú)法應(yīng)對(duì)。

未來(lái)的機(jī)器人需要具備更強(qiáng)的自適應(yīng)學(xué)習(xí)能力，能夠通過(guò)日常對(duì)話或指令理解，不斷調(diào)整自己的行為，并根據(jù)環(huán)境的變化不斷優(yōu)化自己的操作方式。這種持續(xù)學(xué)習(xí)和動(dòng)態(tài)適應(yīng)的能力，才能讓機(jī)器人在復(fù)雜的現(xiàn)實(shí)世界中真正勝任任務(wù)，而不僅僅是按照預(yù)設(shè)程序執(zhí)行操作。真正的智能，不是存儲(chǔ)在數(shù)據(jù)庫(kù)里的代碼，而是在物理交互中涌現(xiàn)的生命力。

這些突破意味著，未來(lái)的機(jī)器人將不僅僅是單純的工具，而是具備感知、行動(dòng)、學(xué)習(xí)和適應(yīng)能力的智能體。隨著技術(shù)的不斷發(fā)展，AI將逐漸從云端算力堆砌的“數(shù)字幽靈”，進(jìn)化為扎根現(xiàn)實(shí)世界的“硅基生命體”。

AI的邊界，還能延展到何處？

信息智能，讓AI變得聰明；物理智能，讓AI具備力量。但AI的終點(diǎn)，并非只是更強(qiáng)的計(jì)算能力或更靈活的肢體，而是邁向更高級(jí)的第三階段——生物智能。

MIT實(shí)驗(yàn)室正在探索將神經(jīng)細(xì)胞與芯片結(jié)合的技術(shù)，而中國(guó)科學(xué)院的研究團(tuán)隊(duì)已成功使機(jī)器人通過(guò)腦機(jī)接口“感知”虛擬疼痛。這些探索或許意味著，AI正在向生命的復(fù)雜性靠近。未來(lái)的AI將不再僅僅是冷冰冰的機(jī)器，而是像人類生命一樣思考、學(xué)習(xí)、適應(yīng)，甚至自主進(jìn)化。

然而，生物智能仍是遙遠(yuǎn)的第三階段。今天，我們才剛剛踏入第二階段——具身智能的門檻。讓AI具備真正的行動(dòng)力，讓它能夠理解、感知、適應(yīng)現(xiàn)實(shí)世界，這一過(guò)程可能比我們預(yù)想的更漫長(zhǎng)。歷史上，每一次技術(shù)革命，都是從思想到行動(dòng)的演進(jìn)。人類用了幾千年，從哲學(xué)的思辨走向科技的實(shí)踐，從構(gòu)想工具到掌握工具，再到成為工具的創(chuàng)造者。而AI，正在沿著同樣的路徑前進(jìn)。

唯一的問(wèn)題是，我們準(zhǔn)備好迎接這個(gè)“站起來(lái)的AI”了嗎？

（作者胡逸為數(shù)據(jù)工作者，著有《未來(lái)可期：與人工智能同行》一書）

來(lái)源：胡逸

(本文來(lái)自澎湃新聞，更多原創(chuàng)資訊請(qǐng)下載“澎湃新聞”APP)