AI進化關(guān)鍵之年，AGI迎來“拐點時刻”？

2025-2-27 11:05| 發(fā)布者: admin| 查看: 130| 評論: 0

摘要: 文 | 極智GeeTech特斯拉Optimus機器人完成工廠零件分揀、宇樹機器人在春晚上精準(zhǔn)完成舞蹈動作、比亞迪拉開智能駕駛?cè)衿占靶蚰弧@些標(biāo)志性事件宣告了人工智能正在步入技術(shù)進化的關(guān)鍵之年。近日，阿里巴巴集團CEO ...

文 | 極智GeeTech

特斯拉Optimus機器人完成工廠零件分揀、宇樹機器人在春晚上精準(zhǔn)完成舞蹈動作、比亞迪拉開智能駕駛?cè)衿占靶蚰弧@些標(biāo)志性事件宣告了人工智能正在步入技術(shù)進化的關(guān)鍵之年。

近日，阿里巴巴集團CEO吳泳銘宣布，未來三年，阿里將投入超過3800億元，用于建設(shè)云和AI基礎(chǔ)設(shè)施，總額超過去十年總和。這也創(chuàng)下中國民營企業(yè)在云和AI基礎(chǔ)設(shè)施建設(shè)領(lǐng)域有史以來最大規(guī)模投資紀錄。據(jù)IDC預(yù)測，到2030年，AI將為全球經(jīng)濟貢獻19.9萬億美元，推動2030年全球GDP增長3.5%。

從工業(yè)革命到信息革命，每一次技術(shù)躍遷都伴隨基礎(chǔ)設(shè)施的顛覆。如果說AGI是一場星辰大海的遠征，那么AI基礎(chǔ)設(shè)施就是通往目的地的“陽關(guān)大道”。蒸汽機車需要鐵路網(wǎng)、電力需要電網(wǎng)、互聯(lián)網(wǎng)需要光纖與基站。AI的爆發(fā)，正在呼喚一張全新的基礎(chǔ)設(shè)施網(wǎng)絡(luò)——它不僅是數(shù)據(jù)傳輸?shù)墓艿溃沁B接實體與智能、協(xié)調(diào)全局與局部、平衡效率與安全的“神經(jīng)中樞”，是一個能讓機器智能與物理世界同頻共振的新型網(wǎng)絡(luò)。

在這個網(wǎng)絡(luò)下，機器人、自動駕駛汽車、低空飛行器等各類智能體通過自主決策與協(xié)同控制，完成了一次又一次實時對話和人機交互，通往AGI新世界的大門也將由此開啟。

AGI必然路徑，從感知AI到物理AI

語音助手能準(zhǔn)確識別方言指令、手機攝像頭能自動捕捉最燦爛的笑容，這些感知AI的杰作構(gòu)建了現(xiàn)代社會的數(shù)字感官。它們?nèi)缤[形的眼睛與耳朵，將光信號、聲波轉(zhuǎn)化為可計算的數(shù)據(jù)流。

但當(dāng)自動駕駛汽車面對突發(fā)的道路塌陷，或服務(wù)機器人在凌亂的客廳里找不到充電接口時，單純的環(huán)境感知能力立刻暴露出致命短板。

波士頓動力的人形機器人Atlas在平衡木上完成空翻時展現(xiàn)的不僅僅是動作精準(zhǔn)度，更揭示了物理智能的本質(zhì)：重力加速度計算需要與關(guān)節(jié)扭矩控制同步，攝像頭捕捉的視覺信息必須即時轉(zhuǎn)化為肌肉記憶般的機械響應(yīng)。這種感知與行動的毫秒級閉環(huán)，遠比AlphaGo戰(zhàn)勝人類冠軍更能體現(xiàn)智能的本質(zhì)特征。

大模型的持續(xù)進化，如同蝴蝶振翅般顛覆了人們對人工智能的傳統(tǒng)理解。從初次嘗試新架構(gòu)到發(fā)現(xiàn)新的普適定律，從能力泛化到模態(tài)無縫融合，這些突破性進展正在不斷刷新機器智能的邊界。

大模型實現(xiàn)了感知與認知能力的全面升級，讓機器具備了更加細膩豐富的理解能力。與此同時，人工智能正在向著另一個關(guān)鍵維度挺進——對真實物理世界的模擬與適應(yīng)。

從感知到?jīng)Q策再到控制執(zhí)行，端到端的智能系統(tǒng)正在崛起，機器的適應(yīng)性和靈活性持續(xù)突破，不僅能夠自主感知和推理復(fù)雜場景，更能夠主動規(guī)劃行動、做出決策，而具身智能、自動駕駛的加速落地，又進一步塑造了機器的物理形態(tài)。

作為人工智能發(fā)展的初級階段，感知式AI關(guān)注的是機器對環(huán)境的感知能力，使機器能夠通過視覺、聽覺等感官獲取信息，并進行基本的理解和響應(yīng)。感知式AI使機器能夠與外界進行初步交互，為更復(fù)雜的智能行為提供了可能性。這一階段的典型應(yīng)用包括語音識別、圖像處理以及推薦系統(tǒng)。

2012年，一個名為AlexNet的神經(jīng)網(wǎng)絡(luò)引爆了AI研究界，它的表現(xiàn)遠遠超過所有其他類型的模型，并贏得了當(dāng)年的ImageNet競賽。自那時起，神經(jīng)網(wǎng)絡(luò)開始騰飛。自ImageNet以來的13年里，計算機視覺研究者們掌握了物體識別，并轉(zhuǎn)向圖像和視頻生成，為后續(xù)生成式AI奠定了基礎(chǔ)。

AI進化關(guān)鍵之年，AGI迎來“拐點時刻”？

在感知式AI的基礎(chǔ)上，生成式AI通過進一步發(fā)展延伸，形成了機器生成內(nèi)容的能力。這一階段標(biāo)志著人工智能不僅能夠理解信息，還能創(chuàng)造文本、圖像和音頻等新的內(nèi)容，被認為是“生產(chǎn)力放大器”，為營銷和創(chuàng)作領(lǐng)域提供了前所未有的工具和可能性。

今年，DeepSeek的火爆出圈將生成式AI再次推上了風(fēng)口。不過，DeepSeek底層邏輯依然是統(tǒng)計機器學(xué)習(xí)——喂數(shù)據(jù)、訓(xùn)練、輸出結(jié)果。這意味著生成式AI的技術(shù)天花板已經(jīng)清晰可見，甚至因為它的“深度思考”過程透明化，反而更讓人看清它的本質(zhì)——一個被訓(xùn)練出的智能模型，而非真正的智能體。

一個有趣的例子：當(dāng)被問“strawberry有幾個r”時，DeepSeek需要反復(fù)思考50秒才能給出正確答案。它能解決復(fù)雜問題，卻在簡單場景中暴露局限性。這是因為其依賴統(tǒng)計相關(guān)性，而不是因果邏輯。就像超市發(fā)現(xiàn)“尿布和啤酒銷量正相關(guān)”，AI能發(fā)現(xiàn)規(guī)律，卻無法理解背后是“爸爸們順手買酒”的因果鏈。”即便強如OpenAI，也在嘗試反思式推理（如GPT-4o的多路徑思考），但本質(zhì)仍是數(shù)據(jù)驅(qū)動的優(yōu)化。

近日，Meta首席AI科學(xué)家楊立昆（Yann LeCun）在2025年人工智能行動峰會上表示，AI需要理解物理世界，只有在這基礎(chǔ)上，AI才能真正接近人類智慧。

盡管當(dāng)前的大模型在諸如通過律師資格考試、解決數(shù)學(xué)問題等任務(wù)上表現(xiàn)出色，但它們無法執(zhí)行日常生活中的基本任務(wù)，如做家務(wù)。對于人工智能而言，許多看似簡單的動作，如洗碗或擦桌子，依然是無法解決的復(fù)雜問題。這些模型并未真正理解物理世界，只是通過模式識別和數(shù)據(jù)生成來模擬現(xiàn)象。

為進一步提升AI理解真實世界的能力，物理AI被提了出來，它使人工智能系統(tǒng)不僅能夠理解信息，還能在物理世界中進行操作，它結(jié)合了對物理現(xiàn)象的理解與智能決策能力，使得智能系統(tǒng)能夠靈活應(yīng)對復(fù)雜情況。

物理AI賦予具身智能、自動駕駛更強的環(huán)境感知、理解和交互能力，使它們能夠更好地理解周圍環(huán)境，并根據(jù)物理規(guī)律做出相應(yīng)的反應(yīng)。例如，AI可以直接控制倉庫中的機器人進行貨物運輸，或是優(yōu)化自動駕駛汽車的行駛策略。

從感知式AI、生成式AI，最終邁向物理AI，這一演變過程反映了人工智能技術(shù)不斷演進的軌跡。每個階段都承襲了前一階段人工智能發(fā)展的技術(shù)成果，使得機器不僅能夠“看”和“聽”，還能夠“理解”和“行動”。這種逐步演進為實現(xiàn)更高級別的通用人工智能（AGI）奠定了基礎(chǔ)，也為各行各業(yè)帶來了深遠影響。

AI與物理智能“雙螺旋上升”

傳統(tǒng)人工智能如同“缸中之腦”，雖能解方程、作詩詞，卻無法真正觸碰現(xiàn)實。物理AI的顛覆性在于：它將智能注入物理實體，讓機器具備“感知-決策-執(zhí)行”的閉環(huán)能力。從自動駕駛車輛到智能電網(wǎng)，從柔性機器人到分子級制造設(shè)備，這些系統(tǒng)不再滿足于“理解世界”，而是執(zhí)著于“改變世界”。

AI進化關(guān)鍵之年，AGI迎來“拐點時刻”？

相比生成式AI處理的是一維或二維信息的輸入，如文字、圖片、音頻或視頻，并輸出相同類型的信息，物理AI需要從三維、甚至四維（包含時空）的角度理解信息，這與信息智能有本質(zhì)的不同。

在輸入層面，物理AI系統(tǒng)可以從許多工具中獲取輸入，比如攝像頭、慣性傳感器、雷達和激光雷達，處理的是感知和理解世界的數(shù)據(jù)，包括視覺和觸覺等感官信息，并且能夠直接從傳感器數(shù)據(jù)中學(xué)習(xí)和理解環(huán)境，讓人工智能從單純的感知、生成，進階到能夠進行推理、規(guī)劃與行動。

在輸出層面，物理AI生成的是TSD數(shù)據(jù)，即時間（T）序列（S）數(shù)據(jù)，這種數(shù)據(jù)可以直接用于控制具身智能，賦予其一個能在現(xiàn)實物理規(guī)則下靈活運轉(zhuǎn)的“大腦”。

此外，生成式AI和物理AI在產(chǎn)品形態(tài)和應(yīng)用場景也有所不同。生成式AI不受時間影響，不需要實時反饋，例如ChatGPT中有些信息可能只更新到去年9月。而物理AI系統(tǒng)必須實時處理輸入信息，需要實時感知和推理環(huán)境，以確保具身智能能夠及時響應(yīng)。

目前，大多數(shù)物理AI系統(tǒng)還只能處理特定任務(wù)或小環(huán)境，并且效果參差不齊。落地上，一個目前很火的例子是宇樹科技的四足機器狗，可以爬山涉水，還可以用一連套高難度的體操動作亮相，包括原地旋轉(zhuǎn)兩周接倒立旋轉(zhuǎn)三周半，以及一套流暢的托馬斯全旋、側(cè)空翻和360度跳躍轉(zhuǎn)體等。

如同大模型革新了生成式AI一樣，物理AI成為具身智能、自動駕駛等領(lǐng)域進入新階段的“鑰匙”。

首先，大模型“上車”難題將得到很好解決。

目前，大模型在汽車領(lǐng)域的應(yīng)用主要體現(xiàn)在兩個方面：一是智能座艙，二是自動駕駛。前者跟大模型技術(shù)有著天然的契合度，因為當(dāng)前的智能座艙更側(cè)重于娛樂和交互功能，這與大模型的語言處理能力非常相符，難點在于后者。

對于自動駕駛而言，如何在復(fù)雜動態(tài)的交通環(huán)境中實現(xiàn)高效、安全的車輛控制成為一大核心難題。現(xiàn)有的自動駕駛系統(tǒng)普遍缺乏多智能體協(xié)作能力、高效決策與解釋能力，在面對復(fù)雜交通環(huán)境時，難以有效理解周圍交通參與者的行為和意圖。

第二是數(shù)據(jù)。在自動駕駛領(lǐng)域，大模型需要“喂”大量的真實世界數(shù)據(jù)進行訓(xùn)練，讓它更擬人。所以如何讓這些數(shù)據(jù)更好地服務(wù)大模型做訓(xùn)練，這是目前普遍車企面臨的另一個難點。

其次，人形機器人加速邁向“ChatGPT時刻”。

去年，人工智能機器人初創(chuàng)公司Figure AI發(fā)布Figure 02時，就曾引發(fā)市場高度關(guān)注。Figure 02在大腦上，集成了OpenAI的GPT-4o多模態(tài)大模型，使其能夠更好地理解和響應(yīng)復(fù)雜指令。

多模態(tài)大模型不僅是技術(shù)的簡單疊加，而是推動物理AI向前發(fā)展的重要技術(shù)支撐。大模型能力的本質(zhì)是對信息的壓縮與二次處理，多模態(tài)大模型擴大了信息輸入模態(tài)，提升了模型能力天花板。

多模態(tài)大模型技術(shù)路徑是從圖像-語言模態(tài)融合再到三種以上模態(tài)的融合。語言模態(tài)的訓(xùn)練賦予了模型邏輯思維能力與信息生成能力；視覺模態(tài)的信息流密度較高，也與現(xiàn)實世界更貼切，可以大幅度拓展應(yīng)用場景，因此成為多模態(tài)技術(shù)的首選信息載體。在此基礎(chǔ)上，模型可以繼續(xù)發(fā)展動作、聲音、觸覺等不同模態(tài)，以應(yīng)對更加復(fù)雜的場景。

AI進化關(guān)鍵之年，AGI迎來“拐點時刻”？

多模態(tài)大模型的核心優(yōu)勢在于卓越的信息融合能力。通過對不同模態(tài)數(shù)據(jù)的同步處理與深度整合，模型能夠挖掘出跨模態(tài)信息之間的內(nèi)在關(guān)聯(lián)，從而生成更全面、準(zhǔn)確且富有洞察力的理解與回應(yīng)。

例如，在圖像描述生成任務(wù)中，模型可以結(jié)合圖像中的視覺元素與相關(guān)文本描述，生成精準(zhǔn)且流暢的自然語言描述，讓機器不僅能“看到”圖像內(nèi)容，更能以人類可理解的語言“講述”其中的故事，因此更能滿足機器在物理世界中廣泛應(yīng)用的需求。

通往AGI的基礎(chǔ)設(shè)施路徑

物理AI的崛起，正在將人工智能發(fā)展推向一個臨界點：我們能否構(gòu)建一張足夠智慧、堅韌且包容的網(wǎng)絡(luò)，既釋放技術(shù)的全部潛力，又守護技術(shù)的核心價值？這不僅是工程師的挑戰(zhàn)，更是全社會的共同課題。

物理世界的運行法則遠比數(shù)字空間殘酷：決策偏差導(dǎo)致的不是程序報錯，而是血淋淋的交通事故；模型推理需要的不是概率優(yōu)化，而是毫秒級的精準(zhǔn)控制。車路云網(wǎng)絡(luò)作為智能體與實體世界實時交互的AI網(wǎng)絡(luò)，正是打破這層玻璃的關(guān)鍵鑰匙，其通過大規(guī)模部署路側(cè)感知單元、每秒處理海量數(shù)據(jù)的邊緣計算節(jié)點，以及覆蓋城市道路的網(wǎng)絡(luò)，將數(shù)字智能注入物理世界的毛細血管。

這個龐大網(wǎng)絡(luò)的技術(shù)內(nèi)核在于“通感算一體化”架構(gòu)的突破。通信光纖如同神經(jīng)系統(tǒng)傳遞著每輛汽車0.1秒內(nèi)的加速度變化，激光雷達陣列如同視覺神經(jīng)捕捉著200米外行人的步態(tài)特征，云端超算集群則在時空維度編織著城市交通的數(shù)字孿生。

當(dāng)暴雨導(dǎo)致某路口能見度驟降時，路側(cè)基站能在百毫秒內(nèi)完成對車道行駛軌跡的預(yù)測，并通過車路云網(wǎng)絡(luò)向800米范圍內(nèi)的車輛發(fā)送分級制動指令，賦予自動駕駛車輛實現(xiàn)超越人類反應(yīng)極限的群體決策能力。

虛實融合的AI網(wǎng)絡(luò)正在重構(gòu)技術(shù)演進的底層邏輯。車路云架構(gòu)將70%的感知計算任務(wù)轉(zhuǎn)移至路側(cè)設(shè)備后，車輛只需保留基礎(chǔ)算力模塊，如同普通駕駛者借助智能交通系統(tǒng)獲得“上帝視角”，相當(dāng)于用市政設(shè)施的群體智能彌補了單車感知的物理局限。

更深層的變革發(fā)生在模型和算法層面。數(shù)字世界AI可以承受99%的準(zhǔn)確率，但控制剎車系統(tǒng)的模型容錯率必須是六個九。車路云網(wǎng)絡(luò)通過數(shù)字孿生技術(shù)，將現(xiàn)實路網(wǎng)克隆為可無限試錯的虛擬沙盤。這種虛實閉環(huán)的進化機制，讓人工智能在應(yīng)對電動自行車突然變道時，能像三十年駕齡的老司機般預(yù)判軌跡，卻又不受人類駕駛員的情緒干擾。

站在技術(shù)演進的維度觀察，車路云網(wǎng)絡(luò)的價值遠不止于交通效率的提升。它證明了一個更具普適性的范式：當(dāng)AI突破數(shù)字世界的邊界，其進化軌跡必然要與物理實體深度融合。

這種融合不是簡單的控制與被控制，而是通過持續(xù)的環(huán)境交互形成自主演化能力。就像生物神經(jīng)系統(tǒng)的進化史，從單細胞生物的應(yīng)激反應(yīng)到人類大腦的復(fù)雜認知，智能的躍升永遠伴隨著與真實世界互動維度的拓展。

在車路云網(wǎng)絡(luò)中，車輛不僅僅是信息的接收者，它同時也是信息的生產(chǎn)者。每一輛車的傳感器、攝像頭和其他設(shè)備所收集到的數(shù)據(jù)，都會實時傳輸?shù)皆贫?。這些數(shù)據(jù)不僅幫助優(yōu)化當(dāng)前車輛的駕駛決策，還會反向影響整個智能交通系統(tǒng)的運行，通過共享信息，多個車輛和交通管理系統(tǒng)可以形成協(xié)同感知，從而提升整體道路的安全性和流暢度。

物理AI的覺醒，昭示著智能革命的拐點時刻已經(jīng)到來。當(dāng)城市化作流動的神經(jīng)網(wǎng)絡(luò)，每個機器人、每輛汽車都可以成為自主決策的智能體。就像DeepSeek創(chuàng)始人梁文峰所言：“AI 的未來不在于取代人類，而應(yīng)該像水電一樣成為基礎(chǔ)設(shè)施，讓每個人都能享受到科技帶來的便利?！?br>
實驗室里的機械臂正在學(xué)習(xí)預(yù)測咖啡杯滑落前的震顫頻率，氣象AI系統(tǒng)同步調(diào)整著風(fēng)力發(fā)電機的葉片角度。這些看似碎片化的技術(shù)突破，實則在編織覆蓋全球的智能協(xié)同網(wǎng)絡(luò)。當(dāng)這個網(wǎng)絡(luò)達到臨界規(guī)模時，或許我們終將理解圖靈在1950年提出的那個終極問題：機器能否思考？答案可能藏在機器與物理世界持續(xù)對話時產(chǎn)生的電光石火之中。