AI與硬件不可偏廢，智元稱不做大模型的機(jī)器人公司沒有未來

2025-3-11 12:49| 發(fā)布者: admin| 查看: 119| 評論: 0

摘要: “（人形機(jī)器人公司）真正重要的是同時(shí)做硬件和AI，而且要讓它們能夠很好地整合在一起?！苯谝粓鰧υ捴?，美國當(dāng)紅人形機(jī)器人公司Figure AI創(chuàng)始人布雷特·阿德考克（Brett Adcock）強(qiáng)調(diào)，軟硬件一體，不可偏廢。阿 ...

“（人形機(jī)器人公司）真正重要的是同時(shí)做硬件和AI，而且要讓它們能夠很好地整合在一起?！苯谝粓鰧υ捴?，美國當(dāng)紅人形機(jī)器人公司Figure AI創(chuàng)始人布雷特·阿德考克（Brett Adcock）強(qiáng)調(diào)，軟硬件一體，不可偏廢。

阿德考克還談及，中國的機(jī)器人公司關(guān)注硬件，但不在乎AI。實(shí)際上，同步發(fā)力AI與硬件，正在成為中國頭部人形機(jī)器人企業(yè)的戰(zhàn)略選擇。

3月10日，智元合伙人、具身業(yè)務(wù)部總裁、研究院執(zhí)行院長姚卯青接受采訪時(shí)說，人形機(jī)器人賽道上，“偏科”的公司較多。有些公司特別擅長算法，但硬件制造能力較弱，這會嚴(yán)重限制對算法研發(fā)的驗(yàn)證；另有大量機(jī)器人本體公司，對AI投入比較受限。智元?jiǎng)t追求硬件和AI的完整布局，這是一家2023年2月在上海注冊成立的人形機(jī)器人“獨(dú)角獸”公司。

的確有中國的機(jī)器人公司把重心置于硬件。去年8月，宇樹科技創(chuàng)始人王興興受訪時(shí)表示，具身智能大模型的研發(fā)太燒錢，宇樹科技對此選擇謹(jǐn)慎投入。之所以態(tài)度保守，也是考量到機(jī)器人具身模型的技術(shù)路線目前仍不像大語言模型那么清晰，不能在技術(shù)路線模糊的時(shí)候亂投入。但王興興補(bǔ)充強(qiáng)調(diào)，宇樹科技依然會繼續(xù)關(guān)注和研發(fā)具身智能大模型，因?yàn)橛布锳I服務(wù)，一旦對具身智能模型缺乏了解，很難做出好的人形機(jī)器人本體。

相較于宇樹科技在具身智能大模型上的審慎心態(tài)，姚卯青稱，智元把具身智能研發(fā)作為公司的戰(zhàn)略級投入領(lǐng)域。

“機(jī)器人公司如果不做大模型，那是沒有未來的。沒有智能化，就沒有作業(yè)能力。”姚卯青認(rèn)為，AI能力將來一定是區(qū)分機(jī)器人產(chǎn)品競爭力的關(guān)鍵因素，就像當(dāng)前的新能源汽車和手機(jī)等終端一樣，隨著硬件方案逐漸趨于一致，供應(yīng)鏈高度整合，“最后比拼的一定是AI能力”。

智元的人形機(jī)器人。圖：智元公司

3月10日，智元發(fā)布首個(gè)通用具身基座大模型GO-1。據(jù)公司介紹，這款具身智能模型最大的創(chuàng)新在于架構(gòu)變化。智元GO-1提出了Vision-Language-Latent-Action (ViLLA) 架構(gòu)，該架構(gòu)由VLM（多模態(tài)大模型）+ MoE（混合專家模型）組成。

其中，VLM利用海量互聯(lián)網(wǎng)純文本與圖文數(shù)據(jù)的學(xué)習(xí)中，幫助機(jī)器人理解通用知識和場景。MoE則由兩組“專家”組成：Latent Planner（隱式規(guī)劃器）借助大量的人類和其他機(jī)器人本體的操作數(shù)據(jù)，獲得通用的動(dòng)作理解能力；Action Expert（動(dòng)作專家）則借助仿真數(shù)據(jù)和真機(jī)采集的數(shù)據(jù)，獲得精細(xì)的動(dòng)作執(zhí)行能力。

“構(gòu)建了從通用場景感知、指令理解、動(dòng)作理解到動(dòng)作最終執(zhí)行的全鏈條?！币γ嘤萌祟悓W(xué)習(xí)乒乓球的進(jìn)階過程類比說，VLM之于機(jī)器人的作用，好比上乒乓球的基礎(chǔ)理論課，從圖文指導(dǎo)中形成對乒乓球招式的初步理解。Latent Planner（隱式規(guī)劃器）的角色，類似于給初學(xué)者觀看乒乓球世界冠軍打比賽的炫酷視頻。Action Expert（動(dòng)作專家）利用仿真數(shù)據(jù)，好比使用發(fā)球機(jī)進(jìn)行模擬學(xué)習(xí)；利用真機(jī)數(shù)據(jù)的訓(xùn)練，則如同請乒乓球教練手把手示教。

AI與硬件不可偏廢，智元稱不做大模型的機(jī)器人公司沒有未來

具身智能模型的四類訓(xùn)練數(shù)據(jù)。圖：智元公司

智元具身研究中心常務(wù)主任任廣輝表示，目前市場上的具身智能模型存在諸多落地難題。比如，以斯坦福的ACT為代表的具身智能小模型，沒有利用大規(guī)模的圖文和操作視頻訓(xùn)練，技能單一且無法學(xué)習(xí)新技能；基于視覺-語言-動(dòng)作多模態(tài)大模型（Vision-Language-Action，VLA）構(gòu)建的具身智能模型，雖然學(xué)習(xí)了大量圖文數(shù)據(jù)，具備場景感知和指令理解能力，但未有利用到大規(guī)模的人類和和其他機(jī)器人本體的操作視頻數(shù)據(jù)，缺少了一個(gè)重要的數(shù)據(jù)來源，導(dǎo)致迭代的成本更高。

智元發(fā)布的實(shí)驗(yàn)數(shù)據(jù)顯示，相比已有的最優(yōu)模型，GO-1的成功率提高了32%，從46%提升至78%。

“GO-1大模型將使機(jī)器人向著具備通用智能的自主體發(fā)展?！敝窃矫娣Q，GO-1具備更強(qiáng)的泛化能力，降低了具身模型的使用門檻。而且，這款具身智能模型搭配一整套數(shù)據(jù)回流系統(tǒng)，用于反饋場景測試中的錯(cuò)誤數(shù)據(jù)，公司再將其列入后續(xù)的模型訓(xùn)練，實(shí)現(xiàn)模型迭代。

智元還在尋求和頭部大模型公司來開發(fā)具身智能模型。2月下旬，階躍星辰宣布與智元達(dá)成戰(zhàn)略合作，共同探索AI+具身機(jī)器人應(yīng)用場景。據(jù)智元介紹，后續(xù)雙方的合作，圍繞階躍的多模態(tài)、推理和訓(xùn)練等底層平臺能力展開，將其賦能到機(jī)器人上。

當(dāng)前，開發(fā)具身智能大模型的數(shù)據(jù)采集路線也存在分歧。銀河通用等公司傾向于合成數(shù)據(jù)，但許多公司仍視真機(jī)數(shù)據(jù)為解決數(shù)據(jù)瓶頸的重要手段。為此，智元在上海專門建設(shè)了一座數(shù)據(jù)采集工廠，投放近百臺機(jī)器人，日均采集3萬至5萬條真機(jī)數(shù)據(jù)。另外，智元還針對工業(yè)場景開展概念驗(yàn)證項(xiàng)目（POC），前往工廠實(shí)地采集數(shù)據(jù)。

2025年被業(yè)內(nèi)視為“量產(chǎn)元年”。1月初，智元宣布已累計(jì)下線1000臺通用具身機(jī)器人。其中，雙足人形機(jī)器人731套，輪式通用機(jī)器人269套。姚卯青透露，千臺機(jī)器人中，有數(shù)百臺出貨給客戶，其余的作為研發(fā)樣機(jī)。

姚卯青預(yù)估，今年公司的出貨量會達(dá)到數(shù)千臺的規(guī)模，而營收相較去年會實(shí)現(xiàn)數(shù)倍的增長，推進(jìn)科研教育、服務(wù)業(yè)等場景的布局。

采寫：南都記者楊柳