“(人形機(jī)器人公司)真正重要的是同時(shí)做硬件和AI,而且要讓它們能夠很好地整合在一起?!苯谝粓鰧υ捴?,美國當(dāng)紅人形機(jī)器人公司Figure AI創(chuàng)始人布雷特·阿德考克(Brett Adcock)強(qiáng)調(diào),軟硬件一體,不可偏廢。 阿德考克還談及,中國的機(jī)器人公司關(guān)注硬件,但不在乎AI。實(shí)際上,同步發(fā)力AI與硬件,正在成為中國頭部人形機(jī)器人企業(yè)的戰(zhàn)略選擇。 3月10日,智元合伙人、具身業(yè)務(wù)部總裁、研究院執(zhí)行院長姚卯青接受采訪時(shí)說,人形機(jī)器人賽道上,“偏科”的公司較多。有些公司特別擅長算法,但硬件制造能力較弱,這會嚴(yán)重限制對算法研發(fā)的驗(yàn)證;另有大量機(jī)器人本體公司,對AI投入比較受限。智元?jiǎng)t追求硬件和AI的完整布局,這是一家2023年2月在上海注冊成立的人形機(jī)器人“獨(dú)角獸”公司。 的確有中國的機(jī)器人公司把重心置于硬件。去年8月,宇樹科技創(chuàng)始人王興興受訪時(shí)表示,具身智能大模型的研發(fā)太燒錢,宇樹科技對此選擇謹(jǐn)慎投入。之所以態(tài)度保守,也是考量到機(jī)器人具身模型的技術(shù)路線目前仍不像大語言模型那么清晰,不能在技術(shù)路線模糊的時(shí)候亂投入。但王興興補(bǔ)充強(qiáng)調(diào),宇樹科技依然會繼續(xù)關(guān)注和研發(fā)具身智能大模型,因?yàn)橛布锳I服務(wù),一旦對具身智能模型缺乏了解,很難做出好的人形機(jī)器人本體。 相較于宇樹科技在具身智能大模型上的審慎心態(tài),姚卯青稱,智元把具身智能研發(fā)作為公司的戰(zhàn)略級投入領(lǐng)域。 “機(jī)器人公司如果不做大模型,那是沒有未來的。沒有智能化,就沒有作業(yè)能力。”姚卯青認(rèn)為,AI能力將來一定是區(qū)分機(jī)器人產(chǎn)品競爭力的關(guān)鍵因素,就像當(dāng)前的新能源汽車和手機(jī)等終端一樣,隨著硬件方案逐漸趨于一致,供應(yīng)鏈高度整合,“最后比拼的一定是AI能力”。 智元的人形機(jī)器人。圖:智元公司 3月10日,智元發(fā)布首個(gè)通用具身基座大模型GO-1。據(jù)公司介紹,這款具身智能模型最大的創(chuàng)新在于架構(gòu)變化。智元GO-1提出了Vision-Language-Latent-Action (ViLLA) 架構(gòu),該架構(gòu)由VLM(多模態(tài)大模型)+ MoE(混合專家模型)組成。 其中,VLM利用海量互聯(lián)網(wǎng)純文本與圖文數(shù)據(jù)的學(xué)習(xí)中,幫助機(jī)器人理解通用知識和場景。MoE則由兩組“專家”組成:Latent Planner(隱式規(guī)劃器)借助大量的人類和其他機(jī)器人本體的操作數(shù)據(jù),獲得通用的動(dòng)作理解能力;Action Expert(動(dòng)作專家)則借助仿真數(shù)據(jù)和真機(jī)采集的數(shù)據(jù),獲得精細(xì)的動(dòng)作執(zhí)行能力。 “構(gòu)建了從通用場景感知、指令理解、動(dòng)作理解到動(dòng)作最終執(zhí)行的全鏈條?!币γ嘤萌祟悓W(xué)習(xí)乒乓球的進(jìn)階過程類比說,VLM之于機(jī)器人的作用,好比上乒乓球的基礎(chǔ)理論課,從圖文指導(dǎo)中形成對乒乓球招式的初步理解。Latent Planner(隱式規(guī)劃器)的角色,類似于給初學(xué)者觀看乒乓球世界冠軍打比賽的炫酷視頻。Action Expert(動(dòng)作專家)利用仿真數(shù)據(jù),好比使用發(fā)球機(jī)進(jìn)行模擬學(xué)習(xí);利用真機(jī)數(shù)據(jù)的訓(xùn)練,則如同請乒乓球教練手把手示教。 具身智能模型的四類訓(xùn)練數(shù)據(jù)。圖:智元公司 智元具身研究中心常務(wù)主任任廣輝表示,目前市場上的具身智能模型存在諸多落地難題。比如,以斯坦福的ACT為代表的具身智能小模型,沒有利用大規(guī)模的圖文和操作視頻訓(xùn)練,技能單一且無法學(xué)習(xí)新技能;基于視覺-語言-動(dòng)作多模態(tài)大模型(Vision-Language-Action,VLA)構(gòu)建的具身智能模型,雖然學(xué)習(xí)了大量圖文數(shù)據(jù),具備場景感知和指令理解能力,但未有利用到大規(guī)模的人類和和其他機(jī)器人本體的操作視頻數(shù)據(jù),缺少了一個(gè)重要的數(shù)據(jù)來源,導(dǎo)致迭代的成本更高。 智元發(fā)布的實(shí)驗(yàn)數(shù)據(jù)顯示,相比已有的最優(yōu)模型,GO-1的成功率提高了32%,從46%提升至78%。 “GO-1大模型將使機(jī)器人向著具備通用智能的自主體發(fā)展?!敝窃矫娣Q,GO-1具備更強(qiáng)的泛化能力,降低了具身模型的使用門檻。而且,這款具身智能模型搭配一整套數(shù)據(jù)回流系統(tǒng),用于反饋場景測試中的錯(cuò)誤數(shù)據(jù),公司再將其列入后續(xù)的模型訓(xùn)練,實(shí)現(xiàn)模型迭代。 智元還在尋求和頭部大模型公司來開發(fā)具身智能模型。2月下旬,階躍星辰宣布與智元達(dá)成戰(zhàn)略合作,共同探索AI+具身機(jī)器人應(yīng)用場景。據(jù)智元介紹,后續(xù)雙方的合作,圍繞階躍的多模態(tài)、推理和訓(xùn)練等底層平臺能力展開,將其賦能到機(jī)器人上。 當(dāng)前,開發(fā)具身智能大模型的數(shù)據(jù)采集路線也存在分歧。銀河通用等公司傾向于合成數(shù)據(jù),但許多公司仍視真機(jī)數(shù)據(jù)為解決數(shù)據(jù)瓶頸的重要手段。為此,智元在上海專門建設(shè)了一座數(shù)據(jù)采集工廠,投放近百臺機(jī)器人,日均采集3萬至5萬條真機(jī)數(shù)據(jù)。另外,智元還針對工業(yè)場景開展概念驗(yàn)證項(xiàng)目(POC),前往工廠實(shí)地采集數(shù)據(jù)。 2025年被業(yè)內(nèi)視為“量產(chǎn)元年”。1月初,智元宣布已累計(jì)下線1000臺通用具身機(jī)器人。其中,雙足人形機(jī)器人731套,輪式通用機(jī)器人269套。姚卯青透露,千臺機(jī)器人中,有數(shù)百臺出貨給客戶,其余的作為研發(fā)樣機(jī)。 姚卯青預(yù)估,今年公司的出貨量會達(dá)到數(shù)千臺的規(guī)模,而營收相較去年會實(shí)現(xiàn)數(shù)倍的增長,推進(jìn)科研教育、服務(wù)業(yè)等場景的布局。 采寫:南都記者 楊柳 |
19款電子扎帶
電路板識別電子標(biāo)簽