行業(yè)正在集體穿越大模型時代的“創(chuàng)新死亡谷”。 最近幾天,作為AI大模型“六小虎”之一的零一萬物,頻頻登上科技行業(yè)熱門話題榜。據(jù)媒體報道,零一萬物將不再追求訓(xùn)練超級大模型,1月初已與阿里云成立“產(chǎn)業(yè)大模型聯(lián)合實驗室”,零一萬物大部分訓(xùn)練和AI infra團隊會加入該實驗室。這是國內(nèi)首家對外公開大幅調(diào)整戰(zhàn)略方向的AI大模型獨角獸。 這些靈魂拷問在2025年剛開年就鋪面而來。 Scaling Laws失效了?“僅僅一年多的時間,引領(lǐng)大模型前進的傳統(tǒng) Scaling Law 邊際收益遞減明顯,商業(yè)化上同樣如此。”零一萬物 CEO 李開復(fù)近日接受媒體采訪時多次表達這一觀點,“賭上巨量資源去訓(xùn)練超大參數(shù)規(guī)模的模型,超低的性價比對初創(chuàng)公司來說,肯定不是一個務(wù)實的選擇?!?br> 李開復(fù)的觀點再次激發(fā)了行業(yè)對于Scaling Laws的爭論。Scaling Laws最早是OpenAI在一篇論文中提出的。用大白話講,它是指,AI大模型的性能會隨著模型參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量和計算資源的增加而相應(yīng)提升。 正是受Scaling Laws的召喚,國內(nèi)外大模型平臺爭相花巨資囤積成千上萬張GPU,以堆高計算能力;將模型參數(shù)規(guī)模從數(shù)億推高到數(shù)千億,甚至上萬億。比如,OpenAI的GPT-4模型據(jù)稱約有1.8萬億參數(shù)。 但是,自去年以來,Scaling Laws“撞南墻”的聲音越來越響,其有效性受到了眾多質(zhì)疑。外媒報道,據(jù)內(nèi)部消息人士透露,OpenAI 的下一代模型(代號為 Orion)在某些任務(wù)上僅比其前身 GPT-4 有微小的改進,與 GPT-3 到 GPT-4 的飛躍相比,提升幅度顯著縮小。 雖然OpenAI的CEO奧特曼否認了這一點,在社交媒體上回應(yīng)稱“there is no wall(沒有墻)”。但外界從GPT-5遲遲沒有推出還是看出了一些端倪。而遭遇困境的并非僅有 OpenAI 一家。彭博社援引知情人士的消息稱,Google 旗下的 Gemini 2.0 同樣未能達到預(yù)期目標(biāo),與此同時,Anthropic 旗下的 Claude 3.5 Opus 的發(fā)布時間也一再推遲。 當(dāng)然,還有很多聲音并不認同Scaling Laws已經(jīng)失效。英偉達黃仁勛前兩天在CES 2025上發(fā)言時堅稱,“基礎(chǔ)模型預(yù)訓(xùn)練的Scalinglaws仍然有效,它還在繼續(xù)”,而且除了預(yù)訓(xùn)練擴展定律之外,還出現(xiàn)了后訓(xùn)練擴展定律和測試時間擴展定律。 “測試時計算”確實開辟了擴展模型算力和提高AI性能的一種新途徑。相較于前代模型完全依靠在預(yù)訓(xùn)練中擴大模型參數(shù)量來改善表現(xiàn),像OpenAI的o3這樣的新推理模型能在推理過程中進行計算,推理計算量的擴大可以讓AI模型通過“思考更長時間”來解鎖新的能力。 雖然有不同聲音,但行業(yè)的普遍共識是,單純靠堆算力、堆參數(shù)的簡單粗暴的發(fā)展模式,一去不復(fù)返了。李開復(fù)的呼聲也在國內(nèi)捅開了這層窗戶紙。 大模型燒不起了Scaling Laws遇到瓶頸并非意味著大模型不再向上發(fā)展了,深層的問題在于高昂成本導(dǎo)致邊際效益的嚴重遞減。說白了,就是投入產(chǎn)出比的考量。 近年來大模型訓(xùn)練成本的增加是顯而易見的。2017年,Transformer 模型訓(xùn)練成本約為 900 美元;2019年,國外某模型的訓(xùn)練成本約為16萬美元;2023 年,OpenAI 的 GPT-4 和 Google 的 Gemini Ultra 的訓(xùn)練成本預(yù)計分別約為7800 萬美元和 1.91 億美元。五年時間,成本飆升了10萬倍! 國內(nèi)同樣如此。浙商證券的分析報告指出,字節(jié)跳動2024年在AI領(lǐng)域的資本開支高達800億元,國內(nèi)最高,接近百度、阿里、騰訊三家公司的總和。該券商預(yù)測,到2025年,字節(jié)跳動的資本開支有望進一步增長至1600億元,其中約900億元將專門用于AI算力的采購。 AI算力的采購目前主要是買英偉達的GPU。來自 Omdia 和英國《金融時報》的報道顯示,2024年微軟采購量全球最多,購買了48.5萬個英偉達 Hopper 架構(gòu)芯片;字節(jié)跳動和騰訊分別收購了大約 23 萬個;谷歌、Meta 和亞馬遜等公司也都買了不少。馬斯克今年則以迅雷之勢搭建了包含10萬張H100的AI訓(xùn)練集群Colossu。國內(nèi)大廠如百度、阿里、小米等,也都在籌劃搭建萬卡甚至十萬卡GPU集群。 而一個英偉達 Hopper 架構(gòu)芯片價格為3.3萬美元—4萬美元。英偉達公司市值兩年翻了10倍,靠的就是這個生意。除了外采,很多科技巨頭還在開發(fā)自己的內(nèi)部定制芯片。研發(fā)費用同樣不菲。即便不買卡只租用,每塊GPU每小時租金也需要數(shù)美元,而一個模型的訓(xùn)練往往需要幾百萬甚至幾千萬個GPU小時。 不僅訓(xùn)練費用高昂,大模型提供服務(wù)時還要大量消耗其他資源。據(jù)國外某研究機構(gòu)報告,ChatGPT每天要響應(yīng)大約2億個請求,在此過程中消耗超過50萬度電力。市場推廣是另一筆不小的開支,競爭越激烈,競價成本越水漲船高。 而與此同時,國內(nèi)市場卻越來越“卷”。某些大模型的API調(diào)用價格2024年大幅降低,有的降幅高達97%,每千Token降至 0.003元,甚至部分版本宣布對外完全免費。 綜上,如此巨額的投入,顯然不是每個創(chuàng)業(yè)公司都能燒得起的。國內(nèi)即使幾大AI獨角獸,每家累計融資平均也僅幾億美金,百億元級別,估值約在200億上下。鑒于此,李開復(fù)認為,未來只有大廠才有能力做超大模型。 六小虎們戰(zhàn)略分野“如果你還要燒巨大的模型,還有5000張、10000張卡,每年帶來2-3億美金的成本,這些成本怎么分攤到業(yè)務(wù)收入上去?如果你的虧損是收入的5倍、10倍、20倍,靈魂拷問就會失敗。我在朋友圈里說‘2025 年是商業(yè)化淘汰年’,就是這么一回事?!?br> 李開復(fù)認為,商湯等AI 1.0公司普遍走了6-8年,才進入商業(yè)化靈魂拷問時刻,而現(xiàn)在技術(shù)迭代加快了,從信仰 Scaling Law 到懷疑 Scaling Law 只花了一年時間。靈魂拷問也來得更快。AI創(chuàng)業(yè)者曾經(jīng)都擁有一個共同的通用人工智能AGI的夢想,但沒有大廠雄厚實力的六小虎們能接得住加快降臨的商業(yè)化靈魂拷問嗎?2025年或?qū)⒂瓉矸忠啊?br> 2024年全球AI融資排行榜中,馬斯克旗下的xAI及OpenAI、Anthropic憑借120億美元、81億美元、80億美元斬獲前三。相比較而言,國內(nèi)六小虎的融資額則低了一個數(shù)量級,排在前面的分別為月之暗面超70億元,百川智能 50億元,MiniMax 超40億元,智譜A1 超40億元,零一萬物數(shù)億美元,階躍星辰數(shù)億美元。 但在去年下半年,月之暗面和MiniMax沒有公布新的融資,也有多家企業(yè)出現(xiàn)資金鏈吃緊情況。 零一萬物選擇放棄對超大參數(shù)規(guī)模的模型的追求,除了戰(zhàn)略方向的主動選擇,必然也會有財務(wù)方面的考慮?!拔业呢攧?wù)同事每幾周跟我過現(xiàn)金流,看到算力一個月一個月的支出,真不是可持續(xù)的方式?!崩铋_復(fù)近日在接受采訪時坦承。 據(jù)其透露,2024年5月,零一萬物發(fā)布了一個千億參數(shù)模型 Yi-Large,此后決定更換為更務(wù)實的路線,專注做更輕量化、性能也不錯的模型,即去年10月推出的新旗艦?zāi)P?Yi-Lightning。新模型采取MoE(混合專家)架構(gòu),激活參數(shù)僅200多億,但模型表現(xiàn)更出色,號稱超過了GPT-4o。更重要的是,Yi-Lightning 的模型訓(xùn)練成本僅350萬美元,是 GPT-4o 的 1/30。 近段時間在海外社交媒體刷屏的另一個中國大模型DeepSeek-V3,評測成績亮眼,成為開源模型的新王。同樣的是,該模型也大幅降低了訓(xùn)練成本。模型每訓(xùn)練1萬億token僅需要18萬個GPU小時,即在團隊配備2048個H800 GPU的集群上只需3.7天?!?048個GPU、2個月、近600萬美元”,相比之下,GPT-4o等模型的訓(xùn)練成本約為1億美元,至少在萬個GPU量級的計算集群上訓(xùn)練。成本的下降,使其API調(diào)用價格更低,千tokens輸入僅0.001元,吸引了大量開發(fā)者。 智譜AI過去兩年一直緊盯OpenAI的發(fā)展路線。但OpenAI去年的腳步有所放緩,智譜也加大了對Agent的投入。 階躍星辰在去年底完成B輪融資后表示,將繼續(xù)投入基礎(chǔ)模型研發(fā),強化多模態(tài)和復(fù)雜推理能力,并通過產(chǎn)品和生態(tài)加大覆蓋C端應(yīng)用場景。 月之暗面與MiniMax在C端市場表現(xiàn)得更為強勁。月之暗面旗下智能助手Kimi初期憑借20萬字的長上下文功能,獲得了大量用戶,全平臺月活躍用戶號稱超過3600萬;不久前,月之暗面又快速跟進推理模型,先后上線了數(shù)學(xué)模型k0-math、視覺思考模型K1。 MiniMax在多模態(tài)大模型方面表現(xiàn)亮眼。視頻領(lǐng)域的海螺AI口碑不錯;星野,海外版為Talkie,也聚攏了大批用戶。根據(jù)Sensor Tower的數(shù)據(jù),截至2024年6月,Talkie的全球月活躍用戶數(shù)已達到1100萬,超過一半用戶來自美國。 百川智能獨辟蹊徑,明確表態(tài)不做當(dāng)前大熱的視頻模型,而是選擇將AGI與醫(yī)療結(jié)合,認為“制造醫(yī)生”是AGI的重要標(biāo)志,推出了“一大四小”醫(yī)療產(chǎn)品,并與兒童醫(yī)院合作。 不同的技術(shù)路線和商業(yè)化路徑,讓眾多的創(chuàng)業(yè)公司開啟了不同的發(fā)展方向。而隨著競爭的加劇,這種戰(zhàn)略分化也將加速。像新能源汽車領(lǐng)域進入淘汰賽一樣,AI大模型也正迎來這一時刻。 |
19款電子扎帶
電路板識別電子標(biāo)簽