通用人工智能AGI祛魅，AI六小虎面臨商業(yè)化拷問

2025-1-10 09:34| 發(fā)布者: admin| 查看: 85| 評論: 0

摘要: 文 | 新電實驗室行業(yè)正在集體穿越大模型時代的“創(chuàng)新死亡谷”。最近幾天，作為AI大模型“六小虎”之一的零一萬物，頻頻登上科技行業(yè)熱門話題榜。據(jù)媒體報道，零一萬物將不再追求訓(xùn)練超級大模型，1月初已與阿里云成立 ...

文 | 新電實驗室

行業(yè)正在集體穿越大模型時代的“創(chuàng)新死亡谷”。

最近幾天，作為AI大模型“六小虎”之一的零一萬物，頻頻登上科技行業(yè)熱門話題榜。據(jù)媒體報道，零一萬物將不再追求訓(xùn)練超級大模型，1月初已與阿里云成立“產(chǎn)業(yè)大模型聯(lián)合實驗室”，零一萬物大部分訓(xùn)練和AI infra團隊會加入該實驗室。這是國內(nèi)首家對外公開大幅調(diào)整戰(zhàn)略方向的AI大模型獨角獸。

這些靈魂拷問在2025年剛開年就鋪面而來。

Scaling Laws失效了？

“僅僅一年多的時間，引領(lǐng)大模型前進的傳統(tǒng) Scaling Law 邊際收益遞減明顯，商業(yè)化上同樣如此。”零一萬物 CEO 李開復(fù)近日接受媒體采訪時多次表達這一觀點，“賭上巨量資源去訓(xùn)練超大參數(shù)規(guī)模的模型，超低的性價比對初創(chuàng)公司來說，肯定不是一個務(wù)實的選擇?！?br>
李開復(fù)的觀點再次激發(fā)了行業(yè)對于Scaling Laws的爭論。Scaling Laws最早是OpenAI在一篇論文中提出的。用大白話講，它是指，AI大模型的性能會隨著模型參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量和計算資源的增加而相應(yīng)提升。

通用人工智能AGI祛魅，AI六小虎面臨商業(yè)化拷問

正是受Scaling Laws的召喚，國內(nèi)外大模型平臺爭相花巨資囤積成千上萬張GPU，以堆高計算能力；將模型參數(shù)規(guī)模從數(shù)億推高到數(shù)千億，甚至上萬億。比如，OpenAI的GPT-4模型據(jù)稱約有1.8萬億參數(shù)。

但是，自去年以來，Scaling Laws“撞南墻”的聲音越來越響，其有效性受到了眾多質(zhì)疑。外媒報道，據(jù)內(nèi)部消息人士透露，OpenAI 的下一代模型（代號為 Orion）在某些任務(wù)上僅比其前身 GPT-4 有微小的改進，與 GPT-3 到 GPT-4 的飛躍相比，提升幅度顯著縮小。

雖然OpenAI的CEO奧特曼否認了這一點，在社交媒體上回應(yīng)稱“there is no wall（沒有墻）”。但外界從GPT-5遲遲沒有推出還是看出了一些端倪。而遭遇困境的并非僅有 OpenAI 一家。彭博社援引知情人士的消息稱，Google 旗下的 Gemini 2.0 同樣未能達到預(yù)期目標(biāo)，與此同時，Anthropic 旗下的 Claude 3.5 Opus 的發(fā)布時間也一再推遲。

當(dāng)然，還有很多聲音并不認同Scaling Laws已經(jīng)失效。英偉達黃仁勛前兩天在CES 2025上發(fā)言時堅稱，“基礎(chǔ)模型預(yù)訓(xùn)練的Scalinglaws仍然有效，它還在繼續(xù)”，而且除了預(yù)訓(xùn)練擴展定律之外，還出現(xiàn)了后訓(xùn)練擴展定律和測試時間擴展定律。

“測試時計算”確實開辟了擴展模型算力和提高AI性能的一種新途徑。相較于前代模型完全依靠在預(yù)訓(xùn)練中擴大模型參數(shù)量來改善表現(xiàn)，像OpenAI的o3這樣的新推理模型能在推理過程中進行計算，推理計算量的擴大可以讓AI模型通過“思考更長時間”來解鎖新的能力。

雖然有不同聲音，但行業(yè)的普遍共識是，單純靠堆算力、堆參數(shù)的簡單粗暴的發(fā)展模式，一去不復(fù)返了。李開復(fù)的呼聲也在國內(nèi)捅開了這層窗戶紙。

大模型燒不起了

Scaling Laws遇到瓶頸并非意味著大模型不再向上發(fā)展了，深層的問題在于高昂成本導(dǎo)致邊際效益的嚴重遞減。說白了，就是投入產(chǎn)出比的考量。

近年來大模型訓(xùn)練成本的增加是顯而易見的。2017年，Transformer 模型訓(xùn)練成本約為 900 美元；2019年，國外某模型的訓(xùn)練成本約為16萬美元；2023 年，OpenAI 的 GPT-4 和 Google 的 Gemini Ultra 的訓(xùn)練成本預(yù)計分別約為7800 萬美元和 1.91 億美元。五年時間，成本飆升了10萬倍！

國內(nèi)同樣如此。浙商證券的分析報告指出，字節(jié)跳動2024年在AI領(lǐng)域的資本開支高達800億元，國內(nèi)最高，接近百度、阿里、騰訊三家公司的總和。該券商預(yù)測，到2025年，字節(jié)跳動的資本開支有望進一步增長至1600億元，其中約900億元將專門用于AI算力的采購。

AI算力的采購目前主要是買英偉達的GPU。來自 Omdia 和英國《金融時報》的報道顯示，2024年微軟采購量全球最多，購買了48.5萬個英偉達 Hopper 架構(gòu)芯片；字節(jié)跳動和騰訊分別收購了大約 23 萬個；谷歌、Meta 和亞馬遜等公司也都買了不少。馬斯克今年則以迅雷之勢搭建了包含10萬張H100的AI訓(xùn)練集群Colossu。國內(nèi)大廠如百度、阿里、小米等，也都在籌劃搭建萬卡甚至十萬卡GPU集群。

而一個英偉達 Hopper 架構(gòu)芯片價格為3.3萬美元—4萬美元。英偉達公司市值兩年翻了10倍，靠的就是這個生意。除了外采，很多科技巨頭還在開發(fā)自己的內(nèi)部定制芯片。研發(fā)費用同樣不菲。即便不買卡只租用，每塊GPU每小時租金也需要數(shù)美元，而一個模型的訓(xùn)練往往需要幾百萬甚至幾千萬個GPU小時。

不僅訓(xùn)練費用高昂，大模型提供服務(wù)時還要大量消耗其他資源。據(jù)國外某研究機構(gòu)報告，ChatGPT每天要響應(yīng)大約2億個請求，在此過程中消耗超過50萬度電力。市場推廣是另一筆不小的開支，競爭越激烈，競價成本越水漲船高。

而與此同時，國內(nèi)市場卻越來越“卷”。某些大模型的API調(diào)用價格2024年大幅降低，有的降幅高達97%，每千Token降至 0.003元，甚至部分版本宣布對外完全免費。

綜上，如此巨額的投入，顯然不是每個創(chuàng)業(yè)公司都能燒得起的。國內(nèi)即使幾大AI獨角獸，每家累計融資平均也僅幾億美金，百億元級別，估值約在200億上下。鑒于此，李開復(fù)認為，未來只有大廠才有能力做超大模型。

六小虎們戰(zhàn)略分野

“如果你還要燒巨大的模型，還有5000張、10000張卡，每年帶來2-3億美金的成本，這些成本怎么分攤到業(yè)務(wù)收入上去？如果你的虧損是收入的5倍、10倍、20倍，靈魂拷問就會失敗。我在朋友圈里說‘2025 年是商業(yè)化淘汰年’，就是這么一回事?！?br>
李開復(fù)認為，商湯等AI 1.0公司普遍走了6-8年，才進入商業(yè)化靈魂拷問時刻，而現(xiàn)在技術(shù)迭代加快了，從信仰 Scaling Law 到懷疑 Scaling Law 只花了一年時間。靈魂拷問也來得更快。AI創(chuàng)業(yè)者曾經(jīng)都擁有一個共同的通用人工智能AGI的夢想，但沒有大廠雄厚實力的六小虎們能接得住加快降臨的商業(yè)化靈魂拷問嗎？2025年或?qū)⒂瓉矸忠啊?br>
2024年全球AI融資排行榜中，馬斯克旗下的xAI及OpenAI、Anthropic憑借120億美元、81億美元、80億美元斬獲前三。相比較而言，國內(nèi)六小虎的融資額則低了一個數(shù)量級，排在前面的分別為月之暗面超70億元，百川智能 50億元，MiniMax 超40億元，智譜A1 超40億元，零一萬物數(shù)億美元，階躍星辰數(shù)億美元。

但在去年下半年，月之暗面和MiniMax沒有公布新的融資，也有多家企業(yè)出現(xiàn)資金鏈吃緊情況。

零一萬物選擇放棄對超大參數(shù)規(guī)模的模型的追求，除了戰(zhàn)略方向的主動選擇，必然也會有財務(wù)方面的考慮?！拔业呢攧?wù)同事每幾周跟我過現(xiàn)金流，看到算力一個月一個月的支出，真不是可持續(xù)的方式?！崩铋_復(fù)近日在接受采訪時坦承。

據(jù)其透露，2024年5月，零一萬物發(fā)布了一個千億參數(shù)模型 Yi-Large，此后決定更換為更務(wù)實的路線，專注做更輕量化、性能也不錯的模型，即去年10月推出的新旗艦?zāi)Ｐ?Yi-Lightning。新模型采取MoE（混合專家）架構(gòu)，激活參數(shù)僅200多億，但模型表現(xiàn)更出色，號稱超過了GPT-4o。更重要的是，Yi-Lightning 的模型訓(xùn)練成本僅350萬美元，是 GPT-4o 的 1/30。

近段時間在海外社交媒體刷屏的另一個中國大模型DeepSeek-V3，評測成績亮眼，成為開源模型的新王。同樣的是，該模型也大幅降低了訓(xùn)練成本。模型每訓(xùn)練1萬億token僅需要18萬個GPU小時，即在團隊配備2048個H800 GPU的集群上只需3.7天?！?048個GPU、2個月、近600萬美元”，相比之下，GPT-4o等模型的訓(xùn)練成本約為1億美元，至少在萬個GPU量級的計算集群上訓(xùn)練。成本的下降，使其API調(diào)用價格更低，千tokens輸入僅0.001元，吸引了大量開發(fā)者。

智譜AI過去兩年一直緊盯OpenAI的發(fā)展路線。但OpenAI去年的腳步有所放緩，智譜也加大了對Agent的投入。

階躍星辰在去年底完成B輪融資后表示，將繼續(xù)投入基礎(chǔ)模型研發(fā)，強化多模態(tài)和復(fù)雜推理能力，并通過產(chǎn)品和生態(tài)加大覆蓋C端應(yīng)用場景。

月之暗面與MiniMax在C端市場表現(xiàn)得更為強勁。月之暗面旗下智能助手Kimi初期憑借20萬字的長上下文功能，獲得了大量用戶，全平臺月活躍用戶號稱超過3600萬；不久前，月之暗面又快速跟進推理模型，先后上線了數(shù)學(xué)模型k0-math、視覺思考模型K1。

MiniMax在多模態(tài)大模型方面表現(xiàn)亮眼。視頻領(lǐng)域的海螺AI口碑不錯；星野，海外版為Talkie，也聚攏了大批用戶。根據(jù)Sensor Tower的數(shù)據(jù)，截至2024年6月，Talkie的全球月活躍用戶數(shù)已達到1100萬，超過一半用戶來自美國。

百川智能獨辟蹊徑，明確表態(tài)不做當(dāng)前大熱的視頻模型，而是選擇將AGI與醫(yī)療結(jié)合，認為“制造醫(yī)生”是AGI的重要標(biāo)志，推出了“一大四小”醫(yī)療產(chǎn)品，并與兒童醫(yī)院合作。

不同的技術(shù)路線和商業(yè)化路徑，讓眾多的創(chuàng)業(yè)公司開啟了不同的發(fā)展方向。而隨著競爭的加劇，這種戰(zhàn)略分化也將加速。像新能源汽車領(lǐng)域進入淘汰賽一樣，AI大模型也正迎來這一時刻。