AI大模型的能力比拼或許不再拘泥于“算力”

2025-1-20 14:11| 發(fā)布者: admin| 查看: 103| 評論: 0

摘要: 來源：環(huán)球網(wǎng) 【環(huán)球網(wǎng)科技綜合報(bào)道記者秦耳】在如今大模型爆發(fā)的時期，拉住一個AI從業(yè)者問他市場上誰家的大模型更為優(yōu)秀。他應(yīng)該會告訴你“去看這家有多少算力投入訓(xùn)練”，更為言簡的話他會以“存儲有多少塊英偉 ...

來源：環(huán)球網(wǎng)

【環(huán)球網(wǎng)科技綜合報(bào)道記者秦耳】在如今大模型爆發(fā)的時期，拉住一個AI從業(yè)者問他市場上誰家的大模型更為優(yōu)秀。他應(yīng)該會告訴你“去看這家有多少算力投入訓(xùn)練”，更為言簡的話他會以“存儲有多少塊英偉達(dá)算力芯片”作為更直接的衡量標(biāo)準(zhǔn)。

這樣的解釋也沒有太大的問題，如今市面上無論開源大模型，還是閉源大模型，其內(nèi)核都來自谷歌研究團(tuán)隊(duì)在2017年發(fā)布的《Attention is All You Need》這篇論文中所開發(fā)出的“Transformer模型”。包括特斯拉的自動駕駛FSD，以及OpenAI的ChatGPT都是對Transformer模型的產(chǎn)品化開發(fā)，可以說當(dāng)前市面上所有正在運(yùn)行的AI大模型都是“Transformer模型”的變種。

就像《邪不壓正》這部電影里李天一和朱潛龍的經(jīng)典臺詞“都是同一個師傅教的，破不了招啊?！比缃竦腁I大模型市場也面臨這樣的局面，既然做不到“內(nèi)核”多樣化，那么只能通過快速且大量的數(shù)據(jù)訓(xùn)練，讓“經(jīng)驗(yàn)值”快速提升從而達(dá)到升級的目的。

據(jù)了解，僅在2023年，OpenAI訓(xùn)練GPT-4時，就用了25000張型號為A100的英偉達(dá)GPU。據(jù)外媒報(bào)道，當(dāng)前OpenAI至少擁有40萬塊英偉達(dá)的GB200芯片?和H100芯片。而甲骨文CEO拉里·埃里森也在一次播客訪談中講到，他曾經(jīng)跟特斯拉CEO馬斯克在一次邀請黃仁勛（英偉達(dá)老板）的飯局上，“乞求”黃仁勛給甲骨文和特斯拉預(yù)留足夠的算力芯片。

事情的發(fā)展如果繼續(xù)沿著“堆算力”的方向發(fā)展，整個行業(yè)就沒有變局的可能。但是，打破湖面的漣漪終究會來，在12月中旬中國初創(chuàng)企業(yè)DeepSeek開發(fā)的大語言模型（LLM）DeepSeek-V3引發(fā)美歐業(yè)界廣泛關(guān)注，該模型在技術(shù)性能、開源模式、成本效益等方面的突出表現(xiàn)獲得積極評價(jià)。

根據(jù)測評機(jī)構(gòu)Artificial Analysis的獨(dú)立分析，DeepSeek-V3可與世界頂尖的AI模型競爭。在文本理解、編碼、數(shù)學(xué)和學(xué)科知識方面，DeepSeek-V3優(yōu)于Meta的Llama 3.1-405B和阿里巴巴的Qwen 2.5-72B等開源模型，并在性能上和世界頂尖的閉源模型OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet不分伯仲。DeepSeek-V3在中文處理、編碼和數(shù)學(xué)計(jì)算等方面的優(yōu)勢，使其在教育和科研領(lǐng)域具有巨大潛力。

可以說，DeepSeek-V3的能力超過了許多開源對手，例如Meta公司的Llama-3.1模型和阿里巴巴的Qwen2.5模型。一般情況下，頂級閉源模型的能力通常優(yōu)于開源模型，但DeepSeek在代碼生成、數(shù)學(xué)運(yùn)算等方向表現(xiàn)出了非凡的實(shí)力。

其次，DeepSeek-V3的開發(fā)和訓(xùn)練成本也明顯低于其他大模型。OpenAI創(chuàng)始成員之一安德烈·卡帕蒂強(qiáng)調(diào)了這種非凡的效率：像DeepSeek-V3這樣性能和級別的模型，通常需要1.6萬到10萬個GPU的集群來訓(xùn)練，而中國初創(chuàng)公司僅用了2048個GPU在57天內(nèi)便完成了訓(xùn)練。其成本約557.6萬美元，僅為其他主流模型（如GPT-4）的1/10左右。

用更為明顯的數(shù)字來說明，DeepSeek-V3模型只用了2048張英偉達(dá)H800顯卡，兩個月時間，便訓(xùn)練出了一個擁有6710億參數(shù)的超大規(guī)模模型，訓(xùn)練成本約為550萬美元。數(shù)據(jù)對比后，DeepSeek的厲害之處更為明顯。如果是其他硅谷公司來完成同等能力的模型，通常會選擇最高端的英偉達(dá)顯卡，而不是價(jià)格較低的H800顯卡。此外，他們至少需要1.6萬塊高端顯卡才能達(dá)到類似水平，遠(yuǎn)無法像DeepSeek這樣僅用2000塊H800顯卡完成任務(wù)。

從算力上看，V3的訓(xùn)練耗費(fèi)僅為同等規(guī)模硅谷公司模型的十一分之一。而在成本上，Meta的同等能力模型訓(xùn)練花費(fèi)高達(dá)數(shù)億美元，完全無法與DeepSeek的性價(jià)比相提并論。

盤古智庫的專家胡延平對于DeepSeek-V3的評價(jià)更為中肯，DeepSeek-V3的成功更多是證明了行業(yè)大模型路線的可行性，雖然相較于通用大模型它還是有差距。不過，我國產(chǎn)業(yè)界對于AI大模型的發(fā)展路徑本來就是在“產(chǎn)業(yè)化落地”方向，行業(yè)大模型與產(chǎn)品落地匹配度更高，更適合我國對于AI賦能各行各業(yè)的需求。

值得一提的是，DeepSeek-V3發(fā)布后的一段時間內(nèi)，英偉達(dá)的股價(jià)也遭遇了波動。有華爾街分析師認(rèn)為，DeepSeek-V3的上市，讓市場對于AI大模型“堆算力”的發(fā)展模式產(chǎn)生了動搖。