97国产精品一区二区视频_国产午夜毛片色哟哟_惠民福利国产91精品看黄网站在线观看_搡老熟女老女人一区二区三区_国产做a∨在线视频观看免费_日韩 综合 婷婷 图_成人黄色一级毛片片_萧山本地第一网络媒体_亚洲国产精品无码久久久曰_亚洲欧美日韩岛国色图

快捷導(dǎo)航

AI大模型的能力比拼或許不再拘泥于“算力”

2025-1-20 14:11| 發(fā)布者: admin| 查看: 103| 評論: 0
摘要: 來源:環(huán)球網(wǎng) 【環(huán)球網(wǎng)科技綜合報(bào)道 記者 秦耳】在如今大模型爆發(fā)的時期,拉住一個AI從業(yè)者問他市場上誰家的大模型更為優(yōu)秀。他應(yīng)該會告訴你“去看這家有多少算力投入訓(xùn)練”,更為言簡的話他會以“存儲有多少塊英偉 ...
來源:環(huán)球網(wǎng)

【環(huán)球網(wǎng)科技綜合報(bào)道 記者 秦耳】在如今大模型爆發(fā)的時期,拉住一個AI從業(yè)者問他市場上誰家的大模型更為優(yōu)秀。他應(yīng)該會告訴你“去看這家有多少算力投入訓(xùn)練”,更為言簡的話他會以“存儲有多少塊英偉達(dá)算力芯片”作為更直接的衡量標(biāo)準(zhǔn)。

這樣的解釋也沒有太大的問題,如今市面上無論開源大模型,還是閉源大模型,其內(nèi)核都來自谷歌研究團(tuán)隊(duì)在2017年發(fā)布的《Attention is All You Need》這篇論文中所開發(fā)出的“Transformer模型”。包括特斯拉的自動駕駛FSD,以及OpenAI的ChatGPT都是對Transformer模型的產(chǎn)品化開發(fā),可以說當(dāng)前市面上所有正在運(yùn)行的AI大模型都是“Transformer模型”的變種。

就像《邪不壓正》這部電影里李天一和朱潛龍的經(jīng)典臺詞“都是同一個師傅教的,破不了招啊?!比缃竦腁I大模型市場也面臨這樣的局面,既然做不到“內(nèi)核”多樣化,那么只能通過快速且大量的數(shù)據(jù)訓(xùn)練,讓“經(jīng)驗(yàn)值”快速提升從而達(dá)到升級的目的。

據(jù)了解,僅在2023年,OpenAI訓(xùn)練GPT-4時,就用了25000張型號為A100的英偉達(dá)GPU。據(jù)外媒報(bào)道,當(dāng)前OpenAI至少擁有40萬塊英偉達(dá)的GB200芯片?和H100芯片。而甲骨文CEO拉里·埃里森也在一次播客訪談中講到,他曾經(jīng)跟特斯拉CEO馬斯克在一次邀請黃仁勛(英偉達(dá)老板)的飯局上,“乞求”黃仁勛給甲骨文和特斯拉預(yù)留足夠的算力芯片。

AI大模型的能力比拼或許不再拘泥于“算力”


事情的發(fā)展如果繼續(xù)沿著“堆算力”的方向發(fā)展,整個行業(yè)就沒有變局的可能。但是,打破湖面的漣漪終究會來,在12月中旬中國初創(chuàng)企業(yè)DeepSeek開發(fā)的大語言模型(LLM)DeepSeek-V3引發(fā)美歐業(yè)界廣泛關(guān)注,該模型在技術(shù)性能、開源模式、成本效益等方面的突出表現(xiàn)獲得積極評價(jià)。

根據(jù)測評機(jī)構(gòu)Artificial Analysis的獨(dú)立分析,DeepSeek-V3可與世界頂尖的AI模型競爭。在文本理解、編碼、數(shù)學(xué)和學(xué)科知識方面,DeepSeek-V3優(yōu)于Meta的Llama 3.1-405B和阿里巴巴的Qwen 2.5-72B等開源模型,并在性能上和世界頂尖的閉源模型OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet不分伯仲。DeepSeek-V3在中文處理、編碼和數(shù)學(xué)計(jì)算等方面的優(yōu)勢,使其在教育和科研領(lǐng)域具有巨大潛力。

可以說,DeepSeek-V3的能力超過了許多開源對手,例如Meta公司的Llama-3.1模型和阿里巴巴的Qwen2.5模型。一般情況下,頂級閉源模型的能力通常優(yōu)于開源模型,但DeepSeek在代碼生成、數(shù)學(xué)運(yùn)算等方向表現(xiàn)出了非凡的實(shí)力。

其次,DeepSeek-V3的開發(fā)和訓(xùn)練成本也明顯低于其他大模型。OpenAI創(chuàng)始成員之一安德烈·卡帕蒂強(qiáng)調(diào)了這種非凡的效率:像DeepSeek-V3這樣性能和級別的模型,通常需要1.6萬到10萬個GPU的集群來訓(xùn)練,而中國初創(chuàng)公司僅用了2048個GPU在57天內(nèi)便完成了訓(xùn)練。其成本約557.6萬美元,僅為其他主流模型(如GPT-4)的1/10左右。

用更為明顯的數(shù)字來說明,DeepSeek-V3模型只用了2048張英偉達(dá)H800顯卡,兩個月時間,便訓(xùn)練出了一個擁有6710億參數(shù)的超大規(guī)模模型,訓(xùn)練成本約為550萬美元。數(shù)據(jù)對比后,DeepSeek的厲害之處更為明顯。如果是其他硅谷公司來完成同等能力的模型,通常會選擇最高端的英偉達(dá)顯卡,而不是價(jià)格較低的H800顯卡。此外,他們至少需要1.6萬塊高端顯卡才能達(dá)到類似水平,遠(yuǎn)無法像DeepSeek這樣僅用2000塊H800顯卡完成任務(wù)。

從算力上看,V3的訓(xùn)練耗費(fèi)僅為同等規(guī)模硅谷公司模型的十一分之一。而在成本上,Meta的同等能力模型訓(xùn)練花費(fèi)高達(dá)數(shù)億美元,完全無法與DeepSeek的性價(jià)比相提并論。

盤古智庫的專家胡延平對于DeepSeek-V3的評價(jià)更為中肯,DeepSeek-V3的成功更多是證明了行業(yè)大模型路線的可行性,雖然相較于通用大模型它還是有差距。不過,我國產(chǎn)業(yè)界對于AI大模型的發(fā)展路徑本來就是在“產(chǎn)業(yè)化落地”方向,行業(yè)大模型與產(chǎn)品落地匹配度更高,更適合我國對于AI賦能各行各業(yè)的需求。

值得一提的是,DeepSeek-V3發(fā)布后的一段時間內(nèi),英偉達(dá)的股價(jià)也遭遇了波動。有華爾街分析師認(rèn)為,DeepSeek-V3的上市,讓市場對于AI大模型“堆算力”的發(fā)展模式產(chǎn)生了動搖。

鮮花

握手

雷人

路過

雞蛋

關(guān)注我們:東遠(yuǎn)物聯(lián)

抖音

微信咨詢

咨詢電話:

199-2833-9866

D-Think | 廣州東遠(yuǎn)智能科技有限公司

地址:廣州市白云區(qū)北太路1633號廣州民營科技園科創(chuàng)中心2棟16樓

電話:+86 020-87227952 Email:[email protected]

Copyright  ©2020  東遠(yuǎn)科技  粵ICP備2024254589號

免責(zé)申明:部分圖文表述來自于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系作者刪除!