中國(guó)AI公司的創(chuàng)造力正技驚四座
最近幾天,一家名為深度求索(DeepSeek)的中國(guó)公司在歐美AI圈引起了不小的震動(dòng),甚至被認(rèn)為是大模型行業(yè)的最大“黑馬”。DeepSeek被不少外國(guó)人稱為“神秘的東方力量”。
1月27日,DeepSeek應(yīng)用登頂蘋果美國(guó)地區(qū)應(yīng)用商店免費(fèi)APP下載排行榜,在美區(qū)下載榜上超越了ChatGPT。
同日,蘋果中國(guó)區(qū)應(yīng)用商店免費(fèi)榜顯示,DeepSeek成為中國(guó)區(qū)第一。蘋果APP Store中國(guó)區(qū)免費(fèi)榜
對(duì)于一款中國(guó)大模型來(lái)說(shuō),能夠在美國(guó)力壓ChatGPT,也是歷史性一刻。DeepSeek,全稱杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,成立于2023年7月17日,是一家創(chuàng)新型科技公司,專注于開(kāi)發(fā)先進(jìn)的大語(yǔ)言模型(LLM)和相關(guān)技術(shù)。幾天前,總部位于中國(guó)杭州的DeepSeek發(fā)布推理模型R1,在性能逼近OpenAI o1正式版的同時(shí),推理成本卻僅為后者的幾十分之一。外媒稱,DeepSeek大模型以極低成本(600萬(wàn)美元)和少量芯片(2000塊)實(shí)現(xiàn)了與OpenAI等巨頭相媲美的性能,挑戰(zhàn)了“唯有科技巨頭才能研發(fā)尖端AI”的行業(yè)共識(shí)。低成本實(shí)現(xiàn)高性能模型研發(fā),對(duì)用戶來(lái)說(shuō)的體驗(yàn)感也立竿見(jiàn)影——它功能強(qiáng)大,但卻免費(fèi)使用,并且DeepSeek還將代碼面向開(kāi)發(fā)者進(jìn)行了開(kāi)源。據(jù)了解,DeepSeek R1沒(méi)有使用業(yè)內(nèi)普遍使用的監(jiān)督微調(diào)(SFT)訓(xùn)練范式,而是直接通過(guò)強(qiáng)化學(xué)習(xí)讓模型自主進(jìn)化出復(fù)雜的推理能力,包括反思和長(zhǎng)鏈思考等能力。這種方法不僅提高了訓(xùn)練效率,還減少了對(duì)昂貴計(jì)算資源的依賴。與OpenAI的o1相比,DeepSeek模型的百萬(wàn)token輸入成本從15美元銳減到0.55美元,輸出成本則從60美元降低到2美元。有人提出,DeepSeek恰恰是美國(guó)對(duì)華進(jìn)行芯片出口限制之下所激發(fā)出的創(chuàng)新。1月24日,美國(guó)消費(fèi)者新聞與商業(yè)頻道CNBC發(fā)文稱,DeepSeek的AI模型“挑戰(zhàn)了美國(guó)在AI領(lǐng)域的主導(dǎo)地位”(challenges America’s global leadership in artificial intelligence)。同日,華爾街頂級(jí)風(fēng)投A16Z創(chuàng)始人馬克·安德森在社交媒體發(fā)言稱,DeepSeek R1是其見(jiàn)過(guò)的最令人驚嘆、最令人印象深刻的突破之一,并且是開(kāi)源的,是給世界的禮物。英偉達(dá)資深科學(xué)家、AI智能體業(yè)務(wù)負(fù)責(zé)人Jim Fan也對(duì)其給予了高度評(píng)價(jià)。另?yè)?jù)媒體報(bào)道,Meta(前身為 Facebook)員工在美國(guó)匿名職場(chǎng)社區(qū)Teamblind上發(fā)帖提到,DeepSeek最近的一系列動(dòng)作讓Meta的生成式AI團(tuán)隊(duì)陷入了恐慌,工程師正在瘋狂地分析DeepSeek,試圖從中復(fù)制任何可能的東西。來(lái)源:中國(guó)日?qǐng)?bào)雙語(yǔ)新聞