2024年,硅谷的生成式AI大戰(zhàn)絲毫不比2023年遜色,只是這一年的AI戰(zhàn)爭更殘酷更直接: 巨頭們不但拼模型能力,還拼爆款產(chǎn)品,同時(shí)繼續(xù)投入數(shù)百億美元拼算力建數(shù)據(jù)中心;而幾家一年前還是明星項(xiàng)目的初創(chuàng)企業(yè)卻因?yàn)橘Y金燒光,直接被巨頭吞并。 在學(xué)術(shù)界,技術(shù)領(lǐng)袖們對AI的未來依然爭論不休、罵戰(zhàn)不斷:GPT5依然沒有蹤影,Scaling law甚至被認(rèn)為已經(jīng)遇阻“撞墻”。 然而2024年底,谷歌Gemini 2.0的發(fā)布,以及OpenAI一連12天發(fā)布更新,卻讓大家對2025年AI的進(jìn)展又有了一些新的期待... 這期內(nèi)容我們將回顧下生成式AI在硅谷的2024年有哪些drama,又有哪些實(shí)在的技術(shù)進(jìn)展和路線探索,以及2025年的AI會(huì)如何發(fā)展。 我們將結(jié)合與技術(shù)大佬的采訪聊天,從巨頭的AI布局路線、產(chǎn)品落地、隕落的明星公司和冉冉升起的新星們,以及業(yè)內(nèi)對2025年AI展望這幾條主線來展開,看看過去一年都發(fā)生了些什么。 01 OpenAI的宮斗與新技術(shù)路線Chapter 1.1 OpenAI宮斗落幕 OpenAI在2024年的drama并不少:2023年底的董事會(huì)風(fēng)波之后,2024年OpenAI的高層依然極度不穩(wěn)定,人才流動(dòng)性很大。 聯(lián)合創(chuàng)始人、首席科學(xué)家Ilya Sutskever在五月離職。之后他宣布創(chuàng)辦自己的初創(chuàng)公司Safe Superintelligence,快速融資了10億美元。 和Ilya一起離職的還有超級對齊團(tuán)隊(duì)的關(guān)鍵技術(shù)人物Jan Leike。之后在九月,CTO Mira Murati也宣布離職,有消息稱她正在為她新的初創(chuàng)公司融資。 OpenAI其它的高層變動(dòng)還有聯(lián)合創(chuàng)始人兼ChatGPT開發(fā)的核心領(lǐng)導(dǎo)者John Schulman——他于8月加入了對手公司Anthropic。 同時(shí),聯(lián)合創(chuàng)始人、前總裁Greg Brockman在休了三個(gè)月的長假之后回到了OpenAI。 至此,OpenAI當(dāng)初11位聯(lián)合創(chuàng)始人到如今已經(jīng)只剩下了Sam Altman,Greg Brockman及Wojciech Zaremba三位。 OpenAI用了一年的時(shí)間來處理高層之間的人際沖突,如今終于暫時(shí)穩(wěn)定了局面。壞消息是多數(shù)的創(chuàng)始成員都已經(jīng)離開,好消息是這場宮斗終于結(jié)束。 Sam Altman有了穩(wěn)定的權(quán)利,接下來或許可以更順利地推進(jìn)他想象中的AI發(fā)展方向,包括將OpenAI從非盈利組織變成贏利組織來更好融資,推出更多可以商業(yè)化的產(chǎn)品等。 如今OpenAI 已宣布轉(zhuǎn)型為公共利益公司(public benefit corporation)。 2024年10月,Sam Altman為OpenAI完成了新一輪66億美元的融資,公司估值來到1570億美元。但OpenAI燒錢之狠也是有目共睹的: 《紐約時(shí)報(bào)》獲得的融資文件顯示,OpenAI2024年預(yù)計(jì)收入達(dá)到37億美元,但預(yù)計(jì)虧損將達(dá)到50億美元,而2026年虧損可能會(huì)高達(dá)140億美元,這一估算還不包括給員工的股票激勵(lì)兌現(xiàn)。 雖然OpenAI承諾投資人收入在成倍增長,預(yù)計(jì)在2029年達(dá)到1000億美元,實(shí)現(xiàn)盈利,但按照這樣的燒錢進(jìn)度,OpenAI在2025年的兩大趨勢會(huì)是必然:第一是大規(guī)模融資;第二是更激進(jìn)的商業(yè)化。而這其實(shí)和2024年OpenAI的路線也是相同的。 2024年,OpenAI沒能如預(yù)期發(fā)布GPT5,這讓市場中不少人失望,但驚喜的是4o的多模態(tài)進(jìn)展。此外,o1和最近o3的發(fā)布讓人看到模型能力進(jìn)化的另外一種路線。 Chapter 1.2 o1與o3:AGI另一條路線 在2024年5月初,OpenAI發(fā)布多模態(tài)4o功能,正式與谷歌等競爭對手進(jìn)入AI多模態(tài)之戰(zhàn),可以實(shí)時(shí)對音頻、視覺和文本進(jìn)行推理。 事實(shí)證明,4o發(fā)布之后,特別是在免費(fèi)版本中提供有限的4o功能和4o-mini之后,ChatGPT的訂閱人數(shù)大幅上升,依然在2C領(lǐng)域上遠(yuǎn)超競爭對手。 2024年12月,ChatGPT的周活躍用戶已經(jīng)超過3億人。 在9月,OpenAI發(fā)布了另外一個(gè)讓業(yè)界驚喜的更新:o1。 簡單來說,o1學(xué)會(huì)了人類的“慢思考”,包括利用思維鏈(Chain of Thought,簡稱CoT)來進(jìn)行反復(fù)的思考、拆解、理解、推理,然后給出最終答案。這使得AI的推理能力在處理科學(xué)、編碼、數(shù)學(xué)及類似領(lǐng)域的復(fù)雜問題時(shí)有了飛躍的進(jìn)步。 o1這個(gè)內(nèi)部代號(hào)為“Strawberry”的強(qiáng)大模型更新,讓我們看到了在預(yù)訓(xùn)練上堆參數(shù)的“大力出奇跡”之外的、通過推理階段的算法突破找到一條新的通往AGI的道路。 我們在2024年硅谷華源科技年會(huì)上采訪了多位技術(shù)大牛,都非??春胦1的路線。 其中,OpenAI前安全研究副總裁Lilian Weng在2024華源科技年會(huì)上對硅谷101表示,o1的發(fā)布能將OpenAI所定義的“五層超級人工智能”,從最初級推進(jìn)到了更上一層級: “五層超級人工智能”分別是:對話conversational AI,推理reasoning AI,自主autonomous AI,創(chuàng)新innovating AI,組織organizational AI。
在o1發(fā)布之后,OpenAI年底的12 DAYs連續(xù)發(fā)布了。 不得不說Sam Altman是營銷的一把好手,這12天的的馬拉松式發(fā)布,開頭的時(shí)候搶了亞馬遜re:Invent發(fā)布AI功能的風(fēng)頭,期間也和谷歌的發(fā)布時(shí)間重疊,把媒體目光始終牢牢掌握在自己手中。 這12天的發(fā)布活動(dòng)中,除了前幾天的o1正式版、生成視頻模型Sora在歷經(jīng)10個(gè)月之后終于開放給公眾、以及集智能寫作、代碼寫作和定制化AI agent為一體的AI工作臺(tái)Canvas之外,其它的更新比如說ChatGPT Search升級、與蘋果Apple Intelligence的協(xié)作等等,看上去就非常不痛不癢,甚至感覺是在給12天的發(fā)布會(huì)湊數(shù)。 直到最后一天,OpenAI給出了一個(gè)王炸:o3。 o3是2024年9月發(fā)布的o1的下一版本,因?yàn)閛2涉及其它公司的版權(quán)商標(biāo)問題,所以O(shè)penAI直接把這個(gè)更新跳了一個(gè)數(shù)字。 o3在數(shù)個(gè)測試上的能力,無論是程序員編碼競賽(Codeforces)中超過99%的人類程序員,還是博士水平的科學(xué)問題(GPQA)已經(jīng)超過一般人類博士生,還是最難的前沿?cái)?shù)學(xué)測試,還是抽象推理能力基準(zhǔn)考試ARC-AGI,o3比o1的提升可以說是驚人的,而這個(gè)版本的更新僅僅用了三個(gè)月的時(shí)間。 這讓AI業(yè)界的不少人相信,OpenAI在o1和o3這個(gè)強(qiáng)化推理這個(gè)范式轉(zhuǎn)變是有效的,這讓擔(dān)心AI大模型已經(jīng)“撞墻”的人們稍微松了口氣:至少AI模型的發(fā)展還在推進(jìn)。 大家也能理解之前Sam Altman說的“there’s no wall”(墻不存在)的推文了。 有采訪嘉賓認(rèn)為,在2025年,預(yù)訓(xùn)練上的“拼參數(shù)”會(huì)持續(xù),但后訓(xùn)練的推理能力探索會(huì)同時(shí)進(jìn)行。這樣的“鐘擺”科技途徑發(fā)展,就像之前英特爾提出的Tick-Tock計(jì)劃一樣,會(huì)成為雙重并行的發(fā)展主旋律。
在2024年年底,OpenAI給整個(gè)產(chǎn)業(yè)送上了一份圣誕驚喜。雖然o1和o3非常昂貴,o1 pro的訂閱價(jià)格是每月200美元,而o3進(jìn)行一次低算力計(jì)算的成本高達(dá)20美元,高算力就更不用說了,要在現(xiàn)階段大規(guī)模商用幾乎是不可能的。 但這也給市場打了一針鎮(zhèn)定劑:AI發(fā)展并沒有放緩,而Scaling Law依然有效。算力成本會(huì)降低,而OpenAI在2025年會(huì)繼續(xù)按著卷參數(shù)以及卷推理算法的兩種并行路線去探索AI的下一步。 如果o3的路線能將我們帶到“五層超級人工智能”的第二層,那什么突破能將我們帶到再下一層自主autonomous AI呢?不知道OpenAI在2025年能否給我們這個(gè)答案。 接下來我們聊聊OpenAI目前最強(qiáng)勁的幾個(gè)對手,首先就是谷歌。 02 窮追不舍的谷歌:布局AI Agent2024年12月底,OpenAI進(jìn)行12日發(fā)布會(huì)期間,谷歌進(jìn)行了幾個(gè)重磅發(fā)布。如果OpenAI沒有壓軸的o3,年底的風(fēng)頭幾乎全都會(huì)被谷歌搶走。 谷歌首先在12月12日發(fā)布了多模態(tài)大模型Gemini的第二代Gemini 2.0,谷歌CEO Sundar Pichai在發(fā)布公告中表示,如果說Gemini 1.0是用于組織和理解信息,那么Gemini 2.0則是讓信息變得更有用。 怎么理解Pichai說得第二代Gemini能讓“信息變得更有用”呢?首先,Gemini2.0在多模態(tài)功能上更強(qiáng)大。 谷歌目前對外開放的新模型是Gemini 2.0 Flash,在響應(yīng)時(shí)間上比上一代的1.5 Flash性能更強(qiáng)、延遲性更低。在多模態(tài)上,2.0 Flash支持圖片、視頻和音頻的輸入以及多模態(tài)的輸出。 緊接著,12月16日,谷歌發(fā)布了新一代視頻模型Veo 2,非常驚艷,直接對打Sora。 細(xì)節(jié)我們不展開了,目前的結(jié)論是:Sora在最開始公開到最終對用戶發(fā)布的這10個(gè)月中,包括谷歌在內(nèi)的競爭對手已經(jīng)趕上來并在多模態(tài)能力上做得更強(qiáng)了。 12月20日,Google Brain團(tuán)隊(duì)負(fù)責(zé)人Jeff Dean宣布Gemini 2.0 Flash Thinking的推出——直接對標(biāo)OpenAI的o1路線,展現(xiàn)出谷歌內(nèi)部對思維鏈技術(shù)(CoT)的能力,并且Gemini 2.0 Flash Thinking的思考速度會(huì)比o1-mini要快。 最后,谷歌還強(qiáng)調(diào)了Gemini大模型系列對AI Agent的布局。 在2024年5月的谷歌I/O大會(huì)上,非常驚艷到我的項(xiàng)目“多模態(tài)虛擬助手Project Astra”,也有相當(dāng)?shù)倪M(jìn)展。 在Astra Gemini 2.0的demo中測試人員使用手機(jī)和AI來進(jìn)行實(shí)時(shí)交互,包括快速提示公寓大樓的安全密碼、隨時(shí)對公共交通路線進(jìn)行詢問等,人們也可以帶著智能眼鏡進(jìn)行更沉浸式的多模態(tài)交互。 我個(gè)人認(rèn)為,智能眼鏡在一些場景下比手機(jī)更適合作為agent入口的交互硬件,因?yàn)樗梢圆蹲饺藗兊哪抗?,作為音頻視頻和屏幕的呈現(xiàn)載體,而用戶也能得到7*24小時(shí)永遠(yuǎn)在線的體驗(yàn)。 所以失敗了多年的Google Glass是不是終于能活過來了呢?也許在2025年我們會(huì)有新的答案。 看得出來,Sundar Pichai非常重視Project Astra,認(rèn)為它“展示了通用AI助手的曙光”,而谷歌Gemini大模型依靠長文本的能力,能讓Project Astra記住長達(dá)10分鐘的會(huì)話內(nèi)容來提供個(gè)性化的服務(wù)。 同時(shí),借助Gemini 2.0,Project Astra可以使用Google Search、Google Lens和Google Maps ,從而真正讓一個(gè)AI agent在日常生活中發(fā)揮助手的作用。 雖然目前來看,這個(gè)項(xiàng)目還在比較早期的階段,如果我們看看之前提到的OpenAI定義的五個(gè)AI層級,Agent能自主行動(dòng)完成任務(wù)已經(jīng)是第三個(gè)層級了。 這也展現(xiàn)出谷歌對AI agent的押注,而這個(gè)賽道也被很多人認(rèn)為將在2025年是個(gè)極其火熱、面臨爆發(fā)的賽道。 對于谷歌來說,全力押注AI agent也很自然:如果谷歌最賺錢的產(chǎn)品,也就是“搜索”將會(huì)被AI交互顛覆,那么AI agent的入口、屏幕、交互、模型反饋都是谷歌必須要占據(jù)的領(lǐng)地。
Chapter 2.2 長文本能力:NotebookLM 在2024年,被谷歌卷起來且處于業(yè)界領(lǐng)先地位的還有它的“長文本”的能力,這個(gè)長文本能力指的是讓大模型理解超長的上下文。而基于這個(gè)能力,谷歌在2024年也衍生出了一些爆款A(yù)I產(chǎn)品,包括NotebookLM。 2024年2月15日,谷歌的Gemini 1.5 Pro把長文本能力卷到100萬tokens; 5月,谷歌宣布更是將長文本能力翻了一倍到200萬tokens。 同時(shí),谷歌新發(fā)布的論文,描述了一種新的注意力技術(shù)“inifini-attention”(無限注意力),能使Tranformer大模型在有限算力情況下處理無限長度的輸入。
在這樣的長文本技術(shù)下,谷歌2024年的一個(gè)爆款應(yīng)用名為NoteBookLM。 NotebookLM是基于Gemini 1.5 Pro的長文本理解和多模態(tài)能力而衍生出的筆記管理工具,一推出就迅速獲得了眾多硅谷科技大佬們的盛贊,包括Andrej Karpathy、Sam Altman,都公開為這個(gè)產(chǎn)品站臺(tái)。 NotebookLM最驚艷、出圈的功能之一是音頻概覽,也可以被稱之為AI播客。 有谷歌的Gemini底座大模型的多模態(tài)和長文本能力支撐,NotebookLM的AI播客功能可以將文檔、視頻或者音頻總結(jié)生成一男一女對話的方式,讓用戶用“聽內(nèi)容”的方式獲取信息,在播客podcast這種媒體形式無比流行的硅谷形成了病毒式傳播的現(xiàn)象級別產(chǎn)品。 雖然回答的內(nèi)容比較淺顯,交互也比較像相聲中的捧哏,但NotebookLM在對內(nèi)容的抓點(diǎn)和總結(jié)能力是非常精準(zhǔn)的,生成的兩位AI主播的對話也非常自然流暢,AI感很低,我也大概能感受到這個(gè)產(chǎn)品之后的潛力還是會(huì)非常大。 12月中旬,谷歌發(fā)布NotebookLM Plus,新加入audio overview功能、允許用戶在播客中間打斷AI主播,提出建議或問題進(jìn)行交互,同時(shí)用戶還可以自定義播客風(fēng)格和主題。 NotebookLM之前的核心團(tuán)隊(duì)負(fù)責(zé)人Raiza Martin,設(shè)計(jì)師Jason Spielman和核心工程師Stephen Hughes已經(jīng)從谷歌辭職出來自己創(chuàng)業(yè)。 外界猜測他們會(huì)自己重新做一個(gè)NotebookLM的產(chǎn)品用于更好的商業(yè)化,但很有趣的是,有的VC投資人并不看好這個(gè)項(xiàng)目。
總的來說,谷歌Deepmind和Google Brain當(dāng)中人才密度不會(huì)亞于OpenAI,技術(shù)也不會(huì)落后太多,但2024年谷歌依然是一個(gè)“追趕者”的姿態(tài)。 究其根本,OpenAI的商業(yè)模式是一個(gè)大模型提供方,所以一定要保證模型的領(lǐng)先性,但谷歌是完全不同的商業(yè)模式,它的首要任務(wù)是保證技術(shù)不落后且當(dāng)谷歌搜索被AI顛覆時(shí),自己是準(zhǔn)備好的。 所以在多模態(tài)的AI第二輪大戰(zhàn)中,OpenAI是進(jìn)攻者,而谷歌依然是防御者,下一場硬仗無論是第二層的reasoning,還是第三層的autonomous AI agent,2025年都會(huì)非常精彩。 接下來我們再來說說其它幾個(gè)主要大玩家。 03 Anthropic:受開發(fā)者歡迎卻不敵OpenAIAnthropic是OpenAI除了谷歌之外的最在意的競爭對手了,與谷歌不太一樣的是,Anthropic作為大模型的提供方,是OpenAI直接的競爭對手。 2024年在融資上,Anthropic從亞馬遜獲得了新一輪40億美元的融資,使得公司估值達(dá)到400億美元。 產(chǎn)品更新上,10月22日,Anthropic發(fā)布Claude3.5 Haiku,同時(shí)升級了Claude 3.5 Sonnet。 從外界反饋來看,Anthropic的模型在技術(shù)上是非常強(qiáng)的,特別是Claude在編碼任務(wù)中表現(xiàn)出色,尤其是在復(fù)雜代碼生成和解決方案自動(dòng)化方面,非常受到工程師們的推崇。 Anthropic的商業(yè)模式目前更2B和2D,對企業(yè)和開發(fā)者群體更受歡迎,但2C方面就不太理想了。 12月底,Anthropic從用戶與Claude的對話中隨機(jī)選取了100萬條,進(jìn)行分析和總結(jié)后發(fā)現(xiàn),用戶在Claude.ai上的主要使用場景排在第一位的,是網(wǎng)頁和移動(dòng)應(yīng)用開發(fā),占比為10.4%。 這是因?yàn)楸澈蟮能浖_發(fā)人員主要利用Claude執(zhí)行調(diào)試代碼、解釋Git操作及概念等任務(wù)。 很多開發(fā)人員認(rèn)為,Claude 3.5 Sonnet會(huì)非常適合需要深度理解和復(fù)雜推理的應(yīng)用程序,而OpenAI的模型對于較簡單的任務(wù)可能更具成本效益。 而Claude AI的2C聊天機(jī)器人,在iOS和安卓移動(dòng)應(yīng)用程序上收入100萬美元的里程碑,用了整整16周,而這個(gè)門檻OpenAI的ChatGPT用了三周就達(dá)到了。雖然快于微軟的Copilot和Perplexity,但距離OpenAI仍然有很大距離。 之前媒體的報(bào)道說,Anthropic在2024年的收入會(huì)超過10億美元,比之前預(yù)測的要高很多,說明市場還是非常買賬Anthropic的模型能力,特別是最近他們又挖了很多OpenAI的核心人員過去。 看上去,這個(gè)OpenAI的最大競爭對手在2025年會(huì)繼續(xù)在2B和2D領(lǐng)域上發(fā)力,而對2C消費(fèi)者端來看,暫時(shí)不會(huì)對OpenAI和谷歌帶來太大的威脅。 我們再來說說馬斯克的xAI。 04 xAI:入局雖晚但萬事俱備xAI在2024年做了三件大事:搞定了算力、搞定了融資、開源了自己的大模型。 如果還有其它順便的事,就是馬斯克數(shù)次把OpenAI告上了法庭。 12月24日,馬斯克旗下的xAI宣布完成60億美元的C輪融資。英偉達(dá),AMD,a16z,紅衫等公司和機(jī)構(gòu)參與,也表明業(yè)界對xAI的潛力的看好。 要知道在半年之前的2024年5月,xAI剛完成60億美元的B輪融資,足以說明馬斯克的融資能力。 除了錢之外,馬斯克還是第一個(gè)搞定大規(guī)模算力集群的:2024年,xAI位于美國田納西州孟菲斯市的數(shù)據(jù)中心正式投入使用,歷時(shí)122天建成創(chuàng)下紀(jì)錄。 這個(gè)名為“巨人”(Colossus)的數(shù)據(jù)中心里面部署了英偉達(dá)的10萬塊GPU芯片,成為全球開發(fā)和運(yùn)行人工智能技術(shù)的規(guī)模最大、算力最強(qiáng)的芯片集群之一。而馬斯克說以后還有計(jì)劃繼續(xù)拓展到20萬塊GPU的規(guī)模。 在大模型上發(fā)布上,Grok的速度其實(shí)是要比競爭對手慢一些的。在8月中旬,xAI發(fā)布了Grok-2和Grok-2mini兩款A(yù)I模型的測試版,比此前發(fā)布的Grok-1.5有了非常大的進(jìn)步。 10月,xAI發(fā)布了首個(gè)應(yīng)用程序編程接口(API)。目前,xAI API只有一個(gè)模型,稱為“Grok-beta”。 其實(shí)xAI雖然入局晚了些,但優(yōu)勢還是非常多的:除了上面我們說到的算力和融資之外,xAI還有社交網(wǎng)絡(luò)X和特斯拉的獨(dú)家數(shù)據(jù),以及機(jī)器人Optimus等項(xiàng)目的結(jié)合潛力。 相當(dāng)一段時(shí)間以來,Grok的聊天機(jī)器人只向馬斯克旗下的“X”用戶提供,但在2025年很可能馬斯克會(huì)全面開放Grok。 除了iOS程序在測試之外,網(wǎng)頁版Grok.com也已經(jīng)準(zhǔn)備就緒,寫著coming soon(準(zhǔn)備就緒),感覺2025年xAI會(huì)正式加入戰(zhàn)局。 馬斯克也在X上說,Grok3很快會(huì)發(fā)布,并且將是一次重大飛躍,我們也拭目以待。 05 Meta:大獲全勝或一無所有接下來我們說一下臉書(Facebook),這家公司在2024年挺有意思。 除了創(chuàng)始人扎克伯格最近的突變形象和婚姻八卦之外,臉書毫無疑問是2024年的科技大贏家之一:單從股價(jià)就能看出來,2024年漲了70%左右,Meta的員工們應(yīng)該都很開心。 雖然Meta不像OpenAI和谷歌那么在大模型前線廝殺,但Meta的策略也非常的明朗:在AI研發(fā)上不掉隊(duì),且布局下一代的AI應(yīng)用,結(jié)合在硬件、社交媒體以及廣告中。 在大模型方面,臉書在2024年持續(xù)更新Llama開源模型。12月6日,Meta發(fā)布新款Llama開源模型:70億參數(shù)的Llama 3.3、又稱Llama 3.3 70B。扎克伯格說,下一步就是明年Llama 4的亮相。 Llama 3.3能實(shí)現(xiàn)與2024年7月發(fā)布的4050億參數(shù)的Llama 3.1同樣的性能,但成本比后者更低。Llama 3.1是迄今為止最大的Llama開源模型,直接對標(biāo)Anthropic的Claude 3.5 Sonnet和OpenAI的GPT-4o。 除了在大語言模型上的進(jìn)展外,Meta也一直在探索除了“大語言模型”(LLM)之外的其它AI路徑:2024年12月11日,Meta新發(fā)布了Large Concept Model(LCM),翻譯過來是“大型概念模型”。 它和LLM大語言模型逐字預(yù)測不同,LCM的概念是能直接在高緯度語意空間中運(yùn)算,就像人類思考的方式,并不是一個(gè)字一個(gè)字地去思考,而是以”概念“和”意義“為單位。所以LCM是Meta完全突破LLM架構(gòu)的一個(gè)創(chuàng)新的嘗試。 目前Meta表示這大幅度提升了AI在多語言和長篇內(nèi)容處理上的效能,但處理的效果和準(zhǔn)確度依然需要提升和改進(jìn),所以LCM是否是比LLM更好的一種范式,我們拭目以待。 另外,由于Meta 2024年在智能眼鏡上的嘗試成功,以及旗下Facebook、 WhatsApp、 Instagram、Messenger、Threads等龐大的用戶群體,還有AI和廣告結(jié)合的前景,市場非??春肕eta如今在AI大戰(zhàn)中的位置。 Jefferies的分析師甚至將Meta選為步入2025年生成式人工智能的“贏家”。不少二級市場的報(bào)告認(rèn)為,Meta下一代與AI結(jié)合的Orion AR眼鏡將成為新一代硬件入口,Meta在2024年推出的Ray-Ban Meta很初步的將AI功能引入其中,受到市場好評。 可能在2025年,下一代智能眼鏡上Meta就會(huì)引入屏幕顯示,屆時(shí)就會(huì)釋放出更強(qiáng)大的AI交互功能。 說到智能硬件,蘋果在2024年發(fā)布了Apple Intelligence三件套,我們之前有詳細(xì)聊過,但因?yàn)槎藗?cè)模型和agent的發(fā)展可能還沒有到能讓硬件產(chǎn)業(yè)與AI結(jié)合得特別好的程度,蘋果在AI進(jìn)展并不大。 很多人認(rèn)為蘋果最終還是要自己開發(fā)底座大模型,不能完全靠接入OpenAI的ChatGPT,而等硬件與AI結(jié)合的那一天,就是手機(jī)與智能眼鏡的市場大戰(zhàn)了,目前押注得最大的Meta和蘋果將終有一戰(zhàn)。 說回Meta的其它AI產(chǎn)品布局:在AI Chatbot方面,Meta旗下的幾款王牌社交媒體都已經(jīng)不同程度的引入了AI對話框,扎克伯格也在12月表示,Meta的AI數(shù)字助理“每個(gè)月有將近6億的活躍用戶”。 因?yàn)镸eta不提供獨(dú)立的AI應(yīng)用,所以新聞或者業(yè)界一般不將Meta的Chatbot直接與ChatGPT或者Claude去做直接對比,但就這些活躍用戶的基數(shù)而言,Meta的AI產(chǎn)品是有很大優(yōu)勢的。 而最后一點(diǎn)就是AI在廣告上的應(yīng)用潛力。Meta在12月表示,目前超過100萬的廣告商在使用Meta的GenAI工具,他們在一個(gè)月之內(nèi)制作了超過1500萬條廣告。 雖然目前AI生成的素材還沒有那么精致,但無論是從廣告標(biāo)題和文案的多個(gè)版本,還是自動(dòng)調(diào)整廣告大小,還是利用文生圖、文生視頻和文生音樂更高效的制作廣告,AI都有非常大的潛力。 同時(shí),也有分析認(rèn)為,Meta可能會(huì)在自家的開源模型Llama上進(jìn)一步開發(fā)出企業(yè)級客戶服務(wù)的業(yè)務(wù),也將會(huì)是一塊很大的蛋糕。 在2024年,小扎非常積極的出現(xiàn)在各個(gè)媒體采訪中,一遍又一遍闡述著Meta的未來,不再是單純的Metaverse,而是新一代的AI交互,一個(gè)融合了AI,混合現(xiàn)實(shí)和元宇宙的未來。 2024年9月,開始在形象和穿搭上大轉(zhuǎn)型的扎克伯格穿了一件T-shirt,上面寫著“Aut Zuck Aut Nihil”,這個(gè)細(xì)節(jié)被媒體捕捉到。 這個(gè)短語是拉丁短語“Aut Caesar Aut Nihil”的變形,意思是“要么是凱撒,要么什么都不是”;而扎克伯格的“Aut Zuck Aut Nihil”似乎是在宣戰(zhàn):要么贏所有,要么一無所有,All or Nothing。 06 “大而全”的亞馬遜最后幾家科技巨頭中,再說說亞馬遜。亞馬遜的路線和其它幾家都不太一樣,采取的是一個(gè)賣鏟子生意的模式。 他不拼模型、拼算力、拼芯片,雖然各方面都有自研的產(chǎn)品,但把他們整合在一起,再加上市面上所有的好東西,打個(gè)包賣給客戶們,幫甲方降本增效,做好2B的生意,也是非常聰明的做法了。 在12月召開的亞馬遜云科技re:Invent大會(huì)上,亞馬遜的最新策略非常清楚: 第一,不但有自研芯片的集群,也有與英偉達(dá)芯片合作的算力運(yùn)行中心; 第二,不光提供滿足萬億參數(shù)大模型訓(xùn)練和推理需求的自研芯片產(chǎn)品,包括與Anthropic綁定合作的十萬張亞馬遜Trainium自研芯片AI計(jì)算集群,還有為中小企業(yè)和初創(chuàng)公司提供能降本增效的服務(wù)與技術(shù); 第三,除了亞馬遜最新的自研模型Nova系列,各種純文本、多模態(tài)大模型都有,同時(shí)在亞馬遜Bedrock上還提供上百種市面上最受歡迎的模型選擇給客戶挑選; 第四,在自己的三層AI架構(gòu)上加入各種模型蒸餾、解決AI幻覺、安全技術(shù)等服務(wù)。 對于很多需要用到AI的初創(chuàng)公司,要算力并不一定需要自己買卡,要用模型并不一定要自己訓(xùn)練。就像需要蘿卜青菜也并不需要自己去務(wù)農(nóng)種菜,可以去超市直接買,就看最終的成本賬能否算得過來了。 這也顯示出,亞馬遜押注2025年市場對算力的需求只增不減。而隨著需求逐漸從訓(xùn)練轉(zhuǎn)移到inferencing推理,算力市場的更多創(chuàng)新服務(wù)以及基建會(huì)進(jìn)一步完備。 除了亞馬遜云科技,芯片公司本身,像英偉達(dá),AMD,英特爾等芯片公司本身,以及上下游的電力公司以及數(shù)據(jù)中心服務(wù)公司也會(huì)繼續(xù)是市場關(guān)注的焦點(diǎn)。 接下來再總結(jié)一下2024年那些隕落的硅谷明星初創(chuàng)企業(yè)們以及冉冉升起的明星公司。 07 隕落的明星初創(chuàng)企業(yè)們2024年,有三家硅谷明星初創(chuàng)企業(yè)迅速跌下神壇。 第一家是Character.ai,成立于2021年,利用大模型生成各種人物和角色風(fēng)格的對話。 2023年5月,Character.AI在蘋果App Store和Google Play Store發(fā)布了移動(dòng)應(yīng)用程序,第一周下載量就超過170萬次,并被Google Play評為2023年度最佳AI應(yīng)用。 然而,2024年年初,公司被頻頻爆出融資困難,商業(yè)化不順利,開始尋求收購。 2024年8月,Character.AI宣布,谷歌已經(jīng)同意向Character.AI支付模型授權(quán)費(fèi),并將讓Character.AI聯(lián)合創(chuàng)始人兼CEO Noam Shazeer、總裁Daniel De Freitas、以及30名Character從事模型訓(xùn)練和語音AI工作的員工,加入谷歌參與Gemini AI項(xiàng)目,谷歌為此支付的價(jià)格是25億美元。 另外一家公司是Inflection.ai,這家公司做大模型,上面疊加“個(gè)人AI伴侶”用途的聊天機(jī)器人Pi,主打情感陪伴市場。 一度市場對inflection.ai的模型技術(shù)非常認(rèn)可,但也是因?yàn)榇竽P瓦^于燒錢而資金鏈沒有跟上。 2024年3月,微軟挖角了Inflection 的創(chuàng)始人和幾乎所有員工,成立了一個(gè)新的消費(fèi)者AI部門,并支付了約6.5億美元購買其技術(shù)許可。 最后一家公司是Adept,也是Transformer原作者出來創(chuàng)業(yè)的豪華創(chuàng)始團(tuán)隊(duì)。 2024年6月,亞馬遜與AI agent公司Adept達(dá)成協(xié)議,雇傭這家初創(chuàng)公司的大部分員工,并支付約3.3億美元以授權(quán)其技術(shù)。 這三家公司的“變相收購案”也在成為硅谷科技巨頭拓展AI版圖的新模式:既避開壟斷監(jiān)管,又能收人才收技術(shù)。 不過這三家公司一個(gè)共同點(diǎn):都同時(shí)在發(fā)展底座大模型和做產(chǎn)品,但這樣的路線被證明太過于燒錢,模型太難以持續(xù)。 這就讓我想到前面說到NotebookLM團(tuán)隊(duì)的人出來自己創(chuàng)業(yè),被投資人認(rèn)為沒有底座模型的能力、只能調(diào)用谷歌Gemini的API,所以不被看好。 做大模型吧,太燒錢;不做大模型吧,沒有技術(shù)壁壘和護(hù)城河。這么一看,AI時(shí)代的創(chuàng)業(yè)真的太難了。
08 “當(dāng)紅炸子雞”項(xiàng)目Chapter 8.1 Perplexity 再總結(jié)一下2025年被認(rèn)為是冉冉上升的明星AI項(xiàng)目。 首先是前面Jonathan提到的Perplexity:2024年年底,公司完成了新一輪5億美元的融資,估值達(dá)到90億美元。 這家公司成立于2022年,可以說重新定義了全球第一個(gè)對話式AI搜索引擎,月活躍用戶已經(jīng)達(dá)到1500萬人次,日活躍用戶200萬人,連英偉達(dá)創(chuàng)始人黃仁勛也為它站臺(tái),稱每天都會(huì)使用。 Perplexity的聰明之處在于,自己不訓(xùn)練模型,而是使用多種大型語言模型,包括GPT、Claude、LLAMA、Mixtral等,以及來自多個(gè)搜索引擎的排名信號(hào)和第三方數(shù)據(jù)提供商的數(shù)據(jù)。 它的核心競爭力在于檢索、排序和編排的數(shù)據(jù)整合能力,以及答案生成能力。 但隨著AI搜索市場的競爭日益激烈,像OpenAI已經(jīng)推出了SearchGPT,谷歌也會(huì)在AI搜索上跟進(jìn),Perplexity在2025年會(huì)遭遇更激烈的競爭。商業(yè)變現(xiàn)方面,除了付費(fèi)版本之外,公司已經(jīng)計(jì)劃引入廣告,這會(huì)如何重新定義AI搜索的模式呢?我們也拭目以待。 Chapter 8.2 Physical Intelligence 2024年,硅谷還有另外一家公司非常受人矚目:Physical Intelligence。 我最開始聽到這家公司是從OpenAI聯(lián)合創(chuàng)始人以及特斯拉FSD前負(fù)責(zé)人Andrej Karpathy的口中。 他曾在一個(gè)小型的聚會(huì)上分享說,有很多項(xiàng)目找他投資,他答應(yīng)的原因只是為了幫助朋友,畢竟他的名字在天使投資人的那一欄能幫很多項(xiàng)目更容易拿到投資。但為數(shù)不多的他真心想投資且看好的項(xiàng)目,就當(dāng)屬Physical Intelligence了。 這家公司通過AI模型為機(jī)器人打造“大腦”,在2024年11月完成新一輪4億美元的融資,估值來到20億美元,投資者包括亞馬遜創(chuàng)始人貝佐斯還有OpenAI。 同時(shí),在11月初,Physical Intelligence發(fā)布了首個(gè)通用基礎(chǔ)模型π0,也被是認(rèn)為具身智能發(fā)展上的重要一步。 Physical Intelligence表示,π0將使得機(jī)器人變得更容易編程和使用,使其能夠更高效地執(zhí)行多樣任務(wù)。 目前,Physical Intelligence的π0模型已經(jīng)能夠執(zhí)行一些簡單的多任務(wù),如折疊衣物、組裝盒子、動(dòng)態(tài)地將物品放入容器等。
具身智能以及AI機(jī)器人模型還在非常早的階段,因?yàn)閿?shù)據(jù)和算法都是挑戰(zhàn),但相信在2025年會(huì)有新的進(jìn)展。 同時(shí),斯坦福的機(jī)器人中心在2024年開業(yè)了,我也去參加了開業(yè)儀式,有機(jī)會(huì)我們?nèi)ツ抢锊稍L一下跟大家分享最新的項(xiàng)目和有意思的進(jìn)展。 09 2025年的未來由于篇幅原因,還有很多科技巨頭的進(jìn)展、初創(chuàng)企業(yè)和新趨勢我們沒辦法一一列舉,包括AI視頻生成的初創(chuàng)公司Pika和Luma,音樂生成初創(chuàng)公司Suno,最近很火的AI編程應(yīng)用Cursor和Devin,李飛飛博士的World Labs、該有2025年初引起一片震撼的DeepSeek等,之后有機(jī)會(huì)我們詳細(xì)做成單獨(dú)選題來聊。 總的來說,2024年的硅谷非常精彩,有混亂,有質(zhì)疑,有倒閉收購,也有為了AGI信仰繼續(xù)戰(zhàn)斗的科技從業(yè)者們。 雖然2024年出現(xiàn)了o1、o3的路線,但更大模型、更強(qiáng)的能力依然是被市場所期待的。
在硅谷的AI生態(tài)中,已經(jīng)衍生出了多個(gè)派系:有更大的模型、大模型衍生出的垂直模型、不信仰Transformer而在探索其它通往AGI路徑的研究者,同時(shí)也有應(yīng)用、硬件、agent智能體、機(jī)器人、無人駕駛,還有“賣鏟子”的英偉達(dá)、數(shù)據(jù)中心、電力上下游等等,這些生態(tài)在2024年得到了進(jìn)一步的鞏固與布局,而在2025年,我們會(huì)看到更多技術(shù)的進(jìn)展。 當(dāng)然,硅谷只是AI發(fā)展的其中一個(gè)主力戰(zhàn)場,全球其它市場的AI也有非??焖俚陌l(fā)展,今天我們只是稍微總結(jié)了一些硅谷的情況,也歡迎大家給我們留言最值得提的公司,技術(shù)或者事件,這對我們團(tuán)隊(duì)更進(jìn)一步探索AI產(chǎn)業(yè)非常有幫助。 2025年,我們會(huì)在硅谷繼續(xù)為您帶來更多的AI前沿分析。 |
19款電子扎帶
電路板識(shí)別電子標(biāo)簽