就在剛剛,OpenAI 迎來了年底 AI 春晚的收官之作。 這次發(fā)布的的 o3 系列模型是 o1 的迭代版本,考慮到可能與英國電信運營商 O2 存在版權(quán)或商標沖突,OpenAI 決定跳過「o2」命名,直接采用「o3」。 為此,OpenAI CEO Sam Altman 更是自嘲公司在模型命名方面的混亂,原來你也知道呀。 本次發(fā)布會由 Sam Altman、研究高級副總裁 Mark Chen 以及研究科學(xué)家 Hongyu Ren(任泓宇)主持。 值得注意的是,任泓宇本科畢業(yè)于北大,對 o1 有過基礎(chǔ)性貢獻,也是 GPT-4o 的核心開發(fā)者,曾在蘋果、微軟和英偉達有過豐富的研究實習(xí)經(jīng)歷。 o3 系列包含兩款重磅模型:
先別急著高興,因為 o3 系列目前并不會向普通用戶開放,OpenAI 計劃先開放外部安全測試申請,正式發(fā)布時間預(yù)計要到明年 1 月。 現(xiàn)在,感興趣的朋友可以提交申請: https://openai.com/index/early-access-for-safety-testing/ o3 性能大躍遷,死記硬背?不存在的o3 模型的「紙面參數(shù)」迎來了全方位提升。 首先在 SweepBench Verified 基準測試中, o3 達到了約 71.7% 的準確率,直接將 o1 模型甩在身后整整 20% 之多。 轉(zhuǎn)入編碼領(lǐng)域,o1 在編程競賽平臺 Codeforces 上的得分為 1891。而 o3 在開足馬力,延長思考時間的情況下,得分可達 2727。 作為參照,演示人員 Mark Chen 的得分也只有 2500,充分展現(xiàn)了 o3 模型已經(jīng)具備接近甚至超越人類專業(yè)程序員的實力。 在數(shù)學(xué)領(lǐng)域,o3 同樣表現(xiàn)出色。 在美國數(shù)學(xué)競賽 AIME 2024 測試中,o3 以 90.67% 的準確率完全碾壓了 o1 的 83.3%。 遇上衡量博士級科學(xué)問題解答能力的 GPQA Diamond 測試,o3 取得了 87.7% 的成績,而 o1 僅為 78%。 什么概念呢?要知道,就算是領(lǐng)域內(nèi)的博士專家,也往往只能在自己的專業(yè)范圍內(nèi)達到約 70% 的準確率。 面對當前基準測試接近滿分的情況,OpenAI 引入了一個全新的數(shù)學(xué)測試 EpochAI Frontier Math。 這被認為是當前最具挑戰(zhàn)性的數(shù)學(xué)評估之一,包含了極其復(fù)雜的問題。就連專業(yè)數(shù)學(xué)家解決單個問題也需要耗費數(shù)小時甚至數(shù)天。 目前,所有現(xiàn)有模型在該測試上的準確率都不足 2%,而在高算力的長時間測試下,o3 卻能取得超過 2457 的分數(shù)。 說到 AI 領(lǐng)域的圣杯 AGI,也就不得不提到 ARC-AGI 這個專門衡量 AGI 的基準測試。 ARC-AGI 是由 Keras 之父 Fran?ois Chollet 開發(fā),主要是通過圖形邏輯推理來測試模型的推理能力。 當演示人員向另一位演示人員 Mark Chen 提出即興問題時,后者準確指出了任務(wù)的要求:需要計算每個黃色方塊中彩色小方塊的數(shù)量,并據(jù)此生成相應(yīng)的邊框。 這些對人類來說再簡單不過的任務(wù),對 AI 來說卻是一道難題。 并且,ARC-AGI 的每個任務(wù)都需要不同的技能,且刻意避免重復(fù),完全杜絕了模型靠「死記硬背」取巧的可能,真正測試模型實時學(xué)習(xí)和應(yīng)用新技能的能力。 現(xiàn)在,o3 在低算力的配置下得分 75.7 分。當要求 o3 思考更長時間,并且提高算力,o3 在相同的隱藏保留集上得分 87.5%,遠超大多數(shù)真人。 OpenAI 的言外之意就是,o3 將讓我們離 AGI 更近一步。 o3 mini 重磅發(fā)布,速度更快,成本更低今年九月,OpenAI 發(fā)布了 o1 mini,具有很強的數(shù)學(xué)和編程能力,而且成本極低。 延續(xù)這一發(fā)展方向,今天推出的 o3 mini 也保留了上述特征。即日起,該模型僅向安全研究人員開放測試申請,截止日期為 1 月 10 日。 o3 mini 支持低、中、高三種推理時間模式。 用戶可根據(jù)任務(wù)復(fù)雜度靈活調(diào)整模型的思考時間。例如,復(fù)雜問題可選擇更長的思考時間,而簡單問題則可快速處理。 從首批評估結(jié)果來看,在衡量編程能力的 Codeforces Elo 評分中,隨著推理時間的增加,其 Elo 分數(shù)持續(xù)攀升,在中等推理時間下就已超越 o1 mini。 演示人員要求模型使用 Python 創(chuàng)建了一個代碼生成器和執(zhí)行器,該腳本可啟動服務(wù)器并創(chuàng)建本地用戶界面。用戶可在文本框中輸入代碼請求,系統(tǒng)會將請求發(fā)送至三種高級模式的 API,生成并執(zhí)行相應(yīng)代碼。 例如,當要求其生成一個包含 OpenAI 和隨機數(shù)的代碼時,o3 mini 的中等推理模式迅速完成了處理。 另外,它還能自己測試自己,比如說在 GPQA 數(shù)據(jù)集測試中,模型以低推理模式完成了復(fù)雜數(shù)據(jù)集的評估。 它下載原始文件,識別 CSS、答案和選項,整理問題并進行解答,最后進行評分,僅用一分鐘就完成了自我評估,準確率達到 61.62%。 在數(shù)學(xué)領(lǐng)域,o3 mini 同樣表現(xiàn)優(yōu)秀。 在 AIME 數(shù)學(xué)基準測試中,其低推理模式就達到了與 o1 mini 相當?shù)男阅?,中等推理模式更是超越?o1 mini,且延時更低。 另外,應(yīng)廣大開發(fā)者呼聲,o3 mini 模型也將全面支持函數(shù)調(diào)用、結(jié)構(gòu)化輸出和開發(fā)者指令等 API 功能。 現(xiàn)在,o3 mini 和 o3 的申請通道現(xiàn)已開放。o3 mini 預(yù)計將于 1 月向所有用戶推出,完整版 o3 則將在后續(xù)發(fā)布。 寫在最后,在這個為期 12 天的年末發(fā)布會上,OpenAI 終于祭出了壓箱底的殺手锏。 可以說,o3 模型的發(fā)布為這場一度陷入「高開低走」困境的發(fā)布會,畫上了一個意料之外卻又情理之中的圓滿句號。 短短不到 3 個月的時間,OpenAI 就完成了 o1 模型的迭代升級。 這種從 GPT 系列到 o 系列的轉(zhuǎn)型,顯然是 OpenAI 深思熟慮后的戰(zhàn)略選擇,而事后結(jié)果也證明這個決定是明智的。 不過,值得注意的是,微軟 CEO Satya Nadella 近期在一檔播客節(jié)目中表示,OpenAI 在 AI 領(lǐng)域領(lǐng)先競爭對手約兩年之久。 也正是這種相對寬松的競爭環(huán)境,使得 OpenAI 能夠?qū)W⒂陂_發(fā) ChatGPT。 然而,當前形勢攻守易形也。 Menlo Ventures 的報告顯示,ChatGPT 的市場份額被其他競爭對手逐漸蠶食,從 2023 年的 50% 下降到了 2024 年的 34%。 由「標配」淪為「可選項」,ChatGPT 的光環(huán)正在褪去。 這背后的原因顯而易見,OpenAI 的「護城河」正被短命狂奔的競爭對手們一寸寸填平。 來自 Artificial Analysis 的調(diào)研數(shù)據(jù)清晰顯示,Anthropic 和 Google 等廠商陸續(xù)開發(fā)出性能接近 GPT-4、OpenAI o1 等新模型。 并且,隨著 Scaling Law 觸及天花板,核心高管人才相繼離場,OpenAI 過往靠單個基礎(chǔ)模型贏得的紅利正在加速消退。 在動輒以天計的行業(yè)里,即便是今日發(fā)布的 o3 模型也很難再次創(chuàng)造長達 2 年的空窗期。 尤其是當 Grok-3 和 Claude 等新模型蓄勢待發(fā),留給 OpenAI 的時間或許已經(jīng)不多了。 醒醒,今年最好的 AI 廠商依舊是 OpenAI,但明年或許會因為不同的 AI 方向有無數(shù)種答案。 所幸,作為用戶的我們,都將是這場變局中最大的贏家。 #歡迎關(guān)注愛范兒官方微信公眾號:愛范兒(微信號:ifanr),更多精彩內(nèi)容第一時間為您奉上。 愛范兒|原文鏈接· ·新浪微博 |
19款電子扎帶
電路板識別電子標簽