請登錄后使用快捷導(dǎo)航
沒有賬號？立即注冊

快捷導(dǎo)航

D-Think | 東遠科技-廣州東遠智能科技有限公司- › 首頁 ›資訊› 科技頭條 › 查看內(nèi)容

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

2024-12-21 11:30| 發(fā)布者: admin| 查看: 134| 評論: 0

摘要: 就在剛剛，OpenAI 迎來了年底 AI 春晚的收官之作。這次發(fā)布的的 o3 系列模型是 o1 的迭代版本，考慮到可能與英國電信運營商 O2 存在版權(quán)或商標沖突，OpenAI 決定跳過「o2」命名，直接采用「o3」。為此，OpenAI CEO S ...

就在剛剛，OpenAI 迎來了年底 AI 春晚的收官之作。

這次發(fā)布的的 o3 系列模型是 o1 的迭代版本，考慮到可能與英國電信運營商 O2 存在版權(quán)或商標沖突，OpenAI 決定跳過「o2」命名，直接采用「o3」。

為此，OpenAI CEO Sam Altman 更是自嘲公司在模型命名方面的混亂，原來你也知道呀。

本次發(fā)布會由 Sam Altman、研究高級副總裁 Mark Chen 以及研究科學(xué)家 Hongyu Ren（任泓宇）主持。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

值得注意的是，任泓宇本科畢業(yè)于北大，對 o1 有過基礎(chǔ)性貢獻，也是 GPT-4o 的核心開發(fā)者，曾在蘋果、微軟和英偉達有過豐富的研究實習(xí)經(jīng)歷。

o3 系列包含兩款重磅模型：

OpenAI o3：旗艦版本，具備強大的性能表現(xiàn)
OpenAI o3 mini：輕量級模型，但能更快，更便宜，主打性價比

先別急著高興，因為 o3 系列目前并不會向普通用戶開放，OpenAI 計劃先開放外部安全測試申請，正式發(fā)布時間預(yù)計要到明年 1 月。

現(xiàn)在，感興趣的朋友可以提交申請： https://openai.com/index/early-access-for-safety-testing/

o3 性能大躍遷，死記硬背？不存在的

o3 模型的「紙面參數(shù)」迎來了全方位提升。

首先在 SweepBench Verified 基準測試中， o3 達到了約 71.7% 的準確率，直接將 o1 模型甩在身后整整 20% 之多。

轉(zhuǎn)入編碼領(lǐng)域，o1 在編程競賽平臺 Codeforces 上的得分為 1891。而 o3 在開足馬力，延長思考時間的情況下，得分可達 2727。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

作為參照，演示人員 Mark Chen 的得分也只有 2500，充分展現(xiàn)了 o3 模型已經(jīng)具備接近甚至超越人類專業(yè)程序員的實力。

在數(shù)學(xué)領(lǐng)域，o3 同樣表現(xiàn)出色。

在美國數(shù)學(xué)競賽 AIME 2024 測試中，o3 以 90.67% 的準確率完全碾壓了 o1 的 83.3%。

遇上衡量博士級科學(xué)問題解答能力的 GPQA Diamond 測試，o3 取得了 87.7% 的成績，而 o1 僅為 78%。

什么概念呢？要知道，就算是領(lǐng)域內(nèi)的博士專家，也往往只能在自己的專業(yè)范圍內(nèi)達到約 70% 的準確率。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

面對當前基準測試接近滿分的情況，OpenAI 引入了一個全新的數(shù)學(xué)測試 EpochAI Frontier Math。

這被認為是當前最具挑戰(zhàn)性的數(shù)學(xué)評估之一，包含了極其復(fù)雜的問題。就連專業(yè)數(shù)學(xué)家解決單個問題也需要耗費數(shù)小時甚至數(shù)天。

目前，所有現(xiàn)有模型在該測試上的準確率都不足 2%，而在高算力的長時間測試下，o3 卻能取得超過 2457 的分數(shù)。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

說到 AI 領(lǐng)域的圣杯 AGI，也就不得不提到 ARC-AGI 這個專門衡量 AGI 的基準測試。

ARC-AGI 是由 Keras 之父 Fran?ois Chollet 開發(fā)，主要是通過圖形邏輯推理來測試模型的推理能力。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

當演示人員向另一位演示人員 Mark Chen 提出即興問題時，后者準確指出了任務(wù)的要求：需要計算每個黃色方塊中彩色小方塊的數(shù)量，并據(jù)此生成相應(yīng)的邊框。

這些對人類來說再簡單不過的任務(wù)，對 AI 來說卻是一道難題。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

并且，ARC-AGI 的每個任務(wù)都需要不同的技能，且刻意避免重復(fù)，完全杜絕了模型靠「死記硬背」取巧的可能，真正測試模型實時學(xué)習(xí)和應(yīng)用新技能的能力。

現(xiàn)在，o3 在低算力的配置下得分 75.7 分。當要求 o3 思考更長時間，并且提高算力，o3 在相同的隱藏保留集上得分 87.5%，遠超大多數(shù)真人。

OpenAI 的言外之意就是，o3 將讓我們離 AGI 更近一步。

o3 mini 重磅發(fā)布，速度更快，成本更低

今年九月，OpenAI 發(fā)布了 o1 mini，具有很強的數(shù)學(xué)和編程能力，而且成本極低。

延續(xù)這一發(fā)展方向，今天推出的 o3 mini 也保留了上述特征。即日起，該模型僅向安全研究人員開放測試申請，截止日期為 1 月 10 日。

o3 mini 支持低、中、高三種推理時間模式。

用戶可根據(jù)任務(wù)復(fù)雜度靈活調(diào)整模型的思考時間。例如，復(fù)雜問題可選擇更長的思考時間，而簡單問題則可快速處理。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

從首批評估結(jié)果來看，在衡量編程能力的 Codeforces Elo 評分中，隨著推理時間的增加，其 Elo 分數(shù)持續(xù)攀升，在中等推理時間下就已超越 o1 mini。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

演示人員要求模型使用 Python 創(chuàng)建了一個代碼生成器和執(zhí)行器，該腳本可啟動服務(wù)器并創(chuàng)建本地用戶界面。用戶可在文本框中輸入代碼請求，系統(tǒng)會將請求發(fā)送至三種高級模式的 API，生成并執(zhí)行相應(yīng)代碼。

例如，當要求其生成一個包含 OpenAI 和隨機數(shù)的代碼時，o3 mini 的中等推理模式迅速完成了處理。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

另外，它還能自己測試自己，比如說在 GPQA 數(shù)據(jù)集測試中，模型以低推理模式完成了復(fù)雜數(shù)據(jù)集的評估。

它下載原始文件，識別 CSS、答案和選項，整理問題并進行解答，最后進行評分，僅用一分鐘就完成了自我評估，準確率達到 61.62%。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

在數(shù)學(xué)領(lǐng)域，o3 mini 同樣表現(xiàn)優(yōu)秀。

在 AIME 數(shù)學(xué)基準測試中，其低推理模式就達到了與 o1 mini 相當?shù)男阅?，中等推理模式更是超越?o1 mini，且延時更低。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

另外，應(yīng)廣大開發(fā)者呼聲，o3 mini 模型也將全面支持函數(shù)調(diào)用、結(jié)構(gòu)化輸出和開發(fā)者指令等 API 功能。

現(xiàn)在，o3 mini 和 o3 的申請通道現(xiàn)已開放。o3 mini 預(yù)計將于 1 月向所有用戶推出，完整版 o3 則將在后續(xù)發(fā)布。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

寫在最后，在這個為期 12 天的年末發(fā)布會上，OpenAI 終于祭出了壓箱底的殺手锏。

可以說，o3 模型的發(fā)布為這場一度陷入「高開低走」困境的發(fā)布會，畫上了一個意料之外卻又情理之中的圓滿句號。

短短不到 3 個月的時間，OpenAI 就完成了 o1 模型的迭代升級。

這種從 GPT 系列到 o 系列的轉(zhuǎn)型，顯然是 OpenAI 深思熟慮后的戰(zhàn)略選擇，而事后結(jié)果也證明這個決定是明智的。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

不過，值得注意的是，微軟 CEO Satya Nadella 近期在一檔播客節(jié)目中表示，OpenAI 在 AI 領(lǐng)域領(lǐng)先競爭對手約兩年之久。

也正是這種相對寬松的競爭環(huán)境，使得 OpenAI 能夠?qū)Ｗ⒂陂_發(fā) ChatGPT。

然而，當前形勢攻守易形也。

Menlo Ventures 的報告顯示，ChatGPT 的市場份額被其他競爭對手逐漸蠶食，從 2023 年的 50% 下降到了 2024 年的 34%。由「標配」淪為「可選項」，ChatGPT 的光環(huán)正在褪去。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

這背后的原因顯而易見，OpenAI 的「護城河」正被短命狂奔的競爭對手們一寸寸填平。

來自 Artificial Analysis 的調(diào)研數(shù)據(jù)清晰顯示，Anthropic 和 Google 等廠商陸續(xù)開發(fā)出性能接近 GPT-4、OpenAI o1 等新模型。

并且，隨著 Scaling Law 觸及天花板，核心高管人才相繼離場，OpenAI 過往靠單個基礎(chǔ)模型贏得的紅利正在加速消退。

剛剛，OpenAI 重磅發(fā)布 o3！再次突破 AI 極限，北大校友參與研發(fā)

在動輒以天計的行業(yè)里，即便是今日發(fā)布的 o3 模型也很難再次創(chuàng)造長達 2 年的空窗期。

尤其是當 Grok-3 和 Claude 等新模型蓄勢待發(fā)，留給 OpenAI 的時間或許已經(jīng)不多了。

醒醒，今年最好的 AI 廠商依舊是 OpenAI，但明年或許會因為不同的 AI 方向有無數(shù)種答案。

所幸，作為用戶的我們，都將是這場變局中最大的贏家。

#歡迎關(guān)注愛范兒官方微信公眾號：愛范兒（微信號：ifanr），更多精彩內(nèi)容第一時間為您奉上。

愛范兒|原文鏈接· ·新浪微博