谷歌宣告：AI的水平超過數(shù)學(xué)奧賽金牌了

2025-2-9 09:24| 發(fā)布者: admin| 查看: 141| 評論: 0

摘要: 昨日，谷歌宣布DeepMind創(chuàng)造了人工智能領(lǐng)域的新紀(jì)錄：其最新AI系統(tǒng)AlphaGeometry2，在國際數(shù)學(xué)奧林匹克競賽(IMO)的大規(guī)模幾何題目測試中，首次超越人類金牌得主水平。研究團(tuán)隊(duì)從2000年到2024年的IMO競賽中精選了45道 ...

昨日，谷歌宣布DeepMind創(chuàng)造了人工智能領(lǐng)域的新紀(jì)錄：其最新AI系統(tǒng)AlphaGeometry2，在國際數(shù)學(xué)奧林匹克競賽(IMO)的大規(guī)模幾何題目測試中，首次超越人類金牌得主水平。

研究團(tuán)隊(duì)從2000年到2024年的IMO競賽中精選了45道幾何題目，經(jīng)過技術(shù)處理后轉(zhuǎn)化為50道標(biāo)準(zhǔn)題目。測試結(jié)果顯示，AlphaGeometry2成功解答了其中的42道，已經(jīng)超過了金牌得主40.9分的平均成績。

DeepMind的這一突破意義深遠(yuǎn)。研究團(tuán)隊(duì)認(rèn)為，解決具有挑戰(zhàn)性的幾何問題（特別是歐幾里得幾何問題）所需的推理能力和策略選擇能力，正是構(gòu)建下一代通用人工智能的關(guān)鍵要素。

網(wǎng)友表示，「接近完美」。

AG2，一舉超越IMO金牌得主

DeepMind之所以對這個(gè)高中數(shù)學(xué)競賽如此重視，源于一個(gè)深層洞察：解決歐幾里得幾何問題的能力可能是構(gòu)建更強(qiáng)大AI系統(tǒng)的關(guān)鍵。

證明數(shù)學(xué)定理需要同時(shí)具備推理能力和在多個(gè)可能步驟中做出選擇的能力，這些問題解決技能可能成為未來通用AI模型的重要組成部分。

事實(shí)上，在2024年夏天的一次演示中，DeepMind將AlphaGeometry2與數(shù)學(xué)形式推理AI模型AlphaProof結(jié)合，成功解決了當(dāng)年IMO競賽6道題目中的4道。

在技術(shù)架構(gòu)上，AlphaGeometry2采用了一種混合方案，將谷歌Gemini系列的語言模型與專門的符號運(yùn)算引擎相結(jié)合。

在解題過程中，Gemini模型負(fù)責(zé)預(yù)測解題可能需要的幾何構(gòu)造（如添加輔助點(diǎn)線或圓），而符號引擎則基于嚴(yán)格的數(shù)學(xué)規(guī)則進(jìn)行推導(dǎo)。兩個(gè)模塊通過并行搜索算法協(xié)同工作，將發(fā)現(xiàn)的有用信息存儲在共享知識庫中。當(dāng)系統(tǒng)能夠?qū)emini模型的建議與符號引擎的已知原理結(jié)合，得出完整證明時(shí)，即認(rèn)為完成了問題求解。

谷歌宣告：AI的水平超過數(shù)學(xué)奧賽金牌了

為了克服幾何訓(xùn)練數(shù)據(jù)匱乏的困境，研究團(tuán)隊(duì)自主生成了超過3億個(gè)不同復(fù)雜度的定理和證明用于訓(xùn)練。這種大規(guī)模的合成數(shù)據(jù)訓(xùn)練方法，為AI在特定領(lǐng)域?qū)崿F(xiàn)突破提供了新的范例。

然而，AlphaGeometry2的能力仍存在明顯邊界。它無法處理包含可變點(diǎn)數(shù)、非線性方程和不等式的問題。在研究團(tuán)隊(duì)專門挑選的29道更具挑戰(zhàn)性的IMO候選題中，系統(tǒng)僅能解決20道。

這一突破引發(fā)了對AI發(fā)展路徑的深入思考。傳統(tǒng)上，AI領(lǐng)域存在兩種主要方法：基于符號操作的方法（通過規(guī)則操作代表知識的符號）和類似人腦的神經(jīng)網(wǎng)絡(luò)方法。

AlphaGeometry2采用混合架構(gòu)：其Gemini模型采用神經(jīng)網(wǎng)絡(luò)架構(gòu)，而符號引擎則基于規(guī)則運(yùn)算。根據(jù)Deepmind的論文，在測試中，同樣采用神經(jīng)網(wǎng)絡(luò)架構(gòu)的OpenAI o1模型無法解決任何AlphaGeometry2成功解答的IMO問題。

卡內(nèi)基梅隆大學(xué)AI專家Vince Conitzer表示：

"在這些基準(zhǔn)測試上取得驚人進(jìn)展的同時(shí)，包括最新的'推理型'在內(nèi)的語言模型仍在一些簡單的常識問題上舉步維艱，這種對比令人深思。

這不是虛假繁榮，但說明我們?nèi)匀粺o法準(zhǔn)確預(yù)測下一個(gè)系統(tǒng)的行為?？紤]到這些系統(tǒng)可能產(chǎn)生的重大影響，我們迫切需要更好地理解它們及其潛在風(fēng)險(xiǎn)。"

但這種情況可能不會永遠(yuǎn)持續(xù)下去。在論文中，DeepMind 團(tuán)隊(duì)表示，他們發(fā)現(xiàn)了初步證據(jù)，表明AlphaGeometry2的語言模型部分已顯示出無需符號引擎輔助也能生成部分解決方案的潛力。

不過，研究團(tuán)隊(duì)同時(shí)強(qiáng)調(diào)，在模型運(yùn)算速度得到根本改善、"幻覺"問題徹底解決之前，符號運(yùn)算等外部工具仍將在數(shù)學(xué)應(yīng)用中扮演不可或缺的角色。

本文來自華爾街見聞，歡迎下載APP查看更多