過去一個月，AI的變化是突破性的

2024-12-25 10:36| 發(fā)布者: admin| 查看: 81| 評論: 0

摘要: 過去一個月，AI在多個領域出現(xiàn)了巨大的飛躍。賓夕法尼亞大學沃頓商學院教授Ethan Mollick在近日一篇文章中，總結了他所觀察到的人工智能最新進展，以及這些進展的含義。Mollick的專業(yè)是研究創(chuàng)業(yè)與創(chuàng)新以及人工智能， ...

過去一個月，AI在多個領域出現(xiàn)了巨大的飛躍。

賓夕法尼亞大學沃頓商學院教授Ethan Mollick在近日一篇文章中，總結了他所觀察到的人工智能最新進展，以及這些進展的含義。Mollick的專業(yè)是研究創(chuàng)業(yè)與創(chuàng)新以及人工智能，并致力于探索人工智能對工作和教育的意義。

Mollick觀察到，人工智能在近一個月發(fā)生了突破性的進展：

（1）在以GPT-4為代表的智能人工智能已經(jīng)無處不在的情況下，更聰明的人工智能正在出現(xiàn)，尤其是Gen3和o1模型的發(fā)布；

（2）隨著視覺功能的引入，ChatGPT 和 Gemini 現(xiàn)在都可以同時觀看實時視頻和語音交互。能夠通過最常見的人類感官（視覺和聲音）與人類實時互動的模型將 AI 變成與您同在房間里的陪伴者，而不是被困在計算機上聊天框中的實體；

（3）AI 視頻突然變得非常好，但真正的飛躍來自上周出現(xiàn)的人工智能文本轉視頻生成器。

Mollick表示，我們還遠遠沒有看到人工智能進步的終結，引人注目的不僅僅是個別的突破，而是變革的速度和廣度。人工智能正以以不均勻的速度大幅跨越，甚至超出了人類能輕松衡量其影響的能力。

以下為Mollick文章全文翻譯：

上個月，人工智能的狀況發(fā)生了變化，僅在上周，變化速度就急劇加快。人工智能實驗室推出了大量新產(chǎn)品，有些是革命性的，有些是漸進式的，讓人難以跟上。我相信，這些變化中有幾個是真正的突破，將重塑人工智能（也許還有我們的）的未來。以下是我們的現(xiàn)狀：

智能人工智能如今無處不在

去年年底，只有一個公開可用的 GPT-4/ Gen2類模型，那就是 GPT-4?，F(xiàn)在有六到十個這樣的模型，其中一些是開源的，這意味著任何人都可以免費使用或修改它們。來自美國的有 OpenAI 的 GPT-4o、Anthropic 的 Claude Sonnet 3.5、谷歌的 Gemini 1.5、Meta 的開放 Llama 3.2、埃隆·馬斯克的 Grok 2 和亞馬遜的新 Nova。中國公司已經(jīng)發(fā)布了三種似乎具有 GPT-4 級性能的開放多語言模型，尤其是阿里巴巴的 Qwen、R1 的 DeepSeek 和 01.ai 的 Yi。歐洲在這個領域只有一家參與者，那就是法國的 Mistral。這一堆令人困惑的名字意味著，構建有能力的人工智能并非只涉及 OpenAI 獨有的神奇公式，而是任何擁有計算機科學人才以及能夠獲得訓練模型所需的芯片和算力的公司都能夠做到。

事實上，GPT-4 級別的人工智能在發(fā)布時令人震驚，引發(fā)了人們對未來的極大擔憂，而現(xiàn)在它可以在我的家用電腦上運行了。Meta 本月發(fā)布的最新小型型號名為Llama 3.3 ，它提供了類似的性能，并且可以在我的游戲電腦上完全離線運行。微軟新推出的微型Phi 4是 GPT-4 級別的，幾乎可以在手機上運行，而其性能稍差的前代產(chǎn)品 Phi 3.5 更是可以。某種程度上的智能是按需提供的。

過去一個月，AI的變化是突破性的 — 我家用電腦上運行的 Llama 3.3 通過了“涉及奶酪雙關語的押韻詩”基準測試，只有幾個不自然的雙關語。

而且，正如我所討論過的（很快會再次發(fā)布），這些無處不在的人工智能現(xiàn)在開始為代理提供動力，這些代理是可以追求自己目標的自主人工智能。你可以在我之前的文章中看到這意味著什么，我使用早期的代理進行購物比較和監(jiān)控建筑工地。

非常聰明的人工智能現(xiàn)在已經(jīng)出現(xiàn)

所有這些意味著，如果 GPT-4 級別的性能是 AI 可以達到的最高水平，那么隨著我們逐漸習慣它們的能力，這可能足以讓我們經(jīng)歷五到十年的持續(xù)變化。但沒有跡象表明 AI 發(fā)展即將大幅放緩。我們之所以知道這一點，是因為上個月還有另外兩個重要的發(fā)布——Gen3 模型的首次發(fā)布（你可以將它們視為 GPT-5 類模型）和 o1 模型的發(fā)布，這些模型可以在回答之前“思考”，這實際上使它們比其他 LLM 的推理能力強得多。我們正處于 Gen3 發(fā)布的早期階段，所以我不會在這篇文章中過多地介紹它們，但我確實想談談 o1。

當 o1 以早期的 o1-preview 形式發(fā)布時，我曾討論過它，但兩個更復雜的版本 o1 和 o1-pro 的功能顯著增強。這些模型在回答問題之前會花時間進行隱形“思考”——模仿人類的邏輯問題解決方式。這種方法稱為測試時間計算，事實證明，它是讓模型更好地解決問題的關鍵。事實上，這些模型現(xiàn)在已經(jīng)足夠聰明，能夠以大大小小的方式為研究做出有意義的貢獻。

舉一個有趣的例子，我讀到一篇關于最近社交媒體恐慌的文章——一篇學術論文指出，黑色塑料餐具可能會毒害人類，因為它們部分是由回收的電子垃圾制成的。該論文指出，一種名為 BDE-209 的化合物從這些餐具中滲出的速率非常高，接近美國環(huán)保署設定的安全劑量水平。很多人都扔掉了他們的鍋鏟，但麥吉爾大學的 Joe Schwarcz 認為這沒有道理，并發(fā)現(xiàn)了一個數(shù)學錯誤，作者在文章的第七頁錯誤地將 BDE-209 的劑量乘以了 10 倍——這個錯誤被論文作者和同行評審員忽略了。我很好奇 o1 是否能發(fā)現(xiàn)這個錯誤。因此，我從手機上粘貼了PDF 文本并輸入：“仔細檢查本文中的數(shù)學計算”。就這樣。o1 立即發(fā)現(xiàn)了錯誤（其他 AI 模型沒有）。

當模型不僅能夠處理整篇學術論文，還能理解“檢查數(shù)學”的意義所在，然后成功檢查結果時，人工智能的能力就會發(fā)生根本性的變化。事實上，我的實驗以及其他人的實驗都激發(fā)了人們去研究 o1 能在科學文獻中發(fā)現(xiàn)錯誤的頻率。我們不知道 o1 能多頻繁地完成這種壯舉，但找出答案似乎很重要，因為它指向了能力的新前沿。

事實上，即使是 o1 的早期版本，即預覽模型，似乎也代表了科學能力的飛躍。哈佛大學、斯坦福大學和其他研究人員發(fā)表了一篇令人震驚的醫(yī)學工作論文，結論是“o1-preview 在鑒別診斷、診斷臨床推理和管理推理方面表現(xiàn)出超人的表現(xiàn)，在多個領域都優(yōu)于前幾代模型和人類醫(yī)生?！边@篇論文還沒有經(jīng)過同行評審，它并沒有表明人工智能可以取代醫(yī)生，但它和上面的結果確實表明，這個世界正在發(fā)生變化，不把人工智能作為第二意見可能很快就會成為一個錯誤。

可能更重要的是，越來越多的研究人員告訴我，o1，尤其是 o1-pro，正在產(chǎn)生新穎的想法并解決他們領域中意想不到的問題。問題是，現(xiàn)在只有專家才能評估人工智能是錯還是對。例如，我非常聰明的沃頓商學院同事Daniel Rock讓我給 o1-pro 一個挑戰(zhàn)：“讓它使用文獻中沒有的證明來證明神經(jīng)網(wǎng)絡的通用函數(shù)逼近定理，而無需 1）假設無限寬的層和 2）超過 2 層。” 以下是它回復的內容：

這是對的嗎？我不知道。這超出了我的專業(yè)領域。丹尼爾和其他看過它的專家乍一看也無法判斷它是否正確，但覺得它足夠有趣，值得研究。事實證明，這個證明是有錯誤的（盡管與 o1-pro 進行更多交互可能會修復這些錯誤）。但結果仍然引入了一些激發(fā)進一步思考的新方法。正如丹尼爾向我指出的那樣，當研究人員使用 o1 時，它不需要正確才能有用：“要求 o1 以創(chuàng)造性的方式完成證明實際上是要求它成為研究同事。該模型不必證明正確才有用，它只需幫助我們成為更好的研究人員。”

我們現(xiàn)在擁有的人工智能似乎能夠解決非常困難的博士級問題，或者至少可以作為研究人員的協(xié)同智能有效地解決這些問題。當然，問題是，除非你自己是某個領域的博士，否則你實際上并不知道這些答案是否正確，這為人工智能評估帶來了一系列新挑戰(zhàn)。需要進一步測試才能了解它有多大用處，以及在哪些領域有用，但人工智能能力的這一新前沿值得關注。

人工智能可以觀察你并和你交談

幾個月來，我們一直使用 AI 語音模型，但上周我們又引入了一項新功能——視覺。ChatGPT 和 Gemini 現(xiàn)在都可以同時觀看實時視頻和語音交互。例如，我現(xiàn)在可以與 Gemini 的新款小型 Gen3 模型 Gemini 2.0 Flash 共享實時屏幕。

或者更好的是，您可以免費試用。說真的，體驗一下這個系統(tǒng)能做什么是值得的。Gemini 2.0 Flash 仍然是一個內存有限的小型模型，但您開始明白這一點了。能夠通過最常見的人類感官（視覺和聲音）與人類實時互動的模型將 AI 變成與您同在房間里的陪伴者，而不是被困在計算機上聊天框中的實體。ChatGPT 高級語音模式可以通過手機執(zhí)行相同的操作，這意味著數(shù)百萬用戶都可以廣泛使用此功能。隨著 AI 在我們生活中變得越來越普遍，其影響將非常深遠。

AI 視頻突然變得非常好

在過去的一年里，人工智能圖像創(chuàng)建技術取得了令人印象深刻的進展，在我的筆記本電腦上運行的模型可以生成與真實照片難以區(qū)分的圖像。它們也變得更容易操控，可以對“使用藍牙的飛機上的水獺”和“使用 wifi 的飛機上的水獺”等提示做出適當?shù)姆磻?。如果你想自己嘗試一下，谷歌的 ImageFX是一個非常簡單的界面，可以使用上周發(fā)布的強大的 Imagen 3 模型。

但上周真正的飛躍來自人工智能文本轉視頻生成器。此前，中國公司的人工智能模型通常代表著視頻生成領域的最新水平，包括令人印象深刻的系統(tǒng)如Kling ，以及一些開源模型。但情況正在迅速改變。首先，OpenAI 發(fā)布了其強大的 Sora 工具，然后谷歌發(fā)布了功能更強大的 Veo 2 視頻創(chuàng)建器，這已成為最近的一個主題。如果您訂閱 ChatGPT Plus，您現(xiàn)在就可以使用Sora ，這是值得一試的，但我提前獲得了 Veo 2 的使用權（據(jù)說將在一兩個月后推出），它……令人驚嘆。

展示總是比講述更好，所以請看一下這個 8 秒剪輯的合集（目前的極限，盡管它顯然可以制作更長的電影）。我在每個剪輯中都提供了確切的提示，并且剪輯僅從 Veo 2 制作的第一組電影中選擇（它一次創(chuàng)建四個剪輯），因此沒有從許多示例中挑選。注意物體、陰影和反射的明顯重量和重量，在保持發(fā)型和細節(jié)的情況下跨場景的一致性，以及場景與我要求的接近程度（如果你尋找的話，紅色氣球就在那里）。有錯誤，但現(xiàn)在乍一看很難發(fā)現(xiàn)它們（盡管它仍然在努力處理體操，這對視頻模型來說非常困難）。真的令人印象深刻。

這一切意味著什么？

我將在以后的文章中詳細闡述我的看法，但從中可以吸取的教訓是，無論好壞，我們都還遠遠沒有看到人工智能進步的終結。引人注目的不僅僅是個別的突破——人工智能檢查數(shù)學試卷、生成接近電影質量的視頻片段或在游戲電腦上運行。而是變革的速度和廣度。一年前，GPT-4 感覺像是未來的一瞥。而現(xiàn)在，它基本上已經(jīng)在手機上運行，而新模型正在捕捉學術同行評審中漏掉的錯誤。這不是穩(wěn)步的進步——我們看到人工智能以不均勻的速度大幅跨越，超出了我們輕松衡量其影響的能力。這表明，當形勢處于動態(tài)變化中時，塑造這些技術如何改變你的領域的機會現(xiàn)在就存在，而不是在轉型完成后。

本文來自華爾街見聞，歡迎下載APP查看更多