請登錄后使用快捷導航
沒有賬號？立即注冊

快捷導航

D-Think | 東遠科技-廣州東遠智能科技有限公司- › 首頁 ›資訊› 科技頭條 › 查看內容

70年AI研究得出了苦澀的教訓：為什么說AI創(chuàng)業(yè)也在重復其中的錯誤

2025-2-6 07:55| 發(fā)布者: admin| 查看: 150| 評論: 0

摘要: 機器之心報道編輯：佳琪人人都在做垂直 AI 產品，為什么要反其道而行？Scaling Laws 是否失靈，這個話題從 2024 年年尾一直討論至今，也沒有定論。Ilya Sutskever 在 NeurIPS 會上直言：大模型預訓練這條路可能已經(jīng) ...

機器之心報道

編輯：佳琪

人人都在做垂直 AI 產品，為什么要反其道而行？

Scaling Laws 是否失靈，這個話題從 2024 年年尾一直討論至今，也沒有定論。

Ilya Sutskever 在 NeurIPS 會上直言：大模型預訓練這條路可能已經(jīng)走到頭了。上周的 CES 2025，黃仁勛有提到，在英偉達看來，Scaling Laws 仍在繼續(xù)，所有新 RTX 顯卡都在遵循三個新的擴展維度：預訓練、后訓練和測試時間（推理），提供了更佳的實時視覺效果。

而這一切的思考，都可以追溯到「RL 之父」 Rich Sutton 在 2019 年發(fā)表的經(jīng)典短文 The Bitter Lesson 《苦澀的教訓》。

Y Combinator 校友日上，Andon Labs 的 CEO 兼聯(lián)合創(chuàng)始人 Lukas Petersson 聽完 100 多個項目路演后寫下了一個有趣的觀察：《苦澀的教訓》中所寫的 AI 研究歷史似乎正在 AI 創(chuàng)業(yè)界重演。

研究人員曾一次又一次試圖通過精巧的工程設計來提升性能，但最終都敗給了簡單粗暴的「加大算力」方案。

而今天，AI 產品的開發(fā)者們，似乎正在重走這條老路。

機器之心在不改變博客原意的基礎上進行了編譯。

如果覺得博客太長，核心內容已經(jīng)總結好了：

歷史證明，通用方法總是在 AI 領域勝出；
當下 AI 應用領域的創(chuàng)業(yè)者正在重蹈 AI 研究者過去的覆轍；
更強大的 AI 模型將催生通用型 AI 應用，同時也會削弱 AI 模型「套殼」軟件的附加價值。

AI 技術的飛速發(fā)展帶來了一波又一波新產品。在 YC 校友演示日上，我見證了 100 多個創(chuàng)業(yè)項目的路演。這些項目都有一個共同點：它們瞄準的都是施加了各種限制和約束的 AI 解決的簡單問題。

AI 真正的價值在于它能靈活處理各類問題。給 AI 更多自由度通常能帶來更好的效果，但現(xiàn)階段的 AI 模型還不夠穩(wěn)定可靠，所以還無法大規(guī)模開發(fā)這樣的產品。

這種情況在 AI 發(fā)展史上反復出現(xiàn)過，每次技術突破的路徑都驚人地相似。如果創(chuàng)業(yè)者們不了解這段歷史教訓，恐怕要為這些經(jīng)驗「交些學費」。

2019 年，AI 研究泰斗 Richard Sutton 在他那篇著名的《苦澀的教訓》開篇提到：

「70 年的 AI 研究歷史告訴我們一個最重要的道理：依靠純粹算力的通用方法，最終總能以壓倒性優(yōu)勢勝出?！?/span>

這篇文章標題里的「苦澀」二字，正是來自那些精心設計的「專家系統(tǒng)」最終都被純靠算力支撐的系統(tǒng)打得落花流水。這個劇情在 AI 圈一演再演 —— 從語音識別到計算機象棋，再到計算機視覺，無一例外。

如果 Sutton 今天重寫《苦澀的教訓》，他一定會把最近大火的生成式 AI 也加入這份「打臉清單」，提醒我們：這條鐵律還未失效。

同在 AI 領域，我們似乎還沒有真正吸取教訓，因為我們仍在重復同樣的錯誤......

我們必須接受這個殘酷的現(xiàn)實：在 AI 系統(tǒng)中，強行植入我們認為的思維方式，從長遠來看注定失敗。這個「苦澀的教訓」源于以下觀察:

1.AI 研究者總想把人類的知識經(jīng)驗塞進 AI

2. 這招短期確實管用，還能讓研究者有成就感

3. 但遲早會遇到瓶頸，甚至阻礙 AI 的進步

4. 真正的突破往往出人意料 —— 就是簡單地加大計算規(guī)模

站在 AI 研究者的角度，得到了《苦澀的教訓》，意味著在總結教訓的過程中明確了什么是「更好」的。對于 AI 任務，這很好量化 —— 下象棋就看贏棋概率，語音識別就看準確率。對于本文討論的 AI 應用產品，「更好」不僅要看技術表現(xiàn)，還要考慮產品性能和市場認可度。

從產品性能維度來看，即產品能在多大程度上取代人類的工作。性能越強，就能處理越復雜的任務，創(chuàng)造的價值自然也就越大。

70年AI研究得出了苦澀的教訓：為什么說AI創(chuàng)業(yè)也在重復其中的錯誤

圖 1. 展示了不同類型的 AI 產品，本文主要討論應用層

AI 產品通常是給 AI 模型加一層軟件包裝。因此，要提升產品性能，有兩條路徑：

1. 工程升級：在軟件層面利用領域知識設置約束

2. 模型升級：等待 AI 實驗室發(fā)布更強大的模型

這兩條路看似都可行，但在此有個重要洞察：隨著模型性能提升，優(yōu)化工程的價值在不斷下降。

現(xiàn)階段，軟件端的設計確實能提升產品表現(xiàn)，但這只是因為當前模型還不夠完善。隨著模型變得更可靠，只需要將模型接入軟件就能解決大多數(shù)問題了 —— 不需要復雜的的工程。

70年AI研究得出了苦澀的教訓：為什么說AI創(chuàng)業(yè)也在重復其中的錯誤

圖 2. 投入工程的價值會隨著投入增加和更強大模型的出現(xiàn)而遞減。

上圖展示了一個趨勢：隨著 AI 模型的進步，工程帶來的價值將逐漸減少。雖然當前的模型還有明顯不足，企業(yè)仍能通過工程投入獲得可觀回報。

這一點在 YC 校友演示日上表現(xiàn)得很明顯。創(chuàng)業(yè)公司主要分為兩類：第一類是已經(jīng)實現(xiàn)規(guī)?；漠a品，專注解決簡單問題，但數(shù)量還不多；第二類則瞄準了相對復雜的問題。后者目前發(fā)展勢頭不錯，因為他們的概念驗證證明：只要在工程上下足功夫，就能達到預期目標。

但這些公司面臨一個關鍵問題：下一個模型發(fā)布會不會讓所有工程上的都成為無用功，摧毀他們的競爭優(yōu)勢？OpenAI 的 o1 模型發(fā)布就很好地說明了這個風險。

我和很多 AI 應用層的創(chuàng)業(yè)者聊過，他們都很擔心，因為他們投入了大量精力來完善提示詞。有了 o1 后，提示詞工程的重要性就大大降低了。

從本質上講，這種工程的目的是為了約束 AI 少犯錯誤。通過觀察眾多產品，可以概括為兩類約束：

專業(yè)性：衡量產品的聚焦程度。垂直型產品專注于解決特定領域的問題，配備了專門的軟件包裝；而水平型產品則更通用，能處理多種不同類型的任務。
自主性：衡量 AI 的獨立決策能力。在此借鑒一下 Anthropic 的分類：

1. 工作流：AI 按預設路徑運行，使用固定的工具和流程

2. 智能體：AI 可以自主選擇工具和方法，靈活決策如何完成任務

這就規(guī)定了一個 AI 產品的分類框架：

70年AI研究得出了苦澀的教訓：為什么說AI創(chuàng)業(yè)也在重復其中的錯誤

表 1. 對知名 AI 產品的分類。需要注意的是，ChatGPT 可能每次對話都會遵循預先設定的代碼路徑，因此更像工作流而非智能體。

以商業(yè)分析師制作路演 PPT 為例，看看每類產品如何實現(xiàn)這個任務：

垂類工作流：它按固定步驟執(zhí)行任務，比如，先用 RAG 查詢公司數(shù)據(jù)庫，小型 LLM 做總結，大型 LLM 提取關鍵數(shù)據(jù)并計算，檢查數(shù)據(jù)合理性后寫入幻燈片，最后生成演示文稿。每次都嚴格遵循這個流程。
垂類智能體：LLM 能自主決策，循環(huán)工作：用上一步的結果指導下一步行動，雖然可用工具相同，但由 AI 自己決定何時使用。直到達到質量標準才停止。
通用工作流：像 ChatGPT 這樣的通用工具只能完成部分任務，既不夠專業(yè)也不夠自主，無法完整處理整個工作流程。
水平智能體：如 Claude computer-use，能像人一樣操作常規(guī)辦公軟件。分析師只需用自然語言下達指令，它就能根據(jù)實際情況靈活調整工作方法。

這很好理解 —— 當前的 AI 模型還不夠成熟，只能用這種方式才能達到可用水平。結果就是，即使是過于復雜的問題，創(chuàng)業(yè)者們也不得不硬塞進這個框架，因為這是目前唯一能讓產品勉強可用的方法。

雖然通過工程優(yōu)化可以提升這些產品，但提升空間有限。對于當前模型難以處理的問題，與其投入大量工程資源，不如等待更強大的模型出現(xiàn) —— 到時只需很少的工程就能解決問題。

正如 Leopold Aschenbrenner 在《Situational Awareness》中所指出的：「完善這些繁瑣的工程，可能比等待更強大的模型還要耗時?！?/span>

這不禁讓人聯(lián)想起《苦澀的教訓》：AI 研究者反復嘗試用工程手段提升性能，最終卻總是被簡單堆砌算力的通用方案超越。今天的 AI 產品開發(fā)似乎正在重蹈覆轍。

把表 1 的內容和《苦澀的教訓》聯(lián)系起來之后，這樣能更清楚地看到其中的關聯(lián)：

70年AI研究得出了苦澀的教訓：為什么說AI創(chuàng)業(yè)也在重復其中的錯誤

總而言之，我的觀點是：試圖用軟件工程來彌補當前 AI 模型的不足，似乎是一場注定失敗的戰(zhàn)斗，尤其是考慮到模型進步的驚人速度。

正如 YC 合伙人 Jarred 在 Lightcone 播客中所說：「第一波基于固定流程的 AI 應用，大多被新一代 GPT 模型淹沒了?！?/span>

Sam Altman 常說，要打造那種期待而不是害怕新模型發(fā)布的創(chuàng)業(yè)公司。我遇到的很多 AI 創(chuàng)業(yè)者對新模型都很興奮，但從他們公司的利益看，這種興奮可能不太合適。

從統(tǒng)計學角度理解《苦澀的教訓》

讓我們用簡單的統(tǒng)計學來理解這個道理。在做模型時，通常要面臨一個選擇：要么做一個規(guī)則很死板的模型（高偏差），要么做一個靈活但不太穩(wěn)定的模型（高方差）?！犊酀慕逃枴犯嬖V我們：選靈活的。

究其原因，因為只要有足夠的算力和數(shù)據(jù)，靈活的模型最終也能變得很穩(wěn)定。就像打籃球，就算姿勢不標準，練得多了也能投準。但反過來就不行了，太死板的方法會被自己的規(guī)則限制住。

這跟 AI 產品是一個道理。做垂直領域的工具，加各種限制，就像給 AI 加規(guī)則，現(xiàn)在看起來更穩(wěn)定，但限制了它的潛力。相反，讓 AI 更自由一點雖然現(xiàn)在看著不太靠譜，但隨著模型越來越強，它反而能找到更好的辦法。歷史一再證明，跟靈活性對著干是不明智的。

兩種做 AI 的方法

70年AI研究得出了苦澀的教訓：為什么說AI創(chuàng)業(yè)也在重復其中的錯誤

圖 1：對比了兩種方法。傳統(tǒng)機器學習需要人工來告訴機器「什么是重要的」，深度學習則能自己學會。

傳統(tǒng)機器學習需要人來決定什么信息重要。比如給一張圖片，你得手動找出有用的特征，數(shù)一數(shù)有多少個圓形，測量一下各種尺寸等等。但深度學習不同，它能自己學會找重要的東西。

70年AI研究得出了苦澀的教訓：為什么說AI創(chuàng)業(yè)也在重復其中的錯誤

圖 2：比如自動駕駛。系統(tǒng)要識別和跟蹤車輛、行人、車道線等具體物體。這就是分解復雜問題的傳統(tǒng)方法。

以自動駕駛來說，你有兩種方式：

1. 老方法：把車看到的東西分解：前面的車在哪，車道線在哪，那個人跑多快？

2. 新方法：直接把視頻扔給 AI，讓它自己學會開車。

老方法看著更靠譜，更有把握。所以早期的 AI 都這么干。但正如 George Hotz 所說：「AI 的歷史告訴我們，老方法最后總會被新方法打敗。」

70年AI研究得出了苦澀的教訓：為什么說AI創(chuàng)業(yè)也在重復其中的錯誤

圖 3：DeepMind 研究員 Sholto Douglas：就像其他所有深度學習系統(tǒng)一樣，押注端到端就對了

作者簡介

博客作者為 Lukas Petersson。今年 26 歲的他于去年從隆德大學畢業(yè)，拿下了工程物理和數(shù)學雙碩士學位。

雖然年輕，但他的經(jīng)歷可謂豐富多彩：

70年AI研究得出了苦澀的教訓：為什么說AI創(chuàng)業(yè)也在重復其中的錯誤

現(xiàn)在他是 Andon Labs 的 CEO 兼聯(lián)合創(chuàng)始人，專注 AI 安全評估和大語言模型研究。此前，他曾在 Google 實習，曾在 Disney Research 開發(fā)病毒式機器人，還曾參與探空火箭發(fā)射項目，擔任項目主要負責人。

參考鏈接：

https://x.com/dotey/status/1878595515924820420

https://lukaspetersson.com/blog/2025/bitter-vertical/

路過

雷人

握手

鮮花

雞蛋

收藏邀請

上一篇：自動駕駛領域蓬勃發(fā)展決勝年投資時點已到下一篇：一文讀懂市面上的自動駕駛

相關分類

技術專題更多

解決方案更多

RFID電動車小區(qū)防盜解決方案

RFID技術應用在電動車防盜系統(tǒng)中，一方面可以實現(xiàn)電動自行車身份信息的自動

特價更多

70年AI研究得出了苦澀的教訓：為什么說AI創(chuàng)業(yè)也在重復其中的錯誤

19款電子扎帶

電路板識別電子標簽

翅標，超高頻芯

通用耳標鉗

D-Think_C10U電

D-Think_C04電子