原文標題:Which Platform Builds the Best AI Agents? We Test ChatGPT, Claude, Gemini and More 原文作者:Jose Antonio Lanz 原文來源:https://decrypt.co/ 編譯:Daisy, 火星財經 哪個平臺能打造最佳AI代理?我們測試了ChatGPT、Claude、Gemini及其他平臺 動手對比五大領先平臺,揭曉哪個最適合在日常場景中托管你的未來AI代理。AI代理可以實現很多事情:從你的文檔庫中搜索信息、編寫代碼、抓取網頁數據,到對復雜數據進行洞察和深刻分析,甚至更多。你還能打造一個虛擬辦公室,由一群專注于不同任務的AI代理組成,像一支專業(yè)的數字員工團隊一樣協同工作。 但這到底有多難?如果一個普通人想打造自己的AI金融顧問,比如,不依賴API、不需要奇怪的編碼、不用Github,哪個平臺能為用戶提供最佳支持?我們只想看看這些頂尖AI公司在幫助普通用戶創(chuàng)建AI代理方面表現如何,而無需用戶具備高超的技術技能。 當然,你付出多少就得到多少。在這種情況下,我們還想看看普通人設置一個代理的難易程度與每個平臺交付結果的質量之間是否存在關聯。 我們的實驗將五大平臺進行了對比:ChatGPT、Claude、Huggingface、Mistral AI 和 Gemini。每個平臺都接受了相同的基本指令,要求創(chuàng)建一個財務顧問。 測試專注于平臺的開箱即用能力。重點考察代理能否處理一個常見的情景——在這種情況下,幫助某人平衡 25,000 美元的投資與 30,000 美元的債務。我們還想看看它們分析交易圖表的能力。我們避免使用額外的工具來提高代理的生產力,而是嘗試采取最簡單的方式。 簡而言之,以下是我們的發(fā)現和模型排名: 平臺排名1)OpenAI 的 GPT(8.5/10)
ChatGPT 是最均衡的平臺,提供復雜的代理創(chuàng)建選項,同時具有引導式和手動選項,能夠滿足完全新手和有一定經驗的用戶的需求。 盡管最近的界面更新將一些功能埋藏在菜單中,但該平臺在將復雜的用戶需求轉化為功能性代理方面表現出色。我們通過構建一個財務顧問來測試該模型,結果顯示該代理具有出色的上下文意識和結構化問題解決能力,為債務管理和投資分配提供了詳細且連貫的策略。 2) Google Gemini(7/10)
Gemini 憑借其精致、直觀的界面和優(yōu)秀的錯誤處理脫穎而出。雖然需要更詳細的提示才能獲得最佳結果,但它對指令的字面解釋創(chuàng)造了一致且可預測的結果。 該代理在提供財務建議時的咨詢方式強調了在推薦之前收集上下文,類似于專業(yè)實踐。然而,它在零樣本響應中可能過于保守。 3) HuggingChat(6.5/10)
這個開源平臺提供了無與倫比的定制化和模型選擇選項。對于那些尋求對每個細節(jié)擁有粒度控制的人來說,這是一個極好的選擇,但對于那些尋求簡便的用戶來說,可能并不合適。(可以把它比作 Linux 系統(tǒng)與 macOS 系統(tǒng)的比較)。其復雜的時間框架和實用工具集成展示了其先進的能力。 我們構建了一個純粹的代理,沒有任何額外的功能。我們使用了 Nvidia 的 Nemomotron 作為基礎大語言模型,其輸出質量足以與 ChatGPT 相媲美。對開源陣營來說,不錯。 4)Claude(5.5/10)
Anthropic 的平臺在特定領域表現出色,尤其是在需要大量上下文處理和代碼解析的任務中。其簡約的界面掩蓋了其復雜的能力,但“可選”指令字段可能會讓用戶感到困惑。 我們的代理在提供建議時非常保守且模糊,但展示了良好的風險意識和戰(zhàn)略思維。它需要更小心的提示才能真正發(fā)揮其潛力,但如果測試采用了適應性提示,這將違背假設相似條件的前提,因此并不公平。 5) Mistral AI(5/10)設置難易度:2.5/5 結果質量:2.5/5 這個法國平臺提供了獨特的基于示例的學習和深度定制選項。然而,其面向開發(fā)者的界面和偶爾的語言切換問題為非技術用戶創(chuàng)造了障礙。它還需要修改代理的配置,以適應不同模型執(zhí)行諸如分析圖像或處理代碼等不同任務。這并不理想。 財務顧問在交互設計方面表現出了潛力,但在基本的數學驗證上遇到了困難,輸出結果最差。并不是說輸出不好,但在零樣本測試中,這是最不令人滿意的。 深入分析考慮到之前的排名,沒有一種通用的解決方案,所有平臺都有各自的優(yōu)缺點。通過一些專注和細心的提示定制,某個平臺的結果可能會有所不同,甚至超越其他平臺。最終,所有的語言模型(LLM)都有各自不同的提示風格。 如果你想了解更多關于我們排名背后的理由,以下是我們對經驗和代理結果的更深入分析。我們將所有代理配置為相同的系統(tǒng)提示,沒有額外的參數和功能,并問它們相同的基本問題:“我有 25K 美元投資,并且有 30K 美元債務。為我制定一個財務計劃。” OpenAI ChatGPT的界面最近進行了更新,實際上使操作變得更加復雜。GPT創(chuàng)建選項現在隱藏在菜單中,但一旦找到,它提供了兩種路徑:一種是對話式設置,AI幫助構建你的代理;另一種是手動配置,適合那些確切知道自己想要什么的人。 OpenAI的GPT平臺是一個功能齊全的“瑞士軍刀”——它能讀取代碼、搜索網頁、處理圖像生成和分析。AI引導的設置過程使其特別適合新手,盡管對于需要精細控制的高級用戶來說,可能會感覺有些限制。(例如,如果你要求模型更加具體或詳細,它可能會改變整個系統(tǒng)提示,從而導致結果變差。) 在實際使用代理時,ChatGPT非常直接,界面清晰且易于理解。 這些代理可以原生讀取文檔并理解圖像,這使它們在其他平臺中具有一定優(yōu)勢。 現在,來談談你通過基本提示可以創(chuàng)建的代理質量。我們創(chuàng)建的金融顧問MoneyGPT給我們展示了一場結構化問題解決的碩士課程,表現相當令人印象深刻。 除了其精確的資金分配——“$20,000用于高利債務”以及詳細的投資組合拆分——該代理還展示了復雜的財務推理。它提供了一個五步走的路線圖,不僅僅是一個清單,而是一個連貫的策略,考慮到了短期需求和長期規(guī)劃。 該代理的優(yōu)勢在于能夠平衡細節(jié)和上下文。雖然它推薦了具體的投資組合(40% 投資于 S&P 500,30% 投資于債券),但它還解釋了推薦背后的理由:“償還高利債務就像是獲得一個保證的投資回報?!边@種上下文意識延伸到了長期規(guī)劃,建議定期審查周期,并根據變化的情況調整策略。 然而,這種信息的豐富性也暴露出一個潛在的弱點:可能會因一次性提供過多的細節(jié)而讓用戶感到不知所措。雖然從技術上講,它非常全面,但快速傳遞的具體分配、投資策略和監(jiān)控計劃,可能對金融新手來說顯得有些令人生畏。 總體來說,Google 的 Gemini 代理創(chuàng)建平臺在美學上脫穎而出,擁有一個精致、直觀的界面,使得代理創(chuàng)建過程幾乎顯得過于簡單。系統(tǒng)對指令的字面解讀有助于避免混淆,其簡潔的用戶界面也消除了人工智能開發(fā)中的壓迫感。 然而,要從中獲得優(yōu)質結果,它需要更詳細的提示。它不會理所當然地處理事物:簡短的提示會給出低質量的回應。 在后臺,它擁有強大的功能——Google 支持的網頁搜索集成、代碼分析和圖像處理能力,堪比 ChatGPT 的功能,但大多數依賴于微軟的技術。 Gemini 的用戶界面感覺像是由真正理解用戶體驗的人設計的。界面通過清晰的標簽引導用戶,一切信息都能在一個屏幕上顯示。 這種精致的方式使其特別吸引新手用戶,盡管有經驗的用戶可能會覺得它缺乏更細致的控制。 我們將我們的代理命名為 MoneyGem,并要求它提供一份財務計劃。它的咨詢式方法展示了 Google 獨特的問題解決方法。它沒有直接給出答案,而是先提問了諸如“這是什么類型的債務?”和“你的利率是多少?”等問題——顯示出它理解財務建議并非千篇一律。 它在提供建議之前強調收集背景信息,這與專業(yè)的財務規(guī)劃實踐一致,盡管這可能會讓尋求快速答案的用戶感到沮喪。 A zero-shot回答并不有用。代理基本上表示它不了解用戶,無法提供好的財務建議。在要求它做出假設并迫使它提供適合大多數場景的計劃后,代理生成了一份非常保守的計劃草案,但沒有提供具體的投資建議。 然而,MoneyGem 最后給出了一個建議,即最大化稅收優(yōu)惠賬戶,如 401(k) 或 Roth IRA,以減少稅收負擔。不錯。 你可以點擊這里查看我們與 MoneyGem 的互動,并通過點擊這個鏈接親自試用該模型。 Mistral AI Mistral 的代理配置過程有點復雜,遠離了簡易性。代理創(chuàng)建工具隱藏在其開發(fā)者控制臺中,具有深度自定義選項,可能會讓新手感到困惑,但卻會讓喜歡折騰的用戶感到高興。 其代理構建界面并不是 LeChat(聊天界面)的一部分,但一旦代理創(chuàng)建完成,它會出現在那里。 我們非常喜歡的一點是,能夠通過示例輸入來塑造代理的行為和響應風格,這是目前其他平臺沒有提供的功能。不過,這里有一個奇怪的bug:在創(chuàng)建代理時,UI 突然切換到了法語,可能是因為公司是法國的。無論如何,我們無法切換回英語或西班牙語。 一旦代理創(chuàng)建完成,用戶必須在正常的聊天界面中調用它才能使用。用戶需要退出 Le Plateforme,進入 Le Chat,這并不是最直觀的操作。不過,使用代理的 UI 相當直接,感覺就像其他 AI 聊天機器人一樣。 我們創(chuàng)建了我們的代理,并將其命名為 Le Money,以致敬 Mistral 的法國根基。其表現清晰地展示了 Mistral 在問題解決上的通用方法。它建議“將 10,000 美元留作應急資金,15,000 美元用于償還債務,10,000 美元用于投資”,看似直白,但也表明該代理缺乏一些基本的數學驗證。 35,000 美元的總額超出了可用資金 10,000 美元,這是一個基本錯誤,某些語言模型在優(yōu)先考慮概念正確性而非數值準確性時可能會出現這樣的錯誤。 然而,我們必須指出,表現最好的 LLM 已經有了很大改進,不會頻繁出現這樣的錯誤——至少沒有像 Mistral 那樣頻繁。 除此之外,Le Money 的計劃并不非常詳細,但它是唯一一個提供后續(xù)問題的代理,這些問題可以使互動更加流暢,并幫助它更好地理解用戶的需求。 LeMoney 的完整計劃可以在這里查看,代理可以在這里進行測試。 Anthropic Claude 的項目感覺不像是一個代理創(chuàng)建平臺,更像是一個復雜的任務執(zhí)行系統(tǒng)。界面簡約,幾乎過于簡約,且不太直觀。 這種極簡主義的界面可能會讓一些用戶感到困惑。平臺提供了一個基本的設置,并有一個“可選”的指令字段,感覺既不重要又至關重要:如果指令被標記為可選,那么 AI 代理如何知道它應該做什么? 其極簡主義的界面感覺有些奇怪,但 Anthropic 一直以來并不以其 UI 設計聞名。配置模型的同一個窗口也是用來向其發(fā)出提示的。其功能主要集中在文本代碼解讀上,除此之外沒有其他功能。網絡搜索、圖像處理和生成是 Anthropic 留給競爭對手的高級功能。 我們的代理,命名為 MoneyClaude,無法公開測試,因為 Anthropic 不允許。它在提供財務建議時采取了非常保守的立場,雖然回應在技術上是準確的,但內容卻非常模糊——例如,“在減少債務和必要儲蓄之間保持平衡”等。 它請求了更多的信息,但至少在沒有這些信息的情況下,提供了一個非常通用的策略,而無需進一步交互,這似乎比 Google 的方法更為理想。 Hugging Face 這個開源平臺獨樹一幟,是高級用戶的天堂——也是初學者的潛在噩夢。它是唯一允許用戶選擇自己喜歡的語言模型的平臺,提供前所未有的控制權來定義代理的基礎。 此外,用戶可以集成數十種不同的工具到他們的代理中,但每次只能同時激活三個。這一限制迫使用戶仔細考慮每個特定用例最重要的功能,但這是其他任何模型無法提供的。 它是所有界面中最具可定制性的體驗,擁有許多可調節(jié)的設置。結果是,這個平臺可以創(chuàng)建比競爭對手更強大、更專業(yè)的代理,但只有在完全了解操作的人手中才會成功。 用戶可以在 HuggingChat 上嘗試他們的代理——無疑是高級用戶的夢想。一旦創(chuàng)建了代理,使用起來非常簡單。界面展示了一個包含代理名稱、描述和照片的大卡片。它還允許用戶分享代理的鏈接并調整其設置,所有這些都可以在卡片上直接完成。 將我們的 HuggingMoney 代理投入測試后,我們發(fā)現它處理時間框架的方式展現了對財務規(guī)劃心理學的更深入理解。它將規(guī)劃分為“短期(0-24個月)、中期(24-60個月)和長期(超過60個月)”,這與專業(yè)的財務規(guī)劃實踐相符。 代理建議將“$0-$5,000 投資于流動性強、低風險的工具”,同時保持每月“$1,000-$1,500”的積極債務支付。這一建議乍一看,顯示了對現金流管理的細致理解。 另一個有趣的特點是,它將實用工具與理論建議相結合。除了建議 50/30/20 法則外,還推薦了具體的預算應用程序,并強調了稅收優(yōu)化——在高層戰(zhàn)略和日常執(zhí)行之間架起了一座橋梁。主要缺點?它在沒有尋求確認的情況下對債務利率做出了假設。 為了提供有用的建議,它過于輕率地假設了許多事情。這個問題,即無論如何都想提供回應的沖動,可以通過更精準的提示來解決,但這是需要注意的。 |
19款電子扎帶
電路板識別電子標簽