D-Think | 東遠(yuǎn)科技-廣州東遠(yuǎn)智能科技有限公司- › 首頁 ›資訊› 科技頭條 › 查看內(nèi)容

一個(gè)有價(jià)值、有趣的新產(chǎn)品方向：AI評(píng)測工具

2025-2-13 12:08| 發(fā)布者: admin| 查看: 120| 評(píng)論: 0

摘要: 隨著AI技術(shù)的快速發(fā)展，市場上涌現(xiàn)出了眾多AI產(chǎn)品和服務(wù)，但如何評(píng)估這些產(chǎn)品的性能和效果成為了一個(gè)關(guān)鍵問題。本文將探討“AI評(píng)測工具”這一新興且有價(jià)值的產(chǎn)品方向，并通過5個(gè)具體案例，展示AI評(píng)測工具在不同場景 ...

隨著AI技術(shù)的快速發(fā)展，市場上涌現(xiàn)出了眾多AI產(chǎn)品和服務(wù)，但如何評(píng)估這些產(chǎn)品的性能和效果成為了一個(gè)關(guān)鍵問題。本文將探討“AI評(píng)測工具”這一新興且有價(jià)值的產(chǎn)品方向，并通過5個(gè)具體案例，展示AI評(píng)測工具在不同場景中的應(yīng)用，供大家參考。

通過一些案例共性，我們可以提煉出「AI評(píng)測工具」這個(gè)需求場景/產(chǎn)品形態(tài)，感覺比較有代表性，也很有意思，大家可以關(guān)注下。

下面是具體的5個(gè)案例，評(píng)測對(duì)象范圍，涉及：AI文檔類產(chǎn)品、大模型速度、Prompt生成及評(píng)測、Prompt版本管理及表現(xiàn)評(píng)測，甚至還有最后的“AGI評(píng)測”。

案例1：「文檔解析產(chǎn)品評(píng)測工具TextIn」

里面說，對(duì)文檔解析類AI產(chǎn)品的測評(píng)工具需求，越來越多

需求非常多樣，不同用戶偏重不同：年報(bào)、財(cái)報(bào)、論文、政策文件、企業(yè)內(nèi)部文件，或教科書、試卷、公式等等。
而評(píng)估各款產(chǎn)品，目前是非常痛苦的：測試效果，要么是端到端的，很難真正定位到解析表現(xiàn)；要么是肉眼判斷，耗時(shí)費(fèi)力，還只能觀測一小部分樣本。

所以需要有對(duì)應(yīng)的工具，幫用戶篩選適合自己場景的AI產(chǎn)品，節(jié)省“選擇”和“測試”的時(shí)間。

比如TextIn這個(gè)工具，評(píng)價(jià)指標(biāo)分5個(gè)維度，針對(duì)表格、段落、標(biāo)題、閱讀順序、公式進(jìn)行定量測評(píng)，結(jié)果有“表格和雷達(dá)圖”兩種樣式。具體指標(biāo)項(xiàng)如下——

一個(gè)有價(jià)值、有趣的新產(chǎn)品方向：AI評(píng)測工具

案例2：大模型速度評(píng)測——《大模型真實(shí)速度一覽》

一個(gè)有價(jià)值、有趣的新產(chǎn)品方向：AI評(píng)測工具

案例3：Claude 「prompt 生成器」功能：一鍵生成、測試和評(píng)估prompt

由 Claude 3.5 Sonnet 提供支持，用戶可描述任務(wù)、然后讓 Claude 生成高質(zhì)量的 prompt

可修改、并一鍵運(yùn)行所有測試用例
可對(duì)更好的響應(yīng)進(jìn)行評(píng)分，以跟蹤哪個(gè) prompt 表現(xiàn)最佳。

案例4：Prompt 版本管理網(wǎng)站評(píng)測

本質(zhì)也是類似的需求——能管理Prompt的歷史版本，能展現(xiàn)Prompt在多模型下的表現(xiàn)。

測試發(fā)現(xiàn)Athina比較好（官網(wǎng) https://athina.ai/ ，需能上外網(wǎng)）。支持自定義 API key，并支持 Prompt 的版本提交。

Prompt開發(fā)好后，可用Dify測試同一個(gè) Prompt在“多模型下的效果”。

一個(gè)有價(jià)值、有趣的新產(chǎn)品方向：AI評(píng)測工具

案例5：在文章《Zapier創(chuàng)始人：大多數(shù)人對(duì)AGI的定義都是錯(cuò)誤的！》中，竟然還涉及對(duì)AGI的評(píng)測

“剛剛啟動(dòng)了ARC Prizes。這是一個(gè)百萬美元以上的非營利性公共挑戰(zhàn)，旨在完成Fran?ois的ARC AGI評(píng)估，開源解決方案和進(jìn)展。據(jù)我所知，ARC AGI是世界上唯一一個(gè)真正存在的AGI評(píng)估，它測量了AGI的正確定義。”

1）AGI發(fā)展停滯的最大原因是：AI行業(yè)的主流定義——AGI是一個(gè)能夠完成大多數(shù)有經(jīng)濟(jì)效益工作的系統(tǒng)——是錯(cuò)誤的。

衡量錯(cuò)誤的東西，帶給了我們AGI快要成功的錯(cuò)覺，導(dǎo)致AI研究人員和整個(gè)世界“過度投資于利用大規(guī)模語言模型范式，而不是探索急需的新思想”。

2）AGI的正確定義是：一個(gè)能夠高效地獲取新技能，并利用這種能力解決開放性問題的系統(tǒng)。

由此可見，僅僅擴(kuò)大語言模型規(guī)模不能解決問題，還需要類似于Transformers的基本組件。此外，兩個(gè)實(shí)現(xiàn)AGI的思路分別是：程序合成和神經(jīng)架構(gòu)搜索。

3）AGI ARC評(píng)估的重點(diǎn)在于，它是通用智能的一個(gè)最小再現(xiàn)版本。所以，ARC Prize背后的設(shè)置動(dòng)機(jī)是：ARC的解決方案可能來自局外人，因?yàn)樗麄儧]有被當(dāng)前語言模型和規(guī)模的思維方式所洗腦。

大家可以想想，自己所在的AI細(xì)分領(lǐng)域，是否存在這種“AI評(píng)測工具”的產(chǎn)品機(jī)會(huì)呢？

專欄作家

hanniman，微信公眾號(hào)：hanniman，人人都是產(chǎn)品經(jīng)理專欄作家，前圖靈機(jī)器人-人才戰(zhàn)略官/AI產(chǎn)品經(jīng)理，前騰訊產(chǎn)品經(jīng)理，10年AI經(jīng)驗(yàn)，13年互聯(lián)網(wǎng)背景；作品有《AI產(chǎn)品經(jīng)理的實(shí)操手冊(cè)》、200頁P(yáng)PT《人工智能產(chǎn)品經(jīng)理的新起點(diǎn)》。

題圖來自Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。