通過一些案例共性,我們可以提煉出「AI評(píng)測工具」這個(gè)需求場景/產(chǎn)品形態(tài),感覺比較有代表性,也很有意思,大家可以關(guān)注下。 下面是具體的5個(gè)案例,評(píng)測對(duì)象范圍,涉及:AI文檔類產(chǎn)品、大模型速度、Prompt生成及評(píng)測、Prompt版本管理及表現(xiàn)評(píng)測,甚至還有最后的“AGI評(píng)測”。 案例1:「文檔解析產(chǎn)品評(píng)測工具TextIn」里面說,對(duì)文檔解析類AI產(chǎn)品的測評(píng)工具需求,越來越多
所以需要有對(duì)應(yīng)的工具,幫用戶篩選適合自己場景的AI產(chǎn)品,節(jié)省“選擇”和“測試”的時(shí)間。 比如TextIn這個(gè)工具,評(píng)價(jià)指標(biāo)分5個(gè)維度,針對(duì)表格、段落、標(biāo)題、閱讀順序、公式進(jìn)行定量測評(píng),結(jié)果有“表格和雷達(dá)圖”兩種樣式。具體指標(biāo)項(xiàng)如下—— 案例2:大模型速度評(píng)測——《大模型真實(shí)速度一覽》案例3:Claude 「prompt 生成器」功能 :一鍵生成、測試和評(píng)估prompt 由 Claude 3.5 Sonnet 提供支持,用戶可描述任務(wù)、然后讓 Claude 生成高質(zhì)量的 prompt
案例4:Prompt 版本管理網(wǎng)站評(píng)測本質(zhì)也是類似的需求——能管理Prompt的歷史版本,能展現(xiàn)Prompt在多模型下的表現(xiàn)。 測試發(fā)現(xiàn)Athina比較好(官網(wǎng) https://athina.ai/ ,需能上外網(wǎng))。支持自定義 API key,并支持 Prompt 的版本提交。 Prompt開發(fā)好后,可用Dify測試同一個(gè) Prompt在“多模型下的效果”。 案例5:在文章《Zapier創(chuàng)始人:大多數(shù)人對(duì)AGI的定義都是錯(cuò)誤的!》中,竟然還涉及對(duì)AGI的評(píng)測 “剛剛啟動(dòng)了ARC Prizes。這是一個(gè)百萬美元以上的非營利性公共挑戰(zhàn),旨在完成Fran?ois的ARC AGI評(píng)估,開源解決方案和進(jìn)展。據(jù)我所知,ARC AGI是世界上唯一一個(gè)真正存在的AGI評(píng)估,它測量了AGI的正確定義。” 1)AGI發(fā)展停滯的最大原因是:AI行業(yè)的主流定義——AGI是一個(gè)能夠完成大多數(shù)有經(jīng)濟(jì)效益工作的系統(tǒng)——是錯(cuò)誤的。 衡量錯(cuò)誤的東西,帶給了我們AGI快要成功的錯(cuò)覺,導(dǎo)致AI研究人員和整個(gè)世界“過度投資于利用大規(guī)模語言模型范式,而不是探索急需的新思想”。 2)AGI的正確定義是:一個(gè)能夠高效地獲取新技能,并利用這種能力解決開放性問題的系統(tǒng)。 由此可見,僅僅擴(kuò)大語言模型規(guī)模不能解決問題,還需要類似于Transformers的基本組件。此外,兩個(gè)實(shí)現(xiàn)AGI的思路分別是:程序合成和神經(jīng)架構(gòu)搜索。 3)AGI ARC評(píng)估的重點(diǎn)在于,它是通用智能的一個(gè)最小再現(xiàn)版本。所以,ARC Prize背后的設(shè)置動(dòng)機(jī)是:ARC的解決方案可能來自局外人,因?yàn)樗麄儧]有被當(dāng)前語言模型和規(guī)模的思維方式所洗腦。 大家可以想想,自己所在的AI細(xì)分領(lǐng)域,是否存在這種“AI評(píng)測工具”的產(chǎn)品機(jī)會(huì)呢? 專欄作家 hanniman,微信公眾號(hào):hanniman,人人都是產(chǎn)品經(jīng)理專欄作家,前圖靈機(jī)器人-人才戰(zhàn)略官/AI產(chǎn)品經(jīng)理,前騰訊產(chǎn)品經(jīng)理,10年AI經(jīng)驗(yàn),13年互聯(lián)網(wǎng)背景;作品有《AI產(chǎn)品經(jīng)理的實(shí)操手冊(cè)》、200頁P(yáng)PT《人工智能產(chǎn)品經(jīng)理的新起點(diǎn)》。 題圖來自Unsplash,基于CC0協(xié)議。 該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。 |