過(guò)年期間想必各位都被Deepseek刷屏了吧,各種鋪天蓋地的消息席卷而來(lái),什么干掉OpenAI、干掉美國(guó)、干掉所有人。 雖然實(shí)際上先干掉的是Deepseek的服務(wù)器。 這說(shuō)明巨大的流量背后是人們對(duì)AI巨大的期望,或者是困惑——“如今的AI能怎么樣賦能我/我的團(tuán)隊(duì)/我的企業(yè)?” 關(guān)于這個(gè)困惑,個(gè)人覺(jué)得不僅僅是在Deepseek這一波里面存在,而是在AI的迭代日新月異的當(dāng)下,每一個(gè)人無(wú)時(shí)無(wú)刻都會(huì)沉浸在類似于“AI發(fā)展到哪里了”、“現(xiàn)在AI現(xiàn)在對(duì)我有什么用”的焦慮當(dāng)中。因?yàn)槿绻鹊紸I應(yīng)用在我們自身的領(lǐng)域普及的時(shí)候,已經(jīng)是“我們要被淘汰”的時(shí)候了。 就拿我經(jīng)常折騰的AI視頻來(lái)舉例子。 2024年AI視頻生成技術(shù)可謂發(fā)展超級(jí)迅猛,涌現(xiàn)了不少AI視頻生成廠商,比如可靈、Sora、即夢(mèng)、Pika……一開始各家的能力還非常垃圾,我還以為“AI視頻領(lǐng)域或許還要等個(gè)幾年才能在業(yè)務(wù)用上”,但是僅僅過(guò)了半年,業(yè)務(wù)的同學(xué)就已經(jīng)可以把AI視頻結(jié)合業(yè)務(wù)用起來(lái)了。 放點(diǎn)成品可能直觀點(diǎn),同樣是生成皇宮,如今的可靈簡(jiǎn)直是吊打半年前的可靈。 這意味著,身處浪潮之中的每個(gè)人,如果不想被淘汰,必須得時(shí)事跟進(jìn),定期測(cè)試。這里的測(cè)試目的在于: 1.了解AI廠商從X.0版本迭代到X.1版本,對(duì)于我們的業(yè)務(wù)而言,提升了什么? 2.了解多個(gè)AI廠商之間最新版本的區(qū)別,哪個(gè)廠商對(duì)于我們的業(yè)務(wù)而言具有更高的效用? 從而保證我們能夠“貼合業(yè)務(wù)需要”地跟進(jìn)“AI的發(fā)展” 可能會(huì)有人提出疑問(wèn)。
我們無(wú)法從廠商給出的介紹中獲取答案,因?yàn)樗麄冎粫?huì)含糊地描述為“更好”(如下圖),那在哪些方面更好呢?有多好呢?這些我們是沒(méi)法知道的。
目前的確有一些組織會(huì)進(jìn)行AI大模型評(píng)分,通過(guò)一系列標(biāo)準(zhǔn)化的測(cè)試來(lái)衡量其在不同任務(wù)上的表現(xiàn)。比如SuperCLUE這個(gè)第三方評(píng)測(cè)機(jī)構(gòu),就會(huì)定期出題進(jìn)行測(cè)試,從而判斷各家大模型在他們定制的維度下的表現(xiàn),并得出最終的評(píng)分。 但是這種方式僅僅能幫我們快速篩選掉一些較差的大模型廠商,而其中的評(píng)測(cè)結(jié)果不一定適用于我們,因?yàn)樵u(píng)測(cè)的維度、評(píng)測(cè)的題目不一定符合我們的需求。 比如我們是電商行業(yè),我們使用AI視頻的需求是“商品展示視頻”,在這個(gè)場(chǎng)景下,我們對(duì)AI視頻的“外觀遵循能力”的要求是“XX類商品”的外觀遵循準(zhǔn)確。所以基于“指定題集”的評(píng)測(cè)結(jié)果,可能對(duì)人物、動(dòng)物、汽車等常見(jiàn)的主體外觀識(shí)別準(zhǔn)確,但是在“XX類商品”上不一定準(zhǔn)確,所以不一定適合我們的業(yè)務(wù)場(chǎng)景。 正如智源研究院副院長(zhǎng)兼總工程師林詠華所言,“榜單排名不應(yīng)作為評(píng)價(jià)模型的唯一標(biāo)準(zhǔn)?!绷衷伻A認(rèn)為,用戶在選擇模型時(shí),應(yīng)根據(jù)自身需求和應(yīng)用場(chǎng)景,綜合考慮模型的各項(xiàng)指標(biāo),而非僅僅關(guān)注排名。 而且對(duì)于天天“顛覆”的AI行業(yè)來(lái)說(shuō),依靠第三方平臺(tái)不能讓我們快速跟進(jìn),比如像是SuperCLUE這種平臺(tái),頂多一個(gè)月一次評(píng)測(cè)。 所以這種情況下,我們還是需要進(jìn)行基于業(yè)務(wù)的定制化AI評(píng)測(cè),用我們專有的業(yè)務(wù)題庫(kù)。下面便分享下我的一些心得。 01 測(cè)試核心邏輯先簡(jiǎn)單講講核心的步驟,重點(diǎn)在于結(jié)合業(yè)務(wù)需求,設(shè)計(jì)可被量化的“測(cè)試指標(biāo)”,并設(shè)計(jì)可分為多個(gè)難度的題集。拆分成步驟的話,主要是: 1.初篩; 2.工具熟悉; 3.設(shè)計(jì)評(píng)測(cè)指標(biāo); 4.選取測(cè)試樣本; 5.執(zhí)行并記錄評(píng)分; 02 測(cè)試說(shuō)明及案例那下面具體講一下每一步是如何進(jìn)行的。 1. 初篩——通過(guò)信息采集渠道初篩我們沒(méi)法全部AI廠商都進(jìn)行測(cè)試,因?yàn)闇y(cè)試是需要一定的人力成本以及工具購(gòu)買成本,所以一開始要通過(guò)一些可靠的信息源初篩,避免過(guò)度浪費(fèi)時(shí)間。 那么,有那些可靠的信息源呢? 1)專門的評(píng)測(cè)機(jī)構(gòu) 正如前文提到,專門的評(píng)測(cè)機(jī)構(gòu)會(huì)進(jìn)行大批量的系統(tǒng)化的測(cè)試,我們可以通過(guò)他們的測(cè)試結(jié)果了解到目前能力最強(qiáng)的是什么AI廠商。但是可能會(huì)出現(xiàn)排在前面的幾個(gè)AI分?jǐn)?shù)差不多的情況 這種情況下,我們就要看評(píng)測(cè)機(jī)構(gòu)的各評(píng)分項(xiàng)的分值情況,來(lái)看看“哪家廠商在我們需要的能力上分值更高”。 圖來(lái)源于SuperCLUE官網(wǎng) 比如我們做電商的,我們往往需要“商品展示視頻中的商品不要變形”,所以會(huì)更看重“外觀遵循”這項(xiàng)能力。由此,通過(guò)篩選“外觀遵循”的分值,我們會(huì)發(fā)現(xiàn)Luma的分值是最高的。那么我們便可優(yōu)先測(cè)試Luma。 2)自媒體評(píng)測(cè) 我們也可以通過(guò)各種AI自媒體的評(píng)測(cè)來(lái)獲知“哪些AI可能更適合我們”。但是并非所有自媒體都要相信,我們要警惕以下賬號(hào):
我們選擇自媒體的時(shí)候,要看看“他們是否有一定的粉絲基礎(chǔ)”、“描述方式是否客觀”、“是否有足夠的案例”,從而判斷他們的話是否可信。 3)官方案例 大部分廠商都會(huì)放出一定量的官方案例,有的甚至?xí)泄俜缴鐓^(qū)(比如AI視頻廠商的創(chuàng)意圈)。 因?yàn)檫@些案例必定是經(jīng)過(guò)精挑細(xì)選的,所以我們可從中看到AI廠商能力的“上限”,也能和其他廠商進(jìn)行快速的橫向?qū)Ρ取?br> 4)AI社區(qū):遇事不決,就問(wèn)群里的大佬。 在群聊里,我們可以問(wèn)到一些大佬最真實(shí)的使用體驗(yàn),通過(guò)這些反饋,我們可以快速獲悉“AI在實(shí)際應(yīng)用中的表現(xiàn)”,從而判斷AI是否對(duì)我們的業(yè)務(wù)有幫助。 所以在AI時(shí)代盡可能地拓展信息源,是一項(xiàng)非常重要的事情。 2. 工具熟悉——熟悉工具才能客觀地測(cè)試通過(guò)初篩選出的AI工具后,我們需要對(duì)這些工具有初步的認(rèn)知。不然你可能連工具的50%力量都沒(méi)發(fā)揮出來(lái),卻由于“自己的不熟悉”而給“一個(gè)優(yōu)質(zhì)的工具”評(píng)判為“不合適”。 那如何快速熟悉工具呢? 在這個(gè)時(shí)代,我們最不怕的就是學(xué)不會(huì)工具了。因?yàn)楝F(xiàn)在“教大家用AI賺錢的人”可能比“用AI賺錢的人”還要多,隨便上網(wǎng)一搜,全都是“教你怎么用XX AI”的教程。更懶一點(diǎn)的,隨便上個(gè)知識(shí)付費(fèi)網(wǎng)站,都還能找到手把手教你的。 而且,官方也會(huì)“想盡辦法教會(huì)你”,因?yàn)橛脩粲玫迷胶茫隳芡ㄟ^(guò)優(yōu)質(zhì)案例吸引更多用戶,帶來(lái)更多付費(fèi)。 像是可靈、豆包,他們都提供了“用戶教育”相關(guān)的功能。 可靈有官方教程功能、創(chuàng)意圈的“一鍵同款”功能…… 豆包則提供了提示詞示例功能,用于告知用戶“該AI能做什么”。 但無(wú)論如何,最重要的是,我們要親自上手使用工具。弄臟自己雙手,親自體驗(yàn),不要紙上談兵。 3. 設(shè)計(jì)評(píng)測(cè)指標(biāo)——設(shè)計(jì)“描述工具是否適合我們”的量化標(biāo)準(zhǔn):由于我們是需要對(duì)多個(gè)AI廠商進(jìn)行對(duì)比,而我們對(duì)比的內(nèi)容是偏主觀的“AI生成內(nèi)容”,因此我們需要設(shè)計(jì)一套評(píng)測(cè)指標(biāo),用來(lái)描述“工具是否適合我們”。 那么如何設(shè)計(jì)這套指標(biāo)呢?以下為個(gè)人梳理的步驟~ 1)梳理“滿足業(yè)務(wù)需求的標(biāo)準(zhǔn)”。 并非所有人都能立馬把一個(gè)主觀的事物抽象出“客觀的評(píng)價(jià)”的。所以這里有個(gè)技巧,我們先問(wèn)問(wèn)自己“到底AI生成成什么樣,才能視為滿足業(yè)務(wù)需求呢”? 通過(guò)這個(gè)過(guò)程,我們可以去想象 或者找到一些滿足業(yè)務(wù)需求的案例,從中找到一些共性。 比如在營(yíng)銷文案生成場(chǎng)景,營(yíng)銷文案必須是“創(chuàng)意獨(dú)特的”、“滿足目標(biāo)用戶群體需求的”、“引起情感共鳴的”、“語(yǔ)言流暢清晰的”。 比如在商品展示視頻(圖生視頻)生成場(chǎng)景,生成的成品視頻必須是“清晰的”、“商品外觀前后一致的”、“動(dòng)作指令一致的”。 2)從標(biāo)準(zhǔn)倒推“評(píng)測(cè)維度”。 當(dāng)我們寫好“標(biāo)準(zhǔn)”后,我們倒推“評(píng)測(cè)維度”就很簡(jiǎn)單了。只需要使用一個(gè)中性詞匯對(duì)其描述即可。 繼續(xù)拿上面兩個(gè)案例舉例~ 比如在營(yíng)銷文案生成場(chǎng)景~ 比如在商品展示視頻(圖生視頻)生成場(chǎng)景~ 3)設(shè)計(jì)每個(gè)維度的分值及其分段定義。 最后,我們需要設(shè)計(jì)每個(gè)維度的分值定義。這里定義需要把主觀的事情進(jìn)行“量化”,從而保證最終的分值是客觀的,也保證即使進(jìn)行團(tuán)隊(duì)評(píng)測(cè),也能夠較為公正地進(jìn)行AI工具評(píng)測(cè)。 對(duì)主觀事物進(jìn)行量化的方法無(wú)非是找到其中可被量化定義的事物。 我們可以嘗試從中找到可被量化定義的事物,比如一段文章中的“錯(cuò)別字”、“關(guān)鍵詞”數(shù)量,比如一段文章中有無(wú)“XX錯(cuò)誤”,這些內(nèi)容可以通過(guò)客觀的標(biāo)準(zhǔn)進(jìn)行描述,從而統(tǒng)計(jì)其中的數(shù)量。 像是“錯(cuò)別字”、“關(guān)鍵詞”這類內(nèi)容,是能夠客觀地定義“錯(cuò)別字”、“關(guān)鍵詞”,并從中數(shù)出這些內(nèi)容的數(shù)量。而像是“美麗畫面”的數(shù)量這種“主觀定義”的事物,則無(wú)法用于判斷維度分值的定義。 比如錯(cuò)別字?jǐn)?shù)量可以用來(lái)衡量“生成正確性”,并得出以下標(biāo)準(zhǔn)。 生成正確性
比如“畫面與指令不符合區(qū)域數(shù)量”可以用來(lái)視頻生成AI的“外觀指令遵循”,并得出以下標(biāo)準(zhǔn)。 外觀指令遵循
比如AI是否準(zhǔn)確分類,這種維度其中只有“準(zhǔn)”與“不準(zhǔn)”的說(shuō)法。 分類正確性 當(dāng)然,以上步驟完全可以借力,比如: 1)AI代勞: AI在這些方面還是挺在行的,寫的清晰又全面,我們可以直接描述下業(yè)務(wù),把這個(gè)問(wèn)題甩給AI。 我是一個(gè)電商行業(yè)的從業(yè)者,我想測(cè)試deepseek在廣告文案生成上的效果,現(xiàn)在需要幾個(gè)評(píng)價(jià)維度,幫助我用分?jǐn)?shù)來(lái)衡量deepseek在這里的表現(xiàn)。 請(qǐng)你寫出至少5個(gè)評(píng)價(jià)維度~并給出這5個(gè)維度里面,低分、中等、高分的量化定義。 注意,定義需要可量化! 2)抄第三方評(píng)測(cè)機(jī)構(gòu)標(biāo)準(zhǔn): 直接基于評(píng)測(cè)機(jī)構(gòu)的維度進(jìn)行二次優(yōu)化和修改,修改的內(nèi)容可以結(jié)合業(yè)務(wù)的實(shí)際需求進(jìn)行調(diào)整。 圖來(lái)源于SuperCLUE官網(wǎng) 比如視頻生成場(chǎng)景,我們可以先參考SuperCLUE的指標(biāo),列出“主體外觀畫質(zhì)”、“背景畫面畫質(zhì)”、“主體外觀遵循能力”、“背景畫面遵循能力”、“數(shù)量精準(zhǔn)性”、“空間關(guān)系”、“運(yùn)鏡準(zhǔn)確性”、“單一主體動(dòng)態(tài)準(zhǔn)確性”、“多個(gè)主體動(dòng)態(tài)準(zhǔn)確性”…… 然后假設(shè)我們是電商業(yè)務(wù)的“商品展示”場(chǎng)景,那邊便可拎出“主體外觀畫質(zhì)”、“主體外觀遵循能力”、“運(yùn)鏡準(zhǔn)確性”、“單一主體動(dòng)態(tài)準(zhǔn)確性”這幾個(gè)維度作為我們的測(cè)試重點(diǎn)。 4. 選取測(cè)試樣本——選擇充分且合適的樣本;基于評(píng)測(cè)指標(biāo),使用具有代表性的測(cè)試素材在不同方案上進(jìn)行測(cè)試。這些素材需要具備以下特征: 1)樣本量充分: 我們的樣本不能只有僅僅一兩個(gè),需要達(dá)到一定的量級(jí),使得AI的能力能被充分測(cè)試。 2)貼合評(píng)測(cè)指標(biāo): 所選的樣本需要能夠?qū)υu(píng)測(cè)指標(biāo)進(jìn)行檢驗(yàn),比如測(cè)試AI編程水平的時(shí)候,要檢測(cè)其BUG識(shí)別能力的時(shí)候,至少需要樣本中“有BUG”。 3)對(duì)不同難度的樣本進(jìn)行分類: 多個(gè)樣本其實(shí)也會(huì)有難度之別,所以我們需要對(duì)題庫(kù)進(jìn)行難度分類,避免題目過(guò)難,評(píng)測(cè)結(jié)果分值偏低,最終看不出AI的作用。 對(duì)題庫(kù)進(jìn)行難度分類的方式和“評(píng)測(cè)指標(biāo)設(shè)計(jì)”中的“分值設(shè)置”思路類似,是找到其中的可量化點(diǎn),然后對(duì)其進(jìn)行難度劃分。 比如評(píng)測(cè)文本AI的“錯(cuò)字識(shí)別”能力時(shí),可以直接按樣本中的錯(cuò)字?jǐn)?shù)量進(jìn)行難度劃分。 錯(cuò)字識(shí)別
5. 執(zhí)行并記錄評(píng)分最后,就是將樣本在AI工具上批量測(cè)試,并記錄相關(guān)結(jié)論和截圖。由于這一部分評(píng)價(jià)偏主觀,最好由同一批人進(jìn)行評(píng)價(jià)。 如果樣本中存在不同難度,則最好分批次進(jìn)行測(cè)試,分別記錄不同難度下的分值,以更精細(xì)地判斷AI的能力邊界。 小結(jié)至此,個(gè)人對(duì)于AI評(píng)測(cè)的經(jīng)驗(yàn)便匯總完了,核心是結(jié)合業(yè)務(wù)需求,設(shè)計(jì)可被量化的“測(cè)試指標(biāo)”,并設(shè)計(jì)可分為多個(gè)難度的題集。這套方案也是能一定程度上輔助我們量化判斷“AI能力對(duì)我們業(yè)務(wù)的作用”,幫助我們?cè)谌招略庐惖腁I浪潮下,快速在業(yè)務(wù)中引入AI的關(guān)鍵一步。 本文由人人都是產(chǎn)品經(jīng)理作者【檸檬餅干凈又衛(wèi)生】,微信公眾號(hào):【檸檬餅干凈又衛(wèi)生】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。 題圖來(lái)自Unsplash,基于CC0協(xié)議 |