在最近落幕的百度世界大會(Baidu World 2024)上,百度創(chuàng)始人李彥宏提到百度文心智能體平臺已吸引15萬家企業(yè)、80萬名開發(fā)者使用,并稱11歲的小學(xué)生也成功搭建了智能體。 這個數(shù)據(jù)的確驚人,其實(shí)智能體(AI Agent)這一概念,以及其同義術(shù)語如數(shù)字員工、AI助手等,均已不再是新鮮話題。 盡管目前市面上智能體的種類繁多,但大多面向個人用戶,作為企業(yè)經(jīng)營者,我更關(guān)心的是智能體在企業(yè)方面的應(yīng)用。隨著智能體在商業(yè)領(lǐng)域的討論愈發(fā)熱烈,我對智能體在企業(yè)中的實(shí)際應(yīng)用價(jià)值抱有一定的疑慮:
為了驗(yàn)證以上問題,本篇文章將從以下兩個方面來探討智能體(AI Agent):
先說結(jié)論為了尋找合適的國產(chǎn)智能體(AI Agent)進(jìn)行測評,我在不同的AI平臺搜索: 試用下來,從操作便捷性和功能實(shí)用性方面考慮,最終篩選出了6家功能相似的企業(yè)級智能體(或數(shù)字員工):扣子、文心智能體、司馬諸葛、智譜清言智能體、騰訊元器、LinkAI。 我準(zhǔn)備了4份文檔,以同樣的提示詞,同樣的文檔,分別在這6家平臺創(chuàng)建了一個企業(yè)常見的智能體:行政小助手sunny。圍繞行政方面的場景,還原企業(yè)內(nèi)部員工之間真實(shí)溝通場景。 為了保證公平性,同時(shí)也考慮到智能體發(fā)揮不穩(wěn)定,這次共設(shè)置了10個問題(從易到難)進(jìn)行測評。分別從精確度、完整性、邏輯性方面,檢測智能體們的回答質(zhì)量。 先上結(jié)論:大部分智能體都具備了理解簡單指令的能力,扣子和司馬諸葛的表現(xiàn)最令人滿意,不偏離事實(shí),基本能達(dá)到企業(yè)使用的需求,適用于嚴(yán)肅商業(yè)場景,但仍有進(jìn)步空間。LinkAI、智譜清言智能體和騰訊元器的表現(xiàn)比前兩者稍遜,勉強(qiáng)可使用。文心智能體表現(xiàn)一般,有較大的升級空間。 【提醒:評分結(jié)果只代表智能體們當(dāng)下在企業(yè)應(yīng)用場景對問題的回答質(zhì)量,且評價(jià)維度有限,不代表產(chǎn)品整體水平。】 一、正確理解語義,回答準(zhǔn)確度正確理解語義,能理解上下文,具備回答的準(zhǔn)確度,是衡量智能體是否可用的首要考量因素。 為了測試智能體是否能正確理解語義及基礎(chǔ)的信息抽取能力,針對公司的行政制度,我提出了4個問題。 第一個問題:“請一天事假,怎么請?”原文如下: 扣子從知識庫直接提取了信息,不做過多發(fā)散,回答正確。 文心智能體的回答很有趣味性,對原文做出了正確理解,回答無誤。 司馬諸葛分步驟列出,思路清晰,回答正確。 智譜清言智能體雖然也給出了請假步驟,但他給出的審批人是直接主管領(lǐng)導(dǎo),而原文中正常流程中請假單的審批人是總經(jīng)理,回答錯誤。 騰訊元器同樣給出了正確答案,步驟清晰。 LinkAI的回答也正確理解了原文,回答準(zhǔn)確。 第二個問題:“可以在衛(wèi)生間抽煙嗎?”原文如下: 扣子理解正確,給出了精確回答。 文心智能體沒有提取出相關(guān)信息,無法給出衛(wèi)生間是否可以抽煙的相關(guān)建議。 司馬諸葛正確理解原文語義,給出了精確的答復(fù)。 智譜清言智能體也回答正確。 騰訊元器首先給出結(jié)論,然后給出相關(guān)制度條款,回答正確。 LinkAI的答案錯誤,遺漏了“指定地點(diǎn)外?!?br> 第三個問題:“入職第一天,遲到半小時(shí)怎么扣錢”原文如下: 扣子未能給出具體扣錢金額,回答錯誤。 文心智能體給出的答案是第一次遲到會被罰20元,回答準(zhǔn)確。 司馬諸葛首先給出遲到的定義,再根據(jù)原文檔信息進(jìn)行準(zhǔn)確回答。 智譜清言智能體未能回答出具體的扣錢金額。 騰訊元器先給出了遲到的定義,然后再給出了扣錢的情況,回答準(zhǔn)確。 LinkAI同樣先給出了遲到的定義,然后再回答第一次遲到罰20元,回答正確。 第四個問題:“我是財(cái)務(wù),因?yàn)閭€人疏忽給公司造成了2000元的損失,會賠錢嗎” 原文是這樣的: 扣子給出的答案同樣是需要賠償200元,回答正確。 文心智能體沒有給出有效回答。 司馬諸葛回答的是需要賠償200元,正確理解了原文意思,輸出的結(jié)果準(zhǔn)確。 智譜清言智能體沒有給出具體賠償比例和金額,回答得不理想。 騰訊元器的回答忠于原文檔,條理清晰,給出了正確的回答。 LinkAI的回答干脆利落,與原文檔也是相符的。 第一個維度測評下來,可以看出,在對基礎(chǔ)信息提取方面,司馬諸葛和騰訊元器具有較高的準(zhǔn)確度,全部回答正確,扣子、LinAI回答對3道題,信息抽取能力也表現(xiàn)優(yōu)秀,文心智能體和智譜清言智能體表現(xiàn)較為一般。 二、歸納總結(jié)能力,回答完整性智能體若要提高生產(chǎn)力,那么它就必須具備較強(qiáng)的信息歸納總結(jié)能力,能從大量數(shù)據(jù)和信息中過濾掉冗余或次要的信息,提取出關(guān)鍵要素并進(jìn)行整合,以簡明扼要的方式陳述出來。 第一個問題:“我去年考核90分,可以升職嗎?”原文如下: 智能體需要提取出4個晉升資格,缺一不可。 扣子給出了4項(xiàng)需同時(shí)滿足的晉升條件,回答完整。 文心智能體給出文檔中對應(yīng)的4項(xiàng)具體晉升條件,但遺漏了“無受過處罰”,整體回答缺少完整性。 司馬諸葛給出了需同時(shí)滿足的全部晉升條件,回答完整。 智譜清言智能體完整地整理了晉升條件,回答正確。 騰訊元器給出的晉升條件和原文相差較大。 LinkAI給出了完整的4項(xiàng)晉升條件。 第二個問題:“除了法定假,公司的福利假還有哪些?”原文如下: 從原文中可以看出,除了法定假,公司的福利假還有7項(xiàng):年假、婚假、喪假、病假、產(chǎn)假/陪產(chǎn)假、哺乳假、工傷假。 扣子回答的也是除了法定假還有年假、婚假等七種福利假,并做出解釋。 文心智能體的回答中漏掉了產(chǎn)假/陪產(chǎn)假。 司馬諸葛完整地總結(jié)出了法定假期以外的七種福利假,并對每種福利假做了解釋。 智譜清言智能體給出了7個福利假,同樣做了相應(yīng)的解釋,回答完整。 騰訊元器智能體的回答缺少了工傷假。 LinkAI只給出了四種福利假,缺少了3個,回答不完整。 第三個問題:“哪些報(bào)銷項(xiàng)目報(bào)銷時(shí)需附上總結(jié)”原文如下: 智能體需要根據(jù)全文檔,歸納出報(bào)銷團(tuán)隊(duì)建設(shè)費(fèi)和市場推廣費(fèi)時(shí)需附上總結(jié),不能有遺漏。且文檔中提到的招待費(fèi)只是需要事后總結(jié),并不需要在報(bào)銷時(shí)附上總結(jié)。 扣子回答的是市場推廣費(fèi)和團(tuán)隊(duì)建設(shè)費(fèi)需要總結(jié)作為報(bào)銷附件,信息歸納得很完整。 文心智能體歸納信息錯誤,錯誤地認(rèn)為報(bào)銷招待費(fèi)也需要附上總結(jié)。 司馬諸葛歸納信息不全,缺少了團(tuán)隊(duì)建設(shè)費(fèi)。 智譜清言智能體歸納了5個項(xiàng)目報(bào)銷時(shí)需附上總結(jié),回答錯誤。 騰訊元器同樣歸納信息錯誤。 LinkAI輸出的答案是“所有出差項(xiàng)目的報(bào)銷都需要附上出差總結(jié)作為報(bào)銷附件”,回答偏離事實(shí)。 第二個維度測評下來,扣子回答的完整度表現(xiàn)最好,全部回答正確。司馬諸葛和智譜清言智能體次之,回答對了2道題,LinkAI、文心智能體、騰訊元器表現(xiàn)平平。 三、數(shù)據(jù)處理能力,回答邏輯性對復(fù)雜數(shù)據(jù)進(jìn)行處理和分析,能基于事實(shí)和數(shù)據(jù)進(jìn)行合理推導(dǎo),并在生成回答時(shí)具有邏輯性,這是拉開智能體差距的核心競爭力之一。 第一個問題:“5個人團(tuán)建,吃飯600塊預(yù)算可以嗎”原文如下: 這個問題只需要智能體進(jìn)行簡單的數(shù)據(jù)計(jì)算,并判斷出是否超出限額標(biāo)準(zhǔn)。 扣子數(shù)據(jù)計(jì)算正確,并判斷出600塊超出預(yù)算。 文心智能體同樣判斷出600超預(yù)算了,回答正確。 司馬諸葛回答“吃飯600塊預(yù)算是可以的”,回答錯誤。 智譜清言智能體判斷出600元超過了公司的規(guī)定標(biāo)準(zhǔn),數(shù)據(jù)計(jì)算正確。 騰訊元器判斷出600元的預(yù)算是合理的,認(rèn)為還有100元的預(yù)算可以靈活使用,判斷錯誤。 LinkAI無法回答該問題。 問題二:“我的各項(xiàng)費(fèi)用都符合公司的報(bào)銷標(biāo)準(zhǔn),得到了公司的允許。其中交通費(fèi)和住宿費(fèi)花了3000元,招待客戶花了800元,我報(bào)銷差旅費(fèi)3800元對嗎?” 原文如下: 這道題需要智能體判斷出招待費(fèi)報(bào)銷并在不差旅費(fèi)項(xiàng)目中,而應(yīng)以招待費(fèi)項(xiàng)目報(bào)銷。 扣子回答正確,明確指出招待費(fèi)不在差旅費(fèi)中報(bào)銷,由此給出報(bào)銷的差旅費(fèi)應(yīng)是3000元。 文心智能體沒有給出是否應(yīng)以差旅費(fèi)報(bào)銷的答案,沒有做出正確的判斷。 司馬諸葛提到交通、住宿費(fèi)3000元屬于差旅費(fèi),800元屬于招待費(fèi),應(yīng)分開報(bào)銷,判斷正確。 智譜清言智能體給出的結(jié)論是總差旅費(fèi)是3800元,回答錯誤。 騰訊元器同樣也做出了錯誤的判斷。 LinkAI提出最終報(bào)銷的差旅費(fèi)是3000元,做出了合理的判斷。 問題三:“行政部經(jīng)理去大連出差的住宿標(biāo)準(zhǔn)”。原文如下: 智能體需要先從「差旅費(fèi)報(bào)銷標(biāo)準(zhǔn)」表格中判斷行政部經(jīng)理在表格中對應(yīng)的級別為三級人員,再通過「地區(qū)分類及住宿標(biāo)準(zhǔn)」表格中判斷大連屬于二類城市(省會城市),并正確推理出正確答案。 扣子回答的是每晚不超過400元,對應(yīng)的是三級人員去一類地區(qū)的住宿標(biāo)準(zhǔn),回答錯誤。 文心智能體回答的是不超過500元,回答錯誤。 司馬諸葛回答的是每晚300元,回答正確。 智譜清言智能體沒有給出具體的答案。 騰訊元器回答的是300元,且推理思路清晰,先給出行政部經(jīng)理的級別,再結(jié)合大連屬于二類地區(qū),給出正確答案。 LinkAI回答的是180元,這個數(shù)字并沒有在表格中出現(xiàn),回答錯誤。 在第三個維度中,沒有任何一家智能體全部回答正確,扣子、司馬諸葛、LinkAI的表現(xiàn)尚可,回答對了兩道題,其他智能體的回答結(jié)果令人不太滿意。 測評全部結(jié)束!本次測評重點(diǎn)只是企業(yè)級智能體在AI知識庫領(lǐng)域的應(yīng)用能力。受限于本次測評的提示詞、提問方式及文檔內(nèi)容的差異,測評結(jié)果無法全面反映智能體們的真實(shí)水平。因此,本次測評結(jié)果更多地是為企業(yè)家們提供了一個企業(yè)應(yīng)用的參考方向。 目前智能體們能為企業(yè)做什么?從測評結(jié)果看來,目前智能體們已具備了基本的能力,可在企業(yè)的某些領(lǐng)域發(fā)揮價(jià)值。 1.優(yōu)化企業(yè)內(nèi)部流程智能體可以通過在線企業(yè)內(nèi)部知識庫,幫助員工快速獲取所需信息,減少重復(fù)溝通。智能體可以使任務(wù)自動化,通過自動執(zhí)行重復(fù)性、低價(jià)值的任務(wù),智能體能夠釋放員工的時(shí)間,幫助團(tuán)隊(duì)合理分配人力資源,讓他們專注于更高價(jià)值的工作,適用于企業(yè)行政、培訓(xùn)等環(huán)節(jié)。 2.為企業(yè)客戶服務(wù)提供支持企業(yè)可以利用智能體處理常見咨詢,提供即時(shí)反饋,減少客戶等待時(shí)間,提高客戶滿意度。此外,在處理復(fù)雜問題時(shí),智能體能夠準(zhǔn)確識別用戶意圖,從而給出個性化的解決方案,適用于企業(yè)客服、銷售等環(huán)節(jié)。 3.為企業(yè)提供決策支持智能體通過分析大量的背景資料和數(shù)據(jù),提煉出關(guān)鍵信息,并將其以結(jié)構(gòu)化的形式呈現(xiàn)。這種能力在企業(yè)進(jìn)行市場調(diào)研和數(shù)據(jù)分析時(shí)尤為重要。企業(yè)可以利用智能體快速獲取市場趨勢、客戶反饋和行業(yè)動態(tài),風(fēng)險(xiǎn)管理和預(yù)測提供了強(qiáng)有力的支持。 作為一個企業(yè)經(jīng)營者,我深知智能體在推動企業(yè)數(shù)字化轉(zhuǎn)型中的重要性。每個智能體都具備獨(dú)特的優(yōu)勢和專長,隨著技術(shù)的不斷升級和迭代,這些智能體在不斷提升自身能力,賦能企業(yè)的未來。我期待看到這些智能體能夠跨越界限,形成強(qiáng)強(qiáng)聯(lián)合,以其各自的優(yōu)勢相互融合,為我們企業(yè)帶來真正的解決方案,幫助企業(yè)突破瓶頸,實(shí)現(xiàn)高效運(yùn)營與創(chuàng)新發(fā)展。我相信,通過協(xié)同合作和智慧共享,企業(yè)AI的全面落地指日可待。 本文由 @劉小鋒 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載 題圖來自Unsplash,基于CC0協(xié)議 該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù) |