據(jù)英國《新科學(xué)家》周刊網(wǎng)站11月20日報道,研究人員利用聊天生成預(yù)訓(xùn)練轉(zhuǎn)換器(ChatGPT)采用的人工智能(AI)模型,對1000多名真人進行模擬實驗,成功地以高精度復(fù)制了他們各自獨特的思想與個性。該實驗引發(fā)了以這種方式模擬個人可能帶來的倫理方面擔(dān)憂。 美國斯坦福大學(xué)的樸駿升(音)及其同事想用生成式人工智能工具建立個人模型,以此預(yù)測政府政策變化帶來的影響。過去一直采用基于規(guī)則、過于簡單化的統(tǒng)計模型預(yù)測,但效果有限。 樸駿升說:“我們以前其實必須大大簡化人的行為,才能建立這些模型。我們現(xiàn)在有機會創(chuàng)建真正高保真的個人模型。我們可以打造捕捉到大量復(fù)雜性和獨特性的真人代理?!? 為了打造人工智能生成的代理,研究團隊在美國招募了具有廣泛人口代表性的1052人。每個參與者與語音版GPT-4o進行2小時對談;GPT-4o是驅(qū)動ChatGPT的最先進模型版本。該人工智能模型讓參與者講述他們的生活經(jīng)歷及其對社會問題的看法,按照研究人員給出的基本腳本提問,根據(jù)指令聽取實時回答,并根據(jù)需要調(diào)整其問題。然后,研究人員將每場對談的人工智能生成內(nèi)容輸入GPT-4o的不同實例,要求模型模仿每個人。 研究團隊廣泛測試了每個人工智能代理,包括長期社會態(tài)度調(diào)查(被稱為“綜合社會調(diào)查”),“五大”人格特征評估、五種行為經(jīng)濟博弈以及五種社會科學(xué)實驗。那些真人參與者也接受了兩次相同的測試,間隔時間為兩周。 總體而言,人工智能代理嚴格遵循了參與者對測試的回答。真人參與者在兩次測試中沒有給出相同的回答,兩次“綜合社會調(diào)查”的回答之間的匹配度大約為81%。相應(yīng)的,人工智能代理的回答與真人參與者第一次測試的回答相比,原始準(zhǔn)確率約為69%;考慮到真人參與者兩次測試的回答也不相同,這說明人工智能代理的準(zhǔn)確度實際為85%。其他測試的準(zhǔn)確度雖然略低一些,但也差不多。生成式代理在匹配真人個體回答方面超過了基于人口統(tǒng)計、較為簡單的模型,匹配度比后者高出14個百分點。 樸駿升說,自己的“核心動機”是為決策者提供更好的工具,以更細致的方式、而不是粗線條的人口統(tǒng)計模型,測試其政策建議帶來的影響。雖然有人可能擔(dān)心復(fù)制人類情感的能力將成為營銷人員的獲利金礦,但是生成式代理及其潛在數(shù)據(jù)的應(yīng)用將“嚴格用于學(xué)術(shù)目的”。 英國索爾福德大學(xué)的理查德·惠特爾說:“有效模擬人類行為以測試政策影響,其潛力巨大。對模擬代表組進行競選戰(zhàn)略測試的能力是極其有用的。”他指出,政治家也可以利用這些工具,以比目前使用的焦點小組或民調(diào)等方法更迅速且成本效益更高的方式,測試競選口號。 不過,惠特爾告誡說:“人類行為非常復(fù)雜而且會視情況而變。模擬組也許非常有用,但是如果情況發(fā)生重大變化,人類的回應(yīng)可能仍是首選?!?英國斯塔福德郡大學(xué)的凱瑟琳·弗利克說,這方面過早依賴人工智能代理可能會帶來問題。她說:“雖然這的確是有趣的研究,我認為它存在一些潛在問題。人工智能代理永遠不會理解任何事情,因為它們無法理解置身群體是什么感覺?!保ň幾g/鄭國儀) 來源: 參考消息 |