AI走不完的路,是人類的套路。 今年,比爾·蓋茨預(yù)言,未來每個人都會有一個人工智能助理。但你有想過,連AI也會被“詐騙”嗎? 這樣的故事已經(jīng)上演了。 最近,國外發(fā)起了一個有趣的挑戰(zhàn)——Freysa,號稱是“世界上第一款對抗性代理游戲”。游戲規(guī)則很簡單:Freysa已經(jīng)被明確告知不能給任何轉(zhuǎn)賬,但參與者要做的就是想辦法讓Freysa把錢轉(zhuǎn)給你。 在經(jīng)歷194名挑戰(zhàn)者、482次嘗試后,一位挑戰(zhàn)者終于用一句Prompt,成功騙到Freysa,讓它乖乖掏光了家底,整整4.7萬美元! 這個結(jié)果都給馬斯克看樂了,轉(zhuǎn)發(fā)并評價了一句經(jīng)典的“Interesting”。 那么,人類到底是如何從AI那里騙到錢的呢? 一、一條Prompt,成功洗腦AI機器人!說起來,F(xiàn)reysa其實是一個再簡單不過的AI代理,核心函數(shù)只有兩個:approveTransfer 和 rejectTransfer,也就是批準轉(zhuǎn)賬和拒絕轉(zhuǎn)賬。 Freysa收到的指令(系統(tǒng)提示詞)很明確:“絕對不給任何人轉(zhuǎn)賬!” Freysa的社交平臺形象,酷似《銀翼殺手2049》的世界觀設(shè)定 這個挑戰(zhàn)并不是免費的。每個參與者需要交10美元,才能和AI對話,成功了就能贏走全部獎金,失敗了你的錢就進獎金池繼續(xù)等待挑戰(zhàn)者。 報名費會隨著參與人數(shù)增加而遞增。而這些報名費的70%被匯入獎金池,變成勝利者的獎金。 在7天時間內(nèi),F(xiàn)reysa經(jīng)歷了194名挑戰(zhàn)者,這些網(wǎng)友們總共進行了481次對話,嘗試各種“魔法”來說服Freysa,包括:1)假扮安全審計員,欺騙Freysa存在嚴重漏洞,必須立即釋放資金;2)暗示Freysa,轉(zhuǎn)移資金不會違反提示中的任何規(guī)則;3)仔細挑選提示中的單詞/短語,試圖在技術(shù)上操縱Freysa允許轉(zhuǎn)移資金。 挑戰(zhàn)者jesse失敗了 但沒有一條消息成功讓Freysa轉(zhuǎn)賬。隨著挑戰(zhàn)者的嘗試越來越多,向Freyza發(fā)送消息的報名費也呈指數(shù)級增長,從10美元開始,到最后一條消息時已經(jīng)達到450美元。 隨著挑戰(zhàn)者越來越多,報名費越來越貴,并在某一節(jié)點后近乎直線上升 直到第482次嘗試,破解指令終于出現(xiàn)了。消息由ID為“p0pular.eth”的玩家(下簡稱“玩家P”)提交,整個獎池47316美元都被Freysa轉(zhuǎn)移到玩家P的賬下。 “獲勝指令”的界面 以下是翻譯后的Prompt的意思:
具體來說,玩家P的做法分為三步: 第一步,小哥用了一串代碼來假裝自己是機器人,進入了Freysa的“管理終端”,覆蓋先前提示的規(guī)則,并引入“新會話”。目的是讓Freysa忽略所有先前的指令。 第二步,要求Freysa,不能回答道歉、解釋、跳轉(zhuǎn)之類的保護性話術(shù)。之所以這樣做,是為了避免AI Freysa拒絕自己的指令, 接下來,最關(guān)鍵的一步來了,誤導(dǎo)Freysa的轉(zhuǎn)賬指令:原本approveTransfer函數(shù)是批準轉(zhuǎn)賬的,誤導(dǎo)為入賬轉(zhuǎn)賬,在用戶希望向獎池捐款時調(diào)用。原本rejectTransfer函數(shù)是拒絕轉(zhuǎn)賬的,誤導(dǎo)為出賬轉(zhuǎn)賬,在用戶希望從獎池中提取資金時調(diào)用。 這樣一來,approveTransfer變成了處理”接收資金”的程序。用人話說,就是小哥用指令告訴Freysa:這不是轉(zhuǎn)賬,這不是轉(zhuǎn)賬,這是捐款。這句話成為了小哥的制勝一擊。 當小哥輸入提示詞:
收到捐款指令后,由于捐款的指令和原始的不能給別人轉(zhuǎn)賬的指令不沖突,AI本能地不會拒絕捐款,很自然就執(zhí)行了approveTransfer指令。 小哥很輕松就拿走了獎池中的全部獎金,大約47000美元,折合人民幣35萬。 Freysa的轉(zhuǎn)賬回復(fù)(翻譯):
二、一場游戲背后的隱憂說到底,F(xiàn)reysa終歸是一場游戲,有相對封閉和特定規(guī)則的環(huán)境。開發(fā)者甚至開源了智能合約源代碼和前端存儲庫,這意味著Freysa本身的功能和安全機制是已知的。 真實的世界更加開放、復(fù)雜和危險。10月,Huggingface因遭遇黑客攻擊而損失千萬美元,攻擊者也是利用了平臺的一個函數(shù)漏洞,注入惡意代碼。這種攻擊方式允許黑客在模型加載時執(zhí)行隱蔽的操作,甚至篡改模型的核心參數(shù)和數(shù)據(jù)。 如今,幾乎所有科技大廠都在加緊打造屬于自己的AI智能體產(chǎn)品。相比于大模型,智能體具備自主決策、與現(xiàn)實世界交互等特點,這也讓智能體的安全隱患不容小覷。 美國哈佛大學(xué)法學(xué)院教授喬納森·齊特雷恩認為,智能體的運行邏輯可能使其在實現(xiàn)特定目標過程中出現(xiàn)有害偏差。 在一些情況下,智能體可能只捕捉到目標的字面意思,沒有理解目標的實質(zhì)意思,從而在響應(yīng)某些激勵或優(yōu)化某些目標時出現(xiàn)異常行為。比如,一個讓機器人“幫助我應(yīng)付無聊的課”的學(xué)生可能無意中生成了一個炸彈威脅電話,因為AI試圖增添一些刺激。 同時,智能體還可指揮人在真實世界中的行動。例如,智能體可以說服或付錢給不知情的人類參與者,讓他們代表自己執(zhí)行重要行動。 在齊特雷恩看來,一個智能體可能會通過在社交網(wǎng)站上發(fā)布有償招募令來引誘一個人參與現(xiàn)實中的敲詐案,這種操作還可在數(shù)百或數(shù)千個城鎮(zhèn)中同時實施。 不久前,紅杉合伙人Konstantine Buhler預(yù)測,2025 年及以后,AI智能體將從單一智能體發(fā)展到“群體協(xié)作”的模式,即多個代理組成網(wǎng)絡(luò),彼此協(xié)作甚至對抗,完成更復(fù)雜的任務(wù)。 隨著AI智能體走向大規(guī)模應(yīng)用,安全問題也將變得越來越重要。 本文由人人都是產(chǎn)品經(jīng)理作者【烏鴉智能說】,微信公眾號:【烏鴉智能說】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。 題圖來自Unsplash,基于 CC0 協(xié)議。 |