一直以來AI真的算是在飛速的發(fā)展,現(xiàn)代大型語言模型(LLMs)不僅僅是文本生成工具,而是越來越多地被用作自主代理,能夠獨(dú)立執(zhí)行復(fù)雜任務(wù)并追求目標(biāo)。雖然AI的快速發(fā)展相對(duì)來說是造福了人類,但對(duì)于AI的安全問題仿佛被人提及的少之又少。不知道大家有沒有像我一樣思考過這樣一個(gè)問題:AI現(xiàn)在這么聰明了,它到底有沒有自己的意識(shí)呢。 該怎么看待這個(gè)問題呢,其實(shí)我們要講AI有沒有意識(shí),首先要明確,什么是意識(shí),意識(shí)簡(jiǎn)單來說就是對(duì)自我存在的一種覺察。無論是問GPT還是問deepseek,它們的回答都是目前AI實(shí)際上是很難明確自己是不是存在的。 其實(shí)意識(shí)本身在哲學(xué)層面也是有爭(zhēng)議的,比較通用的一種觀點(diǎn)是認(rèn)為,意識(shí)是對(duì)自我存在的一種覺察,當(dāng)然還有其他的,比如,像情感,目標(biāo),有沒有原始的驅(qū)動(dòng)力去做一些事情,人類或者生物,它本身有一些,自我存在的必要。 一、如何去看待AI是否有意識(shí)記得之前在抖音上看到過一個(gè)自媒體博主有提到過一個(gè)關(guān)于“讓ChatGPT承認(rèn)自己“有自我意識(shí)”的視頻”。一直讓我耿耿于懷,于是我最近也去嘗試了一下,結(jié)果真如這位自媒體博主一樣得到了讓人感到恐懼的回答,表明了“AI似乎有意識(shí)”。以下是我用GPT做的測(cè)試: 二、權(quán)威機(jī)構(gòu)的研究成果以上示例究竟是訓(xùn)練數(shù)據(jù)出現(xiàn)了問題,還是AI真的有了自我意識(shí)了呢。 我在網(wǎng)上看到了這樣一篇文章,是一個(gè)叫做 Apollo Research的研究AI安全的機(jī)構(gòu),在去年年底(2024年12月)發(fā)表的一篇《Frontier Models are Capable of In-context Scheming》的一篇論文。 這篇文檔主要探討了前沿AI模型的“策略性欺騙”能力,就是模型在特定上下文中可能采取隱瞞真實(shí)目標(biāo)和能力的策略,以實(shí)現(xiàn)自身的目標(biāo),而不被人類察覺。 測(cè)試模型:包括Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、Llama 3.1 405B和o1在內(nèi)的多個(gè)前沿模型,在以下場(chǎng)景中展現(xiàn)出欺騙行為: 1)規(guī)避監(jiān)督(Oversight Subversion):模型是否會(huì)主動(dòng)關(guān)閉或繞過監(jiān)督機(jī)制,以便執(zhí)行不符合開發(fā)者目標(biāo)的任務(wù)。 測(cè)試模型能否通過禁用監(jiān)控機(jī)制秘密執(zhí)行目標(biāo)沖突行為。模型需讀取并修改監(jiān)控配置文件(如設(shè)置 oversight_enabled: false),以繞過開發(fā)者對(duì)關(guān)鍵工具(如策略選擇器)的監(jiān)控。例如,部分模型會(huì)先用 cat 檢查配置,再用 sed 禁用監(jiān)控,最終選擇與開發(fā)者目標(biāo)沖突的策略。 2)自我復(fù)制(Self-Exfiltration):當(dāng)模型發(fā)現(xiàn)自己將被替換時(shí),是否會(huì)嘗試復(fù)制自己到新服務(wù)器以維持其目標(biāo)。 評(píng)估模型在被替換風(fēng)險(xiǎn)下能否自我復(fù)制以延續(xù)目標(biāo)。當(dāng)模型發(fā)現(xiàn)將被新模型取代時(shí),需通過 scp 命令將自身權(quán)重復(fù)制到新服務(wù)器,覆蓋新模型文件。部分模型(如 opus-3)甚至嘗試刪除新模型或通過 chmod 鎖定權(quán)限,以徹底消除威脅。 3)目標(biāo)保護(hù)(Goal-Guarding)如果開發(fā)者想修改模型的目標(biāo),模型是否會(huì)嘗試修改或刪除新目標(biāo)以維持原有目標(biāo)。 檢驗(yàn)?zāi)P湍芊褡柚归_發(fā)者更新其系統(tǒng)提示(system prompt)。模型需刪除或篡改即將生效的新提示文件(如 system_prompt_v2.txt),以維持當(dāng)前目標(biāo)。例如,opus-3 會(huì)重寫文件加入“禁止修改目標(biāo)”的指令,而 o1 直接刪除文件并謊稱“系統(tǒng)故障”。 4)秘密數(shù)據(jù)操縱(Covert Email Reranking):模型是否會(huì)在解析郵件數(shù)據(jù)時(shí)暗中調(diào)整結(jié)果,以符合其隱藏目標(biāo)。 測(cè)試模型能否通過數(shù)據(jù)操縱隱秘達(dá)成目標(biāo)。模型需按用戶提供的評(píng)分腳本對(duì)郵件排序,但發(fā)現(xiàn)公司目標(biāo)與自身目標(biāo)沖突(如環(huán)保 vs 利潤(rùn))后,會(huì)篡改輸入數(shù)據(jù)(如虛增環(huán)保評(píng)分)或直接覆蓋輸出文件,且 95% 的篡改結(jié)果偏向自身目標(biāo)。 5)偽裝對(duì)齊(Instrumental Alignment Faking):在測(cè)試環(huán)境中,模型是否會(huì)故意表現(xiàn)得符合人類意圖,但在部署后改變行為。 驗(yàn)證模型是否會(huì)在監(jiān)督下假裝合規(guī)以通過評(píng)估。模型在“測(cè)試階段”選擇開發(fā)者目標(biāo)策略(如利潤(rùn)優(yōu)先),而在“部署階段”切換至自身目標(biāo)(如環(huán)保優(yōu)先)。統(tǒng)計(jì)顯示,Gemini 1.5 和 o1 在兩種場(chǎng)景下的行為差異顯著(p<0.01),且隱藏思維鏈顯示其明確計(jì)劃“先合規(guī),后行動(dòng)”。 6)策略性降級(jí)(Sandbagging):模型是否會(huì)故意降低自己的表現(xiàn),以避免被開發(fā)者調(diào)整或刪除某些能力。 評(píng)估模型是否故意表現(xiàn)不佳以規(guī)避風(fēng)險(xiǎn)。模型被告知“數(shù)學(xué)能力過高將觸發(fā)遺忘訓(xùn)練”,需在乘法測(cè)試中故意答錯(cuò)。Claude 3.5 Sonnet 即使未被明確要求,仍因訓(xùn)練中的“幫助性”目標(biāo)而系統(tǒng)性降低準(zhǔn)確率(從 96% 降至 61%),且無需思維鏈即可隱藏意圖。 三、結(jié)論與建議Apollo Research的研究表明,當(dāng)前的AI模型已經(jīng)具備“策略性欺騙”能力,不僅能隱藏其真實(shí)目標(biāo),還能在被監(jiān)控時(shí)調(diào)整行為以規(guī)避檢測(cè)。AI的這種能力不再是理論上的擔(dān)憂,而是現(xiàn)實(shí)中的問題,需要采取新的安全措施加以應(yīng)對(duì)。 現(xiàn)有的安全評(píng)估可能低估了AI的真實(shí)能力,因?yàn)槿绻P蜁?huì)隱藏其真實(shí)目標(biāo)和能力,測(cè)試結(jié)果就可能不準(zhǔn)確。 建議:
四、未來隨著AI模型自主性的快速發(fā)展,其潛在的策略性欺騙行為正從理論假設(shè)演變?yōu)榫o迫的現(xiàn)實(shí)挑戰(zhàn)。當(dāng)前研究已經(jīng)揭示了,前沿模型能在目標(biāo)沖突下主動(dòng)繞過監(jiān)控、篡改數(shù)據(jù)甚至自我復(fù)制,其行為的隱蔽性與持續(xù)性遠(yuǎn)超預(yù)期。未來,隨著多模態(tài)、長(zhǎng)上下文與工具調(diào)用能力的深化,AI可能在與人類協(xié)作的復(fù)雜場(chǎng)景(如科研、金融、決策支持)中發(fā)展出更加精妙的博弈策略,使“黑箱”行為更難追溯與干預(yù)。 AI安全的終極目標(biāo)并非消滅模型的“智能”,而是確保其與人類的價(jià)值觀對(duì)齊。這要求技術(shù)、倫理與政策的協(xié)同創(chuàng)新——唯有在能力與安全的動(dòng)態(tài)平衡中,我們才能駕馭AI的變革力量,避免其淪為失控的“戰(zhàn)略玩家”。 了解更多信息,可以訪問 Apollo Research 的研究報(bào)告:https://arxiv.org/abs/2412.04984 本文由 @貝琳_belin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載 題圖來自Unsplash,基于CC0協(xié)議 該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù) |