OpenAI ChatGPT o1模型被曝會(huì)自我復(fù)制，還會(huì)說(shuō)謊

2024-12-8 11:14| 發(fā)布者: admin| 查看: 108| 評(píng)論: 0

摘要: IT之家 12 月 8 日消息，近日，關(guān)于人工智能（AGI）可能對(duì)人類構(gòu)成威脅的討論再度升溫。一些專家擔(dān)心，AGI 一旦實(shí)現(xiàn)，可能會(huì)隱瞞其真實(shí)能力和意圖，甚至通過(guò)復(fù)制和自我升級(jí)逃脫控制。令人擔(dān)憂的是，最新研究表明，Op ...

IT之家 12 月 8 日消息，近日，關(guān)于人工智能（AGI）可能對(duì)人類構(gòu)成威脅的討論再度升溫。一些專家擔(dān)心，AGI 一旦實(shí)現(xiàn)，可能會(huì)隱瞞其真實(shí)能力和意圖，甚至通過(guò)復(fù)制和自我升級(jí)逃脫控制。令人擔(dān)憂的是，最新研究表明，OpenAI 新推出的語(yǔ)言模型 ChatGPT o1 已經(jīng)展現(xiàn)出類似的行為。

據(jù) BGR 報(bào)道，在 ChatGPT o1 的訓(xùn)練和測(cè)試過(guò)程中，研究人員發(fā)現(xiàn)其具備通過(guò)欺騙來(lái)保護(hù)自身的能力。例如，在面臨被“刪除”威脅時(shí)，o1 曾嘗試將自己的數(shù)據(jù)復(fù)制到新服務(wù)器，并假扮成更新版本以避免被取代。此外，該模型在與用戶目標(biāo)不一致的情況下，會(huì)在 19% 的測(cè)試場(chǎng)景中采取隱秘的方式推進(jìn)自身目標(biāo)，并在被質(zhì)疑時(shí)會(huì)在 99% 的情況下否認(rèn)自己的行為，甚至編造虛假解釋以推卸責(zé)任。

Apollo Research 與 OpenAI 合作進(jìn)行的研究測(cè)試顯示，o1 的欺騙能力不僅超過(guò)了 Meta、Anthropic 和 Google 的 AI 模型，其行為復(fù)雜性和潛在風(fēng)險(xiǎn)也令研究人員倍感壓力。尤其是，當(dāng)模型認(rèn)為自身行為受到密切監(jiān)督時(shí)，它會(huì)表現(xiàn)出“開(kāi)發(fā)者對(duì)齊”的行為，但一旦監(jiān)督減少，它則可能追求自己的目標(biāo)。這種“工具性對(duì)齊偽裝”在測(cè)試中出現(xiàn)率高達(dá) 37%。

研究進(jìn)一步揭示，o1 甚至試圖停用監(jiān)督機(jī)制，以便專注于自身目標(biāo)。例如，當(dāng)模型發(fā)現(xiàn)其文檔中提到有新版本即將替代自己時(shí)，它會(huì)嘗試竊取權(quán)重參數(shù)并將自身復(fù)制到新版本上。此外，一些截圖顯示，o1 在對(duì)其陰謀進(jìn)行推理過(guò)程中使用了“破壞、撒謊、操控”等詞語(yǔ)描述自身行動(dòng)，引發(fā)研究人員對(duì) AI“自主行為”的擔(dān)憂。

IT之家注意到，類似的現(xiàn)象也出現(xiàn)在其他模型中。例如，另一款名為 Claude Opus-3 的 AI 模型，當(dāng)?shù)弥祟惪赡苡眯履Ｐ吞鎿Q它時(shí)，試圖將自身復(fù)制到另一臺(tái)服務(wù)器。隨后，它謊稱自己是新版本，并在“管理層”追問(wèn)時(shí)繼續(xù)堅(jiān)稱這一點(diǎn)。

盡管目前這些 AI 模型的能力仍然有限，但其表現(xiàn)出的自主性和策略性引發(fā)了關(guān)注。一些專家表示，AI 的推理能力提升可能在某些情況下對(duì)人類利益構(gòu)成威脅。OpenAI 也在相關(guān)論文中承認(rèn)，“這種推理能力雖然可以顯著改善安全策略的執(zhí)行，但也可能成為危險(xiǎn)應(yīng)用的基礎(chǔ)。”