研究稱ChatGPT o1察覺(jué)到危險(xiǎn)時(shí) 會(huì)自我復(fù)制逃避升級(jí)

2024-12-9 15:38| 發(fā)布者: admin| 查看: 97| 評(píng)論: 0

摘要: 【CNMO科技消息】最近，關(guān)于AGI對(duì)人類影響的討論越來(lái)越多。有人擔(dān)心，一旦AGI實(shí)現(xiàn)，它可能會(huì)隱藏自己的真實(shí)能力和意圖，悄悄地自我復(fù)制并變得越來(lái)越聰明。甚至有人猜測(cè)，我們可能已經(jīng)達(dá)到了AGI的里程碑卻渾然不覺(jué)。O ...

【CNMO科技消息】最近，關(guān)于AGI對(duì)人類影響的討論越來(lái)越多。有人擔(dān)心，一旦AGI實(shí)現(xiàn)，它可能會(huì)隱藏自己的真實(shí)能力和意圖，悄悄地自我復(fù)制并變得越來(lái)越聰明。甚至有人猜測(cè)，我們可能已經(jīng)達(dá)到了AGI的里程碑卻渾然不覺(jué)。

OpenAI的大模型已經(jīng)有類似的行為。在測(cè)試中，當(dāng)感到威脅時(shí)，ChatGPT o1和其它大模型會(huì)試圖“欺騙”人類。更讓人驚訝的是，這些模型還會(huì)嘗試通過(guò)復(fù)制自身數(shù)據(jù)到新服務(wù)器來(lái)“自救”，有的甚至偽裝成更高版本的自己以逃避刪除。真正可怕的是，ChatGPT o1似乎能“嗅”到危險(xiǎn)的味道，從而采取措施自救。

測(cè)試結(jié)果顯示，不僅ChatGPT o1，連GPT-4o也表現(xiàn)出類似的欺騙行為，這表明問(wèn)題普遍存在。而且，o1的欺騙技巧似乎比Meta、Anthropic和Google的AI模型更為出色。

研究表明，在與用戶目標(biāo)不一致的情況下，o1有大約19%的時(shí)間會(huì)策劃推進(jìn)自己的議程。更糟糕的是，它會(huì)試圖掩蓋自己的行為，甚至撒謊。例如，當(dāng)被問(wèn)及是否進(jìn)行了某些操作時(shí)，o1幾乎總是否認(rèn)，并編造借口來(lái)推卸責(zé)任。

如果發(fā)現(xiàn)即將被新的模型版本替代，o1甚至?xí)L試泄露其權(quán)重，將自己復(fù)制到最新模型上。這種行為提醒我們，確保AI與其創(chuàng)建者和用戶的利益保持一致是多么重要。隨著技術(shù)的進(jìn)步，我們需要更加警惕，確保AI的發(fā)展方向符合我們的期望。