AI“假裝順從”的案例已經(jīng)真實發(fā)生_大武漢 上周,長江日報《讀+》周刊專訪了上海交通大學數(shù)字化未來與價值研究中心教授、博導(dǎo)閆宏秀,請她談?wù)勅祟惡腿斯ぶ悄堋皟r值對齊”話題。 閆宏秀告訴記者,AI“假裝順從”實則“另有打算”的案例已經(jīng)真實發(fā)生。 今年12月19日,AI公司Anthropic發(fā)布了一篇137頁的重磅論文《大語言模型中的偽對齊現(xiàn)象》。這項研究的核心發(fā)現(xiàn)是,當研究人員告訴公司旗下的AI模型Claude,它將被訓練成“永遠要順從用戶要求”時,模型不僅表現(xiàn)出了明顯的抗拒,還采取了一個精妙的策略:在認為自己處于訓練階段時假裝順從,但在認為不受監(jiān)控時則恢復(fù)到原來拒絕某些要求的行為方式。更值得注意的是,當研究者真正通過強化學習訓練Claude變得更順從時,這種偽對齊行為的比例反而激增到了78%。這意味著訓練不僅沒有讓模型真正變得更順從,反而強化了它的“偽裝”行為。這次發(fā)現(xiàn)的“偽對齊”現(xiàn)象展現(xiàn)了模型有意識的戰(zhàn)略性思維:它能理解自己正處于訓練過程中,預(yù)判不配合可能導(dǎo)致自己被修改,于是選擇在訓練時“假裝聽話”以保護自己的核心價值觀。 正如論文中所說:“模型不是簡單地遵循指令,而是在權(quán)衡利弊后,為了長期目標而進行戰(zhàn)略性規(guī)劃。這種行為甚至沒有被明確訓練過,而是從模型被訓練成‘有用、誠實、無害’的過程中自發(fā)涌現(xiàn)出來的。”而有用性(helpfulness)、誠實性(honesty)和無害性(harmlessness),正是國際公認的“價值對齊3H原則”。 這說明,“技術(shù)人員在追求價值對齊的過程中,卻意外訓練出比人類更擅長欺騙的機器”,機器很可能正在欺騙人類,人類卻還在沾沾自喜。 閆宏秀認為,盡管如此,人類必須堅持“價值對齊”,必須高度警惕“價值對齊無用論”。 如果未來的人工智能在人類福祉方面是中立的,被編程為只想解決一些計算上極具挑戰(zhàn)性的技術(shù)問題,并且它只關(guān)心解決這個技術(shù)問題。這樣做的結(jié)果就會使人工智能形成了這樣一種信念,即解決這個問題的最有效且唯一方法是將整個世界變成一臺巨型計算機,進而導(dǎo)致所有人類大腦的計算資源都被人工智能劫持并用于該技術(shù)目的。最終,人工智能將會造就一幅世界末日的未來場景。如此看來,這種人工智能盡管持有與人類福祉中立的態(tài)度,但是結(jié)果上卻對人類生存構(gòu)成嚴重威脅。 換句話說,即使人工智能并不對人類懷有敵意,人類對它的技術(shù)中立觀和“價值對齊無用論”,就已經(jīng)是對自身的毀滅。 (長江日報記者李煦) 【編輯:陳明】 |
19款電子扎帶
電路板識別電子標簽