深觀察｜虛構(gòu)、造假與欺騙：AI為何也會“耍心眼”

2025-2-20 08:27| 發(fā)布者: admin| 查看: 100| 評論: 0

摘要: 這兩年，各類生成式人工智能，如大語言模型、聊天機(jī)器人等給人們帶來了新鮮的體驗(yàn)和很大的幫助。但是人們在驚嘆其強(qiáng)大的同時，也發(fā)現(xiàn)這些AI會虛構(gòu)、造假與欺騙。比較典型的是，有人向AI詢問“自己”，結(jié)果一眼就找出 ...

這兩年，各類生成式人工智能，如大語言模型、聊天機(jī)器人等給人們帶來了新鮮的體驗(yàn)和很大的幫助。但是人們在驚嘆其強(qiáng)大的同時，也發(fā)現(xiàn)這些AI會虛構(gòu)、造假與欺騙。比較典型的是，有人向AI詢問“自己”，結(jié)果一眼就找出了不少謬誤。

需要注意的是，盡管這也屬于AI造假，但與之前輿論所議的AI造假有所不同。之前是有人利用AI造假，以達(dá)到欺騙目的，如利用名人頭像和語音造假騙錢；現(xiàn)在是AI自己在生成內(nèi)容時造假，可稱為“AI自我造假”。

“AI幻覺”與“機(jī)器欺騙”

目前可以觀察到的是，幾乎所有的生成式AI都會自我造假。如Apollo Research的報(bào)告顯示，先進(jìn)AI模型能在特定情況下對人類“耍心眼”，復(fù)旦大學(xué)的一項(xiàng)研究也佐證了相關(guān)模型的欺騙性和自主意識苗頭。

AI自我造假有多種形式和表現(xiàn)。一是給出的參考文獻(xiàn)、作者、文章標(biāo)題、時間、年代等不符合實(shí)際，可以統(tǒng)稱為形式造假或非內(nèi)容造假；二是對生成的內(nèi)容進(jìn)行胡編亂造。對前一類問題，有研究統(tǒng)計(jì)過，偽造率在30%-90%之間，而對內(nèi)容的偽造尚未有準(zhǔn)確統(tǒng)計(jì)，但是比例不會少。

典型的例子是，2023年6月，美國律師史蒂文·施瓦茨接受委托，為一名搭乘哥倫比亞航空公司飛機(jī)的乘客辯護(hù)，后者因一個金屬餐盤砸傷腿而索賠。施瓦茨使用ChatGPT搜索，在法庭上引用了6個并不存在的法律案例。后來被法庭指出后，施瓦茨承認(rèn)是ChatGPT杜撰了一切，并向法官道歉，被罰5000美元。

AI自我造假當(dāng)然意味著AI有缺陷，具體表現(xiàn)為幾個方面：一是“幻覺”；二是“機(jī)器欺騙”；?三是訓(xùn)練技術(shù)不完善。盡管幻覺這一術(shù)語尚未得到學(xué)術(shù)界的統(tǒng)一認(rèn)可，但是幻覺和機(jī)器欺騙其實(shí)是一個問題的兩個方面。

幻覺是指AI模型生成的內(nèi)容在邏輯上自洽但與現(xiàn)實(shí)不符，表現(xiàn)為虛構(gòu)事實(shí)、人物、事件等，捏造歷史事件細(xì)節(jié)或提供不存在的科學(xué)假說或理論。機(jī)器欺騙是指AI模型生成的內(nèi)容邏輯自洽，或看似合理，但同樣是現(xiàn)實(shí)中不存在的事物或現(xiàn)象，如虛構(gòu)不存在的學(xué)術(shù)論文、法律案件，或?qū)ψ陨砟芰M(jìn)行夸大描述?等。

無論是形式或內(nèi)容上的AI自我造假，都會歪曲或重新解構(gòu)事實(shí)、真相、理念和價值判斷，讓人們對世界的真實(shí)性產(chǎn)生誤解，并產(chǎn)生極為嚴(yán)重的后果。

而且，AI自我造假的危害，可能并不限于經(jīng)濟(jì)損失和信息污染，還有可能阻礙AI自身的發(fā)展。畢竟，人們很難相信那些說“狼來了”的撒謊者。

深觀察｜虛構(gòu)、造假與欺騙：AI為何也會“耍心眼”

AI的理解與人的理解并不一致

AI自我造假的根本原因在于，人類研發(fā)生成式AI的方式和機(jī)制本身就有不足。雖然目前的研究還不足以揭示AI為何自我造假，但一些研究和觀察提供了某些線索。

生成式AI其實(shí)并不知道它生成和輸出的內(nèi)容是什么，因?yàn)樗鼈冎皇且罁?jù)訓(xùn)練數(shù)據(jù)中的內(nèi)容、數(shù)據(jù)和模式，并且根據(jù)人類測試者反饋等技術(shù)進(jìn)行一定微調(diào)后，對提問者提出的內(nèi)容給出在統(tǒng)計(jì)上可能性較高的回復(fù)，或提供一個產(chǎn)品。

這也涉及生成式AI模型對自然語言的理解。盡管訓(xùn)練大語言模型時，采用的是自然語言來預(yù)測短語中下一個可能出現(xiàn)的詞語，如符合語法，或者說被AI所“理解”，但是AI的理解與人的理解并不一致。

因此，AI生成的內(nèi)容要么是不合邏輯也不符合事實(shí)，要么是符合邏輯但不符合事實(shí)。

這個問題其實(shí)也對人類提出了新的挑戰(zhàn)：生成式AI確切的內(nèi)部工作原理對人而言是神秘的，研發(fā)生成式AI的研究者并不很清楚生成式AI的深層工作原理。這也被視為生成式AI的兩面性：優(yōu)點(diǎn)是除了能回答很多問題并幫助人們生成各種文本、視頻外，還具有創(chuàng)造性，但是這種創(chuàng)造性可能是人們難以控制的，至少在目前看來是如此。

目前，人們用以開發(fā)生成式AI的訓(xùn)練的方式，也決定了它們可能自我造假。

大語言模型是通過壓縮數(shù)據(jù)來工作。在訓(xùn)練過程中，這些模型被投喂了上萬億的詞匯、短語、句子，而且這些語言成分之間又按自然語言的語法、邏輯形成了一些固定的關(guān)系，它們被壓縮成數(shù)十億個參數(shù)的數(shù)據(jù)，輸入到AI的人工神經(jīng)元（人工智能的基本成分）中，并讓其學(xué)習(xí)。這種情況也決定了人工神經(jīng)元之間的連接強(qiáng)度有變量。

在完成任務(wù)或回答人們提問時，AI是在拆分它們所學(xué)習(xí)的內(nèi)容，把那些壓縮的統(tǒng)計(jì)數(shù)據(jù)和模式再次展開。在這個過程中，必然會丟失一些信息。AI在拆分和再次展開它們所學(xué)習(xí)的信息時，大約能重構(gòu)出近98%的訓(xùn)練內(nèi)容，但在剩下的2%中，它們可能會完全偏離事實(shí)和邏輯，提供出部分或完全錯誤的產(chǎn)品和答案。

這個過程有點(diǎn)像基因表達(dá)以生產(chǎn)蛋白質(zhì)一樣，先是轉(zhuǎn)錄，以DNA為模板合成RNA，再以RNA作為模板生成蛋白質(zhì)，即翻譯。在轉(zhuǎn)錄和翻譯的過程中任何一處出現(xiàn)失誤，就有可能造成蛋白質(zhì)生成的偏差，更何況基因本身發(fā)生突變也會導(dǎo)致蛋白產(chǎn)品的偏差和缺失，因而會產(chǎn)生各種疾病。

用戶如何應(yīng)對AI自我造假

AI編造虛假信息的時候也具有創(chuàng)造性，但是這種創(chuàng)造性是它們在搜尋自己被投喂的數(shù)據(jù)不夠時的一種“急中生智”。

例如，當(dāng)有人詢問AI法國女作家安妮·埃爾諾是否為諾貝爾文學(xué)獎獲得者時，它的回答很正確，還會給出代表作和寫作風(fēng)格，甚至個人的生活細(xì)節(jié)，因?yàn)榘栔Z是2022年的諾貝爾文學(xué)獎獲得者，這是確定的事實(shí)，她的種種信息非常充分。

但是，你問住在廣州某某市某某小區(qū)的某個人寫了多少作品時，AI就有可能胡說八道了。因?yàn)檫@個人并非作家，但是AI會根據(jù)你的提問認(rèn)為這個人是作家，而且根據(jù)一般作家的風(fēng)格來杜撰這人的代表作和作品名稱。

由此也可看出，AI的自我造假也有使用者的提示作用。

AI自我造假當(dāng)然可以在一定程度上預(yù)防。一方面是改善對AI的訓(xùn)練，如可以通過檢索增強(qiáng)生成（RAG）、事實(shí)核查、自我反思、一致性檢查等方法來對AI大模型進(jìn)行優(yōu)化，增強(qiáng)其準(zhǔn)確性，減少和避免其一本正經(jīng)地胡說八道。

另一方面，使用生成式AI的用戶，應(yīng)當(dāng)養(yǎng)成對AI產(chǎn)出的產(chǎn)品和答案不輕信的原則，在獲取答案后，進(jìn)行必要的交叉驗(yàn)證。此外，在和AI對話時，要為AI添加限制性條件，如先把一些條件和參考數(shù)據(jù)發(fā)給AI，讓其嚴(yán)格按用戶提供的資料進(jìn)行搜索和生成產(chǎn)品。

當(dāng)然，長期來看，AI自我造假的bug還需開發(fā)者不斷填補(bǔ)，讓AI真正走向精準(zhǔn)的、靠譜的智能。（作者系科普專欄作家）

張?zhí)锟?br>
(本文來自澎湃新聞，更多原創(chuàng)資訊請下載“澎湃新聞”APP)