ChatGPT等聊天機器人背后的算法能從各種各樣的網(wǎng)絡(luò)文本中抓取萬億字節(jié)的素材,文本來源可以是網(wǎng)絡(luò)文章,也可以是社媒平臺的帖子,還可以是視頻里的字幕或評論。 海量文本素材供算法學(xué)習(xí)——學(xué)習(xí)創(chuàng)建如同人類所創(chuàng)的內(nèi)容。AI在文本中發(fā)現(xiàn)復(fù)雜微妙的模式,然后輸出搜索摘要、文章、圖片以及其他內(nèi)容。 為優(yōu)化、迭代模型,需捕捉更多新內(nèi)容。但隨著越來越多人使用AI生成文本,然后將結(jié)果發(fā)布到網(wǎng)上,算法會不可避免地開始從它們自己輸出的作品中學(xué)習(xí),學(xué)完再輸出……這種自產(chǎn)自學(xué)再自產(chǎn)的內(nèi)容現(xiàn)已遍布互聯(lián)網(wǎng)。這是個大問題…… 2024年7月,一項發(fā)表于《自然》雜志的研究指出:如果讓基于文本的生成式人智能算法圍繞著本就是AI生成的內(nèi)容開展訓(xùn)練,只需幾個訓(xùn)練周期,它就會產(chǎn)出完全無意義的結(jié)果。 杜克大學(xué)專家艾米麗·溫格(Emily Wenger,未參與相關(guān)工作)表示:“人工智能生成的內(nèi)容在互聯(lián)網(wǎng)上快速擴張,這可能對模型本身造成毀滅性影響。” 雖然新研究重點關(guān)注文本,但它的結(jié)果也可能影響多模態(tài)人工智能模型。這些模型也會依靠在線抓取的訓(xùn)練數(shù)據(jù)來生成文本以及圖像和視頻。 隨著生成式AI的應(yīng)用不斷擴張,上述問題只會越發(fā)嚴重。而最終結(jié)局可能是模型崩潰,AI自學(xué)自產(chǎn)的數(shù)據(jù)被噪聲淹沒,輸出的內(nèi)容語無倫次、胡謅亂扯。 產(chǎn)學(xué) 自循環(huán) 幻覺? 崩潰? 我們知道,生成式人工智能經(jīng)常“產(chǎn)生幻覺”。在收到提示后,它可能說出不準(zhǔn)確的事實或“幻想”出絕對不真實的答案。幻覺或可造成嚴重后果,例如AI在醫(yī)療保健話題上錯誤卻又權(quán)威地將結(jié)痂判作腫瘤。 當(dāng)AI不斷用自身生成的數(shù)據(jù)來訓(xùn)練自己,它就會在幾代內(nèi)退化。這就是模型崩潰,一種獨立存在的現(xiàn)象,有點像近親繁殖——后代更容易遭遇遺傳疾病。 計算機科學(xué)家早就意識到了這個問題,但一直不清楚大型人工智能模型如何以及為何發(fā)生崩潰。 在《自然》報道的新研究中,作者團隊構(gòu)建了一個自定義大型語言模型,并用維基百科條目訓(xùn)練它;接著,他們使用模型自身輸出的數(shù)據(jù)集對模型進行了9九次微調(diào),并用所謂“困惑度分數(shù)”來衡量AI輸出的質(zhì)量——得分越高意味著生成的文本越令人困惑。 團隊發(fā)現(xiàn),人工智能模型的退化只需短短幾個訓(xùn)練周期。 這里引用一個案例。團隊先拋給AI一個關(guān)于教堂建造歷史的長提示(長到會令大多數(shù)人類看得迷糊),后面是模型的自產(chǎn)自學(xué)循環(huán)了。經(jīng)過前兩次迭代,AI給出了一個相對連貫的關(guān)于復(fù)興建筑的回復(fù),文本中偶有“@”插入。但到了第五代,話題已經(jīng)變成了語言翻譯……到了第九代,也就是最后一代,輸出內(nèi)容是令人發(fā)笑的胡言亂語。 英文原文 “architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-.” 翻譯成中文就是 建筑。除了棲息著一些世界上最大的黑@-@尾長耳大野兔、白@-@尾長耳大野兔、藍@-@尾長耳大野兔、紅@-@尾長耳大野兔、黃@-種群?!?/span> 研究人員解釋稱,用自產(chǎn)數(shù)據(jù)訓(xùn)練的人工智能最終往往會輸出重復(fù)的話語,而讓AI遠離重復(fù)的嘗試則只會導(dǎo)致更糟糕表現(xiàn)。使用了不同提示信息的多次測試最后都得到相同模式結(jié)果,這表明問題出在訓(xùn)練過程中,而非提示語。 AI作品 加水印 AI訓(xùn)練 靠人文 人工智能崩潰,部分原因是它逐漸“忘記”了一代又一代的訓(xùn)練數(shù)據(jù)。 人腦也會抹去舊的記憶,但與此同時它體驗新的內(nèi)容、收取新的輸入。對于只能從互聯(lián)網(wǎng)上學(xué)習(xí)的AI來說,“遺忘”是個大問題。 假設(shè)AI從原始訓(xùn)練數(shù)據(jù)中“看到”了金毛尋回犬、法國斗牛犬和小型格里芬巴塞特犬,而當(dāng)它被要求描繪出一條狗時,由于網(wǎng)上有更多關(guān)于金毛尋回犬的圖片,AI就很可能選定金毛為創(chuàng)作對象。如果后續(xù)模型又拿此AI生成的金毛濃度過高的數(shù)據(jù)集訓(xùn)練自己,經(jīng)過若干代后,AI可能“忘記”那些不太熱門的犬種。 由人工智能生成的文本本就偏向眾所周知的概念、措辭和風(fēng)格,基于這些數(shù)據(jù)訓(xùn)練的新算法只會加劇偏向,最終可能導(dǎo)致模型崩潰。 這方面的問題也對全球人工智能的公平性提出了挑戰(zhàn)。由于AI在用自己生成的數(shù)據(jù)訓(xùn)練自己時會忽略“不常見”(uncommon)的事物,它也就難以斟酌人類世界的復(fù)雜性和細微差別。 以西方社會的少數(shù)族裔話題為例:AI可能無法充分展現(xiàn)少數(shù)族裔(尤其是少數(shù)族裔語言使用者)的思想和信仰。 溫格指出:“確保大型語言模型(LLM)能對少數(shù)派內(nèi)容進行建模是獲得公平預(yù)測的關(guān)鍵。隨著生成式AI模型在日常生活中越發(fā)普及,這一點也會越發(fā)重要?!?/span> 那么,應(yīng)當(dāng)怎樣解決問題呢? 一種方法是使用水印,即嵌入于AI生成數(shù)據(jù)內(nèi)的數(shù)字簽名,以此幫助人們從訓(xùn)練數(shù)據(jù)集中檢測到特定數(shù)據(jù)以便確定是否需要刪除這些數(shù)據(jù)。谷歌、Meta和OpenAI都已提出了此理念,不過他們是否能就單一協(xié)議達成一致還有待觀察。當(dāng)然,水印并非萬能的,因為企業(yè)或個人可能選擇不給AI的輸出加水印。 另一個可能的解決方案是調(diào)整我們訓(xùn)練人工智能模型的方式。新研究的作者發(fā)現(xiàn),如果給自產(chǎn)自學(xué)的AI提供更多人類提供的訓(xùn)練素材,新生成的內(nèi)容可以更加連貫。 前文所述種種并不意味著模型崩潰的問題迫在眉睫。新研究只關(guān)注了基于自身輸出的文本進行訓(xùn)練的AI。如果使用其他AI模型生成的數(shù)據(jù)進行訓(xùn)練,會不會出現(xiàn)類似崩潰還有待觀察。此外,AI正越來越多地利用圖像、聲音和視頻,而我們也不清楚能否從這些類型的內(nèi)容中看到AI模型崩潰。 不可否認,生成式人工智能改變著世界,也展現(xiàn)著取代人類工作的潛力。但事實證明,如果缺少人類思維的原創(chuàng)輸出,目前的模型難以在自我迭代中發(fā)展甚至做不到維持穩(wěn)定。 現(xiàn)在既然發(fā)現(xiàn)了問題,我們就需要協(xié)調(diào)全社會,去標(biāo)記AI創(chuàng)建的數(shù)據(jù),并公開分享信息?!胺駝t,如果沒有人類提供大規(guī)模數(shù)據(jù),也沒法訪問非AI生成的互聯(lián)網(wǎng)數(shù)據(jù),那么訓(xùn)練更新版本的大型語言模型可能會變得越發(fā)困難?!?/span> 資料來源: This Is What Could Happen if AI Content Is Allowed to Take Over the Internet 來源:世界科學(xué) 編輯:小咕咕 轉(zhuǎn)載內(nèi)容僅代表作者觀點 不代表中科院物理所立場 |
19款電子扎帶
電路板識別電子標(biāo)簽