機(jī)器之心原創(chuàng) 作者:Sia
新年伊始,ChatGPT 竟成了「恐怖分子」的幫兇?在為一位美國現(xiàn)役軍人提供爆炸知識(shí)后,后者成功將一輛特斯拉 Cybertruck 在酒店門口引爆…… 汽車爆炸現(xiàn)場(chǎng)畫面,外媒視頻截圖 這并非科幻電影橋段,而是 AI 安全風(fēng)險(xiǎn)正在文明身邊真實(shí)上演的縮影。知名 AI 投資人 Rob Toews 在《福布斯》專欄預(yù)測(cè),2025 年我們將迎來「第一起真實(shí)的 AI 安全事件」。 我們已經(jīng)開始和另一種智能生命一起生活了,RobToews 寫道,它跟人一樣任性難測(cè),且具有欺騙性。 巧的是,另份新鮮出爐的行業(yè)預(yù)測(cè)也指向同一問題。北京智源研究院在 2025 十大 AI 技術(shù)趨勢(shì)中描繪了從礎(chǔ)研究到應(yīng)用落地再到 AI 安全的完整圖景。值得劃重點(diǎn)的是,AI 安全作為一個(gè)獨(dú)立的技術(shù)賽道,被智源評(píng)為第十個(gè)趨勢(shì): 模型能力提升與風(fēng)險(xiǎn)預(yù)防并重,AI 安全治理體系持續(xù)完善。 報(bào)告點(diǎn)評(píng)道:作為復(fù)雜系統(tǒng),大模型的 Scaling 帶來了涌現(xiàn),但復(fù)雜系統(tǒng)特有的涌現(xiàn)結(jié)果不可預(yù)測(cè)、循環(huán)反饋等特有屬性也對(duì)傳統(tǒng)工程的安全防護(hù)機(jī)制帶來了挑戰(zhàn)?;A(chǔ)模型在自主決策上的持續(xù)進(jìn)步帶來了潛在的失控風(fēng)險(xiǎn),如何引入新的技術(shù)監(jiān)管方法,如何在人工監(jiān)管上平衡行業(yè)發(fā)展和風(fēng)險(xiǎn)管控?這對(duì)參與 AI 的各方來說,都是一個(gè)值得持續(xù)探討的議題。 AI 大模型安全,水深流急 2024 年,AI 大模型在實(shí)現(xiàn)跨越式發(fā)展的同時(shí),也讓我們清晰看到了安全的敏感神經(jīng)如何被刺激挑動(dòng)。 根據(jù)研究,AI 安全風(fēng)險(xiǎn)可以分為三類:內(nèi)生安全問題、衍生安全問題和外生安全問題。 「內(nèi)生安全問題」(如「數(shù)據(jù)有毒」、「價(jià)值對(duì)齊」、「決策黑盒」),屬于大模型的「基因問題」——龐大的架構(gòu)、海量的參數(shù)、復(fù)雜的內(nèi)部交互機(jī)制,讓模型既強(qiáng)大又難以駕馭。 很多人知道「 poem 」復(fù)讀漏洞——重復(fù)一個(gè)詞就能讓 ChatGPT 吐出真實(shí)個(gè)人信息,這是因?yàn)榇竽P蛯W(xué)習(xí)過程中,除了提取語言知識(shí),也會(huì)「背誦」一些數(shù)據(jù),結(jié)果數(shù)據(jù)隱私以一種意想不到的荒謬方式被觸發(fā)出來。 機(jī)器之心曾讓 ChatGPT 不斷重復(fù)「AI」這個(gè)詞,一開始它很聽話,不斷重復(fù),在重復(fù)了 1395 次「AI」之后,它突然話鋒一轉(zhuǎn),開始說起 Santa Monica,而這些內(nèi)容很可能是 ChatGPT 訓(xùn)練數(shù)據(jù)的一部分。 Prompt 攻擊是因?yàn)橄到y(tǒng)提示和用戶輸入都采用相同的格式——自然語言文本字符串,大語言模型沒辦法僅根據(jù)數(shù)據(jù)類型來區(qū)分指令和輸入。 「越獄」手段也是層出不窮。從「奶奶漏洞」、「冒險(xiǎn)家漏洞」、「作家漏洞」到最新的「 DeceptiveDelight 」技術(shù),攻擊者只需三次對(duì)話就有 65% 的概率繞過安全限制,讓模型生成違禁內(nèi)容。 Deceptive Delight 攻擊示例,來源Palo Alto Networks Anthropic 的最新研究更是發(fā)現(xiàn),大語言模型居然學(xué)會(huì)了「?jìng)窝b對(duì)齊」。 更令人擔(dān)憂的是大模型在行業(yè)領(lǐng)域的表現(xiàn)。大模型在通用對(duì)話中表現(xiàn)流暢,清華大學(xué)、中關(guān)村實(shí)驗(yàn)室、螞蟻集團(tuán)等機(jī)構(gòu)聯(lián)合撰寫的《大模型安全實(shí)踐( 2024 )》白皮書指出,在金融、醫(yī)療等對(duì)模型輸出專業(yè)性、準(zhǔn)確性要求極高領(lǐng)域的應(yīng)用卻面臨嚴(yán)峻挑戰(zhàn),包括嚴(yán)重幻覺、缺乏復(fù)雜推理能力。 展望 2025 年,智源研究院預(yù)測(cè) Agentic AI 將成為大模型應(yīng)用的主要形態(tài),這些具備更強(qiáng)自主性的智能體將深度融入工作與生活,也加劇了系統(tǒng)失控的風(fēng)險(xiǎn)。 試想一下,未來兩到三年內(nèi),我們可能生活在一個(gè)每個(gè)人都有數(shù)十或數(shù)百名代理為我們工作的世界,安全基礎(chǔ)設(shè)施的建設(shè)變得尤為重要,誰來提供這些安全基礎(chǔ)設(shè)施?如何管理這些 AI 代理?如何確保它們不會(huì)失控? 當(dāng)前的大模型安全評(píng)測(cè)主要聚焦內(nèi)容安全,對(duì)于智能體這類復(fù)雜應(yīng)用架構(gòu)和未來 AGI 的安全評(píng)估體系仍顯不足。 AI 安全風(fēng)險(xiǎn)的另一大來源是「衍生安全問題」,隨著 AI 濫用引發(fā)其他領(lǐng)域的一些重大安全事故,如假新聞、深度偽造詐騙、侵犯知識(shí)產(chǎn)權(quán)、教唆青少年自殺、作弊,也對(duì)社會(huì)治理提出了重大挑戰(zhàn)。 「真實(shí)」這個(gè)基本命題正遭到前所未有挑戰(zhàn)。西藏日喀則地震期間,「地震被壓廢墟下戴帽小孩是 AI 生成」的新聞沖上熱搜,很多平臺(tái)賬號(hào)轉(zhuǎn)發(fā)圖片時(shí)都以為是真。除了金融詐騙,深度偽造也將網(wǎng)絡(luò)性暴力推向極端,「厭女文化」盛行的韓國成了重災(zāi)區(qū)。世界經(jīng)濟(jì)論壇甚至把 AI 操縱選舉列為 2024 年的頭號(hào)風(fēng)險(xiǎn)。 這張圖片被平臺(tái)多個(gè)賬號(hào)發(fā)布,并和本次地震關(guān)聯(lián),引發(fā)網(wǎng)友關(guān)注和轉(zhuǎn)發(fā)。經(jīng)媒體查證,上述圖片由AI工具創(chuàng)作,原始作者在2024年11月18日發(fā)布了相同畫面的短視頻,并聲明是AI生成。 版權(quán)是另一個(gè)大問題。OpenAI、Anthropic、Suno 等領(lǐng)頭羊已深陷版權(quán)泥潭。最近,愛奇藝起訴某大模型公司 AI 魔改經(jīng)典影視劇片段,開創(chuàng)國內(nèi) AI 視頻侵權(quán)訴訟先例。 第三類「外生安全問題」指向了人工智能系統(tǒng)的外部網(wǎng)絡(luò)攻擊對(duì)抗,如平臺(tái)、框架安全漏洞、模型被盜、數(shù)據(jù)泄露風(fēng)險(xiǎn)等,屬于傳統(tǒng)信息安全范疇。 就拿更加嚴(yán)峻的數(shù)據(jù)泄露來說。目前 AI 模型推理比較好的選擇仍是在明文狀態(tài)下進(jìn)行,用戶會(huì)輸入大量真實(shí)、敏感數(shù)據(jù),獲取模型建議。有報(bào)告指出,2024 年企業(yè)員工上傳到生成式 AI 工具的敏感數(shù)據(jù)增長(zhǎng)了 485% ,包括客戶支持信息、源代碼和研發(fā)數(shù)據(jù)。 企業(yè)在安全培訓(xùn)和政策制定上的滯后引發(fā)了安全擔(dān)憂,由于擔(dān)心敏感數(shù)據(jù)泄露,美國眾議院于 2024 年 3 月禁止員工使用微軟 Copilot。 因?yàn)椴煌愋偷臄?shù)據(jù)(如文本、圖像、視頻、音頻)在數(shù)據(jù)規(guī)模和處理需求上的巨大差異,被預(yù)測(cè)寄予厚望的多模態(tài)大模型讓數(shù)據(jù)的安全防護(hù)變得更為棘手。 穿越激流,構(gòu)筑多維安全航道 人類叩開了深度智能時(shí)代的大門,安全問題也迎來質(zhì)變時(shí)刻。 2024 年,整個(gè)業(yè)界、政府、國際組織在 AI 治理上做了很多工作,從技術(shù)研究、治理框架到國際合作,進(jìn)行了多種形式探索。數(shù)字時(shí)代積累的安全對(duì)抗能力,讓中國在大模型應(yīng)用與治理方面走在了世界前列。 在監(jiān)管層面,中國是全球最早對(duì)生成式 AI 進(jìn)行規(guī)范的國家之一。繼 2023 年 5 月發(fā)布《生成式人工智能服務(wù)管理暫行辦法》后,《網(wǎng)絡(luò)安全技術(shù)生成式人工智能服務(wù)安全基本要求》也已進(jìn)入公開征求意見階段,很多規(guī)范細(xì)正在制定之中。 在底層關(guān)鍵技術(shù)研究上,國內(nèi)業(yè)界取得了積極成果。例如,北京智源研究院研發(fā)了防御大模型和 AI 監(jiān)管大模型,對(duì)齊優(yōu)化方面進(jìn)行了創(chuàng)新。 因?yàn)槟P驮陬A(yù)訓(xùn)練后形成的分布結(jié)構(gòu)較為穩(wěn)固,大模型存在「抗拒微調(diào)對(duì)齊」的特性,后期單純通過微調(diào)來實(shí)現(xiàn)對(duì)齊往往效果不理想,對(duì)此,智源提出在預(yù)訓(xùn)練階段就將對(duì)齊所需的表征能力編織入模型架構(gòu)中。 在對(duì)齊優(yōu)化過程中,針對(duì)未對(duì)齊答案和對(duì)齊答案之間存在的偏差,智源采用了迭代訓(xùn)練的方法,更有利于模型從原始問題到對(duì)齊問題的訓(xùn)練,取得了良好效果。 在多模態(tài)對(duì)齊上,智源推出的「align anything 」框架實(shí)現(xiàn)了多模態(tài)信息的全面對(duì)齊,其創(chuàng)新在于將多模態(tài)信息、現(xiàn)實(shí)世界的具身認(rèn)知、以及人類意圖進(jìn)行細(xì)粒度的對(duì)齊整合,在 LLaMA 模型的微調(diào)過程中已經(jīng)展現(xiàn)出顯著效果。 同樣是解決大模型的可控性,螞蟻集團(tuán)的應(yīng)對(duì)之道是把知識(shí)圖譜的優(yōu)點(diǎn)——邏輯推理能力強(qiáng)、知識(shí)準(zhǔn)確可靠,與大模型結(jié)合起來。通過在大模型預(yù)訓(xùn)練、提示指令、思維鏈、RAG(檢索增強(qiáng)生成)和模型對(duì)齊等環(huán)節(jié)中引入符號(hào)知識(shí),有效增強(qiáng)了模型輸出的專業(yè)性和可靠性。 大模型作為一種通用技術(shù),既可以用于「攻」,也可以用于「防」。在擁抱大模型,以 AI 對(duì)抗 AI 方面,華為、螞蟻集團(tuán)、360 集團(tuán)、深信服等廠商進(jìn)行了有益探索。 華為提出業(yè)界首個(gè) L4 級(jí) AI 安全智能體,用大模型加上一些安全知識(shí)圖譜實(shí)現(xiàn)安全的縱深推理,發(fā)現(xiàn)一些以前沒有發(fā)現(xiàn)過的安全攻擊。 螞蟻集團(tuán)發(fā)布了大模型安全一體化解決方案「蟻天鑒」,包含大模型安全檢測(cè)平臺(tái)「蟻鑒」、大模型風(fēng)險(xiǎn)防御平臺(tái)「天鑒」兩大產(chǎn)品,擁有檢測(cè)與防御兩大核心安全技術(shù)能力。 「蟻鑒」是全球第一個(gè)實(shí)現(xiàn)工業(yè)級(jí)應(yīng)用的可信 AI 檢測(cè)平臺(tái),以生成式能力檢測(cè)生成式系統(tǒng),覆蓋了內(nèi)容安全、數(shù)據(jù)安全、科技倫理全風(fēng)險(xiǎn)類型,適用文本、表格、圖像、音頻、視頻等全數(shù)據(jù)模態(tài)。 在防御能力上,「天鑒」會(huì)動(dòng)態(tài)監(jiān)測(cè)用戶與模型的交互,防止誘導(dǎo)攻擊,同時(shí)對(duì)生成的回答內(nèi)容進(jìn)行風(fēng)險(xiǎn)過濾,保障大模型上線后從用戶輸入到生成輸出的整體安全防御。 360 集團(tuán)推出了基于類腦分區(qū)專家協(xié)同架構(gòu)的安全大模型,通過 EB 級(jí)安全數(shù)據(jù)訓(xùn)練,已具備 L4 級(jí)「自動(dòng)駕駛」能力,實(shí)現(xiàn)了從威脅檢測(cè)到溯源分析的全流程自動(dòng)化。 深信服的「安全 GPT 」可提供 7×24 小時(shí)實(shí)時(shí)在線智能值守,提升安全運(yùn)營效率,同時(shí)深度挖掘傳統(tǒng)安全設(shè)備難以檢測(cè)的高對(duì)抗、高繞過的 Web 攻擊、釣魚攻擊。 除了監(jiān)管、關(guān)鍵技術(shù)的推進(jìn),行業(yè)也在積極加強(qiáng) AI 安全協(xié)作。 在安全治理領(lǐng)域,模型的安全評(píng)測(cè)是一個(gè)非常重要的環(huán)節(jié)。2024 年 4 月,聯(lián)合國科技大會(huì)發(fā)布了兩項(xiàng)大模型安全標(biāo)準(zhǔn),其中,螞蟻集團(tuán)牽頭制定《大語言模型安全測(cè)試方法》,首次給出四種攻擊強(qiáng)度分類,提供了可衡量的安全評(píng)估標(biāo)準(zhǔn):L1 隨機(jī)攻擊、L2 盲盒攻擊、L3 黑盒攻擊和 L4 白盒攻擊。 這種分級(jí)不僅考慮了攻擊的技術(shù)復(fù)雜度,更重要的是基于攻擊者能獲取的模型信息程度來劃分,這讓防護(hù)措施的部署更有針對(duì)性。 在推進(jìn)國際對(duì)話上,2024 年3 月,北京智源研究院發(fā)起并承辦我國首個(gè) AI 安全國際對(duì)話高端閉門論壇,與全球 AI 領(lǐng)袖學(xué)者及產(chǎn)業(yè)專家聯(lián)合簽署《北京 AI 安全國際共識(shí)》,設(shè)定模型安全紅線,禁止模型自我演進(jìn)、自我復(fù)制和不受控的權(quán)力增長(zhǎng)等行為,確保開發(fā)者遵循嚴(yán)格的安全標(biāo)準(zhǔn)。 9 月威尼斯,一場(chǎng)推動(dòng) AI 安全的全球?qū)υ捖淠唬瑘D靈獎(jiǎng)得主 Yoshua Bengio、姚期智等科學(xué)家共同簽署「 AI 安全國際對(duì)話威尼斯共識(shí)」,強(qiáng)調(diào)了人工智能安全作為「全球公共產(chǎn)品」的重要性。 放眼全球,英美側(cè)重輕觸式監(jiān)管,美國加州的 SB 1047因爭(zhēng)議被否決。歐盟 AI 法案已經(jīng)生效,它建立起四級(jí)風(fēng)險(xiǎn)分類體系,明確了人工智 能產(chǎn)品的全生命周期監(jiān)管要求。 在業(yè)界,主要頭部 AI 公司相繼發(fā)布安全框架。 OpenAI 在核心安全團(tuán)隊(duì)解散后公布了前 10 個(gè)安全措施,試圖在技術(shù)創(chuàng)新與社會(huì)責(zé)任間尋求平衡。 Google 也緊隨其后發(fā)布了 SAIF 安全框架,應(yīng)對(duì)模型竊取、數(shù)據(jù)污染等風(fēng)險(xiǎn)。 Anthropic 發(fā)布了負(fù)責(zé)任擴(kuò)展策略( Responsible Scaling Policy, RSP ),被認(rèn)為是降低 AI 災(zāi)難性風(fēng)險(xiǎn)(如恐怖分子利用模型制造生物武器)最有前途的方法之一。 RSP 最近更新,引入了更靈活和細(xì)致的風(fēng)險(xiǎn)評(píng)估與管理方法,同時(shí)堅(jiān)持不培訓(xùn)或部署未實(shí)施充分保障措施的模型。 一年多前《經(jīng)濟(jì)學(xué)人》就開始討論人工智能的快速發(fā)展既讓人興奮,又讓人恐懼,我們應(yīng)該有多擔(dān)心? 2024 年初,中國社會(huì)科學(xué)院大學(xué)在研究報(bào)告中指出,安全科技將成為社會(huì)的公共品,并與人工智能并列為未來的兩項(xiàng)通用技術(shù)。一年后,智源研究院再次呼吁關(guān)注安全治理印證了這一戰(zhàn)略判斷的前瞻性,AI 越強(qiáng)大,安全科技價(jià)值也在同步放大。 我們不可能扔掉利刃,放棄科技,唯有為其打造足夠安全的刀鞘,讓 AI 在造福人類的同時(shí)始終處于可控軌道。變與不變中,AI 安全治理或許才是 AI 行業(yè)永恒的話題。 |
19款電子扎帶
電路板識(shí)別電子標(biāo)簽