編輯:喬楊 【新智元導(dǎo)讀】70年前科學(xué)家們所暢想的「機(jī)器常識」被LLM實現(xiàn)了嗎?Nature最近的一篇評論文章給出了否定的答案,并堅定地指出:常識推理是AGI的必備品。 自從2022年ChatGPT橫空出世以來,LLM進(jìn)入了一日千里、突飛猛進(jìn)的發(fā)展階段。 一些專家和研究人員推測,這些模型的問世,代表著我們向「通用人工智能」(AGI)的實現(xiàn)邁出了決定性的一步,從而完成了人工智能 (AI) 研究70年來的探索。 這一歷程中的一個重要里程碑之一,就是機(jī)器能夠展現(xiàn)出「常識」。 對人類來說,「常識」是關(guān)于人和日常生活的「顯而易見的事情」。比如,我們可以從經(jīng)驗中知道,玻璃是易碎的,或者給吃素的朋友端上來一盤肉是不禮貌的。 然而,在「常識」這一點上,即使是當(dāng)今最先進(jìn)、最強(qiáng)大的LLM也常常達(dá)不到要求。 一名機(jī)器人藝術(shù)家在2022年英國Glastonbury音樂節(jié)上為表演者作畫 LLM非常善于在涉及記憶的測試中取得高分,比如GPT-4最為人稱道的成績之一,就是可以通過美國的醫(yī)生和律師執(zhí)業(yè)考試,但依舊很容易被簡單的謎題搞迷糊。 如果你問ChatGPT「Riley很痛苦,之后她會感覺如何?」,它會從很多個選項中挑出「覺察」(aware)作為最佳答案,而不是對人類來說顯而易見的「痛苦」(painful)。 為了彌補(bǔ)這方面的缺陷,很多這類的選擇題都被納入到流行的基準(zhǔn)測試中,用于用于衡量AI對常識的掌握。 然而,這些問題很少能夠真正反映現(xiàn)實世界,包括人類對物理定律的直覺理解,以及社交互動中的背景和語境。因此,要量化出LLM的「類人」程度仍然是一個尚未解決的問題。 相比于AI,我們可以發(fā)現(xiàn)人類認(rèn)知的一些不同之處。 首先,人類善于處理不確定和模糊的情況,會滿足于一個「令人滿意但未必最佳」的答案,很少消耗大量的認(rèn)知資源去執(zhí)著于找到最佳的解決方案。 其次,人類可以在「直覺推理」和「深思熟慮」的模式之間靈活切換,從而更好地應(yīng)對小概率的突發(fā)情況。 AI能否實現(xiàn)類似的認(rèn)知能力?我們又如何如何確切地知道AI系統(tǒng)是否正在獲得這種能力? 這就不僅僅是AI或計算機(jī)科學(xué)的問題,還需要涉足發(fā)展心理學(xué)、認(rèn)知哲學(xué)等學(xué)科,同時我們也需要對人類認(rèn)知過程的生物基礎(chǔ)有更深入的了解,才能設(shè)計更好的指標(biāo)來評估LLM的表現(xiàn)。 AI發(fā)展出常識,從何時開始? 機(jī)器常識的研究,還是要追溯到深度學(xué)習(xí)領(lǐng)域不得不提的一個時間點——1956年,新罕布什爾州達(dá)特茅斯的那場暑期研討會。 這場會議將當(dāng)時頂尖的AI研究人員聚集在了一起,隨后就誕生了基于邏輯的符號框架,使用字母或邏輯運(yùn)算符來描述對象和概念之間的關(guān)系,用于構(gòu)建有關(guān)時間、事件和物理世界的常識知識。 例如,一系列「如果發(fā)生……,那么就會發(fā)生……」的語句可以被手動編程到機(jī)器中,用于教會一個常識性事實,比如不受支持力的物體會因為重力而下落。 這類研究確立了機(jī)器常識的愿景,即構(gòu)建能夠像人類一樣有效地從經(jīng)驗中學(xué)習(xí)的計算機(jī)程序。 從技術(shù)角度定義,這個目標(biāo)就是制造一臺機(jī)器,在給定一組規(guī)則的情況下,「根據(jù)已知內(nèi)容和信息,自行推斷出范圍足夠廣泛的直接結(jié)果」 。 在加州舉行的機(jī)器人挑戰(zhàn)賽中,一個人形機(jī)器人向后摔倒 因此,機(jī)器常識不僅限于有效學(xué)習(xí),還包括自我反思和抽象等能力。 從本質(zhì)上講,常識需要事實知識,也需要利用知識進(jìn)行推理的能力。僅僅是記住大量事實是不夠的,從現(xiàn)有信息中推斷出新信息同樣重要,這樣才能在新的或不確定的情況下做出決策。 20世紀(jì)80年代時,研究人員開始進(jìn)行早期嘗試,希望賦予機(jī)器以常識和決策能力,主要的手段是創(chuàng)建結(jié)構(gòu)化的知識數(shù)據(jù)庫,例如CYC、ConceptNet等項目。 CYC這個名字的靈感來源于「百科全書」(encyclopedia),不僅包含了事物間的關(guān)系,還嘗試使用關(guān)系符號來整合上下文相關(guān)的知識。 因此,憑借CYC,機(jī)器能夠區(qū)分事實知識(例如「美國第一任總統(tǒng)是喬治·華盛頓」)和常識知識(例如「椅子是用來坐的」)。 ConceptNet項目有類似的原理,同樣是將關(guān)系邏輯映射到一個由三元詞組構(gòu)成的龐大網(wǎng)絡(luò)(例如「蘋果」—「用來」—「吃」)。 然而,無論是CYC,還是ConceptNet,都不具備推理能力。 常識推理的挑戰(zhàn)性在于模糊性,因為在提供更多信息后,情況或問題就會變得很難確定。 比如,想要回答「Lina和Michael正在節(jié)食,他們來做客時我們要準(zhǔn)備蛋糕嗎?」這個問題,如果添加了另一個事實「他們有cheat days」,答案就會變得相對復(fù)雜且難以抉擇。 基于符號和規(guī)則的邏輯無法處理這種模糊性,甚至依靠概率生成下一個token的LLM也無濟(jì)于事,因為引入關(guān)于「cheat days」的額外信息不僅會降低確定性,還會完全改變語境。 AI系統(tǒng)如何應(yīng)對這種未見的、不確定的情況,將直接決定機(jī)器常識進(jìn)化的速度,我們要做的,就是開發(fā)出更好的評估方法來跟蹤相關(guān)進(jìn)展,但「衡量常識」這個任務(wù)并沒有看起來這么容易。 LLM有常識嗎?這很難評 目前評估AI系統(tǒng)常識推理能力的80多項著名測試中,至少75%是多項選擇測驗。然而,從統(tǒng)計的角度來看,這樣的測驗最多也只能給出模棱兩可的結(jié)果。 向LLM提出一個相關(guān)領(lǐng)域的問題,并不能揭示模型是否擁有更廣泛的事實知識,因為LLM在響應(yīng)特定查詢時,并不會以統(tǒng)計學(xué)上有意義的方式從知識庫中進(jìn)行采樣。 比如,即使向LLM提出兩個非常相似的問題,也可能會得到截然不同的答案。 對于不涉及多項選擇題的測試,比如為圖像生成合適標(biāo)題,也很難完全探測到模型的多步驟和常識性推理能力。 不涉及多項選擇測驗的測試(例如,為圖像生成適當(dāng)?shù)膱D像標(biāo)題)不會完全探測模型顯示靈活、多步驟、常識性推理的能力。 因此, 機(jī)器常識相關(guān)的測試方案和方法仍需要發(fā)展,從而更清楚地區(qū)分「知識」和「推理」。 有一種方法可以用于改進(jìn)當(dāng)前測試,就是要求AI解釋給出當(dāng)前答案的理由。例如,一杯咖啡放在室外會變涼,這是常識,但其中的推理過程涉及熱傳遞、熱平衡等物理概念。 盡管LLM可能會生成正確的答案(「因為熱量逸散到周圍的空氣中」),但基于邏輯的響應(yīng)將需要逐步的推理過程來解釋原因。 如果LLM能夠使用CYC項目開創(chuàng)的那種符號語言來復(fù)現(xiàn)出正確的原因揭示,我們就更有理由認(rèn)為,模型不僅僅是通過參考訓(xùn)練語料來查找答案,而是確實發(fā)展出了常識推理能力。 另一類開放式測試,就是考察LLM的計劃或戰(zhàn)略規(guī)劃能力。 想象一個簡單的游戲:能量令牌隨機(jī)分布在棋盤上,玩家需要在棋盤上移動20次,收集盡可能多的能量并將其放到指定的地方。 在這類游戲中,人類不一定能找到最佳解決方案,但常識推理足以支持我們拿到合理的分?jǐn)?shù)。那LLM呢? 研究人員進(jìn)行測試后發(fā)現(xiàn),模型的表現(xiàn)遠(yuǎn)遠(yuǎn)低于人類。 從LLM的行為來看,它似乎理解了游戲規(guī)則:它可以棋盤上移動,有時也能找到能量令牌并收集起來,但會犯各種看似愚蠢的錯誤,比如將能量令牌丟在錯誤的位置。 鑒于LLM會犯這種有常識的人都不會犯的錯誤,因此我們很難期待這種模型在解決更混亂的現(xiàn)實規(guī)劃問題時,能夠有更出色的表現(xiàn)。 下一步怎么走 為了系統(tǒng)地奠定機(jī)器常識的基礎(chǔ),可以考慮采取以下步驟: 「把盤子做大」研究人員需要超越單純的AI或計算機(jī)科學(xué)領(lǐng)域的經(jīng)驗,涉足認(rèn)知科學(xué)、哲學(xué)和心理學(xué)等學(xué)科,找出關(guān)于人類如何學(xué)習(xí)、如何應(yīng)用常識的關(guān)鍵原理。 這些原則應(yīng)該能夠指導(dǎo)我們,創(chuàng)建能夠進(jìn)行類人推理的AI系統(tǒng)。 擁抱理論與此同時,研究人員需要設(shè)計全面的、理論驅(qū)動的基準(zhǔn)測試,反映廣泛的常識推理技能,例如理解物理特性、社交互動和因果關(guān)系。 這些基準(zhǔn)測試的目標(biāo),必須是量化AI系統(tǒng)跨領(lǐng)域概括常識知識的能力,而不是專注于一組狹窄的任務(wù) 。 超越語言的思考夸大LLM能力的風(fēng)險之一就是夸大了語言的重要性,這會讓我們與另一個重要愿景脫節(jié)——構(gòu)建能在混亂現(xiàn)實環(huán)境中感知、導(dǎo)航的具身系統(tǒng)。 DeepMind聯(lián)合創(chuàng)始人Mustafa Suleyman就認(rèn)為,實現(xiàn)「有能力」的AI(capable)可能是比AGI更切實可行的里程碑。 至少在人類基本水平上,如果要構(gòu)建具有物理能力的人工智能,具體化的機(jī)器常識是十分必要的。然而,目前的AI似乎仍處于獲取幼兒水平身體智力的早期階段。 令人欣喜的是,研究人員開始在以上所有方面取得了進(jìn)展,但仍有很長的路要走。 隨著人工智能系統(tǒng),尤其是LLM成為各種應(yīng)用的主要內(nèi)容,理解人類推理的能力將在醫(yī)療保健、法律決策、客服和自動駕駛等領(lǐng)域產(chǎn)生更可靠和值得信賴的結(jié)果。 例如,具有社交常識的客服機(jī)器人將能夠推斷出用戶的沮喪情緒,即使沒有明確的表達(dá)出來。 從長遠(yuǎn)來看,也許機(jī)器常識領(lǐng)域的最大貢獻(xiàn),將是讓人類更深入地了解自己。 |
19款電子扎帶
電路板識別電子標(biāo)簽