AI大家說 | 自動(dòng)駕駛、人形機(jī)器人、數(shù)據(jù)瓶頸 OpenAI 創(chuàng)始成員談未來

2024-9-26 08:30| 發(fā)布者: admin| 查看: 194| 評論: 0

摘要: 近日，OpenAI的早期成員和著名AI研究者Andrej Karpathy在No Priors播客中現(xiàn)身，暢聊了他對AI現(xiàn)狀與未來發(fā)展，以及自動(dòng)駕駛、人形機(jī)器人等行業(yè)的預(yù)判。訪談涵蓋了廣泛的主題，從自動(dòng)駕駛技術(shù)的現(xiàn)狀和未來，到AI研究的 ...

近日，OpenAI的早期成員和著名AI研究者Andrej Karpathy在No Priors播客中現(xiàn)身，暢聊了他對AI現(xiàn)狀與未來發(fā)展，以及自動(dòng)駕駛、人形機(jī)器人等行業(yè)的預(yù)判。

訪談涵蓋了廣泛的主題，從自動(dòng)駕駛技術(shù)的現(xiàn)狀和未來，到AI研究的最新進(jìn)展；從大語言模型的發(fā)展?jié)摿?，到AI在教育領(lǐng)域的革命性應(yīng)用；從人機(jī)融合的可能性，到AI對人類認(rèn)知和學(xué)習(xí)方式的深遠(yuǎn)影響。Karpathy憑借其在OpenAI、特斯拉等頂尖科技公司的豐富經(jīng)驗(yàn)，輸出了獨(dú)特而深刻的見解。

Karpathy在訪談中強(qiáng)調(diào)，AI不應(yīng)該是取代人類，而是應(yīng)該成為賦能人類的工具。他深入探討了AI研究的技術(shù)細(xì)節(jié)，包括Transformer架構(gòu)的重要性、合成數(shù)據(jù)的潛力與挑戰(zhàn)、小型高效模型的發(fā)展前景等。本期「AI大家說」精選了本次訪談中Karpathy的觀點(diǎn)。

AI大家說 | 自動(dòng)駕駛、人形機(jī)器人、數(shù)據(jù)瓶頸 OpenAI 創(chuàng)始成員談未來

來源：No Priors

01 自動(dòng)駕駛與人形機(jī)器人

Q：人形機(jī)器人的第一個(gè)落地場景是什么？

Karpathy：很多人可能會想著讓機(jī)器人去洗衣服、做家務(wù)什么的，但我覺得那會很晚才實(shí)現(xiàn)。我不認(rèn)為B2C是個(gè)好起點(diǎn)。

我認(rèn)為最好的第一批客戶就是公司自己。可以先在工廠里使用它，比如做一些物料搬運(yùn)的工作。你可以自己先孵化它，然后第二步再去做B2B。你可以去那些有大型倉庫的公司，幫他們處理物料、簽合同、設(shè)置圍欄，做所有這些事情。等你在多家公司驗(yàn)證過后，我覺得那時(shí)才能開始進(jìn)入B2C應(yīng)用領(lǐng)域。我相信未來我們會看到B2C的機(jī)器人出現(xiàn)，比如像宇樹科技推出的產(chǎn)品。可能還會有一些人在這些平臺上建立一個(gè)生態(tài)系統(tǒng)?？傊?，最初肯定還是會涉及大量的物料搬運(yùn)，逐步向更具體的應(yīng)用發(fā)展。

Q：你如何看待現(xiàn)在自動(dòng)駕駛的能力發(fā)展路徑？

Karpathy：我曾在自動(dòng)駕駛領(lǐng)域花了大約五年的時(shí)間。我覺得自動(dòng)駕駛其實(shí)和AGI在某種層面上是相似的，而且我覺得我們在自動(dòng)駕駛方面已經(jīng)觸及到了一點(diǎn)AGI——現(xiàn)在一些自動(dòng)駕駛已經(jīng)可以做到帶你在某個(gè)城市里隨意地逛了。然而，它還沒有實(shí)現(xiàn)全球化。

最近自動(dòng)駕駛有個(gè)趨勢，就是向端到端深度學(xué)習(xí)的轉(zhuǎn)化，用神經(jīng)網(wǎng)絡(luò)逐步取代整個(gè)系統(tǒng)棧。像這樣的端到端系統(tǒng)，在大約10年內(nèi)，可能就是一個(gè)完整的神經(jīng)網(wǎng)絡(luò)了。視頻流輸入神經(jīng)網(wǎng)絡(luò)，最后直接輸出控制指令。這種端到端駕駛，只是模仿人類的行為，用很少的監(jiān)督數(shù)據(jù)去訓(xùn)練一個(gè)龐大的神經(jīng)網(wǎng)絡(luò)。對于幾億個(gè)參數(shù)來說，這種信號太少了。所以，這些中間層表征可以幫助開發(fā)各種特征和檢測器，讓端到端部分變得更容易。

Q：人形機(jī)器人有什么是可以轉(zhuǎn)移到自動(dòng)駕駛的嗎？

Karpathy：其實(shí)，我覺得車在自動(dòng)駕駛中基本上就是個(gè)機(jī)器人。很多人認(rèn)為特斯拉只是一家汽車公司，但它其實(shí)是一家大規(guī)模的機(jī)器人公司。規(guī)?；旧硪彩且粋€(gè)完全不同的變量。他們不是在造單一的產(chǎn)品，而是在造可以制造產(chǎn)品的機(jī)器，這完全是兩回事。從汽車到人形機(jī)器人的轉(zhuǎn)變其實(shí)沒那么難。早期版本的Optimus機(jī)器人甚至以為自己是輛車，因?yàn)樗玫碾娔X和攝像頭跟車完全一樣。特別有趣的是，我們在機(jī)器人上運(yùn)行的是汽車的算法，而它卻在辦公室里四處移動(dòng)，試圖識別可駕駛的空間，但實(shí)際上它面對的是步行空間。雖然有些細(xì)微的調(diào)整需要做，但基本上，它在開車的環(huán)境里運(yùn)行，實(shí)際上只是在行走。

雖然目前會缺少數(shù)據(jù)，但其實(shí)在智能方面，有很多可以轉(zhuǎn)移的東西。不僅是具體的神經(jīng)網(wǎng)絡(luò)，還包括整個(gè)方法論、團(tuán)隊(duì)，以及所有的協(xié)調(diào)和大家使用的方法。

Q：你認(rèn)為相對于未來，現(xiàn)在的機(jī)器人技術(shù)里缺少了什么關(guān)鍵技術(shù)？

Karpathy：在人形機(jī)器人這種形態(tài)中，下半身的控制可能不太適合通過示范來進(jìn)行模仿學(xué)習(xí)。因?yàn)橄掳肷砩婕昂芏嘞竦沽[控制這樣復(fù)雜的力學(xué)問題。而對于上半身，我覺得可能需要更多的遠(yuǎn)程操作、數(shù)據(jù)收集和端到端的處理。

02 AI的現(xiàn)在與未來

Q：你怎么看待數(shù)據(jù)壁壘以及規(guī)模進(jìn)一步發(fā)展的成本問題？

Karpathy：首先我不認(rèn)為神經(jīng)網(wǎng)絡(luò)架構(gòu)在從根本上限制我們了。以前Transformer是一種瓶頸，但現(xiàn)在它已經(jīng)不再是瓶頸了。現(xiàn)在我們更多地在討論的是：使用什么是損失函數(shù)？數(shù)據(jù)集在哪里？這些問題幾乎成為了瓶頸。

這不再是一個(gè)基于你想要它變成什么而重新配置的通用組織。這就是為什么許多研究已經(jīng)轉(zhuǎn)移到了這個(gè)領(lǐng)域。很多公司和其他應(yīng)用這種技術(shù)的企業(yè)不再怎么考慮Transformer的架構(gòu)創(chuàng)新了——它在過去五年里沒有太多革命性的變化，大家現(xiàn)在已經(jīng)把它視為理所當(dāng)然，直接使用并進(jìn)行訓(xùn)練?，F(xiàn)在，大部分的創(chuàng)新都集中在數(shù)據(jù)集和功能細(xì)節(jié)的優(yōu)化上。這是目前行業(yè)內(nèi)活躍的討論和改進(jìn)領(lǐng)域。

現(xiàn)在，很多工作都在語言模型（LMS）上進(jìn)行。而互聯(lián)網(wǎng)數(shù)據(jù)并不是我們理想中的Transformer訓(xùn)練數(shù)據(jù)。我們真正想要的，是更接近人類大腦中的“內(nèi)心獨(dú)白”那種數(shù)據(jù)——當(dāng)你在解決問題時(shí)，你的大腦會產(chǎn)生一系列思維軌跡。如果我們能得到上億條這樣的數(shù)據(jù)，類似于AGI的想法，那我們就能取得很大進(jìn)展。但目前我們還沒有達(dá)到這個(gè)水平。

所以，現(xiàn)在很多工作都圍繞著互聯(lián)網(wǎng)數(shù)據(jù)展開。這些數(shù)據(jù)雖然不是完美的，但已經(jīng)非常接近，因?yàn)榛ヂ?lián)網(wǎng)上有足夠的推理痕跡和豐富的知識，而Transformer的作用就是讓這些數(shù)據(jù)得以有效利用。

我認(rèn)為，接下來很多工作將聚焦于如何將數(shù)據(jù)集重構(gòu)為更類似于“內(nèi)心獨(dú)白”的格式。合成數(shù)據(jù)的生成在這方面能提供很大幫助。

有趣的是，當(dāng)前的模型在很大程度上幫助我們構(gòu)建下一代模型。它就像在攀登樓梯，一步步向前推進(jìn)。

Q：你認(rèn)為合成數(shù)據(jù)有多大用處，或者說能帶我們走多遠(yuǎn)？

Karpathy：我認(rèn)為合成數(shù)據(jù)的確是我們進(jìn)步的關(guān)鍵之一，但一個(gè)常見的問題是，模型在生成內(nèi)容時(shí)可能出現(xiàn)“坍塌”現(xiàn)象，輸出變得單一。

比如，讓ChatGPT講笑話時(shí)，它可能只會重復(fù)三四個(gè)笑話，缺乏足夠的變化。這種“熵”降低現(xiàn)象表現(xiàn)在單個(gè)結(jié)果上并不明顯，但從整體來看，模型的輸出會失去多樣性和豐富性。

如果你沒有保持這種數(shù)據(jù)的隨機(jī)性和多樣性，你就會得到一個(gè)貧瘠的數(shù)據(jù)集，失去了原有的活力。這種問題在表面上不易察覺，但實(shí)際上它會極大影響模型的性能。因此，在生成合成數(shù)據(jù)時(shí)，你必須非常小心，確保數(shù)據(jù)集中保留足夠的熵。

Q：你認(rèn)為我們從這項(xiàng)研究中對人類認(rèn)知了解了什么？

Karpathy：總體而言，這兩者還是有很大差異的，但確實(shí)有一些相似之處。例如，在很多方面Transformer比人腦更高效。它們之所以還不如人腦，主要是因?yàn)閿?shù)據(jù)問題——這算是一個(gè)大概的解釋。

比如，Transformer在記憶序列方面比人類強(qiáng)多了。你給它一個(gè)序列，它可以在前后進(jìn)行操作，記住并完成整個(gè)序列。而人類，只看一遍是記不住的。

所以在某些方面，像Transformer這樣的模型，尤其是在梯度優(yōu)化上，可能比大腦還要有效。盡管它們還不完美，但在很多認(rèn)知任務(wù)上，我認(rèn)為它們有很大的潛力。

我覺得人類大腦有很多限制。我們的工作記憶非常小，而Transformers的工作記憶要大得多，并且這種差距會持續(xù)擴(kuò)大。它們是更高效的學(xué)習(xí)者。大腦在各種限制下工作，比如不清楚大腦是否使用反向傳播，也不知道那會如何運(yùn)行。大腦是一個(gè)非常隨機(jī)、動(dòng)態(tài)的系統(tǒng)，受環(huán)境和其他因素的制約。所以，我認(rèn)為我們現(xiàn)在的技術(shù)，潛力上比大腦更強(qiáng)，只是還沒完全到達(dá)那個(gè)水平。

Q：未來隨著時(shí)間推移，人類會怎么樣和AI系統(tǒng)結(jié)合？

Karpathy：我們其實(shí)已經(jīng)在某種程度上融合了。問題在于輸入輸出的瓶頸。但大多數(shù)情況下，如果你擁有這些模型中的任何一個(gè)，你已經(jīng)在使用它們了?；蛟S未來，通過某種形式的融合可以解決未來與AI或其他系統(tǒng)的潛在沖突。我覺得這有點(diǎn)像大腦的外層皮質(zhì)。我們是在新皮層上繼續(xù)構(gòu)建。只是這次，它是在云端，而不是在我們頭腦里，但本質(zhì)上，它是大腦的下一層。

Q：你認(rèn)為未來的模型會是什么樣的？

Karpathy：我覺得模型可以小到讓你意想不到?，F(xiàn)在的模型浪費(fèi)了很多容量在記住一些不重要的東西上，這是因?yàn)槲覀冇玫臄?shù)據(jù)集沒有整理得很好。我認(rèn)為這種情況會改進(jìn)的。我們需要做的是找到認(rèn)知的核心部分，我相信這個(gè)核心可以非常小。它只需要能思考，如果需要查找信息，它知道怎么用不同的工具來獲取。

我覺得10億參數(shù)就夠了。我們有可能做到這一點(diǎn)。模型可以做得非常小。這是因?yàn)檎麴s技術(shù)很有效。蒸餾就是用一個(gè)大模型或者大量的計(jì)算資源去訓(xùn)練一個(gè)小模型，你可以把很多功能壓縮到一個(gè)小模型里。

也許這個(gè)未來不是一個(gè)單一的模型，可能是并行的一組模型。你能從并行處理的優(yōu)勢中獲益。我覺得公司在某種程度上也應(yīng)該強(qiáng)調(diào)工作中的并行化。不過，公司存在的層級結(jié)構(gòu)是為了有效地組織信息。

所以，我認(rèn)為未來大模型的工作模式會像一個(gè)「大模型公司」。你會有各種不同能力、專注于獨(dú)特領(lǐng)域的模型。這將類似于公司中的不同角色，比如程序員和項(xiàng)目經(jīng)理，他們并行工作并進(jìn)行協(xié)同計(jì)算。模型們會形成一個(gè)生態(tài)系統(tǒng)，里面有專門的角色和生態(tài)位。問題會根據(jù)難度自動(dòng)上升到不同部分。

因此，也許CEO就像一個(gè)非常聰明的云模型，甚至可能是開源模型或其他類型的模型。這種方式可能會很有趣。

Q：你離開了OpenAI，開始從事教育工作。為什么會做出這樣的決定呢？

Karpathy：我覺得現(xiàn)在AI領(lǐng)域有很多活動(dòng)，很多都是想取代或替代人類的，這讓我感覺有點(diǎn)像把人排除在外了。

我更關(guān)心的是如何通過AI協(xié)助人類。我不希望未來人們只是被自動(dòng)化取代，我希望人們能夠變得更強(qiáng)，更出色，比現(xiàn)在更好。如果一個(gè)人有一個(gè)完美的全科導(dǎo)師，他們能走多遠(yuǎn)呢？但如果人們能有一個(gè)完美的學(xué)習(xí)安排，他們可以走得非常遠(yuǎn)。我們看到一些有錢人大概率有私人導(dǎo)師，他們的確取得了很大的成就。所以我希望通過AI，達(dá)到接近這種效果。

我覺得學(xué)習(xí)就像去健身房一樣，是對大腦的鍛煉。去健身房本身是很有趣的，雖然需要努力，但也有很大的回報(bào)。你在各方面都能感覺更好。我認(rèn)為教育也應(yīng)該有這種感覺。所以當(dāng)我說教育不應(yīng)該只是有趣的時(shí)候，我指的是它應(yīng)該有挑戰(zhàn)性，也應(yīng)該帶來一種特別的樂趣。在一個(gè)后AGI的世界里，我希望人們能像去健身房一樣經(jīng)常去「學(xué)習(xí)」，不僅是身體上的鍛煉，還有精神上的。這是我們所向往的目標(biāo)，高教育水平就是這種理想的體現(xiàn)。