決定AI下一步的關(guān)鍵問題：數(shù)據(jù)耗盡！

2024-12-16 12:01| 發(fā)布者: admin| 查看: 84| 評論: 0

摘要: AI研究員已經(jīng)快將世界上的知識“榨干”了，下一步，AI該如何發(fā)展？昨日，前OpenAI聯(lián)合創(chuàng)始人、SSI創(chuàng)始人Ilya Sutskever在NeurIPS 2024大會上發(fā)表演講時表示，預(yù)訓(xùn)練時代即將結(jié)束，數(shù)據(jù)作為AI的化石燃料是有限的，目 ...

AI研究員已經(jīng)快將世界上的知識“榨干”了，下一步，AI該如何發(fā)展？

昨日，前OpenAI聯(lián)合創(chuàng)始人、SSI創(chuàng)始人Ilya Sutskever在NeurIPS 2024大會上發(fā)表演講時表示，預(yù)訓(xùn)練時代即將結(jié)束，數(shù)據(jù)作為AI的化石燃料是有限的，目前用于AI預(yù)訓(xùn)練的數(shù)據(jù)已經(jīng)達到了峰值。

的確，過去十年中，AI的爆炸性進步在很大程度上依賴于神經(jīng)網(wǎng)絡(luò)規(guī)模的擴大以及使用更多的數(shù)據(jù)進行訓(xùn)練，這使得大語言模型（LLMs），如ChatGPT能夠更好地模擬對話并發(fā)展出推理等功能。但一些專家指出，目前AI訓(xùn)練正在接近擴展的極限，一是因為計算能耗急劇增加，二是因為大語言模型開發(fā)者幾乎已經(jīng)用盡了能夠訓(xùn)練模型的傳統(tǒng)數(shù)據(jù)集。

Epoch AI的馬德里研究員Pablo Villalobos預(yù)測，到2028年左右，用于訓(xùn)練AI模型的數(shù)據(jù)集的規(guī)模將與公共在線文本總量相當(dāng)，換句話說，AI訓(xùn)練數(shù)據(jù)很可能在四年后耗盡。

為了解決這一問題，目前AI公司有的在收集非公開數(shù)據(jù)，有的轉(zhuǎn)向使用專注于健康護理、環(huán)境等的專業(yè)數(shù)據(jù)集，還有的在嘗試合成數(shù)據(jù)。這些方法都在一定程度上緩解了數(shù)據(jù)不足的困境，但都存在一些缺陷，并不能徹底解決問題。

或許，AI的下一步不再是學(xué)習(xí)現(xiàn)有知識，而是自我反思與智能進化，就像卡內(nèi)基梅隆大學(xué)的研究生Andy Zou說的這樣：“現(xiàn)在它已經(jīng)擁有了一個基礎(chǔ)知識庫，可能超過了任何一個人所能掌握的，這意味著它只需要靜下心來思考。”

決定AI下一步的關(guān)鍵問題：數(shù)據(jù)耗盡！

耗盡的數(shù)據(jù)，膨脹的需求

過去十年中，大語言模型的開發(fā)展現(xiàn)出了對數(shù)據(jù)的強烈需求。

Villalobos估計，自2020年以來，用于訓(xùn)練大語言模型的數(shù)據(jù)增長了100倍，可能已經(jīng)占據(jù)了互聯(lián)網(wǎng)中很大一部分的內(nèi)容，并且，AI訓(xùn)練數(shù)據(jù)集的規(guī)模每年翻倍。然而另一邊，互聯(lián)網(wǎng)可用內(nèi)容的增長速度卻出奇的緩慢，估計每年增長不到10%。

基于這些趨勢，Villalobos的研究顯示，到2028年，AI訓(xùn)練數(shù)據(jù)很可能耗盡。

決定AI下一步的關(guān)鍵問題：數(shù)據(jù)耗盡！

與此同時，內(nèi)容提供商加入了越來越多的軟件代碼或完善其使用條款，禁止AI公司抓取其數(shù)據(jù)用于訓(xùn)練。

麻省理工學(xué)院的AI研究員Shayne Longpre領(lǐng)導(dǎo)著一個專門審計AI數(shù)據(jù)集的草根組織，并撰寫了數(shù)據(jù)來源追溯倡議。Longpre的研究顯示，數(shù)據(jù)提供商對特定爬蟲的封鎖數(shù)量急劇增加，2023年到2024年間，三大清洗數(shù)據(jù)集中最常用的高質(zhì)量網(wǎng)絡(luò)內(nèi)容，封鎖比例從不足3%增加到了20%-33%。

并且，幾起侵權(quán)訴訟也在進行中——2023年12月，《紐約時報》起訴OpenAI和微軟侵犯其版權(quán)；今年4月，Alden Global Capital旗下的八家報紙也聯(lián)合提起了類似訴訟。如果美國法院判定內(nèi)容提供商應(yīng)當(dāng)獲得賠償，那么AI開發(fā)者和研究人員將更難獲取所需的數(shù)據(jù)。

決定AI下一步的關(guān)鍵問題：數(shù)據(jù)耗盡！

AI公司的應(yīng)對手段

面對內(nèi)容提供商越來越嚴格的管控，AI開發(fā)者也在著手尋找解決辦法。

OpenAI、Anthropic等知名AI公司公開承認了這個問題，表示他們有計劃通過手段繞過這一管控，比如生成新的數(shù)據(jù)、尋找非常規(guī)的數(shù)據(jù)來源等。OpenAI的一位發(fā)言人對《自然》雜志表示：

“我們使用多個來源，包括公開可用的數(shù)據(jù)、AI訓(xùn)練師提供的數(shù)據(jù)、與非公開數(shù)據(jù)合作、生成合成數(shù)據(jù)等?！?/span>

分析師指出，如果目標(biāo)是尋找更多數(shù)據(jù)，目前，主流方法有二：

一是收集非公開數(shù)據(jù)，如WhatsApp消息或YouTube視頻的文字記錄。例如，Meta曾表示他們使用虛擬現(xiàn)實耳機Meta Quest收集的音頻和圖像數(shù)據(jù)來訓(xùn)練AI。

Villalobos估計，這些數(shù)據(jù)大多質(zhì)量較低或重復(fù)，且總量較小，不過即便如此，也足以延緩一年半左右時間的數(shù)據(jù)不足困境。

二是專注于快速增長的專業(yè)數(shù)據(jù)集，如天文學(xué)或基因組數(shù)據(jù)。

斯坦福大學(xué)的著名AI研究員Fei-Fei Li非常支持這種策略，她在5月的彭博技術(shù)峰會上表示，擔(dān)憂數(shù)據(jù)即將耗盡的觀點過于狹窄，因為在健康護理、環(huán)境、教育等領(lǐng)域有著豐富的未被開發(fā)的數(shù)據(jù)。

但Villalobos表示，目前尚不清楚這些數(shù)據(jù)集是否適合訓(xùn)練大語言模型，“很多數(shù)據(jù)類型之間似乎存在一定程度的遷移學(xué)習(xí)，但我對這種方法并不抱太大希望?！?/span>

不過，分析師也提醒道，盡管有各種方法應(yīng)對數(shù)據(jù)緊張，但數(shù)據(jù)不足是實打?qū)嵉膯栴}，因此，這可能會迫使公司在構(gòu)建生成AI模型時進行變革，使得AI的應(yīng)用領(lǐng)域從大型、通用的大語言模型轉(zhuǎn)向更小、更專業(yè)的細分模型。

決定AI下一步的關(guān)鍵問題：數(shù)據(jù)耗盡！