AI研究員已經(jīng)快將世界上的知識“榨干”了,下一步,AI該如何發(fā)展? 昨日,前OpenAI聯(lián)合創(chuàng)始人、SSI創(chuàng)始人Ilya Sutskever在NeurIPS 2024大會上發(fā)表演講時表示,預(yù)訓(xùn)練時代即將結(jié)束,數(shù)據(jù)作為AI的化石燃料是有限的,目前用于AI預(yù)訓(xùn)練的數(shù)據(jù)已經(jīng)達到了峰值。 的確,過去十年中,AI的爆炸性進步在很大程度上依賴于神經(jīng)網(wǎng)絡(luò)規(guī)模的擴大以及使用更多的數(shù)據(jù)進行訓(xùn)練,這使得大語言模型(LLMs),如ChatGPT能夠更好地模擬對話并發(fā)展出推理等功能。但一些專家指出,目前AI訓(xùn)練正在接近擴展的極限,一是因為計算能耗急劇增加,二是因為大語言模型開發(fā)者幾乎已經(jīng)用盡了能夠訓(xùn)練模型的傳統(tǒng)數(shù)據(jù)集。 Epoch AI的馬德里研究員Pablo Villalobos預(yù)測,到2028年左右,用于訓(xùn)練AI模型的數(shù)據(jù)集的規(guī)模將與公共在線文本總量相當(dāng),換句話說,AI訓(xùn)練數(shù)據(jù)很可能在四年后耗盡。 為了解決這一問題,目前AI公司有的在收集非公開數(shù)據(jù),有的轉(zhuǎn)向使用專注于健康護理、環(huán)境等的專業(yè)數(shù)據(jù)集,還有的在嘗試合成數(shù)據(jù)。這些方法都在一定程度上緩解了數(shù)據(jù)不足的困境,但都存在一些缺陷,并不能徹底解決問題。 或許,AI的下一步不再是學(xué)習(xí)現(xiàn)有知識,而是自我反思與智能進化,就像卡內(nèi)基梅隆大學(xué)的研究生Andy Zou說的這樣:“現(xiàn)在它已經(jīng)擁有了一個基礎(chǔ)知識庫,可能超過了任何一個人所能掌握的,這意味著它只需要靜下心來思考。” 耗盡的數(shù)據(jù),膨脹的需求 過去十年中,大語言模型的開發(fā)展現(xiàn)出了對數(shù)據(jù)的強烈需求。 Villalobos估計,自2020年以來,用于訓(xùn)練大語言模型的數(shù)據(jù)增長了100倍,可能已經(jīng)占據(jù)了互聯(lián)網(wǎng)中很大一部分的內(nèi)容,并且,AI訓(xùn)練數(shù)據(jù)集的規(guī)模每年翻倍。然而另一邊,互聯(lián)網(wǎng)可用內(nèi)容的增長速度卻出奇的緩慢,估計每年增長不到10%。 基于這些趨勢,Villalobos的研究顯示,到2028年,AI訓(xùn)練數(shù)據(jù)很可能耗盡。 與此同時,內(nèi)容提供商加入了越來越多的軟件代碼或完善其使用條款,禁止AI公司抓取其數(shù)據(jù)用于訓(xùn)練。 麻省理工學(xué)院的AI研究員Shayne Longpre領(lǐng)導(dǎo)著一個專門審計AI數(shù)據(jù)集的草根組織,并撰寫了數(shù)據(jù)來源追溯倡議。Longpre的研究顯示,數(shù)據(jù)提供商對特定爬蟲的封鎖數(shù)量急劇增加,2023年到2024年間,三大清洗數(shù)據(jù)集中最常用的高質(zhì)量網(wǎng)絡(luò)內(nèi)容,封鎖比例從不足3%增加到了20%-33%。 并且,幾起侵權(quán)訴訟也在進行中——2023年12月,《紐約時報》起訴OpenAI和微軟侵犯其版權(quán);今年4月,Alden Global Capital旗下的八家報紙也聯(lián)合提起了類似訴訟。如果美國法院判定內(nèi)容提供商應(yīng)當(dāng)獲得賠償,那么AI開發(fā)者和研究人員將更難獲取所需的數(shù)據(jù)。 AI公司的應(yīng)對手段 面對內(nèi)容提供商越來越嚴格的管控,AI開發(fā)者也在著手尋找解決辦法。 OpenAI、Anthropic等知名AI公司公開承認了這個問題,表示他們有計劃通過手段繞過這一管控,比如生成新的數(shù)據(jù)、尋找非常規(guī)的數(shù)據(jù)來源等。OpenAI的一位發(fā)言人對《自然》雜志表示:
分析師指出,如果目標(biāo)是尋找更多數(shù)據(jù),目前,主流方法有二: 一是收集非公開數(shù)據(jù),如WhatsApp消息或YouTube視頻的文字記錄。例如,Meta曾表示他們使用虛擬現(xiàn)實耳機Meta Quest收集的音頻和圖像數(shù)據(jù)來訓(xùn)練AI。 Villalobos估計,這些數(shù)據(jù)大多質(zhì)量較低或重復(fù),且總量較小,不過即便如此,也足以延緩一年半左右時間的數(shù)據(jù)不足困境。 二是專注于快速增長的專業(yè)數(shù)據(jù)集,如天文學(xué)或基因組數(shù)據(jù)。 斯坦福大學(xué)的著名AI研究員Fei-Fei Li非常支持這種策略,她在5月的彭博技術(shù)峰會上表示,擔(dān)憂數(shù)據(jù)即將耗盡的觀點過于狹窄,因為在健康護理、環(huán)境、教育等領(lǐng)域有著豐富的未被開發(fā)的數(shù)據(jù)。 但Villalobos表示,目前尚不清楚這些數(shù)據(jù)集是否適合訓(xùn)練大語言模型,“很多數(shù)據(jù)類型之間似乎存在一定程度的遷移學(xué)習(xí),但我對這種方法并不抱太大希望?!?/span> 不過,分析師也提醒道,盡管有各種方法應(yīng)對數(shù)據(jù)緊張,但數(shù)據(jù)不足是實打?qū)嵉膯栴},因此,這可能會迫使公司在構(gòu)建生成AI模型時進行變革,使得AI的應(yīng)用領(lǐng)域從大型、通用的大語言模型轉(zhuǎn)向更小、更專業(yè)的細分模型。 還可以合成數(shù)據(jù)? |