97国产精品一区二区视频_国产午夜毛片色哟哟_惠民福利国产91精品看黄网站在线观看_搡老熟女老女人一区二区三区_国产做a∨在线视频观看免费_日韩 综合 婷婷 图_成人黄色一级毛片片_萧山本地第一网络媒体_亚洲国产精品无码久久久曰_亚洲欧美日韩岛国色图

快捷導(dǎo)航

決定AI下一步的關(guān)鍵問題:數(shù)據(jù)耗盡!

2024-12-16 12:01| 發(fā)布者: admin| 查看: 84| 評論: 0
摘要: AI研究員已經(jīng)快將世界上的知識“榨干”了,下一步,AI該如何發(fā)展?昨日,前OpenAI聯(lián)合創(chuàng)始人、SSI創(chuàng)始人Ilya Sutskever在NeurIPS 2024大會上發(fā)表演講時表示,預(yù)訓(xùn)練時代即將結(jié)束,數(shù)據(jù)作為AI的化石燃料是有限的,目 ...

AI研究員已經(jīng)快將世界上的知識“榨干”了,下一步,AI該如何發(fā)展?

昨日,前OpenAI聯(lián)合創(chuàng)始人、SSI創(chuàng)始人Ilya Sutskever在NeurIPS 2024大會上發(fā)表演講時表示,預(yù)訓(xùn)練時代即將結(jié)束,數(shù)據(jù)作為AI的化石燃料是有限的,目前用于AI預(yù)訓(xùn)練的數(shù)據(jù)已經(jīng)達到了峰值。

的確,過去十年中,AI的爆炸性進步在很大程度上依賴于神經(jīng)網(wǎng)絡(luò)規(guī)模的擴大以及使用更多的數(shù)據(jù)進行訓(xùn)練,這使得大語言模型(LLMs),如ChatGPT能夠更好地模擬對話并發(fā)展出推理等功能。但一些專家指出,目前AI訓(xùn)練正在接近擴展的極限,一是因為計算能耗急劇增加,二是因為大語言模型開發(fā)者幾乎已經(jīng)用盡了能夠訓(xùn)練模型的傳統(tǒng)數(shù)據(jù)集。

Epoch AI的馬德里研究員Pablo Villalobos預(yù)測,到2028年左右,用于訓(xùn)練AI模型的數(shù)據(jù)集的規(guī)模將與公共在線文本總量相當(dāng),換句話說,AI訓(xùn)練數(shù)據(jù)很可能在四年后耗盡。

為了解決這一問題,目前AI公司有的在收集非公開數(shù)據(jù),有的轉(zhuǎn)向使用專注于健康護理、環(huán)境等的專業(yè)數(shù)據(jù)集,還有的在嘗試合成數(shù)據(jù)。這些方法都在一定程度上緩解了數(shù)據(jù)不足的困境,但都存在一些缺陷,并不能徹底解決問題。

或許,AI的下一步不再是學(xué)習(xí)現(xiàn)有知識,而是自我反思與智能進化,就像卡內(nèi)基梅隆大學(xué)的研究生Andy Zou說的這樣:“現(xiàn)在它已經(jīng)擁有了一個基礎(chǔ)知識庫,可能超過了任何一個人所能掌握的,這意味著它只需要靜下心來思考。”



決定AI下一步的關(guān)鍵問題:數(shù)據(jù)耗盡!

耗盡的數(shù)據(jù),膨脹的需求

過去十年中,大語言模型的開發(fā)展現(xiàn)出了對數(shù)據(jù)的強烈需求。

Villalobos估計,自2020年以來,用于訓(xùn)練大語言模型的數(shù)據(jù)增長了100倍,可能已經(jīng)占據(jù)了互聯(lián)網(wǎng)中很大一部分的內(nèi)容,并且,AI訓(xùn)練數(shù)據(jù)集的規(guī)模每年翻倍。然而另一邊,互聯(lián)網(wǎng)可用內(nèi)容的增長速度卻出奇的緩慢,估計每年增長不到10%。

基于這些趨勢,Villalobos的研究顯示,到2028年,AI訓(xùn)練數(shù)據(jù)很可能耗盡。


決定AI下一步的關(guān)鍵問題:數(shù)據(jù)耗盡!

與此同時,內(nèi)容提供商加入了越來越多的軟件代碼或完善其使用條款,禁止AI公司抓取其數(shù)據(jù)用于訓(xùn)練。

麻省理工學(xué)院的AI研究員Shayne Longpre領(lǐng)導(dǎo)著一個專門審計AI數(shù)據(jù)集的草根組織,并撰寫了數(shù)據(jù)來源追溯倡議。Longpre的研究顯示,數(shù)據(jù)提供商對特定爬蟲的封鎖數(shù)量急劇增加,2023年到2024年間,三大清洗數(shù)據(jù)集中最常用的高質(zhì)量網(wǎng)絡(luò)內(nèi)容,封鎖比例從不足3%增加到了20%-33%。

并且,幾起侵權(quán)訴訟也在進行中——2023年12月,《紐約時報》起訴OpenAI和微軟侵犯其版權(quán);今年4月,Alden Global Capital旗下的八家報紙也聯(lián)合提起了類似訴訟。如果美國法院判定內(nèi)容提供商應(yīng)當(dāng)獲得賠償,那么AI開發(fā)者和研究人員將更難獲取所需的數(shù)據(jù)。



決定AI下一步的關(guān)鍵問題:數(shù)據(jù)耗盡!

AI公司的應(yīng)對手段

面對內(nèi)容提供商越來越嚴格的管控,AI開發(fā)者也在著手尋找解決辦法。

OpenAI、Anthropic等知名AI公司公開承認了這個問題,表示他們有計劃通過手段繞過這一管控,比如生成新的數(shù)據(jù)、尋找非常規(guī)的數(shù)據(jù)來源等。OpenAI的一位發(fā)言人對《自然》雜志表示:

“我們使用多個來源,包括公開可用的數(shù)據(jù)、AI訓(xùn)練師提供的數(shù)據(jù)、與非公開數(shù)據(jù)合作、生成合成數(shù)據(jù)等?!?/span>

分析師指出,如果目標(biāo)是尋找更多數(shù)據(jù),目前,主流方法有二:

一是收集非公開數(shù)據(jù),如WhatsApp消息或YouTube視頻的文字記錄。例如,Meta曾表示他們使用虛擬現(xiàn)實耳機Meta Quest收集的音頻和圖像數(shù)據(jù)來訓(xùn)練AI。

Villalobos估計,這些數(shù)據(jù)大多質(zhì)量較低或重復(fù),且總量較小,不過即便如此,也足以延緩一年半左右時間的數(shù)據(jù)不足困境。

二是專注于快速增長的專業(yè)數(shù)據(jù)集,如天文學(xué)或基因組數(shù)據(jù)。

斯坦福大學(xué)的著名AI研究員Fei-Fei Li非常支持這種策略,她在5月的彭博技術(shù)峰會上表示,擔(dān)憂數(shù)據(jù)即將耗盡的觀點過于狹窄,因為在健康護理、環(huán)境、教育等領(lǐng)域有著豐富的未被開發(fā)的數(shù)據(jù)。

但Villalobos表示,目前尚不清楚這些數(shù)據(jù)集是否適合訓(xùn)練大語言模型,“很多數(shù)據(jù)類型之間似乎存在一定程度的遷移學(xué)習(xí),但我對這種方法并不抱太大希望?!?/span>

不過,分析師也提醒道,盡管有各種方法應(yīng)對數(shù)據(jù)緊張,但數(shù)據(jù)不足是實打?qū)嵉膯栴},因此,這可能會迫使公司在構(gòu)建生成AI模型時進行變革,使得AI的應(yīng)用領(lǐng)域從大型、通用的大語言模型轉(zhuǎn)向更小、更專業(yè)的細分模型。



決定AI下一步的關(guān)鍵問題:數(shù)據(jù)耗盡!

還可以合成數(shù)據(jù)?


除了以上兩種方式,Meta首席AI科學(xué)家Yann LeCun提出,如果無法找到數(shù)據(jù),也可以嘗試生成更多數(shù)據(jù)。
例如,一些AI公司付錢讓人們生成內(nèi)容用于AI訓(xùn)練,另一些公司則直接使用AI生成的合成數(shù)據(jù)來訓(xùn)練。
分析認為,這一數(shù)據(jù)來源潛力巨大——OpenAI今年早些時候表示,他們每天生成1000億個單詞,相當(dāng)于每年生成超過36萬億個單詞,與當(dāng)前的AI訓(xùn)練數(shù)據(jù)集規(guī)模相當(dāng),并且這一產(chǎn)出正在快速增長。
總的來說,專家們一致認為合成數(shù)據(jù)在有明確、可識別規(guī)則的領(lǐng)域表現(xiàn)良好,如國際象棋、數(shù)學(xué)、計算機編碼等。目前,AI工具AlphaGeometry已經(jīng)通過1億個合成示例進行訓(xùn)練并成功解決了幾何問題。
此外,合成數(shù)據(jù)在真實數(shù)據(jù)有限或有問題的領(lǐng)域也已經(jīng)被廣泛應(yīng)用,例如醫(yī)療領(lǐng)域,因為合成數(shù)據(jù)避免了隱私問題。
但合成數(shù)據(jù)也不是完美的——合成數(shù)據(jù)的問題在于,遞歸循環(huán)可能加劇錯誤、放大誤解,并在整體上降低AI模型的學(xué)習(xí)質(zhì)量。
2023年,一項研究提出了“模型自噬障礙(Model Autophagy Disorder)”這一術(shù)語,用于描述AI模型在這種情況下可能“崩潰”的現(xiàn)象。例如,一個部分使用合成數(shù)據(jù)訓(xùn)練的面部生成AI模型開始繪制帶有奇怪哈希標(biāo)記的面孔。

?星標(biāo)華爾街見聞,好內(nèi)容不錯過?
本文不構(gòu)成個人投資建議,不代表平臺觀點,市場有風(fēng)險,投資需謹慎,請獨立判斷和決策。


鮮花

握手

雷人

路過

雞蛋

關(guān)注我們:東遠物聯(lián)

抖音

微信咨詢

咨詢電話:

199-2833-9866

D-Think | 廣州東遠智能科技有限公司

地址:廣州市白云區(qū)北太路1633號廣州民營科技園科創(chuàng)中心2棟16樓

電話:+86 020-87227952 Email:[email protected]

Copyright  ©2020  東遠科技  粵ICP備2024254589號

免責(zé)申明:部分圖文表述來自于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系作者刪除!