來(lái)源:環(huán)球網(wǎng) 美國(guó)《大西洋月刊》5月19日文章,原題:ChatGPT已經(jīng)過(guò)時(shí)了 人工智能正在經(jīng)歷一場(chǎng)無(wú)聲革命,這項(xiàng)技術(shù)不僅超越書(shū)面語(yǔ)言,融合多種媒體,更在朝著更崇高的目標(biāo)努力,即更全面透徹地理解世界。ChatGPT才6個(gè)月大,就已經(jīng)變得有些過(guò)時(shí)了。 ChatGPT正式發(fā)布App 蘋(píng)果iOS客戶端可進(jìn)行下載(IC photo) 這款程序及其“近親”,被稱為大型語(yǔ)言模型,通過(guò)統(tǒng)計(jì)學(xué)手段,預(yù)測(cè)、組成語(yǔ)句并予以表達(dá)。研究人員用更多文本訓(xùn)練這些程序,前提是認(rèn)為在不同配置下對(duì)機(jī)器進(jìn)行強(qiáng)制語(yǔ)料投喂可以提升預(yù)測(cè)能力和程序的智能水平。這種文本最大化的AI開(kāi)發(fā)方法一直是過(guò)去幾年來(lái)的主流。 然而,類(lèi)似初代ChatGPT的純語(yǔ)言模型正在退場(chǎng),取而代之的是可以處理圖像、音頻甚至感官數(shù)據(jù)的機(jī)器。這種新模式可能反映了人類(lèi)對(duì)智能更人性化的理解,是模擬兒童通過(guò)觀察世界進(jìn)行學(xué)習(xí)的初步嘗試。企業(yè)也可以借此開(kāi)發(fā)能力更全面的AI,進(jìn)而將其整合到更多產(chǎn)品中。除了GPT-4和Bard,許多程序也有各自開(kāi)發(fā)的拓展功能。這些程序被稱為多模態(tài)模型——文本和圖像都是其中的模態(tài)——許多研究人員希望可以借其將AI提升到新高度。 理論上說(shuō),多模態(tài)方法可以解決純語(yǔ)言模型的核心難點(diǎn)——即使能流暢地串聯(lián)單詞,卻無(wú)法將其同概念、觀點(diǎn)、事物或活動(dòng)聯(lián)系起來(lái)。學(xué)習(xí)更多類(lèi)型的數(shù)據(jù),能夠幫助AI模型對(duì)外部環(huán)境進(jìn)行想象和交互,進(jìn)行接近現(xiàn)實(shí)的輸出,甚至為了解決問(wèn)題而捏造真相。如果模型了解世界,自行捏造事物的可能性就會(huì)減少。多模態(tài)模型的構(gòu)建并非是新鮮事物,但近幾年來(lái),AI研究的幾項(xiàng)關(guān)鍵成果使得跨領(lǐng)域方法愈發(fā)可行。 這種變化也有其現(xiàn)實(shí)原因,因?yàn)椴徽摶ヂ?lián)網(wǎng)看起來(lái)多大,AI可以用于訓(xùn)練的文本數(shù)量都是有限的,其程序的規(guī)模和靈敏度,以及可應(yīng)用的計(jì)算能力,都要受到現(xiàn)實(shí)制約。相比于ChatGPT,多模態(tài)AI在理解世界和語(yǔ)言流暢層面的提升仍有待討論。許多程序都被證實(shí)存在一定程度的不足,但研究仍處于早期階段,未來(lái)幾年仍將不斷提升。 要想真正讓AI模擬人類(lèi)的思維,我們還有很長(zhǎng)的路要走。增加投喂的文本數(shù)據(jù)無(wú)法解決AI模型的偏差和虛假問(wèn)題,拓展投喂數(shù)據(jù)的類(lèi)型也不一定會(huì)解決此類(lèi)問(wèn)題。如果程序吸納了有偏差的文本和圖像,其輸出仍然是有害的,而且傳播形式會(huì)更廣。相比只能處理語(yǔ)言的模型,多模態(tài)AI對(duì)某些特定操作可能更加敏感,例如對(duì)圖像關(guān)鍵像素的篡改。除了智能層面,多模態(tài)AI也是很好的商業(yè)命題。 |