2024 年末決戰(zhàn)，AI 視頻「卷麻了」

2024-12-28 09:48| 發(fā)布者: admin| 查看: 64| 評(píng)論: 0

摘要: AI 視頻又卷起來了。12月中旬 Sora 正式發(fā)布，幾天后谷歌推出了號(hào)稱最強(qiáng)的 Veo 2 模型，緊接著國(guó)內(nèi) AI 視頻的“卷王”可靈 AI 也宣布再次升級(jí)，更新到了 1.6 版本。今年 6 月推出以來，可靈 AI 在過去半年里已經(jīng)完成 ...

AI 視頻又卷起來了。

12月中旬 Sora 正式發(fā)布，幾天后谷歌推出了號(hào)稱最強(qiáng)的 Veo 2 模型，緊接著國(guó)內(nèi) AI 視頻的“卷王”可靈 AI 也宣布再次升級(jí)，更新到了 1.6 版本。

今年 6 月推出以來，可靈 AI 在過去半年里已經(jīng)完成了好幾輪基礎(chǔ)模型能力和產(chǎn)品功能的迭代，而今年 9 月推出的可靈 1.5，已經(jīng)是國(guó)內(nèi)乃至全球性能最出色的視頻生成模型之一。

在智源研究院的橫向測(cè)評(píng)中，可靈 1.5 版本以其出色的表現(xiàn)排名第一；而在谷歌的橫向測(cè)評(píng)里，在拿谷歌自己的 Veo 2 與包括可靈在內(nèi)的四個(gè)市面上主流視頻模型的生成效果對(duì)比中，可靈 1.5 模型也是除 Veo 2 外表現(xiàn)最好的一個(gè)。

谷歌基于外部數(shù)據(jù)集，測(cè)試 Veo2 與其他四個(gè)視頻模型的表現(xiàn)對(duì)比

而相較于此前的 1.5 版本，新發(fā)布的可靈 1.6 在文本響應(yīng)度、動(dòng)態(tài)質(zhì)量以及畫面質(zhì)量等多個(gè)核心指標(biāo)上都做出了顯著提升。

可以說作為「賽道卷王」，可靈再次拉高了視頻模型競(jìng)賽的天花板。

從武俠招式到漫威皮卡丘，可靈 1.6 讓想象力無縫銜接現(xiàn)實(shí)

綜合測(cè)試結(jié)果，可靈 1.6 能夠更加精準(zhǔn)地理解復(fù)雜的文字描述，特別是在運(yùn)動(dòng)、時(shí)序動(dòng)作和鏡頭運(yùn)作方面的反應(yīng)更為靈敏，生成的視頻不僅在運(yùn)動(dòng)表現(xiàn)上更加合理，人物表情也更具自然感，視覺效果則在色彩、光影、細(xì)節(jié)處理上做到了進(jìn)一步優(yōu)化。

此外，可靈 1.6 還在圖生視頻的能力上進(jìn)一步優(yōu)化。據(jù)極客公園了解，可靈團(tuán)隊(duì)內(nèi)部評(píng)測(cè) 1.6 的圖生視頻效果比 1.5 模型整體效果提升 195%，帶來了更加出色的創(chuàng)作體驗(yàn)和視覺效果。

更新一出，不少 AIGC 創(chuàng)作者馬上用可靈 1.6 嘗試創(chuàng)作，其中有不少驚艷的作品。

AIGC 創(chuàng)作者 @Jadewu 的作品｜視頻來源：可靈AI

首先是這個(gè)表現(xiàn)武俠小說的經(jīng)典招式——「萬劍歸宗」的短片。這個(gè)最早出自經(jīng)典武俠漫畫《風(fēng)云》的招式，由于招式設(shè)定復(fù)雜，即使在火遍國(guó)內(nèi)的電視劇版《風(fēng)云》中，由專業(yè)的演員配合后期特效制作，也并不容易在電視劇中完美還原漫畫中對(duì)這一絕招的描述。

可以看到，在可靈 1.6 創(chuàng)作的短片里，不僅很好地理解了「萬劍歸宗」這個(gè)復(fù)雜的招式，呈現(xiàn)效果、人物動(dòng)作和兵器的特效也非常驚艷，整個(gè)場(chǎng)景充滿真實(shí)感與震撼力。即使是在快速移動(dòng)的鏡頭下，畫面依舊保持清晰，每一個(gè)動(dòng)作都生動(dòng)流暢，毫無卡頓或割裂感。

創(chuàng)作者北邦發(fā)表在愛智島上的作品｜視頻來源：可靈AI

創(chuàng)作者北邦則從「尚舞國(guó)風(fēng)」這一風(fēng)格化測(cè)試的角度對(duì)可靈1.6進(jìn)行了測(cè)評(píng)。風(fēng)格化測(cè)試通常涉及到模型對(duì)風(fēng)格化指令的理解和執(zhí)行能力，以及生成視頻的視覺質(zhì)量。

該創(chuàng)作者使用了SD Flux @ Liblib Webui 進(jìn)行文生圖，再用可靈1.6圖生視頻以及Flux LoRA混合生成，「目前可靈1.6已經(jīng)對(duì)復(fù)雜的畫面風(fēng)格有了更多的理解和動(dòng)態(tài)塑造能力，這個(gè)主要得益于1.6升級(jí)了對(duì)提示詞語義理解和動(dòng)態(tài)表現(xiàn)力?！?br>
絲滑的舞蹈動(dòng)作、浮世繪的色彩，以及精細(xì)的背景渲染，都是可靈1.6在風(fēng)格化測(cè)試中展現(xiàn)出的亮眼表現(xiàn)。相比于以往的版本，1.6在對(duì)復(fù)雜畫面風(fēng)格的理解上有了顯著的進(jìn)步，能夠精準(zhǔn)捕捉并再現(xiàn)用戶設(shè)定的藝術(shù)風(fēng)格。不僅如此，模型在動(dòng)態(tài)表現(xiàn)上的提升，也使得畫面中的動(dòng)作更加流暢自然，仿佛真正的舞者在其中翩翩起舞，令人驚艷不已。

AIGC創(chuàng)作者溫維斯的作品 |視頻來源：可靈AI

AIGC創(chuàng)作者溫維斯則用可靈1.6生成了9個(gè)「漫威皮卡丘」，從生成效果來看，酷炫的漫威「外殼」跟可愛的皮卡丘融合得毫無違和感。

整體來看，動(dòng)態(tài)場(chǎng)景流暢，動(dòng)作生動(dòng)自然，畫面質(zhì)量也很高，無論是皮卡丘的動(dòng)作，還是漫威角色皮膚的細(xì)節(jié)，1.6都流暢、逼真地呈現(xiàn)了出來，不知道的還以為漫威真和皮卡丘夢(mèng)幻聯(lián)動(dòng)了。

細(xì)節(jié)與動(dòng)態(tài)的較量：可靈 1.6 對(duì)比 Sora

AIGC創(chuàng)作者歸藏的作品｜視頻來源：可靈AI

在可靈推出1.6版本前些天，OpenAI也終于將鋪墊了長(zhǎng)達(dá)10個(gè)月的Sora正式推出，也因此，AIGC創(chuàng)作者歸藏在對(duì)比可靈1.6、1.5版本的同時(shí)，對(duì)Sora也進(jìn)行了對(duì)比。

首先來看看模型在理解文本描述并生成相應(yīng)視頻內(nèi)容的不同能力。特別是在涉及復(fù)雜動(dòng)態(tài)場(chǎng)景和時(shí)序動(dòng)作時(shí)，模型是否能夠準(zhǔn)確地將文字轉(zhuǎn)化為畫面。

從文本響應(yīng)度上來看，Sora對(duì)文本的理解似乎不太到位，比如在第一組里，Sora的「猛獸」并沒有站起來，更沒有抬頭咆哮，更沒有雨水落下，而可靈1.5里，「猛獸」做到了咆哮，隨后天空也開始落下雨滴，但還是缺失了「抬頭」這一下，1.6里則將「抬頭咆哮」這一點(diǎn)完整地實(shí)現(xiàn)了。

在視頻生成過程中，動(dòng)態(tài)場(chǎng)景的流暢性和運(yùn)動(dòng)的自然度至關(guān)重要。這一點(diǎn)在第二組的小兔子吃月餅體現(xiàn)的比較明顯。這一組里的Sora，兔子只是捧著月餅塞在嘴邊，并沒有「吃」這個(gè)動(dòng)作，月亮的移動(dòng)也是「倏」地一下，而可靈1.5則生動(dòng)體現(xiàn)了「吃」這個(gè)動(dòng)作，不過月亮的移動(dòng)還是算不上「緩慢」，但1.6版本則在「吃」的基礎(chǔ)上，將月亮的移動(dòng)也變得「緩慢」了。

AIGC創(chuàng)作者歸藏的作品｜視頻來源：可靈AI

畫面的質(zhì)量直接影響觀看體驗(yàn)。這組關(guān)于柿子樹的測(cè)試，可以比較明顯地看出模型在色彩還原、光影效果和細(xì)節(jié)處理方面的不同表現(xiàn)。

在這組對(duì)照里，Sora呈現(xiàn)出的柿子樹首先就看著有點(diǎn)「假」，柿子的顏色亮的實(shí)在有點(diǎn)突兀了，在鏡頭的推移上基本沒有變化，而可靈1.5里「柿子」的形態(tài)首先就看著跟真的差不多，鏡頭由近拉遠(yuǎn)的同時(shí)，冬霧也在空中騰起，可靈1.6則更進(jìn)一步，不僅柿子在樹上的分布有所變化，還有陽(yáng)光從遠(yuǎn)處的群山處折射過來，并且雪花在空中飛舞，畫面的豐富度與質(zhì)感都明顯優(yōu)于前兩者。

從“中國(guó)的Sora”到“世界的可靈”

在過去的一年里，視頻生成模型迎來了持續(xù)的更新迭代。從Sora的首發(fā)引發(fā)業(yè)界轟動(dòng)，再到各大國(guó)內(nèi)外廠商相繼推出新版本，AI視頻生成領(lǐng)域無疑進(jìn)入了一個(gè)加速發(fā)展的階段。

可靈 AI 剛問世時(shí)曾被外界稱為中國(guó)版 Sora，備受業(yè)界內(nèi)外期待，推出后一度位列全球訪問量最高的AI視頻產(chǎn)品，時(shí)至今日，從前述可靈1.6的升級(jí)以及對(duì)照中超越Sora的表現(xiàn)可以看出，可靈 AI 已成為國(guó)產(chǎn) AI 的代表，在國(guó)際上證明了自己的實(shí)力，成為全球視頻生成領(lǐng)域的標(biāo)桿之一。

在這場(chǎng)競(jìng)速中，可靈 AI 無疑扮演著“賽道卷王”的角色，正在以一系列創(chuàng)新和技術(shù)突破不斷刷新行業(yè)天花板。

6月，可靈 AI 初次亮相，就以全球首個(gè)真實(shí)影像級(jí)視頻生成大模型的姿態(tài)驚艷全場(chǎng)，隨后，其技術(shù)能力迅速進(jìn)化，快速推出了圖生視頻、視頻續(xù)寫、運(yùn)動(dòng)筆刷等創(chuàng)新功能，不僅顯著提升了畫面質(zhì)量、動(dòng)態(tài)表現(xiàn)和指令響應(yīng)能力，還將文生視頻的生成時(shí)長(zhǎng)擴(kuò)展至10秒，為創(chuàng)作者提供了更加自由的發(fā)揮空間。

到了9月，升級(jí)版可靈 1.5發(fā)布，進(jìn)一步增強(qiáng)了畫質(zhì)、動(dòng)態(tài)質(zhì)量、運(yùn)動(dòng)合理性、語義理解等方面的表現(xiàn)，展現(xiàn)了可靈 AI 在細(xì)節(jié)和創(chuàng)意上的強(qiáng)大潛力，全球用戶在社交平臺(tái)上創(chuàng)作了大量創(chuàng)意視頻，充分展示了這一技術(shù)在藝術(shù)創(chuàng)作和內(nèi)容生產(chǎn)中的無限可能。

自推出6個(gè)月來，大大小小迭代10余次的可靈 AI ，不僅此前每一次的更新都超越了以往的局限，不斷推動(dòng)生成效果達(dá)到新高度，賦予了模型更強(qiáng)的適應(yīng)性和創(chuàng)造力，此次從1.5到1.6的升級(jí)，則更是體現(xiàn)了對(duì)細(xì)節(jié)的極致打磨。

2024 年末決戰(zhàn)，AI 視頻「卷麻了」

（可靈1.6模型概念宣傳片）

無論是文本響應(yīng)、動(dòng)態(tài)效果，還是畫面質(zhì)量的提升，可靈 AI 在技術(shù)上實(shí)現(xiàn)精細(xì)化調(diào)整的同時(shí)，也在無形中推動(dòng)了整個(gè)行業(yè)天花板的提升。這一版本的發(fā)布不僅展現(xiàn)了國(guó)產(chǎn)技術(shù)的強(qiáng)大實(shí)力，更加速了全球AI視頻生成領(lǐng)域的技術(shù)進(jìn)步，可以說是「卷王之王」。

如今的AI視頻生成不僅僅是技術(shù)層面的比拼，更是各大廠商在算法優(yōu)化、細(xì)節(jié)呈現(xiàn)、生成質(zhì)量上的全面較量。在這場(chǎng)競(jìng)爭(zhēng)中，可靈 AI 憑借其不斷升級(jí)的技術(shù)和強(qiáng)大的創(chuàng)造力，已位列行業(yè)前沿。數(shù)據(jù)顯示，可靈 AI 發(fā)布半年來，已擁有超過600萬用戶，累計(jì)生成超6500萬個(gè)視頻和超1.75億張圖片。

在這一輪競(jìng)爭(zhēng)中，可靈 1.6 的亮相，不僅進(jìn)一步拉高了行業(yè)天花板，也意味著，隨著技術(shù)的不斷突破和創(chuàng)作空間的擴(kuò)展，AI視頻生成的未來將不僅僅停留在技術(shù)層面的革新，而將開啟全新的視覺創(chuàng)作時(shí)代。

頭圖來源：可靈AI