美譽(yù)度品牌管理
AI文生視頻賽道正呈現(xiàn)出爆發(fā)之勢(shì)!
繼本月AI文生視頻工具Pika 1.0爆火出圈、Gen-2效果大升級(jí)之后,斯坦福大學(xué)AI科學(xué)家李飛飛的團(tuán)隊(duì)也有了新動(dòng)作!
美譽(yù)度12月12日?qǐng)?bào)道,今日,李飛飛及其學(xué)生團(tuán)隊(duì)與谷歌合作,推出了AI視頻生成模型W.A.L.T(窗口注意力潛在Transformer ,Window Attention Latent Transformer)。
▲李飛飛在社交平臺(tái)X發(fā)聲轉(zhuǎn)發(fā)
演示中,W.A.L.T可以通過(guò)自然語(yǔ)言提示,生成3秒長(zhǎng)的每秒8幀、分辨率達(dá)512×896的逼真視頻。
▲W.A.L.T的文生視頻示例
W.A.L.T可以讓一張靜態(tài)圖片變?yōu)橐粋€(gè)的動(dòng)態(tài)感十足的動(dòng)圖。
▲W.A.L.T的圖生視頻示例
W.A.L.T還可以用于生成3D攝像機(jī)運(yùn)動(dòng)的視覺(jué)效果。
▲W.A.L.T的3D視頻生成示例
與爆火的Pika 1.0、Gen-2等同類工具類似,W.A.L.T采用擴(kuò)散模型(Diffusion Model)技術(shù)。
同時(shí),W.A.L.T的創(chuàng)新之處在于,其將Transformer架構(gòu)與潛在擴(kuò)散模型(Latent Diffusion Models,LDM)相結(jié)合,在一個(gè)共享潛在空間中壓縮圖像和視頻,從而降低計(jì)算要求,提高訓(xùn)練效率。
根據(jù)論文,W.A.L.T在視頻生成基準(zhǔn)UCF-101和Kinetics-600、圖像生成基準(zhǔn)ImageNet測(cè)試上實(shí)現(xiàn)了SOTA(當(dāng)前最優(yōu)效果)。
項(xiàng)目地址:
https://walt-video-diffusion.github.io/
論文地址:
https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf
▲W.A.L.T相關(guān)論文截圖
一、一句話生成3s視頻,高逼真、強(qiáng)動(dòng)態(tài)、3D視覺(jué)
W.A.L.T模型目前支持文生視頻、圖片轉(zhuǎn)視頻和3D相機(jī)拍攝視頻三項(xiàng)能力,團(tuán)隊(duì)展示了一系列W.A.L.T生成示例。
1、文生視頻:一句話生成高清逼真視頻
輸入一句簡(jiǎn)短的提示詞,W.A.L.T模型就可以給出一個(gè)3秒長(zhǎng)的逼真視頻。以下是一些示例:
陽(yáng)光明媚的下午,宇航員在喂鴨子。(An astronaut feeding ducks on a sunny afternoon.)
一頭戴著生日帽的大象在海灘上行走。(An elephant wearing a birthday hat walking on the beach.)
皮卡丘在拳擊場(chǎng)內(nèi)戴著拳擊手套。(Pikachu wearing boxing gloves, inside a boxing ring.)
一只可愛(ài)的熊貓?jiān)谔炜罩谢?,越過(guò)雪山,充滿夢(mèng)幻和異想天開(kāi)的氣氛。(A cute panda skateboarding in the sky, over snow covered mountains, with a dreamy and whimsical atmosphere.)
一對(duì)情侶撐著雨傘走回家,傾盆大雨,油畫風(fēng)格。(A couple walking home with umbrellas, heavy downpour, oil painting style.)
2、圖片轉(zhuǎn)視頻:用戶提供圖片,生成動(dòng)態(tài)視頻
這里的圖片不是由W.A.L.T模型生成的,但動(dòng)態(tài)效果是的,如下面的示例所示:
一個(gè)穿著全套太空服的宇航員騎著馬,慢動(dòng)作。(An astronaut in full space suit riding a horse, slow motion.)
一個(gè)巨大的機(jī)器人在雪里行走。(A giant robot walking through a snowy landscape.)
一只大泰迪熊慢鏡頭走在第五大道上。(A large teddy bear walking down 5th avenue, slow motion.)
3、3D相機(jī)拍攝視頻:物體全景多細(xì)節(jié)展示
團(tuán)隊(duì)還展示了3D視頻內(nèi)容的生成,效果看起來(lái)就像一個(gè)3D攝像機(jī)拍攝而來(lái)。示例如下:
鏡頭轉(zhuǎn)向盤子里的漢堡,工作室。(Camera turns around a burger on a plate, studio lighting, 360 rotation.)
攝像機(jī)繞著戴著一副耳機(jī)的南瓜,工作室燈光,360度旋轉(zhuǎn)。(Camera turns around a pair of headphones around a pumpkin, studio lighting, 360 rotation.)
二、Transformer+潛在擴(kuò)散模型,降低計(jì)算成本
Transformer在處理視頻等高維數(shù)據(jù)時(shí)成本過(guò)高,潛在擴(kuò)散模型(Latent diffusion models,LDM)可以降低計(jì)算要求。
因此,李飛飛學(xué)生團(tuán)隊(duì)與谷歌研發(fā)者共同提出了窗口注意力潛在Transformer(Window Attention Latent Transformer,W.A.L.T),這是一種基于Transformer的潛在視頻擴(kuò)散模型(latent video diffusion models,LVDM)方法。
當(dāng)下,市面上的同類工具如Pika Labs推出的Pika 1.0、Runway的Gen-2,大都采用擴(kuò)散模型(Diffusion Model),這是很長(zhǎng)時(shí)間里圖像和視頻生成領(lǐng)域的主流技術(shù)路線。
W.A.L.T沿用這一主流技術(shù)路徑,并在此基礎(chǔ)上進(jìn)行創(chuàng)新,主要實(shí)現(xiàn)以下兩方面的升級(jí):
1、使用局部窗口注意力,顯著降低計(jì)算需求。
2、更有利的聯(lián)合訓(xùn)練:空間層獨(dú)立處理圖像和視頻幀,而時(shí)空層專注于時(shí)間關(guān)系建模。
據(jù)悉,這一架構(gòu)主要的優(yōu)勢(shì)是它能同時(shí)在圖像和視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練。
這得益于W.A.L.T的兩個(gè)關(guān)鍵決策:
1、使用因果編碼器,在一個(gè)共享潛在空間中壓縮圖像和視頻。
2、使用基于窗口注意力的Transformer架構(gòu),在潛在空間中聯(lián)合時(shí)空生成建模,從而提高記憶和訓(xùn)練效率。
團(tuán)隊(duì)基于W.A.L.T訓(xùn)練了三個(gè)模型的級(jí)聯(lián)(Cascade),用于文本到視頻的生成任務(wù),包括:一個(gè)基本的潛在視頻擴(kuò)散模型、兩個(gè)視頻超分辨率擴(kuò)散模型。
在無(wú)需使用無(wú)分類器指導(dǎo)的情況下,W.A.L.T在視頻生成基準(zhǔn)UCF-101和Kinetics-600、圖像生成基準(zhǔn)ImageNet測(cè)試上實(shí)現(xiàn)了SOTA。
▲在基于kinect-600的幀預(yù)測(cè)和基于UCF-101的類條件生成的視頻生成評(píng)價(jià)
三、AI生成視頻爆發(fā),巨頭和創(chuàng)企都加碼了
短短一個(gè)月時(shí)間里,AI生成視頻賽道已成爆發(fā)態(tài)勢(shì),背后玩家不僅覆蓋高校及科研團(tuán)隊(duì),還有多家科技巨頭及AI創(chuàng)企。
先是11月3日,視頻生成領(lǐng)域的“老大哥”Runway宣布其AI視頻生成工具Gen-2更新,分辨率提升至4K,大幅提高保真度和一致性。一周后,Runway又緊鑼密鼓地發(fā)布了運(yùn)動(dòng)畫筆功能,強(qiáng)化視頻局部編輯能力。
Gen-2體驗(yàn)地址:
https://research.runwayml.com/gen2
▲Runway在X平臺(tái)宣布其AI視頻生成工具Gen-2更新
緊接著,國(guó)內(nèi)外的科技巨頭都加入了這一賽道。
11月16日,科技巨頭Meta推出了文生視頻模型Emu Video。Emu Video可以通過(guò)自然語(yǔ)言生成高質(zhì)量視頻,它將視頻生成分為兩個(gè)步驟,首先生成以文本為條件的圖像,然后生成以文本和生成的圖像為條件的視頻。
項(xiàng)目主頁(yè)地址:
emu-video.metademolab.com
11月18日,國(guó)內(nèi)大廠字節(jié)跳動(dòng)推出了文生視頻模型PixelDance,提出了基于文本指導(dǎo)+首尾幀圖片指導(dǎo)的視頻生成方法,使得視頻生成的動(dòng)態(tài)性更強(qiáng)。
項(xiàng)目主頁(yè)地址:
https://makepixelsdance.github.io
▲PixelDance的強(qiáng)動(dòng)態(tài)效果演示
一些AI創(chuàng)企的做法則更激進(jìn),直接扔出體驗(yàn)體驗(yàn)鏈接,引爆消費(fèi)級(jí)市場(chǎng)。
11月29日,AI創(chuàng)企Pika Labs推出網(wǎng)頁(yè)版Pika 1.0,一時(shí)間在消費(fèi)級(jí)市場(chǎng)火出圈。Pika 1.0能根據(jù)文字圖片,生成一段3s的流暢視頻;它還支持用戶圈定視頻里的元素,進(jìn)行視頻局部編輯。Pika僅僅開(kāi)放半年已有超50萬(wàn)用戶,目前還有更多用戶排隊(duì)申請(qǐng)?bào)w驗(yàn)網(wǎng)頁(yè)版Pika 1.0產(chǎn)品。Pika是一家創(chuàng)立于今年4月的創(chuàng)企,近期剛剛宣布了5500萬(wàn)美元融資。
Pika 1.0體驗(yàn)地址:
https://pika.art/waitlist
▲Pika Labs官宣網(wǎng)頁(yè)版Pika 1.0上線
在圖像領(lǐng)域深耕已久的Stability AI也不示弱。11月29日,Stability AI推出了名為Stable Video Diffusion的視頻生成模型,提供SVD和SVD-XT兩個(gè)模型。其中,SVD將靜止圖像轉(zhuǎn)換為14幀的576×1024視頻,而SVD-XT在相同的架構(gòu)下將幀數(shù)提升至24。這兩者都能以每秒3到30幀的速度生成視頻,目前已進(jìn)入“研究預(yù)覽”階段。
官方演示視頻:
https://www.youtube.com/watch?v=G7mihAy691g
除此之外,國(guó)內(nèi)美圖公司發(fā)布的AI視覺(jué)大模型MiracleVision的4.0版本,剛剛新增了AI視頻兩大能力;來(lái)自中國(guó)科學(xué)院等機(jī)構(gòu)的研究者在11月21日提出了一個(gè)無(wú)需訓(xùn)練的文本生成視頻框架GPT4Motion;阿里的研究團(tuán)隊(duì)在最新論文中提出了新框架Animate Anyone,支持從靜態(tài)圖像AI生成動(dòng)態(tài)視頻。
商業(yè)化產(chǎn)品集中爆發(fā),AI生成視頻技術(shù)似乎正迎來(lái)一個(gè)“ChatGPT時(shí)刻”。
結(jié)語(yǔ):技術(shù)和產(chǎn)品迭代扎堆,AI視頻生成賽道爆發(fā)
短短一個(gè)月時(shí)間里,我們看到AI視頻生成的技術(shù)和產(chǎn)品加速爆發(fā),科研機(jī)構(gòu)、AI創(chuàng)企和科技巨頭都出動(dòng)了。
僅僅一年之前,ChatGPT以迅雷不及掩耳之勢(shì)走向全球,為文本創(chuàng)作領(lǐng)域帶來(lái)重大的變革,并掀起了全球范圍內(nèi)的“百模大戰(zhàn)”。
一年后的今天,AI視頻生成賽道或許迎來(lái)一個(gè)新的“ChatGPT時(shí)刻”,國(guó)內(nèi)外的玩家都已經(jīng)“開(kāi)卷”了,推動(dòng)多模態(tài)大模型的升維競(jìng)賽打響。