Tora

阿里巴巴推出的AI視頻生成框架，基于軌跡導(dǎo)向的擴(kuò)散變換器（DiT）技術(shù)，能夠?qū)⑽谋尽⒁曈X和軌跡條件融合，生成高質(zhì)量且符合物理世界的動(dòng)態(tài)視頻。

#Ai工具箱 #Ai視頻生成

Tora簡(jiǎn)介

阿里Tora視頻是阿里巴巴推出的ai視頻生成框架，基于軌跡導(dǎo)向的擴(kuò)散變換器（DiT）技術(shù)，能夠?qū)⑽谋?、視覺和軌跡條件融合，生成高質(zhì)量且符合物理世界的動(dòng)態(tài)視頻。

Tora主要功能特點(diǎn)：

軌跡導(dǎo)向的視頻生成：Tora能夠根據(jù)給定的軌跡生成視頻，保持運(yùn)動(dòng)的一致性和準(zhǔn)確性。軌跡提取器（Trajectory Extractor, TE）將輸入的軌跡轉(zhuǎn)換成層次化的時(shí)空運(yùn)動(dòng)塊，這些運(yùn)動(dòng)塊與視頻內(nèi)容的潛在空間相匹配。

多模態(tài)輸入整合：Tora支持文本、圖像和軌跡條件的同時(shí)輸入，實(shí)現(xiàn)多維度的視頻內(nèi)容控制。這意味著用戶可以通過(guò)文字描述、圖片或物體移動(dòng)的路線來(lái)生成視頻。

高分辨率視頻輸出：Tora能夠在720p的高分辨率下生成長(zhǎng)達(dá)204幀的視頻，保證視頻質(zhì)量。這使得生成的視頻不僅畫面清晰，而且運(yùn)動(dòng)流暢。

物理世界動(dòng)態(tài)模擬：Tora生成的視頻運(yùn)動(dòng)效果貼近現(xiàn)實(shí)世界的物理動(dòng)態(tài)，如重力和動(dòng)力學(xué)原理。通過(guò)時(shí)空擴(kuò)散變換器（Spatial-Temporal DiT），Tora能夠處理視頻數(shù)據(jù)，使模型理解和生成具有連貫運(yùn)動(dòng)的視頻。

靈活的內(nèi)容創(chuàng)作：Tora支持不同時(shí)長(zhǎng)、寬高比和分辨率的視頻生成，滿足多樣化的創(chuàng)作需求。無(wú)論是短視頻還是長(zhǎng)視頻，無(wú)論是標(biāo)準(zhǔn)寬高比還是自定義寬高比，Tora都能適應(yīng)。

運(yùn)動(dòng)引導(dǎo)融合器（Motion-guidance Fuser, MGF）：該組件負(fù)責(zé)將軌跡提取器生成的時(shí)空運(yùn)動(dòng)塊整合到DiT模型中，確保生成的視頻內(nèi)容遵循預(yù)定的軌跡和動(dòng)態(tài)。MGF通過(guò)自適應(yīng)歸一化層將運(yùn)動(dòng)補(bǔ)丁整合到DiT塊中，精確控制視頻內(nèi)容的動(dòng)態(tài)。

兩階段訓(xùn)練策略：為了讓Tora更好地理解和生成運(yùn)動(dòng)，通過(guò)一個(gè)兩階段的訓(xùn)練過(guò)程來(lái)學(xué)習(xí)。首先使用密集光流進(jìn)行訓(xùn)練，然后使用稀疏軌跡進(jìn)行微調(diào)，提高模型對(duì)運(yùn)動(dòng)控制的靈活性和準(zhǔn)確性。

數(shù)據(jù)預(yù)處理：在訓(xùn)練之前，Tora需要對(duì)視頻數(shù)據(jù)進(jìn)行一些處理，比如根據(jù)場(chǎng)景檢測(cè)將長(zhǎng)視頻分割成短片段，然后根據(jù)美學(xué)評(píng)分和運(yùn)動(dòng)分割結(jié)果選擇適合訓(xùn)練的視頻片段。

Tora主要功能模塊

軌跡提取器（Trajectory Extractor, TE）：將輸入的軌跡轉(zhuǎn)換成層次化的時(shí)空運(yùn)動(dòng)塊，這些運(yùn)動(dòng)塊與視頻內(nèi)容的潛在空間相匹配。

時(shí)空擴(kuò)散變換器（Spatial-Temporal DiT）：結(jié)合空間和時(shí)間的自注意力機(jī)制，處理視頻數(shù)據(jù)，使模型能夠理解和生成具有連貫運(yùn)動(dòng)的視頻。

運(yùn)動(dòng)引導(dǎo)融合器（Motion-guidance Fuser, MGF）：負(fù)責(zé)將軌跡提取器生成的時(shí)空運(yùn)動(dòng)塊整合到DiT模型中，確保生成的視頻內(nèi)容遵循預(yù)定的軌跡和動(dòng)態(tài)。

Tora應(yīng)用場(chǎng)景：

影視制作：在影視制作中，Tora可以用于生成電影、電視劇或短片中的特效場(chǎng)景，通過(guò)軌跡控制生成復(fù)雜的動(dòng)態(tài)畫面，減少實(shí)際拍攝成本和時(shí)間。

動(dòng)畫創(chuàng)作：根據(jù)腳本自動(dòng)生成動(dòng)畫序列，為動(dòng)畫師提供初步的動(dòng)態(tài)草圖，加速創(chuàng)作過(guò)程。

虛擬現(xiàn)實(shí)（VR）和增強(qiáng)現(xiàn)實(shí)（AR）：生成與用戶互動(dòng)的動(dòng)態(tài)環(huán)境，為VR和AR應(yīng)用提供逼真的視覺效果。

游戲開發(fā)：快速生成游戲環(huán)境和角色動(dòng)畫，提高游戲設(shè)計(jì)的效率。

Tora訪問(wèn)方法：

Tora項(xiàng)目官網(wǎng)：https://ali-videoai.github.io/tora_video/

Tora GitHub倉(cāng)庫(kù)：https://github.com/ali-videoai/Tora

Tora arXiv技術(shù)論文：https://arxiv.org/pdf/2407.21705

總的來(lái)說(shuō)，Tora生成的視頻質(zhì)量非常高，能夠生成10到60秒的高分辨率視頻，并且在不同分辨率和縱橫比下表現(xiàn)出色。Tora的視頻不僅流暢，而且能夠細(xì)致地模擬物理世界的運(yùn)動(dòng)。Tora的軌跡控制功能也得到了用戶的高度評(píng)價(jià)。

AnimateMyPic

ToonCrafter