AniSora:B站開源的動漫視頻生成模型
AniSora是什么?
AniSora是嗶哩嗶哩在2025年5月12日開源的一個ai動畫視頻生成系統(tǒng)。它能輕松生成各種風(fēng)格的動漫視頻,比如番劇片段、國創(chuàng)動畫、漫畫改編、VTuber內(nèi)容、動畫PV,還有鬼畜視頻。這個系統(tǒng)在保持角色形象和動作流暢性方面做得很不錯,可以說是目前最先進的動畫視頻生成模型。

AniSora功能
圖像到視頻生成:根據(jù)單張圖片生成連貫的動畫視頻,適用于從靜態(tài)畫面擴展為動態(tài)場景。
幀插值:支持關(guān)鍵幀插值,基于生成中間幀實現(xiàn)平滑過渡,減少動畫制作中手工繪制的工作量。
局部圖像引導(dǎo):支持用戶指定特定區(qū)域進行動畫生成。
時空控制:結(jié)合時間和空間的控制能力,支持首幀、尾幀、多幀引導(dǎo)等多種方式,實現(xiàn)精準的動畫創(chuàng)作。
AniSora模型特點
針對性優(yōu)化:相比自然視頻,動漫視頻在風(fēng)格上更具表現(xiàn)力和抽象性,傳統(tǒng)的生成模型往往難以精準復(fù)現(xiàn)角色神態(tài)、動作節(jié)奏以及夸張的鏡頭語言。AniSora 針對這些特性做了針對性優(yōu)化,目標是在不犧牲創(chuàng)意表達的前提下,提升視頻生成效率。
多樣化風(fēng)格支持:能夠一鍵生成多種風(fēng)格的視頻片段,涵蓋系列劇集、中國原創(chuàng)動畫、漫畫改編、VTuber 內(nèi)容、動漫 PV 甚至是鬼畜類創(chuàng)作。
低門檻創(chuàng)作:對于有實際制作需求的個人或工作室而言,AniSora 是極具吸引力的創(chuàng)作工具。
AniSora核心模塊
數(shù)據(jù)處理流水線:預(yù)處理了超過 1000 萬對高質(zhì)量的文本 - 視頻數(shù)據(jù),為訓(xùn)練提供了堅實基礎(chǔ)。
可控生成模型:引入時空掩碼模塊,支持圖生視頻、關(guān)鍵幀插值、局部圖像引導(dǎo)等功能,能夠適配各種創(chuàng)作需求。
評測體系:構(gòu)建了包含 948 段多樣化動畫片段的評測數(shù)據(jù)集,結(jié)合雙盲人評審和 VBench 評分系統(tǒng),對人物一致性、動作銜接等維度進行打分。
AniSora技術(shù)原理
擴散模型(Diffusion Model):基于擴散模型架構(gòu),逐步去除噪聲生成高質(zhì)量的視頻內(nèi)容。
時空掩碼模塊(Spatiotemporal Mask Module):支持模型在生成過程中對特定時間和空間區(qū)域進行控制,例如掩碼指定哪些幀或哪些區(qū)域需要生成動畫,實現(xiàn)局部引導(dǎo)和關(guān)鍵幀插值等功能。
3D 因果變分自編碼器(3D Causal VAE):用于對視頻的時空特征進行編碼和解碼,將視頻壓縮到低維的潛在空間,降低計算復(fù)雜度,同時保留關(guān)鍵的時空信息。
Transformer 架構(gòu):結(jié)合 Transformer 的強大建模能力,基于注意力機制捕捉視頻中的復(fù)雜時空依賴關(guān)系,使模型能夠處理長序列數(shù)據(jù),生成更連貫的視頻內(nèi)容。
監(jiān)督微調(diào)(Supervised Fine-Tuning):在預(yù)訓(xùn)練的基礎(chǔ)上,用大量的動畫視頻數(shù)據(jù)進行監(jiān)督微調(diào),通過多種策略(如弱到強的訓(xùn)練策略、多任務(wù)學(xué)習(xí)等)提高模型的泛化能力和生成質(zhì)量。
數(shù)據(jù)處理流水線:基于場景檢測、光學(xué)流分析、美學(xué)評分等技術(shù),從大量原始動畫視頻中篩選出高質(zhì)量的訓(xùn)練數(shù)據(jù),確保訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。
開源地址
https://github.com/bilibili/Index-anisora/tree/main
https://huggingface.co/IndexTeam/Index-anisora
https://www.modelscope.cn/organization/bilibili-index
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺










