MAGREF:字節(jié)跳動發(fā)布的一款多主體視頻生成神器
MAGREF是字節(jié)跳動推出的一款多主體視頻生成工具,它可以讓用戶憑借一張參考圖像,生成高度一致的視頻,無論是單個主體還是多個主體的場景都能搞定。它通過掩碼引導(dǎo)和通道拼接機(jī)制,解決了傳統(tǒng)視頻生成中常見的身份混淆和動作不協(xié)調(diào)問題。MAGREF還能實現(xiàn)人物、物體和背景的多種組合,確保生成視頻的身份穩(wěn)定性和結(jié)構(gòu)一致性。

核心功能
多主體一致性生成:只需要一張參考圖,就能生成人物或物體高度一致的視頻,支持多人同框且不會出現(xiàn)“串臉”的情況。比如,你可以用它生成愛因斯坦騎摩托的視頻,或者牛頓揮筆作畫的視頻。人物的面貌、服飾在每一幀都能保持一致,不會越變越離譜。
多樣參考圖像處理:它通過掩碼引導(dǎo)和通道拼接機(jī)制,可以在不增加模型復(fù)雜度的情況下,處理多種參考圖像。無論是單人表演、多人互動,還是人物與物體、背景共同出現(xiàn),都能生成穩(wěn)定、協(xié)調(diào)的視頻。
多模態(tài)輸入與生成:根據(jù)不同的文字提示,它能實現(xiàn)“一圖千面”,無論輸入的是誰,來自哪個時代,風(fēng)格是否抽象,它都能精準(zhǔn)還原其特征,并根據(jù)文字指令生成不同的動作、環(huán)境和光影效果。比如,你可以輸入一張人像、一張物體圖、一張背景圖,再加上一段描述,它就能生成一個包含這三類元素的完整視頻,人物和物體的互動看起來很自然,場景也毫無違和感。
技術(shù)實現(xiàn)
數(shù)據(jù)處理流程:它采用了三階段的數(shù)據(jù)處理流程,來構(gòu)建高質(zhì)量、結(jié)構(gòu)清晰的視頻訓(xùn)練樣本。第一階段是從原始視頻中切分出語義一致的片段,過濾低質(zhì)量樣本,并為每段生成結(jié)構(gòu)化文本;第二階段是通過標(biāo)簽提取和語義分割識別出視頻中的關(guān)鍵物體,并進(jìn)行后處理以獲得精準(zhǔn)遮罩;第三階段是檢測并分配視頻中人物的身份,篩選高質(zhì)量的面部圖像用于參考圖構(gòu)建,確保訓(xùn)練過程中身份的一致性。
關(guān)鍵機(jī)制
區(qū)域感知動態(tài)遮罩:基于深度學(xué)習(xí)的注意力機(jī)制,讓模型具備“動態(tài)視覺感知”能力。通過語義分割算法精準(zhǔn)識別視頻中的關(guān)鍵區(qū)域,并根據(jù)輸入提示實時調(diào)整不同主體的掩碼權(quán)重。這樣,即使參考圖數(shù)量和順序不同,系統(tǒng)也能保持結(jié)構(gòu)一致、身份不串、關(guān)系明確。
像素級通道拼接:在圖像生成的底層技術(shù)中,它在通道維度(RGB通道 + 特征通道)進(jìn)行信息融合。通過卷積神經(jīng)網(wǎng)絡(luò)提取參考圖像的外觀特征,并在通道層面與生成場景的特征圖拼接,確保人物膚色、發(fā)型等細(xì)節(jié)與參考圖高度一致。同時,通過歸一化操作平衡不同場景的光照參數(shù),避免主體與背景因明暗差異產(chǎn)生割裂感。它還支持同時輸入人物肖像、物體圖片、環(huán)境照片,通過通道級融合生成邏輯自洽的跨模態(tài)場景。
應(yīng)用場景
影視制作:它能重構(gòu)影視制作的前期籌備和特效流程。比如在劇本階段,可以用它生成動態(tài)故事板,導(dǎo)演可以實時調(diào)整場景色調(diào)、角色動作。它還能替代部分綠幕拍攝的需求,比如在歷史劇中,輸入少數(shù)士兵的參考圖,就能批量生成符合古代服飾、陣型的群體行軍視頻。
游戲開發(fā):它能加速游戲內(nèi)容的迭代和提升沉浸感。可以根據(jù)游戲角色建模圖,快速生成角色在不同劇情節(jié)點的表情、動作視頻;還能自動生成NPC在城鎮(zhèn)中的日?;顒樱瑹o需人工逐幀調(diào)試動畫。
廣告營銷:它就像個性化內(nèi)容的“量產(chǎn)引擎”,可以為同一商品生成幾百種使用場景視頻,滿足社交媒體碎片化傳播的需求。還可以基于明星肖像生成多版本廣告素材,避免真人拍攝的檔期限制和版權(quán)糾紛。
項目鏈接
項目主頁:https://magref-video.github.io/magref.github.io/
Github:https://github.com/MAGREF-Video/MAGREF
論文:https://arxiv.org/pdf/2505.23742
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺










