FantasyTalking:阿里巴巴一款從單張靜態(tài)肖像生成逼真的動態(tài)說話肖像生成工具
FantasyTalking是什么?
FantasyTalking 是阿里巴巴研發(fā)的一款虛擬角色動畫生成工具,可從單張靜態(tài)肖像生成逼真的動態(tài)說話肖像。它采用雙階段音頻-視覺對齊策略,確??谛团c語音精準同步,同時通過面部聚焦的交叉注意力模塊和運動強度調(diào)制模塊,生成自然、多樣化的動畫。只要應用在游戲、影視、虛擬現(xiàn)實上,可以快速生成高質(zhì)量的虛擬角色動畫。
FantasyTalking 技術(shù)原理
雙階段音頻-視覺對齊策略:第一階段采用片段級訓練方案,對整個場景中的音頻驅(qū)動動態(tài)進行對齊,包括參考肖像、上下文對象和背景,建立連貫的全局運動;第二階段通過唇部追蹤掩碼在幀級別細化唇部運動,確保與音頻信號精確同步。
面部聚焦的交叉注意力模塊:取代常用的參考網(wǎng)絡,有效保持視頻中面部的一致性。
運動強度調(diào)制模塊:明確控制表情和身體運動的強度,使肖像的運動不僅限于唇部動作,還能實現(xiàn)更自然、多樣化的動畫。

FantasyTalking 主要功能
口型同步:能夠準確識別并同步虛擬角色的口型與輸入語音,使角色說話時的口型與語音內(nèi)容完全一致。
面部動作生成:根據(jù)語音內(nèi)容和情感信息,生成眨眼、皺眉、微笑等豐富的面部動作。
全身動作生成:根據(jù)場景和情節(jié)需要,生成行走、奔跑、跳躍等全身動作。
FantasyTalking核心優(yōu)勢
高度逼真:利用先進的人工智能算法和深度學習技術(shù),生成的虛擬角色動畫在外觀、動作和表情上都與真實人類無異。
靈活易用:提供簡潔直觀的用戶界面和豐富的 API 接口,支持多種輸入格式和輸出格式,方便用戶快速上手并集成到自己的項目中。
高效穩(wěn)定:采用優(yōu)化的算法和高效的計算架構(gòu),能在短時間內(nèi)生成高質(zhì)量的虛擬角色動畫,同時保證系統(tǒng)的穩(wěn)定性和可靠性。

FantasyTalking 應用場景
游戲開發(fā):可用于生成游戲角色的對話動畫、戰(zhàn)斗動畫等,提升游戲的視覺效果和互動性。
影視制作:幫助制作團隊快速生成高質(zhì)量的虛擬角色表演動畫、特效動畫等,降低制作成本和時間成本。
虛擬現(xiàn)實和增強現(xiàn)實:為虛擬現(xiàn)實和增強現(xiàn)實應用生成虛擬角色的交互動畫、引導動畫等,提升用戶的沉浸感和體驗效果。
項目官網(wǎng):https://fantasy-amap.github.io/fantasy-talking/
Github倉庫:https://github.com/Fantasy-AMAP/fantasy-talking
arXiv論文:https://arxiv.org/pdf/2504.04842
提交您的產(chǎn)品
Ai應用
Ai資訊
AI生圖
AI生視頻
開源AI應用平臺










