HunyuanVideo-Avatar ：騰訊混元推出的語音驅(qū)動(dòng)的數(shù)字人模型

HunyuanVideo于2025-05-29發(fā)布在Ai產(chǎn)品

HunyuanVideo-Avatar是什么？

HunyuanVideo - Avatar是騰訊混元基于騰訊混元視頻大模型（HunyuanVideo）開源的語音數(shù)字人模型，通過音頻驅(qū)動(dòng)，HunyuanVideo-Avatar 技術(shù)能夠生成動(dòng)態(tài)人物視頻，展現(xiàn)人物的說話、肢體和頭部動(dòng)作及表情，支持多個(gè)角色的互動(dòng)場景。目的在于解決音頻驅(qū)動(dòng)人物動(dòng)畫領(lǐng)域的三個(gè)難點(diǎn)，生成高動(dòng)態(tài)視頻同時(shí)保持角色一致性、實(shí)現(xiàn)角色與音頻的精確情感對齊、支持多角色音頻驅(qū)動(dòng)動(dòng)畫。

HunyuanVideo-Avatar ：騰訊混元推出的語音驅(qū)動(dòng)的數(shù)字人模型.webp

HunyuanVideo - Avatar功能特點(diǎn)

多景別支持：支持頭肩、半身與全身景別，用戶可根據(jù)需求選擇合適的拍攝視角。
多風(fēng)格與多物種場景：支持多風(fēng)格（如賽博朋克、2D動(dòng)漫、中國水墨畫等）、多物種（包括機(jī)器人、動(dòng)物等）以及雙人場景。
高一致性、高動(dòng)態(tài)性視頻生成：能根據(jù)輸入的人物圖像和音頻，自動(dòng)理解圖片與音頻內(nèi)容，比如人物所在環(huán)境、音頻所蘊(yùn)含的情感等，讓圖中人物自然地說話或唱歌，生成包含自然表情、唇形同步及全身動(dòng)作的視頻，而且保證視頻中主體一致性以及視頻的整體動(dòng)態(tài)性。
廣泛的應(yīng)用場景：適用于短視頻創(chuàng)作、電商與廣告等多種應(yīng)用場景，可以生成人物在不同場景下的說話、對話、表演等片段，快速制作產(chǎn)品介紹視頻或多人互動(dòng)廣告，有效降低制作成本。
多角色精準(zhǔn)驅(qū)動(dòng)：在多人互動(dòng)場景中，能精準(zhǔn)驅(qū)動(dòng)多個(gè)角色，確保唇形、表情和動(dòng)作與音頻同步，互動(dòng)自然。

HunyuanVideo - Avatar技術(shù)創(chuàng)新

角色圖像注入模塊：基于多模態(tài)擴(kuò)散Transformer（MM - DiT）架構(gòu)，確保角色一致性與視頻動(dòng)態(tài)性，解決了在生成視頻時(shí)，既保持人物形象的高度一致性，又能讓人物動(dòng)作流暢自然的問題。
音頻情感模塊（AEM）：會(huì)從音頻和參考圖像提取情感信息，生成細(xì)膩的表情和動(dòng)作，使數(shù)字人能根據(jù)音頻情感展現(xiàn)出相應(yīng)的面部表情。
面部感知音頻適配器（FAA）：通過人臉掩碼技術(shù)隔離角色音頻，實(shí)現(xiàn)多人場景的精準(zhǔn)驅(qū)動(dòng)，可獨(dú)立驅(qū)動(dòng)不同人物的唇形和表情，避免不同人物之間動(dòng)作互相影響。