HunyuanVideo-Avatar :騰訊混元推出的語音驅(qū)動(dòng)的數(shù)字人模型
HunyuanVideo-Avatar是什么?
HunyuanVideo - Avatar是騰訊混元基于騰訊混元視頻大模型(HunyuanVideo)開源的語音數(shù)字人模型,通過音頻驅(qū)動(dòng),HunyuanVideo-Avatar 技術(shù)能夠生成動(dòng)態(tài)人物視頻,展現(xiàn)人物的說話、肢體和頭部動(dòng)作及表情,支持多個(gè)角色的互動(dòng)場景。目的在于解決音頻驅(qū)動(dòng)人物動(dòng)畫領(lǐng)域的三個(gè)難點(diǎn),生成高動(dòng)態(tài)視頻同時(shí)保持角色一致性、實(shí)現(xiàn)角色與音頻的精確情感對齊、支持多角色音頻驅(qū)動(dòng)動(dòng)畫。

HunyuanVideo - Avatar功能特點(diǎn)
多景別支持:支持頭肩、半身與全身景別,用戶可根據(jù)需求選擇合適的拍攝視角。
多風(fēng)格與多物種場景:支持多風(fēng)格(如賽博朋克、2D動(dòng)漫、中國水墨畫等)、多物種(包括機(jī)器人、動(dòng)物等)以及雙人場景。
高一致性、高動(dòng)態(tài)性視頻生成:能根據(jù)輸入的人物圖像和音頻,自動(dòng)理解圖片與音頻內(nèi)容,比如人物所在環(huán)境、音頻所蘊(yùn)含的情感等,讓圖中人物自然地說話或唱歌,生成包含自然表情、唇形同步及全身動(dòng)作的視頻,而且保證視頻中主體一致性以及視頻的整體動(dòng)態(tài)性。
廣泛的應(yīng)用場景:適用于短視頻創(chuàng)作、電商與廣告等多種應(yīng)用場景,可以生成人物在不同場景下的說話、對話、表演等片段,快速制作產(chǎn)品介紹視頻或多人互動(dòng)廣告,有效降低制作成本。
多角色精準(zhǔn)驅(qū)動(dòng):在多人互動(dòng)場景中,能精準(zhǔn)驅(qū)動(dòng)多個(gè)角色,確保唇形、表情和動(dòng)作與音頻同步,互動(dòng)自然。
HunyuanVideo - Avatar技術(shù)創(chuàng)新
角色圖像注入模塊:基于多模態(tài)擴(kuò)散Transformer(MM - DiT)架構(gòu),確保角色一致性與視頻動(dòng)態(tài)性,解決了在生成視頻時(shí),既保持人物形象的高度一致性,又能讓人物動(dòng)作流暢自然的問題。
音頻情感模塊(AEM):會(huì)從音頻和參考圖像提取情感信息,生成細(xì)膩的表情和動(dòng)作,使數(shù)字人能根據(jù)音頻情感展現(xiàn)出相應(yīng)的面部表情。
面部感知音頻適配器(FAA):通過人臉掩碼技術(shù)隔離角色音頻,實(shí)現(xiàn)多人場景的精準(zhǔn)驅(qū)動(dòng),可獨(dú)立驅(qū)動(dòng)不同人物的唇形和表情,避免不同人物之間動(dòng)作互相影響。
HunyuanVideo - Avatar使用方法
你可在騰訊混元官網(wǎng)(https://hunyuan.tencent.com/)的“模型廣場 - 混元生視頻 - 數(shù)字人 - 語音驅(qū)動(dòng) - HunyuanVideo - Avatar”中體驗(yàn),目前支持上傳不超過14秒的音頻進(jìn)行視頻生成。

HunyuanVideo - Avatar應(yīng)用場景
短視頻創(chuàng)作:可快速生成各種場景下的對話、表演等視頻片段。
電商廣告:用于制作產(chǎn)品介紹視頻、多人互動(dòng)廣告等。
虛擬助手或游戲:創(chuàng)建動(dòng)畫頭像,提升交互體驗(yàn)。
項(xiàng)目鏈接
項(xiàng)目主頁:https://hunyuanvideo-avatar.github.io
GitHub地址:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺










