MOSS-TTSD:開(kāi)源雙語(yǔ)對(duì)話語(yǔ)音合成模型
MOSS-TTSD是清華大學(xué)語(yǔ)音與語(yǔ)言實(shí)驗(yàn)室聯(lián)合騰訊 ai Lab 等機(jī)構(gòu)開(kāi)發(fā)的開(kāi)源雙語(yǔ)對(duì)話語(yǔ)音合成模型。它支持中英文,能把兩個(gè)說(shuō)話者的對(duì)話腳本轉(zhuǎn)換成自然、有表現(xiàn)力的對(duì)話語(yǔ)音。該模型基于 Qwen3-1.7B-base 模型繼續(xù)訓(xùn)練,用離散化語(yǔ)音序列建模,通過(guò) XY-Tokenizer 把語(yǔ)音壓縮到 1kbps,同時(shí)保留語(yǔ)義和聲學(xué)信息。
MOSS-TTSD模型支持中英雙語(yǔ),能零樣本克隆多個(gè)說(shuō)話人的音色,最長(zhǎng)可生成 960 秒的語(yǔ)音,適合 AI 播客、影視配音、長(zhǎng)篇訪談等場(chǎng)景。它的模型權(quán)重、推理代碼和 API 接口都已開(kāi)源,還支持免費(fèi)商業(yè)使用。

主要特點(diǎn)
?高表現(xiàn)力的對(duì)話語(yǔ)音:依托統(tǒng)一的語(yǔ)義 - 聲學(xué)神經(jīng)音頻編解碼器、預(yù)訓(xùn)練的大型語(yǔ)言模型,以及數(shù)百萬(wàn)小時(shí)的 TTS 數(shù)據(jù)和 40 萬(wàn)小時(shí)的合成與真實(shí)對(duì)話語(yǔ)音構(gòu)建,能生成有自然對(duì)話韻律、表現(xiàn)力強(qiáng)的類人對(duì)話語(yǔ)音。
?雙揚(yáng)聲器語(yǔ)音克隆:支持零樣本雙揚(yáng)聲器語(yǔ)音克隆,能根據(jù)對(duì)話腳本準(zhǔn)確切換說(shuō)話人,生成對(duì)話語(yǔ)音。
?中英雙語(yǔ)支持:可生成中英文兩種語(yǔ)言的高表現(xiàn)力語(yǔ)音。
?長(zhǎng)語(yǔ)音生成:借助低比特率編解碼器和訓(xùn)練框架優(yōu)化,專門針對(duì)長(zhǎng)語(yǔ)音生成做了訓(xùn)練。
?完全開(kāi)源且可商用:MOSS-TTSD 及其未來(lái)更新會(huì)完全開(kāi)源,且支持免費(fèi)商業(yè)使用。
MOSS-TTSD技術(shù)原理
?模型架構(gòu):在 Qwen3-1.7B-base 模型基礎(chǔ)上微調(diào),采用離散化語(yǔ)音建模。通過(guò) 8 層 RVQ(殘差向量量化)把語(yǔ)音信號(hào)轉(zhuǎn)換成離散 token 序列,用自回歸方式結(jié)合 Delay Pattern 生成,最后由解碼器還原成語(yǔ)音。
?核心創(chuàng)新:XY-Tokenizer 有雙階段多任務(wù)學(xué)習(xí)流程。第一階段同時(shí)訓(xùn)練自動(dòng)語(yǔ)音識(shí)別(ASR)和語(yǔ)音重建任務(wù),融合語(yǔ)義和粗粒度聲學(xué)信息;第二階段固定編碼器和量化器,只訓(xùn)練解碼器,加入重建損失和 GAN 損失,增強(qiáng)細(xì)節(jié)表現(xiàn)。
?數(shù)據(jù)規(guī)模與預(yù)訓(xùn)練:用約 100 萬(wàn)小時(shí)的單說(shuō)話人語(yǔ)音數(shù)據(jù)和 40 萬(wàn)小時(shí)的對(duì)話語(yǔ)音數(shù)據(jù)訓(xùn)練,數(shù)據(jù)經(jīng)過(guò)嚴(yán)格篩選和標(biāo)注,還進(jìn)行了中英文 TTS 預(yù)訓(xùn)練。

應(yīng)用場(chǎng)景
?AI 播客制作:MOSS-TTSD能自動(dòng)把文本轉(zhuǎn)成多人對(duì)話的播客音頻,支持零樣本人聲克隆和長(zhǎng)語(yǔ)音生成,能降低制作成本。
?影視配音與動(dòng)畫(huà):為影視作品、動(dòng)畫(huà)生成自然對(duì)話語(yǔ)音,支持多語(yǔ)言切換,提高配音效率。
?長(zhǎng)篇訪談與會(huì)議記錄:把訪談或會(huì)議文本轉(zhuǎn)成語(yǔ)音,保留對(duì)話的韻律和情感,方便存檔和分享。
優(yōu)勢(shì)與特點(diǎn)
?開(kāi)源且商用友好:MOSS-TTSD模型權(quán)重、推理代碼和 API 接口都已開(kāi)源,用戶可以免費(fèi)商業(yè)使用。
?自然度和表現(xiàn)力:聲音自然度和表現(xiàn)力達(dá)到業(yè)界領(lǐng)先水平。
?支持聲音事件控制:比如笑聲等非語(yǔ)言聲音,讓語(yǔ)音更有表現(xiàn)力。
開(kāi)源地址:https://github.com/OpenMOSS/MOSS-TTSD
MOSS-TTSD官網(wǎng):https://www.open-moss.com/cn/
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開(kāi)源AI應(yīng)用平臺(tái)










