MOSS-TTSD：開(kāi)源雙語(yǔ)對(duì)話語(yǔ)音合成模型

MOSS-TTSD于2025-08-04發(fā)布在Ai產(chǎn)品

MOSS-TTSD是清華大學(xué)語(yǔ)音與語(yǔ)言實(shí)驗(yàn)室聯(lián)合騰訊 ai Lab 等機(jī)構(gòu)開(kāi)發(fā)的開(kāi)源雙語(yǔ)對(duì)話語(yǔ)音合成模型。它支持中英文，能把兩個(gè)說(shuō)話者的對(duì)話腳本轉(zhuǎn)換成自然、有表現(xiàn)力的對(duì)話語(yǔ)音。該模型基于 Qwen3-1.7B-base 模型繼續(xù)訓(xùn)練，用離散化語(yǔ)音序列建模，通過(guò) XY-Tokenizer 把語(yǔ)音壓縮到 1kbps，同時(shí)保留語(yǔ)義和聲學(xué)信息。

MOSS-TTSD模型支持中英雙語(yǔ)，能零樣本克隆多個(gè)說(shuō)話人的音色，最長(zhǎng)可生成 960 秒的語(yǔ)音，適合 AI 播客、影視配音、長(zhǎng)篇訪談等場(chǎng)景。它的模型權(quán)重、推理代碼和 API 接口都已開(kāi)源，還支持免費(fèi)商業(yè)使用。

主要特點(diǎn)

?高表現(xiàn)力的對(duì)話語(yǔ)音：依托統(tǒng)一的語(yǔ)義 - 聲學(xué)神經(jīng)音頻編解碼器、預(yù)訓(xùn)練的大型語(yǔ)言模型，以及數(shù)百萬(wàn)小時(shí)的 TTS 數(shù)據(jù)和 40 萬(wàn)小時(shí)的合成與真實(shí)對(duì)話語(yǔ)音構(gòu)建，能生成有自然對(duì)話韻律、表現(xiàn)力強(qiáng)的類人對(duì)話語(yǔ)音。

?雙揚(yáng)聲器語(yǔ)音克隆：支持零樣本雙揚(yáng)聲器語(yǔ)音克隆，能根據(jù)對(duì)話腳本準(zhǔn)確切換說(shuō)話人，生成對(duì)話語(yǔ)音。

?中英雙語(yǔ)支持：可生成中英文兩種語(yǔ)言的高表現(xiàn)力語(yǔ)音。

?長(zhǎng)語(yǔ)音生成：借助低比特率編解碼器和訓(xùn)練框架優(yōu)化，專門針對(duì)長(zhǎng)語(yǔ)音生成做了訓(xùn)練。

?完全開(kāi)源且可商用：MOSS-TTSD 及其未來(lái)更新會(huì)完全開(kāi)源，且支持免費(fèi)商業(yè)使用。

MOSS-TTSD技術(shù)原理

?模型架構(gòu)：在 Qwen3-1.7B-base 模型基礎(chǔ)上微調(diào)，采用離散化語(yǔ)音建模。通過(guò) 8 層 RVQ（殘差向量量化）把語(yǔ)音信號(hào)轉(zhuǎn)換成離散 token 序列，用自回歸方式結(jié)合 Delay Pattern 生成，最后由解碼器還原成語(yǔ)音。

?核心創(chuàng)新：XY-Tokenizer 有雙階段多任務(wù)學(xué)習(xí)流程。第一階段同時(shí)訓(xùn)練自動(dòng)語(yǔ)音識(shí)別（ASR）和語(yǔ)音重建任務(wù)，融合語(yǔ)義和粗粒度聲學(xué)信息；第二階段固定編碼器和量化器，只訓(xùn)練解碼器，加入重建損失和 GAN 損失，增強(qiáng)細(xì)節(jié)表現(xiàn)。

?數(shù)據(jù)規(guī)模與預(yù)訓(xùn)練：用約 100 萬(wàn)小時(shí)的單說(shuō)話人語(yǔ)音數(shù)據(jù)和 40 萬(wàn)小時(shí)的對(duì)話語(yǔ)音數(shù)據(jù)訓(xùn)練，數(shù)據(jù)經(jīng)過(guò)嚴(yán)格篩選和標(biāo)注，還進(jìn)行了中英文 TTS 預(yù)訓(xùn)練。

MOSS-TTSD技術(shù)原理