Llasa:一款基于Llama的文本轉(zhuǎn)語音（TTS）,生成效果自然流暢富有感情

映技派于2025-03-04發(fā)布在Ai產(chǎn)品

Llasa是什么？

Llasa是由香港科技大學(xué)音頻實驗室開發(fā)的開源文本轉(zhuǎn)語音（TTS）系統(tǒng)，基于 LLaMA 架構(gòu)，結(jié)合了 XCodec2 語音標(biāo)記技術(shù)，能夠生成高質(zhì)量、自然流暢、富有感情的語音，提高了語音合成的自然度、韻律準(zhǔn)確性和情感表達能力，生成效果比較自然。

Llasa核心功能

高質(zhì)量語音合成：能生成自然流暢的語音，支持中英文雙語，語音自然度和情感表達出色。
情感表達：可合成帶有快樂、悲傷、憤怒等情感色彩的語音，讓語音更自然生動。
語音克隆：只需15秒聲音樣本，就能高度準(zhǔn)確地克隆聲音，保留原聲音色和情感特征。
零樣本學(xué)習(xí)：對沒見過的說話者或情感也能進行語音合成，無需額外微調(diào)。
長文本支持：能處理長文本輸入并生成連貫語音輸出，適用于有聲讀物、語音播報等場景。

Llasa技術(shù)原理

架構(gòu)：基于單層向量量化（VQ）編解碼器和單個Transformer架構(gòu)，與標(biāo)準(zhǔn)LLaMA模型完全對齊。
語音分詞器：用XCodec2將語音波形編碼為離散標(biāo)記，保留語義和聲學(xué)信息。
訓(xùn)練與推理擴展：增加模型規(guī)模（如1B、3B、8B參數(shù)）或訓(xùn)練數(shù)據(jù)量（如25萬小時語音數(shù)據(jù)），提升語音自然度和情感表達能力。
自回歸生成：逐個生成語音標(biāo)記，保證語音在語義和韻律上與輸入文本一致。

Llasa模型版本

Llasa有1B、3B和8B參數(shù)版本，支持中英文，可滿足不同硬件資源和應(yīng)用場景需求。

Llasa應(yīng)用場景

適用于虛擬現(xiàn)實、游戲、無障礙服務(wù)、客戶服務(wù)以及教育等領(lǐng)域以及適合做有聲讀物或語音助手。

智能語音助手：Llasa TTS能讓智能設(shè)備或軟件有自然流暢的語音交互功能，使用戶體驗更好。
有聲讀物與在線教育領(lǐng)域：它能把文本內(nèi)容轉(zhuǎn)化成生動語音，用于有聲讀物制作和在線教育，方便學(xué)生通過聽來學(xué)習(xí)。
語音播報與客服：Llasa TTS可用于新聞播報、交通信息提示和客服系統(tǒng)，讓信息傳遞更高效。
游戲與娛樂：它能為角色或虛擬形象配上個性化語音，增強沉浸感。
廣告與市場營銷：企業(yè)能用Llasa TTS生成廣告語音，提升品牌宣傳效果。
語音克隆與內(nèi)容創(chuàng)作：Llasa TTS支持零樣本語音克隆，只要15秒左右音頻樣本就能克隆特定人聲的音色和情感，可用于廣告配音、視頻制作或個性化語音內(nèi)容創(chuàng)作。

GitHub倉庫：https://github.com/zhenye234/LLaSA_training

HuggingFace模型庫：https://huggingface.co/collections/HKUSTAudio/llasa

在線體驗Demo：https://huggingface.co/spaces/srinivasbilla/llasa-3b-tts