FunAudioLLM：阿里巴巴語音AI突破

FunAudioLLM于2024-09-28發(fā)布在Ai產(chǎn)品

FunAudioLLM是阿里巴巴開發(fā)的一套語音處理模型，旨在改善人類與大型語言模型之間的語音交互。它由兩個(gè)主要模型組成：SenseVoice 和 CosyVoice。

SenseVoice ：一種語音識(shí)別模型，可以識(shí)別多種語言的語音，識(shí)別說話者的情緒，并檢測(cè)音頻中的特殊事件（例如音樂、笑聲等）。它可以快速準(zhǔn)確地轉(zhuǎn)錄語音內(nèi)容。

CosyVoice ：語音生成模式，該模型主要生成自然且情感豐富的語音。它可以模仿不同的說話者，甚至可以通過幾秒鐘的音頻樣本克隆一個(gè)人的聲音。

通過SenseVoice和CosyVoice的結(jié)合，F(xiàn)unAudioLLM提供了全面的語音理解和生成能力，使得人與大型語言模型之間的語音交互更加自然和豐富。

FunAudioLLM：阿里巴巴語音AI突破.png

SenseVoice 和 CosyVoice 的主要特性：

SenseVoice專注于多語言語音識(shí)別、情感識(shí)別和音頻事件檢測(cè)，提供高精度、低延遲的語音處理能力。 CosyVoice專注于自然語音生成和控制，支持多種語言、音色、說話風(fēng)格的生成，可以實(shí)現(xiàn)零樣本學(xué)習(xí)和細(xì)粒度的語音控制。兩者的結(jié)合使得FunAudioLLM能夠在多種應(yīng)用場(chǎng)景下提供出色的語音交互體驗(yàn)。

SenseVoice 主要特性

1.多語言語音識(shí)別

SenseVoice-Small ：支持中文、英語、粵語、日語、韓語五種語言。它采用非自回歸端到端架構(gòu)，識(shí)別延遲極低。它比 Whisper-small 快 5 倍，比 Whisper-large 快 15 倍。
SenseVoice-Large ：高精度語音識(shí)別，支持 50 多種語言。

2. 情緒識(shí)別

通過檢測(cè)言語的音高、節(jié)奏、語調(diào)變化來識(shí)別言語中的情緒，如快樂、悲傷、憤怒等。

3. 音頻事件檢測(cè)

檢測(cè)語音中的特殊事件，例如音樂、笑聲、掌聲等，并預(yù)測(cè)事件的開始和結(jié)束時(shí)間。
SenseVoice-Small可以檢測(cè)各種人機(jī)交互事件，如背景音樂、掌聲、笑聲、哭聲、咳嗽、打噴嚏等。

4. 語言識(shí)別

能夠識(shí)別說話者使用的語言，以確保語音識(shí)別和上下文理解的準(zhǔn)確性。

5. 逆向文本標(biāo)準(zhǔn)化（ITN）

提供標(biāo)點(diǎn)和格式化的轉(zhuǎn)錄結(jié)果，以提高轉(zhuǎn)錄文本的可讀性和準(zhǔn)確性。

FunAudioLLM的主要特點(diǎn):

多語言語音識(shí)別：超過40萬小時(shí)的訓(xùn)練數(shù)據(jù)，識(shí)別性能優(yōu)于Whisper模型。
高效推理：SenseVoice-Small模型采用非自回歸端到端框架，推理延遲極低。處理 10 秒的音頻僅需 70 毫秒，比 Whisper-Large 快 15 倍。
情緒識(shí)別：在多個(gè)測(cè)試數(shù)據(jù)集上，達(dá)到了目前最好的情緒識(shí)別模型的結(jié)果。
事件檢測(cè)：支持多種常見的音頻事件檢測(cè)。
便捷的微調(diào)：提供便捷的微調(diào)腳本和策略，用戶可以根據(jù)業(yè)務(wù)場(chǎng)景輕松解決長(zhǎng)尾樣本問題。
服務(wù)部署：提供服務(wù)部署管道，支持多個(gè)并發(fā)請(qǐng)求，客戶端語言包括Python、C++、HTML、Java、C#等。

CosyVoice 的主要特點(diǎn):

1.語音生成