FunAudioLLM:阿里巴巴語音AI突破
FunAudioLLM是阿里巴巴開發(fā)的一套語音處理模型,旨在改善人類與大型語言模型之間的語音交互。它由兩個(gè)主要模型組成:SenseVoice 和 CosyVoice。
SenseVoice :一種語音識(shí)別模型,可以識(shí)別多種語言的語音,識(shí)別說話者的情緒,并檢測(cè)音頻中的特殊事件(例如音樂、笑聲等)。它可以快速準(zhǔn)確地轉(zhuǎn)錄語音內(nèi)容。
CosyVoice :語音生成模式,該模型主要生成自然且情感豐富的語音。它可以模仿不同的說話者,甚至可以通過幾秒鐘的音頻樣本克隆一個(gè)人的聲音。
通過SenseVoice和CosyVoice的結(jié)合,F(xiàn)unAudioLLM提供了全面的語音理解和生成能力,使得人與大型語言模型之間的語音交互更加自然和豐富。

SenseVoice 和 CosyVoice 的主要特性:
SenseVoice專注于多語言語音識(shí)別、情感識(shí)別和音頻事件檢測(cè),提供高精度、低延遲的語音處理能力。 CosyVoice專注于自然語音生成和控制,支持多種語言、音色、說話風(fēng)格的生成,可以實(shí)現(xiàn)零樣本學(xué)習(xí)和細(xì)粒度的語音控制。兩者的結(jié)合使得FunAudioLLM能夠在多種應(yīng)用場(chǎng)景下提供出色的語音交互體驗(yàn)。
SenseVoice 主要特性
1.多語言語音識(shí)別
SenseVoice-Small :支持中文、英語、粵語、日語、韓語五種語言。它采用非自回歸端到端架構(gòu),識(shí)別延遲極低。它比 Whisper-small 快 5 倍,比 Whisper-large 快 15 倍。
SenseVoice-Large :高精度語音識(shí)別,支持 50 多種語言。
2. 情緒識(shí)別
通過檢測(cè)言語的音高、節(jié)奏、語調(diào)變化來識(shí)別言語中的情緒,如快樂、悲傷、憤怒等。
3. 音頻事件檢測(cè)
檢測(cè)語音中的特殊事件,例如音樂、笑聲、掌聲等,并預(yù)測(cè)事件的開始和結(jié)束時(shí)間。
SenseVoice-Small可以檢測(cè)各種人機(jī)交互事件,如背景音樂、掌聲、笑聲、哭聲、咳嗽、打噴嚏等。
4. 語言識(shí)別
能夠識(shí)別說話者使用的語言,以確保語音識(shí)別和上下文理解的準(zhǔn)確性。
5. 逆向文本標(biāo)準(zhǔn)化(ITN)
提供標(biāo)點(diǎn)和格式化的轉(zhuǎn)錄結(jié)果,以提高轉(zhuǎn)錄文本的可讀性和準(zhǔn)確性。
FunAudioLLM的主要特點(diǎn):
多語言語音識(shí)別:超過40萬小時(shí)的訓(xùn)練數(shù)據(jù),識(shí)別性能優(yōu)于Whisper模型。
高效推理:SenseVoice-Small模型采用非自回歸端到端框架,推理延遲極低。處理 10 秒的音頻僅需 70 毫秒,比 Whisper-Large 快 15 倍。
情緒識(shí)別:在多個(gè)測(cè)試數(shù)據(jù)集上,達(dá)到了目前最好的情緒識(shí)別模型的結(jié)果。
事件檢測(cè):支持多種常見的音頻事件檢測(cè)。
便捷的微調(diào):提供便捷的微調(diào)腳本和策略,用戶可以根據(jù)業(yè)務(wù)場(chǎng)景輕松解決長(zhǎng)尾樣本問題。
服務(wù)部署:提供服務(wù)部署管道,支持多個(gè)并發(fā)請(qǐng)求,客戶端語言包括Python、C++、HTML、Java、C#等。
CosyVoice 的主要特點(diǎn):
1.語音生成
支持多語言語音生成,包括中文、英語、粵語、日語、韓語。
能夠生成自然且情感豐富的語音,支持不同的說話風(fēng)格和情感表達(dá)。
2.多樣化的語音控制
音色控制:可以精確控制生成語音的音色,使其與特定說話者的聲音相匹配。
說話風(fēng)格控制:通過文本命令控制聲音的說話風(fēng)格,如情緒、語速、音調(diào)等。
3. 零樣本學(xué)習(xí)
只需幾秒鐘的音頻樣本即可克隆語音,無需額外的訓(xùn)練數(shù)據(jù)。
支持跨語言語音克隆,讓您用一種語言使用另一種語言的聲音說話。
4. 副語言特征的細(xì)粒度控制
支持插入笑聲、呼吸、語氣詞等細(xì)微的語音特征,使生成的語音更加自然生動(dòng)。
文本命令控制:通過文本命令可以精確控制說話者的身份、情緒、說話風(fēng)格。
5.多角色對(duì)話
它可以生成多字符會(huì)話語音,適用于互動(dòng)播客、情感聊天等場(chǎng)景。
項(xiàng)目地址:https://github.com/FunAudioLLM
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺(tái)










