SenseVoice
SenseVoice簡(jiǎn)介
SenseVoice,一款阿里通義實(shí)驗(yàn)室發(fā)布的FunAudioLLM框架多語(yǔ)言音頻基礎(chǔ)模型,enseVoice專(zhuān)注于高精度多語(yǔ)言語(yǔ)音識(shí)別、語(yǔ)音情感識(shí)別和音頻事件檢測(cè),具有多語(yǔ)種、混合語(yǔ)言、音色和情感控制能力,在零樣本語(yǔ)音生成、跨語(yǔ)言語(yǔ)音克隆和指令跟蹤方面的能力表現(xiàn)優(yōu)秀。
FunAudioLLM 通過(guò)結(jié)合先進(jìn)的語(yǔ)音理解和生成技術(shù),可以處理復(fù)雜的語(yǔ)音任務(wù),并在多種語(yǔ)言環(huán)境中實(shí)現(xiàn)自然交。
SenseVoice可以應(yīng)用于語(yǔ)音翻譯、情感語(yǔ)音聊天、互動(dòng)播客和富有表現(xiàn)力的有聲讀物朗讀等。
SenseVoice具有音頻理解能力,包括語(yǔ)音識(shí)別(ASR)、語(yǔ)種識(shí)別(LID)、語(yǔ)音情感識(shí)別(SER)和聲學(xué)事件分類(lèi)(AEC)或聲學(xué)事件檢測(cè)(AED)
SenseVoice性能:
多語(yǔ)言語(yǔ)音識(shí)別:經(jīng)過(guò)超過(guò)40萬(wàn)小時(shí)的數(shù)據(jù)訓(xùn)練,支持50多種語(yǔ)言,識(shí)別性能超越Whisper模型。
豐富轉(zhuǎn)錄:
擁有優(yōu)秀的情緒識(shí)別能力,在測(cè)試數(shù)據(jù)上達(dá)到并超越目前最好的情緒識(shí)別模型的效果。
提供聲音事件檢測(cè)能力,支持bgm、掌聲、笑聲、哭泣、咳嗽、打噴嚏等各種常見(jiàn)人機(jī)交互事件的檢測(cè)。
高效推理:SenseVoice-Small 模型采用非自回歸端到端框架,從而實(shí)現(xiàn)極低的推理延遲。處理 10 秒的音頻僅需 70ms,比 Whisper-Large 快 15 倍。
便捷的Finetuning:提供便捷的Finetuning腳本和策略,讓用戶(hù)根據(jù)業(yè)務(wù)場(chǎng)景輕松解決長(zhǎng)尾樣本問(wèn)題。
服務(wù)部署:提供服務(wù)部署管道,支持多并發(fā)請(qǐng)求,客戶(hù)端語(yǔ)言包括Python、C++、HTML、Java、C#等。
在aiSHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice上測(cè)試了多語(yǔ)言語(yǔ)音識(shí)別性能和推理效率,中文和粵語(yǔ),SenseVoice-Small效果好。
github:https://github.com/FunAudioLLM/SenseVoice
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開(kāi)源AI應(yīng)用平臺(tái)





