Dolphin:海天瑞聲與清華大學聯(lián)合發(fā)布的一款面向東方語種的自動語音識別模型
Dolphin 是什么?
Dolphin是一款由海天瑞聲與清華大學電子工程系語音與音頻技術(shù)實驗室聯(lián)合開發(fā)的專為東方語言設(shè)計的自動語音識別模型。Dolphin支持40種東方語言和22種中國方言。具有高準確率和強魯棒性,能夠適應(yīng)多種復雜語音環(huán)境。Dolphin廣泛應(yīng)用于語音轉(zhuǎn)文字、語音交互和語音內(nèi)容分析等場景,支持一鍵安裝和多種調(diào)用方式。
Dolphin 模型特點
多語種支持:Dolphin 支持 40 種東方語言,包括東亞、南亞、東南亞和中東地區(qū)的語言,還支持 22 種中國方言(含普通話)。
語言自適應(yīng):自動識別輸入語音的語言種類,無需手動指定。
高準確率:在多個測試集上,詞錯誤率(WER)顯著低于同類模型。
強魯棒性:適應(yīng)不同口音、語速、背景噪聲等復雜語音環(huán)境。
高性能表現(xiàn):在海天瑞聲、Fleurs、CommonVoice 三個測試集下,與 Whisper 同等尺寸模型相比,Dolphin 的詞錯誤率(WER)顯著降低。例如,base 版本平均 WER 降低 63.1%,small 版本平均 WER 降低 68.2%。
開源性:Dolphin 的 base 和 small 版本模型與推理代碼已全面開源。
Dolphin 技術(shù)架構(gòu)
網(wǎng)絡(luò)結(jié)構(gòu):基于 CTC-Attention 架構(gòu),采用 E-Branchformer 編碼器和 Transformer 解碼器,并引入了 4 倍下采樣層。這種結(jié)構(gòu)結(jié)合了 CTC 的序列建模能力和注意力機制的上下文捕捉能力,能夠有效提升模型的識別準確性和效率。
多任務(wù)格式:Dolphin 借鑒了 Whisper 和 OWSM 的設(shè)計方法,專注于 ASR 進行了若干關(guān)鍵修改,如去掉 previous text 及其相關(guān)標記的使用,簡化了輸入格式。此外,Dolphin 引入了兩級語種標簽系統(tǒng),以更好地處理語言和地區(qū)的多樣性。

數(shù)據(jù)基礎(chǔ)
Dolphin 的訓練數(shù)據(jù)集整合了海天瑞聲的專有數(shù)據(jù)和多個開源數(shù)據(jù)集,總時長超過 21.2 萬小時。其中,海天瑞聲數(shù)據(jù)集包含 137,712 小時的音頻,覆蓋 38 個東方語種。
應(yīng)用場景
語音轉(zhuǎn)文字:適用于會議記錄、語音輸入法等場景。
語音交互:用于ai智能語音助手、智能家居等,提升交互體驗。
語音內(nèi)容分析:快速轉(zhuǎn)寫和分析語音媒體內(nèi)容。
Dolphin 使用教程
安裝:用戶可以通過命令 pip install -U dataoceanai-dolphin 一鍵安裝。
命令行調(diào)用:例如,使用 dolphin audio.wav 進行語音識別,還可以指定模型版本、語言和地區(qū)的標簽。
Python 調(diào)用:通過導入 dolphin 模塊,加載音頻和模型,即可進行語音識別。
相關(guān)鏈接
Github地址:https://github.com/DataoceanAI/Dolphin
項目主頁:https://huggingface.co/DataoceanAI
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺










