Step-Audio
Step-Audio簡(jiǎn)介
Step-Audio,作為業(yè)內(nèi)首款產(chǎn)品級(jí)開源語(yǔ)音交互模型,具備根據(jù)場(chǎng)景需求生成多樣化語(yǔ)音表達(dá)的能力,涵蓋情緒、方言、語(yǔ)種、歌聲以及個(gè)性化風(fēng)格,且交互自然流暢。在漢語(yǔ)水平考試六級(jí)評(píng)測(cè)中,Step-Audio表現(xiàn)卓越,被譽(yù)為最懂中文的開源模型。此ai模型由階躍星辰與吉利汽車集團(tuán)聯(lián)合研發(fā),并于2025年2月18日正式開源。
Step-Audio功能特征:
統(tǒng)一模型:基于130億參數(shù)的多模態(tài)模型,實(shí)現(xiàn)語(yǔ)音理解與生成的統(tǒng)一,可同時(shí)處理語(yǔ)音識(shí)別、語(yǔ)義理解、對(duì)話、語(yǔ)音克隆、音頻編輯與合成。
情感與風(fēng)格多樣化:根據(jù)需求生成不同情緒(生氣/高興/悲傷)、方言(粵語(yǔ)/四川話等)、語(yǔ)種、歌聲(RAP/哼唱)及個(gè)性化風(fēng)格的語(yǔ)音,精準(zhǔn)調(diào)控情緒、方言、語(yǔ)種及歌聲。
高質(zhì)量對(duì)話:提供自然、高質(zhì)量對(duì)話體驗(yàn),交互自然流暢如真人交談。
智能交互:具備邏輯推理、創(chuàng)作、指令控制、語(yǔ)言、角色扮演及文字游戲等高級(jí)交互特性。
Step-Audio應(yīng)用場(chǎng)景:
智能客服:提供個(gè)性化、情緒化服務(wù),提升用戶體驗(yàn)。
有聲閱讀:生成有情感朗讀,增強(qiáng)聽書沉浸感。
游戲NPC:為游戲角色提供自然流暢語(yǔ)音交互。
會(huì)議記錄:實(shí)時(shí)轉(zhuǎn)語(yǔ)音為文本,提供語(yǔ)音反饋。
教育輔助:個(gè)性化教學(xué)助手,調(diào)整教學(xué)風(fēng)格語(yǔ)氣。
Step-Audio技術(shù)特征:
高壓縮比技術(shù):采用Video-VAE等高效壓縮技術(shù)優(yōu)化數(shù)據(jù)處理。
雙語(yǔ)處理能力:利用Hunyuan-CLIP和Step-LLM處理中英文提示。
DIT架構(gòu)與Video-DPO算法:優(yōu)化復(fù)雜視頻音頻數(shù)據(jù)處理。
大規(guī)模數(shù)據(jù)集訓(xùn)練:構(gòu)建大數(shù)據(jù)集,確保模型泛化與細(xì)節(jié)表現(xiàn)。

Step-Audio使用方法:
獲取模型:訪問(wèn)躍問(wèn)APP或Hugging Face等平臺(tái)的Step-Audio開源版本。
技術(shù)報(bào)告:查閱arxiv.org或GitHub上的技術(shù)報(bào)告了解詳情。
API接口:通過(guò)API調(diào)用實(shí)現(xiàn)語(yǔ)音交互,遵循MIT開源協(xié)議。
集成開發(fā):按官方文檔或示例代碼集成到應(yīng)用中。
定制化訓(xùn)練:高級(jí)用戶可微調(diào)模型以適應(yīng)特定場(chǎng)景或提升性能。
Step-Audio獲取方式
GitHub:https://github.com/stepfun-ai/Step-Audio
ModelScope:[點(diǎn)擊訪問(wèn)]
技術(shù)報(bào)告:[點(diǎn)擊訪問(wèn)]
支持PAI Model Gallery一鍵部署[點(diǎn)擊訪問(wèn)]
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺(tái)



