SpeechGPT 2.0-preview:首個(gè)面向交互和情景智能的語(yǔ)音對(duì)話模型
復(fù)旦大學(xué)OpenMOSS人工智能開放實(shí)驗(yàn)室推出首個(gè)面向?qū)崟r(shí)交互和情景智能的開源語(yǔ)音對(duì)話模型:SpeechGPT 2.0-preview,SpeechGPT 2.0-preview基于百萬(wàn)小時(shí)級(jí)中文語(yǔ)音數(shù)據(jù)訓(xùn)練,以端到端架構(gòu)實(shí)現(xiàn)語(yǔ)音與文本模態(tài)的高度融合,可根據(jù)指令生成多情感、多風(fēng)格的語(yǔ)音,包括模仿特定角色的情緒。

一、核心技術(shù)突破
1. 端到端語(yǔ)音建模
模型通過(guò)語(yǔ)義-聲學(xué)聯(lián)合建模,直接處理語(yǔ)音輸入并生成語(yǔ)音或文本輸出,無(wú)需傳統(tǒng)級(jí)聯(lián)式ASR(語(yǔ)音識(shí)別)和TTS(語(yǔ)音合成)模塊。其自研的超低比特率流式語(yǔ)音Codec(750bps)將語(yǔ)音壓縮至每秒75個(gè)token,結(jié)合Codec Patchify技術(shù)聚合相鄰時(shí)間步的語(yǔ)音token為統(tǒng)一向量,有效緩解跨模態(tài)建模沖突,支持流式輸入輸出,實(shí)現(xiàn)200ms以內(nèi)延遲的實(shí)時(shí)交互。
2. 語(yǔ)音-文本混合建模
模型采用多階段訓(xùn)練流程:
模態(tài)適應(yīng)預(yù)訓(xùn)練:利用未標(biāo)注語(yǔ)音數(shù)據(jù)學(xué)習(xí)語(yǔ)音模態(tài)特征;
跨模態(tài)指令微調(diào):通過(guò)大規(guī)模跨模態(tài)指令數(shù)據(jù)集(SpeechInstruct)提升指令理解能力;
鏈?zhǔn)侥B(tài)微調(diào):優(yōu)化跨模態(tài)轉(zhuǎn)換的精準(zhǔn)度,例如接收語(yǔ)音指令后用文本思考再以語(yǔ)音回復(fù)。
3. 多模態(tài)能力對(duì)齊
通過(guò)語(yǔ)音文本對(duì)齊預(yù)訓(xùn)練,模型“涌現(xiàn)”出未顯式訓(xùn)練的泛化能力,例如無(wú)需語(yǔ)速調(diào)整數(shù)據(jù)即可控制語(yǔ)速,或模仿未見過(guò)的角色語(yǔ)氣風(fēng)格。
二、功能特性與性能表現(xiàn)
1. 擬人化交互體驗(yàn)
情感與風(fēng)格控制:支持多情感(如虛弱、歡快)、多音色(男女切換)及多風(fēng)格(詩(shī)歌朗誦、方言模仿)的精準(zhǔn)控制,角色扮演能力突出;
2. 實(shí)時(shí)打斷交互:百毫秒級(jí)響應(yīng)速度支持自然對(duì)話中的即時(shí)打斷與續(xù)接。
智能與實(shí)用性
文本能力集成:在語(yǔ)音表現(xiàn)力基礎(chǔ)上,保留文本模型的智商,支持工具調(diào)用、聯(lián)網(wǎng)搜索、外掛知識(shí)庫(kù)接入等功能;
多任務(wù)兼容性:可處理長(zhǎng)文檔解析、多輪對(duì)話等場(chǎng)景,兼容短文本任務(wù)的性能未因長(zhǎng)上下文能力而降低。
3. 開源生態(tài)支持
模型代碼、權(quán)重及技術(shù)報(bào)告完全開源(Apache 2.0協(xié)議),提供Hugging Face預(yù)訓(xùn)練模型和Gradio演示界面,支持本地部署;
集成vLLM框架優(yōu)化推理效率,稀疏注意力機(jī)制降低內(nèi)存占用96.7%,提升處理速度3-7倍。

三、應(yīng)用場(chǎng)景
智能助手:支持自然語(yǔ)音交互的客服、教育或醫(yī)療助手,如實(shí)時(shí)口語(yǔ)練習(xí)、情感陪伴;
內(nèi)容創(chuàng)作:自動(dòng)生成有聲書、詩(shī)歌朗誦或方言內(nèi)容,豐富多媒體創(chuàng)作形式;
無(wú)障礙通信:為聽障或言語(yǔ)障礙者提供實(shí)時(shí)語(yǔ)音轉(zhuǎn)文字及合成服務(wù)。
SpeechGPT 2.0-preview通過(guò)端到端架構(gòu)與跨模態(tài)對(duì)齊技術(shù),實(shí)現(xiàn)了語(yǔ)音交互的低延遲、高擬真與強(qiáng)智能,成為開源社區(qū)在語(yǔ)音大模型領(lǐng)域的重要突破。其開源生態(tài)與多場(chǎng)景適配能力,不僅為開發(fā)者提供了高效工具,更推動(dòng)了人機(jī)交互向情感化、自然化的深度演進(jìn)。
Github代碼庫(kù):https://github.com/OpenMOSS/SpeechGPT-2.0-preview
在線體驗(yàn):https://sp2.open-moss.com(測(cè)了下有點(diǎn)卡,在笑的時(shí)候斷斷續(xù)續(xù)的,不過(guò)還是挺自然,就是答非所問(wèn))
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺(tái)










