SpeechGPT 2.0-preview：首個(gè)面向交互和情景智能的語(yǔ)音對(duì)話模型

映技派于2025-01-27發(fā)布在Ai科技

復(fù)旦大學(xué)OpenMOSS人工智能開放實(shí)驗(yàn)室推出首個(gè)面向?qū)崟r(shí)交互和情景智能的開源語(yǔ)音對(duì)話模型：SpeechGPT 2.0-preview，SpeechGPT 2.0-preview基于百萬(wàn)小時(shí)級(jí)中文語(yǔ)音數(shù)據(jù)訓(xùn)練，以端到端架構(gòu)實(shí)現(xiàn)語(yǔ)音與文本模態(tài)的高度融合，可根據(jù)指令生成多情感、多風(fēng)格的語(yǔ)音，包括模仿特定角色的情緒。

SpeechGPT 2.0-preview：首個(gè)面向交互和情景智能的語(yǔ)音對(duì)話模型.webp

一、核心技術(shù)突破

1. 端到端語(yǔ)音建模

模型通過(guò)語(yǔ)義-聲學(xué)聯(lián)合建模，直接處理語(yǔ)音輸入并生成語(yǔ)音或文本輸出，無(wú)需傳統(tǒng)級(jí)聯(lián)式ASR（語(yǔ)音識(shí)別）和TTS（語(yǔ)音合成）模塊。其自研的超低比特率流式語(yǔ)音Codec（750bps）將語(yǔ)音壓縮至每秒75個(gè)token，結(jié)合Codec Patchify技術(shù)聚合相鄰時(shí)間步的語(yǔ)音token為統(tǒng)一向量，有效緩解跨模態(tài)建模沖突，支持流式輸入輸出，實(shí)現(xiàn)200ms以內(nèi)延遲的實(shí)時(shí)交互。

2. 語(yǔ)音-文本混合建模

模型采用多階段訓(xùn)練流程：

模態(tài)適應(yīng)預(yù)訓(xùn)練：利用未標(biāo)注語(yǔ)音數(shù)據(jù)學(xué)習(xí)語(yǔ)音模態(tài)特征；
跨模態(tài)指令微調(diào)：通過(guò)大規(guī)模跨模態(tài)指令數(shù)據(jù)集（SpeechInstruct）提升指令理解能力；
鏈?zhǔn)侥B(tài)微調(diào)：優(yōu)化跨模態(tài)轉(zhuǎn)換的精準(zhǔn)度，例如接收語(yǔ)音指令后用文本思考再以語(yǔ)音回復(fù)。

3. 多模態(tài)能力對(duì)齊

通過(guò)語(yǔ)音文本對(duì)齊預(yù)訓(xùn)練，模型“涌現(xiàn)”出未顯式訓(xùn)練的泛化能力，例如無(wú)需語(yǔ)速調(diào)整數(shù)據(jù)即可控制語(yǔ)速，或模仿未見過(guò)的角色語(yǔ)氣風(fēng)格。

二、功能特性與性能表現(xiàn)

1. 擬人化交互體驗(yàn)

情感與風(fēng)格控制：支持多情感（如虛弱、歡快）、多音色（男女切換）及多風(fēng)格（詩(shī)歌朗誦、方言模仿）的精準(zhǔn)控制，角色扮演能力突出；

2. 實(shí)時(shí)打斷交互：百毫秒級(jí)響應(yīng)速度支持自然對(duì)話中的即時(shí)打斷與續(xù)接。

智能與實(shí)用性

文本能力集成：在語(yǔ)音表現(xiàn)力基礎(chǔ)上，保留文本模型的智商，支持工具調(diào)用、聯(lián)網(wǎng)搜索、外掛知識(shí)庫(kù)接入等功能；
多任務(wù)兼容性：可處理長(zhǎng)文檔解析、多輪對(duì)話等場(chǎng)景，兼容短文本任務(wù)的性能未因長(zhǎng)上下文能力而降低。

3. 開源生態(tài)支持

模型代碼、權(quán)重及技術(shù)報(bào)告完全開源（Apache 2.0協(xié)議），提供Hugging Face預(yù)訓(xùn)練模型和Gradio演示界面，支持本地部署；

集成vLLM框架優(yōu)化推理效率，稀疏注意力機(jī)制降低內(nèi)存占用96.7%，提升處理速度3-7倍。

SpeechGPT 2.0-preview.webp

三、應(yīng)用場(chǎng)景

智能助手：支持自然語(yǔ)音交互的客服、教育或醫(yī)療助手，如實(shí)時(shí)口語(yǔ)練習(xí)、情感陪伴；
內(nèi)容創(chuàng)作：自動(dòng)生成有聲書、詩(shī)歌朗誦或方言內(nèi)容，豐富多媒體創(chuàng)作形式；
無(wú)障礙通信：為聽障或言語(yǔ)障礙者提供實(shí)時(shí)語(yǔ)音轉(zhuǎn)文字及合成服務(wù)。

SpeechGPT 2.0-preview通過(guò)端到端架構(gòu)與跨模態(tài)對(duì)齊技術(shù)，實(shí)現(xiàn)了語(yǔ)音交互的低延遲、高擬真與強(qiáng)智能，成為開源社區(qū)在語(yǔ)音大模型領(lǐng)域的重要突破。其開源生態(tài)與多場(chǎng)景適配能力，不僅為開發(fā)者提供了高效工具，更推動(dòng)了人機(jī)交互向情感化、自然化的深度演進(jìn)。

Github代碼庫(kù)：https://github.com/OpenMOSS/SpeechGPT-2.0-preview

在線體驗(yàn)：https://sp2.open-moss.com（測(cè)了下有點(diǎn)卡，在笑的時(shí)候斷斷續(xù)續(xù)的，不過(guò)還是挺自然，就是答非所問(wèn)）