GUIRoboTron-Speech：美團與浙江大推出的首個語音交互GUI智能體

映技派于2025-06-21發(fā)布在Ai產(chǎn)品

美團和浙江大學(xué)合作開發(fā)了GUIRoboTron-Speech，這是一個能用語音指令和設(shè)備屏幕截圖直接做決策的GUI智能體。它能讓用戶通過語音和設(shè)備屏幕截圖來操控計算機，避免了傳統(tǒng)文本輸入的不便。

GUIRoboTron-Speech解決了傳統(tǒng)依賴文本的限制。團隊通過創(chuàng)建高質(zhì)量語音數(shù)據(jù)集、分階段訓(xùn)練和混合指令訓(xùn)練策略，成功訓(xùn)練了這個智能體，讓它在多個任務(wù)上表現(xiàn)出色。研究發(fā)現(xiàn)，當(dāng)用戶意圖明確時，語音指令比文本指令完成任務(wù)的成功率更高，未來還會繼續(xù)提高它處理復(fù)雜指令的能力。

GUIRoboTron-Speech：美團與浙江大推出的首個語音交互GUI智能體.jpg

核心功能

語音指令驅(qū)動：GUIRoboTron-Speech可以直接接收語音指令和設(shè)備屏幕截圖來預(yù)測并執(zhí)行操作。用戶不用手動輸入文字，通過語音就能控制GUI代理。
多模態(tài)交互：它結(jié)合了語音和視覺兩種模態(tài)，能準(zhǔn)確理解語音指令與GUI界面視覺元素的對應(yīng)關(guān)系。

研發(fā)方法

數(shù)據(jù)集生成：由于缺乏語音指令數(shù)據(jù)集，團隊用先進(jìn)的隨機音色文本轉(zhuǎn)語音（TTS）模型，把大規(guī)模文本指令數(shù)據(jù)集轉(zhuǎn)換成多種說話風(fēng)格和音色的語音指令數(shù)據(jù)集。
漸進(jìn)式訓(xùn)練框架：訓(xùn)練分兩個階段：
Grounding階段：模型學(xué)習(xí)語音指令與GUI視覺元素的精確對應(yīng)，比如理解“點擊‘確定’按鈕”并在截圖中找到“確定”按鈕。
Planning階段：模型學(xué)習(xí)執(zhí)行多步驟復(fù)雜任務(wù)，例如“先登錄賬號，再找最新郵件并打開附件”，展現(xiàn)邏輯推理和任務(wù)規(guī)劃能力。
啟發(fā)式混合指令訓(xùn)練策略：為解決預(yù)訓(xùn)練模型的模態(tài)不平衡問題，團隊在訓(xùn)練中混合使用語音和文本指令，讓模型平等處理兩種輸入。

性能表現(xiàn)

指令模態(tài)對比：在ScreenSpot任務(wù)中，僅用語音指令訓(xùn)練的模型平均grounding準(zhǔn)確率比僅用文本指令的低1.6%，但采用混合指令策略后，準(zhǔn)確率提高了1.9%。
GUI視覺Grounding：在Mobile和Web領(lǐng)域，GUIRoboTron-Speech用語音指令輸入時，性能與基于文本指令的先進(jìn)方法相當(dāng)。
多步驟任務(wù)執(zhí)行：在AndroidControl和GUIOdyssey等多步驟任務(wù)數(shù)據(jù)集上，它的性能與一些基于文本指令的先進(jìn)模型相當(dāng)。

優(yōu)勢與意義

提升交互便利性：用戶操作設(shè)備時無需手動輸入文字，通過語音就能完成各種操作，大大提高了交互的便利性。
拓展應(yīng)用場景：該技術(shù)不僅適用于普通用戶的日常便捷操作，還適用于駕駛、醫(yī)療等需要雙手操作的特殊場景，提供更安全、高效的交互方式。
推動技術(shù)發(fā)展：GUIRoboTron-Speech為語音交互技術(shù)在GUI領(lǐng)域的應(yīng)用提供了新思路和方法，推動了相關(guān)技術(shù)的發(fā)展。