GUIRoboTron-Speech:美團與浙江大推出的首個語音交互GUI智能體
美團和浙江大學(xué)合作開發(fā)了GUIRoboTron-Speech,這是一個能用語音指令和設(shè)備屏幕截圖直接做決策的GUI智能體。它能讓用戶通過語音和設(shè)備屏幕截圖來操控計算機,避免了傳統(tǒng)文本輸入的不便。
GUIRoboTron-Speech解決了傳統(tǒng)依賴文本的限制。團隊通過創(chuàng)建高質(zhì)量語音數(shù)據(jù)集、分階段訓(xùn)練和混合指令訓(xùn)練策略,成功訓(xùn)練了這個智能體,讓它在多個任務(wù)上表現(xiàn)出色。研究發(fā)現(xiàn),當(dāng)用戶意圖明確時,語音指令比文本指令完成任務(wù)的成功率更高,未來還會繼續(xù)提高它處理復(fù)雜指令的能力。

核心功能
語音指令驅(qū)動:GUIRoboTron-Speech可以直接接收語音指令和設(shè)備屏幕截圖來預(yù)測并執(zhí)行操作。用戶不用手動輸入文字,通過語音就能控制GUI代理。
多模態(tài)交互:它結(jié)合了語音和視覺兩種模態(tài),能準(zhǔn)確理解語音指令與GUI界面視覺元素的對應(yīng)關(guān)系。
研發(fā)方法
數(shù)據(jù)集生成:由于缺乏語音指令數(shù)據(jù)集,團隊用先進(jìn)的隨機音色文本轉(zhuǎn)語音(TTS)模型,把大規(guī)模文本指令數(shù)據(jù)集轉(zhuǎn)換成多種說話風(fēng)格和音色的語音指令數(shù)據(jù)集。
漸進(jìn)式訓(xùn)練框架:訓(xùn)練分兩個階段:
Grounding階段:模型學(xué)習(xí)語音指令與GUI視覺元素的精確對應(yīng),比如理解“點擊‘確定’按鈕”并在截圖中找到“確定”按鈕。
Planning階段:模型學(xué)習(xí)執(zhí)行多步驟復(fù)雜任務(wù),例如“先登錄賬號,再找最新郵件并打開附件”,展現(xiàn)邏輯推理和任務(wù)規(guī)劃能力。
啟發(fā)式混合指令訓(xùn)練策略:為解決預(yù)訓(xùn)練模型的模態(tài)不平衡問題,團隊在訓(xùn)練中混合使用語音和文本指令,讓模型平等處理兩種輸入。
性能表現(xiàn)
指令模態(tài)對比:在ScreenSpot任務(wù)中,僅用語音指令訓(xùn)練的模型平均grounding準(zhǔn)確率比僅用文本指令的低1.6%,但采用混合指令策略后,準(zhǔn)確率提高了1.9%。
GUI視覺Grounding:在Mobile和Web領(lǐng)域,GUIRoboTron-Speech用語音指令輸入時,性能與基于文本指令的先進(jìn)方法相當(dāng)。
多步驟任務(wù)執(zhí)行:在AndroidControl和GUIOdyssey等多步驟任務(wù)數(shù)據(jù)集上,它的性能與一些基于文本指令的先進(jìn)模型相當(dāng)。
優(yōu)勢與意義
提升交互便利性:用戶操作設(shè)備時無需手動輸入文字,通過語音就能完成各種操作,大大提高了交互的便利性。
拓展應(yīng)用場景:該技術(shù)不僅適用于普通用戶的日常便捷操作,還適用于駕駛、醫(yī)療等需要雙手操作的特殊場景,提供更安全、高效的交互方式。
推動技術(shù)發(fā)展:GUIRoboTron-Speech為語音交互技術(shù)在GUI領(lǐng)域的應(yīng)用提供了新思路和方法,推動了相關(guān)技術(shù)的發(fā)展。
項目鏈接
技術(shù)論文:https://arxiv.org/abs/2506.11127
Github倉庫:https://github.com/GUIRoboTron/GUIRoboTron-Speech
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺










