OpenManus-RL：一個提升LLM智能體的推理與決策能力開源項目

OpenManus-RL于2025-03-11發(fā)布在Ai產(chǎn)品

OpenManus-RL是什么？

OpenManus-RL是一個由UIUC-Ulab與MetaGPT社區(qū)的OpenManus團隊聯(lián)合開發(fā)的開源項目，可以通過強化學(xué)習(xí)RL技術(shù)提升大型語言模型LLM智能體的推理與決策能力。該項目基于Deepseek-R1、QwQ-32B等先進模型的經(jīng)驗，探索新的調(diào)優(yōu)方法，以增強智能體在復(fù)雜任務(wù)中的表現(xiàn)。 OpenManus-RL的核心功能包括智能體環(huán)境的搭建、軌跡數(shù)據(jù)的收集、強化學(xué)習(xí)調(diào)優(yōu)支持以及基準測試的集成。它還集成了多種強化學(xué)習(xí)策略，如Tree-of-Thoughts和蒙特卡洛樹搜索（Monte Carlo Tree Search），以提升智能體的推理能力。

OpenManus-RL功能特征

智能體環(huán)境搭建：提供在線強化學(xué)習(xí)（RL）調(diào)優(yōu)的智能體環(huán)境配置工具，方便用戶為特定任務(wù)定制智能體環(huán)境。
軌跡數(shù)據(jù)收集：能夠連接Deepseek-R1、QwQ-32B等模型，收集復(fù)雜任務(wù)的行為數(shù)據(jù)，為后續(xù)的調(diào)優(yōu)提供數(shù)據(jù)支持。
RL調(diào)優(yōu)支持：支持定制化智能體行為的強化學(xué)習(xí)方法，用戶可以通過指定獎勵函數(shù)等方式對智能體的行為進行優(yōu)化。
基準測試集成：內(nèi)置WebShop、GaiA、OSWorld、AgentBench等測試環(huán)境，方便用戶對智能體的性能進行量化評估。
多樣化策略：集成Tree-of-Thoughts、Monte Carlo Tree Search等強化學(xué)習(xí)策略，提升智能體在長程規(guī)劃任務(wù)中的推理能力。
社區(qū)協(xié)作：允許用戶提交代碼、數(shù)據(jù)集等，重要貢獻者可成為論文共同作者，促進社區(qū)的共同開發(fā)。
實時進展分享：通過動態(tài)更新展示RL調(diào)優(yōu)過程與成果，方便用戶了解項目的最新進展。

OpenManus-RL應(yīng)用場景

購物決策：通過定制智能體環(huán)境，優(yōu)化智能體在購物決策任務(wù)中的表現(xiàn)，例如在WebShop中提升購買成功率。
復(fù)雜任務(wù)分析：分析智能體在復(fù)雜任務(wù)中的表現(xiàn)，如在GAIA、OSWorld等基準測試中的成功率、響應(yīng)時間等指標，幫助開發(fā)者對比模型性能。
多模態(tài)任務(wù)優(yōu)化：在OSWorld等多模態(tài)任務(wù)環(huán)境中，優(yōu)化智能體的行為，提升其在多模態(tài)任務(wù)中的表現(xiàn)。
長程規(guī)劃任務(wù)：利用集成的多樣化策略，提升智能體在長程規(guī)劃任務(wù)中的推理能力，例如通過Tree-of-Thoughts策略優(yōu)化智能體的行為。

OpenManus-RL安裝

1. 創(chuàng)建Conda環(huán)境：為避免依賴沖突，建議使用Conda創(chuàng)建環(huán)境，命令如下：

conda create -n openmanus-rl python=3.10
conda activate openmanus-rl

2. 克隆項目：確保已安裝Git，然后克隆項目并進入項目目錄，命令如下：

git clone https://github.com/OpenManus/OpenManus-RL.git
cd OpenManus-RL

3. 安裝依賴：在項目根目錄執(zhí)行以下命令安裝依賴，若下載慢可使用國內(nèi)鏡像：

pip install -r requirements.txt

或

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

可視化工具需額外安裝：

pip install matplotlib numpy

4. 配置模型與數(shù)據(jù)集：

監(jiān)督微調(diào)（SFT）：指定模型和數(shù)據(jù)集，命令如下：

python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL

強化學(xué)習(xí)調(diào)優(yōu)（GRPO）：配置獎勵函數(shù)，命令如下：

python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_funcs accuracy format tag_count

數(shù)據(jù)集可從Huggingface獲取。

5. 運行項目：

單GPU運行SFT：

python -m openmanus_rl.sft --output_dir data/sft-output

多GPU運行GRPO（需配置zero3.yaml）：

accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output

OpenManus-RL使用

1. 智能體環(huán)境搭建：

運行python -m openmanus_rl.sft生成基礎(chǔ)環(huán)境。
修改配置文件（如任務(wù)目標或獎勵函數(shù)）。
執(zhí)行python -m openmanus_rl.grpo開始調(diào)優(yōu)。

2. 數(shù)據(jù)收集與測試：

配置模型（如Deepseek-R1）：python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1
運行測試：--benchmark GAIA，結(jié)果保存至data/目錄。

3. RL調(diào)優(yōu)操作：

運行GRPO模式：python -m openmanus_rl.grpo --reward_funcs accuracy
查看訓(xùn)練日志，模型保存至data/grpo-output。

GitHub倉庫地址：https://github.com/OpenManus/OpenManus-RL

MM_StoryAgent：上海交大和阿里開源的一款A(yù)I多模態(tài)故事生成系統(tǒng)

AkashChat：基于去中心化云計算平臺 Akash Network的AI聊天工具

相關(guān)文章

智譜上線類Manus的PPT生成功能：AI Slid

智譜上線類Manus的PPT生成功能：AI Slid

2025-07-11

CircuitManus：基于Python的通用智能

CircuitManus：基于Python的通用智能

2025-06-07

AgenticSeek：本地版Manus，支持語音輸

AgenticSeek：本地版Manus，支持語音輸

2025-03-24

LangManus：社區(qū)驅(qū)動的AI自動化框架，多智能

LangManus：社區(qū)驅(qū)動的AI自動化框架，多智能

2025-03-18

OWL：CAMEL-AI開源的通用多智能體，復(fù)刻并超

OWL：CAMEL-AI開源的通用多智能體，復(fù)刻并超

2025-03-08

OpenManus：開源版Manus，無需邀請碼

OpenManus：開源版Manus，無需邀請碼

2025-03-07

久久五月天婷婷_91精品国产高清久久久久久91裸体_久久精品日韩_美女亚洲精品_视频一区二区三区免费观看_久久国产精品一区二区三区_97国产超碰_精品午夜一区二区_色一情一乱一伦一区二区三区丨_国模精品娜娜一二三区