微軟MineWorld:基于《我的世界》的實(shí)時(shí)開源交互式世界模型
MineWorld是什么?
MineWorld是微軟于2025年4月14日開源的基于《我的世界》(Minecraft)的實(shí)時(shí)交互式世界模型,其目標(biāo)是為智能體構(gòu)建可感知、可推理、可行動(dòng)的動(dòng)態(tài)環(huán)境。

MineWorld技術(shù)特點(diǎn)
視覺-動(dòng)作自回歸 Transformer:MineWorld 利用視覺-動(dòng)作自回歸 Transformer 驅(qū)動(dòng)模型,將游戲場(chǎng)景和動(dòng)作轉(zhuǎn)化為離散的 token ID,然后通過下一個(gè) token 預(yù)測(cè)進(jìn)行訓(xùn)練。
并行解碼算法:開發(fā)了一種新穎的并行解碼算法,可同時(shí)預(yù)測(cè)每幀中的空間冗余 token,讓不同規(guī)模的模型每秒生成 4 至 7 幀,實(shí)現(xiàn)與游戲玩家的實(shí)時(shí)互動(dòng)。
輸入與輸出:模型以游戲場(chǎng)景的初始圖像和用戶選擇的動(dòng)作作為輸入,生成相應(yīng)的下一個(gè)場(chǎng)景。
評(píng)估指標(biāo):提出了新的評(píng)估指標(biāo),不僅可以評(píng)估視覺質(zhì)量,還可以評(píng)估生成新場(chǎng)景時(shí)的動(dòng)作跟隨能力。
MineWorld應(yīng)用
具身智能研究:為具身智能研究提供了一個(gè)復(fù)雜且動(dòng)態(tài)的虛擬測(cè)試平臺(tái)。
強(qiáng)化學(xué)習(xí)訓(xùn)練:可用于強(qiáng)化學(xué)習(xí)的訓(xùn)練,幫助智能體在模擬環(huán)境中學(xué)習(xí)和適應(yīng)。
交互式 ai 代理測(cè)試:為交互式 AI 代理的測(cè)試提供了一個(gè)實(shí)時(shí)的、可交互的環(huán)境。
MineWorld使用方式
Web Demo:用戶可以通過運(yùn)行特定命令啟動(dòng)網(wǎng)頁游戲,通過本地或公共 URL 訪問。用戶可以選擇初始幀、控制相機(jī)移動(dòng),并執(zhí)行游戲動(dòng)作,如跳躍、移動(dòng)等。
本地運(yùn)行:用戶也可以在本地運(yùn)行模型,以復(fù)現(xiàn)論文中的評(píng)估結(jié)果。

MineWorld適用范圍與限制
適用范圍:MineWorld 專門針對(duì)《我的世界》游戲領(lǐng)域訓(xùn)練,僅適用于生成與游戲相關(guān)的場(chǎng)景。
限制:
無法生成其他視頻領(lǐng)域的結(jié)果(如互聯(lián)網(wǎng)視頻)。
生成的視頻分辨率有限,可能導(dǎo)致細(xì)節(jié)信息丟失。
模型可能繼承訓(xùn)練數(shù)據(jù)中的偏差、錯(cuò)誤或遺漏。
需要進(jìn)一步測(cè)試和驗(yàn)證,才能考慮在商業(yè)或現(xiàn)實(shí)場(chǎng)景中應(yīng)用。
MineWorld安裝使用
1. 環(huán)境配置:
克隆倉庫:
git clone https://github.com/microsoft/mineworld.git cd mineworld
創(chuàng)建并激活 Conda 環(huán)境:
conda create -n mineworld python=3.10 conda activate mineworld pip3 install -r requirements.txt
推薦使用高性能 GPU(如 A100 或 H100)進(jìn)行推理。
2. 下載預(yù)訓(xùn)練模型:
下載預(yù)訓(xùn)練模型和相關(guān)配置文件,放置在 checkpoints 文件夾中。
數(shù)據(jù)結(jié)構(gòu)如下:
├── checkpoints │ ├── 300M_16f.ckpt │ ├── 700M_16f.ckpt │ ├── 700M_32f.ckpt │ ├── 1200M_16f.ckpt │ └── 1200M_32f.ckpt │ └── vae │ ├── config.json │ └── vae.ckpt ├── validation │ └── validation.zip └── gradio_scene ├── scene.mp4 └── scene.jsonl
3. 運(yùn)行 Web Demo:
使用以下命令啟動(dòng) Web Demo:
python mineworld.py --scene "path/to/scene.mp4" --model_ckpt "path/to/ckpt" --config "path/to/config"
訪問本地或公共 URL,通過網(wǎng)頁進(jìn)行交互。
可以選擇初始幀、控制相機(jī)移動(dòng),并執(zhí)行游戲動(dòng)作(如跳躍、移動(dòng)等)。
4. 本地推理:
使用以下命令進(jìn)行本地推理:
python inference.py --data_root "/path/to/validation/dataset" --model_ckpt "path/to/ckpt" --config "path/to/config" --demo_num 1 --frames 15 --accelerate-algo 'naive' --top_p 0.8 --output_dir "path/to/output"
計(jì)算評(píng)估指標(biāo):
bash scripts/setup_metrics.sh bash scripts/compute_metrics.sh
github:https://github.com/microsoft/MineWorld
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺(tái)










