Qwen-Image:阿里云通義千問(wèn)團(tuán)隊(duì)開(kāi)源的圖形海報(bào)生成模型
Qwen-Image 是阿里通義千問(wèn)團(tuán)隊(duì)在 2025 年 8 月 5 日開(kāi)源的圖像生成基礎(chǔ)模型,參數(shù)規(guī)模 200 億,采用 MMDiT 架構(gòu)。它在復(fù)雜文本渲染和精準(zhǔn)圖像編輯方面表現(xiàn)突出,尤其擅長(zhǎng)生成大量精準(zhǔn)的中文,也支持中文提示詞,在 LongText-Bench、ChineseWord 等中文專項(xiàng)測(cè)試中領(lǐng)先很多。

這個(gè)模型支持中英雙語(yǔ),能處理不同字體、超長(zhǎng)段落和復(fù)雜的圖文布局,可生成海報(bào)、ppt 等多種場(chǎng)景的圖像,還能進(jìn)行風(fēng)格遷移、增減物體、調(diào)整姿態(tài)等圖像編輯。它能應(yīng)用在廣告設(shè)計(jì)、影視制作、游戲開(kāi)發(fā)、教育培訓(xùn)等多個(gè)行業(yè)。用戶可以在 QwenChat(chat.qwen.ai)里選圖像生成功能來(lái)體驗(yàn),既能生成海報(bào)、PPT 頁(yè)面、商品宣傳圖等,也能對(duì)圖像做各種編輯,給設(shè)計(jì)師提供了有力工具。
主要特性
文本渲染能力強(qiáng):支持多行布局、段落級(jí)文本生成和細(xì)節(jié)呈現(xiàn),中英文都能高保真輸出,在 LongText-Bench、ChineseWord 和 TextCraft 等測(cè)試中表現(xiàn)很好,中文文本渲染比現(xiàn)有先進(jìn)模型好很多,能生成不同語(yǔ)種、風(fēng)格的文字,還能寫(xiě)毛筆字,或者直接生成帶文本和圖像的 PPT 頁(yè)面。
圖像編輯一致性好:通過(guò)加強(qiáng)的多任務(wù)訓(xùn)練,編輯時(shí)能保持視覺(jué)和語(yǔ)義上的連貫,支持風(fēng)格遷移、增刪改、細(xì)節(jié)增強(qiáng)、文字編輯、調(diào)整人物姿態(tài)等操作。
跨基準(zhǔn)性能佳:在通用圖像生成的 GenEval、DPG 和 OneIG-Bench,以及圖像編輯的 GEdit、ImgEdit 和 GSO 等多個(gè)公開(kāi)測(cè)試中,都取得了頂尖性能。

核心組件
Qwen2.5-VL 多模態(tài)大語(yǔ)言模型:作為條件編碼器,從文本中提取特征,根據(jù)系統(tǒng)提示詳細(xì)描述物體和背景的顏色、數(shù)量、文字等,為圖像生成提供依據(jù),讓生成的內(nèi)容更精細(xì)。
Wan-2.1 視頻生成模型的分自編碼器(VAE):相當(dāng)于圖像分詞器,能把輸入圖像壓縮成緊湊的潛在表示,推理時(shí)再解碼還原。團(tuán)隊(duì)凍結(jié)了編碼器,只微調(diào)解碼器,讓圖像細(xì)節(jié)更突出。
多模態(tài)擴(kuò)散 Transformer(MMDiT):作為主干擴(kuò)散模型,在文本引導(dǎo)下處理噪聲和圖像潛在表示的關(guān)系,加入多模態(tài)可擴(kuò)展 RoPE 方法,幫助區(qū)分圖像和文本信息,既能生成高分辨率圖像,又能準(zhǔn)確生成文字。
Qwen-Image技術(shù)架構(gòu)
MMDiT 架構(gòu):用多模態(tài)擴(kuò)散變換器,實(shí)現(xiàn)文本和圖像的深度融合。
單編碼器雙解碼器的 VAE:負(fù)責(zé)把圖像壓縮成緊湊的潛在表示,生成后再解碼成像素。通過(guò)調(diào)整重建損失和感知損失的平衡,能逼真還原圖像細(xì)節(jié)。
多模態(tài)可擴(kuò)展旋轉(zhuǎn)位置編碼(MSRoPE):把文本信息在圖像網(wǎng)格的 “對(duì)角線” 上編碼,既保持文本獨(dú)立性,又能利用圖像分辨率縮放的優(yōu)勢(shì)。

訓(xùn)練策略
采用多階段、漸進(jìn)式的預(yù)訓(xùn)練:從低分辨率到高分辨率,從通用內(nèi)容到專門(mén)內(nèi)容,從海量數(shù)據(jù)到精煉數(shù)據(jù)逐步訓(xùn)練。
訓(xùn)練后期用監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL):用人工精選的高質(zhì)量數(shù)據(jù)微調(diào),還通過(guò) DPO 等技術(shù)讓模型學(xué)習(xí)人類偏好。
應(yīng)用場(chǎng)景
廣告設(shè)計(jì):根據(jù)品牌風(fēng)格快速生成高質(zhì)量圖片,支持風(fēng)格轉(zhuǎn)換和細(xì)節(jié)優(yōu)化,幫設(shè)計(jì)師快速試多種效果,滿足客戶需求。
影視制作:用于前期概念圖、場(chǎng)景預(yù)設(shè)和角色設(shè)計(jì),縮短制作周期,降低成本。
電商視覺(jué):商家能快速生成產(chǎn)品展示圖、虛擬試穿圖和營(yíng)銷素材,提升用戶體驗(yàn)和購(gòu)買率。
海報(bào)制作:根據(jù)文字和設(shè)計(jì)要求生成有沖擊力、藝術(shù)感的海報(bào)(如電影、活動(dòng)海報(bào)),適配不同風(fēng)格和主題。
PPT制作:生成企業(yè)級(jí)PPT頁(yè)面,采用星空藍(lán)主色調(diào),搭配流動(dòng)科技線條和微光粒子特效,畫(huà)面專業(yè)現(xiàn)代,支持多種風(fēng)格和布局。
性能表現(xiàn)
通用圖像生成:在 GenEval、DPG 和 OneIG-Bench 等測(cè)試中表現(xiàn)優(yōu)秀。
圖像編輯:在 GEdit、ImgEdit 和 GSO 等專業(yè)測(cè)試中性能頂尖。
文本渲染:在 LongText-Bench、ChineseWord 和 TextCraft 等測(cè)試中能力突出,尤其中文文本渲染遠(yuǎn)超現(xiàn)有頂尖模型。
Qwen-Image優(yōu)勢(shì)
中文支持更好:專門(mén)優(yōu)化中文,渲染效果比 DALL-E 好很多。
完全免費(fèi):不用付費(fèi)訂閱,還能在本地部署。
開(kāi)源透明:代碼公開(kāi),可自定義修改。
編輯功能更強(qiáng):支持更多樣的圖像編輯操作。
無(wú)使用限制:不受 API 調(diào)用次數(shù)限制。
Qwen-Image使用方法
環(huán)境準(zhǔn)備:安裝最新版本的 diffusers。
基礎(chǔ)代碼:
from diffusers import DiffusionPipeline
import torch
model_name = "Qwen/Qwen-Image"
if torch.cuda.is_available():
torch_dtype = torch.bfloat16
device = "cuda"
else:
torch_dtype = torch.float32
device = "cpu"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)
prompt = '''一個(gè)穿著"QWEN"標(biāo)志T恤的中國(guó)美女正拿著黑色馬克筆面向鏡頭微笑。她身后的玻璃板上手寫(xiě)體寫(xiě)著"歡迎使用Qwen-Image,一款強(qiáng)大的圖像基礎(chǔ)模型"'''
aspect_ratios = {
"1:1": (1328, 1328),
"16:9": (1664, 928),
"9:16": (928, 1664),
"4:3": (1472, 1140),
"3:4": (1140, 1472)
}
width, height = aspect_ratios["16:9"]
image = pipe(
prompt=prompt + "超清,4K,電影級(jí)構(gòu)圖",
width=width,
height=height,
num_inference_steps=50,
true_cfg_scale=4.0,
generator=torch.Generator(device=device).manual_seed(42)
).images[0]
image.save("qwen_image_example.png")硬件要求:推薦用 NVIDIA GPU(8GB 以上顯存),CPU 模式生成速度較慢,但也能使用。
?Qwen-Image官方介紹:https://qwenlm.github.io/zh/blog/qwen-image/
?Qwen-Image模型:https://huggingface.co/Qwen/Qwen-Image
?在線使用:https://chat.qwen.ai/(選輸入框下面的圖像生成)
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開(kāi)源AI應(yīng)用平臺(tái)










