CreatiDesign模型:用于創(chuàng)意平面設(shè)計(jì)的統(tǒng)一多條件擴(kuò)散變換器
CreatiDesign 是復(fù)旦大學(xué)和字節(jié)跳動(dòng)團(tuán)隊(duì)合作開(kāi)發(fā)的一款高精度、多模態(tài)、可編輯的圖形設(shè)計(jì)生成模型。它能夠高精度地生成圖形設(shè)計(jì),同時(shí)處理多種元素,包括主視覺(jué)元素、輔助裝飾和文本內(nèi)容,解決了傳統(tǒng)方法在多條件輸入時(shí)的不足。通過(guò)精細(xì)解耦和獨(dú)立控制,CreatiDesign 讓設(shè)計(jì)更加可控、一致。
這個(gè)模型采用創(chuàng)新的多模態(tài)注意力機(jī)制,還能自動(dòng)合成數(shù)據(jù),因此在多個(gè)評(píng)估標(biāo)準(zhǔn)上都超過(guò)了現(xiàn)有的頂尖水平。它不僅提高了設(shè)計(jì)效率,還讓用戶(hù)可以在已有設(shè)計(jì)的基礎(chǔ)上靈活修改,比如添加新元素或調(diào)整文本,同時(shí)保持整體設(shè)計(jì)的協(xié)調(diào)和完整。

模型架構(gòu)
CreatiDesign 采用 MM-DiT(多模態(tài)擴(kuò)散變換器)框架,通過(guò)簡(jiǎn)化架構(gòu)實(shí)現(xiàn)了多種不同條件的協(xié)同控制。主要特點(diǎn)如下:
多主體圖像條件:用戶(hù)可以輸入多個(gè)主視覺(jué)元素(如產(chǎn)品圖、LOGO等),并自由擺放。這些元素經(jīng)過(guò)編碼器處理后生成主視覺(jué)token,用于后續(xù)生成。
語(yǔ)義布局條件:輔助元素或文本的語(yǔ)義描述通過(guò)T5文本編碼器轉(zhuǎn)換為語(yǔ)義特征token,空間位置信息經(jīng)傅立葉變換后與語(yǔ)義特征拼接,形成布局token。
全局描述:用戶(hù)還可以輸入整體描述,由T5編碼為全局描述token,用于指導(dǎo)整體內(nèi)容和風(fēng)格。
多模態(tài)注意力機(jī)制:在每一層Transformer中,采用多模態(tài)注意力(MM-Attention)機(jī)制,使不同模態(tài)的token深度融合,實(shí)現(xiàn)多條件的聯(lián)合建模和控制。
獨(dú)立可控性
CreatiDesign 提出了兩種專(zhuān)屬注意力掩碼機(jī)制,增強(qiáng)每個(gè)條件的獨(dú)立可控性:
主體注意力掩碼(Subject Attention Mask):主體token僅與指定區(qū)域內(nèi)的圖像token交互,與布局token、全局描述token及無(wú)關(guān)區(qū)域的圖像token完全隔離,確保主體內(nèi)容高度還原。
布局注意力掩碼(Layout Attention Mask):每個(gè)布局token僅與指定區(qū)域內(nèi)的圖像token交互,防止布局元素之間語(yǔ)義串?dāng)_。
數(shù)據(jù)集
CreatiDesign 構(gòu)建了包含40萬(wàn)樣本的大規(guī)模多條件標(biāo)注數(shù)據(jù)集,滿(mǎn)足實(shí)際設(shè)計(jì)需求。此外,還提出了全自動(dòng)平面設(shè)計(jì)數(shù)據(jù)合成流程,包括主題生成、文本圖層渲染和基于前景的圖像生成。
應(yīng)用場(chǎng)景
CreatiDesign 可以生成各種平面設(shè)計(jì)圖,如電影海報(bào)、品牌促銷(xiāo)、產(chǎn)品廣告和社交媒體圖。它還支持多輪編輯,用戶(hù)可以在已有設(shè)計(jì)結(jié)果上靈活插入新文本或主體,或修改文本內(nèi)容,模型能夠精準(zhǔn)編輯指定區(qū)域,同時(shí)保持非編輯區(qū)域的內(nèi)容不變。
優(yōu)勢(shì)
相比以往的可控?cái)U(kuò)散模型,CreatiDesign 在多條件異質(zhì)信息統(tǒng)一建模、多條件精細(xì)解耦與區(qū)域獨(dú)立控制以及大規(guī)模高質(zhì)量數(shù)據(jù)支持等方面表現(xiàn)出色。它解決了以往模型在處理圖形設(shè)計(jì)時(shí)存在的“偏科”或缺乏精準(zhǔn)可控性的問(wèn)題。
項(xiàng)目鏈接
技術(shù)論文:https://arxiv.org/pdf/2505.19114
項(xiàng)目主頁(yè):https://huizhang0812.github.io/CreatiDesign/
Github:https://github.com/HuiZhang0812/CreatiDesign
HuggingFace:https://huggingface.co/datasets/HuiZhang0812/CreatiDesign_dataset
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開(kāi)源AI應(yīng)用平臺(tái)










