PosterCraft:高質(zhì)量海報(bào)生成框架
PosterCraft 是 2025 年 6 月由香港科技大學(xué)(廣州)、美團(tuán)、廈門大學(xué)和新加坡國立大學(xué)研究團(tuán)隊(duì)聯(lián)合提出的海報(bào)生成框架,PosterCraft通過文字精準(zhǔn)渲染與美學(xué)風(fēng)格優(yōu)化,結(jié)合區(qū)域感知校準(zhǔn)和強(qiáng)化學(xué)習(xí)技術(shù),增強(qiáng)海報(bào)的藝術(shù)完整性與整體協(xié)調(diào)性。同時(shí)借助視覺 - 語言反饋機(jī)制,經(jīng)多模態(tài)修正優(yōu)化美學(xué)效果。
在數(shù)據(jù)集構(gòu)建上,PosterCraft 開發(fā)了多個(gè)高質(zhì)量數(shù)據(jù)集,滿足不同文本渲染和海報(bào)生成需求,為符合人類審美標(biāo)準(zhǔn)的海報(bào)創(chuàng)作奠定基礎(chǔ)。

其核心功能包括:
精確文字渲染:在高質(zhì)量背景上準(zhǔn)確呈現(xiàn)多樣化文字,確保文字與背景和諧統(tǒng)一,解決文本渲染保真度不足的問題。
美學(xué)風(fēng)格優(yōu)化:利用區(qū)域感知校準(zhǔn)技術(shù),強(qiáng)化海報(bào)藝術(shù)完整性,保持文字準(zhǔn)確性,構(gòu)建文字與背景的和諧視覺關(guān)系。
美學(xué)偏好優(yōu)化:通過強(qiáng)化學(xué)習(xí)技術(shù),依據(jù)整體美學(xué)標(biāo)準(zhǔn)優(yōu)化輸出,減少字體渲染缺陷,使模型學(xué)習(xí)構(gòu)圖平衡、色彩和諧等高階美學(xué)偏好。
視覺 - 語言反饋:借助聯(lián)合視覺 - 語言調(diào)節(jié)機(jī)制,結(jié)合視覺信息與針對(duì)性文字建議進(jìn)行多模態(tài)修正,逐步優(yōu)化海報(bào)美學(xué)內(nèi)容與背景協(xié)調(diào)性。
PosterCraft 的工作流程分為四個(gè)階段:
文本渲染優(yōu)化:在自建的 Text-Render-2M 數(shù)據(jù)集(包含 200 萬高質(zhì)量文本渲染示例,支持多實(shí)例文本渲染及多樣化文本選擇)上大規(guī)模訓(xùn)練,提升模型文本渲染保真度。
海報(bào)風(fēng)格微調(diào):使用 HQ-Poster-100K 數(shù)據(jù)集(10 萬張高質(zhì)量海報(bào)集合,采用先進(jìn)過濾技術(shù)、多模態(tài)評(píng)分系統(tǒng)等)和區(qū)域感知校準(zhǔn)策略微調(diào),使模型學(xué)習(xí)文本與背景的和諧共存。
美學(xué)文本強(qiáng)化學(xué)習(xí):采用基于 best-of-n 的 DPO 策略,讓模型從多個(gè)版本海報(bào)的對(duì)比中學(xué)習(xí)構(gòu)圖平衡、色彩和諧等高階美學(xué)偏好。
視覺 - 語言反饋:引入基于 VLM 的多模態(tài)反饋,在生成過程中對(duì)內(nèi)容和風(fēng)格進(jìn)行迭代精煉與修正,生成后可根據(jù)設(shè)計(jì)建議調(diào)整優(yōu)化。
該框架的技術(shù)優(yōu)勢體現(xiàn)在:
統(tǒng)一框架設(shè)計(jì):摒棄 “規(guī)劃 - 生成” 模塊化流程,實(shí)現(xiàn)文本輸入到海報(bào)輸出的端到端生成,保證視覺連貫性。
自動(dòng)化數(shù)據(jù)集構(gòu)建:為各優(yōu)化階段設(shè)計(jì)專屬全自動(dòng)數(shù)據(jù)集,解決數(shù)據(jù)稀缺問題。
級(jí)聯(lián)優(yōu)化策略:
大規(guī)模文本渲染優(yōu)化:利用高質(zhì)量數(shù)據(jù)集專注文本渲染,保證背景渲染能力。
區(qū)域感知校準(zhǔn):微調(diào)時(shí)對(duì)文本和非文本區(qū)域賦予不同權(quán)重,保留文本清晰度并強(qiáng)化藝術(shù)風(fēng)格。
基于偏好的強(qiáng)化學(xué)習(xí):通過 “最優(yōu) / 最差” 樣本對(duì)學(xué)習(xí),注入人類美學(xué)偏好。
多模態(tài)反饋循環(huán):推理時(shí)引入多模態(tài)生成修正建議,融入條件輸入迭代優(yōu)化結(jié)果。
測試表明,PosterCraft 在文本渲染準(zhǔn)確性、美學(xué)質(zhì)量和布局結(jié)構(gòu)等方面持續(xù)超越現(xiàn)有先進(jìn)方法,與商業(yè)系統(tǒng)相比也具競爭力。該模型能處理復(fù)雜提示并保持視覺一致性,無論長文本還是短提示都可生成高質(zhì)量海報(bào)。其優(yōu)勢在于從單一提示直接生成海報(bào),無需額外模塊或人工調(diào)整,為電影海報(bào)、活動(dòng)宣傳、產(chǎn)品推廣等場景提供快速高效的可擴(kuò)展解決方案,且不降低美學(xué)質(zhì)量。
相關(guān)資源鏈接:
GitHub:https://github.com/Ephemeral182/PosterCraft
項(xiàng)目官網(wǎng):https://ephemeral182.github.io/PosterCraft/
Huggingface:https://huggingface.co/PosterCraft
Huggingface demo:https://huggingface.co/spaces/Ephemeral182/PosterCraft
YouTube:https://www.youtube.com/watch?v=92wMU4D7qx0
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺(tái)










