CogView4:全球首個支持生成漢字的開源文生圖生成模型
CogView4是什么?
CogView4是由智譜AI于2025年3月4日發(fā)布的首個支持中英雙語提示詞的開源文生圖ai模型,也是全球首個支持生成漢字的開源文生圖模型,尤其擅長理解和遵循中文提示詞,能在畫面中生成漢字,非常適合做廣告、短視頻創(chuàng)作等。

CogView4主要特點
支持中英雙語輸入:CogView4能夠處理任意長度的中英文提示詞,并生成高質(zhì)量圖像。
漢字生成能力:該模型可以將漢字自然融入圖像中,特別適合廣告、短視頻等創(chuàng)意領域。
任意分辨率圖像生成:支持生成512×512到2048×2048范圍內(nèi)的任意分辨率圖像。
強大的語義對齊能力:在DPG-Bench基準測試中,CogView4的綜合評分排名第一,展現(xiàn)了其在復雜語義對齊和指令跟隨方面的卓越性能。
技術優(yōu)化:采用二維旋轉位置編碼(2D RoPE)和多階段訓練策略,包括基礎分辨率訓練、泛分辨率訓練、高質(zhì)量數(shù)據(jù)微調(diào)以及人類偏好對齊訓練。
顯存優(yōu)化與高效推理:通過模型CPU卸載和文本編碼器量化等技術,顯著降低了顯存占用。
開源與生態(tài)支持:遵循Apache 2.0協(xié)議,后續(xù)將支持ControlNet、ComfyUI等生態(tài)集成,并推出完整的微調(diào)工具包。

CogView4技術
架構:基于擴散模型結合Transformer架構,使用60億參數(shù)。
文本編碼器:采用雙語GLM-4編碼器,通過中英雙語圖文對進行訓練。
顯存優(yōu)化:通過模型CPU卸載和文本編碼器量化等技術,降低顯存占用,提升推理效率。
CogView4應用場景
CogView4特別適合需要中文創(chuàng)意的領域,例如廣告設計、短視頻制作、海報創(chuàng)作等,能夠?qū)⒅杏⑽淖址匀蝗谌氘嬅妗?/p>
廣告創(chuàng)意:生成帶有特定文字的海報、文案配圖等。
短視頻制作:根據(jù)視頻腳本或創(chuàng)意描述生成相應畫面。
藝術創(chuàng)作:輔助藝術家和設計師生成具有特定風格和意境的圖像。
教育領域:生成與教學內(nèi)容相關的圖像,如古詩文意境圖。
游戲開發(fā):根據(jù)游戲劇情和角色設定生成游戲畫面和角色形象。
其他創(chuàng)意領域:如漫畫創(chuàng)作、插畫設計、品牌宣傳等。
CogView4使用
1. 在線體驗
HuggingFace:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
ModelScope:https://modelscope.cn/models/ZhipuAI/CogView4-6B
2. 本地部署
如果需要在本地使用CogView4,可以通過以下步驟進行部署:
獲取模型代碼:訪問CogView4的GitHub倉庫,地址是:https://github.com/THUDM/CogView4。
硬件要求:CogView4模型需要較高的顯存,最低推薦使用12GB顯存的GPU。
安裝依賴:根據(jù)GitHub倉庫中的說明,安裝必要的Python依賴和環(huán)境。
運行模型:按照倉庫中的指南啟動模型,輸入提示詞生成圖像。
3. 模型微調(diào)
智譜計劃推出CogView4的微調(diào)工具包,用戶可以根據(jù)自己的需求對模型進行定制化訓練。例如,可以針對特定的廣告風格或品牌需求進行微調(diào),以生成更符合需求的圖像。
4. 通過Hugging Face使用
Hugging Face模型庫地址:https://huggingface.co/THUDM/CogView4-6B。
提交您的產(chǎn)品
Ai應用
Ai資訊
AI生圖
AI生視頻
開源AI應用平臺










