StarVector:用于生成可縮放矢量圖形的開(kāi)源多模態(tài)視覺(jué)模型
StarVector是什么?
StarVector 是一種由 ServiceNow Research、Mila - Quebec ai Institute 和 ETS Montreal 聯(lián)合開(kāi)發(fā)的新型開(kāi)源多模態(tài)視覺(jué)-語(yǔ)言模型,專門用于生成可縮放矢量圖形(SVG)。

StarVector核心功能
圖像到 SVG 的轉(zhuǎn)換(Image-to-SVG):能夠?qū)D像直接轉(zhuǎn)換為 SVG 代碼,實(shí)現(xiàn)圖像的矢量化。
文本到 SVG 的生成(Text-to-SVG):可以根據(jù)文本指令生成相應(yīng)的 SVG 圖形。
StarVector技術(shù)特點(diǎn)
多模態(tài)架構(gòu):StarVector 采用多模態(tài)架構(gòu),能夠同時(shí)處理圖像和文本信息,將視覺(jué)和語(yǔ)言模型無(wú)縫集成。
直接操作 SVG 代碼空間:與一些中間表示方法不同,StarVector 直接在 SVG 代碼空間中操作,生成標(biāo)準(zhǔn)的、可編輯的 SVG 代碼。
大規(guī)模數(shù)據(jù)集訓(xùn)練:StarVector 在包含超過(guò) 200 萬(wàn)個(gè) SVG 樣本的 SVG-Stack 數(shù)據(jù)集上進(jìn)行訓(xùn)練,確保模型能夠泛化到各種矢量化任務(wù)。
兩種規(guī)模模型:提供 StarVector-1B(包含 10 億參數(shù))和 StarVector-8B(包含 80 億參數(shù))兩種模型,以滿足不同計(jì)算資源和性能需求。
StarVector架構(gòu)與原理
圖像編碼器:使用 Vision Transformer(ViT)處理圖像,將圖像分割成小塊并依次處理。
LLM 適配器:將圖像編碼器生成的嵌入向量非線性投影到視覺(jué)標(biāo)記,以便與語(yǔ)言模型集成。
Transformer 解碼器架構(gòu):將視覺(jué)標(biāo)記或文本標(biāo)記序列映射到 SVG 代碼。
StarVector性能表現(xiàn)
在圖像到 SVG 和文本到 SVG 的任務(wù)中,StarVector 的性能優(yōu)于現(xiàn)有模型,例如在 SVG-Bench 基準(zhǔn)測(cè)試中,StarVector-8B 在多個(gè)指標(biāo)上均優(yōu)于 GPT-4 Vision(2023)和 Potrace 等模型。
在 SVG-Diagrams 數(shù)據(jù)集的圖像矢量化任務(wù)中,StarVector-8B 在 DinoScore 和 LPIPS 等指標(biāo)上表現(xiàn)優(yōu)異。
StarVector應(yīng)用場(chǎng)景
設(shè)計(jì)與創(chuàng)意領(lǐng)域:幫助設(shè)計(jì)師快速生成 SVG 文件,提高設(shè)計(jì)效率。
技術(shù)繪圖與圖表生成:能夠生成復(fù)雜的技術(shù)圖表和圖形,適用于工程、科學(xué)等領(lǐng)域。
StarVector相關(guān)鏈接
項(xiàng)目地址:https://starvector.github.io/
StarVector GitHub 倉(cāng)庫(kù):https://github.com/starvector
StarVector 論文:https://arxiv.org/html/2312.11556v3
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開(kāi)源AI應(yīng)用平臺(tái)










