StarVector：用于生成可縮放矢量圖形的開(kāi)源多模態(tài)視覺(jué)模型

映技派于2025-03-22發(fā)布在Ai產(chǎn)品

StarVector是什么？

StarVector 是一種由 ServiceNow Research、Mila - Quebec ai Institute 和 ETS Montreal 聯(lián)合開(kāi)發(fā)的新型開(kāi)源多模態(tài)視覺(jué)-語(yǔ)言模型，專門用于生成可縮放矢量圖形（SVG）。

StarVector：用于生成可縮放矢量圖形的開(kāi)源多模態(tài)視覺(jué)模型.webp

StarVector核心功能

圖像到 SVG 的轉(zhuǎn)換（Image-to-SVG）：能夠?qū)D像直接轉(zhuǎn)換為 SVG 代碼，實(shí)現(xiàn)圖像的矢量化。
文本到 SVG 的生成（Text-to-SVG）：可以根據(jù)文本指令生成相應(yīng)的 SVG 圖形。

StarVector技術(shù)特點(diǎn)

多模態(tài)架構(gòu)：StarVector 采用多模態(tài)架構(gòu)，能夠同時(shí)處理圖像和文本信息，將視覺(jué)和語(yǔ)言模型無(wú)縫集成。
直接操作 SVG 代碼空間：與一些中間表示方法不同，StarVector 直接在 SVG 代碼空間中操作，生成標(biāo)準(zhǔn)的、可編輯的 SVG 代碼。
大規(guī)模數(shù)據(jù)集訓(xùn)練：StarVector 在包含超過(guò) 200 萬(wàn)個(gè) SVG 樣本的 SVG-Stack 數(shù)據(jù)集上進(jìn)行訓(xùn)練，確保模型能夠泛化到各種矢量化任務(wù)。
兩種規(guī)模模型：提供 StarVector-1B（包含 10 億參數(shù)）和 StarVector-8B（包含 80 億參數(shù)）兩種模型，以滿足不同計(jì)算資源和性能需求。

StarVector架構(gòu)與原理

圖像編碼器：使用 Vision Transformer（ViT）處理圖像，將圖像分割成小塊并依次處理。
LLM 適配器：將圖像編碼器生成的嵌入向量非線性投影到視覺(jué)標(biāo)記，以便與語(yǔ)言模型集成。
Transformer 解碼器架構(gòu)：將視覺(jué)標(biāo)記或文本標(biāo)記序列映射到 SVG 代碼。

StarVector性能表現(xiàn)

在圖像到 SVG 和文本到 SVG 的任務(wù)中，StarVector 的性能優(yōu)于現(xiàn)有模型，例如在 SVG-Bench 基準(zhǔn)測(cè)試中，StarVector-8B 在多個(gè)指標(biāo)上均優(yōu)于 GPT-4 Vision（2023）和 Potrace 等模型。

在 SVG-Diagrams 數(shù)據(jù)集的圖像矢量化任務(wù)中，StarVector-8B 在 DinoScore 和 LPIPS 等指標(biāo)上表現(xiàn)優(yōu)異。