首頁 > Ai導(dǎo)航 > Ai工具箱 > Ai開源項(xiàng)目

Tarsier

字節(jié)跳動(dòng)推出的一系列大規(guī)模視覺語言模型（LVLM），專注于視頻理解任務(wù)，包括視頻描述、問答、視頻定位、幻覺測(cè)試等功能。

#Ai工具箱 #Ai開源項(xiàng)目

訪問Tarsier

Tarsier簡(jiǎn)介

Tarsier是字節(jié)跳動(dòng)推出的一系列大規(guī)模視覺語言模型（LVLM），專注于視頻理解任務(wù)，包括視頻描述、問答、定位和幻覺測(cè)試等功能。

Tarsier主要功能

視頻描述生成：Tarsier能生成高質(zhì)量的視頻描述，覆蓋視頻中的各種細(xì)節(jié)，包括動(dòng)作、場(chǎng)景和情節(jié)，幫助用戶更好地理解視頻內(nèi)容。
問答能力：Tarsier模型支持視頻問答功能，用戶可以基于視頻內(nèi)容提出問題，模型將提供相關(guān)的答案。
定位功能：檢測(cè)并定位視頻中特定事件發(fā)生的時(shí)間，支持多視頻段的定位，可以在視頻中識(shí)別和標(biāo)記特定對(duì)象或場(chǎng)景。
幻覺測(cè)試：通過優(yōu)化訓(xùn)練策略，Tarsier2顯著減少了模型生成虛假信息的可能性。
多語言支持：支持多種語言的視頻描述生成。

Tarsier應(yīng)用場(chǎng)景：

內(nèi)容創(chuàng)作：Tarsier可以幫助內(nèi)容創(chuàng)作者生成視頻描述，提升視頻的可訪問性和搜索引擎優(yōu)化（SEO）效果。
教育領(lǐng)域：在教育視頻中，Tarsier可以提供詳細(xì)的內(nèi)容描述，幫助學(xué)生更好地理解學(xué)習(xí)材料。
社交媒體：社交平臺(tái)可以利用Tarsier生成視頻內(nèi)容的自動(dòng)描述，增強(qiáng)用戶體驗(yàn)。
視頻監(jiān)控：在安全監(jiān)控領(lǐng)域，Tarsier可以分析視頻流并生成實(shí)時(shí)描述，幫助安全人員快速識(shí)別潛在威脅。
機(jī)器人：為指定任務(wù)生成詳細(xì)的步驟指令。
智能駕駛：幫助車輛識(shí)別道路情況，并輔助進(jìn)行決策。

Tarsier模型的最新版本Tarsier2在多個(gè)方面進(jìn)行了顯著的改進(jìn)，特別是在數(shù)據(jù)量和多樣性方面。預(yù)訓(xùn)練數(shù)據(jù)從1100萬擴(kuò)展到4000萬視頻文本對(duì)，增強(qiáng)了模型的學(xué)習(xí)能力。此外，Tarsier2在監(jiān)督微調(diào)階段引入了細(xì)粒度時(shí)間對(duì)齊，進(jìn)一步提高了視頻描述的準(zhǔn)確性和細(xì)節(jié)捕捉能力。通過直接偏好優(yōu)化（DPO）訓(xùn)練，Tarsier2能夠生成更符合人類偏好的視頻描述，減少生成幻覺的可能性。

在性能評(píng)估方面，Tarsier2在DREAM-1K基準(zhǔn)測(cè)試中表現(xiàn)出色，其F1分?jǐn)?shù)比GPT-4o高出2.8%，比Gemini-1.5-Pro高出5.8%。在15個(gè)公共基準(zhǔn)測(cè)試中，Tarsier2取得了新的最佳結(jié)果，涵蓋視頻問答、視頻定位、幻覺測(cè)試和問答等功能，展示了其作為強(qiáng)大通用視覺語言模型的多功能性。