Tarsier
Tarsier簡(jiǎn)介
Tarsier是字節(jié)跳動(dòng)推出的一系列大規(guī)模視覺語言模型(LVLM),專注于視頻理解任務(wù),包括視頻描述、問答、定位和幻覺測(cè)試等功能。

Tarsier主要功能
視頻描述生成:Tarsier能生成高質(zhì)量的視頻描述,覆蓋視頻中的各種細(xì)節(jié),包括動(dòng)作、場(chǎng)景和情節(jié),幫助用戶更好地理解視頻內(nèi)容。
問答能力:Tarsier模型支持視頻問答功能,用戶可以基于視頻內(nèi)容提出問題,模型將提供相關(guān)的答案。
定位功能:檢測(cè)并定位視頻中特定事件發(fā)生的時(shí)間,支持多視頻段的定位,可以在視頻中識(shí)別和標(biāo)記特定對(duì)象或場(chǎng)景。
幻覺測(cè)試:通過優(yōu)化訓(xùn)練策略,Tarsier2顯著減少了模型生成虛假信息的可能性。
多語言支持:支持多種語言的視頻描述生成。
Tarsier應(yīng)用場(chǎng)景:
內(nèi)容創(chuàng)作:Tarsier可以幫助內(nèi)容創(chuàng)作者生成視頻描述,提升視頻的可訪問性和搜索引擎優(yōu)化(SEO)效果。
教育領(lǐng)域:在教育視頻中,Tarsier可以提供詳細(xì)的內(nèi)容描述,幫助學(xué)生更好地理解學(xué)習(xí)材料。
社交媒體:社交平臺(tái)可以利用Tarsier生成視頻內(nèi)容的自動(dòng)描述,增強(qiáng)用戶體驗(yàn)。
視頻監(jiān)控:在安全監(jiān)控領(lǐng)域,Tarsier可以分析視頻流并生成實(shí)時(shí)描述,幫助安全人員快速識(shí)別潛在威脅。
機(jī)器人:為指定任務(wù)生成詳細(xì)的步驟指令。
智能駕駛:幫助車輛識(shí)別道路情況,并輔助進(jìn)行決策。

Tarsier模型的最新版本Tarsier2在多個(gè)方面進(jìn)行了顯著的改進(jìn),特別是在數(shù)據(jù)量和多樣性方面。預(yù)訓(xùn)練數(shù)據(jù)從1100萬擴(kuò)展到4000萬視頻文本對(duì),增強(qiáng)了模型的學(xué)習(xí)能力。此外,Tarsier2在監(jiān)督微調(diào)階段引入了細(xì)粒度時(shí)間對(duì)齊,進(jìn)一步提高了視頻描述的準(zhǔn)確性和細(xì)節(jié)捕捉能力。通過直接偏好優(yōu)化(DPO)訓(xùn)練,Tarsier2能夠生成更符合人類偏好的視頻描述,減少生成幻覺的可能性。
在性能評(píng)估方面,Tarsier2在DREAM-1K基準(zhǔn)測(cè)試中表現(xiàn)出色,其F1分?jǐn)?shù)比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。在15個(gè)公共基準(zhǔn)測(cè)試中,Tarsier2取得了新的最佳結(jié)果,涵蓋視頻問答、視頻定位、幻覺測(cè)試和問答等功能,展示了其作為強(qiáng)大通用視覺語言模型的多功能性。

除了視頻描述之外,它還在問答、grounding和embodied intelligence等任務(wù)中展現(xiàn)出強(qiáng)大的性能。
論文:https://arxiv.org/abs/2501.07888
Code: https://github.com/bytedance/tarsier
Dataset: https://huggingface.co/datasets/omni-research/DREAM-1K
Demo: https://huggingface.co/spaces/omni-research/Tarsier2-7b
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺(tái)



