YOLO-World

騰訊AI實(shí)驗(yàn)室開發(fā)的一個(gè)實(shí)時(shí)目標(biāo)檢測工具，它能夠自動(dòng)識(shí)別和定位圖像中的各種對(duì)象

#Ai工具箱 #Ai開源項(xiàng)目

YOLO-World簡介

YOLO-World，騰訊ai實(shí)驗(yàn)室開發(fā)的一個(gè)實(shí)時(shí)目標(biāo)檢測工具，它能夠自動(dòng)識(shí)別和定位圖像中的各種對(duì)象。YOLO-World在速度和準(zhǔn)確性方面都優(yōu)于許多最先進(jìn)的方法。

YOLO-World 是下一代 YOLO 檢測器，旨在實(shí)時(shí)開放詞匯目標(biāo)檢測。YOLO-World在大規(guī)模視覺語言數(shù)據(jù)集（包括Objects365、GQA、Flickr30K和CC3M）上進(jìn)行了預(yù)訓(xùn)練，這使得YOLO-World具有強(qiáng)大的零樣本開放詞匯能力和圖像落地能力，無需訓(xùn)練即可進(jìn)行實(shí)時(shí)目標(biāo)檢測，即便某些物品之前沒有見過，YOLO-World適用于物體檢測和開放詞匯實(shí)例分割。

YOLO-World功能特點(diǎn)：

1、大規(guī)模學(xué)習(xí)：YOLO-World通過學(xué)習(xí)大量的圖片和對(duì)應(yīng)的描述（如物品名稱），獲得了豐富的視覺知識(shí)和語言知識(shí)，這使得它能識(shí)別出廣泛的物品。

該項(xiàng)目在包括Objects365、GQA、Flickr30K和CC3M在內(nèi)的大規(guī)模視覺-語言數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練，賦予了YOLO-World強(qiáng)大的零樣本開放詞匯能力和圖像中的定位能力。

2、快速準(zhǔn)確：YOLO-World在LVIS數(shù)據(jù)集上的零樣本評(píng)估中達(dá)到了35.4 AP，并且在V100上的處理速度為52.0 FPS，速度和準(zhǔn)確性均超過許多最先進(jìn)的方法。即使是在包含復(fù)雜場景的圖片中也能保持高準(zhǔn)確率。YOLO-World 聲稱比 GroundingDINO 快 20 倍。

3、零樣本檢測：最令人印象深刻的是，即便某些物品YOLO-World之前沒有見過，它也能憑借先前的學(xué)習(xí)和理解能力，通過圖片中的線索和上下文信息，成功識(shí)別和定位這些新物品，這意味著我們不必訓(xùn)練它來讓它檢測新的一類物體。我們只需要給出類名作為輸入文本提示，模型將返回這些對(duì)象的邊界框（如果存在）。

4、理解物體：YOLO-World不僅依靠視覺信息，還結(jié)合了語言信息。它理解人類的語言描述，這讓它能夠識(shí)別出即使是之前沒有直接見過的物體。

5、與現(xiàn)有的開放詞匯檢測方法相比，YOLO-World模型至少快 20 倍。每秒可以處理大約 52 幀。

6、在LVIS對(duì)象檢測數(shù)據(jù)集上設(shè)置了最先進(jìn)的新數(shù)據(jù)集。

MoneyPrinter

Media2Face