YOLO-World
YOLO-World簡介
YOLO-World,騰訊ai實(shí)驗(yàn)室開發(fā)的一個(gè)實(shí)時(shí)目標(biāo)檢測工具,它能夠自動(dòng)識(shí)別和定位圖像中的各種對(duì)象。YOLO-World在速度和準(zhǔn)確性方面都優(yōu)于許多最先進(jìn)的方法。
YOLO-World 是下一代 YOLO 檢測器,旨在實(shí)時(shí)開放詞匯目標(biāo)檢測。YOLO-World在大規(guī)模視覺語言數(shù)據(jù)集(包括Objects365、GQA、Flickr30K和CC3M)上進(jìn)行了預(yù)訓(xùn)練,這使得YOLO-World具有強(qiáng)大的零樣本開放詞匯能力和圖像落地能力,無需訓(xùn)練即可進(jìn)行實(shí)時(shí)目標(biāo)檢測,即便某些物品之前沒有見過,YOLO-World適用于物體檢測和開放詞匯實(shí)例分割。

YOLO-World功能特點(diǎn):
1、大規(guī)模學(xué)習(xí):YOLO-World通過學(xué)習(xí)大量的圖片和對(duì)應(yīng)的描述(如物品名稱),獲得了豐富的視覺知識(shí)和語言知識(shí),這使得它能識(shí)別出廣泛的物品。
該項(xiàng)目在包括Objects365、GQA、Flickr30K和CC3M在內(nèi)的大規(guī)模視覺-語言數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,賦予了YOLO-World強(qiáng)大的零樣本開放詞匯能力和圖像中的定位能力。
2、快速準(zhǔn)確:YOLO-World在LVIS數(shù)據(jù)集上的零樣本評(píng)估中達(dá)到了35.4 AP,并且在V100上的處理速度為52.0 FPS,速度和準(zhǔn)確性均超過許多最先進(jìn)的方法。即使是在包含復(fù)雜場景的圖片中也能保持高準(zhǔn)確率。YOLO-World 聲稱比 GroundingDINO 快 20 倍。
3、零樣本檢測:最令人印象深刻的是,即便某些物品YOLO-World之前沒有見過,它也能憑借先前的學(xué)習(xí)和理解能力,通過圖片中的線索和上下文信息,成功識(shí)別和定位這些新物品,這意味著我們不必訓(xùn)練它來讓它檢測新的一類物體。我們只需要給出類名作為輸入文本提示,模型將返回這些對(duì)象的邊界框(如果存在)。
4、理解物體:YOLO-World不僅依靠視覺信息,還結(jié)合了語言信息。它理解人類的語言描述,這讓它能夠識(shí)別出即使是之前沒有直接見過的物體。
5、與現(xiàn)有的開放詞匯檢測方法相比,YOLO-World模型至少快 20 倍。每秒可以處理大約 52 幀。
6、在LVIS對(duì)象檢測數(shù)據(jù)集上設(shè)置了最先進(jìn)的新數(shù)據(jù)集。
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺(tái)



