Hunyuan-Large-Vision:騰訊混元視覺模型家族中的多模態(tài)理解模型
騰訊推出的 Hunyuan-Large-Vision 是混元視覺模型家族中的多模態(tài)理解模型。它采用 MoE 架構(gòu),由數(shù)十億參數(shù)的原生分辨率混元 ViT 視覺編碼器、MLP 連接器模塊,以及 389B 參數(shù)和 52B 激活參數(shù)的 MoE 語言模型組成。支持任意分辨率的圖像、視頻、3D 空間輸入,尤其加強(qiáng)了多語言場景的理解能力,能用于拍照解題、視頻通話、視頻理解和文案創(chuàng)作等場景。

?? 模型架構(gòu)
視覺編碼器:數(shù)十億參數(shù)的原生分辨率混元 ViT 視覺編碼器,專為多模態(tài)任務(wù)優(yōu)化,支持原生分辨率輸入,能從各種尺寸的圖片和視頻中精準(zhǔn)捕捉視覺信息。
MLP 連接器模塊:采用自適應(yīng)下采樣機(jī)制設(shè)計(jì),可高效壓縮視覺特征,連接視覺編碼器和語言模型。
MoE 語言模型:包含 389B 參數(shù)和 52B 激活參數(shù),有很強(qiáng)的多語言理解和推理能力。
?? 性能參數(shù)
在國際大模型競技場 “LMArena Vision 排行榜” 上得 1256 分,排第五,是國內(nèi)模型里的第一名,性能突出。在 OpenCompass 多模態(tài)學(xué)術(shù)評測集的多個(gè)常用學(xué)術(shù)評測中,平均分 79.5,在視覺推理、視頻理解、三維空間理解等復(fù)雜任務(wù)中表現(xiàn)很好。
?? 功能特點(diǎn)
多模態(tài)輸入支持:能處理任意分辨率的圖像、視頻、3D 空間等多種視覺信息。
強(qiáng)大的多語言能力:重點(diǎn)提升了對多語言場景的理解,能準(zhǔn)確理解不同語言描述的內(nèi)容,并做好分析和處理。
技術(shù)優(yōu)勢
先進(jìn)的架構(gòu)設(shè)計(jì):創(chuàng)新的 MoE 架構(gòu)平衡了計(jì)算效率和性能,通過共享專家和專門專家的混合路由策略,提高了訓(xùn)練效率和模型性能。
高質(zhì)量數(shù)據(jù)支持:預(yù)訓(xùn)練時(shí)用了大量高質(zhì)量多模態(tài)數(shù)據(jù),包括經(jīng)特定流程篩選和標(biāo)注的圖像、視頻數(shù)據(jù),為模型學(xué)習(xí)提供了豐富素材。
?? 應(yīng)用場景
拍照解題:用戶上傳圖片后,模型可根據(jù)內(nèi)容解答,比如識別植物、解數(shù)學(xué)題等。
視頻通話:能實(shí)時(shí)分析視頻內(nèi)容,提供相關(guān)信息或互動,比如識別通話雙方身份、分析場景等。
視頻理解與文案創(chuàng)作:可以總結(jié)、分析視頻,生成相關(guān)文案,還能根據(jù)視頻內(nèi)容進(jìn)行創(chuàng)意創(chuàng)作,比如寫視頻腳本等。
?? 體驗(yàn)入口
https://hunyuan.tencent.com/modelSquare/home/list?modelKey=VisionUnderstand
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺










