Hunyuan-Large-Vision：騰訊混元視覺模型家族中的多模態(tài)理解模型

映技派于2025-08-13發(fā)布在Ai產(chǎn)品

騰訊推出的 Hunyuan-Large-Vision 是混元視覺模型家族中的多模態(tài)理解模型。它采用 MoE 架構(gòu)，由數(shù)十億參數(shù)的原生分辨率混元 ViT 視覺編碼器、MLP 連接器模塊，以及 389B 參數(shù)和 52B 激活參數(shù)的 MoE 語言模型組成。支持任意分辨率的圖像、視頻、3D 空間輸入，尤其加強(qiáng)了多語言場景的理解能力，能用于拍照解題、視頻通話、視頻理解和文案創(chuàng)作等場景。

?? 模型架構(gòu)

視覺編碼器：數(shù)十億參數(shù)的原生分辨率混元 ViT 視覺編碼器，專為多模態(tài)任務(wù)優(yōu)化，支持原生分辨率輸入，能從各種尺寸的圖片和視頻中精準(zhǔn)捕捉視覺信息。
MLP 連接器模塊：采用自適應(yīng)下采樣機(jī)制設(shè)計(jì)，可高效壓縮視覺特征，連接視覺編碼器和語言模型。
MoE 語言模型：包含 389B 參數(shù)和 52B 激活參數(shù)，有很強(qiáng)的多語言理解和推理能力。

?? 性能參數(shù)

在國際大模型競技場 “LMArena Vision 排行榜” 上得 1256 分，排第五，是國內(nèi)模型里的第一名，性能突出。在 OpenCompass 多模態(tài)學(xué)術(shù)評測集的多個(gè)常用學(xué)術(shù)評測中，平均分 79.5，在視覺推理、視頻理解、三維空間理解等復(fù)雜任務(wù)中表現(xiàn)很好。

?? 功能特點(diǎn)

多模態(tài)輸入支持：能處理任意分辨率的圖像、視頻、3D 空間等多種視覺信息。
強(qiáng)大的多語言能力：重點(diǎn)提升了對多語言場景的理解，能準(zhǔn)確理解不同語言描述的內(nèi)容，并做好分析和處理。
技術(shù)優(yōu)勢
先進(jìn)的架構(gòu)設(shè)計(jì)：創(chuàng)新的 MoE 架構(gòu)平衡了計(jì)算效率和性能，通過共享專家和專門專家的混合路由策略，提高了訓(xùn)練效率和模型性能。
高質(zhì)量數(shù)據(jù)支持：預(yù)訓(xùn)練時(shí)用了大量高質(zhì)量多模態(tài)數(shù)據(jù)，包括經(jīng)特定流程篩選和標(biāo)注的圖像、視頻數(shù)據(jù)，為模型學(xué)習(xí)提供了豐富素材。

?? 應(yīng)用場景

拍照解題：用戶上傳圖片后，模型可根據(jù)內(nèi)容解答，比如識別植物、解數(shù)學(xué)題等。
視頻通話：能實(shí)時(shí)分析視頻內(nèi)容，提供相關(guān)信息或互動，比如識別通話雙方身份、分析場景等。
視頻理解與文案創(chuàng)作：可以總結(jié)、分析視頻，生成相關(guān)文案，還能根據(jù)視頻內(nèi)容進(jìn)行創(chuàng)意創(chuàng)作，比如寫視頻腳本等。