UniversalRAG：跨模態(tài)檢索的新框架

UniversalRAG于2025-05-02發(fā)布在Ai產(chǎn)品

UniversalRAG是什么？

UniversalRAG 是一種新型的檢索增強(qiáng)生成RAG框架，它能檢索文本、圖像和視頻等多種類型的內(nèi)容，還能根據(jù)需要選擇不同大小的信息塊，比如段落、文檔、視頻片段或完整視頻。這個(gè)框架里有個(gè)“模態(tài)感知路由器”，可以根據(jù)需求自動(dòng)挑選最合適的內(nèi)容類型，避免偏向某種特定類型。它還能根據(jù)不同任務(wù)的需要，靈活選擇是否需要訓(xùn)練來優(yōu)化檢索效果。經(jīng)過測試，UniversalRAG 在多個(gè)測試場景中都比傳統(tǒng)的系統(tǒng)表現(xiàn)更好，檢索結(jié)果更準(zhǔn)確、更有效。

UniversalRAG：跨模態(tài)檢索的新框架.webp

核心特點(diǎn)

模態(tài)感知路由機(jī)制：傳統(tǒng)的 RAG 方法通常將所有模態(tài)的數(shù)據(jù)強(qiáng)行嵌入到一個(gè)統(tǒng)一的表示空間中，這會(huì)導(dǎo)致“模態(tài)差距”問題，即檢索傾向于偏向與查詢相同模態(tài)的內(nèi)容。UniversalRAG 通過引入模態(tài)感知路由機(jī)制，動(dòng)態(tài)識(shí)別最合適的模態(tài)特定語料庫，并在其中執(zhí)行針對性檢索。
多粒度檢索：除了模態(tài)差異，UniversalRAG 還考慮了數(shù)據(jù)粒度（即語料庫中每個(gè)條目的大小或單位）。它將每種模態(tài)細(xì)分為多個(gè)粒度級別，例如文本分為段落級和文檔級，視頻分為短片段和完整視頻。這種設(shè)計(jì)可以根據(jù)查詢的復(fù)雜性和范圍進(jìn)行精細(xì)化檢索。
多模態(tài)支持：UniversalRAG 支持文本、圖像和視頻等多種模態(tài)的檢索，能夠根據(jù)查詢的需求動(dòng)態(tài)選擇最合適的模態(tài)。

主要目標(biāo)

多模態(tài)知識(shí)檢索：設(shè)計(jì)模態(tài)感知路由機(jī)制，避免將所有模態(tài)強(qiáng)制納入統(tǒng)一表示空間導(dǎo)致的模態(tài)差距問題，可動(dòng)態(tài)識(shí)別最合適的模態(tài)特定語料庫并進(jìn)行針對性檢索。
多粒度知識(shí)整合：將每種模態(tài)組織到多個(gè)粒度級別，如段落級、文檔級、圖像級、剪輯級和視頻級等，能根據(jù)查詢的復(fù)雜性和范圍進(jìn)行微調(diào)檢索，更靈活地適應(yīng)不同查詢需求。

研究方法

模態(tài)感知路由機(jī)制：維護(hù)每個(gè)模態(tài)的獨(dú)立嵌入空間，引入路由模塊。該模塊可根據(jù)查詢的模態(tài)需求，動(dòng)態(tài)選擇最合適的模態(tài)特定語料庫進(jìn)行檢索，避免模態(tài)差距。
多粒度語料庫構(gòu)建：考慮數(shù)據(jù)的粒度，將每種模態(tài)組織到多個(gè)粒度級別，使系統(tǒng)能根據(jù)查詢的復(fù)雜程度和范圍，選擇合適粒度的知識(shí)源，提供更精確全面的答案。
路由模塊實(shí)現(xiàn)：

無訓(xùn)練路由：利用預(yù)訓(xùn)練的大型語言模型（如 GPT - 4o）的知識(shí)和推理能力，通過提供指令和上下文示例，對查詢進(jìn)行分類并選擇檢索類型。無需額外訓(xùn)練，但可能受限于預(yù)訓(xùn)練模型的偏見和知識(shí)邊界。
訓(xùn)練路由：通過構(gòu)造訓(xùn)練數(shù)據(jù)集對路由模塊進(jìn)行訓(xùn)練，使其能更準(zhǔn)確地預(yù)測給定查詢的最優(yōu)檢索類型，更好地適應(yīng)特定任務(wù)和數(shù)據(jù)集需求。

實(shí)驗(yàn)設(shè)置與結(jié)果

實(shí)驗(yàn)設(shè)置

在多個(gè)涵蓋不同模態(tài)（文本、圖像、視頻）和檢索設(shè)置的基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，使用多種大型視覺語言模型（LVLMs）作為生成器，并設(shè)置了多個(gè)基線方法進(jìn)行比較。

實(shí)驗(yàn)結(jié)果

UniversalRAG 在所有基準(zhǔn)數(shù)據(jù)集上的平均得分優(yōu)于所有基線方法，在需要多模態(tài)知識(shí)的查詢上表現(xiàn)突出。
訓(xùn)練路由模型在路由模塊性能方面優(yōu)于無訓(xùn)練路由模型，但無訓(xùn)練路由模型仍優(yōu)于其他基線方法，表明零樣本路由在 UniversalRAG 框架內(nèi)有效。
支持不同粒度的文本和視頻語料庫能顯著提高 UniversalRAG 的性能，相比沒有粒度控制的模型，其能根據(jù)查詢選擇合適粒度級別，生成更準(zhǔn)確答案。
在跨領(lǐng)域數(shù)據(jù)集上，GPT - 4o 作為無訓(xùn)練路由模型具有最高的路由準(zhǔn)確性和平均問答得分，而訓(xùn)練路由模型因訓(xùn)練數(shù)據(jù)中查詢多樣性不足存在過擬合問題。引入集成路由方法，結(jié)合訓(xùn)練路由和無訓(xùn)練路由的優(yōu)勢，在跨領(lǐng)域數(shù)據(jù)集上實(shí)現(xiàn)了更好的性能。

實(shí)驗(yàn)設(shè)置與結(jié)果.webp

優(yōu)勢

提高事實(shí)準(zhǔn)確性：通過從多種模態(tài)和粒度的知識(shí)源中檢索信息，UniversalRAG 能夠更全面地支持模型的響應(yīng)，減少因單一模態(tài)或粒度不足導(dǎo)致的錯(cuò)誤。
靈活性：該框架能夠靈活處理不同類型的查詢，無論是簡單的事實(shí)性問題還是復(fù)雜的分析性問題。
擴(kuò)展性：通過擴(kuò)展路由邏輯，UniversalRAG 可以無縫集成新的模態(tài)，而無需修改現(xiàn)有的模態(tài)特定檢索器。

項(xiàng)目主頁：https://universalrag.github.io/

論文：https://arxiv.org/abs/2504.20734