Lumiere

谷歌研究院開發(fā)的基于空間時間的文本到視頻擴(kuò)散模型。采用了創(chuàng)新的空間時間U-Net架構(gòu)，能夠一次性生成整個視頻的時間長度，確保了生成視頻的連貫性和逼真度。

#Ai工具箱 #Ai開源項(xiàng)目

Lumiere簡介

Lumiere是谷歌研究院團(tuán)隊(duì)開發(fā)的基于空間時間的文本到視頻擴(kuò)散模型。Lumiere采用了創(chuàng)新的空間時間U-Net架構(gòu)，該架構(gòu)通過模型中的單次傳遞一次性生成視頻的整個時間，不同于其他模型那樣逐幀合成視頻。確保了生成視頻的連貫性和逼真度，Lumiere可以輕松促進(jìn)廣泛的內(nèi)容創(chuàng)建任務(wù)和視頻編輯應(yīng)用程序，包括圖像到視頻、視頻修復(fù)和風(fēng)格化生成。

lumiere-video.github.io.jpg

Lumiere功能特點(diǎn)：

文本到視頻的擴(kuò)散模型： Lumiere能夠根據(jù)文本提示生成視頻，實(shí)現(xiàn)了從文本描述到視頻內(nèi)容的直接轉(zhuǎn)換。
圖像到視頻：該模型通過對第一幀進(jìn)行調(diào)節(jié)，將靜止圖像平滑地轉(zhuǎn)換為視頻。
空間時間U-Net架構(gòu)：與其他需要逐步合成視頻的模型不同，Lumiere能夠一次性完成整個視頻的制作。這種獨(dú)特的架構(gòu)允許Lumiere一次性生成整個視頻的時間長度，不同于其他模型那樣逐幀合成視頻。
全局時間一致性：由于其架構(gòu)的特點(diǎn)，Lumiere更容易實(shí)現(xiàn)視頻內(nèi)容的全局時間一致性，確保視頻的連貫性和逼真度。
多尺度空間時間處理： Lumiere通過在多個空間時間尺度上處理視頻來學(xué)習(xí)直接生成視頻，這是一種先進(jìn)的方法。
風(fēng)格化視頻生成：使用單個參考圖像，Lumiere可以按照目標(biāo)風(fēng)格生成視頻，這種能力在其他視頻生成模型中較為罕見。
廣泛的內(nèi)容創(chuàng)作和視頻編輯應(yīng)用： Lumiere支持多種內(nèi)容創(chuàng)作任務(wù)和視頻編輯應(yīng)用，如圖像到視頻、視頻修補(bǔ)和風(fēng)格化生成。
視頻樣式化編輯：使用文本基礎(chǔ)的圖像編輯方法，Lumiere可以對視頻進(jìn)行一致性的樣式編輯。
影像合成能力：當(dāng)圖像的一部分保持靜止而另一部分呈現(xiàn)運(yùn)動時，可以實(shí)現(xiàn)局部運(yùn)動效果，從而為靜止圖像增添迷人的美感。
視頻修復(fù)功能： Lumiere 可以根據(jù)文本提示對現(xiàn)有視頻的任意遮罩區(qū)域進(jìn)行動畫處理。這為視頻編輯、對象插入和/或刪除提供了有趣的可能性。

Google-Lumiere-1 (1).webp