Google Veo

強(qiáng)大的視頻生成模型。它可以生成超過(guò)一分鐘的高質(zhì)量 1080p 分辨率視頻，具有多種電影和視覺(jué)風(fēng)格。

#Ai工具箱 #Ai視頻生成

Google Veo簡(jiǎn)介

Google Veo是我們迄今為止最強(qiáng)大的視頻生成模型。它可以生成超過(guò)一分鐘的高質(zhì)量 1080p 分辨率視頻，具有多種電影和視覺(jué)風(fēng)格。

它準(zhǔn)確地捕捉提示的細(xì)微差別和基調(diào)，并提供前所未有的創(chuàng)意控制水平——理解各種電影效果的提示，例如延時(shí)或風(fēng)景的空中拍攝。

我們的視頻生成模型將有助于創(chuàng)建使每個(gè)人都可以進(jìn)行視頻制作的工具。無(wú)論您是經(jīng)驗(yàn)豐富的電影制作人、有抱負(fù)的創(chuàng)作者，還是希望分享知識(shí)的教育家，Google Veo 都能為講故事、教育等帶來(lái)新的可能性。

在接下來(lái)的幾周內(nèi)，其中一些功能將通過(guò) Labs.google 上的新實(shí)驗(yàn)工具 VideoFX 向選定的創(chuàng)作者開(kāi)放。您現(xiàn)在可以加入候補(bǔ)名單。

將來(lái)，我們還將把 Google Veo 的一些功能引入 YouTube Shorts 和其他產(chǎn)品。

FireShot Capture 3000 - 我明白了 - 谷歌 DeepMind --- Veo - Google DeepMind - deepmind.google.jpg

Google Veo功能特征：

更好地理解語(yǔ)言和視覺(jué)：

為了產(chǎn)生連貫的場(chǎng)景，生成視頻模型需要準(zhǔn)確地解釋文本提示并將這些信息與相關(guān)的視覺(jué)參考相結(jié)合。

憑借對(duì)自然語(yǔ)言和視覺(jué)語(yǔ)義的深入理解，Google Veo 生成緊跟提示的視頻。它準(zhǔn)確地捕捉短語(yǔ)中的細(xì)微差別和語(yǔ)氣，在復(fù)雜的場(chǎng)景中呈現(xiàn)復(fù)雜的細(xì)節(jié)。

電影制作控制：

當(dāng)同時(shí)給出輸入視頻和編輯命令時(shí)，例如將皮劃艇添加到海岸線的航拍照片中，Google Veo 可以將此命令應(yīng)用于初始視頻并創(chuàng)建新的編輯視頻。

此外，它還支持遮罩編輯，當(dāng)您向視頻和文本提示添加遮罩區(qū)域時(shí)，可以更改視頻的特定區(qū)域。

Google Veo 還可以生成一個(gè)視頻，其中包含圖像作為輸入以及文本提示。通過(guò)提供參考圖像與文本提示相結(jié)合，它可以讓 Google Veo 生成遵循圖像風(fēng)格和用戶提示說(shuō)明的視頻。

該模型還能夠制作視頻剪輯并將其延長(zhǎng)至 60 秒甚至更長(zhǎng)。它可以通過(guò)單個(gè)提示來(lái)完成此操作，也可以通過(guò)提供一系列提示來(lái)完成此操作，這些提示一起講述一個(gè)故事。

視頻幀之間的一致性

保持視覺(jué)一致性對(duì)于視頻生成模型來(lái)說(shuō)是一個(gè)挑戰(zhàn)。角色、物體甚至整個(gè)場(chǎng)景可能會(huì)在幀之間閃爍、跳躍或意外變形，從而破壞觀看體驗(yàn)。

Google Veo 的尖端潛在擴(kuò)散變壓器減少了這些不一致的出現(xiàn)，使角色、物體和風(fēng)格保持在適當(dāng)?shù)奈恢?，就像在現(xiàn)實(shí)生活中一樣。

基于多年的視頻生成研究

Google Veo 建立在多年的生成視頻模型工作基礎(chǔ)上，包括生成查詢網(wǎng)絡(luò) (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere，以及我們的 Transformer 架構(gòu)和 Gemini。

為了幫助 Google Veo 更準(zhǔn)確地理解和遵循提示，我們還在訓(xùn)練數(shù)據(jù)中的每個(gè)視頻的字幕中添加了更多詳細(xì)信息。為了進(jìn)一步提高性能，該模型使用高質(zhì)量的壓縮視頻表示（也稱為潛在圖像），因此也更加高效。這些步驟提高了整體質(zhì)量并減少了生成視頻所需的時(shí)間。

智影AI

即夢(mèng)AI