吊打pika!Google推出時空擴散模型的新型ai模型Lumiere

2024年2月6日 21点热度 0人点赞

來源:Lumiere

Lumiere創建的視頻展示了逼真的運動,甚至可以使用圖像和其他視頻作為輸入來改善結果。在題為《用於視頻生成的時空擴散模型》的論文中揭示,Lumiere的工作方式與現有的視頻生成模型不同。它一次性生成視頻的時間持續,而現有的模型則通過合成關鍵幀,然後進行時間超分辨率。

簡單來說,Lumiere關註圖像中物體的運動,而以前的系統則通過已經發生運動的關鍵幀進行拼接視頻。

該模型能夠生成最高80幀的視頻。相比之下,Stability的Stable Video Diffusion分別為14和25幀。幀數越多,視頻的運動就越流暢。

Lumiere文生視頻

1.文生視頻

Pika、Meta和Runway等公司的一樣,Lumiere同樣具備文生視頻功能,從動圖可看到運動相對較為流暢自然。

lumiere圖生視頻

2.圖生視頻

lumiere允許用戶上傳一張圖片並輸入不同的指令讓靜態的圖片直接生成視頻,比如讓一幅畫裡的女孩笑起來,讓雲朵飄動。

lumiere程序化生成

3.程式化生成

lumiere可以根據用戶上傳的圖片作為參考元素,根據圖片的特征結合提示詞去生成和原圖片有相似元素的視頻

lumiere圖片的局部動態化

3.局部動態

lumiere支持針對圖片的特定元素或部分區域進行視頻生成,比如讓火焰躍動,讓煙霧翻滾,隻需要一個指令“animate”。

lumiere視頻編輯

4.視頻編輯

lumiere可以對上傳的視頻進行局部編輯,比如給視頻中的人直接替換一套新衣服,給蝸牛的殼加上不同的花紋色彩。

據Google團隊稱,Lumiere在各種測試中均優於Pika、Meta和Runway等公司的競爭對手視頻生成模型,包括零樣本試驗。

研究人員還聲稱,Lumiere的輸出可以用於內容創作任務和視頻編輯,包括使用經過微調的文本到圖像模型權重進行視頻修補和風格化生成(模仿所展示的藝術風格)。

為了達到這個目的,Lumiere利用了一種新的架構,稱為時空U-Net。這通過模型的單次傳遞一次性生成整個視頻的時間持續。

Google團隊寫道,這種新穎的方法提高了輸出的一致性。論文中寫道:“通過部署空間和(重要的是)時間的降采樣和升采樣,並利用預訓練的文本到圖像擴散模型,我們的模型通過在多個時空尺度上處理來直接生成全幀率、低分辨率的視頻。”

Lumiere項目的目標是創建一個系統,使初學者更容易創建視頻內容。

然而,論文承認了或許存在濫用的風險,特別是警告Lumiere等模型可能被用來創建虛假或有害的內容。

“我們認為,開發和應用檢測偏見和惡意用例的工具是至關重要的,以確保安全和公平的使用,”論文中寫道。

截至撰寫本文時,Google尚未向公眾提供該模型。但是,您可以在GitHub上的展示頁面上探索各種示例生成。