Stable Video Diffusion圖片轉視頻——Stability AI開源視頻模型

2024年2月6日 17点热度 0人点赞

我們前期介紹過Stable Diffusionstable diffusion模型是Stability AI開源的一個text-to-image的擴散模型,其模型在速度與質量上面有了質的突破,玩傢們可以在自己消費級GPU上面來運行此模型。

文生圖大模型已經火了很長一段時間了,但是隨著需求的不斷增加,對文生視頻的需求也越來越高,上期介紹的字節發佈的MagicVideo2,可以進行文本到視頻的生成,隻是由於沒有開源代碼或者線上鏈接進行試玩。而Stable Video Diffusion是Stability AI開源的視頻生成模型,可以進行試玩。

Stable Video Diffusion,顧名思義便是視頻生成模型,這裡的Stable Video Diffusion是圖片轉視頻模型,是Stability AI社區開源的一個文本或圖片轉視頻模型。

Stable Video Diffusion模型支持輸入一張圖片,然後生成3-30幀/s 的視頻,生成的視頻長度在2-5s之間。其模型生成的視頻質量還是相當的高的。模型有2種尺寸:

SVD:該模型經過訓練,可以在給定的圖片上,生成14幀/s的,分辨率為576*1024的視頻

SVD-XL:該模型跟SVD采用了同樣的模型結構,隻是在模型訓練後,可以生成25/s 的視頻

該模型采用了文本到圖片預訓練,視頻預訓練以及高質量視頻微調三個步驟打造了Stable Video Diffusion模型,其代碼已經在GitHub上開源,可以在本地或者雲端部署。

https://stability.ai/stable-video
https://github.com/Stability-AI/generative-models/tree/main