Stable Video Diffusion圖片轉視頻——Stability AI開源視頻模型

我們前期介紹過Stable Diffusion，stable diffusion模型是Stability AI開源的一個text-to-image的擴散模型，其模型在速度與質量上面有了質的突破，玩傢們可以在自己消費級GPU上面來運行此模型。

文生圖大模型已經火了很長一段時間了，但是隨著需求的不斷增加，對文生視頻的需求也越來越高，上期介紹的字節發佈的MagicVideo2，可以進行文本到視頻的生成，隻是由於沒有開源代碼或者線上鏈接進行試玩。而Stable Video Diffusion是Stability AI開源的視頻生成模型，可以進行試玩。

Stable Video Diffusion，顧名思義便是視頻生成模型，這裡的Stable Video Diffusion是圖片轉視頻模型，是Stability AI社區開源的一個文本或圖片轉視頻模型。

Stable Video Diffusion模型支持輸入一張圖片，然後生成3-30幀/s 的視頻，生成的視頻長度在2-5s之間。其模型生成的視頻質量還是相當的高的。模型有2種尺寸：

SVD：該模型經過訓練，可以在給定的圖片上，生成14幀/s的，分辨率為576*1024的視頻

SVD-XL：該模型跟SVD采用了同樣的模型結構，隻是在模型訓練後，可以生成25/s 的視頻

該模型采用了文本到圖片預訓練，視頻預訓練以及高質量視頻微調三個步驟打造了Stable Video Diffusion模型，其代碼已經在GitHub上開源，可以在本地或者雲端部署。

https://stability.ai/stable-video
https://github.com/Stability-AI/generative-models/tree/main