我們前期介紹過Stable Diffusion,stable diffusion模型是Stability AI開源的一個text-to-image的擴散模型,其模型在速度與質量上面有了質的突破,玩傢們可以在自己消費級GPU上面來運行此模型。
文生圖大模型已經火了很長一段時間了,但是隨著需求的不斷增加,對文生視頻的需求也越來越高,上期介紹的字節發佈的MagicVideo2,可以進行文本到視頻的生成,隻是由於沒有開源代碼或者線上鏈接進行試玩。而Stable Video Diffusion是Stability AI開源的視頻生成模型,可以進行試玩。
Stable Video Diffusion,顧名思義便是視頻生成模型,這裡的Stable Video Diffusion是圖片轉視頻模型,是Stability AI社區開源的一個文本或圖片轉視頻模型。
Stable Video Diffusion模型支持輸入一張圖片,然後生成3-30幀/s 的視頻,生成的視頻長度在2-5s之間。其模型生成的視頻質量還是相當的高的。模型有2種尺寸:
SVD:該模型經過訓練,可以在給定的圖片上,生成14幀/s的,分辨率為576*1024的視頻
SVD-XL:該模型跟SVD采用了同樣的模型結構,隻是在模型訓練後,可以生成25/s 的視頻
該模型采用了文本到圖片預訓練,視頻預訓練以及高質量視頻微調三個步驟打造了Stable Video Diffusion模型,其代碼已經在GitHub上開源,可以在本地或者雲端部署。
https://stability.ai/stable-video
https://github.com/Stability-AI/generative-models/tree/main