Vlogger:基於 AI 的 Vlog

2024年2月6日 26点热度 0人点赞

在這項工作中,我們提出了Vlogger,這是一個用於生成分鐘級視頻博客(即vlog)的通用AI系統。與幾秒鐘的短視頻不同,vlog通常包含一個復雜的劇情和多樣化的場景,這對大多數現有的視頻生成方法來說都是具有挑戰性的。為了突破這一瓶頸,我們的Vlogger巧妙地利用大型語言模型(LLM)作為導演,將vlog的長期視頻生成任務分解為四個關鍵階段,其中我們調用各種基礎模型扮演vlog專業人員的關鍵角色,

  • 劇本
  • 演員
  • ShowMaker
  • Voicer

通過模仿人類的設計,我們的Vlogger可以通過自上而下的規劃和自下而上的拍攝的可解釋合作來生成vlogs。此外,我們引入了一個新穎的視頻擴散模型ShowMaker,它作為我們Vlogger中的攝影師,用於生成每個拍攝場景的視頻片段。通過結合劇本和演員作為文本和視覺提示,它可以有效地增強片段中的空間-時間連貫性。此外,我們為ShowMaker設計了一種簡潔的混合訓練范式,提升了它在T2V生成和預測方面的能力。最後,廣泛的實驗表明,我們的方法在零次拍攝T2V生成和預測任務上達到了最先進的性能。更重要的是,Vlogger可以從開放世界的描述中生成超過5分鐘的vlogs,而不會影響劇本和演員的視頻連貫性。

GIthub:https://github.com/Vchitect/Vlogger