-
Stable Video Diffusion
鎖定
Stable Video Diffusion是Stability AI發佈的視頻生成大模型,於2023年11月正式發佈
[1]
。
基於Stability AI原有的Stable Diffusion文生圖模型,Stable Video Diffusion可實現文生視頻
[1]
。
- 外文名
- Stable Video Diffusion
- 研發公司
- Stability AI
Stable Video Diffusion功能特色
Stable Video Diffusion能夠適應各種下游任務,包括多視圖合成,Stability AI計劃擴展這個基礎,建立各種模型。該模型以兩種形式發佈,可以生成14和25幀的視頻,幀率可定製
[1]
。
Stable Video Diffusion技術特點
一、多階段訓練策略
Stable Video Diffusion採用了多階段的訓練策略,包括文本到圖像的預訓練、視頻預訓練以及高質量視頻微調。這種分階段的訓練方法使得模型能夠逐步學習到從文本到圖像,再到視頻的複雜映射關係,提高了生成視頻的質量和準確性
[1]
。
二、強大的基礎模型
該技術在訓練過程中,藉助精心準備的大規模數據集和系統化的策劃流程,構建了一個強大的基礎模型。這個基礎模型不僅為下游任務提供了強大的運動表徵,還具備多視圖3D先驗能力,為生成多個視圖的對象提供基礎
[1]
。
三、高效的數據處理和過濾策略
Stable Video Diffusion在數據處理方面採用了多種策略,包括使用密集光流來註釋數據集、應用光學字符識別來清除包含大量文本的剪輯等。這些策略有效地提高了數據集的質量,去除了可能對模型性能產生負面影響的示例。同時,通過CLIP嵌入來註釋每個剪輯的關鍵幀,進一步豐富了數據集的信息量
[1]
。
四、靈活的應用場景
由於Stable Video Diffusion提供了強大的多視圖3D先驗和運動表徵能力,它可以廣泛應用於各種場景,包括文本到視頻的生成、圖像到視頻的生成以及對攝像機運動特定的適應性等。此外,該模型還可以以前饋方式生成對象的多個視圖,具有較小的算力需求和優於基於圖像方法的性能
[1]
。
五、高質量的生成效果
- 參考資料
-
- 1. Stable Video Diffusion來了,代碼權重已上線 .機器之心Pro(百家號)[引用日期2024-02-16]