複製鏈接
請複製以下鏈接發送給好友

Stable Video Diffusion

鎖定
Stable Video Diffusion是Stability AI發佈的視頻生成大模型,於2023年11月正式發佈 [1] 
基於Stability AI原有的Stable Diffusion文生圖模型,Stable Video Diffusion可實現文生視頻 [1] 
外文名
Stable Video Diffusion
研發公司
Stability AI

Stable Video Diffusion功能特色

Stable Video Diffusion能夠適應各種下游任務,包括多視圖合成,Stability AI計劃擴展這個基礎,建立各種模型。該模型以兩種形式發佈,可以生成14和25幀的視頻,幀率可定製 [1] 

Stable Video Diffusion技術特點

一、多階段訓練策略
Stable Video Diffusion採用了多階段的訓練策略,包括文本到圖像的預訓練、視頻預訓練以及高質量視頻微調。這種分階段的訓練方法使得模型能夠逐步學習到從文本到圖像,再到視頻的複雜映射關係,提高了生成視頻的質量和準確性 [1] 
二、強大的基礎模型
該技術在訓練過程中,藉助精心準備的大規模數據集和系統化的策劃流程,構建了一個強大的基礎模型。這個基礎模型不僅為下游任務提供了強大的運動表徵,還具備多視圖3D先驗能力,為生成多個視圖的對象提供基礎 [1] 
三、高效的數據處理和過濾策略
Stable Video Diffusion在數據處理方面採用了多種策略,包括使用密集光流來註釋數據集、應用光學字符識別來清除包含大量文本的剪輯等。這些策略有效地提高了數據集的質量,去除了可能對模型性能產生負面影響的示例。同時,通過CLIP嵌入來註釋每個剪輯的關鍵幀,進一步豐富了數據集的信息量 [1] 
四、靈活的應用場景
由於Stable Video Diffusion提供了強大的多視圖3D先驗和運動表徵能力,它可以廣泛應用於各種場景,包括文本到視頻的生成、圖像到視頻的生成以及對攝像機運動特定的適應性等。此外,該模型還可以以前饋方式生成對象的多個視圖,具有較小的算力需求和優於基於圖像方法的性能 [1] 
五、高質量的生成效果
通過多階段的訓練策略和精心準備的數據集,Stable Video Diffusion能夠生成高質量、動作連貫且時間一致的視頻內容 [1] 
參考資料