反饋

Stable Video Diffusion

鎖定

Stable Video Diffusion是Stability AI發佈的視頻生成大模型，於2023年11月正式發佈^[1] 。

基於Stability AI原有的Stable Diffusion文生圖模型，Stable Video Diffusion可實現文生視頻^[1] 。

外文名: Stable Video Diffusion

研發公司: Stability AI

Stable Video Diffusion功能特色

Stable Video Diffusion能夠適應各種下游任務，包括多視圖合成，Stability AI計劃擴展這個基礎，建立各種模型。該模型以兩種形式發佈，可以生成14和25幀的視頻，幀率可定製^[1] 。

Stable Video Diffusion技術特點

一、多階段訓練策略

Stable Video Diffusion採用了多階段的訓練策略，包括文本到圖像的預訓練、視頻預訓練以及高質量視頻微調。這種分階段的訓練方法使得模型能夠逐步學習到從文本到圖像，再到視頻的複雜映射關係，提高了生成視頻的質量和準確性^[1] 。

二、強大的基礎模型

該技術在訓練過程中，藉助精心準備的大規模數據集和系統化的策劃流程，構建了一個強大的基礎模型。這個基礎模型不僅為下游任務提供了強大的運動表徵，還具備多視圖3D先驗能力，為生成多個視圖的對象提供基礎^[1] 。

三、高效的數據處理和過濾策略

Stable Video Diffusion在數據處理方面採用了多種策略，包括使用密集光流來註釋數據集、應用光學字符識別來清除包含大量文本的剪輯等。這些策略有效地提高了數據集的質量，去除了可能對模型性能產生負面影響的示例。同時，通過CLIP嵌入來註釋每個剪輯的關鍵幀，進一步豐富了數據集的信息量^[1] 。

四、靈活的應用場景

由於Stable Video Diffusion提供了強大的多視圖3D先驗和運動表徵能力，它可以廣泛應用於各種場景，包括文本到視頻的生成、圖像到視頻的生成以及對攝像機運動特定的適應性等。此外，該模型還可以以前饋方式生成對象的多個視圖，具有較小的算力需求和優於基於圖像方法的性能^[1] 。

五、高質量的生成效果

通過多階段的訓練策略和精心準備的數據集，Stable Video Diffusion能夠生成高質量、動作連貫且時間一致的視頻內容^[1] 。

參考資料

1. Stable Video Diffusion來了，代碼權重已上線．機器之心Pro（百家號）[引用日期2024-02-16]

Stable Video Diffusion的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：1次歷史版本
最近更新：普普jason1 （2024-02-17）

1 功能特色
2 技術特點

Stable Video Diffusion

目錄

Stable Video Diffusion功能特色

Stable Video Diffusion技術特點