反饋

Genie

（谷歌DeepMind團隊發佈的AI模型）

Genie（全稱：Generative Interactive Environments，生成式交互環境），是谷歌DeepMind團隊發佈的一個AI模型，於2024年2月26日發佈（注：相關論文發表於2月23日）^[4-5] ^[14] 。Genie是從互聯網視頻中訓練出來的基礎世界模型，可根據合成圖像、照片、草圖生成動作可控的2D世界。^[1-2] ^[5]

Genie擁有110億個參數，由三個部分組成：一個潛在動作模型，用於推斷每對幀之間的潛在動作；一個視頻tokenizer，用於將原始視頻幀轉換為離散token；一個動態模型，用於在給定潛在動作和過去幀token的情況下，預測視頻的下一幀。^[3] ^[6] 該模型從遊戲視頻中學習遊戲機制後，支持用户通過提供一段文本或一張草圖等簡單提示來創建2D平台類遊戲。Genie不限於2D平台類遊戲，其模型方法適用於任何類型的領域，可以擴展到更大的互聯網數據集。^[5]

截至2024年2月，Genie仍是一個研究項目，而非最終產品，其訓練視頻採用160x90像素的超低分辨率視頻，每秒只有10幀，生成的“遊戲”也同樣是低分辨率，每秒只有1幀，因此尚不適用於實時可玩。^[5] Genie的發佈，意味着谷歌定義了生成式AI的新範式，即生成式交互環境^[6] ，DeepMind將Genie視為訓練未來通才AI智能體的催化劑。^[5]

軟件名稱: Genie
上線時間: 2024年2月26日

開發商: 谷歌DeepMind團隊
軟件全稱: Generative Interactive Environments^[4]

Genie產生背景

自2017年Vaswani等人提出里程碑式的Transformer語言模型，加之硬件方面的發展後，大數據模型得到極大發展。人們通過ChatGPT等預訓練語言模型，拉開了自然語言處理研究和應用的“預訓練+微調”時代。研究表明，生成式人工智能可以通過語言、圖像甚至視頻生成創造性內容^[4-5] 。

Genie發展歷程

2024年2月26日，谷歌DeepMind團隊，發佈了一種新的AI模型Genie，它可以接收文本提示、草圖或想法，將其變成一個可以互動和玩耍的虛擬世界（注：相關論文《Genie: Generative Interactive Environments》發表於2024年2月23日）^[1] ^[3] ^[14] 。Genie的名字來源於阿拉伯神話故事中的燈神。^[4] ^[7]

截至2024年2月，Genie仍是一個研究項目，而非最終產品，其訓練視頻採用160x90像素的超低分辨率視頻，每秒只有10幀，生成的“遊戲”也同樣是低分辨率，每秒只有1幀，因此尚不適用於實時可玩。^[5]

Genie

Genie實現方法

Genie基礎架構

Genie架構中的關鍵組件是基於視覺Transformer（ViT）。Transformer的二次方內存成本對於視頻來説是一個極大挑戰，因為視頻中可以包含多達 𝑂(10^4) 個token，對此，Genie團隊採用了一個內存高效的ST-transformer架構，在所有模型組件中平衡模型容量與計算限制。^[13]

ST-transformer架構

與傳統的Transformer不同，Genie每個token都關注所有其他token，一個ST-transformer包含𝐿個時空塊，其中交錯有空間和時間注意力層，之後是一個標準注意力塊的前饋層（FFW）。空間層中的自注意力關注每個時間步內的1 × 𝐻 × 𝑊個token，而時間層關注𝑇 × 1 × 1個token跨越𝑇個時間步。與序列Transformer類似，時間層假設一個因果結構，帶有一個因果掩碼。Genie架構中計算複雜度的主導因素（即空間注意力層）與幀數的增長，呈線性關係而非二次方關係。這使得它對於視頻生成變得更加高效，能夠在延長的交互中保持一致的動態。此外，在ST塊中，Genie在空間和時間組件之後只包含一個FFW，省略了空間後的FFW，以便擴展模型的其他組件。^[13]

Genie核心組件

Genie主要由三個部分組成：一個潛在動作模型，用於推斷每對幀之間的潛在動作；一個視頻分詞器tokenizer，用於將原始視頻幀轉換為離散token；一個動態模型，用於在給定潛在動作和過去幀token的情況下，預測視頻的下一幀。Genie架構中的多個組件基於Vision Transformer (ViT) 構建而成。由於Transformer的二次內存成本較高，因此視頻最多可以包含 𝑂(10^4 ) 個token。為此，谷歌在所有模型組件中採用內存高效的ST-transformer架構，以此平衡模型容量與計算約束。^[4] ^[6]

潛在動作模型

潛在動作模型（Latent Action Model ，LAM），用於推理每對幀之間的潛在動作 𝒂，為了實現可控的視頻生成，谷歌DeepMind將前一幀所採取的動作作為未來幀預測的條件。由於此類動作標籤在互聯網的視頻中可用的很少，並且獲取動作註釋的成本很高。因此，Genie以完全無監督的方式學習潛在動作^[4] ^[6] 。即Genie的訓練使用了大量公開的互聯網視頻數據集，而沒有使用任何動作標籤數據。^[11-12]

谷歌以完全無監督的方式學習潛在動作

視頻分詞器

視頻分詞器（Tokenizer），用於將原始視頻幀轉換為離散token 𝒛；在之前研究的基礎上，谷歌將視頻壓縮為離散token，以降低維度並實現更高質量的視頻生成，實現過程中，谷歌使用了VQ-VAE，其將視頻的 𝑇 幀𝒙1:𝑇 = (𝑥1, 𝑥2, · · · , 𝑥𝑇 ) ∈ ℝ𝑇×𝐻×𝑊×C作為輸入，從而為每個幀生成離散表示：𝒛1:𝑇 = (𝑧1, 𝑧2, · · · , 𝑧𝑇 ) ∈ 𝕀𝑇×𝐷，其中𝐷是離散潛在空間大小。分詞器在整個視頻序列上使用標準的VQ-VQAE進行訓練。^[4] ^[6]

谷歌將視頻壓縮為離散 token以降低維度並實現更高質量的視

動態模型

動態模型，是一個僅解碼器的MaskGIT transformer，給定潛在動作和過去幀的token，用來預測視頻的下一幀。^[4] ^[6]

動態模型

Genie生產過程

用户首先用圖像𝑥1（作為初始幀）來提示模型。使用視頻編碼器對圖像進行標記，得到𝑧1。然後通過選擇[0, |𝐴|]內的任意整數，來指定要採取的離散潛在動作𝑎1。動態模型採用幀token 𝑧1和相應的潛在動作 ̃𝑎1（通過在VQ碼本中使用離散輸入𝑎1進行索引而獲得）來預測下一幀𝑧2。當動作繼續傳遞給模型，重複此過程以自迴歸方式生成序列圖片的其餘部分，同時將token通過分詞器解碼為視頻幀圖片。^[13]

Genie生產過程

Genie應用示例

Genie可以根據合成圖像、照片甚至草圖生成各種各樣動作可控的2D世界，使人們能夠與他們想象的虛擬世界互動。^[5]

Genie根據圖片生成動作可控的2D世界
原圖
Genie根據人的畫作生成動作可控的2D世界

Genie產品特性

Genie允許用户通過潛在動作在生成的環境中進行交互。這些動作是通過一個因果動作模型學習得到的，這個模型允許用户通過指定潛在動作來控制視頻的生成過程。用户通過潛在動作與生成的環境進行交互，從而創造出新的、動態的視頻內容。這個特性，讓谷歌相信，Genie是實現通用Agent的基石之作。已有研究表明，遊戲環境可以成為開發AI Agent的有效測試平台，但實際情況中常常受到可用遊戲數量的限制。藉助 Genie，未來的AI Agent可以在新生成的世界中，進行永無休止的訓練。^[11]

作為一個基礎世界模型，Genie的數據集主要是大量公開的互聯網視頻，其中重點是2D遊戲與機器人視頻。但谷歌強調稱，其採用的方法是通用的，適用於任何類型領域，可以擴展到更大的互聯網數據集，且Genie是在沒有任何動作標註的情況下進行的訓練。Genie在這種情況下“自學成才”，可以專門從網上視頻中學習控制細粒度：它不僅可以瞭解觀察到哪些部分是可控的，還能推斷出在生成環境中的潛在動作，這種潛在動作甚至還可以轉移到真實的人類設計的環境中。^[9]

同時，Genie也可應用於機器人領域。谷歌研究人員們用來自RT1的無動作視頻訓練了一個較小的2.5B模型，證明Genie能夠學習一致的動作空間，可以幫助訓練機器人。谷歌還指出，Genie有助於實現“通用AI Agent”，有研究表明，對於AI Agent開發而言，遊戲環境是有效測試平台，但這種方法難免會受到可用遊戲數量的限制。Genie則可以幫助生成新世界，讓AI Agent不斷接受訓練。^[9]

Genie研究團隊

Genie研究團隊的共同一作有六位，分別是Jake Bruce，Michael Dennis，Ashley Edwards，Jack Parker-Holder，Yuge（ Jimmy） Shi，以及Tim Rocktäschel。其中，Yuge（Jimmy）Shi是華人，本科畢業於澳大利亞國立大學，2023年獲得牛津大學機器學習博士學位。^[11]