複製鏈接
請複製以下鏈接發送給好友

Genie

(谷歌DeepMind團隊發佈的AI模型)

鎖定
Genie(全稱:Generative Interactive Environments,生成式交互環境),是谷歌DeepMind團隊發佈的一個AI模型,於2024年2月26日發佈(注:相關論文發表於2月23日) [4-5]  [14]  。Genie是從互聯網視頻中訓練出來的基礎世界模型,可根據合成圖像、照片、草圖生成動作可控的2D世界。 [1-2]  [5] 
Genie擁有110億個參數,由三個部分組成:一個潛在動作模型,用於推斷每對幀之間的潛在動作;一個視頻tokenizer,用於將原始視頻幀轉換為離散token;一個動態模型,用於在給定潛在動作和過去幀token的情況下,預測視頻的下一幀。 [3]  [6]  該模型從遊戲視頻中學習遊戲機制後,支持用户通過提供一段文本或一張草圖等簡單提示來創建2D平台類遊戲。Genie不限於2D平台類遊戲,其模型方法適用於任何類型的領域,可以擴展到更大的互聯網數據集。 [5] 
截至2024年2月,Genie仍是一個研究項目,而非最終產品,其訓練視頻採用160x90像素的超低分辨率視頻,每秒只有10幀,生成的“遊戲”也同樣是低分辨率,每秒只有1幀,因此尚不適用於實時可玩。 [5]  Genie的發佈,意味着谷歌定義了生成式AI的新範式,即生成式交互環境 [6]  ,DeepMind將Genie視為訓練未來通才AI智能體的催化劑。 [5] 
軟件名稱
Genie
上線時間
2024年2月26日
開發商
谷歌DeepMind團隊
軟件全稱
Generative Interactive Environments [4] 

Genie產生背景

自2017年Vaswani等人提出里程碑式的Transformer語言模型,加之硬件方面的發展後,大數據模型得到極大發展。人們通過ChatGPT等預訓練語言模型,拉開了自然語言處理研究和應用的“預訓練+微調”時代。研究表明,生成式人工智能可以通過語言、圖像甚至視頻生成創造性內容 [4-5] 

Genie發展歷程

2024年2月26日,谷歌DeepMind團隊,發佈了一種新的AI模型Genie,它可以接收文本提示、草圖或想法,將其變成一個可以互動和玩耍的虛擬世界(注:相關論文《Genie: Generative Interactive Environments》發表於2024年2月23日) [1]  [3]  [14]  。Genie的名字來源於阿拉伯神話故事中的燈神 [4]  [7] 
截至2024年2月,Genie仍是一個研究項目,而非最終產品,其訓練視頻採用160x90像素的超低分辨率視頻,每秒只有10幀,生成的“遊戲”也同樣是低分辨率,每秒只有1幀,因此尚不適用於實時可玩。 [5] 
Genie Genie

Genie實現方法

Genie基礎架構

Genie架構中的關鍵組件是基於視覺Transformer(ViT)。Transformer的二次方內存成本對於視頻來説是一個極大挑戰,因為視頻中可以包含多達 𝑂(10^4) 個token,對此,Genie團隊採用了一個內存高效的ST-transformer架構,在所有模型組件中平衡模型容量與計算限制。 [13] 
ST-transformer架構 ST-transformer架構
與傳統的Transformer不同,Genie每個token都關注所有其他token,一個ST-transformer包含𝐿個時空塊,其中交錯有空間和時間注意力層,之後是一個標準注意力塊的前饋層(FFW)。空間層中的自注意力關注每個時間步內的1 × 𝐻 × 𝑊個token,而時間層關注𝑇 × 1 × 1個token跨越𝑇個時間步。與序列Transformer類似,時間層假設一個因果結構,帶有一個因果掩碼。Genie架構中計算複雜度的主導因素(即空間注意力層)與幀數的增長,呈線性關係而非二次方關係。這使得它對於視頻生成變得更加高效,能夠在延長的交互中保持一致的動態。此外,在ST塊中,Genie在空間和時間組件之後只包含一個FFW,省略了空間後的FFW,以便擴展模型的其他組件。 [13] 

Genie核心組件

Genie主要由三個部分組成:一個潛在動作模型,用於推斷每對幀之間的潛在動作;一個視頻分詞器tokenizer,用於將原始視頻幀轉換為離散token;一個動態模型,用於在給定潛在動作和過去幀token的情況下,預測視頻的下一幀。Genie架構中的多個組件基於Vision Transformer (ViT) 構建而成。由於Transformer的二次內存成本較高,因此視頻最多可以包含 𝑂(10^4 ) 個token。為此,谷歌在所有模型組件中採用內存高效的ST-transformer架構,以此平衡模型容量與計算約束。 [4]  [6] 
  • 潛在動作模型
潛在動作模型(Latent Action Model ,LAM),用於推理每對幀之間的潛在動作 𝒂,為了實現可控的視頻生成,谷歌DeepMind將前一幀所採取的動作作為未來幀預測的條件。由於此類動作標籤在互聯網的視頻中可用的很少,並且獲取動作註釋的成本很高。因此,Genie以完全無監督的方式學習潛在動作 [4]  [6]  。即Genie的訓練使用了大量公開的互聯網視頻數據集,而沒有使用任何動作標籤數據。 [11-12] 
谷歌以完全無監督的方式學習潛在動作 谷歌以完全無監督的方式學習潛在動作
  • 視頻分詞器
視頻分詞器(Tokenizer),用於將原始視頻幀轉換為離散token 𝒛;在之前研究的基礎上,谷歌將視頻壓縮為離散token,以降低維度並實現更高質量的視頻生成,實現過程中,谷歌使用了VQ-VAE,其將視頻的 𝑇 幀𝒙1:𝑇 = (𝑥1, 𝑥2, · · · , 𝑥𝑇 ) ∈ ℝ𝑇×𝐻×𝑊×C作為輸入,從而為每個幀生成離散表示:𝒛1:𝑇 = (𝑧1, 𝑧2, · · · , 𝑧𝑇 ) ∈ 𝕀𝑇×𝐷,其中𝐷是離散潛在空間大小。分詞器在整個視頻序列上使用標準的VQ-VQAE進行訓練。 [4]  [6] 
谷歌將視頻壓縮為離散 token以降低維度並實現更高質量的視 谷歌將視頻壓縮為離散 token以降低維度並實現更高質量的視
  • 動態模型
動態模型,是一個僅解碼器的MaskGIT transformer,給定潛在動作和過去幀的token,用來預測視頻的下一幀。 [4]  [6] 
動態模型 動態模型

Genie生產過程

用户首先用圖像𝑥1(作為初始幀)來提示模型。使用視頻編碼器對圖像進行標記,得到𝑧1。然後通過選擇[0, |𝐴|]內的任意整數,來指定要採取的離散潛在動作𝑎1。動態模型採用幀token 𝑧1和相應的潛在動作 ̃𝑎1(通過在VQ碼本中使用離散輸入𝑎1進行索引而獲得)來預測下一幀𝑧2。當動作繼續傳遞給模型,重複此過程以自迴歸方式生成序列圖片的其餘部分,同時將token通過分詞器解碼為視頻幀圖片。 [13] 
Genie生產過程 Genie生產過程

Genie應用示例

Genie可以根據合成圖像、照片甚至草圖生成各種各樣動作可控的2D世界,使人們能夠與他們想象的虛擬世界互動。 [5] 
Genie根據圖片生成動作可控的2D世界
原圖 原圖
Genie根據人的畫作生成動作可控的2D世界

Genie產品特性

Genie允許用户通過潛在動作在生成的環境中進行交互。這些動作是通過一個因果動作模型學習得到的,這個模型允許用户通過指定潛在動作來控制視頻的生成過程。用户通過潛在動作與生成的環境進行交互,從而創造出新的、動態的視頻內容。這個特性,讓谷歌相信,Genie是實現通用Agent的基石之作。已有研究表明,遊戲環境可以成為開發AI Agent的有效測試平台,但實際情況中常常受到可用遊戲數量的限制。藉助 Genie,未來的AI Agent可以在新生成的世界中,進行永無休止的訓練。 [11] 
作為一個基礎世界模型,Genie的數據集主要是大量公開的互聯網視頻,其中重點是2D遊戲與機器人視頻。但谷歌強調稱,其採用的方法是通用的,適用於任何類型領域,可以擴展到更大的互聯網數據集,且Genie是在沒有任何動作標註的情況下進行的訓練。Genie在這種情況下“自學成才”,可以專門從網上視頻中學習控制細粒度:它不僅可以瞭解觀察到哪些部分是可控的,還能推斷出在生成環境中的潛在動作,這種潛在動作甚至還可以轉移到真實的人類設計的環境中。 [9] 
同時,Genie也可應用於機器人領域。谷歌研究人員們用來自RT1的無動作視頻訓練了一個較小的2.5B模型,證明Genie能夠學習一致的動作空間,可以幫助訓練機器人。谷歌還指出,Genie有助於實現“通用AI Agent”,有研究表明,對於AI Agent開發而言,遊戲環境是有效測試平台,但這種方法難免會受到可用遊戲數量的限制。Genie則可以幫助生成新世界,讓AI Agent不斷接受訓練。 [9] 

Genie研究團隊

Genie研究團隊的共同一作有六位,分別是Jake Bruce,Michael Dennis,Ashley Edwards,Jack Parker-Holder,Yuge( Jimmy) Shi,以及Tim Rocktäschel。其中,Yuge(Jimmy)Shi是華人,本科畢業於澳大利亞國立大學,2023年獲得牛津大學機器學習博士學位。 [11] 
Genie團隊成員和貢獻 Genie團隊成員和貢獻

Genie產品評價

Genie引入了一個能從圖像或文本生成整個交互式世界的時代,它將成為訓練未來通才AI智能體的催化劑。(谷歌DeepMind團隊 評) [5] 
谷歌的新模型為人工智能的發展應用開闢了新的領域,也為用户帶來了更多的創造性和想象力。每日經濟新聞 評) [2] 
作為一個研究項目,Genie是否會成為真正的產品還不清楚。但重要的是其用於內容生成的潛在技術和新方法,包括通向開放世界的未標記學習。其帶來的另一個重大突破是對真實世界物理的更深入理解,這可以用於訓練機器人更有效地導航環境,或完成訓練中沒有經歷過的任務。(新浪科技 評) [8] 
與Sora呈現出來的高清晰度、高真實度相比,Genie似乎不那麼強調畫面真實性,而是將重點放在潛在動作預測上。Genie只需一張圖像就能創建全新的交互環境,為生成和進入虛擬世界的各種新路徑開啓了大門。(第一財經 評) [10] 
Genie作為世界模型,是人類邁向AGI的旅途中非常重要的一步。(Genie團隊的負責人Tim Rocktäschel 評) [13] 
與Sora不同,Genie實際上是個能推斷動作、用正確動作驅動世界模型。(英偉達科學家Jim Fan 評) [11] 
參考資料
展開全部 收起