-
Genie
(谷歌DeepMind團隊發佈的AI模型)
鎖定
Genie(全稱:Generative Interactive Environments,生成式交互環境),是谷歌DeepMind團隊發佈的一個AI模型,於2024年2月26日發佈(注:相關論文發表於2月23日)
[4-5]
[14]
。Genie是從互聯網視頻中訓練出來的基礎世界模型,可根據合成圖像、照片、草圖生成動作可控的2D世界。
[1-2]
[5]
- 軟件名稱
- Genie
- 上線時間
- 2024年2月26日
- 開發商
- 谷歌DeepMind團隊
- 軟件全稱
- Generative Interactive Environments [4]
Genie產生背景
自2017年Vaswani等人提出里程碑式的Transformer語言模型,加之硬件方面的發展後,大數據模型得到極大發展。人們通過ChatGPT等預訓練語言模型,拉開了自然語言處理研究和應用的“預訓練+微調”時代。研究表明,生成式人工智能可以通過語言、圖像甚至視頻生成創造性內容
[4-5]
。
Genie發展歷程
2024年2月26日,谷歌DeepMind團隊,發佈了一種新的AI模型Genie,它可以接收文本提示、草圖或想法,將其變成一個可以互動和玩耍的虛擬世界(注:相關論文《Genie: Generative Interactive Environments》發表於2024年2月23日)
[1]
[3]
[14]
。Genie的名字來源於阿拉伯神話故事中的燈神。
[4]
[7]
截至2024年2月,Genie仍是一個研究項目,而非最終產品,其訓練視頻採用160x90像素的超低分辨率視頻,每秒只有10幀,生成的“遊戲”也同樣是低分辨率,每秒只有1幀,因此尚不適用於實時可玩。
[5]
Genie實現方法
Genie基礎架構
Genie架構中的關鍵組件是基於視覺Transformer(ViT)。Transformer的二次方內存成本對於視頻來説是一個極大挑戰,因為視頻中可以包含多達 𝑂(10^4) 個token,對此,Genie團隊採用了一個內存高效的ST-transformer架構,在所有模型組件中平衡模型容量與計算限制。
[13]
與傳統的Transformer不同,Genie每個token都關注所有其他token,一個ST-transformer包含𝐿個時空塊,其中交錯有空間和時間注意力層,之後是一個標準注意力塊的前饋層(FFW)。空間層中的自注意力關注每個時間步內的1 × 𝐻 × 𝑊個token,而時間層關注𝑇 × 1 × 1個token跨越𝑇個時間步。與序列Transformer類似,時間層假設一個因果結構,帶有一個因果掩碼。Genie架構中計算複雜度的主導因素(即空間注意力層)與幀數的增長,呈線性關係而非二次方關係。這使得它對於視頻生成變得更加高效,能夠在延長的交互中保持一致的動態。此外,在ST塊中,Genie在空間和時間組件之後只包含一個FFW,省略了空間後的FFW,以便擴展模型的其他組件。
[13]
Genie核心組件
Genie主要由三個部分組成:一個潛在動作模型,用於推斷每對幀之間的潛在動作;一個視頻分詞器tokenizer,用於將原始視頻幀轉換為離散token;一個動態模型,用於在給定潛在動作和過去幀token的情況下,預測視頻的下一幀。Genie架構中的多個組件基於Vision Transformer (ViT) 構建而成。由於Transformer的二次內存成本較高,因此視頻最多可以包含 𝑂(10^4 ) 個token。為此,谷歌在所有模型組件中採用內存高效的ST-transformer架構,以此平衡模型容量與計算約束。
[4]
[6]
- 潛在動作模型
潛在動作模型(Latent Action Model ,LAM),用於推理每對幀之間的潛在動作 𝒂,為了實現可控的視頻生成,谷歌DeepMind將前一幀所採取的動作作為未來幀預測的條件。由於此類動作標籤在互聯網的視頻中可用的很少,並且獲取動作註釋的成本很高。因此,Genie以完全無監督的方式學習潛在動作
[4]
[6]
。即Genie的訓練使用了大量公開的互聯網視頻數據集,而沒有使用任何動作標籤數據。
[11-12]
- 視頻分詞器
視頻分詞器(Tokenizer),用於將原始視頻幀轉換為離散token 𝒛;在之前研究的基礎上,谷歌將視頻壓縮為離散token,以降低維度並實現更高質量的視頻生成,實現過程中,谷歌使用了VQ-VAE,其將視頻的 𝑇 幀𝒙1:𝑇 = (𝑥1, 𝑥2, · · · , 𝑥𝑇 ) ∈ ℝ𝑇×𝐻×𝑊×C作為輸入,從而為每個幀生成離散表示:𝒛1:𝑇 = (𝑧1, 𝑧2, · · · , 𝑧𝑇 ) ∈ 𝕀𝑇×𝐷,其中𝐷是離散潛在空間大小。分詞器在整個視頻序列上使用標準的VQ-VQAE進行訓練。
[4]
[6]
- 動態模型
Genie生產過程
用户首先用圖像𝑥1(作為初始幀)來提示模型。使用視頻編碼器對圖像進行標記,得到𝑧1。然後通過選擇[0, |𝐴|]內的任意整數,來指定要採取的離散潛在動作𝑎1。動態模型採用幀token 𝑧1和相應的潛在動作 ̃𝑎1(通過在VQ碼本中使用離散輸入𝑎1進行索引而獲得)來預測下一幀𝑧2。當動作繼續傳遞給模型,重複此過程以自迴歸方式生成序列圖片的其餘部分,同時將token通過分詞器解碼為視頻幀圖片。
[13]
Genie應用示例
Genie根據圖片生成動作可控的2D世界 | |
Genie根據人的畫作生成動作可控的2D世界 | |
Genie產品特性
Genie允許用户通過潛在動作在生成的環境中進行交互。這些動作是通過一個因果動作模型學習得到的,這個模型允許用户通過指定潛在動作來控制視頻的生成過程。用户通過潛在動作與生成的環境進行交互,從而創造出新的、動態的視頻內容。這個特性,讓谷歌相信,Genie是實現通用Agent的基石之作。已有研究表明,遊戲環境可以成為開發AI Agent的有效測試平台,但實際情況中常常受到可用遊戲數量的限制。藉助 Genie,未來的AI Agent可以在新生成的世界中,進行永無休止的訓練。
[11]
作為一個基礎世界模型,Genie的數據集主要是大量公開的互聯網視頻,其中重點是2D遊戲與機器人視頻。但谷歌強調稱,其採用的方法是通用的,適用於任何類型領域,可以擴展到更大的互聯網數據集,且Genie是在沒有任何動作標註的情況下進行的訓練。Genie在這種情況下“自學成才”,可以專門從網上視頻中學習控制細粒度:它不僅可以瞭解觀察到哪些部分是可控的,還能推斷出在生成環境中的潛在動作,這種潛在動作甚至還可以轉移到真實的人類設計的環境中。
[9]
同時,Genie也可應用於機器人領域。谷歌研究人員們用來自RT1的無動作視頻訓練了一個較小的2.5B模型,證明Genie能夠學習一致的動作空間,可以幫助訓練機器人。谷歌還指出,Genie有助於實現“通用AI Agent”,有研究表明,對於AI Agent開發而言,遊戲環境是有效測試平台,但這種方法難免會受到可用遊戲數量的限制。Genie則可以幫助生成新世界,讓AI Agent不斷接受訓練。
[9]
Genie研究團隊
Genie研究團隊的共同一作有六位,分別是Jake Bruce,Michael Dennis,Ashley Edwards,Jack Parker-Holder,Yuge( Jimmy) Shi,以及Tim Rocktäschel。其中,Yuge(Jimmy)Shi是華人,本科畢業於澳大利亞國立大學,2023年獲得牛津大學機器學習博士學位。
[11]
Genie產品評價
Genie引入了一個能從圖像或文本生成整個交互式世界的時代,它將成為訓練未來通才AI智能體的催化劑。(谷歌DeepMind團隊 評)
[5]
谷歌的新模型為人工智能的發展應用開闢了新的領域,也為用户帶來了更多的創造性和想象力。(每日經濟新聞 評)
[2]
作為一個研究項目,Genie是否會成為真正的產品還不清楚。但重要的是其用於內容生成的潛在技術和新方法,包括通向開放世界的未標記學習。其帶來的另一個重大突破是對真實世界物理的更深入理解,這可以用於訓練機器人更有效地導航環境,或完成訓練中沒有經歷過的任務。(新浪科技 評)
[8]
與Sora呈現出來的高清晰度、高真實度相比,Genie似乎不那麼強調畫面真實性,而是將重點放在潛在動作預測上。Genie只需一張圖像就能創建全新的交互環境,為生成和進入虛擬世界的各種新路徑開啓了大門。(第一財經 評)
[10]
- 參考資料
-
- 1. 谷歌DeepMind推出Genie模型,可立即生成可玩的遊戲 .界面新聞.2024-02-27
- 2. 全球科技早參丨谷歌發佈交互世界模型 .每日經濟新聞[引用日期2024-02-28]
- 3. 谷歌發佈新AI模型Genie:一張圖片創建可互動的虛擬世界 .和訊網[引用日期2024-02-28]
- 4. [2402.15391] Genie: Generative Interactive Environments .arxiv[引用日期2024-02-28]
- 5. 谷歌展示Genie模型:一張草圖就能生成一個2D遊戲 .澎湃新聞[引用日期2024-02-28]
- 6. 剛剛,谷歌發佈基礎世界模型:11B參數,能生成可交互虛擬世界 .機器之心[引用日期2024-02-28]
- 7. 羅賓·威廉姆斯戲裏戲外俏皮話多 經典語錄曝光 .中新網[引用日期2024-02-28]
- 8. 谷歌發佈新AI模型Genie:一張圖片創建可互動的虛擬世界 .新浪財經[引用日期2024-02-28]
- 9. 真•AI創世“精靈”!谷歌交互世界模型重磅發佈 鋪開AGI康莊大道? .科創板日報[引用日期2024-02-28]
- 10. 谷歌重磅推出Genie世界模型!人工智能卷向新時代 .第一財經[引用日期2024-03-07]
- 11. “谷歌版Sora”被嘲畫質好糊,但在世界模擬器上又前進了一步 .量子位[引用日期2024-03-07]
- 12. 剛剛,谷歌發佈基礎世界模型:11B參數,能生成可交互虛擬世界 .機器之心[引用日期2024-03-07]
- 13. 谷歌Genie爆打Sora,基礎世界模型AGI來了?一張草圖即生一個世界,通才智能體迎來新革命 .新智元[引用日期2024-03-07]
- 14. 谷歌CEO反思大模型生成錯誤圖像:不可接受,初期沒有完美AI .澎湃新聞[引用日期2024-03-14]
- 收起