反饋

Zipper

（谷歌DeepMind創新架構）

Zipper是谷歌DeepMind創新架構，由多個單模態預訓練解碼器模型組成。^[1]

利用豐富的無監督單模態數據，Zipper 可以在單一模態中預訓練強大的純解碼器模型，然後利用交叉注意力將多個這樣的預訓練解碼器「壓縮」在一起，並利用有限的跨模態數據進行微調，實現多模態生成能力。預訓練的純解碼器模型可以在新的多模態組合中靈活地重複使用和再利用。^[1]

Zipper 架構由兩個自迴歸解碼器 tower（或主幹）組成，它們通過門控交叉注意力層「壓縮」在一起。每個骨幹使用下一個 token 預測功能分別對單個模態進行訓練。

與 CALM 類似，在解碼器骨幹之間的每 i 層都插入了交叉注意力層。在這些有規律交錯的層中，一種模態的表徵被交叉注意力到另一種模態中。這與 Flamingo [4] 編碼器 - 解碼器設置不同，後者只在一個 tower（編碼器）的最後一層定期交叉注意力到另一個 tower（解碼器）的各層。

將 Zipper 與擴展詞彙量的單解碼器基線進行比較時，可以發現 Zipper 在 test-clean 子集上的性能略好，而在噪音較高的語音 test-other 子集上的性能則略有下降，總體性能相當接近。

Zipper 模型明顯優於單解碼器模型，Zipper S/128M unfrozen model 模型提高了 13 個 WER 點（相對誤差減少 40%），Zipper L/1B unfrozen model 模型提高了 12 個 WER 點（相對誤差減少 38%）。^[1]

Zipper

參考資料

詞條統計