Sora 技術原理解析

01 Sora 基於擴散模型和 Transformer 架構

Sora 是文生視頻大模型，比起文生文、文生圖，文生視頻無疑更加複雜。但從技術原理來說，Sora 實際上是將擴散模型和 Transformer 架構融合，建立了一種 diffusion Transformer 模型。

1. 擴散模型

擴散模型 (Diffusion Models) 是一類新的最先進的生成模型，可生成各種各樣的高分辨率圖像。基於擴散模型的示例架構有 GLIDE、DALLE-2、Imagen 和完全開源的 stable diffusion。以去噪擴散概率模型 (Denoising Diffusion Probabilistic Model, DDPM) 爲例，其核心思想是通過一系列小步驟訓練一個深度學習模型去除圖像中的噪聲。如果我們從完全隨機的噪聲開始，理論上我們能夠不斷應用該模型，直到獲得一幅看上去就像是從訓練集中採樣出來的圖像。

2. Transformer 架構

Transformer 架構擅長處理文本數據，這些數據本身是有順序的。Transformer 架構的大語言模型包括編碼器和解碼器，編碼器將一個文本序列作爲輸入，解碼器負責產生另一個文本序列作爲輸出。解碼器不僅考慮了之前解碼生成的詞，還綜合了編碼器的上下文信息，從而更準確地預測下一個詞。解碼器以一種 token 流的方式持續輸出，直到完成任務。例如，將一個輸入的英語句子翻譯成西班牙語，或者根據一句話生成一篇文章。

02 將視頻數據轉化爲時空塊

Sora 研發受到大語言模型（LLM）的啓發。LLM 範式的成功部分得益於使用 token，token 巧妙地統一了文本的多種形式——代碼、數學和各種自然語言。在文生視頻模型研發工作中，OpenAI 提出了**時空塊（spacetime latent patch）**概念，統一了多種類型的視頻和圖片，可作爲視頻 Transformer 的 token 使用。

如下圖所示，OpenAI 訓練了一個用於降低視覺數據維度的視頻壓縮網絡（Video compression network），首先將原始視頻壓縮到一個低維潛在空間中，並分解成一系列的時空塊。

基於時空塊的表示方式使得 Sora 能夠在不同分辨率、持續時間和寬高比的視頻和圖像上進行訓練。

03 在低維潛在空間中生成視頻然後映射回像素空間

Sora 在這個壓縮的潛在空間中生成視頻。在推理時，可以通過在適當大小的網格中隨機初始化時空塊來控制生成視頻的大小。

Sora 是一個擴散模型，基於給定初始噪聲塊輸入和文本提示詞等條件信息，可以預測出原始的 “乾淨” 塊。然後繼續基於已經生成的視頻塊和文本條件不斷預測生成新的塊，從而實現視頻的動態變化。

還開發了一個對應的解碼器模型，它能將生成的潛在表示映射回到像素空間。

04 時空塊技術可以提升視頻適配性和構圖質量

由於採用時空塊的存儲方式，Sora 訓練時沒有對素材進行裁切，使得 Sora 能夠直接爲不同設備以其原生縱橫比創造內容。Sora 可以採樣和生成寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介於兩者之間的所有視頻。

針對視頻的原生縱橫比進行訓練，還可以提高構圖和取景的質量。比如，其他模型會將所有訓練視頻裁剪爲正方形，會導致有時會生成僅部分可見主體的視頻。而相比之下，Sora 的視頻取景有很大提升。

05 Sora 採用的文本處理技術

在語言理解層面，OpenAI 發現，對高度描述性視頻字幕進行訓練可以提高文本保真度以及視頻的整體質量。訓練文本到視頻的生成系統需要大量配有相應文本提示的視頻。Sora 將在 DALL·E 3 中引入的**重新字幕技術（re-captioning technique）**應用到了視頻上。該技術首先訓練一個高度描述性的字幕生成器模型，然後使用它爲訓練數據集中的視頻生成文本字幕。

與 DALL·E 3 相似，Sora 也利用了 GPT 技術，將用戶的簡短提示轉換成更詳細的提示，然後發送給視頻模型。

06 Scaling Law 再次顯靈

OpenAI 表示，transformer 在各個領域都表現出了卓越的擴展特性，包括語言建模、計算機視覺、圖像生成以及視頻生成。下圖展示了訓練過程中，在相同的樣本下，隨着訓練計算規模的增加，視頻質量顯著提高。

OpenAI 發現，視頻模型在大規模訓練時表現出許多有趣的新興功能，使 Sora 能夠模擬現實世界中人、動物和環境的某些方面。這些屬性的出現對 3D、物體等沒有任何明確的歸納偏差——純粹是模型縮放現象。

因此，OpenAI 將視頻生成模型，命名爲 “世界模擬器”（world simulators），或稱之爲 “世界模型”——可以理解爲讓機器像人類理解世界的方式一樣學習。

07 結語

Sora 技術並不是從石頭裏蹦出來，它仍然是很多技術的綜合和海量數據訓練湧現出的奇蹟。作爲一種 diffusion Transformer 模型，它使用時空塊來處理視頻和圖片數據，並通過擴散模型來預測生成的時空塊，通過 transformer 架構保證這一預測更加合理和連續。

本文由 Readfog 進行 AMP 轉碼，版權歸原作者所有。
來源：https://mp.weixin.qq.com/s/haiOIc1Bcok8Rdh8an1RWg

猜你喜歡