複製鏈接
請複製以下鏈接發送給好友

Sora

(OpenAI發佈的人工智能文生視頻大模型)

鎖定
Sora,美國人工智能研究公司OpenAI發佈的人工智能文生視頻大模型(但OpenAI並未單純將其視為視頻模型,而是作為“世界模擬器” [10]  ,於2024年2月15日(美國當地時間)正式對外發布 [1]  [3] 
Sora這一名稱源於日文“空”(そら sora),即天空之意,以示其無限的創造潛力。其背後的技術是在OpenAI的文本到圖像生成模型DALL-E基礎上開發而成的。 [50-51]  [56] 
Sora可以根據用户的文本提示創建最長60秒的逼真視頻,該模型瞭解這些物體在物理世界中的存在方式,可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的複雜場景。繼承了DALL-E 3的畫質和遵循指令能力,能理解用户在提示中提出的要求 [1-2]  [4] 
Sora對於需要製作視頻的藝術家、電影製片人或學生帶來無限可能,其是OpenAI“教AI理解和模擬運動中的物理世界”計劃的其中一步 [4]  ,也標誌着人工智能在理解真實世界場景並與之互動的能力方面實現飛躍 [2] 
外文名
Sora
所屬公司
OpenAI
發佈時間
2024年2月
類    別
文生視頻大模型
模型類別
擴散模型
使用架構
Transformer架構

Sora行業背景

  • OpenAI在大模型領域的成功
2022年底,OpenAI正式推出ChatGPT,這款由人工智能技術驅動的自然語言處理工具能夠通過學習和理解人類的語言來進行對話 [26]  。ChatGPT是OpenAI邁出的第一步,這款讓所有人都能體會到人工智能潛力的現象級產品,展現出了文字對於過去人工智能的理解力和邏輯能力的超越。隨後,OpenAI的開發重點逐步過渡到圖像的生成,Dall-E模型在生成圖像方面也獲得了重大突破 [25] 
  • 視覺算法的進步
視覺算法近年來的突破在泛化性、可提示性、生成質量和穩定性等方面均取得了進展,這預示着技術拐點的臨近以及爆款應用的湧現。特別是在3D資產生成和視頻生成領域,由於擴散算法的成熟,這些領域受益匪淺。然而,與圖像生成相比,3D資產和視頻生成在數據和算法方面面臨的難點更多 [21] 
儘管如此,考慮到大型語言模型(LLM)對人工智能各領域的加速作用以及已經出現的優秀開源模型,2024年該行業有望實現更大的發展。在2023年末至2024年初,Pika、HeyGen等人工智能生成的視頻應用逐漸受到關注,這驗證了多模態技術的持續進步與成熟 [21]  。但與此同時,民主倡導者和人工智能研究人員警告説,這些工具已經被用來欺騙和欺騙民眾 [22] 

Sora名字由來

Sora在日語中是“天空”(そら)的意思,引申含義還有“自由”,象徵着其無限的創造潛力 [50-51] 
Sora 官網 Sora 官網

Sora發展歷程

Sora正式發佈

美國當地時間2024年2月15日 [3]  ,OpenAI正式發佈文生視頻模型Sora [1]  ,併發布了48個文生視頻案例和技術報告 [36]  ,正式入局視頻生成領域 [5]  。Sora能夠根據提示詞生成60s的連貫視頻,“碾壓”了行業目前大概只有平均“4s”的視頻生成長度 [34] 
2024年2月21日,博主寶玉xp分享稱,OpenAI的Tiktok賬號發佈了不少Sora生成的視頻,還配上了背景音樂。 [60]  3月,Sora核心團隊三位負責人露面接受了專訪。他們在採訪中透露,Sora還處於反饋獲取階段,還不是一個產品,短期內不會向公眾開放。 [59]  3月26日,每經AI快訊,OpenAI介紹該公司與藝術家和電影製片人的早期合作情況,展示Sora如何幫助人們把想法轉變為現實。 [61]  4月4日消息,OpenAI 近日在其 YouTube 官方頻道發佈視頻,介紹了由 August Kamp 參與制作,完全由文本轉視頻 AI 模型 Sora 生成的首支音樂短片《Worldweight》。 [62] 
OpenAI CEO奧特曼在社交媒體展示Sora的能力 OpenAI CEO奧特曼在社交媒體展示Sora的能力

Sora功能特色

Sora優點

  • 功能綜述
Sora可以快速製作最長一分鐘、準確反映用户提示、可一鏡到底的視頻 [2]  (其他AI視頻工具還在突破幾秒內的連貫性 [23]  ,視頻可以呈現“具有多個角色、特定類型的動作、以及主題和背景的準確細節的複雜場景” [1] 
中國龍年舞龍 中國龍年舞龍
雨後的東京街頭 雨後的東京街頭
行駛中的列車窗外 行駛中的列車窗外
好萊塢大片質感的電影預告片 好萊塢大片質感的電影預告片
加州淘金熱時期的歷史鏡頭 加州淘金熱時期的歷史鏡頭
玻璃球的特寫視圖 玻璃球的特寫視圖
24歲女性眨眼的極端特寫 24歲女性眨眼的極端特寫
  • 靜態圖生成視頻
Sora還具備根據靜態圖像生成視頻的能力,能夠讓圖像內容動起來,並關注細節部分,使得生成的視頻更加生動逼真,這一功能在動畫製作、廣告設計等領域具有應用前景 [3-4] 
  • 視頻擴展與缺失幀填充
Sora能夠獲取現有視頻並對其進行擴展或填充缺失的幀,這一功能在視頻編輯、電影特效等領域具有應用前景,可以幫助用户快速完成視頻內容的補充和完善 [3-4] 
  • 連接視頻
可以使用Sora連接兩個輸入視頻,在具有完全不同主題和場景組成的視頻之間實現無縫過渡 [3] 
  • 其他能力
Sora的其他能力
能力
描述
圖像生成
Sora可以生成各種尺寸的圖像,分辨率最高達2048×2048 [3] 
3D一致
Sora可以生成動態運動的視頻,隨着相機的移動和旋轉,人和場景元素在三維空間中一致移動 [3] 
遠距離連貫性
物體持久性
Sora通常能夠有效地對短期和長期依賴關係進行建模,包括人、動物和物體的持久化,即使它們被遮擋或離開框架。同時,它還能在單個樣本中生成同一角色的多個鏡頭,以保持其在整個視頻中的外觀 [3] 
互動性
Sora有時可以用簡單的方式模擬影響世界狀態的動作。例如一個畫家可以在畫布上留下新的筆觸,並隨着時間的推移而持續,或者一個男人可以吃漢堡並留下咬痕 [3] 
模擬數字世界
Sora可以模擬人工過程,例如電子遊戲,並能夠通過基本策略控制玩家,同時高保真地渲染世界及其動態 [3] 
多機位
Sora可以生成多機位、多角度的視頻 [44] 

Sora缺點

Sora也存有以下弱點:可能難以準確模擬複雜場景的物理原理,無法理解因果關係,混淆提示的空間細節,難以精確描述隨着時間推移發生的事件 [4] 
狼在追逐打鬧過程中,可能會憑空多出或消失 狼在追逐打鬧過程中,可能會憑空多出或消失
例如,在“五隻灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”的場景中,狼的數量會變化,一些憑空出現或消失。在提示詞“籃球穿過籃筐然後爆炸”中,籃球沒有正確被籃筐阻擋 [4] 
沒有正確表示籃球穿過籃筐的過程 沒有正確表示籃球穿過籃筐的過程
OpenAI表示,Sora存在不成熟之處,可能難以理解因果關係,多位人工智能領域人士表示,該問題可能因其概率模式的邏輯存有“硬傷”。加大訓練量、增加訓練數據與物理邏輯可改善該問題,但無法根治。想要真正突破最底層邏輯上的問題,因果關係是一條必經之路 [41] 

Sora技術特點

Sora多幀預測生成

Sora是一種擴散模型,具備從噪聲中生成完整視頻的能力,它生成的視頻一開始看起來像靜態噪音,通過多個步驟逐漸去除噪聲後,視頻也從最初的隨機像素轉化為清晰的圖像場景 [22]  ,其能夠一次生成多幀預測,確保畫面主體在暫時離開視野時仍保持一致 [3-4] 

Sora特殊架構

Sora採用與GPT模型相似的Transformer架構,OpenAI用Transformer結構替代Diffusion模型中常用的U-Net結構,提升了原來Diffusion模型在深度和寬度上的可擴展性,為視頻模型增加輸出時長奠定基礎 [40]  。Transformer架構能夠處理長序列數據,並通過自注意力機制捕捉數據中的依賴關係,從而提高模型的生成能力 [3-4]  。但為了解決Transformer架構在長文本和高分辨率圖像處理上的問題,擴散模型採用更可擴展的狀態空間模型SSM主幹替代了傳統的注意力機制,從而減少了算力需求,並能夠生成高分辨率圖像 [10] 
Transformer架構示意圖
訓練計算量增加,輸出質量提升 訓練計算量增加,輸出質量提升

Sora重述提示詞

Sora借鑑DALL-E 3的“重述提示詞技術”,為視覺訓練數據生成高度描述性的標註,這使得模型能夠更忠實地遵循用户的文本指令,生成符合用户需求的視頻內容,同時也提高了模型的靈活性和可控性 [3-4] 

Sora數據表示

OpenAI將視頻和圖像表示為Patch,類似於GPT中的token,這種統一的數據表示方式使得Sora能夠在更廣泛的視覺數據上進行訓練,涵蓋不同的持續時間、分辨率和縱橫比,有助於模型學習到更豐富的視覺特徵,提高生成視頻的質量和多樣性 [3-4] 
將視覺數據轉化為Patch

Sora原生規模訓練

Sora採用“原生規模訓練”,過往的圖像和視頻生成通常會將視頻調整為標準大小,但這樣會失去視頻的原始長寬比和細節,而原生規模的訓練方法可以帶來更好的效果。Sora可以對各種尺寸和縱橫比的視頻進行採樣,允許直接為不同尺寸的設備創建內容,並快速原型化較低分辨率的內容。與將視頻裁剪為正方形的模型相比,Sora可以生成更完整、更美觀的視頻 [3] 
Sora可以直接生成不同尺寸的視頻 Sora可以直接生成不同尺寸的視頻

Sora模型研發

Sora主要人員

Sora核心團隊有15人 [43]  ,研究團隊呈年輕化,主要負責人在2023年博士畢業,團隊中還包含“00後”新生代力量以及藝術生 [35] 
姓名
簡介
照片
Tim Brooks
OpenAI研究員,在加州大學伯克利分校讀博士,Sora項目的共同領導者,參與過DALL-E 3相關研究。
曾在Google負責Pixel手機攝像頭的機器學習工作,曾在NVIDIA負責視頻生成模型研究 [3]  [13-14] 
其攝影作品曾獲國家地理、自然的最佳攝影和國家野生動物聯合會的獎項,其還在紐約百老匯燈塔劇院演出過,曾獲得Beatbox國際獎項 [43] 
Tim Brooks Tim Brooks
William (Bill) Peebles
OpenAI研究員,加州大學伯克利分校博士,Sora項目的共同領導者 [24]  ,致力於研究深度學習和人工智能。
曾在Facebook AI Research、Adobe Research和NVIDIA實習 [3]  [15-16] 
William (Bill) Peebles William (Bill) Peebles
研究員,在科羅拉多礦業學院讀計算機科學博士,Sora項目的系統領導者 [24]  ,致力於解決在推理和訓練深度學習任務時遇到的系統效率問題,在LLM、BERT風格編碼器、循環神經網絡(RNNs)和UNets等領域擁有經驗 [43] 
在Microsoft擔任研究員 [3]  [17-18] 
Connor Holmes Connor Holmes
OpenAI研究員,“00後”,密西根大學計算機系本科畢業,參與過DALL-E 3相關研究,常在社交媒體解答網友的疑問。
大四時曾創業市場諮詢公司“DeepResearch” [19]  [35] 
Will DePue Will DePue
OpenAI研究員,曾參加GPT-4項目研究 [43] 
OpenAI研究員,麻省理工學院物理學博士,致力於研究多模態模型,參與過DALL-E 3相關研究。
曾在Facebook AI Research進行博士後研究 [3]  [11-12]  ,曾入選福布斯中國“30歲以下30人”榜單 [43] 
Li Jing Li Jing
OpenAI研究員,畢業於加州大學伯克利分校。
曾在Meta和ins任職軟件工程師及工程經理 [43] 
Ricky Wang Ricky Wang
OpenAI研究員,畢業於加州大學聖塔芭芭拉分校 [35] 
曾在Graphiq(後被亞馬遜收購)與Uber工作,曾帶領團隊做出了Alexa語音助手的原型 [43] 
David Schnurr David Schnurr
OpenAI研究員,畢業於美國舊金山藝術大學,擅長用户界面設計網頁設計藝術指導等多方面。
曾在StripePeriscopeSquareBlackboard等工作 [43] 
OpenAI研究員,致力於開發高效和領先的人工智能算法,主要研究領域在生成式建模和計算機視覺,特別是在擴散模型方面 [43] 
OpenAI研究員,DALL-E發明者和DALL-E 2聯合開發者 [3]  [20] 
Aditya Ramesh Aditya Ramesh
曾從事新聞行業,在今日美國、WIRED等媒體有過任職,曾在蘋果任職 [43] 
Natalie Summers Natalie Summers
此外,Troy Luhman、Clarence Wing Yin Ng等人也參與了Sora相關研究 [3]  [35]  。而Sora團隊也正在持續擴張,David Schnurr發佈招聘廣告尋找有大型視頻基礎設施經驗的人員 [43] 

Sora研發軼事

  • 技術基礎
Sora團隊共同領導者William (Bill) Peebles和謝賽寧合著的論文《Scalable diffusion models with transformers》被認為是Sora背後的重要技術基礎之一(但謝賽寧否認參與Sora研發團隊,僅稱其合著論文起到一些作用 [46]  ,不過這項研究在發表的時候並不順利。Sora發佈時,圖靈獎獲得者、Meta首席科學家Yann LeCun表示該研究論文因為“缺乏創新”,先被CVPR 2023拒絕,後來被ICCV 2023接收 [43]  [45] 
  • 研發時間
謝賽寧在公開回應時,稱William (Bill) Peebles告訴其他們“每天基本不睡覺,高強度工作了一年” [46] 

Sora專業測試

安全性
OpenAI已將Sora交由Team Red(網絡安全演習中扮演敵人或競爭對手角色的羣體)測試Sora,評估潛在的危害或風險 [2]  。此外,OpenAI正在開發幫助檢測誤導性信息的工具,比如檢測分類器可以判斷視頻是何時由Sora生成的,其文本分類器可檢查並拒絕違反使用政策的文本輸入提示,例如極端暴力、性內容、仇恨圖像、名人肖像等 [7] 
創意性
OpenAI邀請了專業創意人士測試Sora,用於反饋其在專業環境中的實用性,OpenAI計劃根據這些反饋意見改進Sora,確保它能有效滿足用户的需求 [2] 

Sora社會影響

Sora價值意義

Sora對於需要製作視頻的藝術家、電影製片人或學生來説,都帶來了無限可能。該模型可以深度模擬真實物理世界,標誌着人工智能在理解真實世界場景並與之互動的能力方面實現飛躍 [2]  ,也被認為是實現通用人工智能(AGI)的重要里程碑,通過不斷深入研究和發展Sora等先進模型,有望在未來實現更加智能、高效和多樣化的視頻生成與處理技術 [4]  。Sora的推出讓AIGC(生成式人工智能)再度成為行業焦點,能否徹底“顛覆”行業也成為輿論議論的中心。 [58] 

Sora產業格局

  • 估值上漲
Sora發佈後,OpenAI的估值迅速上漲(有望超過800億美元,2023年ChatGPT發佈不久時其估值約為290億美元),且文生視頻大模型將會大幅推動人工智能基礎設施的需求,英偉達、OpenAI、軟銀等巨頭公司都被曝正在進行AI芯片的製造佈局,英偉達也因大模型訓練需要GPU算力支持而股價大漲 [38]  。與此同時,受Sora發佈的影響,美國圖片供應商Shutterstock的股價大跌 [39] 
在中國,龍年開市第一天,Sora相關概念全線“爆發”,會暢通訊、當虹科技、萬興科技、易點天下、因賽集團、東方國信數碼視訊華揚聯眾、國脈文化等股票均大幅上漲,多家公司迴應稱,將根據自身業務特點,在文生視頻技術落地、Sora應用等方面尋找突破入口 [49] 
  • 生產變革
浙商證券預測,Sora及同類產品將參與到改變信息生產和分發兩大環節的進程中,PGC(專業生產內容)將廣泛採用AI工具輔助生產,UGC用户生成內容將藉助AI工具逐步替代PGC。此間,AI生成視頻工具的商業化將提速 [41] 
Sora可生成一段長達60秒的視頻,遠超市面同類AI產品視頻生成時長,60秒的視頻時長,已經超過抖音等短視頻平台的平均視頻時長,Sora的誕生也為以後短視頻平台的內容生產提供了更大的可能性。 [47] 

Sora職業取代

截至2024年2月,已有一些視覺藝術家、設計師和電影製作人以及OpenAI員工獲得了Sora訪問權限,他們也已開始在社交平台不斷曬出使用Sora生成的新作品,為人們展示AI生成視頻的創意可能。許多網友稱“不少人要丟工作了”,甚至有人開始“悼念”一整個素材行業 [4]  [6] 

Sora各界評價

各界對Sora的評價/態度
類別
專家
評價
科技界
英偉達科學家
DrJimFan
Sora是一個數據驅動的物理引擎,它是對許多世界的模擬,無論是真實的還是幻想的,模擬器通過一些去噪和梯度數學來學習複雜的渲染、“直觀”物理、長期推理和語義基礎 [10] 
趣丸集團副總裁
莊明浩
Sora的面世影響的不僅是文生視頻領域,下一步將是過去一年各家遊戲物理引擎廠商們一直在嘗試的自然語言改造生產流程,以及3D素材生產這個戰場 [10] 
信息科學教授特德·安德伍德
沒想到在接下來的兩到三年內還會出現這種持續、連貫的視頻生成水平 [22] 
普林斯頓大學計算機科學教授
Arvind Narayanan
根據OpenAI發佈的視頻,Sora似乎比任何其他視頻生成工具都“先進得多”,這可能會導致“深度偽造”視頻,人們更難識別出人工智能生成的視頻 [22] 
360集團創始人、董事長
Sora將縮短AGI(通用人工智能)實現時間,從10年縮短到1年。OpenAI訓練該模型應該會以視頻和攝像頭捕捉的畫面為主,人工智能通過觀看大量視頻將對世界有更深入的理解,這離AGI實現不遠 [32] 
圖靈獎得主、Meta首席AI科學家
根據提示詞生成的大部分逼真視頻並不表明這樣的AI系統理解物理世界,生成視頻的過程與基於世界模型的因果預測完全不同 [41] 
影視界
電影導演兼視覺效果專家
很快,像Sora這樣的人工智能工具將允許電影製作者仔細控制他們的輸出,從頭開始創建各種視頻,當技術剝奪了其他人的創造力、工作、想法和執行力,卻沒有給予他們應有的榮譽和經濟報酬時,不是一件好事情 [22] 
專業攝影師
Sora視頻幀率較高,説明計算能力比較強,且影片的寬容度更高,如調色、細節表現、高速鏡頭展現等。在直觀感受上,Sora 模型產出的視頻運鏡自然,物體運動符合規律,鏡頭間邏輯一致性好,但是Sora視頻的邏輯性會差一點 [41] 
杜紅軍
編劇、導演不必因Sora的出現而擔心,它是幫助實現影視效果的好工具,能夠激發更多人的內容創造力。人類負責創意,AI負責創造,未來的電影創作將是概念片先行,可能不是在寫劇本,而是“寫”影像 [48] 
社會界
副研究員唐林垚
相較於其他視頻類生成式AI,Sora在畫面清晰度、內容流暢度、表意深度和精彩程度方面均有大幅提升,如果Sora的能力真如官方公佈一樣強大,且之後可以像ChatGPT一樣便捷訪問,那麼Sora將給廣告行業、影視行業和特效行業帶來極大的衝擊。 [37] 
前記者、現斯坦福大學研究員
巴西勒·西蒙
在生成式人工智能方面有了可怕的飛躍,可以快速生成逼真的作品,這些工具可能會在選舉中被濫用,公眾將可能“不再知道該相信什麼” [42] 
意料之中也意料之外。所謂意料之中,是因為ChatGPT誕生之後,業內專家都普遍預測大模型一定會從純文本的大模型向多模態發展。所謂多模態指的是圖文混合、和視頻相結合的這類大模型。意料之外是指當你親眼看到了Sora生成的視頻具備如此的逼真度,衝擊力還是很激烈的。它對模擬物理世界的逼真程度,達到了空前的水平,是之前人工智能技術從來沒有做到過的 [55] 

Sora主要競品

Sora的部分競品
公司
產品
技術路線
發佈時間
PYoCo
擴散模型
2023.05
擴散模型
2023.06
Pika 1.0
擴散模型
2023.11
擴散模型
2023.11
擴散模型
2023.11
谷歌
Video Poet
Transformer
2023.12
擴散模型
2024.01
參考資料: [8-9] 
相較於其他模型,Sora的優勢主要是三方面:
  • 第一:可以生成長達60秒鐘的視頻,包括多個角色、特定類型動作和主題背景;
  • 第二:可以在單個生成的視頻中創建多個鏡頭,模擬複雜的攝像機運鏡,同時準確地保持角色和視覺風格;
  • 第三:能夠理解物體在現實世界中的物理規律和存在方式 [33] 
在各模型復現Sora“穿過下雪、櫻花飛舞的東京街道”場景 在各模型復現Sora“穿過下雪、櫻花飛舞的東京街道”場景 [54]

Sora社會爭議

Sora虛假信息

Sora的發佈引發了關於虛假信息傳播的爭議。其強大的圖像視頻生成能力達到了以假亂真的程度,這不僅改變了人們“眼見為實”的傳統觀念,還可能帶來一系列社會問題,如視頻證據真實性和有效性的驗證難題。在Sora問世前已有多起利用AI偽造視頻進行詐騙的案例,顯示了AI生成視頻可能被濫用於非法目的的風險。Sora的普及可能會進一步降低製作高質量虛假視頻的門檻,加劇虛假信息的傳播。儘管互聯網平台已有針對特定類型虛假信息的檢測機制,但對於複雜難辨的信息仍需加強深度分析和及時阻斷。隨着AI生成內容的激增,網絡上的合成內容將大量存在,這要求不僅在技術上持續改進,還需建立更全面的治理體系來有效應對虛假信息的挑戰 [52] 

Sora版權問題

Sora可能引發侵權爭議。一方面,Sora生成的視頻版權是否受到保護尚不明確,這可能導致使用這些視頻的主體面臨侵權索賠和版權保護追溯的風險。另一方面,Sora在訓練過程中使用了相關素材,即使只是用這些素材進行訓練,也可能存在潛在的侵權風險 [53] 

Sora門檻問題

一直以來,技術做的事情就是“允許個體作用於世界”,技術媒介、人工智能的出現,是幾何級降低“個體作用於世界”的門檻,幾何級提升它的可能性。Sora讓視頻創作隨手可得、人人可行,極大實現了內容和創作主體的多樣化,這其實是技術媒介時代平權主義趨勢的表徵,可以想象其普及之後媒介平台上的豐富性 [57] 
不過,與其説這是打開了傳統影視業的閘門,不如説這是抬高了影視業的水準,使後者變為更小眾、更精英化的行業。想想看,什麼是平權主義且大眾化的Sora沒有的?首先是極高的原創性,然後是短視頻不具備的故事深度與情感共鳴,從歷史感、故事深度和人物塑造中,建立與受眾深層的情感連接,這是Sora為影視行業畫出的新界限 [57] 
參考資料
展開全部 收起